基于语义的文本聚类搜索研究

基于语义的文本聚类搜索研究

ID:34040638

大小:2.59 MB

页数:64页

时间:2019-03-03

基于语义的文本聚类搜索研究_第1页
基于语义的文本聚类搜索研究_第2页
基于语义的文本聚类搜索研究_第3页
基于语义的文本聚类搜索研究_第4页
基于语义的文本聚类搜索研究_第5页
资源描述:

《基于语义的文本聚类搜索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得燃走‰其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:扣锄签字日期:力矿//年/月/日学位论文版权使用授权书本学位论文作者完全了解燃天孥有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借

2、阅。本人授权芸彳数天娑可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后使用本授权书)‘学位论文作者签名:季喻签字日期:沙/f年‘月/日学位论文作者毕业去向:工作单位:通讯地址:导师签名:签字日期:电话:邮编:减棚pF郄峰o≯摘要I删嬲Y1975646文本聚类是数据挖掘领域中的一个重要分支,尤其在信息量迅速增长的当今社会,文本聚类能够在人们日常的生产生活中起到重要作用。国内外围绕着文本聚类这一课题进行了大量的研究,并有了些初步的成

3、果,但是从目前的研究状况来看,文本聚类仍有很多地方需要改进。本文通过对现有研究成果的介绍和对比分析,总结出文本聚类的两个值得改进的关键点:一方面,聚类算法作为文本聚类的核心部分,能够直接影响整个聚类过程的效率和聚类质量,而目前并没有特别适用于文本聚类领域的聚类算法,大部分的算法也无法同时在算法复杂度和聚类质量上有良好的表现;另一方面,大部分的方法未能充分考虑到语义因素对文本聚类的影响,或者在聚类过程中未能有效的融入语义因素,因而得到的聚类结果不够理想。针对如何合理的平衡聚类算法的复杂度和聚类质量这一问题,本文介

4、绍和分析了几个具有代表性的聚类算法在文本聚类领域中的优势和不足,并结合了基于划分的聚类算法和基于密度的聚类算法各自的优点,提出了基于密度的聚类算法DBCl心N。DBCKNN算法利用了k近邻和离群度等概念,能够迅速确定数据集中每类的中心并自动调节类半径,在保证了聚类效果的基础上提高了聚类的效率。针对如何有效的将语义因素融入聚类过程这个问题,本文利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相

5、对减小语义相关的特征向量问的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。本文也通过理论分析和实验验证了所提出算法与方法的有效性和正确性。本文在文章最后对所做的工作做出了合理评价,并对文本聚类领域未来的发展做出了展望。关键词:文本聚类,聚类算法,基于密度,VSM模型,语义Abstract⋯一飞’I’extclusteringisaninlportantbI.anchofDataMining.1'oday,withtheincreasinginf.omation,textcluster

6、ingplaysasignificantr01einourdailyworkaIldlife.IntennsoftheteXtclustering,alotofresearcheshavebeendoneaccompalliedbysomeinitialachieVements.Buttherearestillmarlyimprovementsinthecurrentresearches.BasedontheconditionofexistingresearchesandcomparatiVeanalysis,

7、twokeypointssummarizedheretoimproVetheteXtclustering.Ontheonehand,theclusteringalgorithm,asthecoreoftextclustering,candirectlydete珊inetheefFectiVenessandefnciencyofclustering.Ho、veVer,cunIently,thereisnoclusteringalgorithmspec讯callyapplyinginthetextclusterin

8、g,andmostalgoritluTlcannothaveafavo豫bleperf-ornlancebothinthecomplexityofalgorithmandefIiciencyofclustering;ontheotherhand,mostapproachesdonotadequatelyconsiderthesemanticfactorsontheimpactoftex

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。