基于语义标记树的xml文档聚类研究

基于语义标记树的xml文档聚类研究

ID:33908548

大小:3.12 MB

页数:108页

时间:2019-03-01

基于语义标记树的xml文档聚类研究_第1页
基于语义标记树的xml文档聚类研究_第2页
基于语义标记树的xml文档聚类研究_第3页
基于语义标记树的xml文档聚类研究_第4页
基于语义标记树的xml文档聚类研究_第5页
资源描述:

《基于语义标记树的xml文档聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.基王适幺拯运挝鲍X咝坠塞挡塞娄盈窒⑧指导教师签名:论文评阅人1:窿五珲晕评阅人2:醒:丕翌宜——评阅人3:遗盘霉覃一评阅人4.评阅人5:答辩委员会主席:当逊[迎i工琏纽阻委员1:骘鹰纽江盘茧毖拉委员2:j雪鑫蝗厶趣.五叁堂[盔蛰鱼委员3:渣壅能[i罅iL琏f函:皿{垒委员4:奎甾彰i遗江琏f&!虐丝委员5:lJ性声明Ilit1ILIt1IIIIIIIIIIIIIY1894158本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝姿盘

2、鲎或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:障涵日A签字日期:工。tf年6月f日学位论文版权使用授权书本学位论文作者完全了解逝姿盘鲎有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅.本人授权逝婆盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:f洚淘蝇导师签名:签字日期:z··1年‘月f日签字日期:月Ij摘要

3、XML自1998年发布以来,凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据交换和表示的标准,网上关于XML的数据出现了爆炸性的增长,目前如何对XML数据进行有效挖掘成为了研究热点。本文在对XML相关技术以及XML文档聚类算法进行介绍的基础上,梳理了近几年XML文档相似度计算方法的研究进展,针对这些相似度度量方法依靠的多是文档中字符串的简单比对,未涉及文档语义信息的情况,本文提出了一种基于语义标记树的XML文档相似度度量方法,此方法以传统路径法基础,从文档结构特征和标记的语义信息考察文档的相似度。首先利用基于WordNet的

4、语义消歧模块对XML文档间相同的标记进行语义消歧,然后利用语义相似度计算方法对XML文档中不相同的标记进行语义相关度计算,将文档中相同的标记以及标记间的语义相关度共同作为文档的特征来衡量文档的相似度,最后在实验数据集上利用层次聚类算法中的最近邻聚类算法进行分类,证实其确实是一种比较有效的XML文档聚类方法。关键词:WordNet语义相似度XML聚类AbstractSinceitwasreleasedat1998,XMLgraduallybecameastandardfordatarepresentationanddataexchangewiththea

5、dvantageofuncomplexity,self-description,extensibilityandopen.TheXMLdataisfloodingontheweb.Atpresent,XMLdataminingincreasinglybecameapopularresearchissue.BasedontheintroductionofXMLtechnologyandtheclusteralgorithmforXMLdocuments,thepaperreviewthestudyontheXMLdocumentssimilarityco

6、mputation,thesemethodsofmeasuringthesimilarityofdocumentsatpresentonlymakeuseofcomparingthestring,anddon’tconsiderthesemanticinformation.Inviewofthesecases,thepaperproposesanewmethodformeasuringthesimilarity,whichisbasedonthesemantictagtree.Themethodcomputesthesimilaritywiththes

7、tructureandsemanticinformationonthebasisofpath.Firstly,themethodmakesuseofwordsensedisambiguationwhichisbasedontheWordNettodisambiguatethecommontagsinthedocuments,then,computesthesemanticrelatednessofthedifferenttags,measurethedocumentsimilaritywiththesametagsandthesemanticrelat

8、ednessofdifferenttags.Atlast,thepapermaketheexp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。