基于频繁子树挖掘的xml聚类方法研究

基于频繁子树挖掘的xml聚类方法研究

ID:33287606

大小:2.18 MB

页数:69页

时间:2019-02-23

基于频繁子树挖掘的xml聚类方法研究_第1页
基于频繁子树挖掘的xml聚类方法研究_第2页
基于频繁子树挖掘的xml聚类方法研究_第3页
基于频繁子树挖掘的xml聚类方法研究_第4页
基于频繁子树挖掘的xml聚类方法研究_第5页
资源描述:

《基于频繁子树挖掘的xml聚类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ADissertationSubmittedtoZhejiangUniversityfortheDegreeofMasterofEngineering—Author:Supervisor:Subject:College:SubmittedDate:AssociateProfesso——r———————S———————h————...o......u......。...L.........i..。.d.......a......n——鳄L一=一口I监5一重

2、一必世C一他一幽世型迪盟一一砉

3、一浙江大学硕士学位论文摘要XML数据由于其开放性、通用性、

4、半结构化等特性,已经成为互联网上数据表示和交换的标准。随着XML应用的不断扩展,大量数据源产生出千差万别的XML文档,它们所遵循的文档模式(DTD或XMLSchema)也各不相同。对异源XML数据集合进行处理的一个关键技术,是将XML文档根据结构相似性进行分类并提取DTD。基于同一DTD的XML文档间会有较多的相同子结构,对于规模较大的XML文档集而言,表现为频繁子树。本文研究基于频繁子树的XML聚类算法。主要工作包括:1、概述现有的针对XML文档的聚类方法,指出这些方法的不足之处,提出了新的解决的思路,即基于频繁子树进行聚类,并阐述了理论依据

5、。2、在经典频繁子树挖掘算法FREQT的基础上,引入了等价类扩展的思想,提出了FROTreeMiner算法,该算法大大减少了产生的候选子树数目,可用于挖掘频繁递归有序子树。3、基于频繁子树挖掘结果,本文提出两种XML文档相似度计算方法:第一种方法结合了向量空间模型和频繁子树构建频繁结构特征向量,通过特征向量来计算相似度。第二种方法先构建了全局的频繁子树包含关系表,通过该表可以找出文档包含的最大频繁子树和文档间最大的共有频繁子树,并以此为基础定义了XML文档相似度计算公式。在得到文档的相似度后,通过最小生成树来进行XML文档的聚类。4、实验表明了

6、(1)FROTreeMiner频繁子树挖掘算法效率高于经典算法FREQT。(2)基于频繁子树的聚类算法在应用于XML文档分类时,比传统算法具有更高的准确率和性能。关键词:XML,频繁子树挖掘,子树包含关系表,最大频繁子树,聚类AbstractSinceXMLwasreleased,duetoitssimplicity,openness,universal,halfstructuralcharacteristics,ithasbecometheinteractdatarepresentandexchangestandard.Withtheexpa

7、nsionofXMLapplications,XMLdocumentsmaycomefromdifferentdatasources,thedocumentmodes(DTDorXMLSchema)theyfollowedarealsodifferent,andclassifyingtheXMLdocumentsaccordingtotheDTDs,extracingtheDTDinformationisthebasisofprocessingHeterogeneousXMLdata.theXMLdocumentsbausedonthesame

8、DTDwillhavemorecommonsubstructures,forthelargerXMLdocumentsets,arethefrequentsubtrees.SothispaperstudytheXMLclusteringalgorithmbasedonfrequentsubtrees.Themainworkincludes:1,HavealloverviewoftheexistingXMLdocumentclusteringmethods,pointouttheshortcomingsofthesemethods,andputf

9、orwardanewsolution,whichbasedonfrequentsubtrccs,withtheTheoreticalbasisexpounded.2,BasedontheclassicfrequentsubtreeminingalgorithmFREQT,thisarticleintroducestheideaoftheequivalentclassexpansion,putsforwardtoFROTreeMineralgorithm,whichgreatlyreducesthenumberofthecandidatesubt

10、rccs,andCanbeusedforminingfrequentreducedorderedtrees3,Withthefrequentsubtr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。