xml查询模式挖掘的研究

xml查询模式挖掘的研究

ID:34109533

大小:1.96 MB

页数:76页

时间:2019-03-03

xml查询模式挖掘的研究_第1页
xml查询模式挖掘的研究_第2页
xml查询模式挖掘的研究_第3页
xml查询模式挖掘的研究_第4页
xml查询模式挖掘的研究_第5页
资源描述:

《xml查询模式挖掘的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、燕山大学硕士学位论文XML查询模式挖掘的研究姓名:艾鸿申请学位级别:硕士专业:计算机软件与理论指导教师:刘国华20050301摘要数据挖掘作为一个新兴的技术是支持企业决策、处理大量信息的关键步骤之一。Intemet的飞速发展,出现了大量的XML数据,高效地处理XML数据成为数据挖掘研究重要方向之一。本文在对国内外研究现状进行综合分析的基础上,对XML频繁查询模式的挖掘问题进行了研究。本文主要研究了挖掘XML频繁查询模式涉及的技术、方法,所做的主要工作如下:首先,讨论挖掘XML查询模式相:是的xML、XQuery、关联规则和聚类技

2、术;分析和比较以关联规则为基础,挖掘XML频繁查询模式的各种算法的特点,总结它们的优缺点。其次,对目前性能最好FastXMiner算法深入的研究,并实现了该算法。然后,提出一种基于网格和密度的聚类算法。将XML数据有效的划分,根据密度的闽值和DTD引导寻找子空间,利用图的连通算法将单元格有效的连通,高密度的连通空间就是频繁查询模式。算法的优点是避免FastXMiner算法对候选有根子树的树的包含测试需要的时间开销。最后,提出在线挖掘频繁查询模式算法的框架。针对XML流查询是连续的,查询处理所使用的内存远远小于数据流本身,查询处理

3、过程中数据仅仅能够被扫描一遍等特点,挖掘频繁出现的共享路径并将其综合到一个结构中,从而避免重复操作。该算法能确保高速缓存在线挖掘的高效性,同时确定当前“热点”的查询模式,并且能捕捉查询流的更新趋势和模式达到提高查询效率的目的。关键词数据挖掘;XML查询;关联规则;聚类;频繁查询模式燕山大学二L学硕士学位论文AbstractDataMiningisanewtechniquewhichcanbeusedfordecision-making,anditisanimportantmethodofdeaiingwithmagnanimou

4、sinformation.AsInteractrapidlydeveloped,thereisagreatquantityXMLdata.OneofsignificantresearchdirectionsishandleXMLdataefficiently.Onthebasisofanalyzingandsynthesizingtheactualityininternalandexternal,thispaperresearchedtheproblemsofminingintheXMLQuery.Firstly,inthisp

5、aperminingXMLquerypatternassistanttechniqueswerediscussed,suchaSXML,XMLQuery,aSsistantrulerandcluster.Miningfrequentquerypatternsbasedonassistantrulerwerecomparedandanalyzed,theirrespectiveadvantagesanddisadvantageswerepresented.Secondly,thefinestalgorithm—FastXMiner

6、WaSresearcheddeeplyatpresent.ThealgorithmwaSachievedinthispaper.Thirdly,aclusteringalgorithmbasedongridanddensewasgiven.XMLdataplotedoutefficiently,foundsubspacesbasedonDTDandMindense.connectedgridsbygraphconnectalgorithm.Frequentquerypatternswerehigh-desertssubspace

7、s.Itsadvantageswerereducedthetimecostedtree—containmentalgorithminFastXMiner.Finally,thealgorithmframeworkforminingfrequentquerypatternsonlinewasprovided.Itcouldminethefrequentmodesandcomposethemtoaconstructiontoavoidrepeatingoperatessincethequerystreamshadthecharact

8、eristicsthememoryfootprintqueryprocessusedWaSfarsmallerthanthedatastreams;thenthedatacouldbescanedonlyonce.Toensureacachingsystemre

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。