欢迎来到天天文库
浏览记录
ID:34109533
大小:1.96 MB
页数:76页
时间:2019-03-03
《xml查询模式挖掘的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、燕山大学硕士学位论文XML查询模式挖掘的研究姓名:艾鸿申请学位级别:硕士专业:计算机软件与理论指导教师:刘国华20050301摘要数据挖掘作为一个新兴的技术是支持企业决策、处理大量信息的关键步骤之一。Intemet的飞速发展,出现了大量的XML数据,高效地处理XML数据成为数据挖掘研究重要方向之一。本文在对国内外研究现状进行综合分析的基础上,对XML频繁查询模式的挖掘问题进行了研究。本文主要研究了挖掘XML频繁查询模式涉及的技术、方法,所做的主要工作如下:首先,讨论挖掘XML查询模式相:是的xML、XQuery、关联规则和聚类技
2、术;分析和比较以关联规则为基础,挖掘XML频繁查询模式的各种算法的特点,总结它们的优缺点。其次,对目前性能最好FastXMiner算法深入的研究,并实现了该算法。然后,提出一种基于网格和密度的聚类算法。将XML数据有效的划分,根据密度的闽值和DTD引导寻找子空间,利用图的连通算法将单元格有效的连通,高密度的连通空间就是频繁查询模式。算法的优点是避免FastXMiner算法对候选有根子树的树的包含测试需要的时间开销。最后,提出在线挖掘频繁查询模式算法的框架。针对XML流查询是连续的,查询处理所使用的内存远远小于数据流本身,查询处理
3、过程中数据仅仅能够被扫描一遍等特点,挖掘频繁出现的共享路径并将其综合到一个结构中,从而避免重复操作。该算法能确保高速缓存在线挖掘的高效性,同时确定当前“热点”的查询模式,并且能捕捉查询流的更新趋势和模式达到提高查询效率的目的。关键词数据挖掘;XML查询;关联规则;聚类;频繁查询模式燕山大学二L学硕士学位论文AbstractDataMiningisanewtechniquewhichcanbeusedfordecision-making,anditisanimportantmethodofdeaiingwithmagnanimou
4、sinformation.AsInteractrapidlydeveloped,thereisagreatquantityXMLdata.OneofsignificantresearchdirectionsishandleXMLdataefficiently.Onthebasisofanalyzingandsynthesizingtheactualityininternalandexternal,thispaperresearchedtheproblemsofminingintheXMLQuery.Firstly,inthisp
5、aperminingXMLquerypatternassistanttechniqueswerediscussed,suchaSXML,XMLQuery,aSsistantrulerandcluster.Miningfrequentquerypatternsbasedonassistantrulerwerecomparedandanalyzed,theirrespectiveadvantagesanddisadvantageswerepresented.Secondly,thefinestalgorithm—FastXMiner
6、WaSresearcheddeeplyatpresent.ThealgorithmwaSachievedinthispaper.Thirdly,aclusteringalgorithmbasedongridanddensewasgiven.XMLdataplotedoutefficiently,foundsubspacesbasedonDTDandMindense.connectedgridsbygraphconnectalgorithm.Frequentquerypatternswerehigh-desertssubspace
7、s.Itsadvantageswerereducedthetimecostedtree—containmentalgorithminFastXMiner.Finally,thealgorithmframeworkforminingfrequentquerypatternsonlinewasprovided.Itcouldminethefrequentmodesandcomposethemtoaconstructiontoavoidrepeatingoperatessincethequerystreamshadthecharact
8、eristicsthememoryfootprintqueryprocessusedWaSfarsmallerthanthedatastreams;thenthedatacouldbescanedonlyonce.Toensureacachingsystemre
此文档下载收益归作者所有