基于序列模式的序列聚类挖掘算法研究

基于序列模式的序列聚类挖掘算法研究

ID:33233674

大小:749.72 KB

页数:62页

时间:2019-02-22

基于序列模式的序列聚类挖掘算法研究_第1页
基于序列模式的序列聚类挖掘算法研究_第2页
基于序列模式的序列聚类挖掘算法研究_第3页
基于序列模式的序列聚类挖掘算法研究_第4页
基于序列模式的序列聚类挖掘算法研究_第5页
资源描述:

《基于序列模式的序列聚类挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类TP391密级_____________硕士学位论文基于序列模式的序列聚类挖掘算法研究杨天霞导师姓名职称:王治和教授专业名称:计算机应用技术研究方向:数据库技术及应用(数据挖掘)论文答辩日期:2010年6月学位授予日期:2010年6月答辩委员会主席:评阅人:二○一○年六月硕士学位论文M.D.Thesis基于序列模式的序列聚类挖掘算法研究Thestudyofsequenceclusteringminingalgorithmbasedonsequencepattern杨天霞YangTianxia独创性声明-I-摘要序列模式挖掘是从大型时序数据库中

2、发现事件之间存在的隐藏的、有趣的序列关系,挖掘出基于时间或者其它顺序的出现频率高的频繁序列模式。它弥补了关联规则挖掘不能反映事件在时间顺序上相关性的缺点。序列模式挖掘技术已在顾客购买行为分析、DNA序列模式分析等多个领域得到了广泛的应用。本文重点研究了在已挖掘的频繁序列模式的基础上,再利用划分聚类的K-均值算法对序列数据进行聚类研究。文中利用Huffman树的构造思想对K-均值算法随机选取初始中心点会导致聚类结果的不稳定性缺点提出了一种新的解决算法K-SPAM(K-meansalgorithmofsequencepatternminingbase

3、dontheHuffmanMethod)。K-SPAM算法实现了对包含相似模式的序列数据进行聚类,通过对聚类初始中心点的选取采用Huffman思想,减少了K-均值算法的迭代次数,提高了聚类的稳定性。并通过实验对K-SPAM和K-均值算法的聚类结果进行比较,进一步证实了K-SPAM算法的优点。关键词:数据挖掘;序列模式;K-均值;相异度;Huffman算法-II-AbstractSequentialpatternminingistodiscoverhiddenandinterestingsequencerelationshipsbetweeneve

4、ntsfromlargesequencedatabases,andtotapoutthehighfrequentsequentialpatternsoftime-basedorothersequences.Sequencepatternminingmakesupfortheshortcomingsthatassociationruleminingdoesnotreflectthechronologicalorderrelevancebetweenevents.Sequentialpatternmininghasbeenwidelyappliedi

5、nmanyfields,suchasCustomerBuyingBehaviorAnalysis,DNASequencePatternAnalysisandetc.ThispaperfocusesontheproblemthatsequentialdatabasehasbeenfurtherclusteredbyusingK-meansalgorithmonthebasisoftheresultsofsequentialpatternmining.Inthepaper,anewalgorithmnamedK-SPAM(K-meansalgorit

6、hmofsequencepatternminingbasedontheHuffmanMethod)isproposedonthebasisofHuffmantree’sstructureideas.Thisalgorithmaddressesthisshortcomingthatitcouldleadtotheinstabilityofclusteringresultstoselecttheinitialcenterrandomlyinthek-meansclusteringalgorithm.K-SPAMrealizesthefunctiont

7、hatdatasequencescontainingsimilarpatternsareclustered.Huffman’sideasareadoptedtoselectinitialcenterinthek-meansalgorithm.Asaresult,thenumberofiterationsarereducedandthestabilityofclusteringisalsoimproved.Finally,theK-SPAMalgorithmhasbeencomparedwithk-meansalgorithmabouttheclu

8、steringresultsbytheexperimentalmethod,tofurtherconfirmtheadvantageso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。