资源描述:
《基于隐马尔可夫模型的web文本挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南华大学硕士学位论文基于隐马尔可夫模型的Web文本挖掘技术研究姓名:邹腊梅申请学位级别:硕士专业:工学计算机应用技术指导教师:肖基毅20070501摘要随着网络技术的快速发展,网络信息量迅速增加,呈现出海量、异构、动态的特点,如何从网络信息中发掘潜在、有用的知识成为一个重要的研究方向。Web文本挖掘是使用数据挖掘技术自动地从Web文档和服务中发现和提取信息和知识的技术,在网络信息处理过程中,Web文本挖掘是加快查找速度,提高查找准确率的重要手段之一。本文介绍了Web挖掘常用方法、Web挖掘分类,详细阐述了Web文本
2、挖掘流程、文本特征表示和提取、文本信息抽取、分类、聚类、关联规则等关键技术及典型算法。在比较了不同的机器学习方法后,本文提出基于隐马尔可夫模型(HMM)的Web文本挖掘方法,介绍了实验训练数据的收集,隐马尔可夫模型的组成,隐马尔可夫模型的三个问题及典型算法,在对训练数据集进行标记的基础上,利用最大似然算法实现隐马尔可夫模型的构建,对实验数据集中的论文条目进行进一步解析,实现测试数据集中不同域信息的提取,实验结果表明该方法是可行的。对于未标记训练数据集,本文提出基于遗传算法和隐马尔可夫模型的Web文本挖掘方法。该方法
3、利用Baum-Welch算法学习隐马尔可夫模型的概率分布,但Baum-Welch算法本身为梯度下降训练算法,在隐马尔可夫模型概率分布学习过程中存在局部极小和对初始参数敏感的问题。为减少这些问题对识别过程的影响,本文引入遗传算法,并结合Web文本的特点对基本遗传算法进行了相应的调整,提出了GA-HMM模型,该模型利用遗传算法寻找隐马尔可夫模型初始参数的全局最优解,改善了HMM训练效果,提高系统的效率。通过对大量的实验结果进行比较,本文得出基于GA-HMM的文本挖掘方法更具优越性的结论。关键词:数据挖掘;Web文本;隐
4、马尔可夫模型;最大似然;遗传算法IResearchofWebTextMiningTechnologyBasedonHiddenMarkovModelAbstractWiththedevelopmentofthenetworktechniques,theinformationonInternetincreasesquicklyandshowsthefeaturesofmass,different-structure,dynamic,howtofindthepotential,usefulknowledgehasbec
5、omeanewresearchdirection.TheWebtextminingisthetechniqueoffindinginformationandknowledge,extractinginformationandknowledgeautomaticallyfromWebdocumentsandservicesusingdataminingtechnology,duringtheprocessingofnetworkinformation,Webtextminingisanimportantmethodt
6、hatspeedsupandincreasestheaccuracyrateoffindinginformation.Thepaperintroducesthecommontechniques,classificationsofWebmining,itexpoundstheprocessofWebtextmining,thetextcharacteristicexpressionandextraction,thetextinformationextraction,classifications,clustering
7、,associationalruleandsoon,thenitintroducestherepresentativealgorithms.Aftercomparingdifferentmachine-studyingmethods,thispaperputsforwardtheWebtextminingmethodbasedonHiddenMarkovModel(HMM).Thepaperintroducesthecollectionofexperimenttrainingdataset,thebasiccomp
8、osingofHMM,thethreequestionsandrepresentativealgorithmsofHMM.BasedonthemarkedtrainingdatasetitaccomplishestheHMM’sconstructionwithMaxinumLikelihoodalgorithm,afterdeepparsingthepape