基于数据流挖掘的网页热门主题获取技术研究

基于数据流挖掘的网页热门主题获取技术研究

ID:11419348

大小:501.96 KB

页数:76页

时间:2018-07-11

基于数据流挖掘的网页热门主题获取技术研究_第1页
基于数据流挖掘的网页热门主题获取技术研究_第2页
基于数据流挖掘的网页热门主题获取技术研究_第3页
基于数据流挖掘的网页热门主题获取技术研究_第4页
基于数据流挖掘的网页热门主题获取技术研究_第5页
资源描述:

《基于数据流挖掘的网页热门主题获取技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、工学硕士学位论文基于数据流挖掘的网页热门主题获取技术研究张翠玲哈尔滨工业大学2006年6月国内图书分类号:TP393.02国际图书分类号:681.3.06工学硕士学位论文基于数据流挖掘的网页热门主题获取技术研究硕士研究生:张翠玲导申师:胡铭曾教授请学位:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2006年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP393.02U.D.C.:681.3.06DissertationfortheMasterDegreeinEngineeringRESEARCHOFWEBPAGE

2、HOTTOPICRETRIVINGTECHNOLOGYBASEDONDATASTREAMMININGCandidate:Supervisor:AcademicDegreeAppliedfor:Specialty:DateofOralExamination:University:ZhangCuilingProf.HuMingzengMasterofEngineeringComputerScienceandTechnologyJune,2006HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着网络的迅速发展,舆情研究面临着新的

3、问题和挑战。网络舆论提供了一个更为全面更为集中的民意反映,且由于其匿名性等特点,能更真实地反映大多数民众对事件的看法。对网络舆论进行研究,需要收集网络上发布的信息并对其进行挖掘,属于Web挖掘的研究范围。Web挖掘是以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、可视化、自然语言处理等技术,将传统的数据挖掘技术与Web结合起来的一门新兴学科。传统的分类方法根据挖掘对象的不同将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。为了能够更容易地对应用进行分类,本文介绍

4、并完善了一种从应用的角度出发的分类方法。该方法将Web挖掘分为基于生产者的挖掘,基于消费者的挖掘和基于增值服务提供者的挖掘,文中进行了详细的介绍。通过对用户所频繁访问的网页主题进行研究,可以了解一段时间内用户关心的事件,掌握舆情的动向。针对这一需求,本文对实际的网页传输过程进行了研究,总结了网页传输的特点,并针对这些特点对网页的URL的提取及网页的主题的提取进行了相应的处理。网络流量中提取出的主题流可以看作是一个无限的数据流,统计其中频繁出现的主题可看作是数据流的频繁项挖掘问题。由于内存的限制,进行频繁项统计时所使用的算法需要具备只扫描一遍即可发现频繁项和低空间开销

5、及低时间开销的特点。改进的LC算法提出了一种不同于原算法的数据结构和处理流程,进一步减少了算法的时间开销,能够满足处理要求。为使改进算法能够适用于输入数据为相似字符串的情况,增加了对输入数据的处理。基于以上理论基础,本文最后实现了一个基于数据流挖掘的网页热门主题的获取系统,属于基于增值服务提供者的Web挖掘应用。该系统对局域网出入口的网络流量进行捕获,过滤出其中的HTTP连接,记录网页的URL和标题等信息,采用改进的LC算法对频繁出现的主题类进行统计,并将频繁出现的主题类提交给用户。对该系统进行的实测实验表明,系统能够发现主题数据流中的频繁主题,实现了系统的设计初衷

6、。关键词Web挖掘;频繁项挖掘;HTTP协议;数据流-I-哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddevelopmentoftheweb,theresearchofconsensusencountersnewproblemsandchallenges.Thewebconsensusprovidesamorecomprehensiveandmorecentralizedreflectionontheconsensus.Becausethewebconsensuscanbeanonymous,itmayreflectmostpeople’

7、sviewpointsaboutaneventtruly.Inordertostudythewebconsensus,weneedtocollecttheinformationputoutontheweb,andthenminetheinformation.Theresearchofwebconsensusbelongstothefieldofwebmining.Webminingaimsatminingusefulknowledgeandbasedondatamining,textminingandmultimedia.Itintegratesthecompu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。