面向web文本挖掘的主题搜索技术研究

面向web文本挖掘的主题搜索技术研究

ID:33906172

大小:3.89 MB

页数:71页

时间:2019-03-01

面向web文本挖掘的主题搜索技术研究_第1页
面向web文本挖掘的主题搜索技术研究_第2页
面向web文本挖掘的主题搜索技术研究_第3页
面向web文本挖掘的主题搜索技术研究_第4页
面向web文本挖掘的主题搜索技术研究_第5页
资源描述:

《面向web文本挖掘的主题搜索技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安电子科技大学硕士学位论文面向web文本挖掘的主题搜索技术研究姓名:段平申请学位级别:硕士专业:计算机应用技术指导教师:刘志镜20080101摘要随着因特网的快速发展,海量的W曲数据资源已经成为人们获取知识与信息的重要来源。由于Web资源具有半结构性、离散性、实时性和异构性等特点,用户很难快速准确地从Web上获取真正有价值的信息。获取Web信息的主要方法是使用搜索引擎,而现在流行的通用搜索引擎不能很好的提供信息结构抽取、W曲文本内容的分类、过滤以及文档理解方面的功能。因此,如何设计搜索引擎技术,使之更适应的对W曲资源进行高效的挖掘就成为了研究热点。本论

2、文的研究内容是面向Web文本挖掘的主题搜索引擎研究与系统设计。重点讨论了当前流行的Web挖掘以及搜索引擎的核心技术,并且设计和实现主题Web信息挖掘和搜索原型系统Label3。本文的主要工作研究如下:主题爬虫技术:改进了以往的爬虫策略,提出了基于非贪婪遗传算法的网络爬虫搜索策略,对各个算法进行数据分析和性能比较。语言过滤分词、中文字词切分算法:考虑到拉丁语言与中文语言的差异,本文讨论了各自的语言分词算法,特别针对中文语言的特殊性,提出了基于字典的“词元”分词算法。Web数据的挖掘算法:主要是对采集到的Web数据,进行数据聚类分类,发现数据的内在联系,并且

3、提取文本的类别信息,为用户提供更好的信息服务。数据索引和检索机N-数据索引机制采用独特的倒排序策略来建立数据索引,对获取的文本信息进行细化。信息查询检索服务针对不同类别网页分类查询,使用户的得到的搜索结果更加精确。针对以上研究成果,本文描述了原型系统的设计实现细节。关键词:Web挖掘主题搜索网络爬虫中文分词AbstractWithfastdevelopmentofInternet.massWebdataresourceshavebecomeimportantsourceofknowledgeandinformationobtainment.Duetoth

4、echaractersofWebresources,suchashalf-structure,discreteness,real—timeandisomerousproperty,itishardforuserstogetrealvaluableinformationfastandaccuratelyfromW曲.ThemainmethodofgettingWebinformationisusingsearchengine.ButthecommonpopularsearchengineCannotsupportsomefunctions,suchasin

5、formationstructureextraction,classificationandfiltrationofWebtextcontent,documentunderstandingandSOon.Therefore,howtodesignsearchenginefitforefficientWebdata-mininghasbecomehotresearchobject.TmsstudyfocusesonobjectsearchresearchandsystemdesignorientedtoW

6、ebtextmining.Currentpopul

7、arkeytechniqueofW曲miningandsearchengineisimportantlydiscussed.AndprototypesystemnamedLabel3ofobjectWebinformationminingandsearchisdesignedandimplemented.Themainresearchtaskscallbedescribedasfollows:Objectcrawlertechnology:Pastcrawlerstrategyisimproved,andsearchstrategyofBasedonge

8、neticgreedyalgorithmnetcrawlerisproposed.Besides,dataanalysisandperformancecomparisonofeachalgorithmaregiven.Algorithmsoffiltersplitting、Chinesewordsplitting:ConsideringthedifferenceofLatinlanguageandChinese,wediscusswordsplittingalgorithmsofeachlanguage.BasedonthespecialtyofChin

9、ese,adictionary-basedwordsplittingalgori

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。