垂直搜索引擎的研究与设计论文

垂直搜索引擎的研究与设计论文

ID:32301387

大小:375.45 KB

页数:70页

时间:2019-02-03

垂直搜索引擎的研究与设计论文_第1页
垂直搜索引擎的研究与设计论文_第2页
垂直搜索引擎的研究与设计论文_第3页
垂直搜索引擎的研究与设计论文_第4页
垂直搜索引擎的研究与设计论文_第5页
资源描述:

《垂直搜索引擎的研究与设计论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、华东交通大学硕士学位论文垂直搜索引擎的研究与设计姓名:李广丽申请学位级别:硕士专业:计算机应用技术指导教师:刘觉夫20080410摘要垂直搜索引擎的研究与设计摘要随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信息,但是,包罗万象的检索结果显然不能满足特定领域用户的精确搜索的需求。因此,面向主题的垂直搜索引擎系统应运而生。垂直搜索引擎系统包括网络机器人程序、索引程序和检索程序。与通用搜索引擎不

2、同,垂直搜索引擎的网络机器人只采集Web中与主题相关的网页信息。网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,搜索出特定主题领域内的相关网页。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。此外,由于网页数量的减少,垂直搜索引擎系统的数据维护的代价也远远低于通用搜索引擎,使用普通的硬件设备即可建立一个高质、高效的垂直搜索引擎系统的硬件环境。本文首先分析了通用搜索引擎与垂直搜索引擎在系统架构、工作原理、关键技术等方面的异同,介绍

3、了垂直搜索引擎技术的研究现状和发展方向,然后深入分析了主题页面在Web上的分布特征,并重点研究了垂直搜索引擎的主题搜索策略和主题相关度判别算法。在此基础上,围绕垂直搜索引擎系统的体系结构,运用UML技术抽取出网络机器人程序和索引程序的对象模型。最后,应用Java+Lucene技术分别实现了网络机器人程序和索引程序,构建了一个可以在Tomcat服务器上运行的垂直搜索引擎系统软件原型。本文创新点:(1)采用改进和扩展ApacheLucene的思想来指导系统的开发,有效地重用了Lucene中的核心代码;(2)在Lucene的基

4、础上独立开发了中文分词模块,具有新颖性(3)对主题搜索策略进行了优化,采用一种同时结合网页文字内容和Web图的启发式搜索算法作为本系统的搜索策略,实验证明此算法能提高搜索准确率,并有效地避免了主题漂移现象。关键词:垂直搜索引擎,网络机器人,Lucene,搜索策略,主题相关度,UMLIAbstractTheResearchandDesignonVerticalSearchEngineABSTRACTInformationonWebincreasesdramaticallyinrecentyearswiththerapidd

5、evelopmentofInternet.TheGeneralSearchEnginesarefacedwithmoreandmorechallengesinthefieldofinformationgatheringandinformationstoring.MoreoverGeneralSearchEnginesmainlyaffordservicesforallusersonWeb.Butsomespecialusersaren’tsatisfiedaboutthesearchingresult.Theywantm

6、oreprecioussearchingresultotherthangeneralsearchingresult.SotheVerticalSearchEnginesemergeasthetimesrequire.TheVerticalSearchEngineisconsistingofspider,indexerandsearcher.ItonlygatherstheinterrelatedinformationaboutsearchingtopicotherthanGeneralSearchEngines.Spid

7、erofVerticalSearchEnginecalculatestopicinterrelatedvalueaboutthecurrentHTMLpagecontinuallywhileitiscrawlingonWeb,withthehelpofthetopicinterrelatedvalue,SpidercanestimatewhetherthecurrentHTMLpageisinterrelatedwiththesearchingtopic.Furthermore,spidermayavoidagreatd

8、ealofjunkinformationandfindHTMLpagesinspecialfieldeffectively.AlotofexperimentsshowthatVerticalSearchEnginescangetmoreefficientperformanceincludesaccuracyrate,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。