基于coreseek的垂直搜索引擎研究与优化

基于coreseek的垂直搜索引擎研究与优化

ID:35176416

大小:4.19 MB

页数:61页

时间:2019-03-20

基于coreseek的垂直搜索引擎研究与优化_第1页
基于coreseek的垂直搜索引擎研究与优化_第2页
基于coreseek的垂直搜索引擎研究与优化_第3页
基于coreseek的垂直搜索引擎研究与优化_第4页
基于coreseek的垂直搜索引擎研究与优化_第5页
资源描述:

《基于coreseek的垂直搜索引擎研究与优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Coreseek的垂直搜索引擎研究与优化ResearchandOptimizeonVerticalSearchEngineBasedonCoreseek工程领域:软件工程作者姓名:姜月指导教师:喻梅副教授企业导师:阎赫高级工程师天津大学软件学院二零一五年十二月摘要互联网成为了人们获取信息的直接途径,与人们生活息息相关。通用搜索引擎检索的范围大,内容全面,满足用户搜索的基本需求,但是返回结果中包含了大量无关的信息。垂直搜索引擎弥补了通用搜索引擎的不足,垂直搜索引擎检索范围小,只包含某一领域或者某一主题的内容,保证搜索结果的相关性,而且垂直搜索引擎对网页信息进行预处理,

2、将结构化的数据返回给用户,使搜索结果清晰呈现。论文讨论和研究通用搜索引擎和垂直搜索引擎的相关原理、技术和实现过程,对垂直搜索引擎涉及的主题网络爬虫、信息结构化抽取、中文分词技术和中文全文搜索引擎工具Coreseek进行了介绍和分析。在论文中所做的主要工作有:论文采用MMSEG分词算法对图书信息进行分词处理,为了更加精确切分有关于图书类的专有名词,在LibMMSeg词库中进行了扩充,对改进前后的词库进行对比实验,改进后的词库能够精确切分图书作者、出版社等名词;修改了Coreseek全文搜索工具的排序算法,与Coreseek基本的排序算法进行对比,实验结果表明修改后的COR

3、E_RANK排序算法更适应于短文本的图书搜索,返回给用户更满意的答案。最后,实现DouCrawler网络爬虫系统爬取豆瓣网站关于图书的网页信息,对网页信息进行结构化抽取、词语切分、创建索引,显示检索结果,完成一个面向图书信息的搜索引擎。关键词:垂直搜索引擎,爬虫,LibMMSeg,BM25,图书IABSTRACTTheInternethasbecomeadirectwayforpeopletogetinformation,andpeoplecannotlivewithoutit.Generalsearchenginehasthebroadinformationcover

4、ageandcomprehensivecontent,canmeetthebasicneedsofuserstosearchinformation,buttheresultsreturnedtotheusersincludeplentyofirrelevantinformation.Verticalsearchenginemakeupforthisweakness,itnarrowtheinformationdomaincoverage,itjustindexinformationwithinacertainprofessionalfieldorasubjectfiel

5、d,ensuretherelevanceofsearchresults,inadditional,verticalsearchenginewilldosomeinformationpreprocessingtowebpage,andthestructureddatareturnedtotheusers,sothatsearchresultsclearlyshow.Theworkingprincipletechnologyandimplementationprocessofthegeneralsearchengineandverticalsearchenginewerei

6、ntroduced,andthenthebasicconceptsofwebcrawler,structuredinformationextraction,ChinesewordsegmentationtechnologyandChinesefull-textsearchenginetoolwereanalyzed.Themainworkdoneinthisthesisincludesthefollowing.ThethesisusedtheMMSEGwordsegmentationalgorithmforinformationprocessing,inordertom

7、oreaccuratesegmentationofthenounsofbook,expandedinLibMMSegthesaurus.Docomparativeexperimentswithimprovedalgorithmwiththeoriginalalgorithm,theimprovedthesaurushavegoodsegmentationabilityforbookauthors,publishersandotherterms.ModifytheCoreseeksortalgorithm,comparedwithCores

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。