基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现

基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现

ID:35056975

大小:5.12 MB

页数:63页

时间:2019-03-17

基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现_第1页
基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现_第2页
基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现_第3页
基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现_第4页
基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现_第5页
资源描述:

《基于hadoop的分布式藏文新闻网站垂直搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、1005学校代码:2丽4雲完?如游欠聲个IVEFMINZUUN{幻TYOFCHINA硕i学位论文基于Hadoop的分布式藏文新闻巧站垂直嫂余引擎役计与卖现姓名;韩志强指导教师;胥桂仙副教授学院:信息工程学院专业:计算机科学与技术完成日期:2016.05.10学位论文使用授权书根据《中央民族大学关于研巧生学位论文收藏和利用管理办法》,我校的博±、硕±学位获得者均须向中央民族大学提交本人的学位论文纸质本及相应电子版。本人完全了解中

2、央民族大学有关研究生学位论文收藏和利用的管理规定。中央民族大学拥有在《著作权法》规定范围内的学位论文使用权,即:(1)学位获得者必须按规定提交学位论文(包括纸质印刷本及电子版);(2)为教学和科研目的,学校可W3将公开的学位论文作为资料在图书馆等场所提供校内师生阅读等服务;()根据教育部有关规定,中央民族大学向教育部指定单位提交公开的学位论文;(4)学位论文作者授权学校向中国学术期刊(光盘)电子出版社提交规定范围的学位论文及其电子版并收入相应学位论文数据库,通过其相关网站对外进行

3、信息服务。同时本人保留在其他媒体发表论文的权利。本人承诺:本人的学位论文是在中央民族大学学习期间创作完成的作品,并己通过论文答辩一;提交的学位论文电子版与纸质本论文的内容致,如因不同造成不良后果由本人自负。本人同意遵守上述规定。(保密的学位论文在解密后适用本授权书,本论文:白4^保密,□保密期限至年月止)作者暨授权人签字:^20年姑如曰学位论文原创性声明:所呈交的学位论文本人郑重声明,是本人在导师指导下进行研究工作所取得的研究成果。除文中己经注明引用的

4、内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的肉容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中W明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签字:、;^;^^20年知言0曰摘要在网络发展日新月异的今天,各种形式的信息呈现爆炸式增长的态势、及时索引、准确检索带来了,这给传统搜索引擎快速去除无关内容严峻的挑战。同时,我们常常,面对传统搜索引擎返回的海量检索结果需要花费很长时间来寻找真正需

5、要的内容,可是结果仍然未必能如我们一所愿,这点无论是国外还是国内的捜索引擎都无法给出完美的解决方案一。而垂直搜索引擎因其针对某特定领域或人群的特性,有效地改善一现状、,提高了检索效率,最重要的了这,过滤了海量无关冗余信息是帮助用户快速。、精准地锁定目标信息随着藏族网民数量的逐年增加,人们获取藏文新闻的需求也越来越普遍。然而藏文的新闻网站却存在分布的比较分散,访问难度大;新闻更新不及时、新闻质量没有保证:网站之间新闻内容区分度不高,并且含有大量的无效网址、就码新闻页面的特点

6、,这给藏文新闻的传播带来了巨大阻碍。为了帮助人们高效、精确地浏览藏文新闻,本文设计和实一doo直搜索引擎现了个基于Hap的分布式藏文新闻网站垂,将垂直搜索引擎首次应用在藏文新闻领域。I本文的设计方案在保证垂直搜索引擎精准性的前提下,有效地解决了上述问题,本文主要贡献如下;(0设计并实现了基于Hadoop的分布式藏文新闻网站垂直搜索引擎系统。。本系统严格按照传统软件项目管理流程设计首先,从功能、界面、性能需求王个方向对软件进行细致的需求分析,并完成系统总体架构分

7、析;其次,通过研究语料的选取来确定研究的领域,并具体分析系统研究数据的各项指标;最后,实现系统的功能模块,包括网络爬虫模块、信息预处理模块及索引和检索模块H大部分。(2)提出了藏文网络爬虫解决方案。本文分析了常见网络爬虫的工作原理,在此基础上开发了适合藏文新闻网站的爬虫解决方案,此解决方案实现了跨平台性,增加了系统可靠性。(3)提出了高频文章推荐算法。结合藏文新闻网页数量较少的特点,本文开发了高频文章推荐算法,将时下用户关注的热点新闻定向推荐给用户。(4)基于Ha

8、doop的分布式藏文新闻网站垂直搜索引擎系统软件测试。系统开发结束,即进行了细致的软件测试。通过黑盒测试对系统界、面用户交互和性能兰方面进行测试发现,本系统符合设计预期,可1^1满足用户使用需求。总之,本文的创新点在于,设计、实现了基于化doop的分布式藏文II新闻网站垂直搜索引擎系统,通过了全面而系统的软件测试,并提出了藏文网络爬虫解决方案和高频文章推荐算法。关键词!藏克垂直捜索引擎;分布式:新闻m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。