分布式网络爬虫的研究与实现

分布式网络爬虫的研究与实现

ID:35047195

大小:6.70 MB

页数:74页

时间:2019-03-17

分布式网络爬虫的研究与实现_第1页
分布式网络爬虫的研究与实现_第2页
分布式网络爬虫的研究与实现_第3页
分布式网络爬虫的研究与实现_第4页
分布式网络爬虫的研究与实现_第5页
资源描述:

《分布式网络爬虫的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP391学校代码;10697:密级:&开#早201320929咖藝旷々如八硕±学恆巧交’TATMASTERIONSDISSER分布式网络爬虫的研究与实现束.^..聲:巧.一.\聲;::--中—V■''巧y'产若客f学科名称:信号与信息处理作者:彭进业教授:郭默指导老师西北大学学位评定委员会二〇—六年六月ResearchandImlementa村onofDistlibutedpWebCrawlerAthesissubmi行edtoNorthwest

2、UniversityinartialfulfillmentofthereuirementspqforthedereeofMasterginSinalandInformationProcessinggByGuoMoSuervisor:PenJineProfessorpgy化ne2016西北大学学位论文知识产较汽明书本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校有权保留并向国家有关部口或机构送交论文的复印件和电子版。本人允许论文被查阔和借阅。本人授权西北大学可W将本学位论文的全部或部分

3、内容编入有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论文收录到。《中国学位论文全文数据库》或其它相关数据库保密论文待解密后适用本声明。1?;学位论文作者签名;_指导教师签名方文/年((月/巧义W年月少曰Y西北大学学位论文独却性声明本人声明:所呈交的学位论文是本人在导师指导下进行的研巧工作及取得的研巧成果。据我所知,除了文中特别加W标注和致谢的地方外,本论文不包含其他人己经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而使用过

4、的材料一。与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。私、学位论文作者签名;2W《年月曰摘要在大数据时代,传统单机网络爬虫己经不适用于海量Web信息采集,因此研巧分布式网络爬虫是必然的趋势一些大型互联网企业己经开发出了大规模分。目前,国内外布式网络爬虫一些持续更新的分布式,但是相关技术方案并不对外公开。开源界也存在网络爬虫项目,然而这些重虽级项目往往存在着配置运行复杂、使用口槛高等问题。在此背景下,本文着重研巧基于Hadoop的捏量级分布式网络爬虫,主要工作如下:一1研究了网络爬虫系统中的重要算法UR

5、L去重算法,分析了目前主流URL去()重算法的优缺点。W保证系统轻量级为目标,将分布式技术和单机URL去重算法相结一aeduceRL去重算法合,提出了种基于MpR的分布式U。该算法不仅解决了单机URL去重算法在处理海量数据时的低效问题,而且能够和本文设计的轻量级系统良好结合,使系统中负责URL去重工作的模块具备低颖合高内聚的特点,保证了系统运行的商效性。利用Hadoo也组件一分布式文件系统HDF口)p中两大核S和分布式编程模型R一Maeduce了p,设汁种髙效的轻量级分布式网络爬虫,并且制定了系统的详细设计方案,主要包括系统的架构设计、工作流

6、程设计、分布式功能模块设计W及分布式存储设计等。3按照设计方案,使用JAVA语言对系统进行了实现,并将其部署在节点规模不()一adoo集群中进行相关测试的若干Hp,主要包括系统的功能测试W及性能测试。通过对测试数据进行记录分析,发现本文设计的分布式网络爬虫具备较强的大规模Web信息采集能力和良好的可扩展性。关键词:分布式网络爬虫,URL去重算法,Hadoop王ABSTRACT-vewebIntheeraofbtastandaonecrawlerisnotsuitable化r化ecollectio。ofmass

7、igda,liinformation.As江Ksult,itisinevitabletrend化research(iistributedcrawler.Atpresent,someesma-domticandabroadorinternetcompanieshavedeveloedlargescaledistributedcrawlerjpbythemselves.Howeverthosetechnicalschemesofcrawlerar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。