网络爬虫的设计与实现

网络爬虫的设计与实现

ID:13311090

大小:1.18 MB

页数:72页

时间:2018-07-21

网络爬虫的设计与实现_第1页
网络爬虫的设计与实现_第2页
网络爬虫的设计与实现_第3页
网络爬虫的设计与实现_第4页
网络爬虫的设计与实现_第5页
资源描述:

《网络爬虫的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、山东科技大学信息学院本科毕业论文摘要本课题的主要目的是设计面向定向网站的网络爬虫程序,同时需要满足不同的性能要求,详细涉及到定向网络爬虫的各个细节与应用环节。搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。网络爬虫应用智能自构造技术,随着不同主题的网站,可以自动分析构造URL,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取

2、能力。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库,后期可视化显示。关键词:网络爬虫,定向爬取,多线程,Mongodb山东科技大学信息学院本科毕业论文ABSTRACT  Themainpurposeofthisprojectistodesignsubject-orientedwebcrawlerprocess,whichrequiretomeetdifferentpe

3、rformanceandrelatedtothevariousdetailsofthetargetedwebcrawlerandapplicationindetail.Searchengineisatooltohelppeopleretrieveinformation.However,thesegeneralsearchenginesalsohavesomelimitations.Usersindifferentfieldsandbackgroundstendtohavedifferentpurposesandneeds,

4、andtheresultsreturnedbygeneralsearchenginescontainalargenumberofwebpagesthatusersdon'tcareabout.Inordertosolvethisproblem,itisofgreatsignificanceforaflexiblecrawler.Webcrawlerapplicationofintelligentselfconstructiontechnology,withthedifferentthemesofthesite,youcan

5、automaticallyanalyzethestructureofURL,andcancelduplicatepart.Webcrawlerusemulti-threadingtechnology,sothatthecrawlerhasamorepowerfulabilitytograb.Settingconnectionandreadingtimeofthenetworkcrawleristoavoidunlimitedwaiting.Inordertoadapttothedifferentneeds,thewebcr

6、awlercanbaseonthepresetthemestorealizetofilchthespecifictopics.What’smore,weshouldstudytheprincipleofthewebcrawler,realizetherelevantfunctionsofreptiles,savethestolendatatothedatabaseaftercleaningandinlateachievethevisualdisplay.Keywords:Webcrawler,Directionalclim

7、b,multi-threading,mongodb山东科技大学信息学院本科毕业论文山东科技大学信息学院本科毕业论文目  录第一章  概述11.1 课题背景11.2 网络爬虫的历史和分类1第二章文献综述72.1 网络爬虫理论概述72.2 网络爬虫框架介绍8第三章研究方案163.1 网络爬虫的模型分析163.2 URL构造策略193.3 数据提取与存储分析19第四章网络爬虫模型的设计和实现214.1 网络爬虫总体设计214.2 网络爬虫具体设计21第五章  实验与结果分析395.2 结果分析42参考文献36致谢37附录138附

8、录247山东科技大学信息学院本科毕业论文第一章  概述1.1 课题背景网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。