毕业设计(论文)-网络爬虫设计

毕业设计(论文)-网络爬虫设计

ID:12588114

大小:684.50 KB

页数:41页

时间:2018-07-17

毕业设计(论文)-网络爬虫设计_第1页
毕业设计(论文)-网络爬虫设计_第2页
毕业设计(论文)-网络爬虫设计_第3页
毕业设计(论文)-网络爬虫设计_第4页
毕业设计(论文)-网络爬虫设计_第5页
资源描述:

《毕业设计(论文)-网络爬虫设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要近年来,随着互联网的发展,如何高效地从互联网上获取所需的信息,成为无数个互联网公司竞相研究的新方向。在这个大数据的时代里,谁能获取更多有用的数据,谁就有机会获取更大的利益,而从互联网上获取数据最常用的手段就是网爬虫。网络爬虫又被称为做网络蜘蛛、网络机器人,它是一种能够根据给定URL按照一定的规则,自动搜集互联网数据信息的程序。本课题实现一个基于Python的网络爬虫程序系统。在本论文中,主要阐述了,实现网络爬虫的过程中的一些主要问题,例如:如何用Python模拟登录,如何使用正则表达式匹配字符串获取信息,如何使用MySQL存储数据等。通过这个爬虫程

2、序可以搜集豆瓣网站的一些数据信息,例如:网站首页的各种类型的动态消息,当前用户所关注的用户的信息等。关键字:网络爬虫;Python;MySQL;正则表达式ABSTRACTInrecentyears,withthedevelopmentoftheInternet,howtoefficientlygettheinformationyouneedfromtheInternethasbeenthenewdirectionsinresearchfornumerousInternetcompanies.Webcrawlerisalsoknownasspiders,

3、webrobots.ItisaprogramwhichcanautomaticallycollectWebdatainformationaccordingtosomegivenrulesandURL.ThispaperimplementsaPython-basedwebcrawlersystem.Inthispaper,themainpartelaboratedsomeissuesduringtheprogressofimplementingthewebcrawler,suchashowtosimulateloginbyPython,howtomatc

4、hinformationbyRegularExpressionsandhowtostoragedatatoMySQLdatabase.Youcancollectsomeusefuldatafromthesiteofdouban,suchasvarioustypesofdynamicinformationofdoubanhomepage,userinformationofconcerntothecurrentuserandsoon.Keywords:Webcrawler;Python;MySQL;RegularExpressions目录第一章绪论11.1

5、课题背景11.2网络爬虫的概述11.2.1网络爬虫的由来11.2.2网络爬虫的原理21.2.3网络爬虫的分类21.2.4网络爬虫的发展趋势2第二章相关技术介绍42.1Python42.2模拟登录42.3正则表达式52.4MySQL5第三章系统分析73.1需求分析73.2可行性分析8第四章详细设计104.1开发环境与组织结构104.2系统流程设计114.3数据库设计124.3.1数据库概念设计124.3.2创建数据库表13第五章系统实现145.1系统入口及出口模块145.1.1系统入口145.1.2系统出口145.2公共工具模块145.2.1代码处理工具

6、145.2.2标签处理工具155.2.3正则匹配工具155.2.4文件写入工具165.3模拟登录模块165.3.1登录模拟165.3.2验证码验证175.4页面抓取模块185.4.1首页及翻页抓取185.4.2用户信息页面抓取195.5数据爬取模块205.5.1动态(Dynamic)爬取205.5.2关注信息爬取205.6数据存储模块215.6.1写入文件215.6.2下载图片215.6.3存入数据库21第六章系统测试236.1模拟登录测试236.2页面抓取测试246.3数据爬取存储测试256.4图片下载相关测试296.4.1图片下载测试296.4.2

7、描述存储测试316.5返回Change-page测试326.6退出系统测试32第七章问题与总结347.1问题347.2总结34结束语35致谢36参考文献37南京邮电大学通达学院2016届本科生毕业设计(论文)33南京邮电大学通达学院2016届本科生毕业设计(论文)第一章绪论1.1课题背景在这个网络信息数据爆炸增长的时代里,虽然互联网信息技术飞速发展,但想要从如此庞大的信息数据中找到那些真正对我们有用的信息仍然是很困难的。因此搜索引擎诞生了,例如:谷歌,百度,雅虎等。搜索引擎能够根据用户输入的关键字来检索互联网上的网页,为用户找出与关键字有关或者包含关键

8、字的信息。作为搜索引擎的重要组成部分,网络爬虫在检索信息的过程中扮演着重要的角色,因此对于搜索

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。