基于scrapy框架的分布式网络爬虫实现

ID：21527841

大小：25.00 KB

页数：4页

时间：2018-10-22

资源描述：

《基于scrapy框架的分布式网络爬虫实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于Scrapy框架的分布式网络爬虫实现　　摘要根据互联网实际情况，提出分布式爬虫模型，基于Scrapy框架，进行代码实现，且该开发方式可以迅速进行对不同主题的数据爬取的移植，满足不同专业方向的基于互联网大数据分析需要。　　【关键词】网络爬虫Scrapy-redis分布式　　1基本概念　　分布式爬虫：分布式方式是以共同爬取为目标，形成多爬虫协同工作的模式，每个爬虫需要独立完成单项爬取任务，下载网页并保存。　　Scrapy-redis：一个三方的基于redis数据库实现的分布式方式，配合scrapy爬虫框架使用，让scrapy具有了分布式爬取的功能。　　2分布式爬虫

2、技术方案　　Scrapy-redis分布式爬虫的基本设计理念为主从模式，由作为主控端负责所有网络子爬虫的管理，子爬虫只需要从主控端那里接收任务，并把新生成任务提交给主控端，在整个爬取的过程中不必与其他爬虫通信。　　主要有几个技术关键点：　　2.1子爬虫爬取任务的分发　　通过在主控端安装一个redis数据库，维护统一的任务列表，子爬虫每次连接redis库调用lpop（）方法，生成一个任务，并生成一个request，接下去就是如同一般爬虫工作。　　2.2用户登录　　由于网站对于游客的访问有限制，为了爬取所需信息，必须在程序中实现用户登录，其原理就是能获取到有效的本地c

3、ookie，并利用该cookie进行网站访问，除了一般能够用第三方库进行图像识别的验证方式外，一般采用浏览器中手动登录，通过网络工具截取有效的cookie，然后在爬虫生成request时附带上cookie。　　2.3url的去重　　scrapy_redis有一个dupefilter文件中包含RFPDupeFilter类用于过滤新增的url，可以在该类request_seen中利用redis的key的查找功能，如果所爬取的任务数以亿计则建议Bloomfilter去重的方式对于URL的存储和操作方式进行优化，虽然该方式会造成小于万分之一的过滤遗失率。　　2.4数据写入

4、　　选择非关系性数据库MongoDB作为硬盘数据库与scrapy进行搭配使用，在pipeline中对item数据进行MongoDB的写入操作。　　3基本实现步骤　　配置：Windows764-bit、Python：2.7.11、Anaconda4.0.0（64-bit）、IDE：Pycharm3.4.1、Scrapy：1.3.2Redis：X64-3.2、MongoDB：3.2.12　　代码实现需要对几个文件进行设置和编写：items、settings、spiders、pipelines。　　Items：这是一个爬取数据的基础数据结构类，由其来存放爬虫爬取的键值性

5、数据，关键的就是这条语句：_id=Field（）_id表示的生成一个数据对象，在Items中可以根据需要设定多个数据对象。　　Settings：ITEM_PIPELINES该参数决定了item的处理方法；DOWNLOAD_DELAY这个是下载的间隔时间；SCHEDULER指定作为总的任务协调器的类；SCHEDULER_QUEUE_CLASS这个参数是设定处理URL的队列的工作模式一共有四种，一般选用SpiderSimpleQueue即可。　　spiders：该文件就是爬虫主要功能的实现，首先设定该爬虫的基本信息：name、domain、redis_key、star

6、t_urls。爬虫的第一步都是执行方法start_requests，其中核心语句yieldRequest（url，callback）用以根据url产生一个request并且将response结果回传给callback方法。callback的方法中一般利用xpath或者正?t表达式对response中包含的html代码进行解析，产生所需要的数据以及新的任务url。　　pipelines：该文件作为数据处理、存储的代码段，将在items数据被创建后被调用，其中process_item的方法就是被调用的方法，所以一定要将其重写，根据实际需要把数据利用方法dict（）转化

7、为字典数据，最后写入MongoDB。　　完成编写后，在部署的时候，start_url的队列只能是第一个运行的爬虫进行初始化，后续运行的爬虫只能是把新的url进行写入不能对其进行再次初始化，部署爬虫的步骤也很简单，只需要把相关的代码拷贝到目标电脑上，让后cmd命令进入spiders的文件夹，运行命令scrapycrawlXXXX，其中XXXX就是爬虫的名字，就完成了爬虫的部署和运行了。　　4结语　　爬虫的实现，除了基本的步骤和参数设置之外，需要开发者根据实际网站以及数据情况，针对性的对爬取的策略、数据的去重、数据筛选进行处理，对于爬虫的性能进行有效优化，为之后的数据

8、分析做好良

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于scrapy框架的分布式网络爬虫实现

基于scrapy框架的分布式网络爬虫实现

相关文章

相关标签