网络爬虫论文

网络爬虫论文

ID:23352095

大小:629.79 KB

页数:39页

时间:2018-11-07

网络爬虫论文_第1页
网络爬虫论文_第2页
网络爬虫论文_第3页
网络爬虫论文_第4页
网络爬虫论文_第5页
资源描述:

《网络爬虫论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、摘要网络爬虫(WebCrawler),通常被称为爬虫,是搜索引擎的重要组成部分。随着信息技术的飞速进步,作为搜索引擎的一个组成部分——网络爬虫,一直是研究的热点,它的好坏会直接决定搜索引擎的未来。0前,网络爬虫的研究包括Web搜索策略研究的研究和网络分析的算法,两个方向,其中在Web爬虫网络搜索主题是一个研究方向,根据一些网站的分析算法,过滤不相关的链接,连接到合格的网页,并放置在一个队列被抓取。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网贞的链接地址来寻找网贞,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的

2、其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所冇的网贞都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所冇的网贞都抓取下来。关键词:网络爬虫;LinuxSocket;C/C++;多线程;互斥锁AbstractWebCrawler,usuallycalledCrawlerforshort,isanimportantpartofsearchengine.Withthehigh-speeddevelopmentofinformation,WebCrawler—thesearchenginecannotl

3、ackof--whichisahotresearchtopicthoseyears.ThequalityofasearchengineismostlydependedonthequalityofaWebCrawler.Nowadays,thedirectionofresearchingWebCrawlermainlydividesintotwoparts:oneisthesearchingstrategytowebpages;theotheristhealgorithmofanalysisURLs.Amongthem,theresearchofTopic-Focuse

4、dWebCrawleristhetrend.Itusessomewebpageanalysisstrategytofiltertopic-lessURLsandaddfitURLsintoURL-WAITqueue.Themetaphorofaspiderwebinternet,thenSpiderspideriscrawlingaroundontheInternet.Webspiderthroughweblinkaddresstofindpages,startingfromaonepagewebsite(usuallyhome),readthecontentsoft

5、hepage,findtheaddressoftheotherlinksonthepage,andthenlookforthenextWebpageaddressesthroughtheselinks,sohasbeenthecyclecontinues,untilallthepagesofthissitearecrawledexhausted.IftheentireInternetasasite,thenyoucanusethisWebcrawlerprincipleallthepagesontheInternetarecrawlingdown..Keywords:

6、Webcrawler;LinuxSocket;C/C++;Multithreading;MutexI胃11.1课题背景11.2网络爬虫的历史和分类11.2.1网络爬虫的历史11.2.2网络爬虫的分类21.3网络爬虫的发展趋势31.4系统开发的必要性31.5本文的组织结构3第二章相关技术和工具综述52.1网络爬虫的定义52.2网页搜索策略介绍52.2.1广度优先搜索策略52.3相关工具介绍62.3.1操作系统62.3.2软件配置6第三章网络爬虫模型的分析和概要设计83.1网络爬虫的模型分析83.2网络爬虫的搜索策略83.3网络爬虫的概要设计10第四章网络爬虫模型的设计与

7、实现124.1网络爬虫的总体设计124.2网络爬虫的具体设计124.2.1URL类设计及标准化URL124.2.2爬取网页134.2.3网页分析144.2.4网页存储144.2.5Linuxsocket通信164.2.6EPOLL模型及其使用204.2.7POSIX多线程及其使用22第五章程序运行及结果分析255.1Makefile及编译255.2运行及结果分析26第六章总结与展望30&3132第一章1.1课题背景网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还冇蚂蚁,自动索引,模拟程序或者蠕虫。网络检索功

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。