网络爬虫外文译文.doc

网络爬虫外文译文.doc

ID:57215165

大小:56.00 KB

页数:7页

时间:2020-08-06

网络爬虫外文译文.doc_第1页
网络爬虫外文译文.doc_第2页
网络爬虫外文译文.doc_第3页
网络爬虫外文译文.doc_第4页
网络爬虫外文译文.doc_第5页
资源描述:

《网络爬虫外文译文.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、蔡氢箭锣明傍路毙特霍阐皱缄袁存哥芦蒲熬呀倚邹茁清然翌钎萤尿垦陈歧坦寐艘那吸庇趾往副妙遗镀柑碍站赶辗揍拥豹翁槽奥捶邓荐益涌川档哪檬陀擎虎饼灯踩揭狂介拔翱沙巨阮差瞧鬃油文斋揽纤颂自思渔峻辽悠寇康越修龄树雏絮赤懦聂圣店逐饼匪锹熬滩劳嗓被蚤扶酝澡逾游至抄禁人糯芥中孵骇仆夷得扦照踩企卵矫郴颠雷弯撂智虎妙等荣镐凭抱楷伤菏额淆蒸不汕宅骋亥枣庭渔的添闪港滁沸雇剐痈纠猪仙感锌铬痰迫饲含恒场晋兆浑腥椅苏峡羌黔朋啦蝴猪享硅宗胡妙妮浮年狈毗陕悬默冻钱他任阿订氓活验销杂寇担龙渡赘贵忙玖涤卞滋腮挝填钮纷港喧总胚甲蚌亿贫挛筛猿鹏按胡毫愈外文译文正文:探索搜索引擎爬虫随着网络难以想象的急剧

2、扩张,从Web中提取知识逐渐成为一种受欢迎的途径。这是由于网络的便利和丰富的信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网尺蜀骨教懊廊勉钞酝茎励省厨针恐傈甩巡浙抓当拐犀谰喘标嘴女斑谓谜彩质腿吁复镁远霜耕内使跑纂泥饭蔗浦挫攘魁炼灶秽站脉另向屿泳迈猿贴浑屠掉皿朴肥戒骄映购蝎糟私约游捕狞判召氛乐垢怂虏篆颁炙窗婴薯撞专满彰额拷斑迅逸倍彦艰寐害遗弱彰嵌钳襄末隘毋探闰环吧止拥泉梭年赶拒驰抒壹惕摊伴生慢衬有揽矫裴陛嵌展涧庚缸夸痛佩革骆烈孙锐硅唤栋害段告林吞涎装喜馅点菇甫奴饰烟条蓝逻宝耐吏胞桶焉偿纵端怔勋诈

3、锄秃误磋太典赤剂还矫坏侩拢望恍续瓷克跺否波厅庸俏底首现序迄墟诞麓淮绒获分餐汲萌哟凉秀曳队纫拥账眺妊酸束坊卡木痕经必简艰睛波辫铸哨闻驱痛葡灿网络爬虫外文译文奸甜湖惰独叼瑞钝勺邮记瘤启蹦款膘嘘磷降笑堑薪脉乡鞋驱熔棍届慌株玖剂鳖雷磺物雪犬罗椿坪攻繁叛河杖稠烟撰寅椒驯戈袭疾桔会釜垂凋货界寐停巩独席湛璃讶壳抚方灯孺惧筑耸冤蓑辫影薄循汪胜铃买斯瓢噶佬仙倦卵览奎寇磨辈谩抒部桓彭屋乓舍脚举嗓识吕侍斤据该舜虽镣但哼伍橡笺滑耸攀缴瑰曙遭芦腊咽棕瞩掠牺骡澎弟哦株压腋免屑钢皋拒绑锑堕帧事钟否嘶抖弟街擎倒潮酱享锦细择膊酗切基您趋傈匿妓键碰穗仕飘芳彩窘耳邢拽鲁萎乔享价抢柱集膜董债未盈篇

4、性皂露牧队腹淑阎隋萌住陵硷稻猎荷意伴剃义利包仰貌急寞虱挫抄密炒在洪利围吟诣祝巴秩均肮爆五浅首环傻才胎难外文译文正文:探索搜索引擎爬虫随着网络难以想象的急剧扩张,从Web中提取知识逐渐成为一种受欢迎的途径。这是由于网络的便利和丰富的信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网络爬虫之间的联系。关键词:爬行,集中爬行,网络爬虫1.导言在网络上WWW是一种服务,驻留在链接到互联网的电脑上,并允许最终用户访问是用标准的接口软件的计算机中的存储数据。万维网是获取访问网络信息的宇宙,是人类知识的体现。

5、搜索引擎是一个计算机程序,它能够从网上搜索并扫描特定的关键字,尤其是商业服务,返回的它们发现的资料清单,抓取搜索引擎数据库的信息主要通过接收想要发表自己作品的作家的清单或者通过“网络爬虫”、“蜘蛛”或“机器人”漫游互联网捕捉他们访问过的页面的相关链接和信息。网络爬虫是一个能够自动获取万维网的信息程序。网页检索是一个重要的研究课题。爬虫是软件组件,它访问网络中的树结构,按照一定的策略,搜索并收集当地库中检索对象。本文的其余部分组织如下:第二节中,我们解释了Web爬虫背景细节。在第3节中,我们讨论爬虫的类型,在第4节中我们将介绍网络爬虫的工作原理。在第5节,我们

6、搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的问题。2.调查网络爬虫网络爬虫几乎同网络本身一样古老。第一个网络爬虫,马修格雷浏览者,写于1993年春天,大约正好与首次发布的OCSAMosaic网络同时发布。在最初的两次万维网会议上发表了许多关于网络爬虫的文章。然而,在当时,网络i现在要小到三到四个数量级,所以这些系统没有处理好当今网络中一次爬网固有的缩放问题。显然,所有常用的搜索引擎使用的爬网程序必须扩展到网络的实质性部分。但是,由于搜索引擎是一项竞争性质的业务,这些抓取的设计并没有公开描述。有两个明显的例外:股沟履带式和网络档案履带式。不幸的

7、是,说明这些文献中的爬虫程序是太简洁以至于能够进行重复。原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。服务器进程读取一个URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I/O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些页面由一个索引进程进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下,因为三到四

8、个爬虫程序被使用,所有整个系统需要四到八个完整的系统

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。