网络爬虫技术探究

网络爬虫技术探究

ID:8323829

大小:378.00 KB

页数:47页

时间:2018-03-19

网络爬虫技术探究_第1页
网络爬虫技术探究_第2页
网络爬虫技术探究_第3页
网络爬虫技术探究_第4页
网络爬虫技术探究_第5页
资源描述:

《网络爬虫技术探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、JIUJIANGUNIVERSITY毕业论文题目网络爬虫技术探究英文题目WebSpidersTechnologyExplore院系信息科学与技术学院专业计算机科学与技术姓名班级学号A指导教师二○一二年五月信息科学与技术学院学士学位论文摘要网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息,以及网络营销常要的邮箱地址信息等。本文通过JAVA实现了一个基于广度优先算法的爬虫程序。本论文阐述了网络爬虫实现中一些主要问题:为何使用广

2、度优先的爬行策略,以及如何实现广度优先爬行;系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的所有URLs,并通过得到的URLs采集到页面的内容,在从内容中提取到需要的内容,如邮箱地址以及页面标题等。再将得到的URLs等采集到的数据存到数据库,以便检索。本文从搜索引擎的应用出发,探讨了网络爬虫在搜索引擎中的作用和地位,提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络爬虫的程序,对其运行结果做了分析。关键词:网络

3、爬虫,广度优先,搜索引擎IV信息科学与技术学院学士学位论文AbstractTheWebSpiderisanautomatedprogramcollectsinformationontheInternet.TheWebSpidercannotonlysearchenginetocollectnetworkinformationandcanbeusedasdirectionalinformationcollection,directedacquisitionofsomesitespecificinformation,suchasrecru

4、itmentinformation,rentalinformation,aswellasnetworkmarketingoftenhavetoe-mailaddressinformation.JAVAImplementationofanalgorithmbasedonbreadthfirstSpiderprogram.ThispaperdescribedthedatastoredintheWebSpidertoachievesomeofthemajorquestions:Whyuseabreadth-firstcrawlingstra

5、tegy,aswellashowtoimplementthebreadth-firstcrawling;systemimplementationprocess;webpageinformationtoresolve.ThroughtherealizationofthisSpidercancollectallofasite'sURLs,URLscollectedbyandgettothepagecontent,toextractfromthecontent,thecontent,suchasemailaddressandpagetitl

6、e.AndthengettheUrlscollectedwasdatasavedtothedatabasetoretrieve.Inthispaper,theapplicationofthesearchenginetoexploretheroleandstatusofaWebSpidersearchengine,webSpiderfunctionalityanddesignrequirements.WebSpidersystemstructureandworkingprincipleoftheanalysisbasedonstudys

7、trategiesandalgorithmsofthepagecrawling,parsing,etc.andusetheJavaimplementationofaWebSpiderprogram,itsoperatingresultsanalysis.Keywords:Spider,BreadthFirstSearch,SearchEngineIV信息科学与技术学院学士学位论文目录摘要IAbstractII1绪论1.1现状分析(1)1.2系统开发背景(2)1.3系统意义(3)1.4论文主要的工作(4)1.5论文结构(4)2需求分析2

8、.1系统非功能性需求(5)2.2系统功能需求(5)2.3系统数据流程分析(5)2.4环境需求(8)2.5本章小结(9)3系统设计3.1系统结构设计(10)3.2爬行策略分析(12)3.3爬虫技术分析(14)3.4数据库设

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。