网络爬虫的设计与实现毕业设计论文

ID：270331

大小：400.00 KB

页数：33页

时间：2017-07-16

资源描述：

《网络爬虫的设计与实现毕业设计论文》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、北京联合大学毕业设计毕业设计题目：网络爬虫的设计与实现北京联合大学毕业设计独创声明本人郑重声明：所呈交的毕业设计(论文)，是本人在指导老师的指导下，独立进行研究工作所取得的成果，成果不存在知识产权争议。尽我所知，除文中已经注明引用的内容外，本设计（论文）不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。本声明的法律后果由本人承担。作者签名:二〇一〇年九月二十日毕业设计（论文）使用授权声明本人完全了解滨州学院关于收集、保存、使用毕业设计（论文）的规定

2、。本人愿意按照学校要求提交学位论文的印刷本和电子版，同意学校保存学位论文的印刷本和电子版，或采用影印、数字化或其它复制手段保存设计（论文）；同意学校在不以营利为目的的前提下，建立目录检索与阅览服务系统，公布设计（论文）的部分或全部内容，允许他人依法合理使用。（保密论文在解密后遵守此规定）作者签名:二〇一〇年九月二十日26北京联合大学毕业设计摘要网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。通过网络爬虫不仅能够为搜索引擎采集网络信息，而且可以定向采集某些网站的特定信息，如

3、新闻内容等。本文通过PHP语言实现了一个爬虫程序。本论文阐述了网络爬虫实现中一些主要问题：为何要使用多线程，以及如何实现多线程；网页的下载和分析等。通过实现这一爬虫程序，可以搜集某一站点的URLs及一些我们想要的信息，并将搜集到的网址和信息存入数据库。关键词：网络爬虫PHP信息抓取26北京联合大学毕业设计AbstractWebcrawlerisanprocesswhichcanautomateddownloadwebpage,itdownloadWebpageforsearchengines,itisanimpo

4、rtantcomponentofsearchengines.SPIDERcancollectdataforsearchengines,andcancapturesomeofthewebsitesthetargetedspecificinformation,suchasthepostcontent.Inthispaper,weusePHPimplementsaSPDIERprocess.ThispaperexpatiatessomemajorproblemsofSPIDER:whytousemulti-thread

5、ing,andhowtoimplementmulti-thread;downloadandanalysisWebpage.etc.KeyWords:SPIDERPHPINFORMATIONCAPTURE26北京联合大学毕业设计摘要IAbstractII引言11本文相关技术介绍31.1所开发语言PHP简介31.1.1PHP语言31.1.2PHP的发展31.1.3PHP功能51.2XML简介71.2.1XML语言71.2.2XML与HTML的主要差异71.2.3XML的文档结构71.2.4XML语法规则81.所有XM

6、L元素都须有关闭标签82.XML标签对大小写敏感83.XML必须正确地嵌套94.XML文档必须有根元素95.XML的属性值须加引号96.XML中的注释91.3XPath简介101.3.1XPath语言101.4开发工具LAMP简析101.4.1linux操作系统1126北京联合大学毕业设计1.4.2Apache121.4.3MySql121.5爬行策略浅析131.5.1宽度或深度优先搜索策略131．宽度优先搜索算法132．深度优先搜索131.5.2聚焦搜索策略141.5.3基于内容评价的搜索策略141.5.4基于

7、链接结构评价的搜索策略151．PageRank算法152．HITS算法151.5.5　基于巩固学习的聚焦搜索161.5.6　基于语境图的聚焦搜索162系统总体分析与设计172.1系统需求分析172.2爬行策略分析172.3系统设计182.3.1数据库的设计181．phpMyAdmin简介182．数据库设计过程182.3.2爬虫工作原理213系统实现233.1实现工具233.2各模块实现2326北京联合大学毕业设计3.2.1执行多线程233.2.2获取页面233.2.3页面解析243.2.4数据库连接244系统测试

8、结果25结论26致谢27参考文献2826北京联合大学毕业设计引言随着互联网的飞速发展，网络上的信息呈爆炸式增长,同时互联网用户对信息的需求也在不断增长，这使得人们在网上找到所需的信息越来越困难，在巨大的用户需求中，搜索引擎应运而生。搜索引擎搜集互联网上数以亿计的网页，并为每个词建立索引。在建立搜索引擎的过程中，搜集网页是非常重要的一个环节。爬虫程序就是用来搜集网页的程序。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 33



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

网络爬虫的设计与实现毕业设计论文

网络爬虫的设计与实现毕业设计论文

相关文章

相关标签