网络爬虫技术论文

网络爬虫技术论文

ID:12300999

大小:25.29 KB

页数:5页

时间:2018-07-16

网络爬虫技术论文_第1页
网络爬虫技术论文_第2页
网络爬虫技术论文_第3页
网络爬虫技术论文_第4页
网络爬虫技术论文_第5页
资源描述:

《网络爬虫技术论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网络爬虫技术浅析在当今社会,越来越多的人使用互联网看视频,听音乐,查资料等等,使得网络上的数据越来越多。人们想从海量的数据中获取到自己想要的知识,靠人力浏览很难实现查找到需要的东西,除非运气相当好。这个时候搜索引擎就出现了,搜索引擎可以通过关键字,查找网页并显示在用户面前,用户可以得到有用的信息。在搜索引擎中非常关键的数据来源来自一种很神奇的技术:网络爬虫技术,它构成了搜索引擎的基础部分。网络爬虫的基本概念网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是引擎的重要组成。传统爬虫从一个或若干初始网页的U

2、RL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。一、网络爬虫的历史1994年的1月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。它之后才出现了雅虎,直至我们现在熟知的Google、百度。但是他们都不是第一个吃搜索引擎这个螃蟹的人

3、。从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。1994年7月20日发布的Lycos网站第一个将“蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。通用网络爬虫和聚焦网络爬虫的工作原理网络爬虫是搜索引擎的重要组成部分,它是一个自动提取网页的程

4、序,为搜索引擎从网上下载网页.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。与传统爬虫相比,聚焦爬虫的工作流程则较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存起来,进行一定的分析、过滤,并建立索引,为了方便之后

5、的查询和检索网页搜索策略目前网络上面主流网页搜索策略有三种,即:深度优先,广度优先,最佳优先。A)深度优先,即从起始网页开始,选择一个URL,进入,分析这个网页中的URL,选择一个再进入。如此一个链接一个链接地深入追踪下去,处理完一条路线之后再处理下一条路线。该算法的缺点:该类爬虫设计时较为简单。然而深度优先型网络爬虫存在一个问题:门户网站提供的链接往往最具价值,PageRank也很高,而每深入一层,网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低。B)广度

6、优先,即从起始网页开始,抓取其中所有链接的网页,然后从中选择一个,继续抓取该网页中的所有链接页面。该算法的优点,在于其设计和实现相对简单,且这种策略的基本思想是:与种子在一定距离内的网页重要度较高,符合实际。在聚焦爬虫的应用中,广度优先策略可以与网页过滤技术结合,即先用广度优先抓取一些网页,再将其中与主题无关的过滤掉。但这种方法的缺点是随着抓取网页的增多,算法的效率会变低。C)最佳优先策略,即按照某种网页分析算法预测候选URL与目标网页的相似度,或主题的相关性,并选取其中评价最好的一个或几个URL进行进一步的爬取。这种策

7、略的缺陷是可能会有很多相关网页被忽略,但相对的,这种策略可以将无关网页数量降低30%—90%。网页分析方法网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。网络拓扑的分析算法基于网页拓补,即通过已知的网页或数据,对其有间接关系的网页或网站做出评价的算法,这种算法广泛应用于实时搜索,其中又包括:网页粒度分析算法、网站粒度分析算法、网页块粒度分析算法三种。1.网页粒度分析法PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归和规范化计算,得到每个网页的重要度评价。P

8、ageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性。针对这个问题,HITS算法提出了两个关键的概念:权威型网页(authority)和中心型网页(hub)。2.网站粒度分析法网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。