搜索引擎的分析

搜索引擎的分析

ID:33932192

大小:308.55 KB

页数:23页

时间:2019-03-01

搜索引擎的分析_第1页
搜索引擎的分析_第2页
搜索引擎的分析_第3页
搜索引擎的分析_第4页
搜索引擎的分析_第5页
资源描述:

《搜索引擎的分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、对一个大型超链接Web搜索引擎的分析SergeyBrinandLawrencePage{sergey,page}@cs.stanford.eduComputerScienceDepartment,StanfordUniversity,Stanford,CA94305摘要:本文介绍了google,一个在超文本结构中广泛应用的大型搜索引擎原型。Google被设计成能够高效地抓取网页、建立索引,并产生比现有系统更好的搜索结果。该原形的全文及超链接数据库至少包含有24'000'000个网页,站点http://google.stanfor

2、d.edu/提供了下载。设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。本文详细介绍了我们的大型搜索引擎,以我们的了解,这是第一篇公开发表而描述如此详尽的论文。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。本文将解决这个问题,描述如何运用超文本中

3、的附加信息,建立一个大型实用系统。另外,考虑到任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也将是本文要关注的问题。关键词:WorldWideWeb,搜索引擎,信息检索,PageRank,Google1绪论Web给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的

4、主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。1.1网络搜索引擎—升级换代(scalingup):1994-2000搜索引擎技术不得不快速升级(scaledramatically)跟上成倍增长的web数量。1994年,第一个Web搜索引擎,

5、WorldWideWebWorm(WWWW)可以检索到110,000个网页和Web的文件。到1994年11月,顶级的搜索引擎声称可以检索到2'000'000(WebCrawler)至100'000'000个网络文件(来自SearchEngineWatch)。可以预见到2000年,可检索到的网页将超过1'000'000'000。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份,WorldWideWebWorm平均每天收到1500个查询。在1997年11月,Altavista声称它每天要处理大约20'000'000

6、个查询。随着网络用户的增长。到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可扩展性,引入升级搜索引擎技术(scalingsearchenginetechnology),把它升级到如此大量的数据上。1.2Google:跟上Web的步伐(ScalingwiththeWeb)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keepthemuptodate)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理

7、查询必须快,达到每秒能处理成百上千条查询(hundredstothousandspersecond.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。还有几个值得注意的因素,如磁盘的寻道时间(diskseektime),操作系统的能力(operatingsystemrobustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速

8、有效地存取(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可扩展性(scalingproperties)。1.3

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。