搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集

搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集

ID:28301301

大小:64.05 KB

页数:5页

时间:2018-12-09

搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集_第1页
搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集_第2页
搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集_第3页
搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集_第4页
搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集_第5页
资源描述:

《搜索引擎调查报告探测大众心中的秘密隐私与搬运工人辞职报告合集》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、搜索引擎调査报告探测大众心中的秘密隐私与搬运工人辞职报告合集搜索引擎调查报告探测大众心中的秘密隐私就是不见莎士比亚的影子。这个经典的例子引出了搜索技术的一个术语一停止词(stopord)o顾名思义,计算机的一切能力都是以计算为基础,即使阅读也不例外。搜索引擎浏览分布在各个角落的网页的同时,还在后台不停地统计词语的出现频率。有一些词语出现率极髙,带来巨大的统计成本,却不包含太多的具体意义,比如汉语的“的、是、了”和英文单词“the、and"之流。如果要得出包含该词的全部结果,实在是过多了。例如遇到哈姆雷特名言中的那些高频词汇,经常导致搜索“引擎”突然熄火,因此这些单词得名“停止词”

2、。在Google“阅读”哈姆雷特的名言时,遇到了四个停止词,出于无奈,所以它只好对频率最低的"not"进行搜索,得到了一些有关"not"的流行网站。如果将此名言括上引号,Google便会突然开窍,顺利地寻找到相关的网站。这一功能被称作短语搜索(phrasesearh)o不过,比Google更智能的是Alltheeb,它已将这句名言列入搜索目录,在结果页面中直接提供了相关。搜索如何实现“已向英特网搜索geraldsalton0共有5,430项查询结果,这是第1〜10项。搜索用时0.06秒。”0.06秒,体现着以Google为代表的搜索引擎的快捷和髙效。这一切,又是如何实现的呢?通常

3、情况下,一间机房只能摆放10台服务器,但是Google的机房内可以容纳80台服务器,因为它们都是拆掉了机壳和部分零件的裸机。LarrPage和SergeBrin他们将机器的外壳拆掉,再卸下没用的芯片和零件使整机体积缩小,而且容易维护,当然也节省了租用机房的花销。Google使用了超过一万台的服务器,并将其分散到五个不同地区的机房内,用以应付浩如烟海的网络信息。为了对每一次搜索请求做出快速的反应,搜索引擎在前期下足了功夫。它们在后台不停地重复三步操作。第一步,搜索引擎会不断的利用爬虫(Craler)程序搜集互联网上所有可达的网页,无论是公开的还是隐藏的一只要曾被访问过,就会招致“爬

4、虫”上身。这样,定期外出的“爬虫”就为搜索引擎囤积起一个海量数据库。由于“爬虫”外出遵循一定的周期,有时可能跟不上网页更新的速度,所以Google的“网页快照”会出现与目标页面不尽相同的情况。第二步,另一个程序会统计出缓存网页(CahedPage)中各个字词出现的频率。第三步,根据词频概括出页面的中心思想和段落大意,再按照不同的关键词提炼出索引目录。用户的每一次搜索请求都是基于这些索引计算而得,因此响应异常迅速。无论Google的PageRank专利技术,还是百度全球独有的“超链分析”技术,其大致想法都差不多:统计每个网页被其它网页指向的情况,次数越多则级别越高,排名也就越靠前。

5、有的搜索引擎专家指出,搜索算法上UsedRank比PageRank更为准确。UsedRank指的是根据用户点击搜索结果而再次做出的统计。有的页面可能通过开始的计算被排在结果的第八页,但是通过查看每条的属性,引擎可以将用户点击多而且浏览成功的页面提到前面来。Alltheeb.Yahoo和百度等搜索引擎都老老实实地统计了每一次点击,而Google则非常直接,不做任何再次统计。很多服务网站认同这样一个观点,用户是懒惰的。根据点击情况做出的统计,很多用户一般只看完搜索结果的第一页,并不浏览后续页面。因此一些网站把的搜索结果显示在第一页上,比如Yahoo,它的“第一页”有20项。而**则把

6、“和盘托出”的服务形式发展到了登峰造极,在情人节当天搜索“鲜花”,一下子就跳出了78个网站。但是Google.Alltheeb和百度等搜索引擎依然坚持简洁的作风,每页只显示10条搜索结果。除了搜索算法的不同,各家搜索引擎也在细化服务,推出了日趋丰富的搜索功能,比如大家钟爱的Google图像搜索。其实,Alltheeb的图像功能也十分优秀,它还同时支持音频、视频以及下载站点的搜索。整合搜索引擎那么,用户是否不得不逐一访问每个搜索引擎以得到最好的搜索结果呢?也许不必。搜索整合技术可以一次性地提供尽可能多的信息。搜索整合(MetaSearh)如果译作“后搜索”,可能听起来更时髦一些,不

7、过这就无法体现其重新梳理搜索结果这一标志性的功能。通常的搜索是从庞杂的网络资源中按照某个线索分门别类的提取信息,而Me询Searh则是在其他搜索引擎的发现结果之上进行再加工,可谓是搜索的搜索。当用户向搜索整合引擎输入关键词之后,它即向若干个独立工作的搜索引擎同时发送搜索请求,并从它们的网页数据库中检索出所需的信息。搜索整合引擎没有建立自己的网页数据库,它的一切数据都来自其他的搜索引擎;所以,整合的结果也不会比其他任何一家搜索引擎的结果更好。但是,它可以将用户从重复性劳动中解放出来

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。