分布式搜索引擎设计与实现

分布式搜索引擎设计与实现

ID:4244238

大小:3.25 MB

页数:94页

时间:2017-11-30

分布式搜索引擎设计与实现_第1页
分布式搜索引擎设计与实现_第2页
分布式搜索引擎设计与实现_第3页
分布式搜索引擎设计与实现_第4页
分布式搜索引擎设计与实现_第5页
资源描述:

《分布式搜索引擎设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中国科学技术大学硕士学位论文分布式搜索引擎设计与实现姓名:李伟申请学位级别:硕士专业:模式识别与智能系统指导教师:朱明20060501摘要在网页如此繁多的今天,人们在互联网上查找各种信息,往往都需要借助互联网搜索引擎的帮助。本文就是要设计一个针对互联网搜索的大规模分布式搜索引擎。互联网搜索引擎系统一般由四个主要部分组成:爬虫子系统,存储子系统,索引子系统,门户子系统。首先爬虫子系统通过网页链接爬行互联网,将网页或者其他Web对象抓取下来,保存到存储子系统;索引子系统从存储子系统获取未索引的网页,

2、计算索引数据,建立索引。门户提供一个用户交互界面,用户搜索互联网时,在门户上输入查询关键字,门户建立查询语句发送到索引子系统,查询关键字对应的网页,然后返回给用户。本文实现了互联网搜索引擎中的核心功能,完成了一个基本的面向大规模互联网的分布式搜索引擎平台。在分布式爬虫子系统中,多个爬虫应该避免重复爬行,本文按照URL的Hash值为每个爬虫分配一个URL空间,互不重叠,并通过调整爬虫爬行的URL空间来进行负载均衡。另外,本文实现的爬虫系统可以同时支持IPv4和IPv6网络。存储子系统由若干个存储组

3、构成,每个存储组存储互不重叠的一个URL空间的Web对象,由主服务器发布这一存储策略。通过扩展存储组可以不断提高整个系统的存储容量。每个存储组又由若干个存储单元组成,它们存储完全相同的数据,即所有的数据都是多备份的,保证数据安全,并可以提高数据访问的并发能力。外部客户端访问存储子系统根据主服务器发布的存储策略直接访问,数据访问过程中,无需主服务器参与,主服务器不再成为频繁数据访问操作下的瓶颈。索引子系统分为两个部分,索引计算和索引服务。索引计算子系统从存储子系统下载待索引数据建立索引,并发送给索

4、引服务子系统。为提高索引计算的可靠性,索引计算服务器与存储子系统的存储组采用多对多的关系,即多个索引计算服务器同时计算多个存储组上的待索引数据。存储组提供FTP服务,一次只允许一个索引计算服务器下载待数据包,下载完毕,将该数据包移动到待删除目录,从而避免了多个索引计算服务器同时下载计算相同的索引。索引服务子系统中各个索引服务器上都存储所有的索引数据,保证索引数据安全性。本文的各个子系统都采用基于策略的分布式架构,策略描述了系统内部服务分布情况,以及访问这些服务应该遵守的接口,由主服务器制定和发布

5、系统服务访问策略。系统内部各个服务器都按照策略规定提供服务,成为一个独立的自治系统,相互之间直接协调工作。外部客户端访问系统提供的服务也是按照策略直接访问,不需要主服务器参与。这种服务访问方式极大地提高了系统扩展性,使主服务器不再成为系统瓶颈。同时也提高了系统性能和可靠性(主服务器宕机时,整个系统仍然可以在一定程度上继续提供服务)。目前搜索引擎厂商的Web存储系统解决方案都没有公开,只有Google提到它的Web存储建立在Google文件系统之上,也没有公开详细的Web存储设计。本文详细描述了所

6、实现的搜索引擎中Web存储系统的解决方案。为了提高性能,简化数据访问模型,本文设计的Web存储系统不再建立在分布式文件系统之上,而是采用基于策略的分布式架构,由每个存储组自行存储、组织和维护Web对象,主服务器不维护Web对象元数据,也不参与具体的数据访问。外部客户端需要访问存储服务,只需要按照访问策略直接访问相应的存储组。搜索引擎中的所有服务器都是采用廉价的PC机,各种软硬件故障在所难免。为了在不可靠的软硬件系统上建立一个稳定可靠的搜索引擎,系统中的每个服务器都与其他一些服务器维持心跳,持续检

7、测各种异常情况,及时处理错误。重要数据都有多个备份,并能通过简单的数据复制进行快速灾难恢复。总体上,本文实现的搜索引擎具有很好的可扩展性、高性能和可靠性,解决了分布式互联网搜索引擎中爬虫系统、存储系统和索引系统中的若干问题。关键字:搜索引擎网络爬虫Web存储索引分布式2AbstractToday,peoplefindallkindsofinformationontheIntemetusuallyrelyonthehelpoftheInternetsearchenginesWearedesigni

8、ngalarge—scaledistributedthetnternetsearchenginehere.Generally,]nternetsearchengineconsistsoffourmaincomponents:crawlingsubsystem,storagesubsystem,indexingsubsystem,portalsubsystemFirstly,crawlingsubsystemcrawlWebPagesthroughthepageslinks.andstoresth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。