基于web的智能搜索应用技术探讨

基于web的智能搜索应用技术探讨

ID:14512148

大小:33.51 KB

页数:10页

时间:2018-07-29

基于web的智能搜索应用技术探讨_第1页
基于web的智能搜索应用技术探讨_第2页
基于web的智能搜索应用技术探讨_第3页
基于web的智能搜索应用技术探讨_第4页
基于web的智能搜索应用技术探讨_第5页
资源描述:

《基于web的智能搜索应用技术探讨》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、------精品文档!值得拥有!------基于WEB的智能搜索应用技术探讨摘要:伴随着Internet的日益发展和壮大,如何在浩瀚的网络信息海洋中快速、高效地寻找特定的主题内容,成为困扰信息服务提供者的主要问题。针对该问题,基于WEB的搜索引擎技术自1994年以来已经发展了三代,本文从WEB搜索技术的智能化、个性化发展轨迹和应用特点开始,深入探讨了智能搜索引擎系统的结构、构建以及相关应用算法思想。旨在为WEB搜索技术的演进和完善提供参考。关键词:WEB搜索引擎;智能化;Lucene;中文切词;一、基于WEB的搜索技术的定义、发展趋势与应用热点1.1、定义一般

2、说来,基于WEB的搜索技术主要指的是WEB搜索引擎(SearchEngine)技术,即指通过WEB在Internet上建立的一种向网络用户提供网上信息资源检索和导航服务的系统。搜索引擎提取网上信息如网站、网页、URL、以及BBS,Telnet,FTP,Newsgroup等,进行整理、组织、加工、处理,建立管理和存储这些信息的索引数据库,并提供基于该索引数据库的检索。1.2发展趋势与应用特点搜索引擎技术是当今计算机应用技术的前沿学科,搜索引擎技术目前已经发展了三代。------珍贵文档!值得收藏!-----------精品文档!值得拥有!------第一代是基于

3、人工登入、检索、排序的目录式搜索引擎,以YAHOO为代表。我认为这一代搜索引擎的局限在于查全率(检出的文档与相关文档之比)比较低。目录式搜索引擎还存在两大问题:一是分类是按分类者或分类软件的分析而定,不一定与用户的意见一致;如果用户对查找目标了解比较浅显,就需要从其14个大类别开始选取,再一层一层深入,而忽略了事物的横向客观联系。当要查找一个容易引起多意理解的概念如:“病毒、神经网络”等,用户可能就会深入多个目录树型结构中去。二是如果用户查找的信息没有对应的分类项,则无法进行搜索。第二代搜索引擎是基于用户输入的查询关键词检索型的搜索引擎,以Google和Bai

4、du、AltaVista为代表,通过使用网络机器人(WEBROBOT)自动遍历决大多数INTERNET网页,并存贮其中的主要文本内容、图片或多媒体信息。在本地维护一个海量的网页存储数据库,存储数十亿至几百亿个网页,根据关键词的使用频度建立索引(这也是个巨量的工作)并维护之,利用特有的页面排序算法(如GOOGLE的PAGERANK)返回给用户查询结果。由于页面权值算法有其特点,尽管查全率比第一代搜索引擎有很大提高,但不能保证查准率(检出的文档与目标文档之比)。另外,它们仍然是基于关键词的搜索查询,在用户方面,关键词的选择可能导致查询结果有较大的差异。例如:有用户

5、想了解黑龙江省完达山的旅游情况介绍,在GOOGLE中如果输入“完达山”这个关键字,返回页面将几乎全部是完达山乳业和制药业的情况,就是再加上“旅游”这个关键字,返回结果仍然不尽人意。这是因为各个搜索引擎的页面权值算法有其特异性,如GOOGLE就比较偏重旧的网页和综合网站。检索型的搜索引擎的优点是信息量大、更新及时、毋需人工干预。缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选,且产生大的网络负载和服务器负载。------珍贵文档!值得收藏!-----------精品文档!值得拥有!------当前,第三代搜索引擎的发展趋势是更加智能化、个性化,并在此

6、基础上力求具备更高的查全率与查准率,更全面的查询功能。首先,通过目录型和检索型的搜索引擎技术相互结合,提供多样化和个性化的服务。以Yahoo为例,用户可以从它的首页上查看新闻、金融证券信息、天气预报、浏览黄页,可以进行网上购物、拍卖、找人,或者使用免费E-Mail和网上寻呼等服务。近期许多搜索引擎已开始提供个性化的服务,例如Yahoo的“MyYahoo”、InfoSeek的“personalizedstartpage”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面上。除了简单的AND、OR和NOT逻辑外,不少搜索引擎还支持相似

7、查询,例如AltaVista、Northernlight、Lycos等支持短语查询,AltaVista的高级搜索功能支持NEAR逻辑等;在消除内容重复的网页方面,一个比较成熟的方法就是对重复信息的链接进行合并,即将页面信息重复的链接不一一呈现在结果页面中,用一外部链接来单独显示这些重复的链接地址。在google推出的学术搜索引擎(http://scholar.google.com/)中已经有这样的优化实现了,它会将同一文献的不同链接地址放在一条结果信息中,这样用户就可以在前三页中看到更多的页面链接,从而提高了工作效率。------珍贵文档!值得收藏!-----

8、------精品文档!值得拥有!---

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。