中文智能搜索引擎

中文智能搜索引擎

ID:27750142

大小:195.50 KB

页数:11页

时间:2018-12-05

中文智能搜索引擎_第1页
中文智能搜索引擎_第2页
中文智能搜索引擎_第3页
中文智能搜索引擎_第4页
中文智能搜索引擎_第5页
资源描述:

《中文智能搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、中文智能搜索引擎龙其072349摘要飞速发展的Internet给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点。本文通过搜索引擎概述及原理介绍中文智能搜索引擎,从中文分词技术;词性标注及词义分析;分类器设计检索模型;PageRank排序技术;研究现状和发展趋势等内容对中文智能搜索引擎进行介绍。搜索引擎概述及原理搜索引擎是以Web页面为检索文档的信息检索系统,它的核心就是信息检索技术。广义地说,搜索引擎就是指在

2、指互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库。一般来说,搜索引擎得原理可以看做三步:从互联网中抓取网页;建立索引数据库;在索引数据库中进行搜索排序。(1)互联网中抓取网页:通过网页搜索工具Spider(蜘蛛)或Robot(机器人)等自动访问互联网,沿着URL搜索,并把搜索到的信息带回搜索引擎。(2)建立索引数据库:通过对收集的

3、网页信息进行分析,把这些相关信息进行分类索引建立索引数据库。(3)在索引数据库中进行搜索排序:通过Web服务端软件,获得用户输入关键词后,有搜索程序从网页数据库中找到符合该关键词的相关网页。为用户提供浏览界面下的查询信息。搜索引擎结构图中文智能搜索引擎1.中文搜索引擎中文搜索引擎是指以Interent网络上的中文信息为主要对象,提供信息的自动收集、自动过滤、自动索引中和检索导航等服务的搜索引擎。中文Internet搜索引擎的最关键组件是能够在海量中英文数据上进行高效全文检索的信息管理系统。中文搜索引擎的机制同英文搜索引擎大致相同,不同的是多了中文

4、语言的处理技术,这主要是中文分词技术和汉化技术。逻辑上,中文信息搜索引擎与与一般搜索引擎一样分为三个部分:网页搜索引擎,索引引擎和查询引擎。2.智能搜索引擎传统搜索引擎局限:传统搜索引擎主要采用网站分类技术和全文检索技术来实现信息查询,前者成本高,对网站描述也比较简单,不能升入网站内部细节。而后者效率比较低且返回信息过多。传统搜索引擎所使用的技术都难以解决用户“找信息难”的问题,造成这种困难的实质在于搜索引擎缺乏知识处理能力和理解能力。因此要把信息检索从基于关键词层面提高到基于知识层面。智能搜索引擎,它突破传统搜索引擎基于要求较精确的关键词层面信

5、息检索的局限,发展到基于以不规范、不精确的自然形式出现的知识(或概念)层面来分析和处理用户的查询提问,具有良好的自然语言理解、知识处理能力,在信息检索过程中体现出很强的智能化与人性化优势。3.中文智能搜索引擎采用智能搜索引擎得方法实现对中文信息的检索。中文智能搜索引擎可以自动分析中文网页,进行自动分词处理,并自动提取关键词,建立一关键词为基础的查询数据库,降低了系统开销,大大提高了查询效率。它通过充分考虑中文语句的表达结构以及“口语化的提问,智能化的结果”来满足用户的各种查询需求。中文智能搜索引擎功能结构图大致如下:中文智能搜索引擎功能结构中文智

6、能信息系统包含了许多中文信息处理的关键技术如:中文分词技术,词性标记,文本分类等。利用这些中文信息处理技术,来提高系统搜索的效率,查询结果的准确性等。中文分词技术1.自动分词分词就是把一个句子按照其中词的含义进行切分,由于中文文本在书写表达或计算机内部表示时,字与字之间、词与词之间没有明确的切分标志。此外,汉语词序的灵活性,语法限制简单及歧义现象等都给中文的自动分词造成了极大的困难。2.自动分词的过程指的是从信息处理需要出发,按照特定的规范,对汉语按照分词单位进行划分的过程。分词单位指汉语信息处理使用的、具有确定语义或语法功能的基本单位,包括词和

7、词组。词是最小能独立运用的基本单位,两个或两个以上的词按一定语法规则组成表达一定意义的语言单位即词组。1.分词词典为实现及其自动分词,需要有经过语言专家精心挑选的词汇组成的现有词典,然后才能研究如何根据已有的分词词典实现文本的切分。通常分词词典的设计与分词算法相关,在基于词典的分词算法中,分词词典数据结构的设计很关键,将影响到分词算法的性能。为构建一个高效的分词词典,可以考虑以下三个方面:(1)分词词典对词的查询速度:这直接决定匹配算法效率的高低。(2)分词词典的存储利用率:词典越小,所需查询时间也越少。(3)分词词典维护的效能:包括对词的插入、

8、删除和更新等操作的难易程度。2.分词方法现有的中文分词算法可以分为基于词典的分词方法,基于理解的分词方法以及基于统计的分词方法三大类,文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。