信息检索01266

信息检索01266

ID:40230403

大小:440.50 KB

页数:39页

时间:2019-07-27

信息检索01266_第1页
信息检索01266_第2页
信息检索01266_第3页
信息检索01266_第4页
信息检索01266_第5页
资源描述:

《信息检索01266》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一章信息检索理论基础主要知识点(一)信息检索原理(二)信息检索技术简介(三)信息检索系统(四)信息检索语言(五)信息检索评价(六)信息检索与数字图书馆信息检索原理--信息检索及其发展(1)信息检索(InformationRetrieval)是“一种时间性的通讯形式”,“在时间上从一个时刻通往一个较晚的时刻,而在空间上可能还在同一地点”。这一看法,揭示了信息存储与获取两个环节是一种延时行的通讯形式。(2)信息检索的基本原理,是对信息集合与需求集合的匹配和选择。信息集合是有关某一领域的文献或数据的集合体,它是一种公共知识结构,可能

2、可以弥补该用户的知识结构缺陷。而匹配与选择则是一种机制,它负责把需求集合和信息集合进行比较,然后根据一定的标准选出符合需求的信息。(3)在社会科学化的进程中,信息检索经历了从手工检索到机械检索再到计算机化检索的发展过程。(1)信息检索的模型的含义:信息检索的模型就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。(2)布尔逻辑模型:它是由Y.Bar-Hillel在1957年首先提出的,他提出了将布尔逻辑应用于计算机检索的可能性,

3、10年后,正式被大型文献检索系统所采用,并逐渐成为各种大型联机检索系统、甚至是网络搜索引擎的典型、标准检索模式。布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。信息检索原理--信息检索模型简介信息检索原理--信息检索模型简介在传统的布尔模型中,每一文献用一组标引词表示。如,表达式Di=(T1,T2,T3,…,Tm),为文献i,式中T1,T2,T3,…,Tm表示文献i中的所有标引词集合。每个提问式Q除表示用户需求中的标引词组合外,还有各标引词的布尔组配。系统在对提问进行

4、处理时,输出一个包含有该提问式的组配元(标引词)且符合组配条件(逻辑运算符)的文献集合。布尔检索模型因其简单、易理解、易实现、能处理结构化提问等优点,在信息检索系统中得到了广泛的实际应用。传统布尔检索模型的具体缺陷主要表现在以下五方面:①布尔检索式的非友善性,即构造一个好的检索式是不容易的。②易造成零输出或输出过量。③无差别的组配元,不能区分各组配元的重要程度;④匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判,都一视同仁;⑤检索结果不能按照重要性排序输出。信息检索原理--信息检索模型简介传统布尔检索模型的具体缺陷主

5、要表现在以下五方面:①布尔检索式的非友善性,即构造一个好的检索式是不容易的。②易造成零输出或输出过量。③无差别的组配元,不能区分各组配元的重要程度;④匹配标准存在某些不合理的地方。对于文献中标引词的数量没有评判,都一视同仁;⑤检索结果不能按照重要性排序输出。(3)向量空间检索模型:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等长的向量表示。如:文献集合中的第i篇文献用Di=(T1,T2,T3,…,Tm)表示,其中T1,T2,T3,…,Tm为系统中所有标引词集合;提问集合中的第j个提问用Qj=(T1,

6、T2,T3,…,Tm)表示;Tk表示文献向量或提问向量中的第k个分量,即文献表示或提问式中所含的第k个标引词或检索词。传统的向量空间模型将Tk取值为“0”或“1”,现在大多在[0,1]区间取值。这样,就可以构成一个向量空间,把信息检索中文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相似度来测定。这种方法自然引入了检索的柔性和模糊性,从理论上使检索更为合理。信息检索原理--信息检索模型简介信息检索原理--信息检索模型简介与采用布尔模型的普通检索系统相比

7、,该系统有以下几个特色:①采用自动标引技术为文献提供标引词;②改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在[0,1]闭区间中取值;③由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理;④检索结果可按与提问的相关度排序输出,便于用户通过相关反馈技术修正提问,控制检索量;⑤布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。向量模型也存在着某些明显的缺陷。如检索过程转化为向量的计算方法,不能反映出文献之间的复杂关系;由于对任何一个提问都需要计算全部文献库中的每一篇文献,因此

8、计算量大、算法复杂性较高;由于标引加权和检索加权是分离的,因此随意性较大,难以保证质量。信息检索原理--信息检索模型简介(4)概率检索模型:它是基于概率排序原理,即文献根据它们与提问的相关概率来排序输出。有证据表示,在一定条件下,它可以产生优良的排序结果。事实上

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。