信息检索-02信息检索评价

信息检索-02信息检索评价

ID:21974060

大小:500.50 KB

页数:50页

时间:2018-10-21

信息检索-02信息检索评价_第1页
信息检索-02信息检索评价_第2页
信息检索-02信息检索评价_第3页
信息检索-02信息检索评价_第4页
信息检索-02信息检索评价_第5页
资源描述:

《信息检索-02信息检索评价》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1信息检索的评价哈工大计算机学院信息检索研究室20072评价评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量信息检索的评价针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能,因此相对来说较容易性能评价对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序3相关度相关度理论假定:对于一个给定的文档集合和

2、一个用户查询,存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档45相关性相关性是一种主观评价是不是正确的主题输入:“和服”;输出:“···咨询和服务···”由于分词错误,导致检索结果偏离主题是否满足用户特定的信息需求(informationneed)时效性,是不是新的信息输入:“美国总统是谁”;输出:“克林顿”信息已经过时权威性,是否来自可靠的信息源6评价IR系统的困难相关性不是二值评价,而是一个连续的量即使进行二值评价,很多时候也很难从人的立场上看,相关性是:主观的,依赖于特定用户的判断和情景相关的,依赖于用户的需求认知的,依赖于人的认知和行为能力时

3、变的,随着时间而变化7检索的评价检索性能的评价检索结果的准确度检索任务批处理查询交互式查询实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性在评价和比较检索系统的检索性能需要以下条件:一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求{q1,q2,…,qn}。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集{R1,R2,…,Rn}。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值8相关性判断在早期的检索实验集合中,相关性判断是全方位的

4、,就是说,由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。由于TREC的文献集合如此庞大,全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。9“pooling”方法有以下两个假设假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的“pooling”技术的具体操作方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool”由检索评价专家进行人工判断,最终评判出每一文档的相关性1011

5、相关文本检索出的文本全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关准确率和召回率召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设:文本集中所有文献已进行了检查12准确率和召回率的关系101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾13举例Example Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果:1.d1236.d911.d38 2.d847.d51112.d48

6、3.d568.d12913.d250 4.d69.d18714.d113 5.d810.d2515.d3(precision,recall)(100%,10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)14一个查询的11个标准查准率11个标准查全率水平所对应的查准率:0%,10%,20%,…,100%02040608010012020406080100120interpolationprecision15平均准确率上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均

7、化处理,公式如下:Nq:thenumberofqueriesusedPi(r):theprecisionatrecalllevelrforthei-thquery多个查询下进行检索算法的比较对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值。如下为两个检索算法在多个查询下的查准率/查全率的值。第一个检索算法在低查全率下,其查准率较高。另一个检索算法在高查全率下,其查准率较高17适应性合理估计需要了解集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。