元搜索引擎中检索结果排序的优化方法_文坤梅

元搜索引擎中检索结果排序的优化方法_文坤梅

ID:27716154

大小:254.50 KB

页数:4页

时间:2018-12-05

元搜索引擎中检索结果排序的优化方法_文坤梅_第1页
元搜索引擎中检索结果排序的优化方法_文坤梅_第2页
元搜索引擎中检索结果排序的优化方法_文坤梅_第3页
元搜索引擎中检索结果排序的优化方法_文坤梅_第4页
资源描述:

《元搜索引擎中检索结果排序的优化方法_文坤梅》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、DOI:10.13245/j.hust.2003.03.017第31卷第3期    华 中 科 技 大 学 学 报(自然科学版)     Vol.31 No.32003年 3月  J.HuazhongUniv.ofSci.&Tech.(NatureScienceEdition)    Mar. 2003元搜索引擎中检索结果排序的优化方法文坤梅 卢正鼎 邓 曦 陈 莉(华中科技大学计算机科学与技术学院)摘要:提出了一种新的基于概率模型的排序优化方法.利用贝叶斯规则,结合各组成系统平均执行性能的信息,推导出一种新的相关度计算公式,较好地解决了结果融合中相关度

2、规范化和均衡化的问题.经实验验证,该方法对结果进行了最优化排序,其实际执行性能超出了现有的任何一个组成系统的性能.关 键 词:元搜索引擎;概率模型;结果优化排序;排序融合中图分类号:TP393.09;TP311.135  文献标识码:A  文章编号:1671-4512(2003)03-0049-03  在目前所存在的搜索引擎中[1],没有一个搜有少数公开其算法.事实上,即使用同样的排序算索引擎能够覆盖所有的WWW资源,大部分的搜法,在处理相关度问题时依然存在很大的困难.原索引擎都只能涉及到整个资源的一小部分.并且因在于算法是基于不同的文件集合来排序文件.

3、各类搜索引擎的信息来源差异较大,因此集成多例如,R1是专门研究计算机科学的数据源,那么个搜索引擎而产生的元搜索引擎具有比传统引擎词语“数据结构”可能会出现在很多文件中,于是覆盖面大,引擎效果更好且具有可扩展性等优点.“数据结构”这个词语在R1中将会有很低的相关其中对各个组成系统所返回的搜索结果进行排序度.而与此同时,如果数据源R2和计算机科学完是提高元搜索引擎效率的关键技术.全不相关,并且R2中出现过这个词语的文件很少,那么“数据结构”在数据源R2中可能会有很高1 排序融合的关键技术的相关度.对包含“数据结构”这个词语的查询,R1可能每一个成员搜索引擎都

4、有自己的排序检索结会赋予文件较低的相关度,而R2则会赋予较高的果算法[2],根据用户所给定查询的相关度来排序[2],根据用户所给定查询的相关度来排序相关度.在同一个查询中,两个非常相似的文件f1文件.然而,这些方法千差万别,通常每一个算法和f2,如果f1在R1中,而f2在R2中,却得到了不都是某一搜索引擎提供者所特有的,并且算法不同的相关值.因此,即使数据源采用同样的排序算公开,这就使得融合以及排序来自不同数据源的法,一个元搜索引擎仍然需要一些附加的信息用数据结果变得非常复杂.一种有效的办法来融合查询结果.1.1 相关度的规范化最好的解决办法就是综合考虑

5、各个成员搜索每一个成员搜索都有各自的尺度来衡量文件引擎所给出的相关度,从而消除各个数据源本身的相关度.例如,数据源R1判断文件f1对某一查带来的偏差.询其相关度为0.1,而数据源R2判断文件f2对某2 检索结果排序的优化方法一查询其相关度为1000.如果想把来自R1和R2的结果融合成为单一的文件排序列表,那么f1的相关度是高于或者低于f2根本无法判断,因为不在响应一个给定查询时,为了组合多个查询 存在统一的标准.如何统一各个数据源的相关度,检索系统[3]所得到的文件排序列表,更好地解决这就涉及到相关度的规范化问题.上述两个问题,提出了一种新的概率模型.1

6、.2 相关度的均衡化2.1 一种元搜索引擎的概率模式大多数搜索引擎的排序算法是不公开的,只假定在响应给定查询时,元搜索引擎已经得收稿日期:2002-09-06.作者简介:文坤梅(1978-),女,硕士研究生;武汉,华中科技大学计算机科学与技术学院(430074).基金项目:国家高性能计算基金资助项目(99319). 50             华 中 科 技 大 学 学 报(自然科学版)           第31卷到了各个成员搜索引擎的文件排序列表.同时也相关度与非相关度的比率消除了相关度的规获取了一些简单的统计信息,包括关于组成系统范化问题,屏蔽掉

7、了各个成员搜索引擎中具体的的平均执行性能信息.这些信息都是以元数据形相关度;另外各个成员搜索引擎的比率值相加这式给出的.基于这些信息,提出了一种概率模型并一点又综合考虑了各个搜索引擎所起的作用,实推导出优化的元搜索引擎策略.现了相关度的均衡化,从而客观地反映了文件的其中元数据包括:对任何一个查询,每一个成真实相关度.员搜索引擎所对应文件的相关度和不相关度,且2.2 方法评估与实验结果这些都是未规范化的初始值.利用基于概率模型的优化方法进行了实验,给定n个检索系统返回的文件排序列表,以目前比较通用的6种搜索引擎作为成员引擎集ri(d)被检索系统i赋值为文件

8、d的相关度(如果成了元搜索引擎Mix,这五种成员搜索引擎分别是:新浪(sina)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。