版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录评估数据融合中得分归一化的方法21 Abstract22 Introduction23数据融合44 不同得分归一化方法对数据融合效果的影响61.method62.result105 在不同的分数秩区间内相关文件的分布情况12线性转化:12实验过程136 Conclusion15评估数据融合中得分归一化的方法1 AbstractIn data fusion, score normalization is a step to make scores, which are obtained from different component systems for all documents, c
2、omparable to each other. It is an step for effective data fusion algorithms such as CombSum and CombMNZ to combine them. In this paper, we evaluate four linear score normalization methods, namely the fitting method, Zero-one, Sum, and ZMUV, through extensive experiments. The experimental results sho
3、w that the fitting method and Zero-one appear to be the two leading methods.数据融合把多个信息系统的数据融合到一起,形成一致性的数据模型;评分归一化是数据融合算法不可缺少的一步,是打分过程的一个步骤,我们从所有文件不同的系统成分中获取分数并相互比较。在本篇文献中,评估四种线性评分规一化方法,即,the fitting method, Zero-one, Sum, and ZMUV,通过大量的实验结果证明the fitting method and Zero-one是两种更好的方法。2 Introduction在信息检索
4、中,数据融合是被很多研究者研究和建立的好的方法数据融合就是把多个信息系统的数据融合到一起,形成一致性的数据模型。数据融合的主要思想是整合多重信息检索系统中得到的检索文件到一个列表中,通过给定的检索,我们能更准确的评估所有相关的文件。它为运行有效的信息检索系统提供一种选择。它也被用来在万维网环境中,作为一种元搜索引擎,从其他的搜索引擎中融合合成的文件。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。元搜索:随着互联网的迅猛发展,Web信息成爆炸式增长的趋势,如何更好、更全、更快地从中获取对我们有价值的信息,成为信息检索领域研究的最主要任务。然而任何一个普通的搜索
5、引擎都无法覆盖所有的Web信息,因此,在检索时,希望能够同时使用不同的搜索引擎来提高检索的覆盖率以及查全率,获取更多、更好的有价值结果。为此,元搜索引擎在这种需求驱使下诞生并发展起来。元 搜索指的是通过向多个搜索引擎发送搜索请求,将所得到的结果进行合并,以试图得到更好的结果列表呈现给用户的一种搜索方式。考虑到针对一个搜索,每个通用搜索引擎能够给出很多相关的文档,元搜索可以通过将多个通用搜索引擎结果合并比较来发现其中更为相关的文档,从而提升前k个结果中的精确度和相关度。当前元搜索主要研究的问题有以下三个方面。(1)数据库/搜索引擎选择问题(database selection problem)该
6、问题主要研究对于一个给定的query,如何选择那些更有可能返回相关度更高文档的搜索引擎进行检索。(2)文档选择问题(Document selection problem)该问题主要研究对于选择的搜索引擎,需要从这些搜索引擎中选取多少文档。(3)结果合并问题(Result merging problem)该问题主要研究如何将从各个搜索引擎得到的结果进行合并,以给出更好的检索排序。对于用户提交的查询,元搜索会将查询query提交给不同的成员搜索引擎。由于不同成员搜索引擎返回的结果不仅数量多,且存在重复的问题,如何选择返回的查询结果以及对选择的结果进行合并排序,直接影响到元搜索搜索引擎的整体性能。目
7、前主流的对搜索结果合并排序的方法主要有两种,一种是基于相关性评分(relevance score)的方法;一种是基于返回结果的rank值的方法。(1)基于相关性评分的方法该方法的主要思路是依据不同的成员搜索引擎对于固定的查询词与文档集之间一一对应的相关性评分的值,来确定最终返回给用户的文档排序结果。在计算最终返回给用户的文档集与查询的相关性评分的方法中,有基于评分的最大值(CombMAX)、最小值(CombMIN)、和值(CombSUM)、平均值(CombAVG)以及CombMNZ(multiply-by-number-non-zero)等。设搜索引擎集合为D,i表示其中第i个搜索引擎,对于C
8、ombSUM、CombAVG以及CombMNZ有统一形式的计算公式,即对于某个query,其中reli(d)为成员搜索引擎i中,文档d与query的相关性评分;表示相关性评分中非零值的数目。对于不同的r值,表示不同的计算方法,r=0时,即是上面求和值的方法CombSUM;r=1时,表示上面CombMNZ的方法;r=1时,表示求平均值CombAVG的方法。上面方法中,由于不同的成员搜索引擎对于查询与文档的相关性评分的标准不同,所以在进行上述计算之前需要对相关性评分进行归一化处理。求取查询与文档的相关性评分后,按照相关性评分的大小对文档进行排序,返回给用户排序的结果。除了上述计算方法外,基于相关性
9、评分的合并排序,还有对各成员搜索引擎相关性评分进行线性组合的方法(linear combination)。 上述的处理方法中并没有对不同成员搜索引擎的性能进行区分,实际上,不同搜索引擎在搜索性能上还是存在差距的,线性组合的方法考虑到这种差距,对来自不同成员搜索引擎的相关性评分增加不同的权重,相对于上述简单的求取某个平均值或者是和值,这种方法更加合理。其计算公式如下式中ai表示不同成员搜索引擎的权重,这种权重的获取方式很多,典型的有取不同搜索引擎训练集的平均准确率(AP)。(2)基于返回结果的rank值的方法这种方法的主要思路是依据不同成员搜索引擎对某个查询返回文档集的rank位置排序,并不需要
10、原始的成员搜索引擎的相关性评分。基于相关性评分的算法总体上会比基于返回结果的rank位置的性能更好。但是从算法的成本上来说,基于相关性评分的算法需要事先知道成员搜索引擎的相关性评分,这个在实际搜索引擎中是存在很大困难的,而获取返回结果的rank位置排序是容易的。因此在实际的应用当中,基于返回结果的rank位置的合并排序算法更受青睐。3数据融合数据融合是一个框架,采集并集成各种信息源、多媒体和多格式信息,它是一个把多源信息通过合适的方法结合起来得到一个更满意的结果的过程。传感器是数据的来源,传感器不一定是物理形式的,数据源或者信息源甚至人工数据都称为传感器;融合是一种数据加工过程,算法将随着数据
11、源的不同以及融合的目标的不同而不同。对于数据融合算法有几种因素需要考虑:在这三方面已经做了很多的研究。对于一个component result(整合结果),它包含一组秩序列的文件,有时基于信息的需要我们通常用每一个文件关联的分数来表示文件的评估相关性,而不是用秩数。本篇文献我们假设所有整合系统(搜索引擎)为检索的文件提供分数,不同的整合系统用不同的打分机制,这种不同不仅是范围也是分布的不同。因此一个有效的数据融合算法有必要进行分数的标准化。例如 Fox and Shaw 设计的 CombSum和CombMNZ算法就整合了评分的归一化.两者的区别:而Lee 介绍了一种线性转换的得分归一化的方法本
12、文的参考文献介绍了四种线性标准化的方法:目标:评估四种线性标准化方法,(Zero-one, the fitting method, Sum and ZMUV),一些实验结果也有利于我们更好的从总体上了解分数标准化。4 不同得分归一化方法对数据融合效果的影响1. method美国国家标准和科技机构 (National Institute of Standards and Technology, 简称 NIST)和美国情报局先进研发活动 (Advanced Research and Development Activity center of the U.S. Department of Defe
13、nse, 简称 DARDA 合作举办“文字检索会议”(The Text REtrieval Conference, TREC3) 目标:其目的是在信息检索社区的研究中为大规模评估文本检索方法提供必要的基础设施支持。TREC 7: /presentations/TREC7/index.htmTREC 8: /presentations/t8.presentations.htmlTREC 9: /presentations/t9.presentations.htmlTREC2001:
14、/presentations/t2001.presentations.html2.result对比在相同的融合算法中不同分数标准化方法得到融合结果的效率。The Fitting method 中,统一选取范围0.06,0.6 CombMNZ算法中,因为ZMUV 半数结果为负值,故对每一个规范化分数加2,ZMUV方法换为,ZMUV2方法。选用四组结果,是TREC 7,8,9,2001的子集,每一次查询包含1000篇文件,平均准确率大于等于0.15,每组随机选择3-10个系统运用两种算法的数据融合,200篇用来测试任何给定数目的结果。平均标准率被用来评估四种方
15、法:四种规范化方法在两种数据融合方法中有相似的效率,可以观察到,所有方法中ZMUV2总是最差的,the fitting method0.06-0.6 ,和 Zero-one相对于其他两种方法较好。5 在不同的分数秩区间内相关文件的分布情况线性转化:对于线性的转换方法,它把所有值都放在一个范围里:设置了两Max和min表示标准化分数的最大最小值,r max 和r min分别表示原始分数的最大最小值。对于任何一个原始分数r_s,用以下公式标准化:对于任何一种线性转化方法都可以转化为另一种线性方法相应的分数,例如:分数标准化的目的就是使不同的结果(results)具有可比性,理想情况下,如果在分数与
16、相关概率之间有着线性的联系,对于CombSum这样的算法很有利。此时,我们对于从n个信息检索系统中得到的n 个results有如下俩个条件: 实验过程:接下来我们将进行实验来验证哪个得分规整的范围符合上述两个条件,过程如下:1、first, for a result, we normalize the scores of its documents using a given score normalization method. 2、Next we divide the whole range of scores into a certain number of intervals. The
17、n for every interval, we count the number of relevant documents (num) and the total score (t score) obtained by all the documents in that interval. 3、In this way the ratio of num and t score can be defined for every interval. We compare these ratios to investigate if the score normalization method i
18、s a good method or not.在部分2,我们用相同的四组结果(results),用四种方法标准化,超过50次的查询,the fitting method 0.06-0.6, Zero-one, Sum and ZMUV1 (a variation of ZMUV, which added 1 to every score normalized with ZMUV)ZMUV1是ZMUV的一种变化,在每一标准分值上加1.对所有标准化的结果分为20组,每组对应一个间隔,那个组的所有文件的分值都会处于相同的间隔上。对于每一个间隔,我们获得相关文件的数目 (num) 和总分数 (t score) 并计算比值,比较这些比值来估计分数标准化方法的好坏。对于the fitting method, 我们划分0.06,0.6 为20个相等的间隔 0.06,0.087), 0.087,0.114),., 0.573,0.6. 对于 Zero-one, 我们划分 0,1 为 0,0.05), 0.05,0.1),., 0.95,1. 对于 Sum, 我们把 0,1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 胎记的临床护理
- 儿童学习能力障碍的健康宣教
- 《机械制造基础》课件-05篇 第八单元 超精密加工
- 《机械设计基础》课件-第5章
- 《计算机表格处理》课件
- 【培训课件】青果园 万名大学生创意创业园区项目介绍
- 《认识HS商品分类》课件
- 社区户外旅游组织计划
- 生物学课程的扩展与拓展计划
- 提升师生互动频率的计划
- 2024年天然气管道施工环保劳务合同范本3篇
- 重症监护室抢救制度
- 统编版(2024)七年级上册道德与法治第四单元学情调研测试卷(含答案)
- C语言程序设计-001-国开机考复习资料
- 外研版(2024)七年级上册英语Unit1学情调研测试卷(含答案)
- 华为经营管理-华为激励机制(6版)
- 2024年社会工作者-社会综合能力考试历年真题
- 人教PEP版六年级上册英语Unit 6 How do you feel单元整体教学设计
- 信息科技大单元教学设计之七年级第一单元探寻互联网新世界
- 趣味英语与翻译学习通超星期末考试答案章节答案2024年
- 统编版高中政治必修二经济与社会复习提纲
评论
0/150
提交评论