




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索的评价指标高海燕2010114014信息检索的评价指标体系评价IR的意义IR评价研究的内容和程序如何评价效果评价指标分类单个查询的评价指标多个查询的评价指标评价IR的意义信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。
IR评价研究的内容效率(Efficiency)—可以采用通常的评价方法时间开销空间开销响应速度效果(Effectiveness)返回的文档中有多少相关文档所有相关文档中返回了多少返回得靠不靠前其他指标覆盖率(Coverage)访问量数据更新速度IR评价研究的程序一项完整的检索评价工作可分为以下5个步骤:(1)确定评价范围和目标(2)选择评价方式(3)设计或者制定评价方案(4)实施评价方案(5)总结与评价结论的形成
如何评价效果相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。TheCranfieldExperiments,CyrilW.Cleverdon,1957–1968(上百篇文档集合)SMARTSystem,GeraldSalton,1964-1988(数千篇文档集合)TREC(TextRetrievalConference),DonnaHarman,美国标准技术研究所,1992-(上百万篇文档),信息检索的“奥运会”
评价指标分类
对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标(通常用于对系统的评价)求平均9相关文本检索出的文本全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关单个查询的评价指标(1)召回率(Recall)=检出的相关文档数/相关文档数,也称为查全率,R∈[0,1]准确率(Precision)=检出的相关文档数/检出文档数,也称为查准率,P∈[0,1]假设:文本集中所有文献已进行了检查10举例Example
Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果:
1.d123 6.d9 11.d38
2.d84 7.d511 12.d48
3.d56 8.d129 13.d250
4.d6 9.d187 14.d113
5.d8 10.d25 15.d3(precision,recall)(100%,10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)关于召回率的计算对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,不可能准确地计算召回率缓冲池(Pooling)方法:对多个检索系统的TopN个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的,在TREC会议中被广泛采用。关于召回率和正确率的讨论(2)虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。有些用户希望返回的结果全一点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。单个查询评价指标(3)—P和R融合F值:召回率R和正确率P的调和平均值,ifP=0orR=0,thenF=0,else采用下式计算:E值:召回率R和正确率P的加权平均值,b>1表示更重视P14Example
1.d123 6.d9
11.d38
2.d84 7.d511 12.d48
3.d56 8.d129 13.d250
4.d6 9.d187 14.d113
5.d8 10.d25
15.d3(33.3%,33.3%)(25%,66.6%)(20%,100%)15
R-Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数1.d123 6.d9
2.d84 7.d511 3.d56 8.d129 4.d6 9.d187
5.d8 10.d25R=10and#relevant=4R-precision=4/10=0.41. d123
2. d84
3. 56
R=3and#relevant=1R-precision=1/3=0.33单个查询评价指标(4)
—引入序的作用单个查询评价指标(5)
—引入序的作用正确率-召回率曲线(precisionversusrecallcurve)检索结果以排序方式排列,用户不可能马上看到全部文档,因此,在用户观察的过程中,正确率和召回率在不断变化(vary)。可以求出在召回率分别为:0%,10%,20%,30%,…,90%,100%上对应的正确率,然后描出图像。P-R曲线的例子某个查询q的标准答案集合为:Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}某个IR系统对q的检索结果如下:1.d123
R=0.1,P=16.d9R=0.3,P=0.511.d382.d847.d51112.d483.d56R=0.2,P=0.67
8.d12913.d2504.d69.d18714.d1135.d810.d25R=0.4,P=0.415.d3
R=0.5,P=0.33P-R曲线的例子P-R曲线的插值问题对于前面的例子,假设Rq={d3,d56,d129}3.d56R=0.33,P=0.33;8.d129R=0.66,P=0.25;15.d3R=1,P=0.2不存在10%,20%,…,90%的召回率点,而只存在33.3%,66.7%,100%三个召回率点在这种情况下,需要利用存在的召回率点对不存在的召回率点进行插值(interpolate)对于t%,如果不存在该召回率点,则定义t%为从t%到(t+10)%中最大的正确率值。对于上例,0%,10%,20%,30%上正确率为0.33,40%~60%对应0.25,70%以上对应0.2P-R曲线的优缺点优点:简单直观既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣单个查询评价指标(6)
—P-R曲线的单一指标BreakPoint:P-R曲线上P=R的那个点这样可以直接进行单值比较11点平均正确率(11pointaverageprecision):在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均,等价于插值的APP-R曲线中的BreakpointBreakpoint单个查询评价指标(7)
—引入序的作用平均正确率(AveragePrecision,AP):对不同召回率点上的正确率进行平均未插值的AP:某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6插值的AP:在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均,等价于11点平均只对返回的相关文档进行计算的AP,AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果的系统,没有考虑召回率单个查询评价指标(8)
—不考虑召回率Precision@N:在第N个位置上的正确率,对于搜索引擎,考虑到大部分作者只关注前一、两页的结果,P@10,P@20对大规模搜索引擎非常有效NDCG:后面详细介绍。单个查询评价指标(8)
—不考虑召回率Bpref
:Binarypreference,2005年首次引入到TREC的Terabyte任务中只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下,bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:25举例下面举个例子来说明bpref的性能,假设检索结果集S为:S={D1,D2
·,D3*,D4*,D5
·,D6,D7
·,D8,D9,D10}其中D2、D5
和D7是相关文档,D3
和D4为未经判断的文档。对这个例子来说,R=3;bpref=1/3[(1-1/3)+(1-1/3)+(1-2/3)]26多个查询评价指标(9)平均的求法:宏平均(Macro
Average):对每个查询求出某个指标,然后对这些指标进行算术平均微平均(Micro
Average):将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算如:Micro
Precision=(对所有查询检出的相关文档总数)/(对所有查询检出的文档总数)宏平均对所有查询一视同仁,微平均受返回相关文档数目比较大的查询影响多个查询评价指标(10)宏平均和微平均的例子
两个查询q1、q2的标准答案数目分别为100个和50个,某系统对q1检索出80个结果,其中正确数目为40,系统对q2检索出30个结果,其中正确数目为24,则:P1=40/80=0.5,R1=40/100=0.4P2=24/30=0.8,R2=24/50=0.48MacroP=(P1+P2)/2=0.65MacroR=(R1+R2)/2=0.44MicroP=(40+24)/(80+30)=0.58MicroR=(40+24)/(100+50)=0.43多个查询评价指标(11)MAP(MeanAP):对所有查询的AP求宏平均多个查询下的查准率/查全率曲线,可通过计算其平均查准率得到,公式如下(Nq为查询的数量):P(r)是指查全率为r时的平均查准率,pi(r)指查全率为r时的第i个查询的查准率.面向用户的评价指标前面的指标都没有考虑用户因素。而相关不相关由用户判定。假定用户已知的相关文档集合为U,检索结果和U的交集为Ru,则可以定义覆盖率(Coverage)
C=|Ru|/|U|,表示系统找到的用户已知的相关文档比例。假定检索结果中返回一些用户以前未知的相关文档Rk,则可以定义出新颖率(Novelty
Ratio)N=|Rk|/(|Ru|+|Rk|),表示系统返回的新相关文档的比例。相对查全率:检索系统检索出的相关文档数量与用户期望得到的相关文档的数量的比例。查全努力:用户期望得到的相关文档与为了得到这些相关文档而在检索结果中审查文档数量的比率。31图示覆盖率和新颖率相关文献|R|结果集|A|用户已知的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|搜索引擎的性能评价研究及评价指标1.搜索引擎性能评价指标(1)数据库规模与内容:收录范围、数据库内容、更新频率、重复率、死链接率等;(2)索引方法:索引方式、索引范围与深度等;(3)检索功能:基本检索功能和高级检索功能(4)检索结果处理:排序方式、显示内容/格式、后处理功能(5)分类功能:分类类目体系的深度、数量、合理性等(6)用户界面:界面布局、联机帮助、界面定制、界面广告量(7)汉字处理:词语切分、多内码处理/转换、中英文混合检索(8)其他:响应时间、系统稳定性等搜索引擎的评价指标查全率与查准率研究的新进展:相关性范畴范畴0主要包括重复链接、死链接、不相关链接范畴1主要包括技术上的相关链接,意指检索仅在技术上满足用户提问式,但与用户的需求没有相关性或者有相关性,但是内容太少或不充分范畴2主要包括潜在有用的链接,例如与用户需求某个方面有关但不详尽,或者仅给出了指向属于范畴3页面的链接范畴3主要包括十分有用的链接搜索引擎的评价指标前X命中记录查准率P(X):该指标主要用来反映信息检索系统在前X条检索结果中向用户提供相关信息的能力。下面以P(20)为例,说明P(X)的含义与计算方法。①对前20条命中结果记录进行相关性判断和检验,并对每条结果赋予相关系数0或1,对应到前面的“相关性范畴”概念,凡属于范畴3的结果记录均是相关的,凡属于范畴0的结果记录均是不相关的,而属于范畴1、2的结果记录则可能相关,也可能不相关。搜索引擎的评价指标其次,把前20条结果记录分成3组:1-3;4-10;11-20,并分别赋予它们不同的权值。搜索引擎在对检索结果输出或显示时,都采用了某种相关性排序方法,排在前面的结果记录在理论上应有较大的相关性。这里指定第一组(1—3)的权值为20,第二组(4—10)的权值为17,第三组(11—20)的权值为10.第三,计算P(20)的分子值:T(1-3)*20+T(4-10)*17+T(11-20)*10。T表示各组结果记录中被判断为相关的记录数。P(20)的分母值:①检索结果记录数超过20,3*20+7*17+10*10=279②检索结果记录数不超过20,279-(20-N)*10,N为命中记录总数,如某次检索只返回18条记录。则分母值=259.其他评价指标不同的信息检索应用或者任务还会采用不同的评价指标MRR(Mean
ReciprocalRank):对于某些IR系统(如问答系统或主页发现系统),只关心第一个标准答案返回的位置(Rank),越前越好,这个位置的倒数称为RR,对问题集合求平均,则得到MRR例子:两个问题,系统对第一个问题返回的标准答案的Rank是2,对第二个问题返回的标准答案的Rank是4,则系统的MRR为(1/2+1/4)/2=3/8GMAPGMAP(GeometricMAP):TREC2004Robust任务引进先看一个例子从MAP(宏平均)来看,系统A好于系统B,但是从每个查询来看,3个查询中有2个TopicB比A有提高,其中一个提高的幅度达到300%系统TopicAPIncreaseMAP系统ATopic10.02-0.113Topic20.03-Topic30.29-系统BTopic10.08+300%0.107Topic20.04+33.3%Topic30.20-31%GMAP几何平均值上面那个例子GMAPa=0.056,GMAPb=0.086GMAPa<GMAPbGMAP和MAP各有利弊,可以配合使用,如果存在难Topic时,GMAP更能体现细微差别NDCG每个文档不仅仅只有相关和不相关两种情况,而是有相关度级别,比如0,1,2,3。我们可以假设,对于返回结果:相关度级别越高的结果越多越好相关度级别越高的结果越靠前越好NDCG每一个文档都对它所在的位置有一定的贡献,其贡献值与文档的相关度有关,然后,从1到n的所有的位置上的贡献值都被加起来作为最终的评价结果。这样,一个一定长度的文档序列被转换成了一个相关分值的序列。给定一个排序后的文档序列,在第r位的NDCG值NDCG@r的计算公式为:
NDCG@r=Nr*(j从1到r的下式的和:2的r(j)-次幂1/log(1+j)),
其中r(j)是第j个文档的级别,Nr是归一化参数,它使得最优的排序的NDCG@r的值始终为1;如果结果序列中文档的个数n要少于r,则计算公式返回NDCG@n的值。
NDCG假设有四个不同级别的贡献值0、1、2和3,其中3代表最有价值而0表示没有价值。有一个由上述文档组成的序列,其各个位置上的文档所贡献分值为G:
G=(3,2,3,0,0,1,2,2,3,0。。)
这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智慧城市基础设施建设协议
- 职业教育实训基地建设资金申请2025年项目管理与团队建设报告
- 2025年农村电商农产品上行模式创新与品牌塑造策略实证研究分析报告
- 抚州玻璃项目申请报告
- 2025年智慧港口自动化装卸设备在自动化码头建设中的技术挑战报告
- 2025年婴幼儿健康养生食品行业市场前景与竞争格局报告
- 2025年精准营销大数据在体育产业的运用与展望报告
- 运动服装电脑绣花项目投资可行性研究分析报告(2024-2030版)
- 2025年食品添加剂在食品添加剂在食品增稠剂中的应用安全性评估报告
- 2025年中国高麦芽糖浆行业发展潜力分析及投资方向研究报告
- 自动喷水灭火系统严密性试验记录
- 河北省城市集中式饮用水水源保护区划分
- 工程材料采购方案(完整版)
- 新版特种设备使用管理规则TSG08-2017
- 部编本新人教版一年级下册语文教学计划
- 新概念英语第三册全部课后答案
- 慢阻肺的健康教育
- CH-iVMS-4200部署方案
- 银河YH3120系列智能称重显示控制器
- 建筑施工重大安全风险管控清单
- 安徽大学高等代数上A(14-15)
评论
0/150
提交评论