国家科技创新平台规划课件_第1页
国家科技创新平台规划课件_第2页
国家科技创新平台规划课件_第3页
国家科技创新平台规划课件_第4页
国家科技创新平台规划课件_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息获取技术的评估

(RetrievalEvaluation)李晓明,北京大学信息科学技术学院2004年12月2日1信息获取技术的评估

(RetrievalEvaluatio提要引言常用的评估指标评估的实践(评测)2提要引言2引言关于IR领域文本技术系统用户(普通,大量)文本语义的丰富性(以及文本集合本身的变化),用户需求的多样性,模型的简单化系统表现的终极评判在于它们所针对的用户群的评价(大量,长时间)对系统的评估常常是基于对所包含各项技术评估基础上的无论是从研究方法还是工程实践的角度,我们都需要能够评估各个单项技术对系统行为可能的贡献更进一步地,若能将设计指标和评价指标结合起来则最好3引言关于IR领域3System=t1+t2+…+tl系统包含若干技术,t某人发明了一个新的t,评价它的方式:用它替换系统中的相应技术,看对总的效果的贡献单独在一个评测环境中评价前者往往代价较高(时间,费用)例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎后者可能和真实系统应用有距离能对这距离有把握也行4System=t1+t2+…+tl系统包含若干技评估(技术,系统)用户关心(系统的):F={f1,f2,…,fn}相关性,新颖性,完整性,速度,…但代价等原因使完整的评估比较困难我们要确定(技术的):G={g1,g2,…,gm}较小的代价能完成对它们的测试对它们测试的结果和f1,f2,…,fn有很好的对应最好还能有一套设计指标:P={p1,p2,…,pk}能使我们心里有数:它们实现的程度对g1,g2,…,gm贡献的关系(防止“irrelevance”)5评估(技术,系统)用户关心(系统的):F={f1,f2,汽车用户关心:速度,启动加速度,刹车距离,…发动机测试:转速,扭矩,马力发动机设计:排量,气缸数,点火方式,…汽车工业的实践已经证明了它们之间对应关系的有效性(尽管不是100%)6汽车用户关心:速度,启动加速度,刹车距离,…6计算机用户关心:速度性能测试:SPEC设计:主频,CPI,字长,Cache大小,…计算机工业的实践也基本证明它们的对应关系是有效的7计算机用户关心:速度7大学用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的人测试:政府高级官员的数量,大文豪、大科学家的数量,…设计的具体追求:得奖数,发表论文数(影响因子),博士学位获得者人数,科研经费数,…实践证明如何?8大学用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的评估不断地对现有的F,G,P(及其相互关系)提出疑问,提出改进,是研究评估的人们应该考虑的基本任务我们需要了解现在的F,G,P是些什么(如何定义的,如何能得到),但仅此不够。事物都是在一个“目的”和“手段”链中发展的,这种链接关系的紧密程度就决定了达到目的的优化程度(效果、效率)9评估不断地对现有的F,G,P(及其相互关系)提出疑问,提信息获取技术评估的“森林”10信息获取技术评估的“森林”10以批判的眼光看Pr,Re,F“Precisionandrecallhavebeenusedextensivelytoevaluatetheretrievalperformanceofretrievalalgorithms.However,amorecarefulreflectionrevealsproblemswiththesetwomeasures.”(page81,ModernInformationRetrieval)11以批判的眼光看Pr,Re,F“Precisionandr先回顾它们的定义和计算要评价技术T,对于给定的查询,q,总体文档集合D记R:D中和q相关文档的集合,|R|:R的大小A:算法T获取的文档集合,|A|:A的大小|Ra|:R和A交集的大小12先回顾它们的定义和计算要评价技术T,对于给定的查询,q,总体查准率和召回率基础定义图示CollectionAnswerSet|A|RelevantDocs|R|RelevantDocsinAnswerSet|Ra|13查准率和召回率基础定义图示CollectionAnswer需要考虑的几个问题定义了,不等于能算了如何算得针对(Q,D)的Pr,Re?另外,人们认为在一定的排序意义上考察Pr,Re更有意义。“rankedA”,沿着这个rank,考察“查准率(精度)随召回率变化的情况”符合许多IR系统的实际情况,通常都会在结果集合上定义一个序14需要考虑的几个问题定义了,不等于能算了141515平均精度对recall增加时对应的精度求平均值和“原始定义”的区别?这样的“平均精度”有什么不好?16平均精度对recall增加时对应的精度求平均值这样的“平均精“针对11点标准召回率的精度”人们建议在一些特殊的点上给出Re和Pr的关系Re=0%,10%,…,100%,对应的Pr于是就能很方便地讲“召回率为20%的时候精度为X”之类的结论也还有“3点标准”的说法:25%,50%,75%如果D中相关文档的个数是10的倍数,且如果算法给出的“RankedA”包含了所有相关文档,得到这些点就会很简单;否则要考虑如何插值的问题17“针对11点标准召回率的精度”人们建议在一些特殊的点上给出R“省事的”例子D={d1,…,d1000},对查询q,所有相关文档集合(共10个元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}查询的返回结果序:d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d129,d187,d25*,d38,d44*,d57,d71*,d48,d250,d113,d3*,d200,d144,d11,d89*,d1Ranking:*^*^^*^**^^*^*^*^^^*^^^*^Recall:.1.1.2.2.2.3.3.4.5.5.5.6.6.7.7.8.8.8.8.9.9.9.911Precisio:1.5.67.5.4.5.43.5.55.5.45.5.46.5.46.5.47.5.42.45.43.41.39.42.418“省事的”例子D={d1,…,d1000},对查询q,所有相11standardrecalllevel其实只有10个点??1911standardrecalllevel其实只有10但实际上经常不是这样得到的结果集合不包含所有的相关元素实践上常常只是返回排序较高的若干元素因此不能得到需要的recall值D中相关元素的个数不是10的倍数于是能直接得到的recall值不一定包含0%,10%,20%,30%,…,100%20但实际上经常不是这样得到的结果集合不包含所有的相关元素20例子所有相关文档集合(共10个元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}只能得到5个有效的recall值:10%,20%,30%,40%,50%对查询q返回的结果序:d123*d84d56*d6d8d9*d511d129d187d25*d38d48d250d113d3*21例子所有相关文档集合(共10个元素):Rq={d3,d2222插值(interpolation)目标是在11个标准召回率上都有精度值可以想出各种“合理的”方法(例如将已知的点连起来),不同的方法结果会不一样(因此做比较时要讲清楚)P(rj)=maxP(r),rj≤r≤rj+1取在下一个标准召回率之间的已知召回率对应的最大精度值P(rj)=maxP(r),rj≤r取往后的已知召回率对应的最大的精度值(这得到的是阶梯函数,单调性。如何考虑返回的结果不包括所有相关文档?23插值(interpolation)目标是在11个标准召回率上我们最终关心对Q的总体情况ri取标准召回率,Nq是所考察Q的大小。这样得到一个技术(算法)在(Q,D)上精度的宏观表现24我们最终关心对Q的总体情况ri取标准召回率,Nq是所考察Q的F指数用一个量来表示precision和recall的综合效果How?人们定义:为什么不是:25F指数用一个量来表示precision和recall的综合效A(P,R)和H(P,R)并不一致例如:P1=0.1,R1=0.83:A(P1,R1)=0.42,H(P1,R1)=0.197;P2=0.3,R2=0.3:A(P2,R2)=0.3,H(P2,R2)=0.3也就是说,A(P1,R1)>A(P2,R2),但H(P1,R1)<H(P2,R2)(当然也可以举出它们一致的例子)26A(P,R)和H(P,R)并不一致例如:26指标定义的倾向在P+R一定的情况下,希望它们接近。换句话说,这个指标不掩盖P,R一个方面特别的不足27指标定义的倾向在P+R一定的情况下,希望它们接近。换句话说,召回不足分子小精度不够分母大28召回不足分子小28基于P,R,F的评估小结给定包含一个新算法的IR系统(测试),一个测试文档集合D,一个查询集合Q={q}一个事先确定的相关集合的集合G(Q)我们确定这个算法的P-R图和F值29基于P,R,F的评估小结给定29流程对于Q的每一个元素q:得到一个有序结果集s(q)=<d1,d2,…dq>与G(q)对比,依序计算s(q)中元素的r[i]和p[i],i=1,2,…,q选择一种合适的插值方式,得到p[i]在r=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1处的插值如果r[q]<>1,则令它其后的标准点上的p=0对Q的所有元素,在标准召回点上求p的平均值给出平均值的统计表和P-R图30流程对于Q的每一个元素q:303131还要算F:得出一个数对每一个查询q,得到标准召回点上的F,即Fq(i)=2*p[i]*r(i)/(p(i)+r(i)),i=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1在查询内求平均(micro-average)Fq=∑Fq(i),i=0,.1,.2,…,.9,1进一步在查询间求平均(macro-average)F=∑Fq,q∈Q32还要算F:得出一个数对每一个查询q,32困难与不适有可能D和Q太大,得出G(Q)代价太高“相关”的含义因人而异如此定义的P,R,F适于“批处理”评估,没有体现交互式信息检索过程(现代IR系统的典型特征)如此定义的P,R,F依赖于返回结果的线性序,但有些系统不一定有这样的序什么是评估搜索引擎排序算法最好的方法(如果你没有搜索引擎的话)?33困难与不适有可能D和Q太大,得出G(Q)代价太高333434演讲完毕,谢谢观看!演讲完毕,谢谢观看!信息获取技术的评估

(RetrievalEvaluation)李晓明,北京大学信息科学技术学院2004年12月2日36信息获取技术的评估

(RetrievalEvaluatio提要引言常用的评估指标评估的实践(评测)37提要引言2引言关于IR领域文本技术系统用户(普通,大量)文本语义的丰富性(以及文本集合本身的变化),用户需求的多样性,模型的简单化系统表现的终极评判在于它们所针对的用户群的评价(大量,长时间)对系统的评估常常是基于对所包含各项技术评估基础上的无论是从研究方法还是工程实践的角度,我们都需要能够评估各个单项技术对系统行为可能的贡献更进一步地,若能将设计指标和评价指标结合起来则最好38引言关于IR领域3System=t1+t2+…+tl系统包含若干技术,t某人发明了一个新的t,评价它的方式:用它替换系统中的相应技术,看对总的效果的贡献单独在一个评测环境中评价前者往往代价较高(时间,费用)例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎后者可能和真实系统应用有距离能对这距离有把握也行39System=t1+t2+…+tl系统包含若干技评估(技术,系统)用户关心(系统的):F={f1,f2,…,fn}相关性,新颖性,完整性,速度,…但代价等原因使完整的评估比较困难我们要确定(技术的):G={g1,g2,…,gm}较小的代价能完成对它们的测试对它们测试的结果和f1,f2,…,fn有很好的对应最好还能有一套设计指标:P={p1,p2,…,pk}能使我们心里有数:它们实现的程度对g1,g2,…,gm贡献的关系(防止“irrelevance”)40评估(技术,系统)用户关心(系统的):F={f1,f2,汽车用户关心:速度,启动加速度,刹车距离,…发动机测试:转速,扭矩,马力发动机设计:排量,气缸数,点火方式,…汽车工业的实践已经证明了它们之间对应关系的有效性(尽管不是100%)41汽车用户关心:速度,启动加速度,刹车距离,…6计算机用户关心:速度性能测试:SPEC设计:主频,CPI,字长,Cache大小,…计算机工业的实践也基本证明它们的对应关系是有效的42计算机用户关心:速度7大学用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的人测试:政府高级官员的数量,大文豪、大科学家的数量,…设计的具体追求:得奖数,发表论文数(影响因子),博士学位获得者人数,科研经费数,…实践证明如何?43大学用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的评估不断地对现有的F,G,P(及其相互关系)提出疑问,提出改进,是研究评估的人们应该考虑的基本任务我们需要了解现在的F,G,P是些什么(如何定义的,如何能得到),但仅此不够。事物都是在一个“目的”和“手段”链中发展的,这种链接关系的紧密程度就决定了达到目的的优化程度(效果、效率)44评估不断地对现有的F,G,P(及其相互关系)提出疑问,提信息获取技术评估的“森林”45信息获取技术评估的“森林”10以批判的眼光看Pr,Re,F“Precisionandrecallhavebeenusedextensivelytoevaluatetheretrievalperformanceofretrievalalgorithms.However,amorecarefulreflectionrevealsproblemswiththesetwomeasures.”(page81,ModernInformationRetrieval)46以批判的眼光看Pr,Re,F“Precisionandr先回顾它们的定义和计算要评价技术T,对于给定的查询,q,总体文档集合D记R:D中和q相关文档的集合,|R|:R的大小A:算法T获取的文档集合,|A|:A的大小|Ra|:R和A交集的大小47先回顾它们的定义和计算要评价技术T,对于给定的查询,q,总体查准率和召回率基础定义图示CollectionAnswerSet|A|RelevantDocs|R|RelevantDocsinAnswerSet|Ra|48查准率和召回率基础定义图示CollectionAnswer需要考虑的几个问题定义了,不等于能算了如何算得针对(Q,D)的Pr,Re?另外,人们认为在一定的排序意义上考察Pr,Re更有意义。“rankedA”,沿着这个rank,考察“查准率(精度)随召回率变化的情况”符合许多IR系统的实际情况,通常都会在结果集合上定义一个序49需要考虑的几个问题定义了,不等于能算了145015平均精度对recall增加时对应的精度求平均值和“原始定义”的区别?这样的“平均精度”有什么不好?51平均精度对recall增加时对应的精度求平均值这样的“平均精“针对11点标准召回率的精度”人们建议在一些特殊的点上给出Re和Pr的关系Re=0%,10%,…,100%,对应的Pr于是就能很方便地讲“召回率为20%的时候精度为X”之类的结论也还有“3点标准”的说法:25%,50%,75%如果D中相关文档的个数是10的倍数,且如果算法给出的“RankedA”包含了所有相关文档,得到这些点就会很简单;否则要考虑如何插值的问题52“针对11点标准召回率的精度”人们建议在一些特殊的点上给出R“省事的”例子D={d1,…,d1000},对查询q,所有相关文档集合(共10个元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}查询的返回结果序:d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d129,d187,d25*,d38,d44*,d57,d71*,d48,d250,d113,d3*,d200,d144,d11,d89*,d1Ranking:*^*^^*^**^^*^*^*^^^*^^^*^Recall:.1.1.2.2.2.3.3.4.5.5.5.6.6.7.7.8.8.8.8.9.9.9.911Precisio:1.5.67.5.4.5.43.5.55.5.45.5.46.5.46.5.47.5.42.45.43.41.39.42.453“省事的”例子D={d1,…,d1000},对查询q,所有相11standardrecalllevel其实只有10个点??5411standardrecalllevel其实只有10但实际上经常不是这样得到的结果集合不包含所有的相关元素实践上常常只是返回排序较高的若干元素因此不能得到需要的recall值D中相关元素的个数不是10的倍数于是能直接得到的recall值不一定包含0%,10%,20%,30%,…,100%55但实际上经常不是这样得到的结果集合不包含所有的相关元素20例子所有相关文档集合(共10个元素):Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}只能得到5个有效的recall值:10%,20%,30%,40%,50%对查询q返回的结果序:d123*d84d56*d6d8d9*d511d129d187d25*d38d48d250d113d3*56例子所有相关文档集合(共10个元素):Rq={d3,d5722插值(interpolation)目标是在11个标准召回率上都有精度值可以想出各种“合理的”方法(例如将已知的点连起来),不同的方法结果会不一样(因此做比较时要讲清楚)P(rj)=maxP(r),rj≤r≤rj+1取在下一个标准召回率之间的已知召回率对应的最大精度值P(rj)=maxP(r),rj≤r取往后的已知召回率对应的最大的精度值(这得到的是阶梯函数,单调性。如何考虑返回的结果不包括所有相关文档?58插值(interpolation)目标是在11个标准召回率上我们最终关心对Q的总体情况ri取标准召回率,Nq是所考察Q的大小。这样得到一个技术(算法)在(Q,D)上精度的宏观表现59我们最终关心对Q的总体情况ri取标准召回率,Nq是所考察Q的F指数用一个量来表示precision和recall的综合效果How?人们定义:为什么不是:60F指数用一个量来表示precision和recall的综合效A(P,R)和H(P,R)并不一致例如:P1=0.1,R1=0.83:A(P1,R1)=0.42,H(P1,R1)=0.197;P2=0.3,R2=0.3:A(P2,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论