版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息获取技术的评价Retrieval Evaluation李晓明,北京大学信息科学技术学院2004年12月2日1.提 要引言常用的评价目的评价的实际评测2.引言关于IR领域文本技术系统用户普通,大量文本语义的丰富性以及文本集合本身的变化,用户需求的多样性,模型的简单化系统表现的终极评判在于它们所针对的用户群的评价大量,长时间对系统的评价经常是基于对所包含各项技术评价根底上的无论是从研讨方法还是工程实际的角度,我们都需求可以评价各个单项技术对系统行为能够的奉献更进一步地,假设能将设计目的和评价目的结合起来那么最好3.System = t1 + t2 + tl系统包含假设干技术,t某人发明了一个新
2、的 t,评价它的方式:用它交换系统中的相应技术,看对总的效果的奉献单独在一个评测环境中评价前者往往代价较高时间,费用例如研讨搜索引擎排序算法的不一定有时机摆弄真正的,有大规模用户的搜索引擎后者能够和真实系统运用有间隔能对这间隔有把握也行4.评价技术,系统用户关怀系统的:F=f1, f2, , fn相关性,新颖性,完好性,速度,但代价等缘由使完好的评价比较困难我们要确定技术的:G=g1, g2, , gm较小的代价能完成对它们的测试对它们测试的结果和f1, f2, , fn有很好的对应最好还能有一套设计目的:P=p1, p2, , pk能使我们心里有数:它们实现的程度对g1, g2, , gm奉
3、献的关系防止“irrelevance5.汽车用户关怀:速度,启动加速度,刹车间隔,发动机测试:转速,扭矩,马力发动机设计:排量,气缸数,点火方式,汽车工业的实际曾经证明了它们之间对应关系的有效性虽然不是100%6.计算机用户关怀:速度性能测试:SPEC设计:主频,CPI,字长,Cache大小,计算机工业的实际也根本证明它们的对应关系是有效的7.大学用户社会关怀:培育可以为人类社会的提高充分发扬潜能的人测试:政府高级官员的数量,大文豪、大科学家的数量,设计的详细追求:得奖数,发表论文数影响因子,博士学位获得者人数,科研经费数,实际证明如何?8.评价不断地对现有的F, G, P及其相互关系提出疑问
4、,提出改良,是研讨评价的人们应该思索的根本义务我们需求了解如今的F, G, P是些什么如何定义的,如何能得到,但仅此不够。事物都是在一个“目的和“手段链中开展的,这种链接关系的严密程度就决议了到达目的的优化程度效果、效率9.信息获取技术评价的“森林10.以批判的目光看Pr,Re,F“Precision and recall have been used extensively to evaluate the retrieval performance of retrieval algorithms. However, a more careful reflection reveals prob
5、lems with these two measures. (page 81, Modern Information Retrieval)11.先回想它们的定义和计算要评价技术T,对于给定的查询,q,总体文档集合D记R:D中和q相关文档的集合,|R|:R的大小A:算法T获取的文档集合,|A|:A的大小|Ra|:R和A交集的大小12.查准率和召回率根底定义图示CollectionAnswer Set |A|Relevant Docs |R|Relevant Docs in Answer Set |Ra|13.需求思索的几个问题定义了,不等于能算了如何算得针对Q,D的Pr, Re?另外,人们以为在
6、一定的排序意义上调查Pr, Re更有意义。 “ranked A,沿着这个rank,调查“查准率精度随召回率变化的情况符合许多IR系统的实践情况,通常都会在结果集合上定义一个序14.15.平均精度对recall添加时对应的精度求平均值和“原始定义的区别?这样的“平均精度有什么不好?16.“针对11点规范召回率的精度人们建议在一些特殊的点上给出Re和Pr的关系Re=0%, 10%, , 100%,对应的Pr于是就能很方便地讲“召回率为20%的时候精度为X之类的结论也还有“3点规范的说法:25%, 50%, 75%假设D中相关文档的个数是10的倍数,且假设算法给出的“Ranked A包含了一切相关文
7、档,得到这些点就会很简单;否那么要思索如何插值的问题17.“省事的例子D=d1,d1000,对查询q,一切相关文档集合共10个元素:Rq = d3, d5, d9, d25, d39, d44, d56, d71, d89, d123查询的前往结果序:d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d129,d187,d25*,d38,d44*,d57,d71*,d48,d250,d113,d3*,d200,d144,d11,d89*,d1Ranking: * * * * * * * * * * Recall: .1 .1 .2 .2 .2 .3 .3 .4 .5
8、 .5 .5 .6 .6 .7 .7 .8 .8 .8 .8 .9 .9 .9 .9 1 1Precisio: 1 .5 .67 .5 .4 .5 .43 .5 .55 .5 .45 .5 .46 .5 .46 .5 .47 .5 .42 .45 .43 .41 .39 .42 .418.11 standard recall level其实只需10个点?19.但实践上经常不是这样得到的结果集合不包含一切的相关元素实际上经常只是前往排序较高的假设干元素因此不能得到需求的recall值D中相关元素的个数不是10的倍数于是能直接得到的recall值不一定包含0%, 10%, 20%, 30%, ,
9、100%20.例子一切相关文档集合共10个元素:Rq = d3, d5, d9, d25, d39, d44, d56, d71, d89, d123只能得到5个有效的recall值:10%,20%,30%,40%,50%对查询q前往的结果序:d123*d84d56*d6d8d9*d511d129d187d25*d38d48d250d113d3*21.22.插值interpolation目的是在11个规范召回率上都有精度值可以想出各种“合理的方法例如将知的点连起来,不同的方法结果会不一样因此做比较时要讲清楚P(rj) = max P(r), rj rrj+1取在下一个规范召回率之间的知召回率对
10、应的最大精度值P(rj) = max P(r), rj r取往后的知召回率对应的最大的精度值这得到的是阶梯函数,单调性。如何思索前往的结果不包括一切相关文档?23.我们最终关怀对Q的总体情况ri取规范召回率,Nq是所调查Q的大小。这样得到一个技术算法在Q,D上精度的宏观表现24.F指数用一个量来表示precision和recall的综合效果How?人们定义:为什么不是:25.A(P,R)和H(P,R)并不一致例如:P1=0.1, R1=0.83: A(P1,R1)=0.42, H(P1,R1)=0.197; P2=0.3, R2=0.3: A(P2,R2)=0.3, H(P2,R2)=0.3也
11、就是说,A(P1,R1)A(P2,R2),但H(P1,R1)H(P2,R2)当然也可以举出它们一致的例子26.目的定义的倾向在P+R一定的情况下,希望它们接近。换句话说,这个目的不掩盖P, R一个方面特别的缺乏27.召回缺乏分子小精度不够分母大28.基于P, R, F的评价小结给定包含一个新算法的IR系统测试,一个测试文档集合D,一个查询集合Q=q一个事先确定的相关集合的集合G(Q)我们确定这个算法的P-R图和F值29.流程对于Q的每一个元素q:得到一个有序结果集s(q)=与G(q)对比,依序计算s(q)中元素的ri和pi,i=1,2,q选择一种适宜的插值方式,得到pi在r=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1处的插值假设rq1,那么令它其后的规范点上的p=0对Q的一切元素,在规范召回点上求p的平均值给出平均值的统计表和P-R图30.31.还要算F:得出一个数对每一个查询q,得到规范召回点上的F,即Fq(i)=2*pi*r(i)/(p(i)+r(i), i=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1在查询内求平均micro-averageFq=Fq(i),i=0,.1,.2,.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学体育与健康 教案 网球10
- 湖北汽车工业学院科技学院《电工电子学》2023-2024学年第一学期期末试卷
- 智能安防系统包括哪些方面功能-智能安防系统介绍
- 湖北汽车工业学院科技学院《商务进阶口译》2021-2022学年第一学期期末试卷
- 洗衣粉加工合同
- 汽车保养采购合同(2篇)
- 肌骨超声注射治疗简介
- 浅层X线放射治疗
- 毒蛇咬伤的治疗
- 美容院培训团队课件
- 机械设备验收记录表(旋挖机)
- 基于深度学习的超短期太阳辐照度预测模型研究
- 吸收放散实验课件
- 3.1《让小车运动起来》优质课件
- 新形势下,如何做好一人一事思想政治工作
- 《基于核心素养高中物理实验教学实施素质教育的研究》结题总结报告
- 行政人事部工作分析表
- 英语漫谈胶东海洋文化知到章节答案智慧树2023年威海海洋职业学院
- 航空母舰优秀课件
- 2023年芒果TV春季校园招聘笔试参考题库附带答案详解
- 共享中国知到章节答案智慧树2023年上海工程技术大学
评论
0/150
提交评论