信息检索系统的评价_第1页
信息检索系统的评价_第2页
信息检索系统的评价_第3页
信息检索系统的评价_第4页
信息检索系统的评价_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索系统的评价第一页,共三十五页,2022年,8月28日评价评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等;竞技体育:世界记录vs.世界最好成绩110米栏世界记录:梅里特,美国,12’’80男子马拉松世界最好成绩:保罗·特尔加特,肯尼亚,2小时4分55秒第二页,共三十五页,2022年,8月28日为什么要对IR进行评价?信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动;从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量;第三页,共三十五页,2022年,8月28日IR的评价指标针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能,因此相对来说较容易性能评价对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序第四页,共三十五页,2022年,8月28日

性能评价指标

在评价和比较检索系统的检索性能需要以下条件:一个文档集合C;系统将从该集合中按照查询要求检出相关文档。一组用户查询要求{q1,q2,…,qn};每个查询要求qi描述了用户的信息需求。对应每个用户查询要求的标准相关文档集{R1,R2,…,Rn};该集合可由人工方式构造。一组评价指标;这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值。第五页,共三十五页,2022年,8月28日评价任务示例系统&查询1234…系统1,查询1d3d6d8d10系统1,查询2d1d4d7d11系统2,查询1d6d7d3d9系统2,查询2d1d2d4d13第六页,共三十五页,2022年,8月28日整个文档集合的划分Ra未检索出的不相关文档检索出的不相关文档检索出的相关文档未检索出的相关文档检索出(Retrieved)未检索出(NotRetrieved)不相关(NotRelevant)相关(Relevant)整个文档集合C第七页,共三十五页,2022年,8月28日四种关系的表示检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关相关文本检出相关文档相关文档检出文档检出不相关文档未检出相关文档第八页,共三十五页,2022年,8月28日准确率和召回率正确率(Precision):检出的相关文档数与检出文档数的比值,也称为查准率;召回率(Recall):系统检出的相关文档数与实际相关文档数目的比值,也称为查全率。第九页,共三十五页,2022年,8月28日示例假设用户查询q为一个给定的查询式,而包含q的相关文档集合Rq为下面的文档集合:Rq={d2,d5,d9,d12,d23}而针对q的检出相关文档集合为:Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}求检索的准确率和召回率。10第十页,共三十五页,2022年,8月28日准确率和召回率的关系11101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾第十一页,共三十五页,2022年,8月28日准确率/召回率曲线假设用户查询q为一个给定的查询式,而包含q的相关文档集合Rq为下面的文档集合:Rq={d2,d5,d9,d12,d23}检索系统对查询q返回的前10个文档Aq的排序为:1.d23

2.d33.d44.d55.d66.d87.d108.d129.d1910.d20第十二页,共三十五页,2022年,8月28日准确率/召回率曲线准确率00.80.81召回率第十三页,共三十五页,2022年,8月28日11点标准召回率计算召回率分别为0、10%、20%…,100%下的准确率准确率00.80.81召回率第十四页,共三十五页,2022年,8月28日平均准确率上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:Nq:是使用的查询总数Pi(r):是召回率为r时的第i个查询的准确率第十五页,共三十五页,2022年,8月28日单值评价方法已检出相关文档的平均准确率均值(MAP)逐个考察检出新的相关文献,将准确率平均r为相关文档数。第i个相关文档的位置第十六页,共三十五页,2022年,8月28日计算MAP举例假设有两个查询,查询1有4个相关文档,查询2有5个相关文档。某系统对于查询1检索出4个相关文档,其排序分别为1,2,4,7;对于查询2检索出3个相关文档,其排序分别为1,3,5。计算MAP的值。第十七页,共三十五页,2022年,8月28日单值评价方法P@10P@10是系统对于查询返回的前10个结果的准确率。例:检索系统对查询q返回的前10个文档Aq的排序为:1.d23

2.d33.d44.d55.d66.d87.d108.d129.d1910.d20P@10=30%(共有10篇检出文档,其中3篇为相关文档)第十八页,共三十五页,2022年,8月28日单值评价方法R准确率(R-Precision)单个查询的R准确率是检索出R篇相关文档时的准确率;查询集合中所有查询的R准确率是每个查询的R准确率的平均值。R-Precision=前R篇文档中相关文档数R第十九页,共三十五页,2022年,8月28日计算R准确率举例假设有两个查询,第1个查询有50个相关文档,第2个查询有10个相关文档。某个系统对于第1个查询返回的前50个结果中有17个是相关的,对于第2个查询返回的前10个结果中有7个事相关的。分别计算查询1、查询2和查询集合的R准确率。第二十页,共三十五页,2022年,8月28日单值评价方法准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录RPA-B=0:对于第i个查询,两个算法有相同的性能RPA-B>0:对于第i个查询,算法A有较好的性能RPA-B<0:对于第i个查询,算法B有较好的性能第二十一页,共三十五页,2022年,8月28日单值概括0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28第二十二页,共三十五页,2022年,8月28日作业假设查询q为一个给定的用户查询,与q相关的文档集合Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果:1.d123

6.d9

11.d38

2.d84 7.d511 12.d48

3.d56

8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25

15.d3

要求1.分别计算检索到相关文档时的召回率和准确率,并绘制准确率/召回率曲线;

2.采用11点标准召回率方法计算召回率和准确率,并绘制插补后的准确率/召回率曲线;3.计算MAP值;4.分别计算检索返回前10个结果和返回前15个结果时的R准确率。第二十三页,共三十五页,2022年,8月28日测试集(TestCollections)组成要素文件集(DocumentSet;DocumentCollection)查询问题(Query;Topic)相关判断(RelevantJudgment)用途设计与发展:系统测试评估:系统效能(Effectiveness)之测量比较:不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则,如Precision与Recall第二十四页,共三十五页,2022年,8月28日国外的评测TREC评测文本检索会议(TextRetrievalConference,TREC)是信息检索(IR)界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)(美国国防部)共同资助,开始于1992年。

NTCIR评测NTCIR(NACSISTestCollectionforIRSystems)始于1998年,是由日本国立信息学研究所(NationalInstituteofInformatics,简称NII)主办的搜索引擎评价型国际会议CLEF评测CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展,CLEF的目标只在于跨语言信息检索以及多语言信息检索方面第二十五页,共三十五页,2022年,8月28日TREC评测TREC:TextREtrievalConference(/)1992年开始,每年一次由美国国防部DefenseAdvancedResearchProjectsAgency(DARPA)和美国国家标准技术研究所NationalInstituteofStandardsandTechnology(NIST)联合发起参加者免费获得标准训练和开发数据参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者组织者对各参赛者的结果进行评价包括检索、过滤、问答等多个主题第二十六页,共三十五页,2022年,8月28日TREC测试集文档集合英语文档集合非英语文档集合文档内容:主要来自报纸、新闻及政府文档文档格式:采用SGML标记语言进行标记主题对检索系统用户的信息需求进行仿真,称为主题相关性判断第二十七页,共三十五页,2022年,8月28日文档格式<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCroducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>第二十八页,共三十五页,2022年,8月28日TREC评测的评价方法概括表统计准确率-召回率平均值文献级别平均值平均准确率第二十九页,共三十五页,2022年,8月28日TREC评测的任务(Tracks)2013TRECTracks(8个)ContextualSuggestionTrackMicroblogTrackWebTrackTemporalSummarizationTrack……30第三十页,共三十五页,2022年,8月28日国内863评测介绍全名:863计划中文信息处理与智能人机接口技术评测组织者:国家高技术研究发展计划(863计划)方式通过网络进行各单位在自己的环境中运行参评系统2005年11月召开研讨会2005年度评测内容机器翻译信息检索语音识别第三十一页,共三十五页,2022年,8月28日863评测介绍—信息检索评测项目:相关网页检索任务定义:给定主题,返回数据中与该主题相关的网页。数据:CWT100g(中文Web测试集100g)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论