信息检索 第07章 信息检索评价专业课课件_第1页
信息检索 第07章 信息检索评价专业课课件_第2页
信息检索 第07章 信息检索评价专业课课件_第3页
信息检索 第07章 信息检索评价专业课课件_第4页
信息检索 第07章 信息检索评价专业课课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索

第07章信息检索评价软件学院教研室陈鄞引言IR评价的意义验证系统性能改进系统比较各种检索技术的优劣帮助用户选择和掌握合适的检索工具开发新的应用领域……IR评价一直是推动IR研究、开发与应用的主要力量IR评价的实施条件测试集一个文档集合C一组用于测试的信息需求(信息需求可以通过查询表达):{q1,q2,…,qn}例:信息需求:whetherdrinkingredwineismoreeffectiveatreducingyourriskofheartattacksthandrinkingwhitewine(在降低心脏病发作的风险方面,饮用红葡萄酒是否比饮用白葡萄酒更有效)可能的查询:wineANDredANDwhiteANDheartANDattackANDeffectiveIR评价的实施条件测试集一个文档集合C一组用于测试的信息需求(信息需求可以通过查询表达):{q1,q2,…,qn}对应每个信息需求的标准相关文档集{R1,R2,…,Rn}

测试集中的文档及信息需求的数目必须要合理开发测试集(developmenttestcollection)和最终测试集(developmenttestcollection)IR评价的实施条件测试集一个文档集合C一组用于测试的信息需求(信息需求可以通过查询表达):{q1,q2,…,qn}对应每个信息需求的标准相关文档集{R1,R2,…,Rn}

一组评价指标本章内容7.1标准测试集7.2无序检索结果集合的评价指标7.3有序检索结果集合的评价指标7.4面向用户的评价指标7.1标准测试集Cranfield测试集对信息检索系统的效果进行精确定量评价的首个测试集,但是对现在来说它的规模上已经非常小,只能用于最基本的试验性工作。该测试集于20世纪50年代末期在英国收集而得,总共包含1398篇空气动力学期刊的文章摘要、225个查询以及所有的(查询,文档)对的相关性判定结果。7.1标准测试集Cranfield测试集TREC(TextRetrievalConference,文本检索会议)1992年开始由NIST(NationalInstituteofStandardsandTechnology,美国国家标准技术研究所)组织的大型IR系统的年度评测会议。该框架定义了很多任务,每个任务都有自己的测试集。但是,其中最著名的测试集还是用于1992到1999年间的最早8次TRECAdHoc任务的测试集。189万篇文档(主要是新闻类文章)、450个信息需求(在TREC中每个信息需求也称为主题topic)及相关性判定相关性判定:Pooling技术给定信息需求,将各个系统的前k篇返回文档汇集起来,仅针对该集合做相关性判定7.1标准测试集Cranfield测试集TREC(TextRetrievalConference,文本检索会议)GOV2NIST提供2500万网页7.1标准测试集Cranfield测试集TREC(TextRetrievalConference,文本检索会议)GOV2NTCIR(NIITestCollectionsforIRSystems)日本国立情报研究所NII的信息检索测试集和TREC文档集规模相当其中大部分文档都集中关注东亚语言和跨语言检索任务7.1标准测试集Cranfield测试集TREC(TextRetrievalConference,文本检索会议)GOV2NTCIR(NIITestCollectionsforIRSystems)CLEF(CrossLanguageEvaluationForum)跨语言评价论坛主要关注欧洲语言及它们之间的跨语言检索任务7.1标准测试集Cranfield测试集TREC(TextRetrievalConference,文本检索会议)GOV2NTCIR(NIITestCollectionsforIRSystems)CLEF(CrossLanguageEvaluationForum)Reuters语料Reuters-21578语料21578篇新闻报道文本分类任务RCV1(ReutersCorpusVolume1)806791篇文档提纲7.1标准测试集7.2无序检索结果集合的评价指标7.3有序检索结果集合的评价指标7.4面向用户的评价指标7.2无序检索结果集合的评价指标准确率和召回率(查准率和查全率)相关文档集合检出文档集合全部文档集合准确率(Precision)=tp/(tp+fp)fptntpfn精确率(acc)=(tp+tn)/(tp+fp+fn+tn)相关(relevant)不相关(nonrelevant)检出(retrieved)真正例tp(truepositives)假正例fp(falsepositives)未检出(notretrieved)假反例

fn(falsenegatives)真反例

tn(truenegatives)召回率(Recall)=tp/(tp+fn)误判率=fp/(fp+tn)例标准相关文档集合

Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果

1.d123

6.d9

11.d38

2.d84 7.d511 12.d48

3.d56

8.d129 13.d250

4.d6 9.d187 14.d113

5.d8

10.d25

15.d3

Precision=5/15=33%Recall=5/10=50%准确率和召回率的关系10召回率准确率理想情况返回了大多数相关文档但是包含很多垃圾1返回最相关的文本但是漏掉了很多相关文本例系统1系统2P80%60%R50%70%Whichoneisbetter?调和平均值F-meatureF∈[0,1]当P=R=0时,F=0当P=R=1时,F=1只有当P和R都比较高时,系统才会有较高的F值当找到P和R之间的最大可能折中时,F可以取得最大值F指数反映了系统的综合性能例系统1系统2P80%60%R50%70%F61.5%64.6%更关注正确率的用户典型的Web检索用户更关注召回率的用户专业的搜索人士(如律师助手、情报分析师等)对本机硬盘进行搜索的个人用户调和平均值的更一般的公式b是用户指定的参数,可以允许用户调整P和R的相对重要程度b>1时,表示召回率R的重要性大于准确率P

b<1时,表示准确率P的重要性大于召回率R调和因子提纲7.1标准测试集7.2无序检索结果集合的评价指标7.3有序检索结果集合的评价指标7.4面向用户的评价指标7.3有序检索结果集合的评价指标P和R是在对所有返回结果进行检查的基础上计算的。实际应用中,返回结果很多,通常不会将所有结果都检查完再给出评价结果。用户通常只关注在已检查过的文档里P和R各达到什么水平7.3.1准确率-召回率曲线准确率和召回率指标会随着用户对排序列表的检查而变化例标准相关文档集合Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果

1.d123

6.d9

11.d38

2.d84 7.d511 12.d48

3.d56

8.d129 13.d250

4.d6 9.d187 14.d113

5.d8

10.d25

15.d3

(50%,30%)(100%,10%)(precision,recall)(67%,20%)(40%,40%)(33%,50%)准确率-召回率曲线往往会表现出明显的锯齿形状如果返回的第k+1篇文档不相关,则召回率不变,正确率下降如果返回的第k+1篇文档相关,则召回率和正确率都上升插值的准确率在某个召回率水平r上的插值准确率(interpolatedprecision,记为pinterp)定义为对于任意不小于r的召回率水平r′所对应的最大准确率,即11点标准召回率下的准确率曲线根据召回率分别是0%,10%,20%,…,100%(共11点)时的准确率,绘制准确率-召回率曲线7.3.2单值评价方法对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。平均准确率均值(MeanAveragePrecision

,MAP

)P@kR-Precision平均排序倒数MRR①平均准确率均值MAP平均准确率(AP)系统检索到各相关文档时的准确率的平均值 Ranking#1

AP=(+++++)/6=0.78如果系统没有返回相关文档,则准确率默认为0AP取值在[0,1]之间1/12/33/44/55/66/10①平均准确率均值MAP平均准确率(AP)系统检索到各相关文档时的准确率的平均值 Ranking#1

Ranking#2

AP=(½+2/5+3/6+4/7+5/9+6/10)/6=0.52 Ranking#3

AP=(½+2/5+3/7+0+0+0)/6=0.22系统检索出来的相关文档位置越靠前,AP就越高AP=(+++++)/6=0.781/12/33/44/55/66/10平均准确率均值(MAP)例②

P@kP@k系统对于测试查询返回的前k个结果的准确率例:k=10 1.d123

(1)

6.d9

(0.5)

2.d84 7.d511

3.d56

(0.66)

8.d129

4.d6 9.d187

5.d8

10.d25

(0.4)

P@10=0.4②

P@kP@k系统对于测试查询返回的前k个结果的准确率优点不需要计算相关文档集合的数目缺点在通常所用的指标中是最不稳定的,这是因为相关文档的总数会对P@k有非常强的影响。例:一个完美系统的P@20值可以达到1,而对于一个只包含8个相关文档的信息需求而言,最完美的系统的P@20值也只能达到0.4③R-PrecisionR-Precision对于单个测试查询对于测试查询集合各个测试查询的R-Precision的平均值R-Precision能够适应不同查询的相关文档集大小的变化。因此,对于R-Precsion指标来说,在不同查询上求平均才更有意义。对于某查询,如果在前R个返回结果中有r篇相关文档,那么根据定义,不仅此时的正确率为r/R,而且召回率也等于这个值因此,R-Precsion和有时候用到的正确率召回率等值点(break-evenpoint)的概念是一样的,后者指的是正确率和召回率相等的点P@k和R-Precision描述的也是正确率—召回率曲线上的一个点MAP是对整条曲线求概括值虽然R-Precision只度量了曲线上的一个点,但是在经验上却证实它和MAP高度相关④平均排序倒数MRR当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。尽管后面的列表中可能含有一些更相关的信息,用户也会觉得其它页面没有更多想要的信息排序倒数(ReciprocalRanking,RR)第一个相关文档出现位置的倒数 RR=1/r1 r1→第一个相关文档在结果中排序数 如果检索结果中没有相关文档,那么RR值为0④平均排序倒数MRR当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。尽管后面的列表中可能含有一些更相关的信息,用户也会觉得其它页面没有更多想要的信息排序倒数(ReciprocalRanking,RR)第一个相关文档出现位置的倒数 RR=1/r1 r1→第一个相关文档在结果中排序数平均排序倒数(

MeanReciprocalRanking,MRR)例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。7.3.3基于文档权重的评价方法目前广泛采用的二元相关判断并没有考虑文档实际具有不同的相关度,应该在返回结果中对高相关性文档优先排序NDCG(NormalizedDiscountedCumulatedGain)O-meatureNWRR(Normalized

WeightedReciprocalRank)①NDCG系统检索结果 S={d1,d2,d3,d4,d5,d6,d7,d8,d9,d10

} G={3,2,3,0,0,1,2,2,3,0}算法步骤①CG(CumulatedGain)②DCG(DiscountedCumulatedGain)③NDCG(NormalizedDiscountedCumulatedGain)

G={3,2,3,0,0,1,2,2,3,0}CG={3,5,8,8,8,9,11,13,16,16}

CG(CumulatedGain)

G={3,2,3,0,0,1,2,2,3,0}CG={3,5,8,8,8,9,11,13,16,16}DCG={3,5,6.89,6.89,6.89,7.28,7.99,8.66,9.61,9.61}

CG(CumulatedGain)DCG(DiscountedCumulatedGain)折扣因子b模拟了用户在查看检索结果时的耐心程度底数b的选择不同,折扣函数的曲线斜率就不同,对累积权值的影响也不同设b=2

G={3,2,3,0,0,1,2,2,3,0}CG={3,5,8,8,8,9,11,13,16,16}DCG={3,5,6.89,6.89,6.89,7.28,7.99,8.66,9.61,9.61}

NCG={1,0.83,0.89,0.73,0.62,0.6,0.69,0.81,1,1}NDCG={1,0.83,0.87,0.78,0.71,0.69,0.73,0.80,0.88,0.88}CG(CumulatedGain)DCG(DiscountedCumulatedGain)NDCG(NormalizedDiscountedCumulatedGain)理想情况

GI={3,3,3,2,2,2,1,0,0,0} CGI={3,6,9,11,13,15,16,16,16,16}DCGI={3,6,7.89,8.89,9.75,10.52,10.88,10.88,10.88,10.88}②O-meatureRR评价是基于2元相关判断基础上的,只能判断是否相关,因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别。③NWRRβ(L)值为无穷大时,WRR与RR相等WRR(WeightedReciprocalRank,加权排序倒数)③NWRRWRR(WeightedReciprocalRank,加权排序倒数)NWRR(

NormalizedWeightedReciprocalRank)提纲7.1标准测试集7.2无序检索结果集合的评价指标7.3有序检索结果集合的评价指标7.4面向用户的评价指标7.4面向用户的评价指标一篇检出文档是否具有相关性,很大程度上取决于用户的主观判断用户的知识状态待处理和解决的问题、任务及所处的情境用户的目标、动机等常用的面向用户的评价方法新颖率覆盖率相对查全率召回率负担新颖率与覆盖率新颖率在检出的相关文档集合中,用户以前未知的相关文档所占的比例覆盖率 在用户已知的相关文档集合中,被检出的文档所占的比例

用户已知的相关文献|U|检出的用户已知的相关文献|Rk|检出的用户以前未知的相关文献|Ru|结果集|A|相关文献|R|高的新颖率意味着检索系统在一次检索中可以为用户发现或提供更多以前未知的新的相关文档高的覆盖率意味着检索系统可以为用户发现大多数期望得到的相关文档相对查全率检出的相关文档数量÷用户期望得到的相关文档数量召回率负担用户期望得到的相关文档数量与要得到这些相关文档所需检索的文档总数的比值本节小结标准测试集无序检索结果集合的评价指标准确率和召回率调和平均值F有序检索结果集合的评价指标准确率/召回率曲线单值评价法平均准确率均值MAPP@10R-Precision平均排序倒数MRR基于文档权重的评价方法NDCGO-meatureNWRR面向用户的评价指标新颖率覆盖率相对查全率召回率负担结束7.5国外信息检索评测技术评测的意义提供统一的测试方法和共同的数据集合节省各个研究者重复采集数据而造成的重复劳动对整个领域的科学研究和技术进步起到很大的推动作用主要的国际IR评测TREC评测NTCIR评测CLEF评测共同特点提供科学的、统一的测试标准、训练语料、测试语料和评测软件,在公开公正的基础上进行评测为大家提供一个交流研究开发经验的论坛7.5.1TREC评测(1)TREC简介TextREtrievalConference(文本检索会议)/是国际文本检索领域最具权威性的年度评测活动由NIST

(NationalInstituteofStandardsandTechnology,美国国家标准技术协会)和DARPA

(DefenseAdvancedResearchProjectsAgency,美国国防部高级研究计划局)共同资助始于1992年最初,主要针对文本信息的检索评测。如今,其研究内容早已超越了它的名字所能涵盖的内容,包括检索、过滤、问答等多个任务(Tracks)参加机构由1992年初的22家发展到近年来的上百家,一直保持逐年增加的势头。国内,清华、北大、中科院、复旦、哈工大等多家单位参加了近几年的各种TREC任务。TREC的诞生截至90年代初,检索评价活动存在的问题和缺陷检索评价项目多是为了个别的测试计划而设计并分散进行,彼此之间各有不同的测试对象和评价规则使用的实验数据量较小,其规模及特性与真实的检索环境之间存在着相当大的差异等等这样的评价研究,不仅造成评价结果的可比性差,其有效性也受到许多质疑,因而很难证明其实用价值评测过程确定任务(Tracks)。由NIST选择某些任务,制定规范参加者报名。参加者根据自己的兴趣选择任务,免费获得标准训练和开发数据参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者NIST使用固定的评测软件和工具(trec_eval软件包)对各参赛者的结果进行评价,并将结果返回给参加者春季发布数据夏季展开实验在11月份召开的年会上提交结果(2)TREC测试集TREC定义了很多任务(track),每个任务都有自己的测试集。但是其中最著名的测试集还是用于1992到1999年间的最早8次TRECAdHoc任务的测试集该测试集包括189万篇文档(主要是新闻类文章)、450个信息需求(在TREC中每个信息需求也称为主题topic)及其相关性判定TREC测试集的组成测试文档集合(Documents)检索主题集合(Topics)正确答案集合(RelevanceJudgements)①文档集合语言类型英语文档集合非英语文档集合汉语、西班牙语、法语、德语、意大利语等来源新闻和报纸TheWallStreetJournal(1987-1992全文文献)……政府文档美国联邦法规全文文献,1988,1989,1994能源报告、专利、…………57DocumentFormatStandardGeneralizedMark-upLanguage,SGML<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCo.introducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>TREC实验数据的特点全文文献占主导,文摘文献为补充文献主体包罗万象实验数据规模大(GB级),个别项目的数据规模还达到了100GB动态更新、来源多样、类型与语种多样②检索主题检索主题(topic)是对用户需求信息的描述,一般用自然语言描述Topic和Query的区别Topic是对信息需求的陈述Query是IR系统采用某种检索语言形成的结构化的检索提问一般情况下,参赛系统需要自行把用自然语言描述的Topic转换成符合自己系统要求的Query,即查询构造手工转换方式自动转换方式Topic组成唯一的序列编号(number)标题(title)通常由几个单词组成描述(description)用来描述满足要求的文档必须涉及的内容简短介绍(narrative)更详细地描述哪些文档是相关的,哪些文档是不相关的TREC-1及TREC-2共有150个Topic,之后每届TREC均建构50个新Topic,目前已超过600个Topic例③正确答案集合主要是根据主题的简短介绍(narrative)字段完成的二值判断模式在早期的检索实验集合中,相关性判断是全方位的,就是说,

由专家事先对集合中每一篇文档与每一个主题的相关性做出判断。但是,由于TREC的文献集合如此庞大,全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成。Pooling技术Pooling技术针对每个查询,将各个系统返回的前n个结果汇总,去除重复的内容,剩下的内容组成该查询的相关文档集合具体操作方法针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool”由检索评价专家进行人工判断,最终评判出每一文档的相关性(3)评价指标Trec-eval软件包插值后的召回率-准确率曲线MAP概括统计表……(4)TREC评测的任务早期的TREC评测任务task(TREC-1至TREC-3)AdhocRetrieval使用不同的提问式,在同一文档集合中进行检索参赛前参赛者只得到文档数据库,可以先对数据库作各种各样的分析(包括建立词表)和准备工作(检索式的构造)。参赛后才获得检索问题1998年终止InformationRouting使用同样的一批提问式,在不同的文档集合中进行检索参赛前参赛者只得到自然语言检索查询和训练语料,可以先对数据库作各种各样的分析(包括建立词表)和准备工作(检索式的构造)。参赛后才获得测试语料2000年终止TREC曾举办的评测项目tracktrackstimeCross-Language1997-2003Filtering

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论