第八章相关排序与质量评估_第1页
第八章相关排序与质量评估_第2页
第八章相关排序与质量评估_第3页
第八章相关排序与质量评估_第4页
第八章相关排序与质量评估_第5页
已阅读5页,还剩114页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章相关排序与质量评估第一页,共一百一十九页,2022年,8月28日相关排序的概念信息检索中的相关排序信息检索系统返回结果的排序各个条目的顺序反映了结果和查询的相关程度第二页,共一百一十九页,2022年,8月28日相关排序的概念搜索引擎中的相关排序反映多种因素的综合统计优先序搜索引擎维护的内容十分繁杂且不规范,不像传统的图书、文献等有很好的分类体系管理搜索引擎面对的用户背景广阔、层次多样,不像传统的图书馆所面对的用户通常有相对比较整齐的用户第三页,共一百一十九页,2022年,8月28日主要内容传统IR的相关排序技术链接分析与相关排序相关排序的一种实现方案搜索引擎系统质量评估第四页,共一百一十九页,2022年,8月28日主要内容传统IR的相关排序技术链接分析与相关排序相关排序的一种实现方案搜索引擎系统质量评估第五页,共一百一十九页,2022年,8月28日布尔模型文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来检索策略基于二值判定标准第六页,共一百一十九页,2022年,8月28日布尔模型—举例Q=病毒AND(计算机OR电脑)ANDNOT医文档:D1:…据报道计算机病毒最近猖獗D2:小王虽然是学医的,但对研究电脑病毒也感兴趣…D3:计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到?第七页,共一百一十九页,2022年,8月28日布尔模型—优点到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”第八页,共一百一十九页,2022年,8月28日布尔模型—问题布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性:“与”意味着全部;“或”意味着任何一个很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?第九页,共一百一十九页,2022年,8月28日向量空间模型GerardSalton在上世纪60年代提出的向量空间模型进行特征表达成功应用于SMART(SystemfortheManipulationandRetrievalofText)文本检索系统这一系统理论框架到现在仍然是信息检索技术研究的基础第十页,共一百一十九页,2022年,8月28日给定某个文档集合D,大小为M;设两篇文档d1,d2

∈D,一个查询q,用什么来衡量“d1与d2相比,哪个和q更相关”向量空间模型该模型作出如下假设:文档d和查询q的相关性可以由它们包含的共有词汇情况来刻画向量空间模型第十一页,共一百一十九页,2022年,8月28日文档d和查询q被简化成词汇的集合(多重集)Σ为一个词典,ti

为词项,N为词典的规模mi,ni(i=1,2,……N)表示相应词项出现的次数,即词频。向量空间模型第十二页,共一百一十九页,2022年,8月28日词项在文档和查询中出现的次数是一个基本量,称为“词频”模型为简便起见,mi,ni值在集合{0,1}中取值,表示词项出现与否,不关心出现的次数,此时的模型称为“二元模型”若一个词项ti在许多文档中出现,它对于不同文档的区分能力就不会很强,因此它的权重应该相对较小向量空间模型第十三页,共一百一十九页,2022年,8月28日文档频率DFki表示词项ti在文档集合D中涉及的文档个数,M表示集合D的大小,则倒置文档频率IDF向量空间模型第十四页,共一百一十九页,2022年,8月28日TF*IDF词项权重文档和查询的相关性变成了求d和q向量的距离向量空间模型第十五页,共一百一十九页,2022年,8月28日文本:“俄罗斯频繁发生恐怖事件,俄罗斯的安全部门加大打击恐怖主义的力度。”TFIDFTFIDFTFIDFTFIDF俄罗斯2较高高安全1中等高恐怖2较高高部门1较低低的2非常低很低加大1较低低频繁1较低低打击1中等高发生1较低低主义1较低低事件1较低低力度1中等高文档的词项权重TF*IDF举例第十六页,共一百一十九页,2022年,8月28日IDF计算示例第十七页,共一百一十九页,2022年,8月28日模型中的问题怎样确定文档中哪些词是重要的词?(索引项)怎样确定一个词在某个文档中或在整个文档集中的重要程度?(权重)怎样确定一个文档和一个查询式之间的相似度?第十八页,共一百一十九页,2022年,8月28日若干独立的词项被选作索引项(indexterms)

or词表vocabulary索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?体系结构总线计算机数据库….XML计算机科学文档集文档集中的索引项索引项的选择第十九页,共一百一十九页,2022年,8月28日这些索引项是不相关的

(或者说是正交的)

,形成一个向量空间vectorspace实际上,这些词项是相互关联的当你在一个文档中看到“计算机”,非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”“计算机”“科学”“商务”计算机科学文档集该文档集中的全部重要词项索引项的选择第二十页,共一百一十九页,2022年,8月28日由索引项构成向量空间2个索引项构成一个二维空间,一个文档可能包含0,1或2个索引项di=<0,0> (一个索引项也不包含)‏dj=<0,0.7> (包含其中一个索引项)‏dk=<1,2> (包含两个索引项)‏类似的,3个索引项构成一个三维空间,n个索引项构成n维空间一个文档或查询式可以表示为n个元素的线性组合第二十一页,共一百一十九页,2022年,8月28日向量空间中的N个文档可以用一个矩阵表示矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中没有意义,或该词项不在文档中出现T1T2….TtD1

d11d12…d1tD2

d21d22…d2t

:

:::

:

:::Dn

dn1dn2…dnt文档集—一般表示第二十二页,共一百一十九页,2022年,8月28日举例:D1=2T1+3T2+5T3D2=3T1+7T2+T3Q=0T1+0T2+2T3T3T1T2D1=2T1+3T2+5T3D2=3T1+7T2+T3Q=0T1+0T2+2T37325D1比D2更接近Q吗?怎样衡量相似程度?夹角还是投影图示第二十三页,共一百一十九页,2022年,8月28日相似度是一个函数,它给出两个向量之间的相似程度,查询式和文档都是向量,各类相似度存在于:两个文档之间(文本分类,聚类)两个查询式之间(常问问题集)一个查询式和一个文档之间(检索)人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在相似度计算第二十四页,共一百一十九页,2022年,8月28日术语权重的算法提高了检索的性能部分匹配的策略使得检索的结果文档集更接近用户的检索需求可以根据结果文档对于查询串的相关度通过CosineRanking等公式对结果文档进行排序向量空间模型的优点第二十五页,共一百一十九页,2022年,8月28日标引词之间被认为是相互独立随着Web页面信息量的增大、Web格式的多样化,这种方法查询的结果往往会与用户真实的需求相差甚远,而且产生的无用信息量会非常大隐含语义索引模型是向量空间模型的延伸向量空间模型的不足第二十六页,共一百一十九页,2022年,8月28日传统IR方法的成功有两个重要的内在假设被索引的信息本身有很高的质量,至少在信息的组织和内容上有着比较高的质量很多IR产品都是针对特殊的领域可以对这个领域进行算法的优化,避免了对一词多义的处理检索信息的用户有一定的相关技能和知识用户知道通过什么样的手段去提高检索的准确率传统的IR系统总是提供一套相当复杂的检索语法来满足用户的不同要求传统IR的相关排序技术第二十七页,共一百一十九页,2022年,8月28日这些假设在web上已经不再成立Web上网页的质量参差不齐,大量的网页组织性、结构性比较差。同时,Web又是一个无所不包的载体,它涉及政治、经济、教育等各个层面IR中的很多技术都没有了用武之地网络上充斥着很多没有任何意义的网页、很多镜像的网页,如果不采取相应的技术处理,会影响检索的质量大部分检索用户是没有任何经验的通常只输入一个或者两个检索词来检索他们需要的网页,但会得到大量的返回结果,很难达到满意的程度很少有用户愿意使用逻辑运算来提高检索的质量传统IR的相关排序技术第二十八页,共一百一十九页,2022年,8月28日传统IR的相关排序技术链接分析与相关排序相关排序的一种实现方案搜索引擎系统质量评估主要内容第二十九页,共一百一十九页,2022年,8月28日Web的复杂性带来的机会利用网页间的链接关系进行链接分析,量化网页信息在web查询模式下产生了许多新的信息可以利用,如web用户行为信息链接分析与相关排序第三十页,共一百一十九页,2022年,8月28日链接分析HTML标签标签能给我们提示其中文字的重要程度比较大的字体往往是作者比较强调的内容放在前面和中间的应该是作者比较强调的Alta,infoseek等搜索引擎在网页的预处理阶段记录了这些信息用于结果的排序链接分析与相关排序第三十一页,共一百一十九页,2022年,8月28日链接分析(续)网页之间的超链接链接反映的是网页之间形成的“参考”、“引用”和“推荐”关系如果一篇网页被较多的其他网页链接,则它相对较被人关注,其内容应该是较重要的网页的“出度”对分析网上信息的情况也很有意义的,因此可以同时考虑用两个指标来衡量网页这些想法即是google和IBM(clever)小组提出PageRank技术和HITS技术的基础链接分析与相关排序第三十二页,共一百一十九页,2022年,8月28日“随机冲浪”模型(PageRank的理论基础)用户随机的选择一个网页作为上网的起始网页看完这个网页后,从该网页内所含的超链接内随机的选择一个页面继续进行浏览沿着链接前进了一定数目的网页后,用户对这个主题感到厌倦,重新随机选择一个网页进行浏览,如此往复链接分析与相关排序第三十三页,共一百一十九页,2022年,8月28日网页的权值(PageRank)每个网页可能被访问到的次数越多就越重要“可能被访问的次数”也就定义为网页的权值wj表示第j个网页的权值;li,j只取0、1,代表从网页i到网页j是否存在链接ni代表网页i有多少个指向其他网页的链接d代表“随机冲浪”中沿着链接访问网页的平均次数链接分析与相关排序第三十四页,共一百一十九页,2022年,8月28日HITS(Hyperlink-InducedTopicSearch)权威型网页(authority)对于一个特定的检索,该网页提供最好的相关信息目录型网页(hub)该网页提供很多指向其他高质量权威型网页的超链链接分析与相关排序第三十五页,共一百一十九页,2022年,8月28日算法过程利用检索的关键词得到一个网页的根集合根据这个集合在整个网页有向图中的位置来扩展这个根集合将被链接(包括链出和链入)的网页加入到这个根集合中,形成一个新的集合依据指定的网页规模作扩展得到这个集合后,计算集合中每个网页的目录型权值和权威型权值按照这两个不同的权值,分别取出前k个结果返回给用户链接分析与相关排序第三十六页,共一百一十九页,2022年,8月28日PageRank算法&HITS算法利用了网页和超链组成的有向图,根据相互链接的关系进行递归的运算运算的时机PageRank在网页搜集告一段落时,离线的使用一定的算法计算每个网页权值速度快,但丧失了检索的灵活性HITS采用即时分析运算策略,每得到一个检索,它都要从数据库中找到相应的网页和超链构成的有向子图,再运算获得各个网页的相应链接权值灵活性强,更加精确;但效率较低链接分析与相关排序第三十七页,共一百一十九页,2022年,8月28日Web查询模式下的新信息新出现的网页尽管重要,但由于时间短,被链接的次数不可能很高PageRank值就不会高除网页本身的特性外用户行为新词的产生链接分析与相关排序第三十八页,共一百一十九页,2022年,8月28日用户行为用户经验少,但数量巨大Google、AltaVista、百度、雅虎每天都有超过1000万次的用户检索可以从中获取许多有用的信息,这些信息可以大大提高搜索引擎检索结果的准确率,提高检索质量DirectHit技术就是基于该思想创立的链接分析与相关排序第三十九页,共一百一十九页,2022年,8月28日DirectHit跟踪用户对检索结果的后继型为:哪些站点被用户选择浏览了?用户在这个站点上花费了多少时间?根据统计结果,改变网页的权值提高哪些经常被用户选择、花大量时间浏览站点的权值,降低哪些不太被用户关心的站点的权值对于新加入系统的网页,系统则先给它们一个缺省的权值对一个固定的用户的行为进行跟踪和统计,发现这个用户的喜好,从而产生专门针对该用户的检索结果(个性化检索)链接分析与相关排序第四十页,共一百一十九页,2022年,8月28日四种技术的比较网页本身信息(Author)超链接关系(OtherAuthor)人工编辑产生的目录系统(Editor)用户行为(User)链接分析与相关排序第四十一页,共一百一十九页,2022年,8月28日新词的产生词典传统的信息检索信息资源相对稳定,信息内容相对成熟,词典也就相对稳定网络环境下时代感很强如果词典中没有相应的词,就不可能(不能有效地)查到含有它们的网页。因此,获得新词,将它们及时加入到词典中,是维护搜索引擎的一个重要工作链接分析与相关排序第四十二页,共一百一十九页,2022年,8月28日词典在系统中的地位链接分析与相关排序第四十三页,共一百一十九页,2022年,8月28日词典的设计采用Hash表来实现系统的词典h_size为Hash表的大小Fkey为散列函数Dinput为输入数据链接分析与相关排序第四十四页,共一百一十九页,2022年,8月28日如何扩大词典的容量?系统和外界数据的接口Web用户检索(天网选择用户的检索进行学习,扩大词典容量)学习词汇是为了满足用户的检索需求,提高检索的质量统计上看,web上的数据和用户检索的字符串有着很大的差别用户输入的大部分是词汇和词汇组成的断语,经过简单的处理,可以方便的学习到新的词汇Web网页中的中文大部分是连写在一起的句子,很难从中提取新词链接分析与相关排序第四十五页,共一百一十九页,2022年,8月28日新词学习链接分析与相关排序第四十六页,共一百一十九页,2022年,8月28日词汇统计复杂的逻辑检索用户输入的检索有一部分是复杂的逻辑检索(大约20%),我们应该首先将这些带有逻辑运算符号的检索字符串转化为简单检索形式中英文混合检索检索中有大量的英文检索和中英文混合检索,我们这里处理的是中文新词的学习,因此我们要将所有的英文词汇过滤掉新词的最大长度对于过长的中文字符串,它是一个词汇的可能性极小。定义一个学习词汇的最大长度n,把所有检索字符串串长大于n的过滤掉检索频率我们对这些合法的“可能新词”进行学习,统计出每个词汇的检索频率链接分析与相关排序第四十七页,共一百一十九页,2022年,8月28日词汇筛选词频筛选低频的检索排除在新词之外生僻词汇不必加入到新词词典中检索时不小心的输入错误搜狐搜虎两个或多个合法词汇组成的短语,需要过滤掉,如“计算机网络”链接分析与相关排序第四十八页,共一百一十九页,2022年,8月28日新词学习对检索效率的影响链接分析与相关排序第四十九页,共一百一十九页,2022年,8月28日传统IR的相关排序技术链接分析与相关排序相关排序的一种实现方案搜索引擎系统质量评估主要内容第五十页,共一百一十九页,2022年,8月28日URL权值的评价对一个URL地址进行被链接次数的统计,确定该URL获得的其他网页的评价,Wl当一个网页属于重要网站时,赋予另外一个权值Ws根据不同的编码类型,给相应的网页赋予编码权值Wc相关排序的一种实现方案第五十一页,共一百一十九页,2022年,8月28日形成网页中词项的基本权重向量空间模型不能应用于搜索引擎系统网页文本和正文信息最重要的区别在于HTML标签有些标签影响文本的权值<FONT>、<H1>等不影响文本权值的标签<IMG>、<FRAME>等相关排序的一种实现方案第五十二页,共一百一十九页,2022年,8月28日影响权值的HTML标签第五十三页,共一百一十九页,2022年,8月28日一个特征项的权值HTML标签影响的绝对权值首先给每一个特征项赋予一个初始权值W0如果一个特征项被其他有权标签包围,这些标签的权值会影响特征项的权值例如:<H3><b>hello</b></H3>WBT=W0+Wt(H3)+Wt(b)相关排序的一种实现方案第五十四页,共一百一十九页,2022年,8月28日网页大小对权值的影响网页的长度越长,特征项可能获得的权值特征项出现频率对权值的影响区分高频词和低频词对网页的影响程度Smax表示最大的网页可索引文本大小S(p)代表网页p的可索引文本大小N代表被索引网页的总量T(t)包含特征项t的网页数量相关排序的一种实现方案第五十五页,共一百一十九页,2022年,8月28日归一化处理WBmax代表对于所有k,p而言,WB(k,p)的最大值相关排序的一种实现方案第五十六页,共一百一十九页,2022年,8月28日利用链接结构网页之间的超链接是Web的基本特点海量网页之间构成了一个巨大的有向图我们更关心网页的入度(链接命中数,linkhitnumber,LHN)相关排序的一种实现方案第五十七页,共一百一十九页,2022年,8月28日天网将网页的超链分为两类链向本网站内部的网页超链(忽略)链向其它网站上的网页的超链通过统计发现,很多网站的页面都是运用一定的页面模版实现的模版中会包含大量的该网站的索引超链,这些超链会跟随模版被继承到该网站的每一个网页中有些大型网站的主页会被本站点的其他网页大量链接,而获得很高的LHN,尽管它有可能被极少的其他网站所链接考虑网页编辑的欺骗行为他们在一些网页中包含大量的不可见链接指向自己的页面相关排序的一种实现方案第五十八页,共一百一十九页,2022年,8月28日新网页的LHN新网页即使质量很高,知道它的网页编辑很少,只能得到很小的LHN值LHN补偿算法可以获得网页的发布时间T(p)‏令当前的时间为Tnow补偿的阈值时间为Tst得到新的LHN值相关排序的一种实现方案第五十九页,共一百一十九页,2022年,8月28日归一化WLmax表示系统对所有的p的WL’(p)的最大值相关排序的一种实现方案第六十页,共一百一十九页,2022年,8月28日收集用户反馈信息用户点击数(userhitnumber,UHN)对于一个查询q会得到很多检索结果网页p0,p1,p2,……,pn假定检索q在一天内被提交了m次定义检索q对应的一个网页p的UHN相关排序的一种实现方案第六十一页,共一百一十九页,2022年,8月28日上述的方法忽略了返回结果中URL的位置信息统计结果:47.3%的用户只访问搜索引擎返回的第一页,12.2%的用户会继续访问第二页一个结果在返回网页中的位置将会很大程度的影响用户点击的可能性采用补偿算法来弥补这个缺陷按照用户对每个返回页面访问的概率进行补偿相关排序的一种实现方案第六十二页,共一百一十九页,2022年,8月28日补偿因子定义表第六十三页,共一百一十九页,2022年,8月28日考虑长时期的用户评价考虑n+1天的数据WUD0,WUD1,……,WUDn存在的问题用户在不同的时间感兴趣的网页是不同的奥运前,用户关心的是奥运会的准备情况和参赛运动员情况奥运后,用户关心的事世界纪录打破的情况、各个国家获得的奖牌数和排名情况相关排序的一种实现方案第六十四页,共一百一十九页,2022年,8月28日衰减算法衰减系数kk值越大,先前的数据对结果的影响就越大k=0,表示历史数据不被考虑k=1,表示所有的历史数据都和现在的数据有相同的重要性对于新的网页,需要考虑补偿相关排序的一种实现方案第六十五页,共一百一十九页,2022年,8月28日计算最终的权重计算每个网页和查询q的相关度基本权值链接权值用户评价权值相关排序的一种实现方案第六十六页,共一百一十九页,2022年,8月28日该方法的优点几乎所有的网页拥有者,尤其是商业网站,期望他们的网页被排在搜索结果的前列如果忽略一个站点内部的链接,这就使得网站的作者很难通过超链接权值对搜索引擎进行欺骗用户评价也是一个容易被用来欺骗搜索引擎的特性相关排序的一种实现方案第六十七页,共一百一十九页,2022年,8月28日传统IR的相关排序技术链接分析与相关排序相关排序的一种实现方案搜索引擎系统质量评估主要内容第六十八页,共一百一十九页,2022年,8月28日评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量评价第六十九页,共一百一十九页,2022年,8月28日针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能,因此相对来说较容易性能评价对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序信息检索的评价第七十页,共一百一十九页,2022年,8月28日相关度理论假定:对于一个给定的文档集合和一个用户查询,存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档相关度第七十一页,共一百一十九页,2022年,8月28日相关性是一种主观评价是不是正确的主题输入:“和服”;输出:“···咨询和服务···”由于分词错误,导致检索结果偏离主题是否满足用户特定的信息需求(informationneed)‏时效性,是不是新的信息输入:“美国总统是谁”;输出:“克林顿”信息已经过时权威性,是否来自可靠的信息源相关性第七十二页,共一百一十九页,2022年,8月28日相关性不是二值评价,而是一个连续的量即使进行二值评价,很多时候也很难从人的立场上看,相关性是:主观的,依赖于特定用户的判断和情景相关的,依赖于用户的需求认知的,依赖于人的认知和行为能力时变的,随着时间而变化评价IR系统的困难第七十三页,共一百一十九页,2022年,8月28日检索性能的评价检索结果的准确度检索任务批处理查询交互式查询实验室环境下主要是批处理查询,具有良好的可重复性和可扩展性检索的评价第七十四页,共一百一十九页,2022年,8月28日GRE词汇精选考研毛主席语录PAIR:客户端个性化检索工具点击第七十五页,共一百一十九页,2022年,8月28日第七十六页,共一百一十九页,2022年,8月28日一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求{q1,q2,…,qn}。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集{R1,R2,…,Rn}。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值评价和比较检索系统的检索性能需要以下条件:第七十七页,共一百一十九页,2022年,8月28日在早期的检索实验集合中,相关性判断是全方位的,就是说,由专家事先对集合中每一篇文献与每一个主题的相关性做出判断由于TREC的文献集合如此庞大,全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合,并采用一种“pooling”的技术来完成相关性判断第七十八页,共一百一十九页,2022年,8月28日假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的“pooling”技术的具体操作方法是:针对某一检索问题,所有参与其检索试验的系统分别给出各自检索结果中的前K个文档(例如K=100),将这些结果文档汇集起来,得到一个可能相关的文档池“pool”由检索评价专家进行人工判断,最终评判出每一文档的相关性“Pooling”方法有以下两个假设第七十九页,共一百一十九页,2022年,8月28日相关文本检索出的文本全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设:文本集中所有文献已进行了检查准确率和召回率第八十页,共一百一十九页,2022年,8月28日101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾准确率和召回率之间的关系第八十一页,共一百一十九页,2022年,8月28日Example

Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d38

2.d84 7.d511 12.d48

3.d56 8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25 15.d3(precision,recall)‏(100%,10%)‏(66%,20%)‏(50%,30%)‏(40%,40%)‏(33%,50%)‏举例第八十二页,共一百一十九页,2022年,8月28日11个标准查全率水平所对应的查准率:0%,10%,20%,…,100%02040608010012020406080100120interpolationprecision一个查询的11个标准查准率第八十三页,共一百一十九页,2022年,8月28日上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:Nq:thenumberofqueriesusedPi(r):theprecisionatrecalllevelrforthei-thquery平均准确率第八十四页,共一百一十九页,2022年,8月28日对多个查询,进行平均,有时该曲线也称为:查准率/查全率的值如下为两个检索算法在多个查询下的查准率/查全率的值第一个检索算法在低查全率下,其查准率较高。另一个检索算法在高查全率下,其查准率较高多个查询下进行检索算法的比较第八十五页,共一百一十九页,2022年,8月28日合理估计需要了解集合的所有文献这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适测的是批处理模式下查询集合性能,对现代信息检索系统,交互式是重要特征,对量化检索过程的性指标可能会更合适适应性第八十六页,共一百一十九页,2022年,8月28日随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现单值概括新的评价指标第八十七页,共一百一十九页,2022年,8月28日已检出的相关文献的平均准确率逐个考察检出新的相关文献,将准确率平均Example

1.d123(1) 6.d9(0.5) 11.d38

2.d84 7.d511 12.d48

3.d56(0.66)8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25(0.4) 15.d3(0.3)‏(1+0.66+0.5+0.4+0.3)/5=0.57单值概括(1)第八十八页,共一百一十九页,2022年,8月28日R-Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数1.d123 6.d9

2.d84 7.d511 3.d56 8.d129 4.d6 9.d187

5.d8 10.d25R=10and#relevant=4R-precision=4/10=0.41. d123

2. d84

3. 56

R=3and#relevant=1R-precision=1/3=0.33单值概括(2)第八十九页,共一百一十九页,2022年,8月28日准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录RPA/B=0:对于第i个查询,两个算法有相同的性能RPA/B>0:对于第i个查询,算法A有较好的性能RPA/B<0:对于第i个查询,算法B有较好的性能单值概括(3)第九十页,共一百一十九页,2022年,8月28日0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28单值概括(3-1)第九十一页,共一百一十九页,2022年,8月28日概括统计表查询数检出的所有文献数量相关文献数应检出的相关文献数……单值概括(4)第九十二页,共一百一十九页,2022年,8月28日前面提到的一些评价指标,如R-准确率,MAP,P@10等,都只考虑经过pooling技术之后判断的相关文档的排序对判断不相关文档与未经判断的文档的差别并没有考虑而目前随着互联网的发展,测试集越来越大,由于相关性判断还基本上是人工判断,因此建立完整的相关性判断变得越来越难评价指标的不足第九十三页,共一百一十九页,2022年,8月28日只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下,bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:Bpref指标第九十四页,共一百一十九页,2022年,8月28日下面举个例子来说明bpref的性能,假设检索结果集S为:S={D1,D2·,D3*,D4*,D5·,D6,D7·,D8,D9,D10}其中D2、D5和D7是相关文档,D3和D4为未经判断的文档。对这个例子来说,R=3;bpref=1/3[(1-1/3)+(1-1/3)+(1-2/3)]Bpref举例第九十五页,共一百一十九页,2022年,8月28日对于搜索引擎系统来讲,由于没有一个搜索引擎系统能够保证搜集到所有的网页,所以召回率很难计算,因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候,用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务单一相关文档检索的评价第九十六页,共一百一十九页,2022年,8月28日RR(ReciprocalRanking)是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况RR值具体为1/r,其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档,那么RR值为0RR排序倒数和MRR平均排序倒数第九十七页,共一百一十九页,2022年,8月28日MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询,分别得到每个查询的排序倒数,取平均即为MRR。计算公式如下:例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档然而RR评价是基于2元相关判断基础上的,因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别MRR(MeanReciprocalRanking)平均排序倒数第九十八页,共一百一十九页,2022年,8月28日调和平均值R(j):therecallforthej-thdocumentintherankingP(j):theprecisionforthej-thdocumentintheranking其它测度方法第九十九页,共一百一十九页,2022年,8月28日 1.d123 6.d9 11.d38

2.d84 7.d511 12.d48

3.d56 8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25 15.d3(33.3%,33.3%)‏(25%,66.6%)‏(20%,100%)‏Example第一百页,共一百一十九页,2022年,8月28日E指标允许用户根据需要调整精确率和召回率的比例其它测度方法(cont.)第一百零一页,共一百一十九页,2022年,8月28日面向用户的测度方法覆盖率:实际检出的相关文献中用户一致的相关文献所占比例新颖率:检出的相关文献中用户未知的相关文献所占的比例其它测度方法(cont.)第一百零二页,共一百一十九页,2022年,8月28日相关文献|R|结果集|A|用户已知的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|覆盖率和新颖率(图示)第一百零三页,共一百一十九页,2022年,8月28日组成要素文件集(DocumentSet;DocumentCollection)‏查询问题(Query;Topic)‏相关判断(RelevantJudgment)‏用途设计与发展:系统测试评估:系统效能(Effectiveness)之测量比较:不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则,如Precision与Recall测试集(TestCollection)第一百零四页,共一百一十九页,2022年,8月28日TREC评测文本检索会议(TextRetrievalConference,TREC)是信息检索(IR)界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)(美国国防部)共同资助,开始于1992年。NTCIR评测NTCIR(NACSISTestCollectionforIRSystems)始于1998年,是由日本国立信息学研究所(NationalInstituteofInformatics,简称NII)主办的搜索引擎评价型国际会议CLEF评测CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展,CLEF的目标只在于跨语言信息检索以及多语言信息检索方面国外的评测第一百零五页,共一百一十九页,2022年,8月28日TREC:TextREtrievalConference(/)‏1992年开始,每年一次由美国国防部DefenseAdvancedResearchProjectsAgency(DARPA)和美国国家标准技术研究所NationalInstituteofStandardsandTechnology(NIST)联合发起参加者免费获得标准训练和开发数据参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者组织者对各参赛者的结果进行评价包括检索、过滤、问答等多个主题TREC评测(Benchmark)第一百零六页,共一百一十九页,2022年,8月28日StandardGeneralizedMark-upLanguage,SGML<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCroducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>DocumentFormat第一百零七页,共一百一十九页,2022年,8月28日概括表统计准确率-召回率平均值文献级别平均值平均准确率TREC会议评价测度第一百零八页,共一百一十九页,2022年,8月28日全名:863计划中文信息处理与智能人机接口技术评测组织者:国家高技术研究发展计划(863计划)方式通过网络进行各单位在自己的环境中运行参评系统2005年11月召开研讨会2005年度评测内容机器翻译信息检索语音识别国内863评测介绍第一百零九页,共一百一十九页,2022年,8月28

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论