概率检索模型BM25系列-文档相关性检索的利器_第1页
概率检索模型BM25系列-文档相关性检索的利器_第2页
概率检索模型BM25系列-文档相关性检索的利器_第3页
概率检索模型BM25系列-文档相关性检索的利器_第4页
概率检索模型BM25系列-文档相关性检索的利器_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概率检索模型BM25系列-文档相关性检索的利器给定一个用户需求(query),如果搜索系统展示的搜索结果是根据文档和query的相关性由高向低排序的,那么这个搜索引擎是最优的。在文档集合的基础上计算其相关性估计是其核心概率排序原理以往的向量空间模型是将query和文档使用向量表示然后计算其内容相似 性来进行相关性估计的,而概率检索模型是一种直接对用户需求进行相关性的 建模方法,一个query进来,将所有的文档分为两类 一-相关文档、不相关文 档,这样就转为了一个相关性的分类问题,赞!对于某个文档 DD来说,P(R|D)P(R|D)表示该文档数据相关文档的概率,则 P(NR|D)P(NR|D)表

2、示该文档属于不相关文档的概率,如果query属于相关文档的概率大于不相关文档 P(R|D)>P(RN|D)P(R|D)>P(RN|D),则认为这个文档 是与用户查询相关相关的.现在使用贝叶斯公式将其转一下:P(R|D)>P(NR|D)<=> P(D|R)P(R)P(D) >P(D|NR)P(NR)P(D) <=>P(D|R)P(D|NR) >P( nr)p(r)P(R|D)>P(NR|D)v=>P(D|R)P(R)P(D)>P(D|NR)P(NR)P( D)<=>P(D|R)P(D|NR)>P(NR)P(

3、R)在搜索排序过程中不需要真正的分类,只需要保证相关性由高到底排序即可,所以 只需要P(D|R)P(D|NR) P(D|R)P(D|NR)降序即可,这样就最终转为计算 P(D|R)P(D|R) ,P(D|NR)P(D|NR)的值即可.二元独立模型(BIM)词汇独立性假设:文档里面岀现的词没有任何关联,这样一个文档的岀现就可以转为各个单词岀现概率的 乘积(虽然这种假设有违实际,但是算起来简单的啊)上述提到的文档 DD表示为1,0,1,0,1 ,用pipi来表示第ii个单词在相关文 档出现的概率,则在已知 相关文档 集合的情况下,观察到 DD的概率为:P(D|R)=pi x (1-p2) >

4、p3X (1p4)>p5P(D|R)=p1 x (1-p2) x p3x (1-p4) x P5第1,3,5表示这个单词在 DD中出现,所以其贡献概率为 pipi,而第2,4这两个 单词并没有在 DD中出现,所以其贡献的概率为1- pi1-pi同理在不相关文档中观察到的概率为:P(D|R)=S1X (1-S2)冶3 X (1-4)冶5P(D|R)=s1 x (1-s2) x s3 x (1-s4) X s5最终得到的相关性概率估算为:P(D|R)P(D|NR)=p1X (1卩2) X3x (1卩4) X5S1X (1&) X3X (1-S4) X5P(D|R)P(D|NR)=p1

5、 x (1-p2) x p3 x (1-p4) x p5s1 x (1-s2) x s3 x (1-s4) x s5现在将其推广之后可以有通用的式子:P(D|R)P(D|NR)= n:di=1pisi xTIi:di=o1 -pi1 - siP(D|R)P(D|NR)= ni:di =1pisi xn i:di=01-pi1-sidi=1di=1表示在文档中出现的单词,di=0di=0表示没在文档中出现的单词:在这里进一步对上述公式进行等价变换之后有:$begi nequatio nbegi nsplit fracP(D|R)P(D|NR) &=prod_i:d=1fracp_is_i

6、 'times left ( prod_i:d口=1 frac1-s_i1-p_i 'timesprod_i:d口=1 frac1-p_i1-s_i 'right) times prod_i:d=0 frac1-p_i1- s_i&= left ( prod_i:dl_i=1 fracp_is_i times prod_i:d=1 frac1-s_i1-p_i right ) times left ( prod_i:d=1 frac1-p_i1-s_i 'times prod_i:d=0 frac1-p_i1-s_i right ) &=prod

7、_i:d口=1 fracp_i(1-s_i)s_i(1-p_i) 'times prod_i frac1-pi1-s_i&=prod_i:d口=1 fracp_i(1-s_i)s_i(1-p_i)en dsplite ndequatio n$其中上面式子第三步的第二部分ni1-pi1-sin i1-pi1-si表示各个单词在所有文档中出现的概率,所以这个式子的值和具体文档并没有什么关系,在排序中不起作用,才可以简化到第4步.为了方便计算,将上述连乘公式取 loglog:log(P(D|R)p(D|NR)= Ei:di=ilogpi(i-si)si(i-pi)log(P(D|R)

8、P(D|NR)=刀 i:di=1logpi(1 -si)si(1 -pi)有了上述最终可计算的式子之后,我们就只需要统计文档DD中的各个单词在 相关文档/不相关文档中出现的概率即可:相关文档不相关文档文档数量di=1di=1ririni- rini-rininidi=0di=0R- riR-ri(N- R)-( ni-ri)(N-R)-(ni-ri)N- niN-ni文档数量RRN-RN-RNN上面的表格表示各个单词在文档集合中的相关文档/不相关文档出现数量,同时为了避免log(0)log(0)出现,加上平滑之后可以计算得到:pi=ri+o.5R+i pi=ri+0.5R+1si=(ni- r

9、i)+o.5(N - R)+i si=(ni-ri)+0.5(N-R)+1则最终可以得到如下公式:Eqi=di=1 log(ri+0.5)(N - R)-( ni- ri)+0.5)(ni- ri+0.5)(R-ri+0.5)X qi=di=1log(ri+0.5)( (N-R)-(ni-ri)+0.5)( ni-ri+0.5)(R-ri+0.5)上面的公式表示对于同时出现查询qiqi以及文档didi的时候,对qiqi在didi中出现的单词在 相关文档/不相关文档 进行统计,即可得到查询与文档的相关性估计 值.在不确定哪些文档是相关的,哪些文档是不相关的的时候,可以给公式的估算因子 直接赋予固

10、定值,则该公式将会蜕化为IDFIDF因子.BM25模型模型概述上一小节中的BIM模型 效果并不佳,也没有考虑单词权重,但是他给BM25模型打下了深深的基础BM25模型在BIM模型的基础上考虑了查询词在Query以及Doc中的权重,并通过实验引入了一些经验参数。BM25模型是目前最成功的内容排序模型 .改进之后的BM25模型的拟合公式如下:习Qlog(ri+0.5)(N- R)-( ni- ri)+0.5)(ni- ri+0.5)(R-ri+0.5)?ki+1)fiK+f i?k2+1)qfik2+qfi刀 iQlog(ri+0.5)(N-R)-(ni-ri)+0.5)( ni-ri+0.5)(

11、R-ri+0.5)彳k1+1)fiK+fi?k2+1)qfik2+qfi上面的式子中:1. 第1部分即为上一小节的二元独立模型BIM计算得分2. 第2部分是查询词在DD中的权重,其中fifi代表词在文档中的词频,KK因子代表了对文档长度的考虑,其计算公式为K=k1(1- b)+b?lavdi)K=k1(1 -b)+b Qlavdl)1. k1k1为经验参数,这里的k1k1 一般设置为1.2,2. bb为调节因子,将bb设为0时,文档长度因素将不起作用,经验表明一般b=0.75b=0.753. dldl代表当前文档的长度4. avdlavdl代表所有文档的平均长度3. 第3部分是查询词在自身的权

12、重,qfiqfi表示在查询中的词频,k2k2也为调节因子,因为在短查询下这部分一般为1,为了放大这部分的差异,k2k2 一般取值为 01000综合看来,BM25模型结合了 BIM因子、文档长度、文档词频 和查询词频 进行 公式融合,并利用 k1k1、k2k2、bb对各种因子进行权重的调整.栗子假设当前以乔布斯IPAD2这个查询词为例,来计算在某文档DD中BM25相关生的值,由于不知道文档集中相关与不相关的分类,所以这里直接将相关文档个数rr置为0,则将得到的BIM因子为:RelBIM =log(0+0.5)(N -0)-( ni- 0)+0.5)(ni-0+0.5)(0-0+0.5) =log

13、 N- ni+0.5ni+0.5RelBIM=log(0+0.5)(N-0)-(ni-0)+0.5)( ni-0+0.5)(0-0+0.5)=logN-ni+0.5 ni+0.5其他数值假定如下1. 文档的集合总数N=100000N=1000002. 包含乔布斯的文档个数为n乔布斯=1000n乔布斯=10003. 包含 IPAD2 的文档个数为 niPAD2=100nlPAD2=1004. 文档DD中出现 乔布斯的词频为f乔布斯=8f乔布斯=85. 文档DD中出现IPAD2的词频为flPAD2 =8fIPAD2=86. 查询词频均为qfi=1qfi=17. 调节因子 k1=1.2k1=1.28

14、. 调节因子 k2=200k2=2009. 调节因子 b=0.75b=0.7510. 设文档DD的长度为平均长度的1.5倍(diavdi=1.5dlavdl=1.5 ),即K=1.2 >(0.25+0.75 1>5)=1.65K=1.2 >(0.25+0.75*5)=1.65则最终可以计算到的BM25结果为:RelBM25=log 100000-1000+0.51000+0.5 >(1.2+1) 81.65+8 >(200+1) 1200+1+log1 00000-1000+0.51000+0.5 >(1.2+1) 51.65+5 >(200+1) 1

15、200+1=8.59RelBM25=log100000-1000+0.51000+0.5> (1.2+1)> 81.65+8 > (200+1) > 1200+1+log100000-1000+0.51000+0.5> (1.2+1)> 51.65+5 > (200+1)X1200+1=8.59每个文档按上述公式计算得到相关性排序即可.BM25F模型在BM25模型中,文档被当做一个整体进行进行词频的统计,而忽视了不同区域的重要性,BM25F模型正是抓住了这点进行了相应的改进。BM25F模型在计算相关性时候,会对文档分割成不同的域来进行加权统计, 非常适

16、用于网页搜索,因为在一个网页有 标题信息、meta信息、页面内容 信息等,而标题信息无疑是最重要的,其次是 meta信息,最后才是网页内 容,BM25F在计算相关性的,会将网页分为不用的区域,在各个区域分别统计 自己的词频。所以BM25F模型的计算公式为习:qi=di=ilog(ri+0.5)(N - R)-( ni-仃)+0.5)(ni- ri+0.5)(R- ri+0.5) fUiki +fui 刀 i:qi=di=1log(ri+0.5)(N-R)-(ni-ri)+0.5)( ni-ri+0.5)(R-ri+0.5) fiuk1+fiuBM25F的第1部分还是BIM的值其中与BM25主要的差别体现在fuifiu因子上,它是单词ii在各个区域不同的得分, 计算公式如下:fui=uEk=1wkfuiBufiu=刀 k=1uwk f fuiBuBu=(1- bu)+b u ful uuvul u)Bu=(1-bu)+buf uluuvulu)上面的公式表示:1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论