信息检索模型_第1页
信息检索模型_第2页
信息检索模型_第3页
信息检索模型_第4页
信息检索模型_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索模型1信息检索模型信息检索模型(Information Retrieval Model)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是IR中的核心内容之一。原始文档相关度计算文档表示原始查询查询表示2信息检索模型 用形式特征可以将信息检索模型表示为一个四元组的模型框架: IR = 。 D是文档表示 Q是查询表示 R(q ,d )是一个排序函数3相关概念标引词(Index Term) 标引词是能代表文档内容的特征,可以是字、词、 短语或者某种语义单元,关键词(key words) 可以看成标引词的一种。 文档表示成多个标引词的集合

2、标引词的权重(Weight)不同标引词作用是不同的 通过权重加以区分4信息检索模型的分类 从所使用的数学方法上分:基于集合论的IR模型(Set Theoretic models) 布尔模型 基于模糊集的模型 扩展布尔模型基于代数论的IR模型(Algebraic models) 向量空间模型 潜性语义索引模型 神经网络模型基于概率统计的IR模型(Probabilistic models) 回归模型 概率模型 语言模型建模IR模型 推理网络模型 信任度网络模型5布尔模型(Boolean Model)布尔模型:查询和文档均表示为标引词(“是否存在”) 的布尔表达式,通常表示成D(t 1,t 2, ,

3、t i)的形式。布尔操作(关系) :与(AND) 或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。类似于传统数据库检索,是精确匹配6布尔模型的优点简单、易理解、易实现现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索7布尔模型的局限性只能严格匹配,文献要么相关、要么不相关,并没有一个相关级别的概念,因此很难有好的检索效果构造布尔逻辑式不容易,对于一般用户而言,很难用AND、OR、NOT运算符的结合来准确地表达一个检索语句,标引词的简单组配不能完全反映用户的实际需要;检索输出完全依赖于布尔提问与文献的匹配情况

4、,很难控制输出量的大小结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要8向量空间模型向量空间模型(Vector Space Model,VSM)是康奈尔大学Salton等人上世纪70年代提出并倡导,原型系统SMART标引词独立性假设:标引词在文档中的出现是独立、互不影响的。查询和文档都可转化成标引词及其权重组成的向量向量之间通过距离计算得到查询和每个文档的相似度。9向量表示文档Dj的向量可以表示为Dj(w1j, w2j ,wnj ) ,其中n是系统中的标引词数目,wij 代表了标引词i在文档Dj中的权重。查询Q的向量可以表示为Q(w1q, w2q

5、 ,wnq ) ,wiq代表了标引词i在查询Q中的权重10文档-标引词矩阵(Doc-Term Matrix)n篇文档,m个标引词构成的矩阵Am*n, 每列可以看成每篇文档的向量表示,同时, 每行也可以可以看成标引词的向量表示11权重计算布尔权重:标引词i在文档j中的权重wij =0或1(出现则取1,否则取0)TF权重:TF(Term Frequency)是标引词在文档中出现的次数。权重wij = TFij或者归一化后的TF值12权重计算 TF的归一化(Normalization):将一篇文档中所有的标引词的TF值归一化到0,1之间。通常可以采用以下三种方式之一:Maximum Normaliz

6、ation 1,2,1,0,4 0.25,0.5,0.25,0,1Augmented Maximum Normalization1,2,1,0,4 0.625,0.75,0.625,0.5,1Cosine Normalization1,2,1,0,4 0.213,0.426,0.213,0,0.85213权重计算标引词的文档频率DF(Document Frequency):标引词在整个文档集合中出现的文档篇数,DF反映了标引词的区分度, DF越高表示标引词越普遍,因此其区分度越低,其权重也越低。逆文档频率(Inverse DF ,IDF)DF的倒数,通常采用如下公式计算:(N是文档集合中所有文

7、档的数目)向量空间模型中通常采用TF* IDF的方式计算权重,即标引词i在文档dj的权重wij = TFij * IDFij14相似度计算 文档和提问之间的相关程度(即相似度)可由 它们各自向量在向量空问中的相对位置来决定。相似度计算函数有很多种,较常用的是两个向量夹角的余弦函数。 文档和提问的相似度值由以下公式获得:djq15一个例子查询q:(,)文档d1:(,)文档d2:(, )16一个例子查询和文档进行向量的相似度计算:采用内积 文档d1和q的内积:1*1+3*2=7 文档d2和q的内积:2*2=4夹角余弦 文档d1和q的夹角余弦: 文档d2和q的夹角余弦: 17VSM优缺点优点:简洁直

8、观,可以应用到很多其他领域(文本分类、生物信息学),邮件过滤系统spamAssass。支持部分匹配和近似匹配,结果可以排序检索效果不错缺点:计算量大标引词的不同位置会代表不同的权重,而不同的关键词长度也会影响权重的大小 标引词之间的独立性假设与实际不符:实际上,标引词的出现之间是有关系的,不是完全独立的。 如:“王励勤”“乒乓球”的出现不是独立的。18概率模型基本假设前提和理论a相关性独立原则。文献对一个检索式的相关性与文献集合 中的其他文献是独立的。b词的独立性。标引词和检索式中词与词之间是相互独立。c文献相关性是二值的,即只有相关和不相关两种。d概率排序原则。该原则认为,检索系统应将文档按

9、照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能 被获取的文档e贝叶斯(Bayes)定理,用公式表示为: P(R I d)=(d I R)P(R)/P(d)19概率模型概率检索模型是通过概率的方法将查询和文档联系起来将查询Q和文档D根据有没有标引词表示为二值向量,Q=q1,q2,,D=d1,d2, ,di=0或1表示文献中没有或有第i个标引词. 用R表示文献相关, 表示文献不相关.20概率模型条件概率P(R|dj )表示文档 dj与查询qi相关的概率,条件概率P( |dj)表示文档dj与查询qi不相关的概率,利用它们的比值计算文档与查询的相似度。若P(R I d) P( I d),即比值大于1,则文献相关程度大于不相关程度,认为文献d是相关的,否则认为文献d不相关。在两者相等时,人为地认为它是不相关的。21概率模型优缺点优点a.采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行检索决策;PubMed的related articles 。b.采用相关反馈原理c.在其中没有使用用户难以运用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论