第四章 信息检索模型_第1页
第四章 信息检索模型_第2页
第四章 信息检索模型_第3页
第四章 信息检索模型_第4页
第四章 信息检索模型_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索系统的形式化表示信息检索系统的形式化表示D, Q, F, R( di, q )D 文档集合的机内表示文档集合的机内表示lD=d1, d2 , , dml为了满足检索匹配所要求的快速与便利,文档为了满足检索匹配所要求的快速与便利,文档di通常由通常由从文档中抽取的能够表达文档内容的特征项(如索引从文档中抽取的能够表达文档内容的特征项(如索引项项/检索词检索词/关键词)来表示关键词)来表示l设设K=k1, k2 , , kn 为系统索引项集合为系统索引项集合则则di =i1,i2 , ,in (ij0)ij索引词索引词kj在文档在文档di中的重要性(权值中的重要性(权值weight)信息检

2、索系统的形式化表示信息检索系统的形式化表示Q用户查询的机内表示用户查询的机内表示l用户需求的各种状态用户需求的各种状态 潜在的真实需求(潜在的真实需求(Real Information Need,RIN) 意识到或感知到的需求(意识到或感知到的需求(Perception Information Need,PIN ) 表达出的需求(表达出的需求(Request)l用户查询(用户查询(Query) 用户查询一般采用与文档类似的形式化表示用户查询一般采用与文档类似的形式化表示F 文档与查询查询之间的匹配框架文档与查询查询之间的匹配框架R(di, q)R(di, q)文档与用户查询之间相关度计算函数文

3、档与用户查询之间相关度计算函数R(di, q)R(di, q)结构化文本模型结构化文本模型集合论模型集合论模型文文本本检检索索模模型型非重叠链表模型非重叠链表模型邻近节点模型邻近节点模型布尔模型布尔模型向量模型向量模型概率模型概率模型浏览模型浏览模型超文本模型超文本模型基于本体的模型基于本体的模型经典模型经典模型超文本模型超文本模型知识检索模型知识检索模型扩展布尔模型扩展布尔模型模糊集合模型模糊集合模型广义向量模型广义向量模型潜语义标引模型潜语义标引模型神经网络模型神经网络模型推理网络模型推理网络模型信任度网络模型信任度网络模型语言模型语言模型代数模型代数模型概率模型概率模型信息检索模型的类型

4、信息检索模型的类型最早的最早的IR模型模型l1957年,年,YBar-Hille就对布尔逻辑应用于计算就对布尔逻辑应用于计算机信息检索的可能性进行了探讨机信息检索的可能性进行了探讨目前仍然应用于商业系统中目前仍然应用于商业系统中典型系统:典型系统:Lucene不相关和查询,表示文献,此时相关和查询,表示文献,此时QDQQQDQQQDSimjijij01),(无法体现文档之间的细微差别无法体现文档之间的细微差别相关度的大小只有两个值,模型这种相关度的大小只有两个值,模型这种“非此即彼非此即彼”的二值判断标准无法区分文档相关度大小的细微差的二值判断标准无法区分文档相关度大小的细微差别别向量空间模型

5、(向量空间模型(Vector Space Model,VSM)是由是由GSalton等人在等人在1958年提出的年提出的代表系统代表系统lSMART( System for the Manipulation and Retrieval of Text)这一系统理论框架到现在仍然是信息检索这一系统理论框架到现在仍然是信息检索技术研究的基础技术研究的基础文档文档提问提问关键字的权重矢量关键字的权重矢量关键字的权重矢量关键字的权重矢量匹配匹配检索到文献检索到文献ld1 :土豆的美容功效:土豆的美容功效ld2 :土豆的栽培:土豆的栽培ld3:土豆的后期加工:土豆的后期加工lK=土豆、美容、栽培、加工土

6、豆、美容、栽培、加工体系结构体系结构总线总线计算机计算机数据库数据库.XML计算机科学计算机科学文档集文档集文档集中的索引项文档集中的索引项这些索引项是不相关的这些索引项是不相关的 (或者说是正交的或者说是正交的) ,形成一个向量空间,形成一个向量空间vector space文档向量空间的表示文档向量空间的表示:文档文档D1(W11,W21,Wn1)查询查询Q(W1q,W2q,Wnq)文档文档D2(W12,W22,Wn2)特征项特征项1特征项特征项2特征项特征项3文档向量空间模型:文档向量空间模型:文档和文档之间的相似度文档和文档之间的相似度Sim可以表示如下:可以表示如下:nknkjkikn

7、kjkikjiDWDWDWDWDDSim11221) )()()()(cos),(titiiqijtiiqijjWWWWQDSim11221) )(cos),(文档和查询之间的相似度文档和查询之间的相似度Sim可以表示如可以表示如下:下:文档文档D1=2K1+3K2+5K3查询查询Q=0K1+0K2+2K3文档文档D2=3K1+7K2+K3特征项特征项1特征项特征项2特征项特征项313. 0591)2()173 (210703),(81. 0385)2()532(250302),(2222222221QDSimQDSim文档中关键词的权重文档中关键词的权重两方面因素两方面因素l词表达文档内容的

8、能力词表达文档内容的能力 tfij关键词的词频(关键词关键词的词频(关键词tj在文档在文档di中的频率)中的频率)l词区分其所在文档与其它文档的能力词区分其所在文档与其它文档的能力 dfj 关键词的文档频率(包含关键词关键词的文档频率(包含关键词tj的文档数量)的文档数量)ltf-idf(词频(词频-逆文档频率)公式逆文档频率)公式Idf计算示例计算示例相似度计算相似度计算相似度是一个函数,它给出两个向量之间相似度是一个函数,它给出两个向量之间的相似程度,查询式和文档都是向量,各的相似程度,查询式和文档都是向量,各类相似度存在于:类相似度存在于:l两个文档之间(文本分类,聚类)两个文档之间(文

9、本分类,聚类)l两个查询式之间(常问问题集)两个查询式之间(常问问题集)l一个查询式和一个文档之间(检索)一个查询式和一个文档之间(检索)人们曾提出大量的相似度计算方法,因为人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。最佳的相似度计算方法并不存在。tk1内积的特点内积的特点内积值没有界限内积值没有界限l不象概率值,不象概率值,要在要在(0,1)之间之间对长文档有利对长文档有利l内积用于衡量有多少词项匹配成功,而不计算内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败有多少词项匹配失败l长文档包含大量独立词项,每个词项均多次出长文档包含大量独立词项,每个词项均多次出

10、现,因此一般而言,和查询式中的词项匹配成现,因此一般而言,和查询式中的词项匹配成功的可能性就会比短文档大。功的可能性就会比短文档大。余弦向量度量法余弦向量度量法用向量夹角的余弦值表示向量的相似度用向量夹角的余弦值表示向量的相似度夹角余弦值越大,相似度越高夹角余弦值越大,相似度越高其实质是利用向量长度对内积进行归一化其实质是利用向量长度对内积进行归一化2t3t1t2D1D2Q1Jaccard 系数法系数法二值化的相似度度量二值化的相似度度量实际上,这些词项是相互关联的实际上,这些词项是相互关联的l当你在一个文档中看到当你在一个文档中看到“计算机计算机”, 非常有可能同时看到非常有可能同时看到“科

11、学科学”l当你在一个文档中看到当你在一个文档中看到“计算机计算机”,有中等的可能性同时看到有中等的可能性同时看到“商务商务”l当你在一个文档中看到当你在一个文档中看到“商务商务”,只有很少的机会同时看到,只有很少的机会同时看到“科学科学”扩展布尔模型扩展布尔模型扩展布尔模型扩展布尔模型布尔过滤布尔过滤排序排序布尔查询式布尔查询式向量空间模型向量空间模型查询式查询式文档文档结果结果如果忽略布尔关系的话,向量空间查询式和布尔如果忽略布尔关系的话,向量空间查询式和布尔查询式是相同的查询式是相同的(0,0)B(1,0)A(0,1)C(1,1)D(x,y) 在传统布尔模型中,在传统布尔模型中,(0,1)

12、、(1,0)、(1,1)几个点几个点的相关度都是的相关度都是1,扩展模型中将它们加以区分,扩展模型中将它们加以区分,体现为体现为“所有词都出现比只出现几个词更有价所有词都出现比只出现几个词更有价值值” 一个文档在一个文档在(1,1)处获得最高的权重处获得最高的权重,此时意,此时意味着文档包含了全部两个查询词,并且查味着文档包含了全部两个查询词,并且查询词在文档中的权重也是最高的询词在文档中的权重也是最高的 函数函数sim()度量了从原点出发的文档向量度量了从原点出发的文档向量长度,长度,距离越大,相似性越大。距离越大,相似性越大。(1,1)wx,jwy,j(1,0)(0,1)(0,0)最期望的

13、点dx y在传统布尔模型中,在传统布尔模型中,(0,1)、(1,0)、(0,0)几个点的相关度都几个点的相关度都是是0,扩展模型中将它们加以区,扩展模型中将它们加以区分,体现为分,体现为“出现几个词总比出现几个词总比一词都不出现更有价值一词都不出现更有价值” 函数函数sim()度量了点度量了点(wx, wy) 到点到点(1, 1)的距离。距离越小,的距离。距离越小,相似性越大。相似性越大。(1,1)wx,jwy,j(1,0)(0,1)(0,0)估计估计R的特征的特征进行检索进行检索用户判断用户判断RR)()|()()|()|()|(),(RPRDPRPRDPDRPDRPQDSimjjjjj)|

14、()|(),(RDPRDPQDSimjjj)|()|()|()|(),(0)(1)(0)(1)(RKPRKPRKPRKPQDSimiDgiDgiDgiDgjjijijiji)|()|(1log)|(1)|(log),(1RKPRKPRKPRKPWWQDSimiiiitiijiqjNnRKPRKPiii)|(5 . 0)|()|(RKPi)|(RKPiVNVnRKPVVRKPiiiii)|()|(15 . 0)|(15 . 0)|(VNVnRKPVVRKPiiiii1)|(1)|(VNNnVnRKPVNnVRKPiiiiiii概率模型小结概率模型小结优点优点l有严格的数学理论基础有严格的数学理论基础l采用相关反馈原理,可以开发出理论上更为坚实的系统采用相关反馈原理,可以开发出理论上更为坚实的系统l文档可以按照他们相关概率递减的顺序来排序文档可以按照他们相关概率递减的顺序来排序缺点缺点l开始时需要猜想把文档分为相关和不相关的两个集合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论