下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅谈互联网几种信息检索模型比较
一、构建信息检索模型的策略当前,构建信息检索模型的主要策略有以下两个:(一)通用的信息检索模型构建一个通用的信息检索模型,研究优化的匹配算法,提高查询速度、查全率和查准率,最大程度地满足一般用户的查询需求。(二)用户兴趣模型根据特定用户查询兴趣要求构建用户兴趣模型或共同兴趣模型,能够尽可能地满足特殊用户查询的需求。它可以构建一个适合行业或专业应用语义要求信息获取模型。如google就能推断用户的使用意图,提供动态的、即时的用户“个性化定制”信息,帮助用户快速、准确地定位到所需要的信息。二、常用的信息检索相关性算法(一)布尔模型布尔模型是基于特征项的严格匹配模型,文本查询的匹配规则遵循布尔运算的法则。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎则根据事先建立的倒排文件结构,确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。在布尔模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询条件。布尔模型用文档的检索状态值作为一种评价查询和文档相似性的一种方法。这里,首先定义关键词集合S,关键词为t1,t2,…,tn。这些关键词可以和逻辑操作符AND,OR和NOT形成不同的条件查询。如果得到条件表达式的值为True,该文档相对于此条查询的检索状态值为1;如果若干文档相对于此条查询的检索状态值都为1,则可以认为,这些文档与此用户的查询是相关的。布尔模型的主要优点有两点:一是实现起来比较容易,速度快,计算的代价相对较少。二是查询语言表达简单,用户可以使用任意复杂的查询表达式,易于表示同义关系(如:聋教育OR特殊教育)和词组(如:计算机AND基础AND课程改革)。它的缺点是,由于所有检索到的与用户查询条件相关的文档具有相同的检索状态值,则不能对查询结果按照相关性进行排序;另外关键词也没有考虑权重的影响,缺乏定量分析和灵活性以及不能表述模糊匹配。而为了克服布尔型信息获取模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。(二)向量空间模型向量空间模型把信息库中的文本以及用户的查询都表示成向量空间中的点(向量),用它们之间夹角的余弦作为相似性度量。向量空间模型是现在的文本检索系统以及网络搜索引擎的基础。(2)在公式(2)中,文档Di可以用n维的向量表示,其中每个分量表示某一Term在整篇文档中的权重。Q=(q1,q2,…,qn)中ql表示Terml在Q中的权重。向量空间模型的优点在于:1.检索词加权改进了检索效果。2.部分匹配策略允许检索出与查询条件相近的文献。3.可以根据相似度对文献进行排序。它的缺点是,在这种模型中的基本假设,关键词Term向量之间被假设为相互无关的,而实际是有时它们之间大多是依赖关系,如在自然语言中,词或短语之间存在着十分密切的联系。所以这一假设对计算结果的可靠性造成一定的影响。另外,在查询中,也不能像布尔模型一样使用关键词之间的逻辑运算关系。(三)概率模型概率模型主要是基于概率排序原则:即如果文档按照与查询的概率相关性的大小排序,那么排在最前面的是最有可能被获取的文档。它主要针对信息检索中相关性判断的不确定性以及查询信息表示的模糊性。在前面的向量模型中,我们假定关键词Term向量是正交的,不考虑Term向量之间的依赖关系。而在概率模型中,可以通过概率计算表达关键词Term之间,以及关键词Term和文档之间的依赖关系,预测文档与用户查询的相关概率,并可以对获取的结果按照相关度概率的大小进行排序(简称PRP)。概率模型有两个主要的参数:一个文档和用户查询的相关概率Pr(rel)及不相关概率Pr(nonrel),并且Pr(rel)=1-Pr(nonrel)。即Pr[termtindocument|documentisrelevant]=Rt/R(3)Pr[termtindocument|documentisirrelevant]=(ft-Rt)/(N-Rt)(4)其中:R表示与用户查询相关的文档数;Rt表示在相关R中出现关键词Termt的文档数;N表示文档数;ft表示在N个文档中出现关键词Termt的文档数。由式(3)和(4),可以得到:Pr[termtisnotindocument|documentisrelevant]=(R-Rt)/R(5)Pr[termtisnotindocument|documentisirrelevant]=(N-ft-(R-Rt))/(N-Rt)(6)根据上面所给的“条件概率”,可以计算出关键词Termt的权重:(7)在公式(7)中,如果wt>0,表明词Termt出现的文档与用户查询相关;如果wt<0,出现Termt的文档与用户查询无关。概率模型的主要缺点是对文本集的依赖性过强,而且条件概率值很难估计。概率模型的一个特例是贝叶
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电瓶车抵押给个人合同(2篇)
- 二零二四年建筑工程承包合同
- 器械股份协议书范本(2篇)
- 二零二四年度培训合同(职业经理人)
- 二零二四年物联网传感器安装调试合同
- 二零二四年度原料供应与质量保证沥青购销合同
- 农业开发开荒清洁服务合同
- 英文企业贷款合同示例
- 滑雪器材使用管理规范制定合同
- 角钢钢材购销合同
- 锥齿轮设计建议
- 中小学图书馆员业务培训
- 句容辅警考试题库
- 110升压站1#主变就位作业票
- “学、练、赛、评一体化”教学模式下学生核心素养培育模式探究
- 防爆型除湿机施工方案
- 大学语文优质课件《韩孟诗派》
- 部编版语文八年级上册第二单元集体备课
- 软件漏洞整改报告范文
- 机械原理-第4章力分析
- 浙江省衢州市衢江区2023-2024学年六年级上学期11月期中科学试题
评论
0/150
提交评论