第二章 检索模型_第1页
第二章 检索模型_第2页
第二章 检索模型_第3页
第二章 检索模型_第4页
第二章 检索模型_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教学目的和要求:了解几种基本的检索模型第二章检索模型主要内容:一布尔检索模型二Fuzzysets模糊集合模型三向量空间检索模型四概率检索模型信息检索的基本原理信息集合和需求集合的匹配和和选择。(1)信息集合

文献d,标引词k,权重w(2)需求集合潜在真实需求(realinformationneed)意识到的需求(perceptioninformationneed)表达出来的需求(request)系统能够接受理解的需求(query)(3)匹配(函数)信息检索的原理2.1.1概念及原理布尔(Boolean)。布尔检索模型采用布尔代数的方法,用布尔表达式表示用户提问,通过对文献表示与提问式的逻辑比较来检索文献。由于集合的定义是非常直观,布尔模型提供了一个信息检索系统和用户容易掌握的框架。因而得到了广泛的应用。2.1布尔检索模型(1)每个文献用一组标引词表示例如,对于某一特定文献i,可表示为:Di=(T1,T2,T3,…Tm)对于系统索引词集合的每个索引词在一篇文档中只有两种状态:出现或者不出现,布尔模型的基本原理(2)提问式用3种布尔逻辑算符连接而成。逻辑与:and逻辑或:or逻辑非:not布尔模型的基本原理CatCatORDogCatANDDog(CatAND

Dog)(CatANDDog)OR

Collar(CatANDDog)OR

(CollarANDLeash)(CatORDog)AND(CollarORLeash)布尔提问式BooleanQueries(CatORDog)AND(CollarORLeash)下面6篇文献那篇是命中文献123456Cat x x Dog x x Collar x x Leash x x 标引词集合和提问式的匹配优点:用户可以按照自己习惯的思维方式用普通语言进行提问;将复杂的检索过程简单化,能够将检索提问按其概念组面的逻辑关系描述出来,从而变成计算机执行的逻辑运算。自1967年被文献检索系统采用后,逐渐在信息检索系统中得到广泛的世纪应用。2.1布尔检索模型缺点难以构造合适的检索式;容易造成零输出或输出过量;不能区分各组配单元的重要程度;不能按照用户定义的重要性排序输出。2.1布尔检索模型对每一个标引词,都存在一个模糊的文献集合与之相关。同时,对某一给定的标引词,用某种隶属函数去表示每一文献与该词相关的程度,在0-1之间取值。有关标引词的模糊集和是在标引过程建立的。标引员不是简单的把标引词赋予文献,还要指出标引词与文献的相关程度。当全部文献标引完毕后,实际上就已经为每个标引词定义了一种隶属函数,指明了每一文献与每个标引词的相关程度。2.2模糊集合模型提问可以用布尔表达式表示,并指定所需文献对每个标引词的隶属度。检索过程中,模糊集合的运算根据扎德所定义的规则来进行,即将提问式“AANDB”转换为“Wand—Min(a,b)”,“AORB”转换为“Wor=Max(a,b)”。其中a和b分别为词A和词B的权值.Wand和Wor分别为上述两个提问式的权值。“NOTA”或“NOTB”的权值则定义为1-a或1一b。最后,将检索结果按文献的权值排序输出。2.2模糊集合模型最早从事模糊集合模型研究的有C.V.内戈伊塔(Negoita)、V.塔哈尼(Tahani)和T·拉德基(Radecki)等人。内戈伊塔1973年就尝试用模糊逻辑来解释情报检索原理。塔哈尼1976年提出了他的模型。由于系统中标引词集合的容量可能很大,检索过程要处理的项很多。为了节省处理时间,提高响应速度,拉德基等人提出为提问中每个词选定一个阈值A(o≤A≤1),将小于A的项去掉,以简化运算过程。2.2模糊集合模型假设有两篇文献和两个检索词D1={(t1,0.5),(t2,0.3)}D2={(t1,0.9),(t2,0.1)}第一篇文献和第一个检索词的相关度为0.5,和第二个词的相关度为0.3如果要查找t1ort2,那么v(D1)=max(0.5,0.3)=0.5,v(D2)=max(0.9,0.1)=0.9D2会排在d1的前面。如果要查找t1andt2,v(D1)=mix(0.5,0.3)=0.3,v(D2)=mix(0.9,0.1)=0.1D1={(图书馆,.8),(自动化,.4)}D2={(图书馆,.5),(自动化,.6)}提问式=图书馆AND自动化V(D1)=MIN(.8,.4)=.4V(D2)=MIN(.5,.6)=.5D2isrankedbeforeD1intheresultset.请思考这种方式的优缺点1)它与传统的布尔检索关系非常密切,保留了布尔检索功能,且更灵活。所有能支持布尔检索的理论,对它也同样适用。能满足那些既想利用布尔检索的长处又想避免其二值相关性测度的局限性的人的需要。(2)文献可按用户定义的重要程度排序输出。

2.2.2模糊集合模型的主要优点(1)由于它建立在布尔检索的框架内,故它也带有传统布尔模型的某些缺陷。(2)模糊集合的运算规则导致其排序能力不能全面反映标引词的重要程度。例如,AandBD1:(A,0.8)(B,0.1),D2:(A,0.2)(B,0.1),哪篇文献会排到前面?(3)定义隶属函数,也是一个很棘手的问题?大家思考隶属函数可以从哪些方面着手2.2.3模糊集合模型的主要缺点又称为代数模型,是检索系统所有数学模型中最有创造性、最能揭示文献之间的关系。20世纪70年代中期由杰拉尔德.索顿提出了检索系统的代数模型,定义了文献向量、提问向量、文献提问相关系数以及属性-文献相关矩阵、属性相关矩阵、文献相关矩阵等概念。

2.3向量模型2.3.1向量模型的描述1)文档D(Document):也称文献向量,泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)。2)特征项t(Term):也称为属性向量,指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指的检索词。3)文献向量的表示:这样一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了检索字的数量。2.3.1向量模型的描述4)特征项权重Wk(TermWeight):指特征项tn能够代表文档D能力的大小,体现了特征项在文档中的重要程度。这样文档D的向量可以表示为D(wn1,wn2,…,wnm),其中w1,w2,…,wm分别代表文档D特征项t1,t2,…,tn的特征项权重。自动标引中的词语加权方案(1)绝对词频法根据每个词在特定文档(集合)中的出现频次来确定该词重要程度的一种方法,最早有卢恩提出。基本原理给定一个由N篇文档组成的文档集合,计算出每篇文档中每个不同的词的出现次数。把每个不同的词在N篇文档的出现次数相加,得到词K的集合频率。按集合频率递减顺序排列这些词,并确定高频词和低频词的阈值。挑选剩下的中频词作为标引词,并按照他们在相应文档的出现频次确定权重。缺点是什么?(2)逆文档频率法英文InverseDocumentFrequency,基于以下假设:某词的重要性与它在特定文档中的出现次数成正比,与含有该词的文档数成反比。词频加逆文档词频确定权值的方法得到了广泛的应用。2.3.1向量模型的描述根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。2.3.1向量模型的描述5)提问向量:用属性向量表示特定提问式:Q=(q1,q2,…qm),其中qj(j=1,2,…,m),表示提问中含有集合A中属性的程度,规定Q包含属性aj,则qj=1,否则qj=0。2.3.1向量模型的描述6)相似度S(Similarity):指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量,一般使用内积或夹角θ的余弦来计算,两者夹角越小说明相似度越高。2.3.1向量模型的描述图2-1文档相似度表示举例:计算相似度1.00.80.60.40.20.80.60.40.201.0D1QTermBDi=(di1,wdi1;di2,wdi2;…;dit,wdit)Q=(qi1,wqi1;qi2,wqi2;…;qit,wqit)Q=(0.4,0.8)D1=(0.8,0.3)D2=(0.2,0.7)2.3.2向量模型的特点1)优点:更深刻和准确地描述出文献之间的关系;检索基于聚类文档,即通过计算文献之间的相关系数,使属性相似的文献尽量聚集在一起,提高了检索效率;采用部分匹配策略及排序输出原理,提高了检索的灵活性;通过相应反馈技术自动修正提问向量,改进检索结果。2)向量模型的不足:每篇文献主题词数量一致,反映不了文献信息量的差异;提问向量和文献向量一致,不符合用户检索习惯;计算相关系数工作量大,且标引词的权值难以确定;标引词两两正交的假设过于僵硬等。由于向量模型要求条件高,目前使用的并不多。2.3.2向量模型的特点2.4概率模型2.4.1概念及原理利用概率论的原理,通过赋予标引词概率值来表示这些词在相关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问相关的概率。最后系统据此做出检索决策。概率标引理论的基础是对标引词加权并利用权值来计算文献的相关值,即满足给定提问的概率值。发展出三种模型

模型1Maron(马龙)andKuhns(库恩)1960年提出概率标引理论:给定某一文献D,对某一标引词来说,标引员要做这样的判断,如果某一个类型用户B判定D为相关,且在提问式中只用一个词,那他选择该词的概率有多大。

模型2Robertson&SparckJones基本思想:标引阶段不对标引词进行加权,而是在检索阶段才导入概率检索机制。检索作业重复若干次,每重复一次,用户就对检出文献进行相关性判断,然后利用这种反馈信息,根据每个词在相关文献集合和无关文献集合中的分布情况来计算他们的相关概率。模型3同时做出两种预测,标引员选词标引时要预测文献对具有不同特性的用户的相关概率,用户选词检索时也要预测某词对具有不同特性的文献的相关概率2.4概率模型概率检索模型有多种形式,常见的为第二概率检索模型,首先设定标引词的概率值,一般是对检索作业重复若干次,每一次检索用户对检出文档进行相关性判断。再利用这种反馈信息,根据每个词在相关文档集合和无关文档集合的分布情况来计算它们的相关概率,将词的权值设计为:2.4概率模型其中P,P′分别表示某词在相关文档集和无关文档集中出现的概率。某一文档的权值则是它所含的标引词权值之和,于是,文档d与用户查询Q相关概率可定义为:

2.4概率模型其中pw和pw’分别为w在相关文档和无关文档中的概率。上式中右边和式是对所有出现在文档d和查询Q中的词w求和,即w∈d∩Q.概率模型有严格的数学理论基础,采用了相关反馈原理克服不确定性推理的缺点,它的缺点是参数估计的难度比较大,文件和查询的表达也比较困难。2.4概率模型2.4.2特点

(1)概率检索模型的主要优点是:①它显然注意到检索决策是容易出错的,故采用了一种理论上更为严密的方式来进行决策。②它容易与加权方法结合起来,为人们提供了一种理论基础。③它不涉及布尔算符的使用,回避了构造布尔提问式的困难。④文献可按用户的期望值来排序输出。⑤吸收了相关反馈原理,可开发出理论上更为坚实的方法。2.4概率模型(2)它的主要缺陷是:①布尔关系消失了(至少在早期的模型中是如此),“AANDB”和“AORB”被视为等同。②增加了存储和计算资源的开销。。③参数估计难度大。为此,人们提出了各种参数估计技术,如最大阈值估计法、相关反馈原理、最大熵原理等。2.5浏览模型浏览是一种交互检索行为,用户先浏览系统文献,然后决定最终检索结果。对于大多数检索系统,用户在检索时都会表现出浏览行为,而不在乎系统的结构如何。2.5.1含义基于浏览的检索要求用户处于结构化数据库中,用户在对信息理解吸收的基础上对数据库进行浏览。有效的浏览系统数据库应具备几个条件:能使用户把特定的信息需求定位在数据库感兴趣的文献集合中。能使用户在做进一步检索时意识到用合适的方法进行查找。能确保用户快速有效地浏览数据库。2.5浏览模型2.5.2对静态数据库的浏览浏览静态数据库时,要确保数据库结构使用户易于理解且能提供有效的属性特征帮助用户浏览。比如按概念等级或文献登录日期等组织信息。目前比较常用邻近网络相似度的方法,即在数据库中浏览时,先从一个款目开始,然后查找与其相似的其他所有款目,然后浏览最符合要求的信息。2.5浏览模型2.5浏览模型清华同方出品的“中国期刊网”,提供了按相似浏览的功能。这种结构的数据库为用户提供空间角度浏览信息。同传统等级式系统把检索活动仅限于在特定区域相比,该系统允许用户进行多方位浏览。浏览系统要求包含有丰富的交互式词汇及联想词汇以帮助用户获取信息。邻近网络模型通过对数据库中各款目创建网络相关及创建不同网络间相似度来达到丰富交互式词汇及联想词汇的目的。收集的数据有两种形式举例:音像磁带数据库中有著者款目、出版商款目和出版年代款目。其他任何能描述文献对象特征的都能成为一条款目。所有特征款目积聚起来就能构成邻近相关网络。同时每个款目集能形成独立的邻近相关网络。丰富的相关网络集合能提供结构化浏览。适当的网络集设计和相似度度量方法的设计是浏览模型研究的重点。邻近相关网络检索策略弥补了简单检索策略的不足。比如,如果用户同时找到两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论