第四章检索方法.ppt_第1页
第四章检索方法.ppt_第2页
第四章检索方法.ppt_第3页
第四章检索方法.ppt_第4页
第四章检索方法.ppt_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章文本信息检索技术与方法,4.1布尔检索,布尔检索主要以倒排档(invertedfile)为基础,通过布尔逻辑算符对检索词(或检索代码)进行组配形成检索式,进而以此检索式作为匹配依据完成对倒排档的匹配处理并获取查询结果。,4.1.1布尔逻辑算符及其运算含义,(1)逻辑或(OR)“逻辑或”一般用符号“OR”来表示,也称为析取联结词,形式上还可以写作“+”。检索词A和检索词B若用“OR”组配,则检索式可以表示为:AORB或者A+B,(2)逻辑与(AND)“逻辑与”一般用符号“AND”表示,也称为合取联结词,形式上还可写作为“*”。检索词A和检索词B若用“AND”组配,则检索式可以表示为:AAN

2、DB或者A*B,(3)逻辑非(NOT)“逻辑非”也称否定联结词,一般用符号“NOT”或“ANDNOT”表示,形式上还可写作“一”。检索词A和检索词B若用“NOT”组配,则检索式可写为:ANOTB或者AB,(4)逻辑异或除以上三种布尔算符外,还有一种逻辑运算操作称作“逻辑异或”,其运算符号为“XOR”(eXclusiveOR的缩写)。严格讲来,XOR不属于基本布尔运算,但在少数信息检索系统中也有应用。检索词A和B若用“XOR”组配,则检索式可写为:AXORB或者AB,4.1.2布尔逻辑算符的使用说明,(1)同级运算自左向右进行;(2)布尔运算AND和NOT先执行,OR其次执行;(3)当检索式含有

3、截词符、位置算符、限制符时,布尔运算最后执行;(4)先括号内,后括号外,具有多层括号时,按层次从内到外逐层进行。,4.1.3布尔逻辑检索式的变换处理,在以布尔模型为基础的信息检索系统中,检索软件需要对用户输入的布尔逻辑检索式进行各种必要的加工和编辑,以满足后续的检索处理要求。,(1)逆波兰变换法,逆波兰变换法又称福岛方法。这种方法投入使用最早,影响最大。其主要的处理思想是:先将检索式(一般为中缀表达式形式)转换成等价的逆波兰式(即后缀表达式形式),然后将逆波兰式翻译形成一组检索指令。,“中缀表示法”:运算符放在两个运算项的中间,(A+B)*C”。逆波兰表示:运算符放在运算项后面。AB+C*,1

4、)逆波兰表示法与逆波兰表达式,(2)检索式的逆波兰变化处理,将一个普通的中序表达式转换为逆波兰表达式的一般算法是:首先构造一个运算符栈,此运算符在栈内遵循越往栈顶优先级越高的原则。读入一个用中缀表示的简单算术表达式,为方便起见,设该简单算术表达式的右端多加上了优先级最低的特殊符号“#”。从左至右扫描该算术表达式,从第一个字符开始判断,如果该字符是数字,则分析到该数字串的结束并将该数字串直接输出。如果不是数字,该字符则是运算符,此时需比较优先关系。做法如下:将该字符与运算符栈顶的运算符的优先关系相比较。如果,该字符优先关系高于此运算符栈顶的运算符,则将该运算符入栈。倘若不是的话,则将栈顶的运算符

5、从栈中弹出,直到栈顶运算符的优先级低于当前运算符,将该字符入栈。,准波兰变换法是我国学者针对逆波兰变换对系统内存空间要求过高而提出的一种改进方法。它通过对逆波兰表达式的改写,得到一个检索时所需内存工作区个数最少的后缀表达式,这样的后缀表达式被称为“准波兰式”。创建检索表达式的二叉树表示;比较二叉树中每一层次上的左、右子树是否对称。若不对称,把大的一枝保留或调到左边,小枝保留或调到右边,直到全部结点的左、右子树都这样处理完为止;,(3)准波兰变换法,后续遍历该二叉树,结点的输出序列即为检索式的准波兰式。准波兰变换法可以把内存工作区从7个减少到5个。,4.1.4布尔检索的技术实现,4.2截词检索4

6、.2.1截词的含义及其使用方法(1)含义所谓截词,是指检索者将检索词在他认为合适的地方截断;而截词检索,是用裁断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。,(2)截词的方式按截断的位置来分,截词可分为后截断、前截断、中截断3种类型;按裁断的字符数量来分,可分为有限截断和无限截断两种类型。有限截断是指说明具体截去字符的数量,而无限截断是指不说明具体截去多少个字符。截词符号在各情报检索系统中表示不一,但功能相同。通常用”x”表示无限额断用”?”表示有限截断。,1)后截断:后截断是最常用的截词检索技术。将截词符号放置在一个字符串右方示其右的有限或无限个字符不

7、影响该字符串的检索。,2)前截断:前截断是将截词符号放置在一个字符串左方,以表示其左方有有限或无限个字符。从检索性质上讲,前截断是后方一致检索。在检索复合词较多的文献时,使用前截断较多见。,3)中截断:中截断又称为”通用字符法”或”屏蔽”。这种截断是把截断符号放置在一个检索词的中间。一般地,中截断仅允许有限截断。中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。在可能变化的字母处加一截词符”?”,即可简化输入,提高查全率。,4.3.2限制检索的技术实现,字段检索的技术实现比较简单,只需要在布尔检索的基础上稍作改进即可。具体的改进措施是:对于采用混合型倒排文档的检索系统,在标引处理过

8、程中,不仅要记录下所提取的检索词出现的文献编号,还应该记录该检索词出现的字段位置编号(或代码),以支持检索时的字段位置匹配。在有些检索系统中,采用的是对不同字段信息分别建立各自倒排文档的处理方法,检索时只需要根据用户的查询要求,到相应字段的倒排索引中匹配就可以了,并不需要在标引时作特别处理。,4.4位置检索,4.4.1位置检索的含义及其使用方法(1)含义也称原文检索,是以原始记录中的检索词与检索词间特定位置关系为对象进行运算,寻找符合要求的地结果。通常原文检索运算级别包括以下几种:1)词位置检索,要求检索词之间的相互位置满足某些条件。2)子字段或自然句级检索,要求检索词出现在同一子字段或同一自

9、然句中。3)字段级检索,要求检索词出现在同一字段中。4)记录级检索,要求检索词出现在同一记录中。,词位置检索,常用的位置算符有(W)、(nW)、(N)、(nNW算符是“Word”或“With”的缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排列,而且所连接的词之间除可以有一个空格,或一个标点符号或一个连接号外不等夹有任何其他单词或字母,且词序不能颠倒。该算符的作用与词组等价。如物理(W)化学,检索出来的只会是物理化学,化学物理就不会检索出来。请同学们举其他的例子,nW:表示输入的两个检索词之间可以插入n个单词。比如library(2W)schoolLibraryscienceschoo

10、lLibraryandinformationschool,N算符比W算符要求松,表示前后次序可以颠倒。比如money(2n)supplyMoneysupplySupplyofmoney.,同句、同字段检索同句检索是指要求参加检索运算的两个词之间必须在同一个自然句中出现,其先后顺序不受限制。所用算符为(S),是sentence的缩写。同字段检索是指参加检索运算的若干词必须在同一个字段中,所用算符有“F”和“L”两种。,F算符是Field的缩写,表示在此算符两侧的检索词必须同时出现在数据库记录的同一个字段中,词序可变。字段类型可用后缀符限定。L算符是Link的缩写,它要求检索词同在叙词字段中出现,

11、并且具有词表规定的等级关系。因此可算符只适用于有正式词表,且词表中的词具有从属关系的数据库(或文档)。,4.4.2位置检索的技术实现,(1)与布尔检索的关系以上分别介绍了不同类型的位置检索方法及检索含义。从中不难看出,位置检索实际上只是一种增强的“逻辑与”(AND)检索,因此,位置检索仍然是建立在布尔检索基础上的一种定性检索技术。,4.4.2位置检索的技术实现,(2)特殊情况和要求位置检索要求系统的倒排文档记录必须能全面、详细地提供每个检索词在数据库中每一次出现时的位置及其他信息,具体包括:大小写标识、记录号、字段代码、段落编号、句编号、词位置编号等。,4.5聚类检索,4.5.1基本概念聚类检

12、索概念的提出,起源于向量空间模型理论,是在对文献进行自动标引的基础上,构造文献的形式化表示文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。,4.5聚类检索,4.5.2聚类检索技术实现的算法思想(1)聚类检索技术的实现可以用如下的算法思想进行描述:1)建立检索系统数据库中文档的向量表示,并进行聚类处理,形成聚类文档。根据系统规模的不同,聚类文档中通常包含不同的、一定数量的文档类目,每个文档类目可由一个类向量来代表,而类向量的形成可以采用多种不同计算得到。2)接收用户的检索请求,并将检索请求表示或转换为提问向量。3)确定

13、相似度计算函数,并计算提问向量与聚类文档中各文档类向量之间的相似度。,4)根据系统中预定义的相似度阈值,选择与提问向量相似度值大于阈值的类向量作为下一步进行检索的文档范围,或者,只选择与提问向量相似的类向量中的文档作为继续检索匹配的对象。5)在选中的类向量所包含的文档集合中,逐一计算提问向量与各文档向量的相似度,并将相似度大于指定阈值的文档座位命中结果排序输出。,4.6检索策略,4.6.1含义检索策略:在分析情报提问的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤地科学安排。(陈光祚)检索策略是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。(赖茂生),

14、4.6.2常用计算机检索策略简介,(1)最专指面优先策赂。所谓最专指面优先策略,是指检索时,首先查找所有概念组面中最专指的一个概念组面。然后,再依据用户需求以及初步检索结果,决定是否需要加人其他的概念组面,以及怎样加入其他的概念组面。,(2)最低登录量面优先策略所谓登录量,是指一个索引词在标引中的使用次数。它一般记录在数据库词表中,也可以显示在检索终端设备上。(3)积木型策略积木型策略,是指检索时首先逐个查找各个概念组面,然后再把各个组面组配起来,得到最终的检索结果。,(4)引文珠形增长策略引文珠形增长策略,是首先以一个较为核心的概念组面进行试捡并仔细浏览初步的检索结果,尤其是特别符合用户需要

15、的文献记录,从中选择更多、更合适的检索词补充到检索式中,然后,再浏览命中的文献记录,再从中选择检索词补充到检索式中。如此反复操作,直到得到理想的最终检索结果。(5)逐次分馏策略逐次分馏策略,是指检索时首先建立较大的原始文献集,然后利用各种检索的限制或限定措施,逐步缩小检索范围,直至符合用户需要为止。,4.6.3计算机检索策略的制订和实施,(1)明确信息需求信息需求按范围和程度的不同,可以分为三种类型:对某一课题进行全面详尽的了解,普查型,查全率了解关于某一主题特定方面的文献资料,用于解决研究中的具体问题,攻关型,需要较高的查准率。了解最新的研究方向和研究成果,探索型。新颖性,(2)选择检索系统

16、要考虑所选择计算机检索系统是否包含与信息需求结合紧密,学科专业对口,报道及时,揭示信息内容淮确的数据库以及检索系统的费用是否昂贵,检索功能是否完善辅助服务是否周到等问题。,(3)确定检索词检索词可以分为四类:表示主题的检索词,表示作者的检索词,表示分类的检索词,表示特殊意义的检索词。选词的选择:根据检索课题所涉及的学科专业和技术内容选词。对检索词进行处理,使用主题词表进行比较,选择规范化的词汇,尽量使用国际上通用的词汇,避免使用一词多义的词汇。,(4)构造检索表达式必须遵守概念组配的原则,不能越级组配,避免使组配结果产生多种含义。尽可能将最专指或登录数最小的概念组面放置在逻辑检索式的开头,以便减少系统计算机在执行检索式过程中的运算次数,降低对系统计算机的资源占用从而达到削减检索费用,并提高检索速度的目的。尽量简化逻辑检索式,使之更为清晰。善于利用检索系统和数据库的特性编制检索式。,(5)修改检索策略提问:如果查到的结果特别少,应该怎么做?如果查到的结果太多了,应该怎么做?检索词和检索运算符两个方面进行调整。,本章思考题1已知有A、B、C三个集合,它们之间的关系图示如下。请问图中7个区域的布尔逻辑表达式分别是什么?,2常用的布尔检索式的变换处理方法有哪些?它们各有何

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论