第2章 信息检索原理与技术_第1页
第2章 信息检索原理与技术_第2页
第2章 信息检索原理与技术_第3页
第2章 信息检索原理与技术_第4页
第2章 信息检索原理与技术_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1信息检索的概念与类型2信息检索的途径3信息检索技术4信息检索方法5信息检索检索步骤与策略第2章信息检索原理及技术方法1信息检索的概念与类型1.1信息检索的概念1.2信息检索的类型1.3信息检索的流程广义:信息检索包括信息的存储和信息的检索,又称为“信息存储与检索”两个过程:信息组织是依据信息资源的主题内容或者外部特征,将无序的信息资源组织为有序集合的过程。

信息检索是根据检索的要求,从检索系统中检索出相应信息资源的过程。狭义:信息检索是指从存储的信息集合中获取特定所需的信息。1.1信息检索的概念手工信息检索:通过手工方式利用检索工具来处理和查找文献的过程。如:文摘、目录、参考工具书等。脱机批处理信息检索:指定期由专职检索人员把许多用户课题汇总,批量处理提问要求并把结果提供给用户。联机信息检索:用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。光盘信息检索:光盘信息检索又称光盘数据库检索,即采用计算机作为手段、以光盘作为信息存储载体和检索对象进行的信息检索,是目前应用较为广泛的一种计算机信息检索。分为单机检索和局域网内的联机光盘检索。网络信息检索:用户在自己的客户端上,通过互联网和浏览器界面对网络信息进行检索。包括对通过网络进行数据库检索。按检索方式划分:手工检索和计算机检索计算机检索又包括脱机批处理检索、联机检索、光盘检索和网络检索。1.2信息检索的类型按检索对象的性质划分:文献信息检索、数据信息检索、事实信息检索。

文献检索:从一个文献集合中查找出专门包含所需信息内容的文献,是以文献为检索对象的信息检索类型。

数据检索:以特定数据为检索对象和检索目的的信息检索类型称为数据检索。

事实检索:是获取以事物的实际情况为基础而集合生成新的分析结果的一类信息检索。1.3信息检索的流程信息存储过程信息检索过程著录标引比较匹配分析选定编制信息资源信息选择收集信息主题数据库记录及信息特征标识信息用户信息需求信息主题检索提问式及提问标识信息检索检索结果评价/反馈检索语言分析不满意满意输出2信息检索的途径信息检索途径是由提取信息源的外部与内部特征形成的,又称为检索点或者检索入口。1.内容特征指由分析构成文献信息源的信息内容要素的特征与学科属性形成的,主要形成分类、主题两种。内容特征途径:从文献包含的信息内容特征来检索信息的途径。2.外表特征指从构成文献信息源的载体、符号系统、记录方式三要素中提取出的特征构成。外表特征途径:利用文献的外表特征来检索文献信息的途径。分类途径主题途径2.1内容特征途径一种按照文献资料所属学科(专业)类别进行检索的途径。检索工具的分类表为我们提供了从分类角度进行检索的途径。是通过文献资料的内容主题进行检索的途径,主题途径依据的是各种主题索引或关键词索引,主题索引或关键词索引按检索词的字顺排列,检索者只要根据课题确定了检索词(主题词或关键词),便可以像查字典那样,按照字顺去逐一查找,从检索词下的索引款目,找到所需文献的线索。《中国图书馆图书分类法》1999年推出了第四版,共分5大部类22个基本大类。22个基本大类是在5在部类的基础上第一次划分得到的,称为一级类目,分别对应一个英文字母;从基本大类起,再连续划分3次,得到二级、三级、四级类目。采用汉语拼音字母和数字相结合的方式对图书进行分类,是目前国内各公共图书馆和高校图书馆普遍使用的图书分类法,我馆藏书也是按照该分类法进行排架。按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。目前常用的分类法有《中国图书馆图书分类法》(简称中图法)、《美国国会图书馆分类法》、《杜威分类法》、《国际专利分类表》。分类途径中图法简表比如H319.4,H表示“英语”大类,319.4代表的是“英语对照读物”中国图书馆分类法样例索书号举例F123.16/W61F123.16-2/Z24/2F123.17/Z89/(2)F123.2/L66-2F12/Y30

专利分类法《国际专利分类表》

《国际专利分类表》(InternationalClassificationofPatentforInvention,简称Int.Cl或IPC)1968年9月1日在国际范围生效,以后每5年修订一次。

《IPC》按照技术主题来设立类目表。首先将与发明专利有关的全部技术领域划分为八个部,部号分别用大写英文字母A到H来表示。各部(Section)按等级形式再细分为大类(Class)、小类(Subclass)、主组(Maingroup)、分组(Subgroup),形成五级分类的结构形式。

《IPC》由9个分册组成,1~8分册分别对应八个部,第9分册是《使用指南》。在《IPC》中,八个部分别是:

A:生活必需

B:作业运输

C:化学与冶金

D:纺织与造纸

E:固定建筑物

F:机械工程;

G:物理

H:电学

用于检索信息的特点具有等级结构,便于扩大和缩小检索范围。用分类号做检索标识,不存在文种的限制。分类表中的类目不能随时变化,不能及时反映新的学科技术,边缘交叉学科只能从学科门类进行检索。隶属于一个门类下,造成漏检。例如:查找“军事”类文献图书期刊分类主题词:以规范化的词汇来表达文献内容的主题的词语。如何提取主题词:词意应该具体意义广泛的词不应作为检索词技术方面的少数课题,可直接用课题名称中包含的具有检索意义的概念或者代码关键词:对表征文献主题内容具有实质意义的或对揭示文献内容来说是重要的、关键性的、只做少量规范化处理或不做规范化处理的自然词语。主题途径1例如:课题是“经济体制改革有关资料(1998-1999),如何确定检索标识?主题词:国企改革、所有制改革、国有资产管理与制度改革、金融改革、社会保障改革、劳动就业改革等。2例如:检索“甲壳素水解制壳聚糖”,如何提取关键词?关键词:甲壳素、水解、壳聚糖、制备题名途径著者途径文献编号途径其它途径2.2外部特征途径是根据文献的题名来查找文献的途径,它依据的是题名索引。是根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。是以编号为特征,编排和检索文献的途径,如专利文献的检索可根据“专利号索引”进行检索。有些检索工具还附有一些特殊索引,可以通过特殊途径找到所需文献的线索。如专用符号代码索引(分子式,元素符号),专用名词术语索引(地名等)。中国现当代文学基础谭浩强机械工业出版社1布尔逻辑检索2截词检索4位置检索常用检索技术3全文检索

计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。检索式(formula,profile,statement)是检索策略的逻辑表达式,是用来表达用户检索提问的,由基于检索概念产生的检索词和各种组配算符构成。3信息检索技术1.布尔逻辑检索逻辑“与”(用and或*表示)逻辑“或”(用OR或+表示)逻辑“非”(用NOT或-表示)1.布尔逻辑检索

在检索实践中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。

用and或*表示,是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。在网络搜索引擎中习惯用空格代替。

如查同时含有概念A和概念B的文献,可表示为:“AandB”或“A*B”。检索结果如图所示,图中阴影部分即为同时包含A和B两个概念的命中文献。(1)逻辑“与”AandBAB

用OR或“+”表示,是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。

例如,检索含有检索项A或检索项B的文献,可表示为:“AORB”或“A+B”。检索结果是将含有检索项A的文献集合与含有检索项B的文献集合相加,形成一个新的集合。检索结果如图1-5所示,图中阴影部分即为包含A或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。B(2)逻辑“或”AAorB(3)逻辑“非”AnotBAB用“NOT”或“-”表示,是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。在搜索引擎中,常用“-”号表示。

例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“ANOTB”或“A-B”。检索结果如图所示,图中空白部分即为包含A且排除B的命中文献。在上述逻辑算符中,其运算优先级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(AORD)ANDB,表示先执行“AORD”的检索,再与B进行AND运算。

如:以google搜索工具,检索“重庆除冬季外汽车和可吸入颗粒造成的空气污染状况”。重庆空气污染(汽车+可吸入颗粒)-冬天布尔逻辑检索可以看出,利用上述演算符,组成逻辑复杂的演算方式,对信息资源进行确切的查找。这对于具有海量信息的检索系统中信息资源的查找十分有效。截词检索:指在检索词的适当位置截断,用截断的词的一个局部加上截词符号所进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。是计算机检索系统中应用非常普遍的一种技术,可以作为扩大检索范围的手段,是防止漏检的有效技术,在西文信息检索中,应用更为广泛。

根据检索的需要,截词检索可分为:后截词、前截词、中间截词、前后截词。不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。2.截词检索后截词——即将截词符号置于检索词词干的右方,以允许右方有多个字符的变化,也称为前方一致检索。例1.comput*——computer、computerized、computers、computer-based等的文献。例2.生产?——生产,生产力,生产工具,生产方式等。前截词——即将截词符号置于检索词词干的左方,以允许左方有多个字符的变化,也称为后方一致检索。例1.*ment——attachment、establishment、equipment等例2.?英语考试——四级英语、六级英语、研究生英语考试等前后截词——即同时将截词符号置于检索词词干的左右两侧,以允许两侧有多个字符的变化,也称为中间一致检索。例1.*computer——computer、computers、computerized、microcomputer、minicomputer等词的全部文献记录。例2.?考试?——英语考试、考试试题、计算机等级考试指南等。中截词——即将截词符号置于检索词的中间,以允许检索词中间有多个字符的变化,检索时,只要检索词两侧的字符相同,该词所在的文献即为命中,也称为前后方一致检索。例1.wom*n——women和woman等的文学记录。例2.信息?类型——信息资源类型,信息交流类型等是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法,通常只出现在西文数据库中,在全文检索中较多。不同的检索系统其位置算符的表示方法不尽相同,通常情况下位置算符的用法意义如下:(nW)—nWords(N)—Near(nN)—nNear(S)—Subfield(F)—Field(W)—With位置检索3.全文检索4.位置检索限定了检索词与检索词之间的位置关系

(W)-表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为()。例:Aircraft()design可检索出含有Aircraftdesign的文献记录。Computer()aided()design可检索出含有Computeraideddesign的文献记录。(nW)--表示在此算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。不同的数据库的表示不一样,在EBSCO数据库中用(Wn)。例1:laser(w1)printer可检出含有laserprinter和lasercolorprinter的文献记录。(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。例如:computer(N)network可检出含有computernetwork、networkcomputer形式的文献记录。(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。例如computer(2N)system可检出含有computersystem,computercodesystem,computeraideddesignsystem,systemusingmoderncomputer等形式的文献记录。(S)表示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。在文摘字段中,一个句子就是一个子字段。例如computer()control(s)system可检出文摘中含有“Thispaperisconcernedwithanapplicationofthecomputercontroltechniqueinaintelligentsystemfortestinginnerwallsofpipes.”这样一句话的文献记录。(F)表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序和相对位置的距离不限。例如:water()pollution(F)control表示在同一个字段中(如篇名、文摘、叙词等)同时含有waterpollution和control的文献记录均可检索出来.

通过规定检索范围,针对性的选择相应的对象检索。如:(以搜索引擎Google为例来讲)

1规定检索对象是网站还是网页2规定检索的对象是文摘、题名等3检索的语言、地区、时间等4检索对象的范围,如新闻、产品、教育、政府等5根据检索对象的学科分类5.限定范围检索4信息检索的方法信息检索的方法是根据检索课题的需要与检索系统的现状灵活选定的。4.1常用法又称直接法,是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。根据具体的检索需要,可分为3种情况:顺查法、倒查法和抽查法。4.2追溯法4.3综合法顺查法含义:按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。优点:漏检,误检率低缺点:但劳动量较大。重点:能收集到某一课题的系统文献,用于较大课题的文献检索。优点:可以最快地获得新资料,概括了前期的成果,反映了最新水平和动向,这种方法劳动量较小。倒查法含义:是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献信息检索的方法。重点:在近期文献,只需查到基本满足需要时为止。可用于新课题立项前的调研缺点:容易造成漏检。抽查法重点:适合于检索某一领域研究高潮很明显的,某一学科的发展阶段很清晰的,某一事物出现频率在某一阶段很突出的课题。含义:抽查法是针对检索课题的特点,选择有关该课题的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。优点:花费较少时间能查得较多有效文献的一种检索方法。

含义:指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追朔查找“引文”的一种最简单的扩大情报来源的方法。

优点:它还可以从查到的“引文”中再追朔查找“引文”,依据文献间的引用关系,获得越来越多的内容相关文献。这些内容相关的文献反映着某一课题的立论依据和背景,也在某种程度上反映着某课题或其中的某一观点,某种发现的发展过程。

缺点:原文著者引用的参考文献是有限的,误检,漏检的可能性大。4.2追溯法

含义:又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追朔检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足为止。因为参考文献一般都是引用5年以内的重要文献,所以交替期可定为5年。

优点:综合法兼有常用法和追朔法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法,尤其适用于对那些过去年代内文献较少的课题。4.3综合法5信息检索的步骤与策略

信息检索是根据即定的课题要求,利用检索工具(或系统),按照一定的方法和步骤把符合需求的文献挑选出来的过程。

检索步骤:

1、分析研究课题,明确文献需求2、选择检索工具,确定检索方法3、确定检索途径和检索标识4、优化检索提问与策略5、分析检索结果6、索取原文1、分析研究课题,明确文献需求(1)明确检索目的(2)明确课题的主题或主要内容(3)课题涉及的学科范围(4)所需信息数量、语种、年代范围、类型等具体指标。例:我们要查找关于“纳米氧化铝制备技术”方面的资料。

在着手检索前,要明确检索目的,了解检索课题的内容及性质,明确学科或专业范围等。最后分析哪些是已知检索线索,了解和掌握有关学科的专家学者以及研究机构等目前的有关课题,为检索提供充分而有利的条件。经过分析得知,纳米功能氧化铝的制备技术涉及的主题概念有:纳米、超细材料、氧化铝、制备工艺。2、选择检索工具,确定检索方法

通常可采用两种方法:一是浏览图书馆检索工具室内陈列的全部检索刊物,从中挑选确定;二是通过查阅国内外出版的检索工具指南,从中挑选确定。为了迅速,准确地查找文献,还必须针对某一课题的具体情况选用适宜的检索方法,是使用常用法,综合法,还是使用其它方法,这些都是应该在检索前确定下来。

我们可选择如下检索工具:手工检索工具:《中国机械工程文摘》《中国学术期刊文摘》《有色金属文摘》《中国化学文摘》《中国物理文摘〉

网络数据库:《中国期刊全文数据库》《CNKI》《中文科技期刊数据库》《维谱资讯》《万方数据资源系统》3、确定检索途径和检索标识

文献检索可以利用文献的内容特征和外表特征。当我们拿到一项课题后,具体先用哪一条或哪几条检索途径,这需要从课题对文献本身的特定要求和已掌握的线索而定。1.如系统查找某一课题的文献资料,一般应选择内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论