计算机检索的步骤和方法_第1页
计算机检索的步骤和方法_第2页
计算机检索的步骤和方法_第3页
计算机检索的步骤和方法_第4页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、。计算机检索的步骤和方法一、明确检索要求和检索目标计算机检索的第一步准备工作是明确检索要求和检索目标。明确检索要求就是要搞清楚本课题属于什么学科, 所需文献的类型及语种, 查找文献的年代,所需文献的最佳篇数, 允许支配的检索费用。 这些要求对选择数据库、 构造检索策略都是十分重要的。确定检索目标也是进行计算机信息检索前应搞清楚的准备工作。例如:如果属于开题调研,则应尽可能地检索出与之相关的全部文献,即要求较高的查全率;以便充分地做好开题的准备工作;如果属于探索性、开创性的课题,则只需要查出一些启发性的文献,对查准率和查全率要求都不一定有很高的要求。二、课题分析1.课题概念的分析方法分析课题就是

2、分析出课题所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。对于新学科、交叉学科和边缘学科的课题,则要搞清楚这些概念之间的关系。概念分析的结果应以概念组为单元的词或词组的形式列出,以便下一步制订检索策略时使用。2.隐含概念的分析方法有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。例如:" 社会保障 " 包含 " 养老保险 " 、" 失业保险 " 、" 医疗保险 "

3、 和 " 社会救济 " 等概念,如果要检索社会保障方面的文献,应该析出上述概念,才能保证文献的查全率。3. 核心概念的选取有些检索词中已经含有的某些概念,在概念分析中应予以排除。例如:课题 " 公司劳动奖励、职工培训和养老保险制度管理的理论和实践" ,如果把 " 劳动奖励 " ," 职工培训 " ," 养老保险" , " 公司 " , " 制度 " , " 管理 " 六个概念全部组配起来,则会造成大量文献漏检。实际上,劳动力资源管理已经

4、包含了劳动奖励、 职工培训和养老保险三个方面, 而且,劳动力管理必然是针对该三个方面而言的。 因此,本课题只须采用 " 劳动力资源 " 和 " 管理 " 这两个本质概念即可。为了提高文献的查准率, 应该从相应的规范词表中选择所需的检索词。 并且在确定检索词时,除了要考虑反映主题概念的同义词、 近义词等相关的检索词外, 还要注意选择被选用检索词的缩写词和不同拼法的词,以避免漏检有关的文献。1。三、检索词的扩展、选择和处理目前的计算机信息检索系统, 还不具备智能思考的能力, 还不会对所输入的检索词以及涉及的所有词进行自动、 全面的检索,因此, 必须在概念分析

5、的基础上列出与概念有关的词,从中做出选择,并利用截词等方法对检索词予以归并。1相同概念的检索词的扩展扩展相同概念的检索词的方法一般有同义词方法、主题词表方法和截词方法(1)同义词方法。在同一概念的范畴内,从语言角度,选择不同的名称、不同的拼写方法和单复数形式。不同的名称包括学名和俗名、简称和全称,商品名和物质或产品名,事物的代码和事物的学名。不同的拼写方法,以英语为例,包括英式英语和美式英语的区别。(2) 截词方法。 当某些检索词词干相同、 词义相近, 但词尾或词中间有变化时 ( 多数英语单词的单复数变化和英美不同拼写形式) ,可以采用截词方法扩展检索词。这种方法要求在词干后使用截词符。 截词

6、符一般包括 "?" 和 "*" 两种。具体采用什么形式, 各个系统都有明确的规定。例如:在DIALOG 系统中,截词符号有无限截词算符("?")和有限截词("?"和"? ?")等多种, "?" 有时还用做字符屏蔽符。(3) 主题词表方法。许多数据库都编有自己的主题词表。在数据库编有主题词表的情况下,应该尽量从词表中选择检索词。使用主题词表,不仅可以使检索词更加规范,提高检索结果的准确性, 而且可以从同族词中选取更多的上位词、下位词、 相关词,使获得的检索结果更为理想。2检索词

7、的选择和处理运用上述方法得到的词,首先应加以选择,并且注意选用本专业通用的术语( 应避免使用冷僻词和根据中文术语自译生造的词) ,然后以概念为单位,构成组面 (facets)。例如:课题 "东西方社会保障制度比较研究" 的概念组面和检索词为:概念组面1: " 社会保障 " social security概念组面2:" 制度研究 "system? Research四、数据库的选择不同数据库的学科范围不同,检索指令不同, 收费的标准也不同。 所以,在检索之前应该阅读有关数据库的使用介绍,以便选择数据库时做到心中有数。选择数据库,我们一般应

8、该遵循以下几条原则:1按照课题的检索要求和目的,选择收录文献种类多、专业覆盖面宽、年代跨度对口的数据库;。2。2当需要查找最新文献信息时,选择数据更新周期短的数据库;3当还需要获取原文时,选取原文获取较容易的数据库;4在同时有多个数据库可供选择的情况下,应首先选择比较熟悉的数据库。5当几个数据库的内容交* 重复率比较高时,应选择检索费用比较低的数据库。五、检索策略构成和调整方法在实际检索过程中, 仅需一个检索词就能满足检索要求的情况并不很多。 通常我们需要使用多个检索词构成检索策略,以满足由多概念组配而成的较为复杂课题的要求。检索策略, 又称提问逻辑, 就是对多个检索词之间的相互关系和检索顺序

9、作出的某种安排。构造检索策略就是运用计算机情报检索系统可以接受的方法,包括布尔逻辑算符、位置逻辑算符等方法,表达课题检索要求的过程。1布尔逻辑算符规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。布尔逻辑算符包括逻辑" 或 (OR)" 、" 与 (AND)" 和 " 非 (NOT)" 。(1) 或 (OR)运算符。也可用 "+" 代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其含义是,检出的记录中,至少含有两个检索词中的一个。OR 算符的基本作用是扩大检索范围, 增加命中文献量,提高检索结果的查全率,

10、OR运算符还有一个去重的功能。在实际检索中,同一组面中含义相同的词,相互之间都使用OR运算符。另外,在使用截词方法检索具有相同词干的检索词时,这些词之间也自动地隐含了逻辑"或" 的关系。(2) 与 (AND)运算符。 也可用 "*" 代替,用来组配不同检索概念。 其含义是检出的记录必须同时含有所有的检索词。 AND算符的基本作用是缩小检索范围,减少命中文献量,提高检索结果的查准率。 在实际检索中, 不同概念组面之间以及同一组面内的不同含义的词之间通常使用 AND算符。(3) 非(NOT)运算符。也可用 "-" 代替,但在检索时建议使用

11、 NOT,以避免与词间的分隔符"-" 混淆, NOT算符是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的词。 NOT算符的基本作用是缩小检索范围,提高检索结果的查准率 .对于一个复杂的逻辑检索式,检索系统的处理是从左向右进行的。在有括号的情况下,先执行括号内的运算;有多层括号时,先执行最内层括号中的运算,逐层向外进行。在没有括号的情况下, And、 Or、 Not 的运算次序,在不同的系统中有不同的规定。2. 位置算符。3。位置算符又称邻接算符(adjacent operators),适用于两个检索词以指定间隔距离或者指定的顺序出现

12、的场合,比如,以词组形式表达的概念;彼此相邻的两个或两个以上的词;被禁用词或特殊符号分隔的词等。 位置算符是调整检索策略的一种重要手段。按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一种位置算符, 检索系统不同, 规定的位置算符也不同。例如,Compendex 光盘数据库使用的位置算符"(N)" (表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序可以颠倒)、"(F)" (表示其两侧的检索词必须在同一字段( 例如同在题目字段或文摘字段) 中出现,两词的词序可以颠倒) 、"(S)" (表

13、示其两侧的检索词必须在同一句子中出现,两词的词序可以颠倒)和 "(W)" (表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序不可以颠倒)四种(如下所列)。(1)( nW)算符:表示两个检索词(关键词、主题词)中间可以插入“n”个词,但他们之间的顺序不能颠倒,但允许有一空格或标点符号。(2)( nN)算符:表示两个检索词(关键词、主题词)中间可以插入“n”个词,且词序可以颠倒。( 3)( F)算符:表示两个检索词(关键词、主题词)必须出现在同一个字段内,但两词的词序和中间插入的词数不限。( 4)( S)算符:表示两个检索词(关键词、主题词

14、)必须出现在同一个子字段内,但两词的词序和中间插入的词数不限。注意:在不同的数据库中,位置算符检索功能及算符不同,应参看数据库的使用说明。3字段限制字段限制也是调整检索策略的一种重要的手段。它是限定检索词必须在数据库记录中规定的字段范围内出现的文献, 方为命中文献的一种检索方法。 如果想指定在题名等字段中查找所希望的检索词,就需要使用字段限制。字段限制适用于在已有一定数量输出记录的基础上,通过指定字段的方法,减少输出篇数, 提高检索结果的查准率的场合。由于字段限制采用前缀和后缀的形式, 因此又称为前缀限制和后缀限制。例如 Compendex光盘数据库基本字段限制的用法是在需要指定字段的检索词后

15、加上后缀运算符"/" 和段码。这个数据库辅助字段限制的用法是在需要指定字段的检索词( 有时检索词须放在双引号内) 之前加上段码和前缀运算符 "=" 。常用的字段代码有标题( TI )、文摘( AB)、叙词( DE)、识别词或自由词( ID )、作者( AU)、语种( LA)、刊名( JN)、文献类型( DT)、年代( PY)等。这些限制符在不同的数据库系统有不同的表达形式和使用规则。4. 截词符检索( Truncation 、 Wildcard Symbols )利用检索词 (关键词、主题词)的词干或不完整词形进行查找的过程为截词检索。它可以起到扩大检索

16、范围,提高查全率,减少检索词(关键词、主题词)(关键词、主题词)的输入。4。量,节省检索时间。 尤其在英文检索系统中检索时,若遇到名词的单复数形式,词的不同拼写法,词的后缀变化时,均可采用此方法。截词的方式有多种,可以分为有限截词、无限截词和中间截词。(1)有限截词:有限后截词主要用于词的单、复数,动词的词尾变化等。将“n”个截词符放在检索词(关键词、主题词)的词干或词尾可能变化的位置上。(2)中间截词:一般来说,中间截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。例如: wom?n woman women( 3)无限截词:截去某个词的尾部,是词的前方一致比较,也称前方一致

17、检索。在检索词(关键词、主题词)干后加1 个截词符 “?”或“ * ”。表示该词尾允许变化的字符数不受任何限制。例如: comput* 可检索出 computer 、 computing 、 computers 、 computering 、computeriation等词的记录。任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活、又要谨慎,截词的部位要适当,如果截得太短 ( 输入的字符不得少于 3 个 ) ,将影响查准率。 另外,不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。不一定能满足课题检索的要求, 例如:或者检出的篇数过多, 而且不相关文献所

18、占比例很大,或者检出的文献数量太少,有时甚至为零,这时就需要调整检索策略。调整检索策略之前,首先要分析造成检索结果不理想的原因。对于输出篇数过多的情况,应分析是否是由下述原因造成的:选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用 " 与(AND)" 的使用了 " 或 (OR)" ;优先运算符 "()"使用错误。对于输出篇数过少的情况,应分析是否是由下述原因造成的:检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和字段算符使用的过多;使用过多的" 与 (AND)&quo

19、t; 算符。针对上述原因, 如果是属于需要扩大检索范围,提高文献查全率, 调整检索策略的方法有: 减少 " 与 (AND)" 算符,增加同义词或同族相关词使用逻辑或(OR)将它们连接起来;在词干相同的单词后使用截词符( ? ) ;去除已有的字段限制、位置算符限制( 或者改用限制程度较小的位置算符 ) 。如果是属于缩小检索范围,提高文献查准率的, 调整检索策略的方法有:减少同义词或同族相关词;增加限制概念,用逻辑与(AND)将它们连接起来;使用字段限制,或者限定检索词在指定的基本字段,或者指定的辅助字段出现,限制检索结果的文献类型、语种、出版国家;使用适当的位置算符;使用" 非(NOT)" 算符,排除无关概念。六、输出格式和方式的选择所谓输出格式的选择是对记录字段的选择。所谓输出方式的选择是指对屏幕显示、打印和存盘的选择。一般情况下,如果输出的是中间结果,属于基本字段的题目(TI) 、文摘 (AB) 、叙词 (DE) 和识别词 (ID) 字段是必须的, 这些字段有利于观察结果,对检索策略做进一步调整。5。如果是最终结果,可以根据时间、经费条件选择其中适用的格式。输出方式的选择, 要注意的问题是, 数据库是否只允许打印、 存盘选中的记录; 在选定打印、存盘后,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论