



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、计算机检索的步骤和方法一、明确检索要求和检索目标计算机检索的第一步准备工作是明确检索要求和检索目标。明确检索要求就是要搞淸楚本课题属于什么学科,所需文献的类型及语种,査找文献的年代, 所需文献的最佳篇数,允许支配的检索费用。这些要求对选择数据库、构造检索策路都是十 分重要的。确泄检索目标也是进行讣算机信息检索前应搞淸楚的准备工作。例如:如果属于开题训研, 则应尽可能地检索岀与之相关的全部文献,即要求较高的查全率:以便充分地做好开题的准 备工作;如果属于探索性、开创性的课题,则只需要査岀一些启发性的文献,对查准率和查 全率要求都不一定有很高的要求。二、课题分析1. 课题概念的分析方法分析课题就是
2、分析出课题所涉及的主要概念,并找出能代表这些概念的若干个词或词组,进 而分析概念之间的上、下、左、右关系。对于新学科、交叉学科和边缘学科的课题,则要搞 清楚这些概念之间的关系。槪念分析的结果应以槪念组为单元的词或词组的形式列岀,以便 下一步制订检索策略时使用。2. 隐含概念的分析方法有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容 需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。例 如:社会保障包含养老保险、失业保险、医疗保险和社会救济等槪念,如果要检 索社会保障方而的文献,应该析出上述概念,才能保证文献的查全率。3. 核心概念的选
3、取有些检索词中已经含有的某些概念,在槪念分析中应予以排除。例如:课题公司劳动奖励、 职工培训和养老保险制度管理的理论和实践,如果把劳动奖励,职工培训,养老保险 ,”公司,制度,管理六个概念全部组配起来,则会造成大量文献漏检。实际上,劳 动力资源管理已经包含了劳动奖励、职工培训和养老保险三个方而,而且,劳动力管理必然 是针对该三个方而而言的。因此,本课题只须采用劳动力资源和管理这两个本质概念即 可。3 if*U; Bt初科技滋啊刚悄息中心6捋制先论5;呵 广期 中PI科学Et爲统斛学酬刘ft等7 ir ItHWIJvIqIiir rf* JtSC TMil wfl rf? 5p I K III
4、I lU I C/1| If* u fc * i I tt It 4 Itl 0 KiVJc I y Jr *w * I 2了令 |* w I * I.9段式识屯仃人gg为了提髙文献的査准率,应该从相应的规范词表中选择所需的检索词。并且在确左检索词时, 除了要考虑反映主题概念的同义词、近义词等相关的检索词外,还要注意选择被选用检索词 的缩写词和不同拼法的词,以避免漏检有关的文献。三、检索词的扩展、选择和处理目前的计算机信息检索系统,还不具备智能思考的能力,还不会对所输入的检索词以及涉及 的所有词进行自动、全面的检索,因此,必须在槪念分析的基础上列岀与概念有关的词,从 中做岀选择,并利用截词等方
5、法对检索词予以归并。1. 相同概念的检索词的扩展扩展相同概念的检索词的方法一般有同义词方法、主题词表方法和截词方法(1) 同义词方法。在同一概念的范畴内,从语言角度,选择不同的名称、不同的拼写方 法和单复数形式。不同的名称包括学划和俗名、简称和全称,商品名和物质或产品名,事物 的代码和事物的学名。不同的拼写方法,以英语为例,包括英式英语和美式英语的区别。(2) 截词方法。当某些检索词词干相同、词义相近,但词尾或词中间有变化时(多数英语 单词的单复数变化和英美不同拼写形式),可以采用截词方法扩展检索词。这种方法要求在 词干后使用截词符。截词符一般包括?和*两种。具体采用什么形式,各个系统都有明确
6、 的规定。例如:在DIALOG系统中,截词符号有无限截词算符(?)和有限截词(?和 ”?? ?)等多种,?有时还用做字符屏蔽符。(3) 主题词表方法。许多数拯库都编有自己的主题词表。在数据库编有主题词表的情况 下,应该尽量从词表中选择检索词。使用主题词表,不仅可以使检索词更加规范,提高检索 结果的准确性,而且可以从同族词中选取更多的上位词、下位词、相关词,使获得的检索结 果更为理想。2. 检索词的选择和处理运用上述方法得到的词,首先应加以选择,并且注意选用本专业通用的术语(应避免使用冷 僻词和根据中文术语自译生造的词),然后以概念为单位,构成组面(facets) o例如:课题 东西方社会保障制
7、度比较研究的槪念组面和检索词为:概念组而1:社会保障social security概念组面2:制度研究system? Research四、数据库的选择不同数据库的学科范围不同,检索指令不同,收费的标准也不同。所以,在检索之前应该阅 读有关数拯库的使用介绍.以便选择数拯库时做到心中有数。选择数据库,我们一般应该遵循以下几条原则:1. 按照课题的检索要求和目的,选择收录文献种类多、专业覆盖面宽、年代跨度对口的数 据库;2. 肖需要查找最新文献信息时,选择数据更新周期短的数据库;3. 当还需要获取原文时,选取原文获取较容易的数据库;4. 在同时有多个数据库可供选择的情况下,应首先选择比较熟悉的数拯库
8、。5. 当几个数据库的内容交*重复率比较髙时,应选择检索费用比较低的数据库。五、检索策略构成和调整方法在实际检索过程中,仅需一个检索词就能满足检索要求的情况并不很多。通常我们需要 使用多个检索词构成检索策略,以满足由多槪念组配而成的较为复杂课题的要求。检索策略,又称提问逻辑,就是对多个检索词之间的相互关系和检索顺序作出的某种安排。 构造检索策略就是运用讣算机情报检索系统可以接受的方法,包括布尔逻辑算符、位這逻辑 算符等方法,表达课题检索要求的过程。1. 布尔逻辑算符规泄检索词之间的逻辑关系的算符,称为布尔逻借算符。布尔逻辑算符包括逻辑或(OR)、 与(AND)和非(NOT)。(1) 或(OR)
9、运算符。也可用代替,是用来组配具有同义或同族槪念的词,如同义词、相 关词等。其含义是,检出的记录中,至少含有两个检索词中的一个。OR算符的基本作用是 扩大检索范用,增加命中文献量,提髙检索结果的查全率,OR运算符还有一个去重的功能。 在实际检索中,同一组而中含义相同的词,相互之间都使用OR运算符。另外,在使用截词 方法检索具有相同词干的检索词时,这些词之间也自动地隐含了逻辑或的关系。(2) 与(AND)运算符。也可用*代替,用来组配不同检索概念。其含义是检出的记录必须同 时含有所有的检索词。AND算符的基本作用是缩小检索范国,减少命中文献量,提高检索结 果的查准率。在实际检索中,不同概念组面之
10、间以及同一组而内的不同含义的词之间通常使 用AND算符。(3) 非(NOT)运算符。也可用-代替,但在检索时建议使用NOT,以避免与词间的分隔 符混淆,NOT算符是排除含有某些词的记录的,即检出的记录中只能含有NOT算符前的il靠机核心報卩1存“紹:2001核心. iU滋分仃尤找电、凶;乳兮)Fl动化、鈴分1北乱中ia计篦帆学会等27W北用中IH科学就牧”研丸曲3 it*M研宛与发JW .It*中仪样学瀧什律铁术研Jt所零4 Fl劝化学璋北京中PI科学就尊3计尊也料学FU;女科技:比叽Ji伫0中心6悴制理论马n:.T|广期中国科学就編统科辛骈兄佈等7计界机辆助设计打器形学学炭北中PHI算机会驾
11、8 iiwm i.it讯华北讣那技术呵宛原检索词,但不能同时含有其后的词。NOT算符的基本作用是缩小检索范用,提髙检索结果的査准率.对于一个复杂的逻辑检索式,检索系统的处理是从左向右进行的。在有括号的情况下, 先执行括号内的运算:有多层括号时,先执行最内层括号中的运算,逐层向外进行。在没有 括号的情况下,And、Or、Not的运算次序,在不同的系统中有不同的规左。2. 位置算符位垃算符又称邻接算符(adjacent operators),适用于两个检索词以指左间隔距离或者指左 的顺序岀现的场合,比如,以词组形式表达的概念:彼此相邻的两个或两个以上的词:被禁 用词或特殊符号分隔的词等。位置算符是
12、调整检索策略的一种重要手段。按照两个检索词岀 现的顺序和距离,可以有多种位置算符,而且对同一种位巻算符,检索系统不同,规龙的位 置算符也不同。例如,Compendex光盘数据库使用的位宜算符(N)(表示其两侧的检索词 必须紧密相连,除开空格和标点符号外,不得插入其它词或字母,两词的词序可以颠倒)、 (F)(表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,两词 的词序可以颠倒)、气S)(表示其两侧的检索词必须在同一句子中岀现,两词的词序可以颠 倒)和(W)(表示其两侧的检索词必须紧密相连,除开空格和标点符号外,不得插入其它 词或字母,两词的词序不可以颠倒)四种(如下所列)。
13、(1)(nW)算符:表示两个检索词(关键词.主题词)中间可以插入“十 个词,但他们之 间的顺序不能颠倒,但允许有一空格或标点符号。(2)(nN)算符:表示两个检索词(关键词、主题词)中间可以插入“n”个词,且词序可 以颠倒。(3)(F)算符:表示两个检索词(关键词、主题词)必须出现在同一个字段内,但两词的 词序和中间插入的词数不限。(4)(S)算符:表示两个检索词(关键词、主题词)必须出现在同一个子字段内.但两词 的词序和中间插入的词数不限 注意:在不同的数据库中,位置算符检索功能及算符不同,应参看数据库的使用说明。3字段限制字段限制也是调整检索策略的一种重要的手段。它是限立检索词必须在数据库
14、记录中规怎的 字段范用内出现的文献,方为命中文献的一种检索方法。如果想指泄在题爼等字段中査找所 希望的检索词,就需要使用字段限制。字段限制适用于在已有一左数量输岀记录的基础上, 通过指定字段的方法,减少输岀篇数,提髙检索结果的查准率的场合。由于字段限制采用前 缀和后缀的形式,因此又称为前缀限制和后缀限制。例如Compendex光盘数据库基本字段限 i|算机钱心期刊斯柴和部分檢心樹,名牟门力ft. i初札郁分勇尤找电电伫At兮)自劝化、il l!机卸分X计算机学擢北京中国itWM学金等2软件?报it6(中IH科学紀软件駢允祈3计算机硏宛与跋JK北寂中M科孚浣计尊技术研寛所零4自功化学眾北京中国!
15、学龄尊3 if WHH7 讥国安科技曲如im.E中心6拎的理论与应用广#H中国科学阮条统料学W%ffii7 i| VZUMlWj设计崎啊診学学JH北$中Plil算机学会驾8 il Wl UVI;;HJ北京 华北il稣技术研允魔制的用法是在需要指立字段的检索词后加上后缀运算符/和段码。这个数据库辅助字段限 制的用法是在需要指左字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运 算符上。常用的字段代码有标题(TI)、文摘(AB)、叙词(DE)、识别词或自由词(ID)、作者(AU)、 语种(LA)、刊需(JN)、文献类型(DT)、年代(PY)等。这些限制符在不同的数据库系统 有不同的表达形
16、式和使用规则。4. 截词符检索(Truncation、Wildcard Symbols)利用检索词(关键词、主题词)的词丁或不完整词形进行查找的过程为截词检索。它可以起 到扩大检索范用,提高査全率,减少检索词(关键词、主题词)(关键词、主题词)的输入 量,节省检索时间。尤其在英文检索系统中检索时,若遇到需词的单复数形式,词的不同拼 写法,词的后缀变化时,均可采用此方法。截词的方式有多种,可以分为有限截词、无限截 词和中间截词。(1)有限截词:有限后截词主要用于词的单、复数,动词的词尾变化等。将“n”个截词符 放在检索词(关键词、主题词)的词干或词尾可能变化的位置上。(2)中间截词:一般来说,中
17、间截词仅允许有限截词,主要用于英、美拼写不同的词和单 复数拼写不同的词。例如:wom?n woman women(3)无限截词:截去某个词的尾部,是词的前方一致比较,也称前方一致检索。在检索词(关键词、主题词)干后加1个截词符? ”或“*”。表示该词尾允许变化的字符数不受任何限制。例如:comput* 可检索出 computerx computing、computersx computering、 computeriation等词的记录。任何一种截词检索,都隐含着布尔逻辑检索的或”运算。采用截词检索时,既要灵活、又 要谨慎,截词的部位要适当,如果截得太短(输入的字符不得少于3个),将影响查准率
18、。另 外,不同的检索系统使用的截词符不同、各数据库所支持的截断类型也不同。不一泄能满足课题检索的要求,例如:或者检出的篇数过多,而且不相关文献所占比例很大, 或者检岀的文献数量太少,有时甚至为零,这时就需要调整检索策略。调整检索策略之前,首先要分析造成检索结果不理想的原因。对于输出篇数过多的情况, 应分析是否是由下述原因造成的:选用了多义性的检索词;截词截得过短;输入的 检索词太少;应该使用与(AND)的使用了或(OR);优先运算符”0使用错谋。对于 输出篇数过少的情况,应分析是否是由下述原因造成的:检索词拼写错误;遗漏重要 的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和
19、字段 算符使用的过多;使用过多的与(AND)算符。Fl动化、il耳机卸分1计算机学聊北乱中国计24tJ;t帀個科牛疏牧件硏允曲3计暮机研宛与发腋北寂中国科学浣计尊技术編尢所第4门劝化学菲北京中山科学畝尊3 if K;H7 OK IU .科拉MiMN依.Q冲心6捋制理论仃曲用 广州 中皿糾学BCfWt料*?W%Wt57 i| WUlMlWj设计崎酣彩学学fll北*中卩“打机学会驾8 il BHl UVHJ北乱华4til贰技术研加W9懊式倶解与人I:雹能-针对上述原因,如果是属于需要扩大检索范用,提髙文献査全率,调整检索策略的方法 有:减少与(AND)算符,增加同义词或同族相关词使用逻辑或(OR)
20、将它们连接起来; 在词干相同的单词后使用截词符(?):去除已有的字段限制、位置算符限制(或者改用限 制程度较小的位置算符)。如果是属于缩小检索范弗I,提高文献查准率的,调整检索策略的方法有:减少同义词 或同族相关词;增加限制概念,用逻辑与(AND)将它们连接起来;使用字段限制,或者 限定检索词在指定的基本字段,或者指定的辅助字段出现,限制检索结果的文献类型、语 种、出版国家;使用适当的位置算符;使用非(NOT)算符,排除无关概念。六、输出格式和方式的选择所谓输出格式的选择是对记录字段的选择。所谓输出方式的选择是指对屏幕显示、打印和存 盘的选择。一般情况下,如果输出的是中间结果,属于基本字段的题目仃I)、文摘(AB)、 叙词(DE)和识别词(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/SHPTA 088-2024胶带与标签用高性能热熔胶粘剂
- T/CHTS 10163-2024公路桥梁结构监测系统施工质量检验与评定标准
- 舞台租赁协议模板与舞台设备租赁合同3篇
- 上海安全监理试题及答案
- T/CCOA 68-2023食用植物油中挥发性风味成分测定顶空固相微萃取-气相色谱-质谱联用法
- 2025年茶叶供货合同范文2篇
- 小区幼稚园转让合同8篇
- 聘用外国专家协议书参考6篇
- 高值耗材备货协议书4篇
- 湿式静电除尘器项目绩效评估报告
- 租赁房屋委托书(8篇)
- 医院培训课件:《消毒隔离》
- 人工智能数学基础全套教学课件
- 尿毒症患者的护理健康评估
- 论社会系统研究方法及其运用读马克思主义与社会科学方法论有感
- 钢结构焊接技术的操作技巧与要点
- 《高速铁路客运服务礼仪》试题及答案 项目7 试题库
- 颈内静脉血栓形成的护理查房
- 食堂阿姨培训课件
- (完整版)年产30万吨甲醇工艺设计毕业设计
- 急性左心衰急救情景演练剧本
评论
0/150
提交评论