计算机检索基础知识教材_第1页
计算机检索基础知识教材_第2页
计算机检索基础知识教材_第3页
计算机检索基础知识教材_第4页
计算机检索基础知识教材_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机检索基础知识东北大学图书馆1一、计算机检索的概念计算机检索就是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示、下载和打印的过程。广义的计算机信息检索包括两个过程。(1)对原始信息加工处理并存贮在各种信息载体上一是对待加工的信息进行著录,即按一定的规则进行描述,如文献信息的名称、责任者、语种、提要等,以便用户识别信息。二是对待加工的信息进行标引,利用主题词表、分类表等工具,标识出文献信息的内容特征,形成从内容角度查找文献信息的检索点。(2)信息查询过程就是用户对检索需求加以分析,明确检索范围,弄清主题概念,然后用系统语言或自然语言表示主题概念,形成检索标识及检索策略,输入计算机进行查找。这个过程实际上是计算机自动将用户的检索表达与数据库中信息标识进行比较匹配的过程。234567二、计算机信息检索的分类1、按内容和功能划分

参考型数据库以文档的形式组织起来,提供文献的题录、文摘等书目信息。如:OCLC、CSA、EI全文型数据库存储文献全文或其中的主要部分的源数据库。KLUWER、ACM、中国学术期刊网事实型数据库供查询某一客体的基本事实或简况,包括名录、传记等数据库数值型数据库提供各类数值型数据图象数据库以图形、图象为记录单位82.根据检索方式分:

(1)脱机检索(2)联机检索(3)国际联机检索(4)网络检索91、脱机检索是六十年代发展起来的批次检索,用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员在计算机主机旁进行文献检索的一种方式。优点:价格便宜,无网络通讯费,检索费用由用户平摊,随机存储。缺点:一次机会检索,检索结果延误,委托性检索。102.联机检索联机检索是用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需要的文献信息过程。特点:检索的速度快,检索结果可以得到及时修改。缺点:检索费用高。113、国际联机检索该系统是70年代出现的一门现代化情报检索手段,目前已发展到相当高的水平,计算机联机网络和检索终端已遍及世界所有主要国家和地区。特点:(1)可以实现资源共享;(2)检索速度快;(3)信息资源专业化;(4)查全率和查准率较高。12.OCLC:联机计算机图书馆中心,是世界上最大的为读者提供文献信息机构。有60个数据库,提供会议录、工业通告、图书评论等信息。DIALOG有900多个数据库,其中广泛使用的有600多个,内容涉及多个学科领域,文献存储量超过3亿篇。134、网络检索NFSnet(美国国家科学基金会网)于1990年彻底取代了美国国防部的计算机实验网ARPANET而成为internet的主干网,标志互联网时代的真正到来。进入互联网时代,不但计算机及软件技术、数字化技术、信息存贮技术、卫星通信和网络通信技术有了惊人的发展,而且超文本技术、WWW技术、网络浏览等技术为信息的存贮、传播、检索提供了极大的便利。各类文献信息数据库纷纷进入通信网络,众多的局域网、城域网、广域网通过万维网互联,网络上的任何一个终端都可联机检索所有数据库的数据,使信息资源共享得以实现。14这个阶段文献信息数据库不论从种类还是规模上都远远超过了以往各个阶段,全文数据库、多媒体数据库更是其中的佼佼者;文献信息检索不再是单位内部联机检索,价格昂贵的国际联机检索,而是通过各个接入网、交换网检索互联网各结点上的服务器的各类信息。15三、计算机信息检索的服务方式计算机检索系统按其服务功能可分为回溯检索、定题检索、人机对话和联机订购等服务方式。1、回溯检索(RetrospectiveSearching,RS)回溯检索服务是指追溯查找过去的信息,帮助信息用户查找过去几年甚至几十年的文献信息,使用户一次检索就可以全面了解某一课题在某一段时间中的发展情况。回溯检索服务适合申请专利、科研课题立项、科研成果鉴定时的查新,以及撰写综述性论文和编写教材时信息的收集等。162、定题检索(SelectiveDisseminationofInformation,SDI)定题检索服务是根据用户检索课题的内容,一次性输入事先确定好的检索提问式保存在检索系统中,检索系统根据数据库更新周期,定期地对保存的检索提问式进行检索,将检索出的最新文献信息提供给用户。定题检索服务对于长期追踪某一领域的新颖信息很适合。3、人机对话检索这是用户以交互方式直接访问系统及数据库、在线实时进行的检索。用户一旦输入检索提问,计算机检索系统就可立即执行,并在用户终端显示屏上输出检索结果。174、联机订购用户通过联机检索得到的结果一般都是二次文献,如果需要一次文献,可以通过终端联机订购原始文献的复印件或原文。现在多数大型检索系统都提供这项服务。如:OCLC1819五、计算机检索表达式

检索表达式,是计算机检索中用来表达用户提问的一种逻辑运算式。它由检索词和各种布尔逻辑算符、位置算符、截词符、限制符等系统允许使用的各种符号组合而成。1、布尔逻辑算符布尔逻辑算符的作用是把检索词连接起来,构成一个检索式的基本框架。常用的有3种。(1)逻辑与:用AND或*表示用于连接概念交叉和限定关系的检索词,以缩小检索范围,有利于提高查准率。20例:airpollution

ANDcontrol

21(2)逻辑或:用OR或+表示用于连接并列关系的检索词,以扩大检索范围,防止漏检,有利于提高查全率。例如:要检索“太阳”方面的信息

SolarORsun22(3)逻辑非:用NOT或—表示,但在检索词为英文时建议使用NOT,以避免与词间的分隔符“—”混淆。用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念,以提高查准率。例如:energyNOTnuclear23()用布尔逻辑算符组配检索词构成的检索表达式,逻辑算符AND、OR、NOT的运算次序,在有括号的情况下,括号内的逻辑运算先执行,在无括号的情况下,不同的检索系统中有不同的规定。用户需要事先了解检索系统的规定,避免逻辑运算次序处理不当而造成错误的检索结果,因为对同一个布尔逻辑提问式,不同的运算次序会有不同的检索结果。Anot(BORC)AnotBORCABC242、位置算符位置逻辑符的作用是对复合检索词进行加工修饰,限定词与词之间位置关系,可弥补布尔逻辑算符只是规定检索词的范围,使检索结果的查准率提高。位置算符常用的有6种。(1)(W)算符——含义为“with”表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、字母或代码,但允许有空格或标点符号,也可用()表示例如:communication(W)satellite

或“communication()satellite”系统将只检索含有communicationsatellite词组的记录。25(2)(nW)算符——含义为“Word”它允许两词间插入最多为n个其他词,包括实词和系统禁用词,词序不可颠倒。如:“COMMUNICATION(2W)SATELLITE”时,系统将只检索含有communicationsatellite,communicationthoughsatellite,communicationinthesatellite26(3)(N)算符——含义为“Near”

表示两个检索词必须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。(4)(nN)算符——是(N)算符的变形不同之处为允许两词间插入最多为n个其他词包括实词和系统禁用词,且两词的词序可以颠倒27举例说明检索策略为:“COTTON(2N)PROCESSING”时,凡含有cottonprocessing,processingofcotton和processingofEgyptiancotton的文献记录都算命中。28(5)(F)算符——含义为“Field”这个算符表示其两侧的检索词必须在同一字段(文献著录的基本单元,反映文献外部特征或内容特征的某一个项目,如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词项。如:检索策略:POLLUTION(F)CONTROL可查出controlandmanagementofindustrialpollution一检索词在同一题目字段中。29(6)(S)算符——含义为“Sentence”这个算符表示其两侧的检索词必须在同一句子(子字段)中出现,两词的词序可以颠倒。如:检索策略:COMMUNICATION(S)SATELLITE将检出含有communicationsatellite和satellitecommunication词组的记录。303、截词算符它是使计算机保留检索词的相同词干部分,允许检索词可有一定范围的变化。截词符一般有“?”、“*”(不同数据库有不同的截词符)(1)按截断的字符数划分:

有限截词——截词符“?”代表一个字符。如:base?可检索出含有based,bases等词的文献。无限截词——截词符“*”代表任意个字符。如:adsor*可检索出含有adsorb,adsorption,adsorbate等词的文献。31(2)按截断的字符位置划分:前方一致:允许词尾有变化。如“Textile?”可同时检出含有Textile和Textiles的文献。后方一致:允许词头有变化。如“*polymer”可同时检出含有有Homopolymer,Copolymer等词的文献。中间一致:词头、词尾都可变化。如:“*Wave*”可检出含有wave,waves,wavelet,microwave,wavelength等词的文献。中间屏蔽:允许中间的某些字母有变化。如:“Fib??s”相当于查出含有Fibers和Fibres的文献32使用截词应注意的几个问题一是截词符要紧接在词干后面,截词符和词干之间不能有空格。二是避免将检索词的词干截得过短,一般应在三个字母以上。三是截词应该使用得合理。一般不可能出现词尾变化的单词,例如management,protection等,其后不必再使用截词。四是从希望出现的单词中取尽可能多的公共字母作为词干,以提高查准率,比如在对manage,managing,managed,management和manager作截词运算时,词干应使用“manag*”,而不应使用“man*”。

334、限制检索限制检索是通过限制检索范围,达到优化检索结果的方法。限制检索的方式有多种,例如:进行字段检索、使用限制符、采用限制检索命令等。1)字段检索它是把检索词限定在某个/些字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则不中。例如:查找微型机和个人计算机方面的文章。要求“微型机”一词出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中,检索式可写为:microcomputer?/de,ti,abORpersonalcomputer/ti,ab34又如:查找wang

wei写的文章,可以输入检索式:au=wang

wei(有时检索词须放在双引号内)/TI—篇名;如:Scontrol(w)pollution/ti/DE—叙词;如:Saluminumcompounds/de/ID—标引词;如:Ssoap/id/AB—文摘词;如:Scomputer/abAU——作者字段CS——著者单位字段如:CS=JIAOTONGUNIVERSITY352)使用限制符用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。例如:要查找1999年出版的英文或法文的微型机或个人计算机方面的期刊,则检索式为(microcomputer?ORpersonalcomputer)ANDPY=1999AND(LA=ENORLA=FR)ANDDT=Serial363)、使用范围符号如:Lessthan、Greaterthan、Fromto等,例:查找1989~1999年的文献,可表示为:PY=1989:1999或者PY=1989toPY=1999例:查找2000年以来的计算机方面的文献,可表示为computer?ANDGreaterthan199937检索词的扩展方法1.基于同物异名的名称扩展法(1)寻找同一事物的学名和俗名、商品名和代号等如:贸易与商业,便携式录音机和walkman,涉外与对外,刊物与杂志,(2)注意词的全称、简称及缩写字母中国专利库期刊库乙型病毒性肝炎362270

乙型肝炎81536545

乙肝87021444

脱氧核糖核酸2232241DNA7831100162

DNA1268100162

38(3)注意外来词的译写变化化学品:

danning——单宁,丹宁

formalin——福尔马林,福马林,甲醛

aspirin——阿斯匹林,阿司匹林,乙酰水杨酸地名:

Texas——得克萨斯,德克萨斯

California——加利福尼亚,加里福尼亚

SanFrancisco——圣弗朗西斯科,三藩,旧金山波尔兹曼64欧几里德329

玻耳兹曼120欧几里得231

玻尔兹曼238欧基里德5

波耳兹曼12欧几理德3

波尔茨曼2欧氏几何153

Boltzmann755

Euclid

400(注意上例中用英文名检出的中文文献最多!)

39(4)寻找同一事物名称的近义词和反义词如:教学与培训、教育,研究与分析、比较,翻译与直译、意译,美术与艺术,英汉与汉英,检测

testexaminecheck(5)如果是英语,寻找同一事物名词的单复数、不同词性、英美语的不同形式如:cheque与check,colour和color,stock和share等

402.基于内容分析的概念扩展法(1)上位概念扩展法,分析检索对象的学科归属。如:英语与外语,美术与艺术,上海图书馆与公共图书馆,词法与语法、专利与知识产权、继承法与民法、唐诗与古诗、词法与语法等(2)下位概念扩展法,又称概念分析的树形展开法。如:

应用文电阻焊书信

函电

公文点焊缝焊凸焊

41(3)隐含概念扩展法如:“投资管理”的显见主题是“投资管理”,隐含主题还有“投资法规”、“投资法律”。

42检索表达式“吸烟与心脏病的关系”(smok*ORtobaccoORcigarette)

AND

(heartdiseaseORhearttroubleORheartattack)43六、检索途径组配1、高级检索高级检索是可以同时选择多个不同检索途径、输入不同检索条件、两个检索条件的关系可用布尔逻辑算符表示的一种组合检索442、二次检索在简单检索或高级检索基础上开展的、选用新的检索词旨在进一步缩小检索范围进行逐次逼近的检索,称为二次检索。二次检索可以多次使用。45七、计算机信息检索的步骤1分析课题:(1)一般课题概念分析方法;(2)关于隐含概念的分析;(3)核心概念的选取。2选择数据库原则

(1)按照课题的检索要求和目的,选择收录文献种类,专业覆盖面,年代跨度对口的数据库。(2)当需要查找最新文献信息时,选择数据更新周期短的数据库。(3)当还需要获取原文时,选取原文获取较容易的数据库。(4)要选好数据库,就要弄清所选数据库的标引特征,不同检索特点等。463、确定检索途径和检索词检索途径主要根据分析课题时确定的已知条件,以及所选定的检索工具能够提供的检索途径来决定。常用的检索途径有著者、分类、主题、文献题名、文献号、代码、引文、文献类型、出版时间、语种等。检索词是表达文献信息需求的基本元素,是用户输入的检索语词,也是在计算机检索系统中进行匹配的基本单元。检索词的确定要注意以下问题:优先选用主题词,使用该数据库词表中的主题词检索,可以获得最佳的检索效果;选用数据库规定的代码;尽量选用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论