科技文献检索_2计算机信息检索.ppt_第1页
科技文献检索_2计算机信息检索.ppt_第2页
科技文献检索_2计算机信息检索.ppt_第3页
科技文献检索_2计算机信息检索.ppt_第4页
科技文献检索_2计算机信息检索.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,计算机信息检索,教学目的和要求 要求学生了解计算机检索的基本原理和方法,机检服务方式,掌握光盘数据库的检索技能,网络信息检索方面的知识。 主要内容:,第一 节 计算机检索概述 第二节 计算机检索原理和检索技术 第三节 光盘检索 第四节 Internet与信息检索,一、计算机信息检索的定义 二、计算机检索系统的构成 三、数据库 数据库的基本类型(按内容性质分) 数据库的结构:以书目数据库为例,第一节 计算机检索概述,一、计算机信息检索的定义,计算机信息检索就是利用计算机对信息进行存贮与检索。 相对于手工检索,计算机检索无论在检索途径、检索速度,还是在检索范围、检索时差方面,均有很大的优势,因而

2、得到了广泛的应用。,计算机信息检索大体经历了三个发展阶段 (一)脱机检索阶段 从50年代中期到60年代中期。 1954年,美国海军兵器中心首先采用IBM-701型计算机建立了世界上第一个科技文献检索系统,实现了单元词组配检索,检索逻辑只采用“逻辑与”,检索结果只是文献号,1958年,美国通用电器公司将其加以改进,输出结果增加了题名、作者和文献摘要等项目。1964年,美国化学文摘服务社建立了文献处理自动化系统,使编制文摘的大部分工作实现了计算机化,以后又实现了计算机检索。同年,美国国立医学图书馆建立了计算机数据库,即医学文献分析与检索系统,不仅可以进行逻辑“或”、“与”、“非”等种运算,而且还可

3、以从多种途径检索文献。,(二)联机检索阶段,从60年代中期到70年代初。 由于计算机分时技术的发展,通信技术的改进,以及计算机网络的初步形成和检索软件包的建立,用户可以通过检索终端设备与检索系统中心计算机进行人机对话,从而实现对远距离之外的数据库进行检索的目的,即实现了联机信息检索。 这个时期,由于计算机处理功能的加强,数据存贮容量的扩大和磁盘机的应用,为建立大型的文献数据库创造了条件。例如美国的DIALOG系统(DIALOG对话系统)、ORBIT系统(书目情报分析联机检索系统)、BRS系统(存贮和信息检索系统)、欧洲的ESA-IRS系统(欧洲航天局信息检索系统)等都是在此时期开始研制并逐步发

4、展起来的,并且均在国内或组织范围内得到实际应用。,(三)网络化联机检索阶段,从70年代初到现在。 由于电话网、电传网、公共数据通信网都可为情报检索传输数据。特别是卫星通信技术的应用,使通信网络更加现代化,也使信息检索系统更加国际化,信息用户可借助国际通讯网络直接与检索系统联机,从而实现不受地域限制的国际联机信息检索。尤其是世界各大检索系统纷纷进入各种通信网络,每个系统的计算机成为网络上的节点,每个节点联接多个检索终端,各节点之间以通信线路彼此相连,网络上的任何一个终端都可联机检索所有数据库的数据。这种联机信息系统网络的实现,使人们可以在很短的时间内查遍世界各国的信息资料,使信息资源共享成为可能

5、。,二、计算机检索系统的构成,计算机信息检索系统主要由三个部分构成,即硬件部分、软件部分和信息数据库。,(一)硬件部分 主机、外围设备以及与数据处理或数据传送有关的其他设备。 (二)软件部分 计算机软件又称计算机程序,是指控制计算机进行各种作业的一系列指令和进行“人机对话”及各种数据的存贮和传输的“翻译”规则。 (三)数据库 数据库是计算机信息检索的重要组成部分。 1.文献型数据库, 2.数值型数据库。 3.词典型数值库。 4.全文型数据库。,数据库的基本类型(按内容性质分),1、文献型数据库(full text database;bibliographic database) 如:中国学术期

6、刊(光盘版) 2、非文献型数据库(fact database;data database; 概念型数据库、图像型数据库等。) data database:存贮有科学数据,统计资料等数据。 Fact database:存贮有企业名录、百科全书、人名录 等有利用价值的信息。 概念型数据库:存贮有各种名词属于或语言资料,一 般来源于词典等。 图像型数据库:存贮有某些图象信息,如图片、云图、 工程设计图等。,由字段、记录、文档组成 字段:字段的构成=字段标识符+字段值 字段的类型:三种 检索系统存取号AN(Accession Number) 基本索引字段(Basic index fields)如Ti、

7、Ab、De等 ( 表达的文献的内容特征) 辅助索引字段(Addition Index Fields)如: Au、Py、Jn、La、Dt等 ,表达的是文献的外部特征。 常用字段代码及其表示法(见下页),数据库的结构:以书目数据库为例,字段代码 字段名 表示方法 TI Title apple? in ti AB Abstract machine in ab DE Descriptors building in de AU Author au=liu BN ISBN bn=0-5635-0144-4 CC CAL Classification(分类号) cc=921 CD Conference Da

8、te cd=19960501 CL Conference Location(会址) cl=hangzhou CT Conference Title ct=robotics and au tomation CY Conference Year cy=1996 DT Document Type dt=book LA Language la=english PY Publication Year py=1990 SN ISSN sn=1060=9857 SO Source Publication so=power,记录:见下页举例 文档: 根据记录在文档内的组织方式和存取方法,文档分为: 顺排文档(

9、也称主档):按文献存取号先后顺序排列的,相当于检索工具正文部分。 倒排文档:相当于检索工具中根据需要而编制的各种索 引。 数据库是由若干文档构成。,分类号:TH122 文章编号:1004-132X(2003)10-0828-04 著 者:周思柱等 篇 名:金刚石钻头复合片模具设计机理探讨 刊 名:中国机械工程 信息出处:2003.5(10).828831 主题词 :金刚石 钻头 模具 应力 设计,第二节 计算机检索原理和检索技术,一、计算机检索原理 二、计算机检索步骤 三、计算机检索技术 四、检索策略的制定 五、检索举例 六、检索技巧,打开数据库,输入检索提问 (检索式),在索引词典文档中比较

10、和匹配,从记录号倒排文档中调取记录号集合,记录号集合间的逻辑运算,顺排文档中调取记录,输出命中记录,结束检索,记录内容不合要求,重新调整检索策略,篇数不合要求,结果不匹配,重新输入检索标识,另选数据库,关于计算机文献信息数据库的检索原理我们可参考下图:,二、计算机检索步骤,1、分析、理解课题 2、选择检索系统和数据库 3、选择检索词、构造检索式,1、分析、理解课题 (1)了解用户信息需求的目的和意图 目的和意图不同,检索式、范围就不同 (2)分析主题要求 分析检索课题涉及的学科范围、以便选定合适的检索系统和数据库。 分析主题内容:主题的广度和深度。 (3)时间要求,(4)检索效果的要求 即检索

11、结果的查全率、查准率。所需文献的大概数 量是否提供原始文献等。 查全率要求较高时:选择检索词的主题概念范围要宽一些。 查准率要求较高时:选择检索词的主题范围要窄一些,专指度要高一些。 对于同时提供原文:选用全文数据库 (5)检索费用及其他要求:,2、选择检索系统和数据库,光盘检索系统比联机检索系统数据库更新周期长, INTERNET 网上的各种信息查询工具,对网上许多免费的数 据库进行检索和下载。 3、选检索词、构造检索式 (1)检索词:是表达文献信息需求的基本元素,是计算机检索 系统中有关数据库进行匹配的基本单元。 (2)检索式的构造 检索式: 就是指计算机信息检索系统中用来表达检索提问的逻

12、 辑表,由检索词和各种运算符及系统规定的其它组配 符构成。,三、计算机检索技术,1、布尔逻辑检索功能 2、词间位置检索功能 3、截词检索功能 4、字段限定检索功能,1、布尔逻辑检索功能:用布尔逻辑算符来组配检索词以确定文献的命中与否。其算符的相互匹配方式一共有8种。 逻辑与(逻辑乘) 逻辑或 异或关系 “逻辑非”的“逻辑或”关系 “逻辑或”的“逻辑非” 逻辑非 被标引在该词下的,(1)逻辑与(逻辑乘),用运算符号:AND 或 * 连接检索词 例查 “有关计算机在图书馆中的应用”的文献, 检索式=计算机 * 图书馆 例查 “材料的性质” 检索式=材料 * 性质 用文氏图表示:图1-1,(2)“逻

13、辑或”,用运算符号 “OR” 或 “+”连接两检索词 例1 查“苹果或梨”方面的文献 检索式=苹果 + 梨 它在同义词检索中使用,能提高查全率。 例2 查“计算机或机器人”方面的文献 检索式=计算机 + 机器人 用文氏图表示如下:,A OR B,( 3)“逻辑非”,用运算符号“NOT”或“”连接两检索词 A AND NOT B 有的书上也称为“与非”关系,即“逻辑乘”与“逻辑非” 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米甜玉米 例2 查“不是铬合金”方面的文献。 检索式=合金铬 用文氏图表示: 图1-3,A NOT B,(4)“异或”关系,(A OR B )AND NOT (A

14、AND B ) “异或”排除掉的是A AND B部分 例 A=水上运输工具,B=陆上运输工 而“异或”的关系则排除了A AND B的那部分, 即“水陆两栖运输工具”不能被命中。 这同A OR B 是有区别的。 用文氏图表示如下:,(A OR B)NOT(A AND B),(5 )“逻辑非”的“逻辑或”关系,即: NOT A OR NOT B 两检索词的。 例:查除俄文、法文两种文字之外 的其它各语种的文献。 用文氏图表示:图1-5,NOT A OR NOT B,(6)“逻辑或”与“逻辑非”,即:A OR NOT B 检索A 但否定B后的逻辑或, 例:检索焊接(A)方面的资料,但不要技术标准(B

15、)。 这样,结果是“焊接标准”的资料被排除了。 但是其它一切课题的资料(除标准外)的资料均被命中。 用文氏图表示:图1-6 因此,A AND NOT B(即逻辑非) 和A OR NOT B是不同的 其效果相差很远。,A OR NOT B,(7)A即标引在A检索词下的文献,(8)NOT A检索不是检索词A下文献。 总结: 布尔逻辑检索是把任何检索课题加工成可以进行逻辑运算的 表达式, 这是计算机检索的一种被广泛采用的匹配方式。布 尔逻辑运算的优点是简单明确、易于理解、符合人们的思 维习惯。,A,A,NOT A,A,2、词间位置检索功能,文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在

16、检索式中,检索词的相对次序不同,表达的检索意图也不一样,布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词位置关系,易造成误检的不足。,词间位置检索技术就是利用一些特定的位 置算符来表达检索词之间的位置关系,并 且可以不用叙词表而直接使用自由词进 行检索的方法。有的书上还把这种检索称 为原文检索。这种检索在利用TI和AB途径 检索时,对检索质量影响很大。,例:检索“小麦中氨基酸” (determination of amino acids in wheat) 检索式:determination w

17、ith amino acids with wheat 位置算符的应用,能缩小检索范围,提高查准率。,3、截词检索功能,截词运算符号有两个:“?、*” L其在不同系统中表示的含义不同。 L在SPIRS系统(Silver Platter Information Retrieval System是美国著名的学术数据库出版商银盘信息公司的检索系统) 中?为有限截断、*为无限截断; L在中刊库中只有?表示无限截断。 例:1、teen* teen,teens,teenage, teenager等 。 2、teen? Teen, teens,teenage (在词尾加?号,以?号的个数表示词后最多可跟字母的

18、个数),L截词方式有很多,按截词位置可以分为: L前截断(后方一直检索) : ?Chemistry chemistry、biochemistry、 electrochemistry physicochemistry(物理化学)等。 注:在SPIRS系统和中刊库中无 L后截断 (前方一直检索) 例: chem* chemical(化学制品)、 chemism(化学机理)、 chemomorphosis(化学诱变)、 chemosynthesis(化学合成)等。 L中间截断 :wom?n 分别检出了 woman,women两词fib?board 分别检出了 fiberboard,,fibreboa

19、rd两词。,L截词检索在中文数据库中截的是词意, 例:西北? 分别检出了:西北农林科技大学学报、西北园艺、西北纺织学院学报等。 L在外文数据库中截的是词的后缀,截断派生出的词汇和原来的词义基本一致。 例“金属” metal* metal 、metals、metaled、metalist等。 L利用截词检索时,注意截词的部位,一定不能截的太深,否则误检率会很大。,4、 字段限定检索功能,将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。常用的检索符号有: in、=、 例1:English in la 例2: py1992 总结:在一个复杂的检索式中,不仅可以有多个运算

20、符, 也可以使用括号来指定运算的优先顺序、以及体 现概念的完整性。 例3:查“玉米方面的英文”文献 检索式=(maize or zea-mays or corn)in de and(English in la),l 所以,计算机检索就是使用这些检索技术来实现文献情报的有无、多少、异同的比较,以达到检索的目的,在结合使用这些方法的时,一定要注意,每一个概念表达的完整性,注重括号的使用。,四、检索策略的制定:,(一)检索策略:是全盘计划与方案,为了尽 可能不失真地把拥护的信息需求转换成检索系统 允许接受的形式,首先要了解用户的检索目的和 要求,对用户提出的检索课题进行全面的分析研 究,为选择检索词

21、,编写检索式作好准备,然后 根据检索课题的要求选择合适的数据库和检索系 统,开始检索后,要根据检索的具体情况及时调 整检索策略,使检索结果符合用户的要求 。,(1)列出待检课题的学科范围、主题范围等。 (2)确定检索词和词的截断部位,调整词之间的位置关系及组配关系。 (3)选择相关数据库,确定检索途径。 (4)拟定检索式。 (5)实检与反馈调节 。,(二)、选择检索词应注意问题。 (1)该词的所有拼写形式和方法(包括同义词,元素和元素符号、缩写和全称等) (2)该词的广义词、狭义词、相关词及多义词等。 (3)该词的最佳截断部位 (4)应包括那些非主题的词。如;LA ,PY等。 (5)参考有关的

22、叙词表(汉语主题词表),在SPIRS系统中应充分利用INDEX=F5 (检查人名的正确表示方式和检查拼写等)和叙词表THESAURUS=F9(选准同义词和相关词) (6)对于泛指的主题概念词,应选用其包容特性的具体内容来表达:,例:水果贮藏方面的文献 (apple or pear or )and storage 例:哺乳动物胚胎发育方面的文献 (sheep or pig or cow or .)and embryo and development 代替 mammal animal and embryo and development (7)具有层次结构或等级关系的主题概念,应用其包容特性的名称

23、来表达: 例:谷类作物真菌方面的文献 cereal and fungi,(8)当课题面窄,提问专指度高,而数据库中对文献的标引深度可能不足时,对检索词可进行粗化,取其上位检索词 例:玉米同功酶方面的文献: isozymes enzymes (三)、拟定检索式要求: (1)表达课题要求 (2)必须与数据库文献标识相匹配 (3)简单明了,五、检索举例:,例1 检索有关“苹果、梨的植物病理的研究” (用CAB文摘光盘数据库检索该课题)winspirs4.0 在检索提示FIND下输入检索式: #1 fireblight #2 (apple?or malus) in de #3 (pear? or pyrus) in de #4 #2 or #3 #5 #1 and #4 #6 la=english #7 #5 and #6,Firelight and (apple? or malus) in de)or (pear? or pyrus) in de) and (la=english),输出检索结果(show、print、download来进行) 退出系统:按F10后再按QUIT即可。,例2 : 查找“杀菌剂在蔬菜上的残留” 用中文科技期刊数据库 键入检索式: A 主题词:杀菌剂 年代8999 检中20篇 B 主题词: 蔬菜 年代8999 检中1894篇 C 主题词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论