计算机检索2月新版_第1页
计算机检索2月新版_第2页
计算机检索2月新版_第3页
计算机检索2月新版_第4页
计算机检索2月新版_第5页
已阅读5页,还剩87页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1计算机文献信息检索计算机文献信息检索 概论概论陈路平老师主讲陈路平老师主讲(授课新版授课新版3)2016.2.05 2计算机文献信息检索发展简介计算机文献信息检索发展简介 计算机文献信息检索计算机文献信息检索始于始于50年代,年代,1954年美国年美国海军武器实验所(海军武器实验所(NOTS)使用)使用IBM701型电子型电子管计算机建成了管计算机建成了世界上第一个世界上第一个信息检索系统,信息检索系统, 利用利用IBM701型电子管计算机把文献号码和型电子管计算机把文献号码和少量索引词存贮在计算机中,少量索引词存贮在计算机中,(1).检索结果检索结果是是文献号码,后在文献号码,后在1958

2、年经过改进,年经过改进,(2).检索结果检索结果可以是可以是文摘、题录文摘、题录和和作者等项目。作者等项目。3从从20世纪世纪50年代初计算机文献信息检索经历了年代初计算机文献信息检索经历了 以下以下四个四个阶段阶段。1.实验研究阶段实验研究阶段 (1950-1954年年)2.脱机检索阶段脱机检索阶段 (1954-1964年)年)3.联机检索阶段联机检索阶段 (1965-1972年年4.国际网络检索阶段(国际网络检索阶段(1973年年-至今)至今) (一)(一)实验研究阶段(实验研究阶段(1950-1954年)年) 这段时期图书情报界利用计算机进行编制索引、这段时期图书情报界利用计算机进行编制

3、索引、自动分类等研究,其自动分类等研究,其目的目的是使图书馆工作自动化。是使图书馆工作自动化。4(二)(二)脱机检索阶段脱机检索阶段(1954-1964年)年) 这一阶段通过计算机这一阶段通过计算机贮存贮存二次文献二次文献和和收录文献的范收录文献的范围越来越广,如书目索引围越来越广,如书目索引和和累计索引等数据库,用户可累计索引等数据库,用户可以对已存入计算机中以对已存入计算机中文献信息文献信息进行进行定题检索定题检索和和回溯检索回溯检索 当时这种定题检索当时这种定题检索和和回溯检索为回溯检索为脱机检索脱机检索也称为也称为批批处理检索。处理检索。 特点特点:只能由:只能由专业人员专业人员 操作

4、操作 缺点缺点:(1)检索人员为了节约费用,每隔二至三检索人员为了节约费用,每隔二至三周才做一次检索,用户不能及时拿到检索结果。周才做一次检索,用户不能及时拿到检索结果。 (2)批处理检索是一种封闭式检索,用户批处理检索是一种封闭式检索,用户与检索人员之间无任何反馈信息,并无法和计算机对话。与检索人员之间无任何反馈信息,并无法和计算机对话。专业人员专业人员5 (三(三)联机检索阶段)联机检索阶段(1965-1972年)年) 这一阶段,由于第三代集成电路计算机这一阶段,由于第三代集成电路计算机 的产生与发展和高的产生与发展和高密度大容量贮存器密度大容量贮存器-硬磁盘硬磁盘及及磁盘机磁盘机的出现,

5、再加上数字通讯的出现,再加上数字通讯技术的发展和分组交换公用数据通信网的普及,使得情报检索技术的发展和分组交换公用数据通信网的普及,使得情报检索从脱机、批处理阶段从脱机、批处理阶段进入进入联机检索阶段。联机检索阶段。 与与脱机检索阶段相脱机检索阶段相比较比较,联机检索阶段,联机检索阶段具有具有以下以下特征特征: (1)采用大、中型计算机,文献检索)采用大、中型计算机,文献检索 实行分时实行分时 处理,人机可直接对处理,人机可直接对话,能及时得到检索结果话,能及时得到检索结果; (2)终端用户可以检索)终端用户可以检索到到多个文献数据库多个文献数据库; (3)虽然在该阶段出现了计算机网络,但规模

6、不够大,大多是集中式)虽然在该阶段出现了计算机网络,但规模不够大,大多是集中式的,联机检索的,联机检索受到受到地区的限制。地区的限制。 6(四)四)国际网络检索阶段国际网络检索阶段(1973年年-至今)至今) 随着空间技术随着空间技术和和远程通信技术的发展,计算机文献信息检远程通信技术的发展,计算机文献信息检索进入了新阶段,由于卫星通讯技术索进入了新阶段,由于卫星通讯技术和和光纤通讯技术的实用化,光纤通讯技术的实用化,使得计算机文献检索冲破时间和空间的限制,为快速全面地获使得计算机文献检索冲破时间和空间的限制,为快速全面地获取全球性科技文献信息资料提供了非常方便的条件,从而极大取全球性科技文献

7、信息资料提供了非常方便的条件,从而极大地提高了文献资料的可获得性和利用价值,实现文献资料共享地提高了文献资料的可获得性和利用价值,实现文献资料共享性。性。 国际网络检索阶段具有以下国际网络检索阶段具有以下特点特点: (1)最显著特征是网络性质不再是集中式的,而是分布网络结构;)最显著特征是网络性质不再是集中式的,而是分布网络结构; (2)实现了真正意义上的资源共享,任何一个终端上的用户都可检索)实现了真正意义上的资源共享,任何一个终端上的用户都可检索到网络中的任何一个数据库,提高了文献信息的利用率;到网络中的任何一个数据库,提高了文献信息的利用率; (3)计算机储存容量的不断增大,使得文献信息

8、存贮量增多,能节约)计算机储存容量的不断增大,使得文献信息存贮量增多,能节约资金投资。资金投资。 7 信息高速公路信息高速公路 20世纪世纪50年代,美国建成了遍布全国的高速公路网,对加年代,美国建成了遍布全国的高速公路网,对加速美国商品、劳务人员流通发挥了极其巨大的作用,推动了美速美国商品、劳务人员流通发挥了极其巨大的作用,推动了美国和周边国家的经济发展,至今高速公路网仍是美国现代经济国和周边国家的经济发展,至今高速公路网仍是美国现代经济的基础。的基础。1993年克林顿就任美国总统后,提出建立年克林顿就任美国总统后,提出建立“国家信息国家信息基础设施(基础设施(National Inform

9、ation Infrasture)计划)计划”, 简称简称NII。其计划归纳为三点其计划归纳为三点: (1)铺设覆盖美国的光纤网络。铺设覆盖美国的光纤网络。 (2)用光纤网络连接所有的通信系统、计算机资料库和电用光纤网络连接所有的通信系统、计算机资料库和电信消费设施。信消费设施。 (3)让光纤网络能传输视频、音频、数字、图象等多媒体让光纤网络能传输视频、音频、数字、图象等多媒体信息。信息。 信息高速公路信息高速公路主要主要由:由:通信网络、通信设备通信网络、通信设备和和通信资源通信资源三部分组成。三部分组成。 通信网络通信网络和和通信设备通信设备构成构成宽广平坦的路面宽广平坦的路面,信息资源,

10、信息资源就是公路上行驶的车辆就是公路上行驶的车辆,三者构成一个有机的整体三者构成一个有机的整体。8信息高速公路主要由信息高速公路主要由(三部分组成三部分组成)1.通信网络、通信网络、2.通信设备、通信设备、3.通信资源、通信资源、 通信网络通信网络 和和 通信设备通信设备 -构成宽广平坦的路面,构成宽广平坦的路面, 信息资源就是公路上行驶的车辆,信息资源就是公路上行驶的车辆, 三者构成一个有机的整体三者构成一个有机的整体。 信息高速公路将对社会经济,人们的工作和社会模式以及信息高速公路将对社会经济,人们的工作和社会模式以及教育、科研等产生深远的影响教育、科研等产生深远的影响。9计算机检索基础计

11、算机检索基础一、计算机文献信息检索的定义计算机文献信息检索的定义 计算机文献信息检索计算机文献信息检索: 就是利用计算机对信息的存贮和检索。 或者说,利用计算机对信息和数据的高速处理能力来存贮数据,并从中查找、取出数据这样一个过程。 存贮检索检索与10(1)信息信息的的存贮过程存贮过程: 就是将大量分散的文献资料进行收集、整理、评价、选择、标引、编写文摘、著录等,直到输入计算机,建立起计算机可以阅读和分析处理的数据库的过程。 (2)信息信息的的检索过程检索过程: 就是将用户提出的查询要求,赋予一定的检索标识,按照一定的要求输入 到计算机中,由计算机系统对其进行处理,并与已存贮在计算机中的信息进

12、行运算、匹配,最后将检索结果按用户要求输出。11 文献收集文献收集文献加工文献加工 文献输入文献输入数据库数据库计算机文献信息检索系统计算机文献信息检索系统检检索索结结果果提问文献提问文献提问输入提问输入提问表述提问表述用户查询用户查询示意图示意图存存 贮贮 检索检索12二、计算机文献信息检索系统的构计算机文献信息检索系统的构成成 计算机文献信息检索系统计算机文献信息检索系统主要由主要由:计算机硬件,软件,数据库:计算机硬件,软件,数据库构成构成。 (一)(一)硬件硬件 计算机计算机硬件硬件是指进行信息输入、输出、存贮、运算和传递是指进行信息输入、输出、存贮、运算和传递的实体(包括以计算机为中

13、心的一系列机器设备),它可以的实体(包括以计算机为中心的一系列机器设备),它可以是大、中、小型计算机,也可以是微机、打印机及电源设备是大、中、小型计算机,也可以是微机、打印机及电源设备和通信设备及网络系统等,其中影响检索系统功能的是和通信设备及网络系统等,其中影响检索系统功能的是CPU的运算速度,内外存容量。的运算速度,内外存容量。 (二)(二)软件软件 计算机计算机软件软件又叫计算机程序,是指控制计算机进行各种作又叫计算机程序,是指控制计算机进行各种作业的一系列指令和进行业的一系列指令和进行“人机对话人机对话”及各种数据的存贮和传及各种数据的存贮和传输的输的“翻译翻译”规则。计算机软件包括系

14、统软件和应用系统软规则。计算机软件包括系统软件和应用系统软件等。件等。 13(三)电子信息源电子信息源 1、数据库(数据库(Database)- 重点掌握重点掌握 (1)数据库的定义数据库的定义 数据库数据库: 是一种计算机能够阅读并处理的文字型是一种计算机能够阅读并处理的文字型或或数字型数据数字型数据的的集合体集合体。 或者说或者说: 数据库是以特定的组织方式将相互关联的数据集合、数据库是以特定的组织方式将相互关联的数据集合、存贮的总汇存贮的总汇。 计算机文献信息检索系统数据库数据库是一定专业范围内信息记录及其索引的集合体。 一个一个 数据库数据库 相当于相当于 一种一种 书本式书本式 手工

15、检索手工检索工具工具。 数据库记录字段14文献数据库结构文献数据库结构:存取号 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .标题著者刊名 卷期 页码 出版年 类型 文种 主题词 文摘010001010002010003Han qdMa dlHan jsEngEngChina 肿瘤基因心血管neoplasm cancer tumor carcinoma15计算机检索原理计算机检索原理顺排文档顺排文档:数据库中全部记录按一定顺序排列而成的文献记录集合。顺排文档顺排文档(Sequential File)是大量记录)

16、是大量记录(Records)的集合,的集合,按文献纪录按文献纪录入编的存取入编的存取号号从小从小到到大依次排列大依次排列的的目录式文档。目录式文档。它相当于它相当于印刷型手工检索工具的正文题录印刷型手工检索工具的正文题录或或文摘部分。文摘部分。16倒排文档倒排文档:将数据库中记录的全部文献特征特征标识按一 定顺序排列而成的文献记录集合。倒排文档倒排文档(Inverted File) 是是从从顺排文档记录中顺排文档记录中抽出抽出的的每一个每一个文献特征文献特征的标识的标识作为作为存贮单元,存贮单元,并按某种顺序排列并按某种顺序排列(字顺、分类号、(字顺、分类号、序号)排列,同时在每一个标识后面注

17、明相应的文献序号)排列,同时在每一个标识后面注明相应的文献纪录存取号。纪录存取号。不同类型的标识可形成不同的倒排文档,不同类型的标识可形成不同的倒排文档,-如如著者著者倒排文档倒排文档(即著者索引)、(即著者索引)、 主题主题倒排文档倒排文档(即主题索引)等等。(即主题索引)等等。17倒排文档:倒排文档:著者倒排文档著者文种主题词010001010002Ma dlHan jsEngEngChina肿瘤心血管基因Han qd存取号010003 . . . . . . . . . . . . . . . . . . 010001010002存取号010003010001010002存取号01000

18、3主题主题词倒排文档文种文种倒排文档18 数据库是计算机信息检索系统中的重要组成部分数据库是计算机信息检索系统中的重要组成部分,是信息源,是检索的是信息源,是检索的对象。对象。 (2)数据库的结构数据库的结构:(文档文档.、字段字段、) 数据库数据库由由1至至数个数个文档文档构成,构成,文档文档(File)是由存贮在磁)是由存贮在磁带、磁盘或光盘等带、磁盘或光盘等载体上载体上的一条条记录组成。的一条条记录组成。 就就书目数据库书目数据库而言,一条文献记录(而言,一条文献记录(Record)就是一篇)就是一篇文章,一本书或一种杂志文章,一本书或一种杂志 的的 描述体。描述体。 构成构成记录记录的

19、的基本基本单位单位为为字段字段。 记录由一系列记录由一系列字段字段组成,组成,如如主题词、文摘、著者等。主题词、文摘、著者等。 纪录纪录( Records )是数据库中一个完整的信息单元,由)是数据库中一个完整的信息单元,由一系列字段一系列字段(Fields)构成。)构成。-相当于手检工具的题录相当于手检工具的题录或或文摘文摘。 构成记录的基本单位为字段。构成记录的基本单位为字段。19字段字段(Field)是数据库的基本元件)是数据库的基本元件, 也叫数据元也叫数据元(Data Element)。)。 字段字段的实体就是文献著录中的的实体就是文献著录中的“项项”,它反映一条记录,它反映一条记录

20、中中各著录项的属性,各著录项的属性,如如:著者著者项项、篇名、篇名项项、出处、出处项项等。等。有些字段有些字段还被分为还被分为-几个几个子字段子字段(Subfield),), 如如来源(来源(Source)字段,)字段,被划分被划分为为刊名,出版年、页码刊名,出版年、页码等等子字段。子字段。子字段子字段: 刊名,出版年、页码等刊名,出版年、页码等为为子字段。子字段。20字段字段(Fields) 是著录文献各项的名称及其内容,是著录文献各项的名称及其内容,是描述文献内容外特征的各項标识内容。是描述文献内容外特征的各項标识内容。字段字段 相当于题录相当于题录或或文摘中的各項目名称文摘中的各項目名称

21、, 如如: 题名题名(TI)、)、著者著者(AU )、地址地址(AD)、出处出处(SO)、主题词主题词(MESH主要主题词主要主题词(MMH,MJMH)、 关键词关键词(KW)、特征词、特征词(TG)、 出版年出版年(PY)、语种语种(LA)、摘要(摘要(AB)等等。等等。CBMDISC光盘检索光盘检索(CBMLARS的使用的使用)标识符标识符字段名称字段名称 注释注释 属性属性AA 著者文摘著者文摘AB 文摘文摘 AD 地址地址 (第一著者地址第一著者地址)AD1 国省市名国省市名 (第一著者省市名第一著者省市名)AF 原文出处原文出处 (译文原文出处译文原文出处)AU 著者著者CA 索取号

22、索取号 (医情所会议、汇编内部编码医情所会议、汇编内部编码)CN 国内代码国内代码 (国内期刊代码国内期刊代码) 22标识符标识符字段名称字段名称 注释注释 属性属性CL 分类号分类号CT 特征词特征词 FS 资助类别资助类别ID 资助编号资助编号IS ISSN (国际期刊代码国际期刊代码)JC 内部代码内部代码 (医情所期刊内部代码医情所期刊内部代码)LA 语种语种 (缺省值为中文缺省值为中文)MA 会议地点会议地点MH 主题词主题词标识符标识符字段名称字段名称 注释注释 属属性性(MMH) MMH (主要概念主题词主要概念主题词)NI 团体著者团体著者PA 分册分册PG 页码页码IP 期期

23、PP 出版地出版地 (期刊出版地期刊出版地)PY 出版年出版年PT 文献类型文献类型24标识符标识符字段名称字段名称 注释注释 属性属性RF 参文数参文数 (参考文献数参考文献数)(SO) 出处出处 (复合字段复合字段:TA,PY,VI,IP,PG)SU 增刊增刊TA 期刊名称期刊名称 TI 中文题目中文题目 TT 英文题目英文题目TW 关键词关键词 VI 卷卷UI 流水号流水号25 标识符标识符 字段名称字段名称 属性属性 TI Title(篇名) AU Author(著者) AD Address of Author(著者通讯地址) SO Source(文献来源) PY Publicatio

24、n Year(出版年) * LA Language(文献语种) * CP Country of Publication(出版国家) * AB Abstract(摘要) 26 XREC Record Features(记录特征记录特征) * MESH Medical Subject Headings(医学主题词医学主题词) MIME Minor MeSH Headings(次要次要MeSH词词) MJME Major MeSH Headings(主要主要MeSH词词) SH Subheadings(副主题词副主题词) * PS Personal Name as Subject(人名作为主题词人名

25、作为主题词) CN Contract or Grant Numbers(合同号或资助号合同号或资助号) RN CAS Registry Number(化学物质登记号或酶号化学物质登记号或酶号)27 标识符标识符 字段名称字段名称 属性属性 NM Name of Substance(物质名称物质名称) IS International Standard Serial Number (国际标准刊号国际标准刊号) * TG Checktags(特征词特征词) * AN Accession Number(存取号存取号) * UD Update code(更新代码更新代码) * SI Secondary

26、 Source Identifier(第二文献来源标识第二文献来源标识) SB Subset(MEDLINE子集子集) * CM Comments(评论评论) GS Gene Symbol(基因符号基因符号) PT Publication Type(出版类型出版类型) *带带*号为限制性字段,其它为号为限制性字段,其它为“基本字段或默认字段基本字段或默认字段”28= (等于等于) PY=1992 (小于小于) PY ( 大于大于) PY1992 出版年出版年1992= (小于等于小于等于) PY=1984 出版年出版年= (大于等于大于等于) PY=1992 出版年出版年=1992 (指定范围

27、指定范围) PY=1990-1992 出版年出版年=1990-199229限制检索限制检索: 全部字段全部字段: 肿瘤肿瘤 in all 限定符限定符 in 和和 = 的使用:的使用: in 可用于可用于全部字段全部字段 = 只能用于只能用于某些字段某些字段30计算机检索的基本知识计算机检索的基本知识数据库数据库记录与字段记录与字段数据库类型数据库类型31基本知识基本知识:数据库数据库l存储在计算机相关设备的数据集合。存储在计算机相关设备的数据集合。l设备:磁带、磁盘(硬盘、软盘)、设备:磁带、磁盘(硬盘、软盘)、光盘等。光盘等。32数据库结构数据库结构l记录:构成数据库的信息单元记录:构成数

28、据库的信息单元l字段:一条记录字段:一条记录中中各个数据项。各个数据项。标题:标题:作者:作者:地址:地址:文摘:文摘:各个字段各个字段33 (3)数据库的分类数据库的分类 据统计,目前世界上有近万种数据库。数据一般依存贮对象区分为:据统计,目前世界上有近万种数据库。数据一般依存贮对象区分为: 数值型数据库、事实型数据库、文献型数据库。数值型数据库、事实型数据库、文献型数据库。 (A)数值型数据库数值型数据库: 是以数值为主要内容的数据库是以数值为主要内容的数据库,除存贮各类数值外,还存贮运算公式,规划(如货币兑换算)等。金融、证券系统数据库大多属于此类。 (B)事实型数据库事实型数据库: 是

29、指既有数字又有文字的数据库是指既有数字又有文字的数据库,如人口数据库、名录数据库、自然资源数据库,社会调查数据库等,总是以特定的事实或数字回答用户的查询。 (C)文献型数据库文献型数据库: 是指以各类型文献为内容的数据库是指以各类型文献为内容的数据库,包括最为常见的二次文献数据库,如书目、索引、文摘等。随着计算机技术进步,全文数据库、超文本型数据库等不断出现新型数据库。如中国生物医学文献数据库、中药药典数据库、法律数据库、人民日报数据库、MEDLINE数据库等等。 34实例说明实例说明:1).书目检索书目检索,例如例如“有关海底隧道有些什么文有关海底隧道有些什么文献?献?”(见文献检索见文献检

30、索); 2).事实检索事实检索,例如例如“世界最长的海底隧道是哪一世界最长的海底隧道是哪一条?条?”; 3).数值检索数值检索,例如,例如“某海底隧道有多长?某海底隧道有多长?”;4).文献全文检索文献全文检索,所检索出来的是有关文献的全文,所检索出来的是有关文献的全文,可能回答可能回答-例如例如“某文献某文献全文中全文中有哪些句子提到了海有哪些句子提到了海底隧道?底隧道?”的问题。的问题。35由于数据库内信息存在形态不同和物理存放位置不同,数据库还可分为:层次型数据库、网状型数据库、关系数据库或分为集中型数据库系统和分布式数据库系统。 (4)数据库的发展趋势数据库的发展趋势 a)数据库与In

31、ternet结合,即数据库上网运行; b)将相关数据库集合在一起,组成数据仓库(Data Warehouse); c)随着全球信息高速公路的发展,联机数据库将占据数据库媒体的统治地位,光盘数据库数量将逐渐减少。 (四)网络电子信息源网络电子信息源 由于Internet的发展,传统的联机网络的局限性显得越来越明显,以致目前世界上许多的联机系统如American Online,DIALOG,STN等都上了网络,成为Internet网络的一部分。、网络电子信息源的特点有网络电子信息源的特点有:()以网络为传播媒体;36 ()以多媒体为内容特征;()传播方式具有多样性,交互性。2、网络电子信息源的类型

32、分为:网络电子信息源的类型分为: a)联机数据库;联机数据库; b)联机馆藏目录库;联机馆藏目录库; c)电子图书;电子图书; d)电子期刊;电子期刊; e)电子报纸;电子报纸; f)软件与娱乐游戏类;软件与娱乐游戏类; g)教育培训类;教育培训类; h)动态性信息类。动态性信息类。37计算机检索文献信息的步骤与方法计算机检索文献信息的步骤与方法计算机检索和手工检索的目的一致,所使用的检索计算机检索和手工检索的目的一致,所使用的检索工具的内容一致,两者之间的区别仅仅由于文献信息载工具的内容一致,两者之间的区别仅仅由于文献信息载体的不同而引起的一些操作方法上的不同。体的不同而引起的一些操作方法上

33、的不同。计算机检索文献信息步骤如下:计算机检索文献信息步骤如下:一、一、分析检索课题,明确检索要求分析检索课题,明确检索要求二、二、选择数据库选择数据库 三、制定检索策略制定检索策略38目前全世界有近万种数据库,目前全世界有近万种数据库,选择数据库时应选择数据库时应注意以下几点:以下几点: 、数据库收录的文献内容;、数据库收录的文献内容;、数据库收录文献的出版类型;、数据库收录文献的出版类型;、是否能索取到原文;、是否能索取到原文;、数据库的收费标准;、数据库的收费标准;、数据库中收录文献的时间范围;、数据库中收录文献的时间范围;、数据库的更新情况。、数据库的更新情况。39 制定检索策略制定检

34、索策略包括包括: 选择选择检索词检索词、确定确定检索词检索词之间之间的逻辑、位置的逻辑、位置关系关系。 制定检索策略的制定检索策略的两个两个重要概念是重要概念是: 查准率查准率,查全率查全率。 (1)申请科研项目)申请科研项目或或鉴定科研成果检索文献,要求有较高的鉴定科研成果检索文献,要求有较高的查全率查全率; (2)抢救一个危重病、疑难病作特殊治疗方案需检索文献时,)抢救一个危重病、疑难病作特殊治疗方案需检索文献时,要求有较高的要求有较高的查准率查准率。 40检索效率检索效率,张琪玉教授在张琪玉教授在情报语言学基础情报语言学基础一书中,一书中,概括概括为为“全、准、快、便、省全、准、快、便、

35、省”五五个字,个字,“全全”指指检全率检全率,“准准”指指检准率检准率,“快快”指检索速度快,指检索速度快,“便便”指检索方便性,指检索方便性,“省省”指检索成本与效益。指检索成本与效益。其主要是其主要是全全和和准准。检全率检全率和和检准率可用下列检准率可用下列公式公式表示:表示:4142与与检全率检全率对应的是对应的是漏检率漏检率,即未被检出的相关文献,即未被检出的相关文献数与检索系统中相关文献总数的百分比数与检索系统中相关文献总数的百分比;与与检准率检准率对应的是对应的是误检率误检率,即指那些带出的无关文,即指那些带出的无关文献与检出文献总数的百分比。献与检出文献总数的百分比。检全率检全率

36、和和漏检率漏检率、检准率、检准率和和误检率误检率分别是分别是同一问题同一问题的的两个相对两个相对的概念。的概念。43一一、分类索引分类索引 产生产生 漏检漏检 和和 误检误检 的原因的原因1 、 检索范围检索范围大于大于检索要求检索要求 例如例如:要检索的只是要检索的只是“关于肺原性心脏病关于肺原性心脏病”的文献,的文献,其实其实只要查只要查“R541.5肺原性心脏病肺原性心脏病”就可以了,就可以了,但读者往往翻遍所有但读者往往翻遍所有“R54心脏、血管(循环系)疾病心脏、血管(循环系)疾病”或或“R541心脏疾病心脏疾病”,浪费了时间,增加了误检。,浪费了时间,增加了误检。“关于肺原性心脏病

37、关于肺原性心脏病” R 541.5三三级类目级类目-查找就可以了查找就可以了 R54为二级类目为二级类目442、 检索范围检索范围小于小于检索要求检索要求 例如例如 要检索要检索:“关于肾疾病关于肾疾病”的文献,应当查的文献,应当查“R692【肾疾病肾疾病】”、“R527.1【肾结核肾结核】”、“R737.11【肾、肾盂肿瘤肾、肾盂肿瘤】”等类目,如等类目,如包括包括小儿肾疾病,还需查小儿肾疾病,还需查“R726.92【小儿肾疾病小儿肾疾病】”。“R726.92【小儿肾疾病小儿肾疾病】”如果只查了如果只查了R692及其及其下位类下位类,就会产生漏检。,就会产生漏检。需查需查:四个类目:四个类目

38、 R692 ; R527.1 ; R737.11; R726.92 ;四类目都四类目都需要查到需要查到453 、检索范围与实际文献需要不符检索范围与实际文献需要不符,产生漏检和误检,产生漏检和误检. 如如检索检索: “糖尿病糖尿病 并发并发青光眼青光眼” 的文献,的文献,误到误到 “R775.3继发性青光眼继发性青光眼” -类目下查找,结果产生类目下查找,结果产生-漏检?漏检?应到应到 “R587.1糖尿病糖尿病”和和 “R587.2糖尿病性昏迷及其他糖尿病性昏迷及其他并发症并发症”这两个专这两个专类类中查找才是恰如其分的。中查找才是恰如其分的。 (参阅张琪玉:(参阅张琪玉:分类目录产生漏检和

39、误检的原因分类目录产生漏检和误检的原因, 刊载于刊载于图书情报知识图书情报知识1980年第一期)。)。463 、检索范围检索范围与与实际文献需要不符实际文献需要不符,产生漏检和误检,产生漏检和误检.糖尿病糖尿病 并发并发 青光眼青光眼R775.3继发性青光眼继发性青光眼”类目下查找类目下查找,结果产生漏检,结果产生漏检R587.1R587.2糖尿病糖尿病糖尿病性昏迷糖尿病性昏迷及其他及其他并发症并发症47一、一、主题索引主题索引 产生产生 漏检漏检 和和 误检误检 的原因的原因1 、 检索范围大于检索要求检索范围大于检索要求 如要如要查阅查阅: “腭裂的外科手术腭裂的外科手术”文献,文献, 只

40、要检索只要检索 “腭裂腭裂/外科手术外科手术”(CLEFT PALATE / SURGERY)就可以了,就可以了,检索者却检索者却没有组配没有组配,用,用“腭裂腭裂”查找,甚至用查找,甚至用“外科外科手手术术”,“口腔口腔”(SURGERY,ORAL)来检索,检索来检索,检索出出不不少少无关文献,无关文献,增加了增加了误检。误检。482 、 检索范围小于检索要求检索范围小于检索要求 如要查如要查:“关于血压关于血压”的文献,的文献,只检索了只检索了“血压血压”(BLOOD PRESSURE)这一主题,而这一主题,而未未检索检索-“高血压高血压”(HYPERTENSION)和和“低血压低血压”(

41、HYPOTENSION)这两个主题,这两个主题, 而而产生产生漏检。漏检。493 、 检索范围检索范围与与检索需要不符检索需要不符 如要查幽门梗阻的文献,词表中没有这个词,如要查幽门梗阻的文献,词表中没有这个词,靠靠题题标引为标引为“幽门狭窄幽门狭窄”,结果,结果 一无所获一无所获 或或 收效收效 甚微。甚微。其实其实词表词表中有中有“胃出口梗阻胃出口梗阻”, 由于未查到由于未查到专指词专指词使漏检增加。使漏检增加。504、 不适当地利用布尔逻辑表达式不适当地利用布尔逻辑表达式 逻辑(逻辑(AND)用的太多,使检索范围缩小,使检全)用的太多,使检索范围缩小,使检全率降低;率降低;逻辑或(逻辑或

42、(OR)用的太多,必然查出一些不相关文献,)用的太多,必然查出一些不相关文献,导致检准率降低;导致检准率降低;逻辑非(逻辑非(NOT)用的越多,检全率越低。)用的越多,检全率越低。515 、 截词检索截词检索 截词检索可扩大检索的网罗度(即标引深度),截词检索可扩大检索的网罗度(即标引深度),提高提高检全率,但检准率检全率,但检准率下降下降,因此,切忌将词干截得,因此,切忌将词干截得过短。过短。人们总希望有参考价值的文献全部被检出,被检出的人们总希望有参考价值的文献全部被检出,被检出的文献都是有参考价值的,即检全率是文献都是有参考价值的,即检全率是100%,检准率,检准率也为也为100%。但实

43、际上,不仅不可能达到这种理想的检索效率,甚但实际上,不仅不可能达到这种理想的检索效率,甚至要达到较高的检索效率也不是很容易的。至要达到较高的检索效率也不是很容易的。 52(一)(一)选择检索词选择检索词 注意使用规范化的医学术语并能计算机识别。注意使用规范化的医学术语并能计算机识别。(二)(二)选择布尔逻辑运算符选择布尔逻辑运算符 运算符在计算机检索中起着十分重要的作用它能用运算符在计算机检索中起着十分重要的作用它能用来组合检索词,构成检索语句,达到扩大或缩小检索来组合检索词,构成检索语句,达到扩大或缩小检索范围,提高检索效果的目的。范围,提高检索效果的目的。 该算符由英国数学家乔治该算符由英

44、国数学家乔治布尔提出,布尔提出, 也称作布尔算符。也称作布尔算符。 布尔逻辑符有布尔逻辑符有三三种:种: (1)逻辑乘(用)逻辑乘(用“AND”或或“”表示)表示) (2)逻辑加(用)逻辑加(用“OR”或或“+”表示)表示) (3)逻辑非(用)逻辑非(用“NOT”或或“-”表示表示53541、AND逻辑乘,通常也用逻辑乘,通常也用“”表示表示。 AND是是:具有概念交叉关系和限定关系的一种组配。具有概念交叉关系和限定关系的一种组配。 检出文献检出文献-需同时含有两个或多个检索词。需同时含有两个或多个检索词。 特点特点:常用来缩小检索范围,常用来缩小检索范围,提高提高查准率查准率。 例如:检索式

45、例如:检索式Viruses AND Infection 逻辑与逻辑与 检出的文献检出的文献 特点特点是,凡是,凡 在同一篇文献中在同一篇文献中包括包括 有病毒有病毒同时也同时也包括包括传染这两个概念的文献为命中文献。传染这两个概念的文献为命中文献。逻辑乘示意图逻辑乘示意图55 例如:检索由例如:检索由 流行性感冒流行性感冒 引起引起 咳嗽咳嗽 的有关文献的有关文献 逻辑与逻辑与检出的文献特点是,凡在同一篇文献中(用检出的文献特点是,凡在同一篇文献中(用逻辑与逻辑与“AND”联接),联接),包括包括有流行性感冒有流行性感冒同时同时也包括也包括咳嗽这两个概念的文献为命中文献咳嗽这两个概念的文献为命

46、中文献,下面两圆的相重下面两圆的相重叠部分为命中文献:叠部分为命中文献: 逻辑乘示意图逻辑乘示意图56简例:逻辑运算简例:逻辑运算 AND糖尿病的饮食治疗糖尿病的饮食治疗糖尿病糖尿病饮食治疗饮食治疗572、OR 逻辑和,通常用逻辑和,通常用“+”表示表示。 OR 是具有概念并列关系的一种组配是具有概念并列关系的一种组配。 检出文献可同时或只含其中任何一个检索词。 特点特点:常用来扩大检索范围,提高查全率常用来扩大检索范围,提高查全率。 例如例如:检索式检索式Hepatitis A OR Hepatitis B 用这一检索式可检索出所有有关肝炎用这一检索式可检索出所有有关肝炎A的文献和所有有的文

47、献和所有有关肝炎关肝炎B的文献的文献。逻辑和(或)示意图逻辑和(或)示意图58 2、OR 逻辑和,通常用逻辑和,通常用“+”表示表示。 例如:检索有关例如:检索有关“流行性感冒流行性感冒或者或者咳嗽咳嗽”的一些文章,的一些文章,用逻辑或(也叫逻辑和)联接。用逻辑或(也叫逻辑和)联接。可检索出可检索出所有所有有关有关流行性感冒流行性感冒的文献和的文献和所有所有有关有关咳嗽的文献咳嗽的文献,即两圆非重叠部分的文献。即两圆非重叠部分的文献。还可以检索出那些还可以检索出那些涉及涉及流行性感冒,流行性感冒,又涉及又涉及咳嗽的文献,即图咳嗽的文献,即图中两圆相重叠部分的文献。中两圆相重叠部分的文献。逻辑和

48、(或)示意图逻辑和(或)示意图59简例:逻辑运算简例:逻辑运算 ORl微量元素微量元素 与与 克山病克山病 的关系的关系ABC603、NOT 逻辑非逻辑非也叫也叫逻辑差,通常用逻辑差,通常用“-”或或“”表示表示。 “NOT”具有具有不不包含包含某种概念关系某种概念关系的一种的一种组配。组配。 或者说用于表达概念的排斥关系。从检出文献中剔除部分文献。或者说用于表达概念的排斥关系。从检出文献中剔除部分文献。特点特点:一般用来缩小检索范围,增强专指性:一般用来缩小检索范围,增强专指性。例如:检索式例如:检索式Diarrhea NOT Vomiting这种检索式可将文献中排除即含这种检索式可将文献中

49、排除即含 腹泻腹泻 与与 呕吐呕吐 的文献,的文献, 检出只带检出只带-腹泻文献腹泻文献逻辑非示意图逻辑非示意图排斥排斥 2、3、需要、需要1文献文献61 3、NOT 逻辑非逻辑非也叫逻辑差也叫逻辑差,通常用,通常用“-”或或“”表示表示。例如:流行性感冒例如:流行性感冒; 流行性感冒引起咳嗽症状流行性感冒引起咳嗽症状; 咳嗽症状咳嗽症状要检索有关要检索有关不带有不带有咳嗽的流行性感冒的文献,用逻辑非咳嗽的流行性感冒的文献,用逻辑非“NOT”联接,联接,检索检索或或可将所有不带有咳嗽的流行性感冒的文献检索出可将所有不带有咳嗽的流行性感冒的文献检索出来来。但是在用但是在用逻辑非逻辑非检索时,需要

50、注意逻辑非还能把那些检索时,需要注意逻辑非还能把那些既论既论流流行性感冒行性感冒又论又论咳嗽的文献咳嗽的文献 排斥掉。排斥掉。逻辑非示意图逻辑非示意图62简例:简例:逻辑运算逻辑运算 NOTl非病毒性肝炎(非病毒性肝炎(除除 病毒性肝炎病毒性肝炎 之外之外 的其它的其它 肝炎)肝炎)A NOT BA:各种肝炎:各种肝炎 B:病毒性肝炎:病毒性肝炎63布尔逻辑检索(布尔逻辑检索(Boolean searching) 布尔逻辑运算符主要有三种:布尔逻辑运算符主要有三种:表达方式布尔逻辑运算符表达方式布尔逻辑运算符逻辑逻辑“与与”(AND)、)、 - 逻辑与(并且)、逻辑与(并且)、“*”星星号;号

51、; 逻辑逻辑“或或” (OR)、)、 -逻辑或(或者)、逻辑或(或者)、“+”号;号;逻辑逻辑“非非”(NOT)、)、- 逻辑非(不包含)逻辑非(不包含) 、“-”减减号号布尔逻辑运算符的运算次序:布尔逻辑运算符的运算次序:(刮号)(刮号)NOTANDOR 重点记忆重点记忆64(三)(三)选择位置运算符选择位置运算符 (1)“NEAR” 两个两个词在同一个句子中出现词在同一个句子中出现; near表示表示:检索词存在于同一句子中,词序可以颠倒。检索词存在于同一句子中,词序可以颠倒。 例如:例如:information NEAR retrieval NEAR后后加正整数加正整数 表示表示检索词之

52、间检索词之间最多允许最多允许插入几个词。插入几个词。 例如:例如:acute NEAR 2 infarction 表示两词之间最多表示两词之间最多允许允许插插入一个其他单词,可检出入一个其他单词,可检出acute myocardial infarction。 NEAR3 NEAR4 表示检索词之间表示检索词之间最多允许最多允许插入插入3个单词或个单词或4个单词,以此类推。个单词,以此类推。65位置算符位置算符near: 检索式检索式:A near B表示表示:检索词检索词A和检索词和检索词B不仅同时出现在一条字段里,还要同时出现不仅同时出现在一条字段里,还要同时出现在一个句子里。在一个句子里。

53、 Near n表示表示0n-1个间隔。个间隔。66同句检索同句检索 nearnear同句检索:同句检索:即在两个词之间用即在两个词之间用nearnear的一种检索的一种检索技术。技术。同句相邻词检索同句相邻词检索:用用 near near 加加数字数字, 把两个词连起来,如把两个词连起来,如 Diagnosis Diagnosis nearnear 3 3 virus,virus,就是凡在同一字段中有就是凡在同一字段中有DiagnosisDiagnosis与与virusvirus之间相隔之间相隔3 3个个词以内的文献即为命中文献词以内的文献即为命中文献。如如diagnosis of HB Vi

54、rus infectiondiagnosis of HB Virus infection67(2)“WITH” with表示表示: 连接两个词检索,凡是在同一记录的连接两个词检索,凡是在同一记录的同一字段中出现两个词;同一字段中出现两个词;表示表示 检索词存在于检索词存在于同一同一字段字段,如如篇名、摘要等,篇名、摘要等,词词序可颠倒序可颠倒,检索词之间的位置要求,检索词之间的位置要求 比比 “near” 宽宽。 例如:例如:women WITH hepatoma 用用with连接两个词检索,连接两个词检索,其检索结果为其检索结果为:凡是在:凡是在同一记录的同一字段中出现这两个检索词的文献,同

55、一记录的同一字段中出现这两个检索词的文献,都都算是命中算是命中文献,且不论这两个词次序如何。文献,且不论这两个词次序如何。68位置算符with: 检索式:A with B 表示表示:检索词A和检索词B不仅同时出现在一条记录中,还要同时出现在一个字段里。69同字段检索同字段检索with同字段检索同字段检索:即在两个词之间用即在两个词之间用with的一的一种检索技术。种检索技术。凡文献中,只要所要求的两个词在同一句凡文献中,只要所要求的两个词在同一句子中即为命中文献子中即为命中文献,如,如G with H。只要只要G和和 H 在同一句中即可检出。在同一句中即可检出。如如cough (咳嗽咳嗽) w

56、ith asthms (哮喘哮喘)。70vNear、 with 指定两个检索词之间的位置指定两个检索词之间的位置With的含义:的含义:两个检索词在同一字段中出现。两个检索词在同一字段中出现。With的用法:检索词的用法:检索词A with 检索词检索词BNear的含义:的含义:两个检索词不仅在同一字段中出现。两个检索词不仅在同一字段中出现。 而且而且可限定可限定两个词之间的间隔距离。两个词之间的间隔距离。71v是一种指定检索词在某一字段中出现的限定是一种指定检索词在某一字段中出现的限定v性检索。性检索。vin 是一种包含(相似)关系。是一种包含(相似)关系。v= 为精确的比较。为精确的比较。

57、in 的用法:的用法: 检索词检索词 in 字段名称字段名称= 的用法:的用法: 字段名称字段名称=检索词检索词特别提示特别提示:需要注意的是在特定的数据库中,需要注意的是在特定的数据库中,哪些字段可以运用哪些字段可以运用=,哪些只能用,哪些只能用in。721 包含检索包含检索 (in)检索词包含于检索字符串中,检索词包含于检索字符串中,如如: 检索作者检索作者马智,马智,可可检索检索出出作者为马智、马智明、马智慧等的文献。作者为马智、马智明、马智慧等的文献。2 精确检索精确检索(=)检索词检索词与与检索字符串检索字符串 完全完全 相等,相等,如如:检索作者马检索作者马智,智,仅仅检索出作者为

58、马智的文献,而不会将作者名中含有马智检索出作者为马智的文献,而不会将作者名中含有马智片段的文献代出。片段的文献代出。3 所有字段均可进行包含检索,所有字段均可进行包含检索,精确检索精确检索仅限于作者、作者、期刊、卷、期、期刊、卷、期、ISSN、出版地、主题词、特征词、关键词、出版地、主题词、特征词、关键词、人名主题、分类号字段。人名主题、分类号字段。73(3)“in” 指定在某个字段进行检索指定在某个字段进行检索;指定指定-字段检索符字段检索符 用用“in”指定指定-在某个字段进行检索。这种在某个字段进行检索。这种检索可节约系统在其他字段的搜索时间,检索的检索可节约系统在其他字段的搜索时间,检

59、索的结果比较精确结果比较精确。检域限定检索检域限定检索或或称称=限定字段检索限定字段检索是指检索词限定出现在某一特定字段者,为命中文献。就是是指检索词限定出现在某一特定字段者,为命中文献。就是在检索词之后用限定符号在检索词之后用限定符号 inin,再加字段简称。,再加字段简称。如如arrhythmia in TI,就是在题名中,就是在题名中arrhythmia(心律不齐心律不齐)的的文献即为命中文献。文献即为命中文献。可限定检索的字段有可限定检索的字段有TI、AU、 CP、 LA 、SO、 AD、 MeSH、 MMH,等。等。限定字段检索限定字段检索是一种缩小检索范围的检索技术,而且是一种缩小

60、检索范围的检索技术,而且使检检出的文献非常准确、切题。出的文献非常准确、切题。74常用的常用的限制性字段限制性字段1.篇名:chemistry in ti2.文摘:cancer in ab3.出版年:2000 in py4.出版类型或文献类型:review in pt,pt=editorial5.作者:han-j-s in au6.通讯地址:beijing in ad75( 四)四)运算符的排列次序运算符的排列次序 在实际检索工作中,有时为了表达各种逻辑位在实际检索工作中,有时为了表达各种逻辑位置关系,在一个检索式中很可能要使用多种运算符。置关系,在一个检索式中很可能要使用多种运算符。在这样的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论