第七章 第八章 信息检索_第1页
第七章 第八章 信息检索_第2页
第七章 第八章 信息检索_第3页
第七章 第八章 信息检索_第4页
第七章 第八章 信息检索_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息检索基本原理信息检索基本原理 1 计算机检索基本原理概述计算机检索基本原理概述v1.1 计算机检索概念计算机检索概念 通过计算机进行的文献信息检索称为计算机检通过计算机进行的文献信息检索称为计算机检索。索。 随着计算机技术、远程通讯技术和信息存储技随着计算机技术、远程通讯技术和信息存储技术的飞速发展,术的飞速发展,信息检索由手工检索过渡到了计信息检索由手工检索过渡到了计算机信息检索算机信息检索。计算机检索的成功应用,为我们。计算机检索的成功应用,为我们更为及时、准确、全面地继承、利用和发展人类更为及时、准确、全面地继承、利用和发展人类的科研成果提供了先进的手段。的科研成果提供了先进的手段。

2、1 计算机检索基本原理概述计算机检索基本原理概述v1.2 计算机检索发展计算机检索发展v第一个阶段:脱机检索阶段(第一个阶段:脱机检索阶段(50年代至年代至60年代)年代) v脱机检索:即批处理检索脱机检索:即批处理检索 检索要求检索要求 检索系统检索系统 检索结果检索结果 检索人员检索人员检索策略检索策略成批检索成批检索用户用户 v缺点:缺点: 1. 地理上的障碍地理上的障碍:远、不便于检索结果的获取远、不便于检索结果的获取 2. 时间上的迟滞时间上的迟滞:定期检索,不能及时获取定期检索,不能及时获取 3. 封闭式的检索封闭式的检索:指检索策略一经输入系统就不指检索策略一经输入系统就不能更改

3、,更不能依据机检应答来修改检索式能更改,更不能依据机检应答来修改检索式1 计算机检索基本原理概述计算机检索基本原理概述v 第二个阶段:联机检索阶段第二个阶段:联机检索阶段 (Online Retrieval)()(60-80年代年代)v 终端设备终端设备 通讯网络通讯网络 检索系统检索系统 用户用户 检索策略检索策略人机对话人机对话 获取信息获取信息 v 三个时期:三个时期:60年代开发试验;年代开发试验;70年代末应用阶段;年代末应用阶段;80年代年代以后进入信息以后进入信息计算机计算机卫星通信三维一体的新阶段,即:卫星通信三维一体的新阶段,即:信息文献不受地区、国家限制而真正实现全世界资源

4、共享信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段为目的的国际联机信息检索阶段。1 计算机检索基本原理概述计算机检索基本原理概述v 著名的国际联机检索系统有著名的国际联机检索系统有:美国的美国的DIALOG系统系统;美国美国 Online Retrieval of Bibliographic Information Time-Share (ORBIT)系统系统,文献信息分时联机检索文献信息分时联机检索; 1976年书目检索服务社年书目检索服务社(BRS) 的联机检的联机检索系统索系统;”医学文献分析与检索系统医学文献分析与检索系统”MEDLARS系统,还有系统,

5、还有” 欧洲欧洲空间组织情报检索服务中心空间组织情报检索服务中心” 的的ESA/IRS系统、英国的系统、英国的BLAESE系统等。系统等。v 这些系统很快发展成为国际性情报检索系统,数据库种类及其检这些系统很快发展成为国际性情报检索系统,数据库种类及其检索存储记录都在迅速增加,如:美国的索存储记录都在迅速增加,如:美国的Dialog系统系统,1984年就有年就有200多个数据库,其中包括多个数据库,其中包括美国的美国的医学索引医学索引、荷兰、荷兰医学文医学文摘摘、美国、美国生物学文摘生物学文摘、美国、美国化学文摘化学文摘等。等。v 如今此联机检索系统仍然是世界上最有影响的联机检索系统。如今此联

6、机检索系统仍然是世界上最有影响的联机检索系统。DIALOG系统v DIALOG学科覆盖面广,几乎涉及全部学科范围包括综合性科学、自然科学、应用科学和工艺学,社会科学和人文科学,时事报道和商业经济等。其数据来源于各种不同的图书、报纸、杂志期刊、技术报告、会议论文、专著、专利、标准、报表、目录、手册等上的信息。其数据形式包括:文献型?文献的题录和文摘;数值型-统计表、商业财政数据等;名录字典型-手册、指南、名录等;全文型-论文、报告、新闻报道的全文等。 vDIALOG的一些著名数据库列举:的一些著名数据库列举:v DIALOG的近600个数据库中,有许多极具代表性的和常用的数据库,著名的数据库如C

7、A(化学文摘)、INSPEC(英国科学文摘)、MEDLINE(医学文献数据库)、MATHSCI(数学文献数据库)、BA(生物学文摘)、NTIS(美国政府报告)等都加入到DIALOG系统中;还有著名的几大检索数据库,如SCI(科学引文索引)、EI(工程索引)、ISTP(科技会议录索引)、SSCI(社会科学引文索引)、AHCI(艺术与人文科学引文索引)等也都可从DIALOG系统中检索;再有世界著名的DERWENT专利数据库以及美国专利、欧洲专利、日本专利等数据库也都可在DIALOG中查询。DIALOG更有一些全文数据库,如IAC的计算机全文库、纽约时报和华盛顿邮报等的全文库等。1 计算机检索基本原

8、理概述计算机检索基本原理概述v第三阶段:光盘检索阶段第三阶段:光盘检索阶段 v1983年,出现了一种新的存储器,年,出现了一种新的存储器,CD-ROM光盘。光盘。光盘检索具有储量极大而体积微小,要求设备简光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率随时修改检索策略而具有很高的查全率和查准率等优点。等优点。 例:例:Chemical Abstracts Index光盘光盘(1987-1991

9、):由美国化学文摘社与美国剑桥光):由美国化学文摘社与美国剑桥光盘公司联合研制,收录盘公司联合研制,收录1987-1991年年化学文摘化学文摘的全部内容的全部内容。1 计算机检索基本原理概述计算机检索基本原理概述v科学引文索引科学引文索引(光盘光盘) SCI( Science Citation Index):由美国费城科学情报研究所编辑出版,):由美国费城科学情报研究所编辑出版,收录收录1961年以来有关生命科学、医学、物理、化年以来有关生命科学、医学、物理、化学、农业、工程技术、行为科学等方面的文献及学、农业、工程技术、行为科学等方面的文献及引文。引文。 v中国学术期刊全文光盘(中国学术期刊

10、全文光盘(CAJ):是由清华大学):是由清华大学开发研制,分题录、文摘、全文三个层次的数据开发研制,分题录、文摘、全文三个层次的数据库,其中全文数据库是国内最常用的全文数据库库,其中全文数据库是国内最常用的全文数据库。1 计算机检索基本原理概述计算机检索基本原理概述v第四阶段:网络化检索阶段第四阶段:网络化检索阶段 v 进入进入90年代,随着卫星通讯、公共数据通讯、年代,随着卫星通讯、公共数据通讯、光缆通讯技术以及信息高速公路事业在全世界的光缆通讯技术以及信息高速公路事业在全世界的迅猛发展,计算机情报检索走向了全球大联网。迅猛发展,计算机情报检索走向了全球大联网。 v 网上资源具有信息的时效性

11、、内容的广泛性、网上资源具有信息的时效性、内容的广泛性、访问的快速性、搜索的网络性和资源的动态性五访问的快速性、搜索的网络性和资源的动态性五大特点,那么要及时、准确、有效地获取与自身大特点,那么要及时、准确、有效地获取与自身需求相关的实用信息,对所有网络用户都非常具需求相关的实用信息,对所有网络用户都非常具有挑战性。有挑战性。1 计算机检索基本原理概述计算机检索基本原理概述v INTERNET就是这个时期的最杰出代表。它能够就是这个时期的最杰出代表。它能够跨越时空,进行实时信息检索、资源共享的国际跨越时空,进行实时信息检索、资源共享的国际性计算机网络。性计算机网络。 INTERNET飞速的发展

12、,已成飞速的发展,已成为人们进行为人们进行全球范围的合作、信息交流与资源共全球范围的合作、信息交流与资源共享的不可替代的通讯交流方式。享的不可替代的通讯交流方式。 v 随着计算机技术的智能化、数据库载体的高密随着计算机技术的智能化、数据库载体的高密度化和多媒体化、通讯技术的网络化,度化和多媒体化、通讯技术的网络化,计算机情计算机情报检索将走向办公室化、家庭化。报检索将走向办公室化、家庭化。 2 计算机检索基本原理计算机检索基本原理v 一般地说,计算机检索包括:一般地说,计算机检索包括:信息的存储信息的存储和和检索检索两个部分,即对应数据库的建立和查找两个部分。两个部分,即对应数据库的建立和查找

13、两个部分。v2.1 信息存储信息存储 就是文献标引人员对文献内容进行主题分析,就是文献标引人员对文献内容进行主题分析,即把文献包含的信息内容分析成若干能代表文献即把文献包含的信息内容分析成若干能代表文献主题的概念,并用词表、分类表等规范化标识的主题的概念,并用词表、分类表等规范化标识的情报检索语言对情报检索语言对文献主题进行标引文献主题进行标引、按所选数据、按所选数据库结构的索引结构输入到计算机进行存储,同时库结构的索引结构输入到计算机进行存储,同时把入选文献中的其他特征标识(标题、著者、文把入选文献中的其他特征标识(标题、著者、文摘、原文出处等)也一起输入计算机,摘、原文出处等)也一起输入计

14、算机,编制成一编制成一系列索引数据库,系列索引数据库,这便是信息的存储。这便是信息的存储。 2 计算机检索基本原理计算机检索基本原理v2.2 信息检索信息检索v1、检索者对检索课题进行、检索者对检索课题进行主题分析、主题分析、明确检索范明确检索范围,形成能代表情报需求的若干主题概念。围,形成能代表情报需求的若干主题概念。v2、把这些主题概念转换成计算机、把这些主题概念转换成计算机信息检索语言,信息检索语言,即用数据库检索工具书对各概念选词和进行逻辑即用数据库检索工具书对各概念选词和进行逻辑组配,编制成检索提问式。组配,编制成检索提问式。v3、用计算机检索系统功能在文献资料数据库中将、用计算机检

15、索系统功能在文献资料数据库中将信息需求主题概念和数据库内文献主题概念标识信息需求主题概念和数据库内文献主题概念标识进行进行匹配,匹配,找到命中文献。找到命中文献。v用图表示如下:用图表示如下:计算机检索原理的示意图计算机检索原理的示意图信息检索的基本技术信息检索的基本技术3 文献信息数据库的基本概念文献信息数据库的基本概念v3.1 数据库的定义和类型数据库的定义和类型v 一、数据库定义:一、数据库定义:根据根据ISO/DIS 5127号标准(文号标准(文献与情报工作术语),数据库(献与情报工作术语),数据库(database)的定)的定义为:义为:“至少由一种文档组成,并能满足某一特至少由一种

16、文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据定目的或某一特定数据处理系统需要的一种数据集合。集合。”通俗地说,数据库就是在计算机存储设通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合,数备上按一定方式存储的相互关联的数据集合,数据库是计算机技术与情报检索技术相结合的产物,据库是计算机技术与情报检索技术相结合的产物,是现代重要的信息资源管理工具,是情报检索系是现代重要的信息资源管理工具,是情报检索系统的核心部分之一。统的核心部分之一。数据库的质量直接影响情报数据库的质量直接影响情报检索系统的功能和效率检索系统的功能和效率。3 文献信息数据库的基本概念

17、文献信息数据库的基本概念v二、数据库类型二、数据库类型 按照国际上通用的分类方法,常划分为以下类型:按照国际上通用的分类方法,常划分为以下类型: 1. 参考数据库(参考数据库(reference databases):指引用户到指引用户到另一信息源以获得原文或其他细节的一类数据库:另一信息源以获得原文或其他细节的一类数据库:包括书目数据库和指南数据库两种。包括书目数据库和指南数据库两种。 (1)书目数据库(书目数据库(bibliographic databases) 指存储某个领指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一域的二次文献(如文摘、题录、目录等书目数据)的一类数据库

18、。例如,美国化学文摘数据库类数据库。例如,美国化学文摘数据库CA Search、EI,中国机械工程文摘数据库,各国生产发行的机读目录中国机械工程文摘数据库,各国生产发行的机读目录(MARC)等,即属于此类型。)等,即属于此类型。3 文献信息数据库的基本概念文献信息数据库的基本概念v(2) 指南数据库(指南数据库(reference databases) 指存储关于某些机构、人物、出版物、项目、指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户获取更程序、活动等对象的简要描述,指引用户获取更详细的信息的一类数据库。亦称指示性数据库。详细的信息的一类数据库。亦称指示性数据

19、库。例如,各种机构名录数据库、人物传记数据库、例如,各种机构名录数据库、人物传记数据库、产品数据库、软件数据库、研究开发项目数据库、产品数据库、软件数据库、研究开发项目数据库、基金数据库等,均属此类。基金数据库等,均属此类。v2. 源数据库(源数据库(source databases): 提供原始资料或具体数据的数据库。它又可分提供原始资料或具体数据的数据库。它又可分为以下几种类型:为以下几种类型:3 文献信息数据库的基本概念文献信息数据库的基本概念(1)数值数据库)数值数据库(numeric databases) 指专门提供指专门提供以数值方式表示的数据(或包括其统计处理表示法)以数值方式表

20、示的数据(或包括其统计处理表示法)的一种源数据库,如各种统计数据库、财务数据库、的一种源数据库,如各种统计数据库、财务数据库、科学技术数据库等。科学技术数据库等。(2)文本)文本-数值数据库(数值数据库(textual-numeric databases):同时提供文本信息和数值数据的一种:同时提供文本信息和数值数据的一种源数据库,如某些公司信息库、产品市场报告数据源数据库,如某些公司信息库、产品市场报告数据库、毒物数据库和物性数据库等。库、毒物数据库和物性数据库等。(3)全文数据库()全文数据库(full-text databases) 指存储文指存储文献全文或其中主要部分的一种源数据库,简

21、称全文献全文或其中主要部分的一种源数据库,简称全文库,如法律法规全文库、期刊全文库等。库,如法律法规全文库、期刊全文库等。3 文献信息数据库的基本概念文献信息数据库的基本概念(4)术语数据库()术语数据库(terminological bank) 指专门存储名词术语信息一种源数据库,各种指专门存储名词术语信息一种源数据库,各种电子化辞书也包括在内。电子化辞书也包括在内。(5)图像数据库()图像数据库(graphics databases) 指用来存储各种图像或图形信息及有关文字说指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、明资料的一种源数据库,主要应用于

22、建筑、设计、广告、产品目录、图片或照片等资料类型的计算机广告、产品目录、图片或照片等资料类型的计算机存储与检索。存储与检索。 除了上述几种类型的数据库以个,还有能同时除了上述几种类型的数据库以个,还有能同时存储多种不同类型数据的数据库混合型数据库存储多种不同类型数据的数据库混合型数据库(mixed databases)。)。3 文献信息数据库的基本概念文献信息数据库的基本概念2.3.2 数据库的构成数据库的构成 从使用观点来看,数据库主要由从使用观点来看,数据库主要由文档、记录、文档、记录、字段字段三个层次构成。三个层次构成。1、文档:、文档: 若干个逻辑记录构成的信息集合称为文若干个逻辑记录

23、构成的信息集合称为文档(档(file)。用户选择所需的联机系统数据库时,)。用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。此时文档多数数据库以单一的文档编号出现。此时文档(file)的概念和数据库()的概念和数据库(database)相当。但有)相当。但有些数据库因规模庞大,被分成若干个文档。例如,些数据库因规模庞大,被分成若干个文档。例如,在在DAILOG系统中,系统中,CA Search数据库被分成数据库被分成308号号(1967-1971),),309号(号(1977-1981),),311号号(1982-1986)和)和312号(号(1986-)等文档。)等文档。3

24、文献信息数据库的基本概念文献信息数据库的基本概念2记录记录 记录是由若干字段组成的文献单元,是计算机检记录是由若干字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息载体。索系统存储文献款目和标引的信息载体。 在全文数据库中,一个记录相当于一篇完整的文在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题献;在书目数据库中,一个记录相当于一条文摘或题录。比较典型的录。比较典型的EI(COMPENDEX),),INSPEC,美,美国专利数据库的记录。国专利数据库的记录。3 文献信息数据库的基本概念文献信息数据库的基本概念3字段:字段: 是文献著录的是文献

25、著录的基本单元基本单元,它是对实体的具体属它是对实体的具体属性进行描述的结果。在书目数据库中,记录中含有性进行描述的结果。在书目数据库中,记录中含有题名、著者、出版年、主题词、文摘等字段。题名、著者、出版年、主题词、文摘等字段。 文献数据库字段分为文献数据库字段分为基本字段和辅助字段基本字段和辅助字段两类。两类。基本字段和辅助字段在检索策略的构成方法上往往基本字段和辅助字段在检索策略的构成方法上往往有些区别。有些区别。 基本字段通常是默认的主题途径检索范围,如基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助字段,通常要果需要查找专门的基本字段或者辅助字段,通常要以某种方

26、法予以指定。常见的字段名称和代码(也以某种方法予以指定。常见的字段名称和代码(也称段码)如下表所示。称段码)如下表所示。文献数据库中常见的字段和段码文献数据库中常见的字段和段码4 计算机检索策略的构建与调整计算机检索策略的构建与调整检索策略检索策略 是为实现检索目标而制定的全盘计划和方案是为实现检索目标而制定的全盘计划和方案,是对整个检索过程的谋划和指导。是对整个检索过程的谋划和指导。 也可以说,所谓检索策略,就是也可以说,所谓检索策略,就是在分析情报提在分析情报提问实质的基础上,确定检索途径与检索用词,并明问实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。

27、确各词之间的逻辑关系与查找步骤的科学安排。4.1 计算机检索策略的构建计算机检索策略的构建1、布尔逻辑、布尔逻辑 规定检索词之间的逻辑关系的算符规定检索词之间的逻辑关系的算符,称为布尔称为布尔逻辑算符。布尔逻辑算符包括逻辑逻辑算符。布尔逻辑算符包括逻辑“或(或(OR)”、逻辑逻辑“与(与(AND)”和逻辑和逻辑“非(非(NOT)”。(1)、逻辑)、逻辑“或或”(OR)运算符)运算符 也可用也可用“+”代替,是用来组配具有同义或同族代替,是用来组配具有同义或同族概念的词,如同义词、相关词等。其含义是,检出概念的词,如同义词、相关词等。其含义是,检出的记录中,至少含有两个检索词中的一个。的记录中,

28、至少含有两个检索词中的一个。OR算算符的符的基本作用是扩大检索范围,增加命中文献量,基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率,防止漏检,提高检索结果的查全率,OR运算符还运算符还有一个去重的功能。有一个去重的功能。4.1 计算机检索策略的构建计算机检索策略的构建例如,如果以提问式例如,如果以提问式“SS PIPE TUBE”检索检索EI COMPENDEX (1998)文档,所得结果为:)文档,所得结果为: S1 1834 PIPE (管)(管) S2 2022 TUBE (电子管)(电子管) S3 3647 PIPE OR TUBE(2)逻辑逻辑与与(AND)运

29、算符)运算符 也可用也可用*代替,用来组配不同检索概念。其代替,用来组配不同检索概念。其含义是检出的记录必须同时含有所有的检索词。含义是检出的记录必须同时含有所有的检索词。AND算符的算符的基本作用是对检索词加以限定,逐步基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的缩小检索范围,减少命中文献量,提高检索结果的查准率。查准率。在实际检索中,不同概念组面之间以及同在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用一组面内的不同含义的词之间通常使用AND算符。算符。4.1 计算机检索策略的构建计算机检索策略的构建例如:以提问式例如:以提问式SS C

30、OMMUNICATION AND SATELLITE检索检索EI COMPENDEX(1998)文档,)文档,所得结果为:所得结果为: S1 12940 COMMUNICATION(通讯)(通讯) S2 2173 SATELLITE(卫星)(卫星) S3 842 COMMUNICATION AND SATELLITE(3)逻辑逻辑非非(NOT)运算符)运算符 也可用也可用-代替,但在检索时建议使用代替,但在检索时建议使用NOT,以避免与词间的分隔符以避免与词间的分隔符-混淆,混淆,NOT算符是排除算符是排除含有某些词的记录的,即检出的记录中只能含有含有某些词的记录的,即检出的记录中只能含有NO

31、T算符前的检索词,但不能同时含有其后的词。算符前的检索词,但不能同时含有其后的词。4.1 计算机检索策略的构建计算机检索策略的构建NOT算符的算符的基本作用是缩小检索范围,但并不一基本作用是缩小检索范围,但并不一定能提高文献命中的准确性,往往只是起到减少文定能提高文献命中的准确性,往往只是起到减少文献输出量的作用。献输出量的作用。在联机检索中,可降低检索费用。在联机检索中,可降低检索费用。例如,以例如,以PATENT NOT GERMAN检索检索EI COMPENDEX(1998)文档,所得结果为:)文档,所得结果为: S1 110 PATENT (专利)(专利) S2 325 GERMAN(

32、德国)(德国) S3 108 PATENT NOT GERMAN4.1 计算机检索策略的构建计算机检索策略的构建2字段限制字段限制 字段限制也是调整检索策略的一种重要的手段。字段限制也是调整检索策略的一种重要的手段。多数检索系统对不指定字段的检索词,通常在所有多数检索系统对不指定字段的检索词,通常在所有基本字段中进行搜索,如果想指定在文献的题目等基本字段中进行搜索,如果想指定在文献的题目等字段中查找所希望的检索词,就需要使用字段限制。字段中查找所希望的检索词,就需要使用字段限制。 字段限制字段限制适用于在已有一定数量输出记录的基适用于在已有一定数量输出记录的基础上,通过指定字段的方法础上,通过

33、指定字段的方法 ,减少输出篇数,提,减少输出篇数,提高检索结果的查准率高检索结果的查准率。字段限制(字段限制(DIALOG联机检索系统为例)联机检索系统为例)(1) 基本字段限制基本字段限制 基本字段主要是指题目、叙词、识别词和文摘基本字段主要是指题目、叙词、识别词和文摘四个字段。基本字段限制的用法是在需要指定的字四个字段。基本字段限制的用法是在需要指定的字段的检索词后加上后缀运算符段的检索词后加上后缀运算符“/”和段码。和段码。 例如,检索策略例如,检索策略“OPTICAL/TI AND FIBER/TI”的含义是指定在题目字段中查找含有的含义是指定在题目字段中查找含有“optical(光学

34、)(光学)”和和“fiber(纤维)(纤维)”两词的所两词的所有记录。有记录。 字段限制(字段限制(DIALOG联机检索系统为例)联机检索系统为例)(2) 辅助字段限制辅助字段限制 除基本字段以外的可检索字段都可称为辅助字段。除基本字段以外的可检索字段都可称为辅助字段。辅助字段运算符的用法是在需要指定字段的检索词辅助字段运算符的用法是在需要指定字段的检索词(有有时检索词须放在双引号内时检索词须放在双引号内)之前加上段码和前缀运算符之前加上段码和前缀运算符“=”。例如,。例如,AU=“Robert,S.”的含义是在作者字段的含义是在作者字段中查找含人名为中查找含人名为“Robert,S.”的所有

35、记录。的所有记录。 下面是其他常用的辅助字段限制及其实例:下面是其他常用的辅助字段限制及其实例: 指定刊物名称指定刊物名称 JN=APPLIED PHYSICS 指定语言字段指定语言字段 LA=ENGLISH 指定年份字段指定年份字段 PY=19994.1 计算机检索策略的构建计算机检索策略的构建3截词算符截词算符 截词算符就是使计算机保留检索词中的相同词截词算符就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化,这种功干部分,允许检索词可有一定范围的变化,这种功能可减少输入步骤,简化检索程序,扩大检索范围,能可减少输入步骤,简化检索程序,扩大检索范围,提高查全率。不同的数据

36、库有不同的截字符,提高查全率。不同的数据库有不同的截字符,DIALOG系统用系统用“?”,ORBIT系统用系统用“+”,功能基,功能基本相同。本相同。 截词有截词有前方一致前方一致、后方一致后方一致、中间一致中间一致和和中间中间屏蔽屏蔽四种形式。前方一致,允许词尾有所变化;后四种形式。前方一致,允许词尾有所变化;后方一致,允许词头有所变化,中间一致,词头、词方一致,允许词头有所变化,中间一致,词头、词尾都可变化;中间屏蔽,允许词中间的某些字母有尾都可变化;中间屏蔽,允许词中间的某些字母有变化。变化。4.1 计算机检索策略的构建计算机检索策略的构建4范围限制范围限制 查找范围算符的作用主要是用户

37、利用辅助查找范围算符的作用主要是用户利用辅助索引时,对查找文献的年限范围进行限制。索引时,对查找文献的年限范围进行限制。等于:如在日期检索项输入等于:如在日期检索项输入“1990*”,则表示,则表示1990年发表的文献年发表的文献大于:输入大于:输入“1990*” 大于等于:大于等于:“=1990*”不等于:不等于:“1990*” 范围:如在日期检索项输入范围:如在日期检索项输入“1991*:1994*”,则表示查找则表示查找19911994年的文献年的文献其它:短语检索、自然语言检索其它:短语检索、自然语言检索(小节小节)4.2 计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法 1.

38、分析课题分析课题(1)一般的课题概念分析方法一般的课题概念分析方法: 分析主要概念,找出能代表这些概念的若干个分析主要概念,找出能代表这些概念的若干个词或词组,对新学科、交叉学科和边缘学科的课题,词或词组,对新学科、交叉学科和边缘学科的课题,要搞清楚这些概念关系。概念分析的结果应以概念要搞清楚这些概念关系。概念分析的结果应以概念组为单元的词或词组形式列出,以便下一步制订检组为单元的词或词组形式列出,以便下一步制订检索策略。索策略。 例如,例如,“聚乙烯的合成(聚乙烯的合成(synthesis of polyethylene)”这个课题可划分为两个概念,即这个课题可划分为两个概念,即“聚乙烯(聚

39、乙烯(polyethylene)”与与“合成合成(synthesis)”。4.2 计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法 (2)隐含概念的分析隐含概念的分析: 课题所隐含的概念从专业角度作深入分析,才能课题所隐含的概念从专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。提炼出能够确切反映课题内容的检索概念。 例如,例如,“垃圾的处理垃圾的处理”中的中的“处理处理”一词隐含着一词隐含着“回收回收”“”“再生再生”等具体的处理方法,再如,课题等具体的处理方法,再如,课题“大型机械电子渗漏仪大型机械电子渗漏仪”,其中,其中“电子电子”(electronic)一词,在该专

40、业中往往是用一词,在该专业中往往是用“传感器传感器”来表示,即用来表示,即用“sensor”、“transducer”或或“load-cell”等来表示。等来表示。类似的,诸如类似的,诸如“工艺工艺”、“分析分析”、“应用应用”,以及,以及诸如诸如“有机物有机物”、“无机物无机物”、“重金属重金属”、“轻金轻金属属”、“高分子材料高分子材料”等外延十分宽的概念,一般都等外延十分宽的概念,一般都应转换成具体的方法或材料、化合物来表示。应转换成具体的方法或材料、化合物来表示。4.2 计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法 (3)核心概念的选限核心概念的选限: 有些检索词中已经含有

41、的某些概念,在概念予以有些检索词中已经含有的某些概念,在概念予以排除。例如,课题排除。例如,课题“玻璃纤维增强石膏制品玻璃纤维增强石膏制品”,从字从字面上看,这个课题可划为三个概念:即面上看,这个课题可划为三个概念:即“玻璃纤维玻璃纤维”、“增强增强”、“石膏制品石膏制品”。但石膏制品中加入玻璃纤。但石膏制品中加入玻璃纤维,其目的就是为了增强石膏制品,因此可将维,其目的就是为了增强石膏制品,因此可将“增强增强”这一概念排除之外。这一概念排除之外。 如果有些检索概念已经体现在数据库中,这些概如果有些检索概念已经体现在数据库中,这些概念也应该予以排除。如陶瓷文摘数据库(念也应该予以排除。如陶瓷文摘数据库(Ceramic Abstracts),),“陶瓷(陶瓷(ceramic)”这一概念一般可这一概念一般可以排除;而以排除;而COMPUTER一词在计算机数据库(一词在计算机数据库(The Computer Database)中一般也应予以排除。)中一般也应予以排除。 4.2 计算机检索步骤和策略调整方法计算机检索步骤和策略调整方法 另外有一些比较泛指、检索意义不大的概念,另外有一些比较泛指、检索意义不大的概念,例如,例如,“发展发展”,“趋势趋势”,“现状现状”等在不是专等在不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论