第二章文献检索_第1页
第二章文献检索_第2页
第二章文献检索_第3页
第二章文献检索_第4页
第二章文献检索_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章

计算机检索基础知识第一节电子信息资源概述

一、电子信息资源的概念

二、电子信息资源的类型三、电子信息资源的特点一、电子信息资源的概念

电子资源就是电子化了的信息资源。

是机读型信息资源。是一种通过编码和程序设计,把文字、图形、声音、动画等多种形式的信息转换成数字语言和机器语言,以磁性材料为介质,以电信号、光信号的形式传输,并通过网络通信、计算机或终端等方式再现出来的一种信息资源。二、电子信息资源的类型

1、按信息表现形式分:(1)文本信息资源:是按知识单元的线性顺序排列组织的资源。(2)超文本信息资源:

它是一种非线性方式建立和表示离散信息关系的技术。逻辑连接任意连接(3)多媒体信息资源:

包括文本、图像和声音等各种信息表达的总称

(4)超媒体信息资源:

源于超文本,又是它的扩充。是超文本和多媒体技术的结合,具有超文本和多媒体两种信息资源的特点.包括了文本、静态图形、动画、动态图像和声音等多种信息。2、按信息存储载体分:

光盘信息资源网络信息资源(即在第一章光盘检索系统、网络化信息检索系统中的信息资源)3、按信息交流方式分

(1)非正式出版信息:

包括电子邮件、网络论坛、电子会议和电子布告版新闻等

(2)半正式出版信息:

受到一定知识产权保护,但没有纳入正式出版信息系统的描述性网络信息。包括内部电子期刊、会议文集和各类报告、机构情况及产品介绍等。

(3)正式出版信息:

受到知识产权保护,信息质量可靠,利用率较高的知识性、分析性网络信息。

一次出版信息:电子图书、电子期刊、电子报纸等;二次出版信息:搜索引擎、检索数据库、网络导航等;三次出版信息:网络述评、参考数据库、网站推荐等。

三、电子信息资源的特点(1)信息组织形式发生变化:

由传统的文本形式发展为超文本、超多媒体等多种形式。(2)数字化:

信息资源由纸张的文字变成磁性介质上的电磁信号,存储的信息资源密度高,容量大,可无损耗反复的使用。

(3)内容丰富多彩

(4)数据结构具有通用性、开放性、动态性(5)信息资源体积小,数量巨大(6)传播方式的无限性(7)交互性第二节数据库

一、数据库的概念二、数据库的类型三、数据库结构

一、数据库的概念

在计算机存贮设备上按一定方式存贮的相互关联的数据集合,就是数据库。

数据库则是计算机与信息检索技术相结合的产物。是计算机检索的基础。要建立计算机检索系统,必须对所收集到的大量文献资料按一定的体系和规则加以处理,使之成为机读形式的数据。

二、数据库的类型

1、参考数据库(referencedatabases)

(1)书目数据库(bibliographicdatabases):用于存储二次文献(目录、题录、文摘等书目数据)的一类数据库(2)指南数据库(referencedatabases):是指存储有关机构、人物、出版物、项目、产品、活动等对象的简要描述。2、源数据库(sourcedatabases):

能直接提供原始信息或具体数据的一类数据库。用户不必再查阅其他信息源即可获得原始信息。

全文数据库(full-textdatabases)数值数据库(numericdatabases)文本-数值数据库(textual-numericdatabases)、

术语数据库(terminologicalbank)图像数据库(graphicsdatabases)事实数据库(factdatabases)。

3、混合数据库(mixeddatabases):

是指能同时存储多种不同类型数据的一种源数据库。

三、数据库结构:

若干字段→若干记录→若干文档→数据库1、字段

也称数据项、检索项,是计算机检索的最基本单位。每条文献的每个著录项,在计算机检索中称为字段。

字段是检索信息的入口,信息在存储到数据库中时,将能反映其特征的项目进行分解,并按字段的形式存储,以供在需要时可以从不同的角度进行检索。(1)存取号字段

AN=AccessNumber(2)基本字段:描述文献主题性质或内容的字段

文献标题(TI)title

文摘(AB)abstract

主题词(DE)descriptor

关键词(KW)keyword

(3)辅助字段:描述与主题内容无关的字段

Au=Author

著者字段

SO=Source

文献出处字段

PY=PublicationYear

出版年字段

LA=Language

语种字段

CS=CorporateSource

团体著者字段

JN=JournalName

期刊名称字段

DT=DocumentType

文献类型字段

PN=PatentNumber

专利号字段

ProductName

产品名称字段

IC=IPC

国际专利分类号字段

CT=ConferenceTitle

会议名称字段

CY=ConferenceYear

会议召开年字段2、记录作为一个单位来处理的一组相关的数据,它是字段的集合体,也是信息的完整体现。文档中的一个记录就是一篇文献的题录或文摘。3、文档经过组织加工后存储在计算机中的一组文献称为文档。信息数据库是由文档组成的,一个计算机检索系统中的数据库可能是由一个文档组成,也可是由多个文档组成。同样内容的文件,称为一个文档。第三节

计算机检索的技术和步骤

一、计算机检索的技术二、计算机检索步骤

一、计算机检索的技术

1、布尔逻辑检索计算机检索的基本技术就是在制定检索策略时利用布尔逻辑算符进行检索项的逻辑组配,即进行概念组配。就是要考虑单一概念、复杂概念、并列概念如何组配,以构成检索提问式。目的是为了扩大检索或缩小检索范围,提高查准率、查全率,提高检索速度。(1)逻辑与:

用“and”或“*”表示。概念交叉和限定关系的一种组配。

例如:生物学中计算机图象处理生物学*计算机*图象处理

(2)逻辑或,用“or”或用“+”表示。是具有概念并列关系的一种组配。

例如:检索三废处理方面文献

废气+废水+

废物废气废水废物(3)逻辑非,用“not”或用“-”表示。是具有概念删除关系的一种组配,从原概念中删除一部分不需要的内容。

例如:要检出中国科学技术大学化工方面的文献,除钱逸泰的文献中国科学技术大学化工方面钱逸泰布尔逻辑算符,其优先级为not、and、or,有括号先运行括号里的。

例子:蒸馏中的温度、压力、流动影响方面的文献:蒸馏*(温度+压力+流动)

2、截词检索和范围检索:

截词符“?”:

用来截去检索词中某些字符,来表示检索词单、复数形式或英美不同拼法或同一词词尾的多种变化等(1)无限截词:用一个“?”表示例如:comput?

表示含有

computercomputerscomputingcomputation

都符合要求(2)有限截词:

用二个“??”,中间空一格,表示截1位。第一个“?”表示截1位,第二个“?”表示终止。

例如:dye?

(染料,染色

)表示含有dye、dyed、dyes都符合要求。

“?

?”表示截二位,即词尾最多2个字母。例如:univers??

表示含有universe(宇宙,万物,世界)、universal(adj.普遍的,通用的

)都符合要求。

“???”,表示截三位,即词尾最多3个字母。

例如:cand???

表示含有candy(糖果)、candiescandied(adj.糖果的,甜蜜的)

都符合要求。(3)中间截词:

例如:wom?n表示含有women、woman都符合要求。又如:

fib??board表示含有fibreboard(纤维板)、fiberboard都符合要求。

范围符

“:”用范围符来限定检索的类目、时间、存取号等的范围。例如:检索90年到97年的文献

PY=1990:PY=1997

3、位置检索:

用来限定检索词相互间的邻近关系,在记录中出

现的顺序、位置。

位置算符表示方法说明with(W)或()两个词在命中结果中相邻(可有空格、标点和连字符),词序不得颠倒。(nW)两个词之间最多可夹入n个词,词序不得颠倒。near(N)两个词在命中结果中相邻,词序可颠倒。(nN)两个词之间最多可夹入n个词,词序可颠倒。field(F)两个词在同一字段出现,位置不固定。subfield(S)两个词在同一子字段出现,位置不固定。(1)(W)或()和(nW):

(W)或():表示在算符两侧的检索词必须按词序排列,不能颠倒,两词之间不允许有其他词或字母,但允许有空格和“-”符。

例如:computer()aided()design计算机辅助设计(nW):表示在算符两侧的检索词之间最多允许插入n个词,包括实词和虚词,两个检索词不能颠倒。

例如:输入communication(2w)satellite

检索出:

communicationsatellite

communicationthroughsatellite

communicationonthesatellite

(2)(N)和(nN)

(N):

(Near)表示算符两侧的检索词必须紧密相连,但词序可以颠倒,不得插入其它词。(nN):表示在算符两侧的检索词之间最多允许插入n

个词包括实词和虚词,两个检索词词序可颠倒。

例如:输入cotton(2n)processing检索出:cottonprocessing、

cottonofprocessing、

processingofEgyptiancotton

(3)

(F)(Field)

表示在算符两侧的检索词必须同时出现在文献记录的同一字段,两词词序不限,中间插入词的数量不限。例如:输入pollution(F)control

污染控制表示在同一字段中检索出含有:pollution

control的文献。

在题名字段中,题名为controlandmanagementofindustrialpollution

符合要求。

(3)

(S)(Subfield

或Sentence的缩写)

表示在算符两侧的检索词必须同时出现在文献的同一子字段中,即同一句子或短语中,检索范围比(F)小,检索结果准确。

4、限制检索:

是指检索系统中提供的缩小或约束检索结果的检索方法。

(1)字段检索:用于限制检索词出现的字段。每一个字段都有特定的代码。基本检索字段:

文摘(AB)

篇名(TI)

叙词或主题词(DE)关键词(KW)

分类号(CC)

全文(full-text)

DE:Descriptor

CC:ClassificationCode例如:

television/TI

在篇名字段中找出电视的文献

television/AB在文摘字段中找出电视的文献

Au=Smith,J.C

在著者字段中找出Smith,J.C

发表的文献

JN=EnvironmentManagement在期刊名称字段中检索刊名为EnvironmentManagement的刊物

DT=Patent在文献类型字段里检索专利文献(2)二次检索:

检索结果中再检索。有二种表示方式:在结果中再查、在结果中去除课后练习1.常用的布尔逻辑算符有哪些?它们的优先级是什么?2.数据库的类型有哪三种?3.范围符的形式和含义?4.截词符的含义?5.常用的位置算符及含义?二、计算机检索步骤

1、分析研究课题

(1)课题的主题内容(2)课题所涉及的学科的范围(3)课题所需的信息的内容

(4)确定课题所需信息的类型

(5)明确课题对检索深度的要求2、选择检索系统:

根据所具备的条件选择手工检索工具还是计算机检索系统,计算机检索是选光盘检索还是网络数据库检索。也可采取二者结合的方式。3、选择数据库或检索工具

(1)数据库或检索工具收录的文献学科范围(2)数据库或检索工具收录的文献年度(3)数据库或检索工具收录的文献类型(4)索引系统是否完备,能否提供多种检索途径(5)要了解数据库的使用介绍,弄清标引特征

4、确定检索途径

手工检索,就是利用检索工具的各种索引;计算机检索,就是确定检索字段。

根据课题的要求及已经掌握的信息。要充分利用文献外部特征的字段,查起来非常方便,查准率高。如已知篇名、作者、各种号码等。主要检索途径:题名途径:根据已知的书名或篇名等检索著者途径:根据已知的著者姓名检索分类途径:按照文献主题内容所属学科体系和事物性质进行分类所形成的检索途径序号途径:按文献资料特有的序号检索主题途径:是根据文献主题内容编制主题索引,通过主题索引来检索文献的途径

分类途径和主题途径是最常用的途径。分类途径适合于族性检索,主题途径适合于特性检索。如两种途径互相配合则会取得较好的检索效果。其他几种途径都是辅助性的检索途径。检索途径在手工检索中,是通过索引来实现。在计算机检索中,是通过字段检索来实现的。5、确定检索词:

使用不同的索引、或者选择不同的字段来确定使用不同的检索词。关键词或主题词的确定,要在全面分析、了解检索课题的相关问题,提炼出核心概念和隐含概念,排除次要概念。

要注意几个方面:

(1)关于隐含概念的分析(词意延伸)

举例:如“工艺”、“分析”、“应用”、以及“有机物”、“无机物”、“重金属”、“金属”、“纳米”等外延十分宽的概念,一般都应换成具体的方法、材料或化合物来表示。(2)注意选用常用的专业术语

例如在查找“泡沫塑料”、“泡沫橡胶”时不能使用俗名“海绵”

(3)选用同一或相关概念的同义词或近义词

例如:废水就有污水、工业用水、重金属水等(4)选用检索系统规定的代码6、制定检索策略(构成检索表达式)

在分析课题检索需求的基础上,确定检索途径与检索词,并明确各检索词之间的逻辑关系,编写出检索式。检索式是检索策略的逻辑表达式,是用来表达用户检索提问的,检索式的制定是否合理,将直接影响检索结果。7、实施检索:

在手工检索中,用选择的检索词到检索工具中进行检索。在计算机检索中,将制定的检索式输入检索系统进行检索。

检索策略的调整:输出的文献过多:原因:主题词存在一词多义或者是外文检索中截词过短等解决:缩小检索范围:A增加限制B选用合适的字段C使用适当的位置符输出的文献过少:原因:A使用的主题词不规范或使用了产品的俗称、商品名

B同义词未用全(apparatus

equipment

devicefacility)

C上位类概念或下位类概念没有完整运用解决:A减少“与”的逻辑组配B增加同义词运用C多用“或”的逻辑组配D调整字段、位置算符限制8、检索结果的获取:

在手工检索中对获取的文献线索进行研究和筛选,如确定所得线索有参考价值,可通过文摘或题录提供的文献出处向收藏单位索取原文。

在计算机检索中,根据检索系统提供检索结果输出格式,选择需求的检索记录及相应的格式,将结果显示在显示屏幕上、存储到磁盘上或直接打印输出,完成整个检索过程。文献检索的方法:⑴常用法:(工具法)顺查法倒查法抽查法

⑵追溯法:

利用已有的文献后的参考文献进行查找文献的方法

⑶循环法(交替法):常用法与追溯法交替使用的方法美国的《科学引文索引》

ScienceCitationIndex,简称SCI美国的尤金·加菲尔德(EugeneGarfield)创办,

现由美国费城科学信息所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论