第二章 计算机检索基础知识_第1页
第二章 计算机检索基础知识_第2页
第二章 计算机检索基础知识_第3页
第二章 计算机检索基础知识_第4页
第二章 计算机检索基础知识_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 计算机检索基础知识计算机检索基础知识2.1 电子信息资源概述电子信息资源概述n一、电子信息资源一、电子信息资源 电子信息资源电子信息资源是以数字化的形式,把文字、图形、是以数字化的形式,把文字、图形、声音、动画等多种形式的信息存放在光、电、磁等声音、动画等多种形式的信息存放在光、电、磁等非非印刷型介质上印刷型介质上,以电信号、光信号的形式传输,并通,以电信号、光信号的形式传输,并通过网络通信、计算机或终端等方式再现出来的一种信过网络通信、计算机或终端等方式再现出来的一种信息资源。息资源。 简单地说,电子信息资源就是简单地说,电子信息资源就是电子化了的信息资源电子化了的信息资源,其

2、实质是机读型信息资源。其实质是机读型信息资源。n二、数字资源的发展二、数字资源的发展数量急剧增长:数量急剧增长:大多数印刷型学术期刊已经数字化且回溯年限越来越长;同时出现了大量已没有印刷本读物的在线出版的刊物;电子图书数字化版本也越来越多。类型丰富:类型丰富:包括电子期刊、报纸、图书及多媒体学习资源等n三、电子信息资源的特点三、电子信息资源的特点 1.信息组织形式发生变化信息组织形式发生变化 文本、线性 超文本、超媒体的网状结构 2.数字化数字化 3.内容丰富多样内容丰富多样 既有文字、图表等静态信息,也有集图、文、声、既有文字、图表等静态信息,也有集图、文、声、像于一体的动态多媒体信息像于一

3、体的动态多媒体信息 4.数据结构具有通用性、开放性、动态性数据结构具有通用性、开放性、动态性 5.信息资源体积小,数量巨大信息资源体积小,数量巨大 一座拥有一座拥有百万册百万册图书的图书馆,经过数字化处理后,只需图书的图书馆,经过数字化处理后,只需3400张张光盘就可以全部存储下来。光盘就可以全部存储下来。 6.传播方式的无限性传播方式的无限性 电子信息资源不受时间、空间的限制,实现跨时空、跨行业电子信息资源不受时间、空间的限制,实现跨时空、跨行业的传播。的传播。 7.交互性交互性 电子信息资源不是传统信息资源的复制,而是对传统信息电子信息资源不是传统信息资源的复制,而是对传统信息资源和信息交

4、流渠道的补充。资源和信息交流渠道的补充。 四、数字图书馆的兴起四、数字图书馆的兴起n数字图书馆是指以数字图书馆是指以数字资源数字资源为主体馆藏的图书为主体馆藏的图书馆。现有的馆。现有的实体图书馆实体图书馆在逐渐地朝在逐渐地朝数字化方向数字化方向发展发展。n特点:特点:多媒体存取、远程网络传输、智能化检多媒体存取、远程网络传输、智能化检索、跨库无缝链接、超时空信息服务索、跨库无缝链接、超时空信息服务。n目前是一个实体馆藏与虚拟馆藏共存现状目前是一个实体馆藏与虚拟馆藏共存现状。读。读者不仅需要了解图书馆的实体馆藏,也要了解者不仅需要了解图书馆的实体馆藏,也要了解和学会使用虚拟馆藏。和学会使用虚拟馆

5、藏。n虚拟馆藏:虚拟馆藏:图书馆订购的或从网上收集和组织图书馆订购的或从网上收集和组织的,通过网络远程或局域网方式访问的数字资的,通过网络远程或局域网方式访问的数字资源。源。 2.2 数据库数据库n一、一、 定义定义 数据库是可以共享的某些具有共同存取方数据库是可以共享的某些具有共同存取方式的相关数据,以一定的组织方式的集合。式的相关数据,以一定的组织方式的集合。 数据库本质的三个要素:数据库本质的三个要素:相关数据相关数据、共同共同存取方式存取方式和和一定的组织方式、共享一定的组织方式、共享。 通俗地说,数据库是以某一特定方式组织通俗地说,数据库是以某一特定方式组织和存放的数据的仓库。和存放

6、的数据的仓库。 数据库与其他数据集合数据库与其他数据集合的的主主要区别要区别在于数据库中的各项在于数据库中的各项数据可以通过同一种方式进数据可以通过同一种方式进行储存与查找,因此同一个行储存与查找,因此同一个数据库中的记录格式都是一数据库中的记录格式都是一样的。样的。二、数据库类型二、数据库类型 国际上通常根据数据库信息内容将国际上通常根据数据库信息内容将数据库划分成三大类,即数据库划分成三大类,即参考数据库参考数据库(Reference Database)、源数据库源数据库(Source Database)和和混合数据库混合数据库(Mixed Database)。 n按文献内容划分:按文献内

7、容划分: 索引数据库索引数据库 书目数据库书目数据库 文摘数据库文摘数据库 数数 参考数据库参考数据库 图书目录数据库图书目录数据库 (二次文献二次文献 ) 名录数据库名录数据库 指南数据库指南数据库 产品数据库产品数据库 数值数据库数值数据库 据据 图像数据库图像数据库 源数据库源数据库 术语数据库术语数据库 (一次文献)(一次文献) 文本文本- 数值数据库数值数据库 库库 全文数据库全文数据库 混合数据库混合数据库 n按文献类型划分按文献类型划分: 数数 文献类数据库文献类数据库 书目数据库(二次文献)书目数据库(二次文献) 全文数据库(一次文献)全文数据库(一次文献) 据据 数值数据库数

8、值数据库 库库 非文献类数据库非文献类数据库 图像数据库图像数据库 术语数据库术语数据库 n按载体形式分为按载体形式分为 : 单机版光盘数据库单机版光盘数据库 数数 光盘数据库光盘数据库 络版光盘数据库络版光盘数据库 据据 联机数据库联机数据库 库库 网络数据库网络数据库 镜像站数据库镜像站数据库 三、数据库的文档结构三、数据库的文档结构n1. 顺排文档(顺排文档(linear file):):是按记录的编号是按记录的编号顺序排列的文档。为主文档。顺排文档结构简顺序排列的文档。为主文档。顺排文档结构简单,管理方便,节省储存空间,但检索速度较单,管理方便,节省储存空间,但检索速度较慢。慢。n2.

9、 倒排文档(倒排文档(inverted file):是将数:是将数据库中具有某些特征的字段值和具有该据库中具有某些特征的字段值和具有该字段值的记录号按顺序排列构成的文档,字段值的记录号按顺序排列构成的文档,也称为索引文档。也称为索引文档。n 检索时,计算机首先根据检索时,计算机首先根据用用户提问户提问在在倒排挡文件倒排挡文件中检索,通中检索,通过检索得到有关提问在过检索得到有关提问在顺序文档顺序文档中的地址(文献的记录号),中的地址(文献的记录号),再再通过通过顺排文档查到记录顺排文档查到记录。所以顺。所以顺排文档在计算机检索中,通常是排文档在计算机检索中,通常是作为资料档,与倒排文档并用,作

10、为资料档,与倒排文档并用,两者共同组成一个完整的文档。两者共同组成一个完整的文档。四、字段与记录、文档、数据库四、字段与记录、文档、数据库1 . 字段(字段(Fields)与)与 记录(记录(Record):): 数据库的主要部分由一系列的记录所组成,数据库的主要部分由一系列的记录所组成,每个记录对应于一篇原始一次文献。每条记录由每个记录对应于一篇原始一次文献。每条记录由不同的数据项目组成。我们将记录中的数据项目不同的数据项目组成。我们将记录中的数据项目称为字段。称为字段。n字段字段(域)(域)(Field),),是组成文献信息是组成文献信息记录的记录的基本数据单位基本数据单位。文献信息记录赋

11、。文献信息记录赋予每个字段一个标识符号。予每个字段一个标识符号。 记录中用来描述文献信息记录中用来描述文献信息内容特征内容特征的的字段叫字段叫“基本索引字段基本索引字段”,基本索引字,基本索引字段用段用“/”加上字段标识符来表示。基本加上字段标识符来表示。基本索引字段主要包括:索引字段主要包括: 题名字段题名字段 (Title Field) 用用“/TI”表示。该表示。该字段记录了原始文献的题名。一般直接引用字段记录了原始文献的题名。一般直接引用原题名,也有的使用编辑修改后的题名。原题名,也有的使用编辑修改后的题名。 文摘字段文摘字段 (Abstract Field) 用用“/AB”表示。表示

12、。这一字段简要描述了原始文献的主题内容,这一字段简要描述了原始文献的主题内容,通常由标引人员提供,也有直接采用原始文通常由标引人员提供,也有直接采用原始文献的摘要的。献的摘要的。 叙词字段叙词字段 (Descriptor Field) 用用“/DE”或或“/DF”表示,有的检索系统称为受控词字表示,有的检索系统称为受控词字段段(Controlled Term Field)。 自由标引词字段自由标引词字段 (Identifier Field) 用用“/ID”或或“/IF”表示。表示。 n3)辅助索引字段辅助索引字段(非主题性字段)(非主题性字段) 用来描述文献外表特征的字段,称之为辅助索引用来描

13、述文献外表特征的字段,称之为辅助索引字段。字段。nAN文摘号文摘号(Abstract No.) nAU著者著者(Author) nCC分类代码分类代码(Class Code) nCS机构来源(作者单位)机构来源(作者单位)(Corporate Source) nDT文献类型文献类型(Document Type) nLA文种文种(Language) nPY出版年出版年(Publication Year) 2 文档(文档(File):):是记录及其索引等的集是记录及其索引等的集合,是传统的检索工具在计算机检索中的合,是传统的检索工具在计算机检索中的同义物。如同义物。如CA及其有关索引就相当于机及其

14、有关索引就相当于机检系统(如检系统(如Dialog)中的一种文档(如)中的一种文档(如399文档,即文档,即CA Search) 3. 数据库(数据库(Database):):是文档的集合。是文档的集合。最小的数据库可最小的数据库可 由一个文档组成,所以有时由一个文档组成,所以有时文档和数据库同义。文档和数据库同义。五、数据库的选择原则五、数据库的选择原则 1.选择数据库的原则选择数据库的原则 选择数据库应考虑到选择数据库应考虑到内容内容、范围范围、时时效效和和费用费用等四方面因素,国际上称之为等四方面因素,国际上称之为“4C”则则。 1)内容()内容(Content) 2)范围(范围(Cov

15、erage) 3)时效(时效(Currency) 4)费用(费用(Cost)2.3 计算机检索技术计算机检索技术n计算机检索技术计算机检索技术是指信息检索过程的是指信息检索过程的原原理、方法、策略、设备条件和检索手段理、方法、策略、设备条件和检索手段等因素的总称。等因素的总称。计算机检索技术计算机检索技术 检索表达式检索表达式,是计算机检索用来表,是计算机检索用来表达用户检索提问的一种逻辑运算式。它达用户检索提问的一种逻辑运算式。它由检索词和各种布尔逻辑算符、位置算由检索词和各种布尔逻辑算符、位置算符、截词符、限制符等系统允许使用的符、截词符、限制符等系统允许使用的各种符号组合而成。各种符号组

16、合而成。1.布尔逻辑检索布尔逻辑检索n 利用布尔(利用布尔(Boolean)逻辑算符,也称逻辑算符,也称布尔算符来表示数个检索项之间的逻辑布尔算符来表示数个检索项之间的逻辑关系,我们将之称为关系,我们将之称为“组配组配”,是计算,是计算机信息检索中最常用的一种方法。布尔机信息检索中最常用的一种方法。布尔逻辑算符有三种,它们分别是逻辑算符有三种,它们分别是逻辑或、逻辑或、逻辑与、逻辑非。逻辑与、逻辑非。 1)逻辑或)逻辑或 n 用用“OR”或或“+”表示。用于连接表示。用于连接并列关系并列关系的检索词,以的检索词,以扩大检索范围扩大检索范围,防止漏检,提高,防止漏检,提高查全率查全率。n 若检索

17、项若检索项 A 和和 B 用用“逻辑或逻辑或”进行组配时,进行组配时,提问式则可写成:提问式则可写成:A OR B A OR B 或者或者 A+BA+B n 其检索结果为:记录中凡含有检索项其检索结果为:记录中凡含有检索项 A 或者或者 B,也就是说,单独含有也就是说,单独含有 A 或者单独含有或者单独含有B,或者同时含有或者同时含有 A、B 两者,均为命中结果。两者,均为命中结果。 2)逻辑与)逻辑与 n 用用“AND”或或“*”表示。用于连接表示。用于连接概念交叉和限定关系概念交叉和限定关系的检索词,以的检索词,以缩小缩小检索范围检索范围,有利于提高,有利于提高查准率查准率。n 若检索项若

18、检索项 A 和和 B 用用“逻辑与逻辑与”进行进行组配时,提问式则可写成:组配时,提问式则可写成: A AND B 或者或者 A*B n 其意义是在检索时,记录中必须同时其意义是在检索时,记录中必须同时含有检索项含有检索项 A 和和 B 者,方为命中记录。者,方为命中记录。 3)逻辑非)逻辑非 n 用用“NOT”或或“-”表示。用于连接表示。用于连接排除关系排除关系的检索词,即排除不需要的和的检索词,即排除不需要的和影响检索结果的概念,以提高影响检索结果的概念,以提高查准率查准率。 n 若检索项若检索项 A 和和 B 用用“逻辑非逻辑非”进行进行组配时,提问式也可写成:组配时,提问式也可写成:

19、 A NOT B 或者或者 A-Bn 其意义是在检索时,记录中凡含有检其意义是在检索时,记录中凡含有检索项索项 A 而不含检索项而不含检索项 B 者,才为命中者,才为命中记录。记录。 n如果一个检索式中含有多个逻辑算符,如果一个检索式中含有多个逻辑算符,则它们将按照最先执行则它们将按照最先执行“NOT”,然后执,然后执行行“AND”,最后执行,最后执行“OR”的顺序进行。的顺序进行。n 若要改变其顺序可用加括号的办法,若要改变其顺序可用加括号的办法, 如如(A+B)*C 就先执行就先执行(A+B),其,其结果再结果再与与 C 进行逻辑进行逻辑“与与”运算运算。 2、词位限制技术词位限制技术 (

20、位置检索)(位置检索) 1) (W)与与(nW)算符算符 n W with 的缩写,的缩写,(W)(若若 W=1 时,时,则可简写为则可简写为“()()”) 表示其两侧的检索词表示其两侧的检索词必须按前后顺序排列,不可颠倒。必须按前后顺序排列,不可颠倒。 n (nW)中的中的 n 表示两检索词中间允许插入表示两检索词中间允许插入的单词数目少于或等于的单词数目少于或等于 n 个。个。 n 例如:检索式例如:检索式“building(1W)construction”在命中的记在命中的记录中除以上形式外,还可能会有录中除以上形式外,还可能会有“building and construction”,

21、“building under construction”等形式。等形式。 2) (N)与与(nN)算符算符 n N Near 的缩写,的缩写,(N)表示其两侧的检表示其两侧的检索词位置可以倒置,但在两词之间不能插入其索词位置可以倒置,但在两词之间不能插入其他字符;而他字符;而(nN)中的中的 n 表示允许插入单词的数表示允许插入单词的数目量少于或等于目量少于或等于 n 个。个。 n (nN)算符的作用亦是用来替代检索式中出算符的作用亦是用来替代检索式中出现的禁用词,不过两检索词的词序可以颠倒。现的禁用词,不过两检索词的词序可以颠倒。 n 例如:例如:information(1N)retrie

22、val 检检 索索 命命 中中 的的 文文 献献 记记 录录 中中 会会 有有 “ information retrieval ” 或或 “ retrieval of information”等形式。等形式。 3)(L)算符算符 n L Link 的缩写,的缩写,(L)表示其两侧的表示其两侧的检索词之间有主从关系,前者为主,后检索词之间有主从关系,前者为主,后者为副。者为副。 n 例如:例如:air pollution(L)control 命中记录的规范词字段中会有命中记录的规范词字段中会有 “AIR POLLUTION - Control” 的形式。式中的形式。式中的的AIR POLLUTI

23、ON为主标题词,而为主标题词,而 Control 则是副标题词。则是副标题词。 4 4) ( (S)S)算符算符 n S S Subfield Subfield 的缩写,的缩写,( (S)S)表示其两侧表示其两侧的检索词必须出现在同一子字段中,通常是指的检索词必须出现在同一子字段中,通常是指位于同一个句子或一个短语中,且词序不受限位于同一个句子或一个短语中,且词序不受限制。制。 n5 5) ( (F)F)算符算符 F F Field Field 的缩写,的缩写,( (F)F)表示其两侧的检表示其两侧的检索词必须出现在同一字段中,字段不限,词序索词必须出现在同一字段中,字段不限,词序亦不限。中间

24、可插任意检索词。亦不限。中间可插任意检索词。 n优先级依优先级依W N S F W N S F 顺序顺序 3、截词技术截词技术 (截词检索)截词检索)n 截词符截词符“?”是加在检索词的词干或不完是加在检索词的词干或不完整词形上,使词的意义完整以便进行检索。整词形上,使词的意义完整以便进行检索。 1 1)非限制截词)非限制截词 n 非限制截词就是在检索词的词干后面加一非限制截词就是在检索词的词干后面加一个截词符个截词符“?”“?”,向系统表示在此位置上可,向系统表示在此位置上可能出现的字母数量不受限制,即查找词干相能出现的字母数量不受限制,即查找词干相同的所有的词。同的所有的词。 n 例如:例

25、如:computer? computer? ,表示允许表示允许 computer computer 词后可带有其他任何字母且数量不限,相当词后可带有其他任何字母且数量不限,相当于查找于查找computer ,computers, computerize computer ,computers, computerize 等词。等词。 2 2)限制截词)限制截词n若干个限制截词符若干个限制截词符“?”放在词干上,放在词干上,像系统表示在此位置上允许出现相应数像系统表示在此位置上允许出现相应数目的字母。目的字母。 n例如:例如:plant? ,相当于查找相当于查找 plant, plants,pla

26、nted, planter 等词。等词。 n截词符截词符“*”代表任意个字符。代表任意个字符。 3)中间屏蔽中间屏蔽 n 在一个检索词中间插入一个或多个屏在一个检索词中间插入一个或多个屏蔽符,表示该词的屏蔽符处必须有与屏蔽符,表示该词的屏蔽符处必须有与屏蔽符个数相同的字符存在。蔽符个数相同的字符存在。 n 例如:例如: wom?nwom?n 相当于检索相当于检索 woman woman 或或women women 等词。等词。 4、检域限制技术检域限制技术 1)字段域限制字段域限制 n 字段检索可分为两类:后缀式和前缀式。字段检索可分为两类:后缀式和前缀式。n 后缀限定后缀限定(/)(/) :

27、指定在描述文献内容特征的字段指定在描述文献内容特征的字段(基本字段)中进行检索时用后缀限定形式。例(基本字段)中进行检索时用后缀限定形式。例如如: :carbon(w)dioxide/ti,abcarbon(w)dioxide/ti,ab n 意味着该检索式在题名意味着该检索式在题名( (titi) )和文摘和文摘( (abab) )中进行检中进行检索。索。 “ “titi”和和“abab”之间被默认是逻辑之间被默认是逻辑“或或”的的关系。关系。n 前缀限定(前缀限定(= =):指定在描述文献外表特征的字指定在描述文献外表特征的字段,(辅助字段,非主题性字段)中进行检索时,段,(辅助字段,非主

28、题性字段)中进行检索时,用前缀限定。用前缀限定。n例如:例如:au=Rankin,K.M.au=Rankin,K.M. la=Englishla=English 2)时间限制符时间限制符 (:)(:) n 如果需要查找一定范围内的文献,则如果需要查找一定范围内的文献,则可使用范围符。范围符可确定分类号、可使用范围符。范围符可确定分类号、年限、入藏号等的范围。年限、入藏号等的范围。 n 例如:例如:PY=1990:1999PY=1990:1999 2.4 计算机检索原理与检索步骤计算机检索原理与检索步骤n一、计算机检索的过程一、计算机检索的过程 用户用户利用计算机设备和通讯网络,利用计算机设备和

29、通讯网络,与与计算机信息检索系统计算机信息检索系统相连接,运用系相连接,运用系统特定的统特定的指令和检索方法指令和检索方法,组织,组织检索策检索策略略,从储存了大量记录的数据库中,从储存了大量记录的数据库中检索检索出出所需信息的过程。所需信息的过程。计算机检索流程 二、二、计算机信息检索的步骤计算机信息检索的步骤 1、分析课题分析课题 n1 1)研究课题的主题。)研究课题的主题。 n2 2)课题所涉及的学科范围。)课题所涉及的学科范围。 n3 3)课题所需信息的内容及其内容特征。)课题所需信息的内容及其内容特征。 n4 4)课题所需信息的类型)课题所需信息的类型 。n5 5)课题对查新、查准和

30、查全的指标要)课题对查新、查准和查全的指标要求。求。 2、选择检索系统及数据库选择检索系统及数据库 n1)内容和时间内容和时间 n2)手段和技术手段和技术 n3)价格和可获取性价格和可获取性 3 3、确定检索点、确定检索点 (选定检索词)(选定检索词)n 检索点是检索的入口。每个检索入口,都检索点是检索的入口。每个检索入口,都有相应的检索路径,称作有相应的检索路径,称作“检索途径检索途径”。有。有反映文献信息内容特征的检索点和反映文献反映文献信息内容特征的检索点和反映文献信息外部特征的检索点。信息外部特征的检索点。 4、构造检索式构造检索式 (制定检索策略)(制定检索策略)n 检索需要制定一种可执行的方案,即检检索需要制定一种可执行的方案,即检索式。检索式是检索策略的具体表述,它索式。检索式是检索策略的具体表述,它能将各检索项(其中最多的是表达主题内能将各检索项(其中最多的是表达主题内容的检索词)之间的逻辑关系、位置关系容的检索词)之间的逻辑关系、位置关系等用检索系统规定的各种组配符(也称算等用检索系统规定的各种组配符(也称算符)连接起来,成为机器可识别并执行的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论