信息检索技术_第1页
信息检索技术_第2页
信息检索技术_第3页
信息检索技术_第4页
信息检索技术_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二讲 信息检索技术课程主讲内容:课程主讲内容: 检索语言检索语言 检索技术检索技术 图书馆图书馆OPAC 中图法介绍中图法介绍信息检索基本原理信息检索基本原理 2.1 2.1 检索语言检索语言检索语言:检索语言:是描述是描述文献特征、用于标引和检索的人工语言。文献特征、用于标引和检索的人工语言。创建检索语言的目的,是建立沟通标引与检索的桥梁,也是创建检索语言的目的,是建立沟通标引与检索的桥梁,也是连接信息存储和检索两个过程中标引人员与检索人员双方思连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。路的渠道。在存储的过程中用于标引信息称为标引语言;在存储的过程中用于标引信息称为标引

2、语言;用于编制索引就称为索引语言;用于编制索引就称为索引语言;用于信息检索则称为检索语言。用于信息检索则称为检索语言。检索语言种类分类语言分类语言(classification languageclassification language)是用分类号表达各种概念的检索标)是用分类号表达各种概念的检索标识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语识,将各种概念按学科性质进行系统排列,反映科学知识分类体系的检索语言。言。主题语言主题语言(subject languagesubject language)是直接以表达文献主题的语词作为检索标)是直接以表达文献主题的语词作为检索

3、标识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。识,按字顺编排并通过参照系统等方法提示词间关系的检索语言。代码语言代码语言(code languagecode language)是对事物的某一方面特征用某种代码系统来加)是对事物的某一方面特征用某种代码系统来加以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以以标引和排列的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。的文献信息。自然语言自然语言是直接从原始信息中抽取出

4、来的未经规范化处理,用以揭示信息是直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言主题概念的检索语言。检索语言检索语言的类型的类型描述内容描述内容特征语言特征语言描述外表描述外表特征语言特征语言主题语言分类语言代码语言责任者题名其他自然语言受控语言n关键词语言(keyword) n标题词语言(heading) n单元词语言(uniterm) n叙词语言(descriptor)检索语言种类检索语言种类2.1.1 2.1.1 分类语言分类语言一种用分类号表达文献中的各种概念,并以学科性质为主一种用分类号表达文献中的各种概念,并以学科性质为主对各种概念加以分类和系统排列的文献

5、信息检索语言。对各种概念加以分类和系统排列的文献信息检索语言。通常以数字、字母或字母与数字相结合作为基本字符,通常以数字、字母或字母与数字相结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念。以基本类目作为基本词汇,以类目的从属关系来表达复杂概念。优点:清楚反映类目之间的内在联系,包括从属、并列、交替、优点:清楚反映类目之间的内在联系,包括从属、并列、交替、相关等。相关等。 体系分类法体系分类法 将分类表中的全部类目列举出来,并按照将分类表中的全部类目列举出

6、来,并按照特定的等级系统将信息组织起来的一特定的等级系统将信息组织起来的一 种种分类方式。分类方式。如:中国图书馆分类法中国图书馆分类法 杜威十进制图书分类法杜威十进制图书分类法(Dewey Decimal Classification,DC或DDC) 组面分类法组面分类法 整个分类表全部由复分表组成,只给出一些基本概念(有关时代、地域、民族、语种、著作类型、体裁以及学科的总论性问题等具有共性的子目)的划分标准,不给出实际使用的概念子项。 2.1.1 2.1.1 分类语言分类语言中图法中图法等级分明的科学系统等级分明的科学系统 O 一级类目一级类目 数数、理、化、理、化 O1 O3 O4 O6

7、 O7 二级类目二级类目 数学数学 力学力学 物理化学物理化学 晶体晶体 O11O12 O13 三级类目三级类目古典数学古典数学 初等数学初等数学 高等数学高等数学 O121 O122 O123 O124 四级类目四级类目 算术算术 初等代数初等代数 初等几何初等几何 三角三角2.1.1 2.1.1 分类语言分类语言国内外常用的分类法有:国内: (1).中国图书馆分类法 (2).人民大学图书馆图书分类法(人大法) 该分类法从1953起陆续在全国各图书馆试用,后经过多次修订再版,目前仍有许多图书馆采用该分类法。 (3).中国科学院图书馆图书分类法(科图 法) 该分类法主要用于中国科学院图书馆及其

8、所属各科研单位的图书馆(室)。国外: (1).杜威十进制分类法(Decimal Classification)简称为杜威法,DDC 或DC 目前世界上使用最广泛、影响最大的图书分类法,已用于130多个国家的图书馆,许多分类法均是借鉴于杜威分类法产生的。 (2).美国国会图书馆图书分类法(Library of Congress classification)简称为。 (3).国际十进分类法(Universal Decimal Classification)简称。 (4).国际专利分类法(International Patent Classification )简称 IPC。2.1.2 2.1.2

9、 主题语言主题语言主题:一组具有共性事物的总称,用以表达文献所论述主题:一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题,即文献的中心内容。和研究的具体对象和问题,即文献的中心内容。主题词:表达主题概念的词汇主题词:表达主题概念的词汇主题语言:以主题词作为文献内容标识和检索依据的语言,主题语言:以主题词作为文献内容标识和检索依据的语言,以自然语言的字符为字符,用一组名词术语作为检索标识以自然语言的字符为字符,用一组名词术语作为检索标识2.1.2 2.1.2 主题语言主题语言从形式上分从形式上分 正式主题词正式主题词非正式主题词非正式主题词 按照选词方式的不同划分按照选词方式的不

10、同划分 按照选词方式的不同划分按照选词方式的不同划分 标题词标题词单元词单元词叙词叙词关键词关键词2.1.2 2.1.2 主题语言主题语言最早使用的主题语言之一,以规范化的自然语义作为标识最早使用的主题语言之一,以规范化的自然语义作为标识来表示文献涉及的主题概念。其中表达主题的词语称为标题词来表示文献涉及的主题概念。其中表达主题的词语称为标题词从文献内容中抽选出来的最基本的词汇,将代表最一般、从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位最基本的、不可再分割的概念的词作为单独标引文献的单位单元词是构成标题词的组件,绝大部分单元词都不是具体

11、的标题。单元词是构成标题词的组件,绝大部分单元词都不是具体的标题。从自然语言中优选出来并经过规范化处理的名词术语。从自然语言中优选出来并经过规范化处理的名词术语。采用表示单元概念的规范化语词的组配,对文献内容特征进行描述。采用表示单元概念的规范化语词的组配,对文献内容特征进行描述。目前使用最广泛的主题语言目前使用最广泛的主题语言标题词语言标题词语言单元词语言单元词语言叙词语言叙词语言关键词语言关键词语言以关键词作为文献内容标识和检索依据的一种主题语言。以关键词作为文献内容标识和检索依据的一种主题语言。关键词:关键词:从信息单元的标题、层次标题、正文或摘要的内容中抽出的、从信息单元的标题、层次标

12、题、正文或摘要的内容中抽出的、能够表征信息主题内容的、具有实质意义的词语。能够表征信息主题内容的、具有实质意义的词语。关键词法不受词表控制,快捷简便。关键词法不受词表控制,快捷简便。关键词基本不经过规范处理,有时会影响文献信息的查全率和查准率关键词基本不经过规范处理,有时会影响文献信息的查全率和查准率。2.1.3 2.1.3 代码语言、自然语言代码语言、自然语言是指对事物的某方面特征,用某种代码系统来表示和排列事物是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。概念,从而提供检索的检索语言。通常用数字、字母或用它们结合的形式或以分段的方式来表示通常用数字、字

13、母或用它们结合的形式或以分段的方式来表示其各部分的含义。其各部分的含义。适用:适用:科技报告、专利文献科技报告、专利文献代码语言代码语言自然语言自然语言直接从原始信息中抽取出来的未经规范化处理,用以揭示信息直接从原始信息中抽取出来的未经规范化处理,用以揭示信息主题概念的检索语言。主题概念的检索语言。抽取出来的词包括抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、自由词、关键词、事物名称、科学术语、俗名、商品型号和缩写商品型号和缩写等,等,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,具有不用编制词表,及时跟上事物发展,准确表达事物新概念,选词灵活方便,专指性强,标引和检索速

14、度快等优点。选词灵活方便,专指性强,标引和检索速度快等优点。信息检索语言的未来信息检索语言的未来 图书馆学和情报学专家在对分类类目概念和主题词概念的词汇对应研图书馆学和情报学专家在对分类类目概念和主题词概念的词汇对应研究后证实,类目与主题词是可以完全对应、基本对应或组配对应的,为究后证实,类目与主题词是可以完全对应、基本对应或组配对应的,为编制类目与主题词对照表提供了可靠依据。分类法与主题法在原理的一编制类目与主题词对照表提供了可靠依据。分类法与主题法在原理的一致性,为实现分类主题一体化提供了基础致性,为实现分类主题一体化提供了基础。 分类法和主题法两种方法各有所长,分类语言与主题语言有机结合

15、,分类法和主题法两种方法各有所长,分类语言与主题语言有机结合,形成了分类主题一体化语言形成了分类主题一体化语言。 分类主题一体化的检索功能,就是用户除了可以独立进行分类检索和分类主题一体化的检索功能,就是用户除了可以独立进行分类检索和字顺检索并随意转换检索方式外,还能通过分类与主题的相互限定改变字顺检索并随意转换检索方式外,还能通过分类与主题的相互限定改变检索范围,达到最佳的搜索效果检索范围,达到最佳的搜索效果。分类主题一体化分类主题一体化2.2 2.2 常用检索途径常用检索途径 “检索途径检索途径”(approach)(approach)又称为检索点(又称为检索点(access pointa

16、ccess point), ,是检索的入口点和出发点是检索的入口点和出发点 利用信息的外部特征利用信息的外部特征( (题名、责任者、著者和出版者等题名、责任者、著者和出版者等) )和内容特征和内容特征( (分类号、主题词分类号、主题词和关键词等和关键词等) )来查询相关的信息来查询相关的信息 从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。检索目的。 反映文献信息内容特征:分类检索和主题检索;反映文献信息内容特征:分类检索和主题检索; 反映文献外部特征:作者、名称和号码检索等。反映文献

17、外部特征:作者、名称和号码检索等。 检索语言与检索途径的关系检索语言与检索途径的关系 2.3 2.3 常用检索技术常用检索技术检索技术检索技术利用光盘数据库、联机数据库、网络数据库、搜索引擎等利用光盘数据库、联机数据库、网络数据库、搜索引擎等进行信息检索时采用的相关技术。进行信息检索时采用的相关技术。常常 用用布尔逻辑检索布尔逻辑检索截词检索截词检索字段检索字段检索词位置检索词位置检索特殊检索特殊检索短语检索短语检索大小写检索大小写检索后几种检索技术,使用运算符连接,组合成检索式2.3.1 2.3.1 布尔逻辑检索布尔逻辑检索用布尔逻辑算符用布尔逻辑算符(Boolean Logic opera

18、tor)(Boolean Logic operator)将检索词、短语或代码进将检索词、短语或代码进行逻辑组配来指定文献的命中条件和组配次序,用以检索出符合逻辑行逻辑组配来指定文献的命中条件和组配次序,用以检索出符合逻辑组配所规定条件的记录。也是目前最常用的一种检索技术。组配所规定条件的记录。也是目前最常用的一种检索技术。 逻辑与逻辑与AND AND * * 与与 并且并且并含并含 空格空格逻辑非逻辑非NOT, - NOT, - 非非不含不含排除无关排除无关结果结果提高查准率提高查准率逻辑或逻辑或OR + OR + 或者或者 扩大搜索范围,扩大搜索范围,提高查全率提高查全率2.3.1 2.3.

19、1 布尔逻辑检索布尔逻辑检索逻辑“与” 具有具有概念交叉或概念限定关系概念交叉或概念限定关系的组配,用的组配,用“* *”或或“AND”AND”算符表示(搜索引擎常用算符表示(搜索引擎常用“空格空格”表示)。表示)。 检索词检索词A A和检索词和检索词B B用用“与与”组配,检索式为:组配,检索式为:A AND BA AND B,或者,或者 A A * * B B 它表示检出它表示检出同时含有同时含有A A、B B两个检索词两个检索词的的记录。记录。 例:图书馆教育 library AND educationlibrary AND education2.3.1 2.3.1 布尔逻辑检索布尔逻辑

20、检索逻辑“或”一种具有一种具有概念并列关系概念并列关系的组配,用的组配,用“OR” OR” 或或“+”+”或或“|”“|”算符表示算符表示检索词检索词A和检索词和检索词B用用“或或”组配,检索式为:组配,检索式为:A OR BA OR B,或者,或者 A AB B 它表示检出它表示检出所有含有所有含有A词或者词或者B词词的记录的记录。 例:例: 会计会计准则准则 OR OR 会计核算会计核算 2.3.1 2.3.1 布尔逻辑检索布尔逻辑检索逻辑“非”逻辑逻辑“非非”是一种是一种具有概念排除关系具有概念排除关系的组配,用的组配,用“NOT” NOT” 或或“”算符表示。算符表示。检索词检索词A

21、A和检索词和检索词B B用用“非非”组配,检索式为:组配,检索式为:A Not BA Not B,或者,或者 A-BA-B它表示检出它表示检出含有含有A A词,但同时不能含有词,但同时不能含有B B词词的记录。的记录。例:例:能源-太阳能 2.3.2 2.3.2 截词检索截词检索定义:用给定的词干做检索词,用以检索出含有该词干的全部检索词的记录。作用:扩大检索范围、提高查全率、减少检索词的输入量、节省检索时间等作用。扩大检索范围、提高查全率、减少检索词的输入量、节省检索时间等作用。用法:遇到名词的单复数形式、词的不同拼写法、词的前缀或后缀变化时遇到名词的单复数形式、词的不同拼写法、词的前缀或后

22、缀变化时 均可采用此方法。均可采用此方法。2.3.2 2.3.2 截词检索截词检索n后截断后截断n中截断中截断n前截断前截断无限截断如: economic? ?有限截断economiceconomicseconomicsteconomiceconomicseconomicst如: economic*如:wom?nwomanwomen如: ?lish sul*ur sulfur sulphur 无限截断有限截断n前后截断前后截断如: ?computer?可检出: computer、computers、 computerize、computerized、minicomputer、minicompu

23、ters、microcomputer、microcomputers economicalism2.3.3 2.3.3 字段检索字段检索将检索词限定(将检索词限定( WithinWithin )在某个或某些字段中,用以检索某个或某些字段含有)在某个或某些字段中,用以检索某个或某些字段含有该检索词的记录。该检索词的记录。方式方式1 1、通过下拉菜单选择检索字段。此时,字段名一般用全称表示。、通过下拉菜单选择检索字段。此时,字段名一般用全称表示。 2.3.3 2.3.3 字段检索字段检索方式方式2 2、输入检索字段符限定检索字段。、输入检索字段符限定检索字段。 注意:注意:相同的字段在不同的数据库,

24、代码可能不同,相同的字段在不同的数据库,代码可能不同, 检索时需要参阅数据库代码表。检索时需要参阅数据库代码表。 2.3.4 2.3.4 词位置检索词位置检索又称为又称为“临近检索临近检索”,在检索词之间使用位置算符来规定,在检索词之间使用位置算符来规定算符两边算符两边的检索词的检索词出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定要求的记录。要求的记录。类类 型型词级位置算符词级位置算符子字段级算符子字段级算符字段级算符字段级算符W、(nW)N、(nN)SF2.3.4 2.3.4 词位置检索词位置检索W算

25、符算符“With”With”的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序的缩写,表示此算符两侧的检索词必须按此前后邻接的顺序排列,排列,顺序不可颠倒顺序不可颠倒,而且检索词之间,而且检索词之间不允许有其他的词或字母不允许有其他的词或字母,但允许有空格、标点或连字符号。但允许有空格、标点或连字符号。例例: : economic(W)recovery可检出含可检出含economic recovery和和economic-recovery的记录。的记录。 Wuhan(W)university :Wuhan University, Wuhan - University , 或Wuhan, Un

26、iversity(nW)此算符两侧的检索词之间此算符两侧的检索词之间允许插入允许插入n n个实词或虚词个实词或虚词,但两个检索词的,但两个检索词的次序还是不能颠倒。次序还是不能颠倒。例:economic(nW)recovery 通过Google检出结果网页:https:/.hk/?gws_rd=ssl#q=economic(neW)+recoveryhttps:/.hk/?gws_rd=ssl#q=economic(neW)+recovery& &newwindownewwindow=1&safe=1&safe=strict&startstrict&start=10=102.3.4 2.3.4

27、 词位置检索词位置检索N算符算符例例: : Wuhan (N) universityWuhan University, Wuhan - University ,或Wuhan, UniversityUniversity, Wuhan ; University - Wuhan; University WuhannN此算符两边的此算符两边的检索词之间插入词的最多数目是检索词之间插入词的最多数目是 n n 个个,且两个检索词的,且两个检索词的次序可以任意颠倒次序可以任意颠倒。例:economic(nN)recovery 通过Google检出结果网页:https:/.hk/?gws_rd=ssl#q=e

28、conomic(nN)recovery&newwindow=1&safe=strict&nfpr=1&start=20“Near”Near”的缩写,表示此算符两侧的检索词彼此的缩写,表示此算符两侧的检索词彼此必须相邻接必须相邻接,但两个检索词的但两个检索词的前后关系可以颠倒前后关系可以颠倒, , 即查找两个连在一起的单词,即查找两个连在一起的单词,但但两词之间不能插入任何词,可以有两词之间不能插入任何词,可以有空格、标点或连字符号。空格、标点或连字符号。2.3.4 2.3.4 词位置检索词位置检索S算符算符F算符算符“Field”的缩写,表示在此运算符两侧的检索词必须的缩写,表示在此运算符两侧

29、的检索词必须同时出现在文献记录同时出现在文献记录的同一字段内的同一字段内,如出现在篇名字段、文摘字段、叙词字段、自由词字段,如出现在篇名字段、文摘字段、叙词字段、自由词字段,但两个词的但两个词的前后顺序不限前后顺序不限,夹在两个词之间的,夹在两个词之间的词的个数也不限词的个数也不限。要求被连接的检索词出现在要求被连接的检索词出现在同一的字段中同一的字段中,字段类型和词序均不限。,字段类型和词序均不限。例:例: environmental(F) impact/DE,TIenvironmental(F) impact/DE,TI表示这两个词必须同时出现在叙词表示这两个词必须同时出现在叙词 字段和篇

30、名字段中。字段和篇名字段中。是是“Sub-field/Sentence”的缩写,表示在此的缩写,表示在此运算符两侧运算符两侧的检索词的检索词只要出现在记录的只要出现在记录的同一个子字段内(例如在文摘中的一个短语、句子同一个子字段内(例如在文摘中的一个短语、句子就是一个子字段)就是一个子字段),此信息即被命中。要求被连接的检索词必须同时,此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中不限制它们在此子字段中的相对次序的相对次序,中间插入词的数量也不限中间插入词的数量也不限。例:例: “high(W)str

31、ength(S)steel”表示只要在同一句子中检索出含有“high strength ”和“steel”形式的均为命中记录。2.3.5 2.3.5 特殊检索技术特殊检索技术短语检索短语检索大小写检索大小写检索在某些检索系统中,还使用在某些检索系统中,还使用双引号双引号“ ” 标示不可分割的词组或短语标示不可分割的词组或短语,例:例:“tax accounting”,在检索结果中,在检索结果中tax accounting必须是必须是连在一起的词组,才能专指税务会计连在一起的词组,才能专指税务会计。针对大小写具有不同含义的单词或词组,在检索时需要注意其大小写针对大小写具有不同含义的单词或词组,在检索时需要注意其大小写格式,才能保证检索结果的准确性。格式,才能保证检索结果的准确性。例:例:CHINA CHINA 中国中国 china china 瓷器;瓷器;APPLE APPLE 苹果手机苹果手机 apple apple 苹果苹果 Windows AND design 视窗设计 windows AND design 窗户设计2.3.6 2.3.6 检索式检索式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论