第二讲文献信息检索的基本原理和过程.ppt_第1页
第二讲文献信息检索的基本原理和过程.ppt_第2页
第二讲文献信息检索的基本原理和过程.ppt_第3页
第二讲文献信息检索的基本原理和过程.ppt_第4页
第二讲文献信息检索的基本原理和过程.ppt_第5页
已阅读5页,还剩195页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、科技文献检索,套用阮冈纳赞的图书馆定律 为信息找人 为人找信息 为信息找需要的人 为人找需要的信息,文献检索基本原理图,文献信息检索 的基本原理和过程,1检索的本质 一种搜索过程 从已存储的文献资源中找出与需求相关的文献 匹配: 信息需求信息集合,信息检索的原理(示意图),信息集合,需求集合,特征化,表示,表示,特征化,选择与匹配,存储,查询,信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:,检索系统,检索工具: 目录、索引,字典,汉语拼音音节索引,部首检字表,用拼音著录汉字,用部首著录汉字,检索途径,检索语言,汉字,文献检索的概念(p20),2 检索工

2、具的概念 报道、存贮和查找文献的工具 两方面的职能: 存储职能:著录文献的特征,依据一定的规律组织排列,使文献由无序变为有序。 检索职能:能够从中检出所需要的文献线索“ 书海指南”,3 检索工具的类型,目录(bibliography,catalogue) 题录(title) 文摘(abstract) 索引(index) 文献数据库(database),3.1 目录,特点:以单位出版物为著录对象只著录外部特征 著录款目为:书名,刊名,著者或编者,出版项,页数等。如全国总书目全国新书目 公共书目查询 OPAC系统online public access catalog 反映图书馆的馆藏情况及收藏地

3、点 目前图书、期刊(包括电子期刊)及多媒体光盘等资源均统一编目,可以在同一个检索界面下得到馆藏信息。 联合目录 反映多个图书馆的馆藏情况,是解决本馆缺藏资料的有用工具 全国西文期刊联合目录,目录(Bibliography Catalogue) 它是历史上出现较早的一种检索工具。我国西汉的刘向、刘歆的别录、七略是我国历史上最早的目录。 出版发行目录:为图书发行与销售而编制的目录,其目的是预告即将出版的新书,通报在版的图书和书商的存书。 馆藏目录:它是反映某个图书馆藏书情况,是帮助读者查找和借阅图书的工具。 有分类目录、书名目录、著者目录。 联合目录:指由一批图书馆合作编制的,综合反映各成员馆某一

4、方面图书收藏情况的目录。如图书联合目录,期刊联合目录。 资料来源目录:就是文摘刊物所摘录过的一次情报源目录(又称资料来源索引和引用期刊目录),通过Internet 查询馆藏联机公共书目,1、OPAC 原意:开放的公共查询目录(Open Public Access Catalogue) 现意:联机公共查询目录(Online Public Access Catalogue) 联机公共书目(Online Public Access Catalogue,OPAC)查询是网上图书馆提供的一项最基本的、也是最重要的信息查询服务。 通过查询图书馆OPAC ,了解图书馆是否收藏所需期刊以及其流通借阅状况,以决

5、定自己是否去图书馆借阅。,联机书目的用途,TIPS:,分类号是分类检索的重要线索,TIPS:,查看借阅状态以决定是否到馆借阅,?,用分类号检索与用关键词/主题词检索的各自的优缺点,3.2 题录,以单篇文献为著录对象只著录外部特征 著录项目及格式: 顺序号.正题名=并列题名类型,文种/主要著者;其它著者/文献出处项(出版物名称. 年,卷,期,. 页) 例如:200008568 我国食品与包装机械市场预测刊 /田恒真(中国农机院食品研究所)/包装与食品机械. 2000, 18(1) . 1-5,3.3 文 摘,是以“篇”为单位描述文献的外部特征和简介文献的内容要点、由许多文摘款目构成并经过组织编排

6、的一种检索工具。又称文摘杂志(abstract journal,abstracting journal)、文摘刊物,可以看作一种带有摘要的题录,它是二次文献的核心。如美国的化学文摘、 CNKI的中国期刊全文数据库。,037840 Algorithm for fuzzy multi-criteria decision-making. This paper presents a new algorithm for solving the general fuzzy multi-criteria decision making(MCDM) problem involving fuzzy data e

7、xpressed by means of linguistic terms. (Author abstract) 14 Refs,English. Yeh,Chung-hsing(Monash Univ,Clayton,Aust);Deng,Hepu. Proc IEEE Int Conf Intell Process Syst ICIP v.2.1998 Proceeding of Systems,ICIPS. Part 2(of 2), Beijing,China,IEEE,Piscataway,NJ,USA,p1564-1568.,索引,确切地说,索引是将文献的各种知识单元按一定的原则和

8、方法组织编制而成的检索工具;或是将文献中具有检索意义的文献特征标识(文献题名、著者、分类号、主题词、序号等)加以编排,并注明文献地址供检索使用的检索工具。一般作为目录、文摘、题录等检索工具的辅助索引而存在,如全国报刊索引后附的“作者索引”、CA的“Keyword Index” 等。但也可单独出版,如十三经索引。 有时,索引与题录、文摘名称混用,如全国报刊索引、美国“四大索引”(四大检索工具) 四大检索工具:指SCI(Science Citation Index,科学引文索引) 、EI(The Engineering Index,工程索引)、ISTP(Index to Scientific &

9、Technical Proceedings,科技会议录索引)和 ISR(Index to Science Review,科学评论索引) ,是国际公认的四大权威(索引)检索工具。 三大检索工具: SCI、 EI、 ISTP。,为什么要编索引? 目录、题录、文摘的款目相当多,查起来很不方便。 索引是怎样产生的:是将文摘款目、题录款目、目录款目中的知识单元,如题名、著者、主题词、地名、符号等分别摘录下来,并按一定的顺序排列,注明相应的页码、文摘号或题录号。“检索工具之需要索引犹如行船需要舵”,船没有舵就不能航行,检索工具没有索引很快就会成为一堆废纸,甚至就不能成其为检索工具了。,几种常用的索引:,题

10、名索引: 这种索引就是把每篇文献的题名抽出来,按一定的顺序排列起来,并注明出处(页码或文摘号),一般按题名的汉语拼音音序排列,第一个字相同时,再按第二个字排列,以此类推。 例如:轮船技术的发展 (l) 3页 汽车的后轮定位 (q、ch) 1页 汽缸的保养 (q、g) 6页,著者索引:,这种索引就是把每一篇文献的著者抽出来,按一定的顺序排列起来,并注明相应的页码或文摘号。 我国编制的著者索引多是按著者姓名的第一个字的汉语拼音音序排列。第一个字相同时,再按第二个字顺序排列,以此类推,外文名字按外文字母顺序排列,主题索引,什么是主题词:主题词就是用规范化的词语来标引文献的主题概念的词,这个词就叫主题

11、词(后面讲检索语言时要详细介绍)。 主题索引:就是把每一篇文献的主题词分别抽出来,按一定的顺序排列起来,一般是用词的第一个字母的汉语拼音顺序排列,然后注明出处(页码或文摘号)。,分类索引,分类索引是把每一篇文献的分类号(用分类号标引文献主题内容)抽出来,按照特定分类法的类目体系进行编排的一种索引。并在类号后面注明相应的出版 国内外绝大多数检索工具都编有此种索引,检索时首先根据所查课题内容确定分类号,利用分类索引找到相对应的出处(页),然后根据出处到正文中查到所需文献的线索,著者索引为,ch 陈志国 9607055 h 黄忠辉 9607082 m 毛荣华 9607071 s 孙淑香 960705

12、5,题名索引,G F 高坊岭互通式立交桥设计 9607055 G L 公路工程造价控制浅议 9607071 N 南北高架道路 9607082,主题索引,高架桥 9607082 公路工程 9607055 互通立交 9607071,4检索的手段 手工检索检: 书本型工具(目录索 引)计算机检索: 文献数据库系统,5检索的类型 事实检索 事实fact 数据data (直接, 确定) Reference book Numeric Database Property Database Textual-numeric Database Full-text Database 目录检索 目录 catalog

13、文献索引index, 文摘abstracts (间接相关) 图书/报刊/资料目录 :中国国家书目 全国总书目 Book in Print 美国Bowker 收藏: 馆藏目录 联合目录(Union Catalog) 媒体: 印刷型目录 机读型目录 MARC Online Public Access Catalog(OPAC) 联机公共检索目录 OCLC: Online Computer Library Center全文检索 全文数据库检索(full-text database) 如:中国期刊网,1)事实检索,事实检索是对包括事实(fact)、数值(numeric data)与全文(full-te

14、xt)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如: “我国最近一年在SCI上被收录的文献量是多少?” “有哪些海外华人得过诺贝尔奖?” 工具: 字典、词典(dictionary) 百科全书(encyclopedia) 年鉴(annual, yearbook, almanac) 手册(handbook, manual) 名录(biography)和书目指南(directory) 数据库属于源数据库:全文数据库、数值数据库、文本数值数据库、术语数据库、图象数据库、多媒体数据库,2)目录检索:目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。,按性质:登记书目(出版、

15、馆藏情况)、科学通报书目等;按所涉的学科范围:综合书目、专科书目、专题书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等;按收录的文献类型:图书目录、报刊目录、来源目录等;按所涉的地域:国家书目、联合目录和馆藏目录等;按其媒体:卡片目录、书本目录、磁带目录和机读目录等。 目录检索系统数据库属参考数据库。 经常使用的目录有:馆藏目录、联合目录、机读目录等,3)文摘索引检索,文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处(source),也常带有文献的内容摘要,但不是文献原文。EI、SCI、INSPEC等 文摘索引检索是能揭示到文章、论文级(article-

16、level)的检索,这些文章大量的是来自期刊及会议论文集。按其报道的学科范围:综合性和专业性检索工具;按其取材范围:多种出版物类型和单一出版物类型工具;按其著录方式:题录型和文摘型检索工具;按其媒体:书本型、电子型检索工具等。,6 检索途径(检索点),用文献各种内外特征,作为检索出发点, 从不同角度来检索文献信息. 作者(文章的责任者)根据著者姓名检索文献的途径 篇名(或题名)根据文献篇名检索文献的途径。 机构(如浙江工业大学) 关键词(如污水处理、高层建筑)利用关键词索引,根据关键词字顺检索文献的途径。关键词是不加规范或略加规范的自然语言。 主题词(规范化的主题概念,如用激光不用雷射)通过文

17、献的内容主题检索文献的途径。主题词是规范化的名词术语,其规范工具是主题词表。 文摘(论文或图书的摘要或内容提要) 引文(即参考文献) 基金(如国家自然科学基金项目) 刊名(期刊的名称) 全文(或者全记录),EI的检索实例,检索标识种类,反映文献外部特征 检索标识,反映文献内容特征 检索标识,著者,文献序号,篇名 出版社,分类号,主题词,关键词,人工语言,自然语言,分类语言,7 检索语言及标引方法,概念及原理 描述文献信息特征和表达检索提问的人工语言。 检索语言在标引和检索过程中的作用见下图:,不同的检索语言构成不同的标目及其索引系统,提供各种检索点。,检索语言的种类,中国图书馆分类法(第4版)

18、,中图法简表,O 数理化 一级类目 O1 数学 二级类目 O3 力学 二级类目 O31 理论力学 三级类目 O311 运动学 四级类目 .1 质点运动 五级类目 O4 物理学 二级类目,中国图书馆分类法样例,中图法基本类表和辅助表,(1) 基本类表:用于类分图书。 (2) 辅助表:又分通用复分表和专用复分表二种。 通用复分表又分: 总论复分表 中国时代表 世界地区表 世界种族与民族表 中国地区表 中国种族与民族表 国际时代表 通用时间、地点表。 专用复分表是仅适用于某一大类或专门学科的复分表,编制“专类复分表”,供需要复分的各类仿照复分。,分类标引方法: 崔文风著 心理与人生发展心理教子成长

19、心理与人生完善心理事事成功 心理与人生调节心理强身治病 分别分入: G78、 B848.4 和R395.6-49,图书的排架顺序: 分类号:先英文字母排,后阿拉伯数字按小数制排 书次号: 分类号相同的,再按书次号的顺序排 H31,H313,H313-44,H313.1, ; H315, ; H316,;H32,H326,;H33, ;H336,索书号(call number) 又称为排架号,反映了某种图书在整个图书组织中的排列次序和在书库中的具体位置(架位) 组成:分类号书次号 分类号:按学科分类图书 书次号:同类书的排列 O13/245, O175/25, O189.1/2,中国图书馆图书分

20、类法,杜威十进分类法 (DDC) ( Dawey Decimal Classification and Related Index ) 是世界上比较流行,也比较权威的一种图书分类方法。由美国图书馆学家麦维尔杜威于1876年首创,它由大类、门、纲、目、子目等组成。 它将全部学科的书刊分为九大类,用1到9间的数字表示,不属于这九类中的图书为第0类。每一大类下再分1到9个子类,依此类分下去。,000 总论 100 哲学 宗教 社会科学 语言学 纯粹科学 技术科学 美术 800 文学 900 历史,国际十进分类法(UDC),UDC已有23种语言的版本。 UDC的类目表主要由主表与辅助符号、辅助表组成。

21、UDC的主表把全部知识分为十大门类,每一类下分大纲、目、分目。UDC基本分类如,0 总论 1 哲学、心理学 2 宗教、神学 3 社会科学、法律、行政 4 语言学 5 数学、自然科学 6 应用科学、医学、工学、农学 7 艺术、美术、摄影、音乐、娱乐、竞技 8 语言学、文学 9 地理、传记、历史,美國國會圖書館分類法各大類及其順序如下: AGeneral Works (總類) BPhilosophy. Psychology. Religion (哲學/心理學/宗教) CAuxiliary Sciences of History (歷史輔助科學) D-FHistory (歷史) GGeography

22、. Maps. Anthropology. Recreation (地理/地 圖/人類學/休閒娛樂) HSocial Sciences (社會科學) JPolitical Science (政治科學) KLaw (法律) LEducation (教育) MMusic (音樂) NFine Arts (美術) PLiterature & Linguistics (文學/語言學) QScience (自然科學) RMedicine (醫學) SAgriculture (農業) TTechnology (技術) UMilitary Science (軍事學) VNaval Science (海事科學

23、) ZBibliography. Library Science (書目學/圖書館學),直接查找法 熟悉分类表,按学科体系从大类开始逐级查找 l 对于只存在一个主题的课题,方法就较简单。如“机械手”。当要求的主题过于狭窄,没有相应类目存在,可归属在其上位类。 l 对于包含有两个以上主题内容的课题,如“机械手的控制系统”涉及“机械手”和“控制系统”两个主题概念,这时应考虑它们的主从关系,在这个课题中研究的是仅针对机械手而言的控制系统,可以说是控制系统在机械手中的应用,当研究某种理论、方法、工艺等在某领域的应用时,应分在其应用的类目,即“机械手”所在类目。,确定分类号的方法有以下二种:,l 对有两

24、个主题,又没有主次或应用关系的课题,则在检索相关文献时应分别在两个分类号或两个主题领域中查找。如加入WTO对我国纺织业的影响。 间接获取分类号法 当手头有现成的对口文献或通过其它方法如主题方法查到的对口文献,则可利用该文献标出的分类号,进行分类查找。,我馆馆藏中“英语”方面的藏书情况,(2)主题法,主题整序的步骤通常是依据信息单元的内容选取38个主题词,然后再将各信息单元按主题词字顺为序排列。主题词的选取必须满足以下要求:必须从被整序的信息单元所包含的内容中选取;必须是能够代表信息单元主题的词语,尽可能地使其概念单一、准确;尽可能地选择规范词,学术性文献应选择正式出版的汉语主题词表中所列的规范

25、词,公文用主题词应选择国务院办公厅发布的国务院公文主题词表中所列的规范词。,如果实在没有规范词,或不熟悉主题词表,可采用本学科内使用比较通用的、使用频率较高的词语。这些非规范的词被称为“关键词”。,主题语言,由主题词汇构成,即将自然语言中的名词术语经过规范化后直接作为信息标识,揭示主题概念之间的关系。 主题语言表达的概念比较准确,具有专指性,不同的专业领域或不同的数据库(一般为外文数据库)有自己的主题词表。,主题语言,1 关键词 2 叙词 3 标题词,属规范化词汇,属自然语言,关键词,关键词检索为大多数计算机检索系统采用。 使用直接来自文献或用户提问的一类检索语言。 优点:关键词检索文献既方便

26、又准确,不受词表控制,能及时检索到最新概念的各类文献。可任意选取专指性强的词语,提高查准率。词量大。 缺点:容易产生的误检、漏检。原因有: 1.取名的多样:同物异名、全名与简称、异称(学名、俗名、音译名。) 2. 构词的多样:派生词、单复数、拼写变体 3. 大量的复合词,例有一篇名为“计算机在神经生物学与行为学 中的应用”的文献(文献号为0007) 析出三个关键词:计算机、神经生物、行为学 将这三个款目按汉语拼音字母顺序分别排在 “J”、“S”、“X”等字顺里 轮排关键词 计算机、神经生物、行为学 0007 神经生物、计算机、行为学 0007 行为学、计算机、神经生物 0007 检索时无论从哪

27、个关键词入手都可查找到这 一文献,规范化主题词(叙词、标题词),叙词是主题语言的高级形式。是以较正规和正式的科学名称为基础组织而成一种主题法检索标识系统。由在概念上不可再分的基本概念单元词汇组成,检索时可以利用这些单元词进行组配,以表达一个复杂的概念。叙词表作为检索过程必不可少的辅助工具,由检索工具出版单位编制,专书专用。是由二次文献编撰单位出版的限制使用的主题词体系。 如:课题: 太阳能热水器研究 汉语主题词表中正式主题是太阳能利用、太阳能加热等代替。,叙词表(字顺表、等级表),字顺表如: acoustic wave velocity UF acoustic velocity NT ultr

28、asonic velocity (Narrower Term) BT velocity (Broader Term) TT velocity Top Term RT acoustic dispersion Related Term acoustic impedance CC A4300 A5140 Classification Code DI January 1973 Date of Input,词族表 computer applications administrative data processing distributive data processing computerized s

29、ignal processing computerized pattern recognition computerized picture processing computer-generated holography,什么是概念组配,概念组配是叙词语言的基本原理。 概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:,字面组配 模拟+控制-模拟控制 香蕉+苹果-香蕉苹果,概念组配 模拟+控制-模拟控制 香蕉味食品+苹果-香蕉苹果,汉语主题词表简介:,该词表是目前世界上最大的一部叙词表,它

30、可供科技情报部门和图书馆标引、存贮和检索图书文献资料之用,是文献情报工作者和读者之间的思维桥梁。 汉语主题词表包括主表、附表、词族索引、范畴索引和英汉对照索引五部分。 主表与附表的主题词之和构成了汉语主题词表的全部主题词。 附表中的词汇按一定的范畴集中的。 范畴索引中的主题词并不包括附表中的主题词,词表共分三卷十分册,第一卷 社会科学 第一分册 主表(字顺表AZ) 第二分册 索引(词族、范畴和英汉对照索引) 第二卷 自然科学 第一分册 主表(字顺表AF) 第二分册 主表(字顺表GL) 第三分册 主表(字顺表MT) 第四分册 主表(字顺表UZ) 第五分册 词族索引 第六分册 范畴索引 第七分册

31、英汉对照索引 第三卷 附表,汉语主题词表 10个分册,a) 主表中收录的主题词分为正式主题词和非正式主题词两类,其正式主题词用于文献标引和检索,非正式主题词是标引和检索文献的导引词,即指引使用者从该表不采用的主题词去找采用的主题词(非正式主题词是正式主题词的同义词、准义词等)。表中全部主题词款目均按汉语拼音字顺排列,并在每一个主题词款目下,根据不同需要分别设有“Y”(用)、“D”(代)、“F”(分)、“S”(属)、“Z”(族)、“C”(参)等参照项,作为选词和扩大检索的依据。,如汉语主题词表(简称汉表)中的例子: Taocijiezhi dianrongqi 陶瓷介质电容器54RG Ceram

32、ic dielectric capacitor D 陶瓷电容器 F 半导体瓷介电容器 穿心式瓷介电容器 大功率瓷介电容器 独石瓷介电容器 S 无机介质电容器 Z 电容器,附助索引:,词族索引:又称族系索引,是把主表中具有种属关系,部分与整体关系和包含关系的正式主题词;按其本质关系展开全显示的一种词族系统。索引以族首词主题字顺组织排序。 范畴索引:范畴索引又称分类索引,它是按照学科范畴并结合词汇分类的需要,把主表中全部主题词编列成分类系统,以便从分类的角度查找与某一范畴内容有关的主题词,它是主表的一种附助索引。 英汉对照索引:该索引按主题词英文译名排列,是标引和查找英文图书资料时,通过英文译名来

33、选择汉语主题词的一种辅助工具。,附表: 附表是从主表派生出来的一种专用词汇表,包括:世界各国政区名称、自然地理区划名称、组织机构名称和人名。它是主表不可分割的组成部分。,主题词表的作用是:,(1)确定课题的检索用主题词 主题词表的字顺表用标识符号将非主题词指引到其主题词,如:义务教育 用 普及教育。 对于无法利用字顺表确定检索用主题词时,可采取如下办法: A 将检索者自拟的标题倒置,再试查。 B 利用拟定概念词的同义词试查。 C 利用拟订概念词的上位词试查。 D 利用词表范畴表,由上向下逐级试查。 (2)调整检索范围 A 利用字顺表的相关参照提示,扩大检索范围。 B 利用范畴表(词表分类表)调

34、整检索范围。,EI中的词表功能,文献检索方法分类表,检索方法,追溯法,工具法,交替法,传统追溯法,引文追溯法,顺查法,倒查法,抽查法,直接交替法,间隔交替法,1工具法(常用法),直接法是指直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。 顺查法顺查法是指按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。 倒查法倒查法是由近及远,从新到旧,逆着时间的顺序利用检

35、索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。 抽查法抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。,2 追溯法(引文法),追溯法是指利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大信息来源的方法。它还可以从查到的“引文”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。 缺点:查全率、查准率较低,易误检漏检,追溯法原始文献,追溯法原始文献所附的参考文献,传统追溯法,利用参考文献 使用时最好先查找出几篇与课题有关的专

36、著或述评,这类文献往往附有大量的参考文献。以此作为起点进行追溯: 述评 参考文献 原始文献 参考文献 这样步步回溯,直到满足检索需要为止。 这种方法不依赖检索工具,但文献信息越查越旧。,引文追溯法,这是一种依靠引文索引工具进行追踪查找文献的方法。从被引文献入手查到引用文献: 被引文献 引用文献(被引文献) 引用文献(被引文献) 如此循环,直到满足检索需要为止。 这种方法依赖引文索引工具,但文献信息越查越新。,返回,3交替法,综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用

37、检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止。 综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。,直接交替法,是指先使用检索工具查出一批有用文献,然后利用这些文献内的参考文献或引用文献线索追溯查找,获得更多的有用文献(即先用工具法,后用追溯法,不断交替使用)。 反之,也可以先用追溯法,后用工具法,不断交替使用。,间隔交替法,因为引用参考文献有这样一个特点:五年之内的重要文献,一般都会被引用。所以,可以跳过五年左右,再用工具法查找,查出一批有用文献,再进行追溯。如此循环,间隔的交替使用两种检索方法,

38、直到满足课题检索要求为止。,9数字资源的检索技术,1.布尔逻辑检索技术,布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法 主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或(OR)、逻辑非(NOT),三、信息检索常用方法,(一)布尔逻辑: 用布尔逻辑算符来表达检索词间的逻辑组配关系,是最基本、最常用的检索技术。 -逻辑或(+,OR):表达检索词间的并列关系。可扩大检索范围,提高查全率。如:A+B,表明结果中含有A或B都为检索命中,A,B,-逻辑与(*,AND):表达检索词间的交叉关系。可缩小检索范围,提高查准率。如:A*B,表明结果必须同时含有A和B才为命中

39、-逻辑非(-,NOT):表达检索词间的排除关系。可缩小检索范围,提高查准率,但要慎用。如:A-B,表明结果是A中不包含B的那部分,A,B,A,B,逻辑与,逻辑乘: “and”或“*”表示 组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息 作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。,逻辑或,又称逻辑和:“or”、“+” 组配方式:A OR B或者AB,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。 作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。,逻辑非,又称逻辑差: “no

40、t” “-” 组配方式:AB,表示检索出含有A词而不含有B 词的文章。 作用:逻辑非用于排除不希望出现的检索词,它和“*”的作用相似,能够缩小命中文献范围,增强检索的准确性。,例如检索:“打印机驱动程序” 查询关键词:打印机、驱动程序 检索表达式:打印机 AND 驱动程序 例如检索:“微型计算机”方面的有关信息 查询关键词:微型计算机、微机 检索表达式:微型计算机OR 微机,布尔逻辑检索例子,布尔运算符优先级比较 有括号时:括号内的先执行; 无括号时:NOT AND OR 例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式: (唐 OR 宋)AND 诗歌; 唐 AND 诗歌

41、OR 宋 AND 诗歌; 错误表达式: 唐 OR 宋AND诗歌; 唐 AND 宋AND诗歌; 唐 OR 宋OR诗歌; 唐AND 宋OR诗歌;,布尔逻辑运算符优先级,请注意 在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not” 有的用“*、+、-”。 一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。 一些网络检索工具如搜索引擎甚至用“、,、-”(即空格、逗号、减号)来表示。,2.截词检索技术,主要应用于西文数字资源的检索 定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化。 作用:主要是提高查全率 截词符一般用“?

42、”或“*”表示,截词位置,按截词位置可分为前截词、后截词、前后截词和中间截词; 按截断字符数的不同,可分为有限截断和无限截断。,截词位置,右截词,又称后截词、前方一致。允许检索词尾有若干变化。例如comput*将检索出computer 、computing、computerised、computerized、computerization等结果。 中间截词,又称前后方一致。允许检索词中间有若干变化。例如wom*n,检索到woman、women的结果。英美的不同拼法,defen*e可同时检出defence和defense的结果。 左截词,又称前截词、后方一致,允许检索词前有若干变化,例如*phy

43、sics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。 ?Computer可检索computer、minicomputer、microcomputer等结果。,前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式。如?computer?可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。,请 注 意

44、 在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?”,有的用“*”,有的用“#”,用的用“”等。 即便常用的“?”和“*”在不同的数据库中其用法也是不一定相同的。 在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见。 我们将要使用的一些数据库,一般用“*”代表一个字符串,用“?”代表任意一个字符。,3.邻近检索技术,邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。 例如检索“生物防治”的文献,若用检索式“biological*control”检索,则会将“抑制生物”(control biological)的文献也

45、查出来,这显然不是所需文献。 主要有相邻位置算符(W)、(nW)、(N),(nN),句子位置算符(S),字段算符(F),(L),(W) 算符,(W)算符:(W)是with(word)的缩写,可简写为“( )”,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。 如biological (W) control相当于检索biological control, CD (W) ROM相当于检索CD ROM或CD-ROM。,(nW) 算符,(nW) 算符:(nW)是n words的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词

46、序不可变。 如wear (1W) material相当于检索wear materials、wear of materials等词。,(N)和(nN)算符,(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。 (nN)表示两词间可插入最多n个词,词序可变,如检索式environment (2N) protection 就可检索出包含“environment protection”、“environment of the protection ”、“environment of water protection”、“prote

47、ction of forest environment”等内容的结果。 information(1N)retrieval 可检出: information retrieval retriveal of information,4.字段检索技术,字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找。,字段检索技术,字段检索分后缀方式和前缀方式。 TI(题名)、AB(摘要)、DE(主题词)、ID(标识词) su (主题词)KW(关键词) AU(著者)、BN(国际标准书号)、SN(国际标准刊号)、CC(分类类目)、CS(机构)、DT(文献类型)或PT(出版物类型)、JN(刊

48、名)或JA(刊号)、LA(语种)、PY(出版年)、SO(来源出版物) 注意:不同的数据库其字段代码可能不同。,举例,在EBSCO数据库检索中,某一用户需检索有关“数字图书馆与信息检索、参考咨询”方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题为信息检索information retrieval或参考咨询reference,请编制其检索策略(检索式)。 (ti:digital librar* or ab:digital librar*) and su:(reference or information 2n retrieval),

49、10 检索步骤,分析研究课题,明确查 阅要求 选择检索工具和检索方法 确定检索途径和检索语言 制定检索式 获取原文献,利用计算机进行信息检索的步骤,确定检索目标 选择数据库 编制检索提问式 上机检索 整理检索结果并对检索效率进行评价,1确定检索目标,要进行信息检索,首先必须确定信息检索的目标,即对信息用户的需求进行具体的分析,这种分析应主要包括以下内容: 明确检索的目的 明确用户是要查新、查参考资料还是查询论文被收录或引用情况等,以便对检索的查准、查全和时间范围的指标要求有一个大致的了解,从而制定出符合情况的检索策略。 课题分析 对课题内容进行分析,找出核心概念和隐含概念,排除无关的概念,明确

50、概念之间相互的逻辑关系。,课题分析直接从项目名称中确定检索概念,例1:项目“聚乙烯的合成(synthesis of polyethylene) ” 主要概念:聚乙烯、合成(synthesis、 polyethylene ) 检索式: 聚乙烯 and 合成 Synthesis and polyethylene,课题分析找出隐含概念,例2:项目“灌溉用的橡塑多孔管” Rubber-Plastic Porous Pipe For Irrigation 橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶粉(由废旧轮胎制得)和塑料(如粉状聚乙烯)。隐含概念:橡胶、塑料 该产品主要用于农林、园艺等方面的灌溉。

51、主要概念:橡胶、塑料、多孔管、灌溉 检索式:(橡胶 or 塑料 or橡塑) and 多孔管 and 灌溉,课题分析泛指概念具体化,例3:项目“唐山综合防灾的研究” 由于唐山是一个城市,因此该项目实际上是“城市综合防灾的研究”。 该项目针对的主要灾害是地震、洪水和火灾, 所采用的研究手段是决策支持系统和专家系统。 防灾 地震、洪水、火灾 研究决策支持系统、专家系统 主要概念:城市、地震、洪水、火灾 、决策支持系统、专家系统 检索式:城市 and (地震 or 洪水 or 火灾)and (决策支持系统 or 专家系统),排除重复无关的概念,可避免漏检,节省检索费用。 例4:项目“河豚毒素的液相色谱

52、分析” 从项目名称上看,其主要概念为 “河豚毒素”、“液相色谱”和“分析”,但由于液相色谱本身就是一种分析方法,它隐含了“分析”这一概念 主要概念: 河豚毒素、液相色谱 检索式:河豚毒素 and 液相色谱,2.选用合适数据库,根据检索目标分析所确定的检索目的、涉及的学科范围和信息类型,选择合适的数据库。 具体选择过程中还应考虑数据库的类型(参考、全文还是电子期刊)、内容(专利、标准、会议)、收录的数据学科范围、数据库的更新周期,收录文献的语种等因素。 例如,要查新就要选择收录文献最全,更新周期快的数据库;要看全文就要选用全文数据库或电子期刊;要查标准或专利就要选择标准库或专利库。,3.使用适当

53、的检索语言,构造检索表达式,分析各个检索词之间的位置关系和逻辑组配关系 分析检索词应该限定在哪个字段中检索(是在所有基本索引中检索还是限定在分类、主题、自由词、文摘还是其他辅助索引字段中检索?),4.上机检索,上机检索是用户的实际操作过程,检索策略输入检索系统后,系统响应的检索结果通常很难一次就能满足课题的要求,例如,有时输出的篇数太多,而且不相关的文献所占的比例很大,而有时输出的文献数量太少,甚至为零。因此在检索的过程中用户需要不断地根据检索结果对检索策略进行调整和修改,包括检索词的重新选取以及检索提问式的重新构造,经过反复的检索最终获得比较满意的检索结果。,(1)输出篇数过多时,此时多数是

54、由误检造成的,原因主要有以下几点: 1)没有对检索词进行限制。包括字段限制,时间限制,分类限制等。如在cnki中进行全文检索,结果肯定多很多。 2)主题概念不够具体或具有多义性导致误检。例如,仅使用mathematics进行检索结果很多,就需要整检索策略,将概念具体化。 如:mathematics and economic 再如,检索世界贸易组织仅输入“WTO”,系统可能会检索出“World Tourism Organization”(世界旅游组织) 3) 对所选的检索词截词截得过短。例如, 使用math? 将有太多的检索结果。,(2)输出篇数过少时,此时多数是由漏检造成的,原因可能有以下几点

55、: 1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词。 例如,没有使用学名“马铃薯”而使用了俗名“土豆” 又如,没有使用“表面活性济”而使用了商品名称“迪恩普”,都会造成漏检。 2)同义词没有充分考虑。 例如,“检索物理化学”,没有考虑到“物理有机化学”,“物化”等同义词,导致漏检。 3)上位概念或下位概念没有完整运用。 例如,“燃料”是上位概念,下位概念可以有“固体燃料”、“液体燃料”、“气体燃料”,甚至还有“煤”、“油”、“煤气”、“天然气”等,这些概念在检索“燃料”时都应该加以考虑。,5.整理检索结果并对检索效率进行评价,对检索结果进行整理,包括存盘、打印。包括全文的下载浏览,

56、题录信息的保存和记录。 若是参考型数据库要想获取原文还必须记录文献的来源信息,如:题名,作者,来源期刊的刊名,年、卷、期、起止页等。,获取全文的途径,1.直接找全文数据库 2.到图书馆(可以是黑龙江大学图书馆、也可以是其他你能够使用的图书馆,如哈工大图书馆、辽宁省图书馆、国家图书馆、各高校图书馆)借阅印刷版全文 3.到网上找免费资源,如专利、法律法规、新闻、一些电子期刊和科技报告等。国家科技图书文献中心 ( 4.发动同学。让同学利用他周围的资源检索,将全文mail给你。 5.给作者写信,表明希望拜读的心愿,让作者给你提供全文。 6.馆际互借。,检索出的相关文献量,数据库中的全部相关文献,查全率

57、R= (recall ratio),x100%,检索出的相关文献量,检出的文献总量,查准率P= (precision ratio),x100%,最理想的检索结果是查全率和查准率都达到100。 R100表示数据库中收录的全部相关文献都被检索出来 P100表示检索出来的文献全部都是相关文献 但事实上,检索中有许多因素使这个指标很难达到。,衡量检索效果的指标,R,0,P,查全率R与查准率P的关系曲线,C,A,D,B,C.W.Cleverdon(英)进行 Granfield试验,得出 查全率R与查准率P曲线。 RP之间存在着互逆关系 A点 检索词数量多,泛指性强, 查全率较高但查准率却非常低 B点 检

58、索词专指性较强,查准率就高 查全率因此降低 C,D两点 两种极端的折衷。 查全率一般在6070 查准率一般在4050 无论怎样调整检索策略和改进系 统效率,都无法使P和R同时接近100。,11、检索效果评价,检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。 技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的; 经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的。 6项评价检索效果的指标: 收录范围、查全率、查准率、响应时间、用户负担、

59、 输出形式。,查全率 R(Recall ratio)查准率 P(precision ratio),检索结果涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。,实验结果表明查全率与查准率之间存在互逆关系,提高检索质量的措施,提高检索系统的质量:对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。 提高用户使用检索系统的能力:充分发挥检索系统的功能。这里涉及到下一章要讨论的检索策略问题。检索语言、检索技术、方法的正确、灵活的使用,以使检索者(用户)能更好地与检索系统协调、配合。另外,要根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论