钟2 信息海洋冲浪的基本方法与技巧--信息检索 检索系统 检索语言_第1页
钟2 信息海洋冲浪的基本方法与技巧--信息检索 检索系统 检索语言_第2页
钟2 信息海洋冲浪的基本方法与技巧--信息检索 检索系统 检索语言_第3页
钟2 信息海洋冲浪的基本方法与技巧--信息检索 检索系统 检索语言_第4页
钟2 信息海洋冲浪的基本方法与技巧--信息检索 检索系统 检索语言_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第2章 信息海洋冲浪的基本方法与技巧,钟建法 厦门大学图书馆,2,主要内容,工具箱检索系统,工具箱信息检索,工具箱检索语言,信息检索五步走,3,1. 信息检索,信息检索的概念,信息的存储过程,信息的检索过程,4,广义信息检索:包括信息存储与查找两个过程。(p12),狭义信息检索:指信息的查找。,信息检索(information retrieval): 是指用户根据特定的需求,借助某种检索工具或检索系统,采用一定的检索策略和方法,从待检的信息源或信息集合中查找出所需信息的过程。,1.1 信息检索的概念,RetrievalSearching + Browsing,5,F252/108,物资经济 F

2、25 物资流通 F252,经济类 F,U252/108,F252,F,例如:,物流系统规划与设计,6,1.2 信息的存储过程,信息的存储过程: 即将信息中具有检索意义的特征标识出来,编制检索工具,建立检索系统的过程。 按照检索语言(主要是主题词表和分类表)及其使用规则对每条原始信息进行处理,形成一系列信息特征标识,组成一条记录。许多条记录形成有序的信息集合。,7,信息集合,存储标识,题名:信息获取与利用 作者:杜慰纯 出版社:清华大学出版社 ISBN:978-7-302-19641-9 主题词:情报检索 分类号:G252.7 ,8,1.3 信息的检索过程,信息的检索过程: 是根据信息特征,利用

3、检索工具,查找所需信息的过程 按照同样的主题词表或分类表分析检索需求,形成检索提问标识。依据信息存储时所形成的检索途径,从信息集合中查找与检索提问标识匹配的信息特征标识。,9,信息集合,检索标识,题名:信息获取与利用 作者:杜慰纯 出版社:清华大学出版社 ISBN:978-7-302-19641-9 主题词:情报检索 分类号:G252.7 ,10,信息检索的原理,存储是检索的基础和前提,检索是储存目的实现。 存储和检索汇集信息思路一致,但操作过程相反。,11,2. 检索系统,检索系统的概念,检索系统的分类,12,2.1 检索系统的概念,信息检索系统:由一定的设备和信息集合构成的服务设施。 例如

4、:中国期刊网(CNKI)、在线公共目录检索系统(OPAC)、工程索引(EI),1. 问题给出 需要查找资料时,首先涉及检索系统和工具的选择 搜索引擎 or 学科导航门户or 专业数据库 or 图书馆检索系统 or 纸本工具书 or ,13,2.2 检索系统的分类,14,(1)目录检索系统,目录检索系统(也称书目检索系统):用于对出版物进行报道和对图书资料进行科学管理。 包括: 机读目录(MARC) 联机公共检索目录(OPAC)查询单个图书馆的馆藏目录及多个图书馆的联合馆藏目录 适合查找图书馆所收藏的图书,15,(1)目录检索系统,OPAC,16,(1)目录检索系统,检索结果,17,(1)目录检

5、索系统,CALIS,信息素养,18,(1)目录检索系统,19,(2)文摘检索系统,文摘检索系统: 用于对信息题录和文摘的检索,检索结果一般是文献的来源信息。 检索后得到的结果,主要包括文献的题目、作者、出处和摘要等,不包含全文(但可能提供全文链接),也称二次文献检索系统。 常用文摘检索系统 SCI(科学引文索引)、EI(工程索引)、INSPEC(科学 文摘)、 ISTP (科学会议录索引数据库) 适合全面了解某课题的综合情况,跟踪课题的前沿动态,分析课题的发展趋势等。,20,(2)文摘检索系统,EI数据库,检索词,选择字段,21,(2)文摘检索系统,检索结果,22,(2)文摘检索系统,23,(

6、3)全文检索系统,全文检索系统:集文摘检索与全文提供于一体,是目前发展较快和前景较好的一类数据库。全文也包括内容简短的事实和数据, 优点: 免去了费力获取原文的麻烦; 提供全文字段检索 常用的全文检索系统: Wiki百科、中国知网(CNKI)、Science Direct等,24,(3)全文检索系统,CNKI,25,(3)全文检索系统,检索结果,26,(3)全文检索系统,27,检索系统小结,28,2.3 解决问题,常用书目检索系统如CCCCALIS联合目录库等,以及,题名,29,3. 检索语言,检索语言的基础知识 检索语言的分类 检索运算符,出国与老外沟通要学好外语, 那么,与检索系统沟通呢?

7、,30,3.1 检索语言的基础知识,检索语言,概念,作用,检索原理,31,检索语言的基础知识(概念),信息检索语言:用于描述信息系统中信息的内容特征和外表特征,并可以表达用户提问的一种专门语言。 作用:信息存储 信息检索 把文献的存贮与检索、把标引人员与检索人员联系起来,以便取得共同理解、实现交流 检索语言的词汇是用来表达文献主题概念而形成的检索标识。如分类号、关键词等,检索语言,32,检索语言的基础知识(作用),文献存储子系统 文献检索子系统,信息群,主题分析,编制目录文摘索引,概念转换,概念转换,主题分析,查找,用户群,信息集合,著 录 标 引 过 程,检索语言,目录数据,待标文献,特征标

8、识,主题概念,用户提问,主题概念,检索标识,编 制 检 索 策 略 过 程,输出,检索结果,33,检索原理,信息检索的原理: 用检索标识与信息的存储标识相比较,若取得一致,则为匹配,即可得到命中文献 检索标识:分类号、主题词、关键词等 检索语言能保证检索效率,提高检索效果的全面性和准确性。,34,3.2 检索语言的分类,35,(1)分类检索语言,分类检索语言:是以号码为基本字符,用分类号和类目表达文献主题概念的检索语言。 特点:是用分类号表达各种概念,根据概念之间的关系,把它们组织成一个逻辑体系。,36,分类语言,作用:,反映知识的分类或社会实践活动的职 能分工,具有较好的系统性。 把同一学科

9、、同一专业、同一职能活 动的文献集中在各个类目之下,满足 族性检索(类检索)需要。,37,分类语言,分类语言的具体表现形式是分类表,如在国内图书馆常用的中国图书馆分类法。 分类表的作用: 指导存储文献,正确标引出分类号; 适用于从分类的角度检索某一类的文献。 举例: 信息检索与利用方面图书 G252.7 H319.4 英语读物 F25 物流管理方面书籍 F224.5 集中大部分项目管理方面书籍,38,分类语言,国内: 中国图书馆分类法 科学院图书馆分类法 人民大学图书馆分类法 国外: 杜威十进分类法(Dewey Decimal Classification and Relative Index

10、) 美国国会图书馆分类法(Library of Congress Classification),39,分类语言,基本大类 (22大类) A 马克思主义、列宁主义、毛泽东思想 B 哲 学 C 社会科学总论 D 政治、法律 E 军 事 F 经 济 F0 经济学 G 文化、科学、教育、体育 F1 世界各国经济概况、经济史、经济地理 H 语言、文字 F2 经济计划与管理 I 文 学 F3 农业经济 J 艺 术 F4 工业经济 K 历史、地理 F49 信息产业经济(总论) N 自然科学总论 F5 交通运输经济 O 数理科学和化学 F59 旅游经济 P 天文学、地球科学 F6 邮电经济 Q 生物科学 F

11、7 贸易经济 R 医药、卫生 F8 财政、金融 S 农业科学 T 工业技术 U 交通运输 V 航空航天 X 环境科学、劳动保护科学 Z 综合性图书,每一个大类又可以细分成若干个二级类目,二级类目还可以再细分。例如经济又可以划分为:,40,分类语言,索书号,G252.7 200,G254.12/B125,TP312BA/126,著者号表示图书作者,由数字(中日文)或英文与字母数字组合(西文)表示,41,分类途径的缺点,不适用于特性检索,查准率比主题词低,【题解】 这类课题仅仅采用分类号无法准确表达课题,用分类号只能粗略表达,并且分到两个类目,不易归类,适宜用主题途径检索。 【关键词】:昆虫 in

12、sect 鸣声信号 acoustic signal 信号采集 signal acquisition 信号分析 signal analysis 褐飞虱 brown plant hopper 水稻 rice 害虫 pest,【实例】 多功能昆虫鸣声信号采集和分析系统及其在褐飞虱鸣声研究中的应用?,42,不能适应学科发展中的变化,难以反映新学科和新名词术语,【实例】食品风险分析 风险分析的目标在于保护消费者的健康和促进公平的食品贸易,在分类上暂时归入 R155.5 食品卫生与检验和 TS201.6 食品安全与卫生。没有一个专门的“食品风险分析”分类号。,43,人的认识不统一,往往造成分类不一致及排检

13、错误,不易反映交叉学科。,【实例】管理心理学 心理学的一个分支,主要是研究企业中人的心理活动规律,用科学的方法改进管理工作,充分调动人的积极性的一门学科。但是,人们很可能误解为归入管理学。 【实例】新世纪英汉计算机词典如何归类? 一般读者不知道分入计算机类TP3还是英语类H31。实际归入计算机类TP3-61/19。,44,主题语言:是一种描述语言,即用自然语言中的名词、名词性词组或句子描述文献所论述或研究的事物概念。 主题:指信息对象所表达或反映的主要内容、问题或事物。 主题词:表达各种文献信息主题概念的词语。狭义的主题词仅指叙词;广义主题词可以分为规范词汇和自由词汇,包括关键词、单元词、标题

14、词、叙词。 例如:我们在搜索引擎中查找文献时输入的“汽车燃料”就是主题语言的一种。,(2)主题检索语言,45,主题语言,特点: 直接用词语来表达各种概念。它以词汇规范化为基础,通过概念组配用以表达任何专指概念。 直指性强,专指度高,便于特性组配检索。 不必从知识体系的角度去判断所需文献属于什么学科,只要根据课题研究对象、直接使用表征文献内容的主题词查询 同一篇文献可用多个主题词标引,扩大了检索途径。,46,主题语言,主题语言,47,(1)标题词语言(subject heading):是一种先组式的规范词语言,即在检索前已经将概念之间的关系组配好。具有较好的通用性、直接性和专指性,但灵活性较差。

15、常用的标题词表有美国国会标题词表(Library of Congress Subject)、医学主题词表(Medical Subject Headings)。 (2)单元词(元词法,uniterm):是一种最基本的、不能再分的单位词语,亦称元词,从文献内容中抽出,再经规范,能表达一个独立的概念。如“信息检索”是一个词组,“信息”和“检索”才是单元词 (3)叙词法(descriptor):采用表示单元概念的规范词语揭示文献的主题。包含多个主题的文献可以用多个叙词进行标引。在检索时可由多个叙词形成任意合乎逻辑的组配,构成多种组合方式。如有关汽车发动机制造方面的文献,可用汽车、发动机、制造三个叙词来

16、标引。叙词的这一优点很适合于计算机检索。,主题语言的类型,48,叙词表(thesaurus):由叙词按一定的规则编制而成的词表。它是对文献进行主题标引的依据。 1959年美国杜邦公司编制了第一部叙词表,其后,随着计算机的应用,叙词表的编制迅速发展,叙词语言成为受控信息组织和检索的主要语言。 国内外叙词表的数量不下千种,我国叙词表已超130多种 常见的叙词表:汉语主题词表、中国分类主题词表、教育分面叙词表、英国科学文摘的INSPEC叙词表、EI Thesaurus 叙词表、美国政府报告和索引的NTIS叙词表、ASM冶金词表等。 叙词表成为规范各学科或某一专业领域名词术语的工具,49,叙词词表中的

17、关联关系,Y (用)USE 指引正式主题词 D(代)UF 指引非正式主题词 S(属)BT 指引上位主题词 F(分)NT 指引下位主题词 C(参)RT 指引相关主题词 Z(族)CC 指引族首主题词 (最上位词),汉语主题词表是我国第一部大型的综合性叙词表,1980年正式出版,主表分为社会科学、自然科学和附表3卷。全表收录主题词108568个,非正式主题词17410个,50, Fei ji zao sheng Wu ran yuan 飞机噪声 污染源 * Aircraft noise Pollution source D 航空噪声 F 臭气源 F 轰声 点污染源 S 噪声源 电磁污染源 Z 污染源

18、 * 放射性污染源 C 交通噪声 非点污染源 工业污染源 固定污染源 Hang kong zao sheng 农业污染源 航空噪声 热污染源 (增词时间:1989年) 移动污染源 Aircraft noise 噪声源 Y 飞机噪声 C 污染物 * Hong sheng Zao sheng yuan 轰声 噪声源 Sonic boom Noise source S 飞机噪声 F 电器噪声 Z 污染源 * 飞机噪声 火车噪声,叙词表编排体系结构举例,非正式主题词,下位词,上位词,族首词,相关词,英文译名,正式主题词,缩小检索范围,扩大检索范围,51,(4)关键词法(keyword):所用的标引词直

19、接取自文献本身,如从文献的题名、文摘和正文中选词。除了禁用词(stop-term),如冠词、介词、副词、连接词等语法词外,几乎所有具有实际意义的词都可以用作标引词。由于标引词来自文献本身,故关键词语言属于自然语言。 关键词法的最大优点是可依赖于计算机自动抽词技术,实现机器自动标引。如常用的科学引文索引(SCI)数据库就是采用关键词对文献进行自动标引,不仅加快了标引速度,也极大地降低了标引成本。 缺点:用同义词标引导致漏检。如“天线”的常用英文标引词有“antennas”和“aerials”。若想查全避免漏检,则需将所有表达“天线”的词汇作为同义词进行检索;多义词标引导致误检。如多义词cell既

20、可表示“细胞”,也可表示“电池”。当用cell一词查找有关细胞方面的文献时,检出的电池类文献即为识检。,52,主题途径的优缺点,优点:适合特性检索,查准率高 例如主题词“C语言程序设计”就比分类号TP312表达得更准 缺点: 通常不适合族性检索,查全率比分类号低。由于很规范,非专业人士难以掌握 例如图书C+ Builder5程序设计应该用“C语言程序设计”作为主题词。检索大学教材,“大学”不能作为主题词,应该用“高等学校”作为主题词。非专业人士不知道哪些词汇能作为主题词。 用自由词在篇名、文摘甚至全文中查找信息比用主题词更有优越性,直接、简明,是科技人员易为接受、较为常用的一种方法。特别适合不

21、懂得主题词的一般用户。在检索网络信息时一般使用自由词。,【获取主题词的技巧】 在图书的版权页可以找到主题词和分类号码或者在图书馆的馆藏数据找到主题词。例如查找C+ Builder5程序设计一书的版权页可以找到主题词是“C语言程序设计”等,53,主题词(或规范关键词)与关键词的区别主题词是经过规范化处理后作为文献标识的;关键词则是直接使用自然语言,较少规范化处理。,关键词 单车、自行车、脚踏车 世贸组织、世界贸易组织 自然资源、天然资源 土豆、马铃薯、洋芋 储藏、储存、收藏、保管 发动机、马达 信息检索、情报检索、文献检索,自行车 世界贸易组织 自然资源 马铃薯 储藏 发动机 情报检索,主题词或

22、规范关键词,主题词与关键词的区别,54,案例: 在厦大图书馆馆藏书目检索系统中,检索类型分别选择“题名”和“主题词”,查看以下检索词的检索效果: 信息检索: 文献检索: 情报检索:,案例:主题词与关键词检索效果比较,110,4 32,41 32,781,55,主题词的选词原则,为避免使用主题词检索可能造成的查全率低的问题,选择准确、规范的主题词很关键。应注意下列选词原则,选择事物名称或过程名称作为主题词。例如“蘑菇保鲜技术”,其中“蘑菇”是事物的名称,“保鲜”则是一种处理过程,这两个词均适合选择作为主题词。 避免使用泛指性词。如上例中的“技术”一词即属于泛指词,没有任何专指度,不适合作主题词。

23、 适度专指性。检索是一般选词的专指度越强,查准率越高。但有些过于偏窄的词不适合作为主题词。如果出现没有检索结果的情况,应放宽专指度。 保证选词的通用性,56,主题词的规范,规范情况分为三种,同义词(近义词)、多义词(一词多义)和相关关系词的规范化处理。,(1)同义词的规范,对完全等同的同义词的规范 “煤炭”与“煤”是同义词,都可以使用,但是只能用“煤”作为主题词。 对近义词的规范 如“实验”与“试验”、“天然资源”与“自然资源”这两组词汇,应该选择“实验”和“自然资源”作为主题词。 对学名和俗名的规范 计算机与电脑,是同义词,都可以使用,电脑是俗名,计算机是正式用名,就用“计算机”作为主题词。

24、“发动机”与“马达”(motor)是同义词,但是选择“发动机”作为主题词;同理,“贫铜矿”宜用“低品位铜矿”表达;土豆、洋芋用“马铃薯”表达。 对不同译名、简称与全称的规范 对不同译名、简称与全称只选择正式的一个词。 对不同写法,如“X射线”与“爱克斯射线”,“氟利昂”与“氟里昂”,应该选择最常用的“X射线”、“氟利昂”。,57,(2)多义词的规范 “Cell”既表示生物学中的“细胞”,又表示电学中的“电池”,这种多义词易造成误检。在生物学检索工具里规定“Cell”表示生物学中的“细胞”,“battery”表示电学中的“电池”。,主题词的规范,58,英文版著者索引中人名规则,按姓、名次序排列

25、同姓名著者,先按名字的首字母顺序排列,不全者排在全者之前,单名排在双名之前,简名排在全名之前。如: Smith,Amey ; Smith,A.A ; Smith,Alice Amey 复姓作者,将复姓作整体看待。如Margaret Martin-Smith Martin-Smith, Margaret 团体著者也同个人著者一样,按团体单位名称的字顺排列,责任者/著者检索注意事项,59,中国著者姓名翻译为英文的处理方法,(1)翻译规则 分为音译和意译。中国著者姓名和团体机构名称的音译,一般用汉语拼音。 【实例】原西南师范大学在欧洲专利数据库就有三种写法:Southwest China Norma

26、l University / Southwest Normal University/ Xinan Teachers, University (2)拼写形式 【例题】在英文数据库检索作者“金长青”的论文,作者名除了“Jin, ChangQing” 还有其他拼写形式: Jin, CQ; Jin, Chang-Qing;Jin, C.Q;Jin, C.Q.;Jin, C.-Q,60,检索提问式:是检索策略的具体表达,是用检索系统规定的各种算符将各个检索条件连接而形成的一种逻辑表达式。,检索运算符:在计算机检索系统中,为了制定一个计算机可识别的检索方案,这就需要计算机信息检索系统规定使用的组配符号(

27、也称为算符operator)。,3.3 检索运算符,61,常用检索运算符号,布尔逻辑算符 通配符与截词符 字段限制符,62,布尔逻辑算符,63,逻辑非,假设有两个检索项A和B NOT 检索式表示为:A NOT B,A,B,NOT,A NOT B,64,逻辑非,逻辑非(NOT),65,逻辑非,66,逻辑与,假设有两个检索项A和B AND 检索式表示为:A AND B,A,B,AND,A AND B,67,逻辑与,68,逻辑与,69,逻辑或,假设有两个检索项A和B OR 检索式表示为:A OR B,A,B,OR,A OR B,70,逻辑或,71,逻辑或,72,布尔逻辑算符小结,92 90 92 2

28、1 92 194,逻辑非:,逻辑与:,逻辑或:,73,逻辑运算的运算次序 在数据库检索中,通常有两种运算次序: 按逻辑运算符的优先级执行: not and or 例:通信 or 通讯 and 加密 =通信 or (通讯 and 加密 ) 按先后次序顺序执行 例:通信 or 通讯 and 加密 = (通信 or 通讯) and 加密,74,通配符和截词符,把检索词加上某种符号截断,让计算机按照检索词的部分片断同索引词进行对比,以提供族性检索的功能 主要用于西文电子资源的检索 不同检索系统使用的种类和含义可能不同 截词符号 常用的有“?”、“$”和“*”等,绝大部分数据库无限截词符用“*”,少数用

29、“?”或者“$”,75,有限截断(常用“?”表示,一个“?”匹配一个字符) Book? Book OR Books Book? Booker OR Booked 朱秀? 朱秀林 OR 朱秀青 OR 朱秀云 无限截断词类型 (1)后截断,前方一致。如: “comput*” 表示 computer、computers、computing等。 (2)前截断,后方一致。如: “*computer” 表示 minicomputer、microcomputer等。 (3)中截断,中间一致。如: “*comput*” 表示 minicomputer、microcomputers等。 自动词根运算符(EI中用

30、$ 表示) $alter alter OR alternate OR alternative ,截词类型,76,通配符和截词符,以EI为例,77,字段限制符,把检索词或检索式限定在指定的字段范围内进行检索 常用的字段限制符有前缀字段限制符和后缀字段限制符。,78,字段限制符,79,字段限制符,80,邻近检索,邻近位置算符(W): W是with的缩写。(W)算符也可以简写为()算符,A(W)B,表示A紧挨着B,顺序不能颠倒。A和B之间除允许有一个空格、一个标志符号或一个连接号以外,不得插入任何单位或字母。,邻词位置算符(nw) A(nw)B,表示两个词的次序不变,其间可以插入n个词。 南京 (3

31、W) 景区:南京景区;南京中山陵景区;南京玄武湖景区 Near 可互换顺序的词组检索 (nN),81,其它符号,1 括号 改变运算顺序。 2 引号 引号内的检索项以整体形式出现。精确匹配: “ ” 和号,给查询词加上双引号则不拆分查询词,加上书名号的查询词,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分 。 3 个别数据库使用的特殊符号 某些搜索引擎使用加号(+)表示该单词必须出现。 【实例】在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 个别数据库例如“国研网”、山东标准网使用“&”代替“and”;欧洲专利局光

32、盘数据库的“without”、美国专利商标局数据库的“andnot”就是通用的“not”。,82,算符小结,布尔逻辑算符 AND、OR、NOT,字段限制符 前缀、后缀,截词符和通配符 *、$,83,3. 解决问题(可能考题或作业) 问题:乙醇汽油作为车用替代燃料的优势问题,84,相关关键词:车用替代燃料(vehicle alternative fuel/ substitutive fuel for automobiles)、乙醇(ethanol)、乙醇汽油(gasanol) 中文数据库检索式:车用替代燃料 AND (乙醇 or 乙醇汽油) 外文数据库检索式:( vehicle alter* fuel OR substitutive fuel for automobiles )AND( ethanol OR gasanol ),85,4. 信息检索五步走,信息检索是从信息集合中查找相关文献资源的活动、过程和方法 信息检索过程 狭义理解:检索操作过程。 如选择数据库、确定关键词、构造检索式 广义理解:信息问题解决过程。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论