信息检索基础2.PPT.ppt_第1页
信息检索基础2.PPT.ppt_第2页
信息检索基础2.PPT.ppt_第3页
信息检索基础2.PPT.ppt_第4页
信息检索基础2.PPT.ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第二章 信息检索基础,2,本章要求,1.理解信息检索的基本原理; 2.理解分类语言和主题语言; 3.掌握各种检索途径的利用及其区别; 4.掌握信息检索的基本步骤; 5.理解并掌握查全率、查准率的概念与利用,3,第一节 信息检索系统及检索语言,一、信息检索系统 是根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的服务系统。 可分为 手工检索系统 计算机检索系统,4,二、信息检索的原理 是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。,本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。

2、,5,文献的 信息内容,主题 概念,检索者的 信息需要,信 息 检 索 语 言,标识,检索 系统,检索 结果,主题 分析,主题 分析,标引,标引,输入,检索,输出,信息 存贮,信息 检索,主题 概念,标识,6,三、检索语言,是检索信息所使用的语言。是信息检索系统存储和检索信息时共同使用的一种约定性语言,它是专门用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。以达到信息存储和检索的一致性,提高检索效率。又称标引语言、索引语言、概念标识系统等。,7,我国古代第一部成型的图书分类法是西汉刘向、刘歆父子编制的七略。 西晋,荀勖创立了四部分类法,即甲、乙、丙、丁四大部。 从隋唐起,图书的四

3、部分类法已经基本定型。皇家图书馆及秘书省、翰林院等重要典藏图书之所,都是按照经、史、子、集分四库贮藏图书的,名为四库书。,辑略 六艺略诸子略诗赋略兵书略数术略方技略,1.分类语言,8,分类语言,是建立在科学分类的基础上,以学科体系为基础,将各种概念按学科性质进行分类,进行层层划分,每次划分,就产生若干类目。逐级划分,就产生了不同级别的类目,这些类目层层隶属,形成一个严格有序的等级体系。 常用分类号或分类词表示。 分类检索语言通过分类表来体现。一部完整的分类表,大体可由:编制说明、大纲、简表、详表、辅助表、索引、附录等组成。,9,中图法体系结构,10,C 社会科学总论,C0 社会科学理论与方法论

4、 1 社会科学现状及发展 2 社会科学机构、团体、会议 3 社会科学研究方法 4 社会科学教育与普及 5 社会科学丛书、文集、连续性出版物 6 社会科学参考工具书 7 社会科学文献检索工具书,C 8 统计学 91 社会学 92 人口学 93 管理学 94 系统科学 95 民族学 96 人才学 97 劳动科学,11,C970 劳动科学基础理论 C971 劳动经济学 C972 劳动法学 C973 劳动关系学 C974 劳动管理学 C975 职业培训,C97 劳动科学,12,优势:,特点是能集中体现学科的系统性,反映事物的从属、派生关系,便于按学科门类进行族性检索。 将概念逐级划分,具有等级结构,便

5、于扩大和缩小检索范围。 以分类号作为检索标识,不存在文种限制。 标记简明,适用于分类排架,也可用于组织分类检索工具。,13,不足:,不能充分揭示信息资源中大量存在的细小专深主题。 分类表中的类目不能随时更改,因而不能及时反映新的科学技术。 按照直线序列设置类目,对边缘学科课题只能标引在一门学科的类目之下,检索时可能漏检。 大型类表一般篇幅较大,对类表管理的要求较高。,14,2. 主题语言,是用自然语言中具有高度概括性的名词、名词性词组描述事物概念,用参照系统等表达概念之间的相互关系的一种检索语言。 特 点:直观性强,专指度高。 根据抽词原则、编制方法及使用规则不同,可分为标题词语言、元词语言、

6、叙词语言、关键词语言。,15,(1)叙词语言,所谓叙词,是指从自然语言中优选出来并经过规范化处理的术语,又称主题词。 叙词语言是采用表示单元概念的规范化词语的组合来对信息主题或内容进行描述的标识系统。 特 点:专指性、直观性、多维检索等。 如汉语主题词表(1980出版),16,(2)关键词语言,是指从记录信息的文献题名、摘要和正文中提取出来的具有实际意义、能够表达信息主题内容的、未经规范化的自然语言。 特点: 一般不建立关键词表,通常使用禁用词表来淘汰不具有检索意义的词。 在标引阶段只进行少量控制或不作控制,尤其适用于电子计算机处理和自动标引,能及时反映新事物概念。 在检索阶段通过对同义控制和

7、相关词推荐等方式提供帮助。 缺点:检索质量难以保证。,17,1. 分类检索,根据文献内容在学科分类体系中的位置作为文献信息的检索途径,它的检索标识是分类号,是一种族性检索。 我国按中国图书馆分类法进行分类。如,C社会科学总论,C93管理学,C933领导学,C933.1领导体制,四、 信息检索途径,18,2. 关键词途径 关键词:来自于文献的标题、文摘或正文,是一种没有规范化的自然语言。如:医学词汇的简称(乙肝、心衰),生活常用语(打摆子、拉肚子)。 特点:没有严格的语法规范,个人使用的爱好不同自由词选择不同(非典、非典型性肺炎、SARS、严重急性呼吸系统综合症等) 缺点:要查出所有的有关非典的

8、文献,需要把各种可能的用词都列出来分别查询。,19,3. 主题途径 主题词:是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。 特 点: 词义、词类、词形规范保证词语与概念的唯一对应关系,具有专指性。,20,检索举例:冠心病的治疗,自由词,冠心病,冠状动脉疾病,冠状动脉粥样硬化性心脏病,冠状动脉心脏病,冠状动脉疾病,主题词,文献,治疗,治疗,21,4. 著者检索,用文献的著者、编者、译者的姓名或机构团体名称编制而成的索引。 按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字母) 如:Willian Henry

9、 HarrisonHarrison W H Ren Shu Min Ren SM,22,5. 机构检索 以机构名称为检索词,来查该机构学者发表的文献。(排除同名同姓) 6. 题名检索 按书名、刊名或文章篇名的字顺进行检索。检索限定刊物上发表的文献。 7. 号码途径 利用文献代码、序号编排成的号码索引检索文献。如ISBN、ISSN等。 8、引文检索 是以被引用文献为检索起点来查找引用文献的过程。,2.2.1 检索步骤,1.分析检索课题,明确目的和要求 用户的检索需求大致分为3类: 新:及时获得最新的内容,对查全没有过高要求。 准:要解决研究中的具体问题,要求检出的文献有针对性,对查准要求较高。

10、全:要全面了解某一特定领域的发生、发展和现状,是一种回溯性检索,对查全有较高要求。,2.2 信息检索步骤及检索效果评价,24,2.选择合适的检索工具 根据课题的学科专业范围、主题内容,选择合适的数据库。 3.选择检索途径,确定检索标识。 确定检索途径,根据数据库的词表,把主题内容转换成检索系统采用的检索标识和检索词。 4.查找文献线索。 5.浏览检索结果,获取原始文献。,25,索取原文的方法: (1)检索网上全文数据库 (2)利用网上出版社、杂志 (3)利用图书馆馆藏目录(馆藏联合目录) (4)利用“网上全文传递服务” (5)向著者索取,26,2.3.2 检索效果评价,检索要领是为实现检索结果

11、的全和准: 因为检索结果主要通过查全率、查准率两个指标来进行评价。 查全率:系统进行检索时,检出的相关文献量与系统文献库中相关文献总量的比率。 查准率:系统中检出的相关文献量与检出的文献总量的比率。,27,思考:如某数据库中共有 探讨“企业管理”的相关文章1000篇,而你在这个数据库中只检索出900篇,而且其检索出的结果中还有100篇是不相关的,那么你这次检索的查全率和查准率各是多少?,查全率 80% 查准率 88.9%,2.3 信息检索类型,1.文献检索 以索引、文摘或其他文献特征为主要检索对象,目的是运用检索系统查检出与某课题相关文献检索,从而获取原始文献。 2.数据检索 以数据为检索对象

12、,可直接选择专门的数据性工具进行查检,从而得到数值性数据、图表、化学结构式、计算公式等。 3.事实检索 以特定的事实为检索对象,先选择合适的工具,按一定标识,直接从中检出事实性、知识性的答案,其检索结果是描述性事实。,2.4信息检索系统的类型及特点,1. 手工信息检索 以人工方式查找和提供情报的系统。其特点 是人直接参与检索过程。所使用的情报检索工具 包括书本式目录、文摘、索引以及各种卡片(穿 孔卡片、元词卡片)。手工信息检索具有操作简 单、费用低廉、查准率高等优点,但耗时较多效 率低。随着计算机的普及,手工信息已逐渐被计 算机信息检索所代替。,2. 脱机信息检索,以批处理方式进行的脱机检索,

13、即检索只能在检索系统所在地进行,由检索人员定期将用户课题汇总,批量输入计算机,用户不能参与检索过程,不能即时浏览检索结果,修改检索方案,即不能人机对话。 脱机检索所存在的几点不足表现在: (1)地理上的障碍,指用户与检索人员距离较远时,不便于检索要求的表达,也不便于检索结果的获取。 (2)时间上的迟滞,指检索人员定期检索,用户不能及时获取所需信息。 (3)封闭式的检索,指检索策略一经检索人员输入系统就不能更改,更不能依据机检应答来修改检索式。,3. 联机信息检索,建立在计算机联机处理方式上的信息检索,即检索者通过检索终端和通信线路直接查寻检索系统数据库的计算机检索方式。用户采用终端并通过通信线

14、路,以与检索系统对话的方式直接访问数据库,进行存储、检索、打印、修改数据等处理。,4. 光盘信息检索,光盘检索具有储量极大而体积微小,要求设备简单,可随地安装,使用方便、易于操作,检索费用低(不需要昂贵的联机检索通讯费用),因可随时修改检索策略而具有很高的查全率和查准率等优点。,5. 网络信息检索,(1)交互式作业方式 (2)用户透明度 (3)信息检索空间的拓宽 (4)友好的用户界面,2.5 信息检索方法,信息检索的效率与具体的信息检索方法有很大的关系,运用有效的信息检索方法能够使用户以最少的时间获得最满意的检索结果。信息检索方法的运用离不开各种信息检索系统,总的来说,检索方法有直接浏览法、常

15、用法、追溯法和综合法。,直接浏览法也称直接查找法,指检索者不依靠任何检索工具或检索系统,从本专业最新核心期刊或其他文献中直接阅读原文或浏览最新目次而获取文献的方法。这是一种最常见的信息资源的获取方式。因为编制检索工具需要时间,有的半年,甚至长达一年之久,直接浏览可以及时获得最新文献。但利用这种方法查找的信息不全面、不系统、且局限性较大,不能作为查找文献的主要方法。,1. 直接浏览法,指利用检索系统来查找信息的方法,这是目前查找信息的最常用的方法,故而称常用法。常用法包括顺查法、倒查法和抽查法。,2. 常用法,指从已有的文献信息后所列的参考文献入手,逐一追查原文,从这些新查到的原文后面所附的参考文献再逐一追查,不断扩大检索范围的检索方法。其优点是:在没有检索工具或检索工具不齐全的情况下,借助此种方法,也可以查到一批有关的文献。其缺点是:原文作者引用的参考文献是有限的,不可能列出全部有关文献,而且有的引用文献又与原文关系较小或较远,参考价值不大。单独使用这种方法,还是存在一定的局限性。,3. 追溯法,也有人称之为分段查找法、循环法或交替法。先利用检索工具查出一定时期内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论