信息检索基础(管理版).ppt_第1页
信息检索基础(管理版).ppt_第2页
信息检索基础(管理版).ppt_第3页
信息检索基础(管理版).ppt_第4页
信息检索基础(管理版).ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索,信息工程学院 田永晓 E-mail: ,2,事后查明,早在十多年前,就有人研究出来了,方法 非常简单,只需在甲醇中加入2%的水即可,检索这篇 文献的时间是10多分钟。,一个小故事,美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题。,3,信息检索的概念,广义的信息检索是指将信息按一定的方式组织和存储起来,并根据用户的需要找到有关信息的过程和技术; 狭义的信息检索是指从信息集合中找到所需信息的过程。,4,通过本课程使大家掌握信息检索的基础知识,熟练掌握检索技能,能够灵活运用检索工具(如光盘数据库、网络数据库)进行文献、数据、事实等信息的检索,并能对检索系统进行评价和优选。,5,第一章 概论,6,1.掌握信息检索的概念 2.掌握信息、知识、文献的基本概念 3.掌握信息素质、信息意识、信息能力、信息道德的基本概念 4.熟悉文献的不同划分类型 5.掌握零、一、二、三次文献的概念,本章要求,信息、情报、知识、文献,第一节 信息、信息社会与信息素质,8,一、信息(information),英文information(信息)一词源于拉丁文“Informatio”,是指一种陈述或一种解释、理解等。 辞海中将信息定义为音信、消息。 现代汉语词典的解释是:对信息接受者来说事先不知道的报道。,9,香农(1948)(美国数学家、信息论创始人),香农认为,信息是通信的内容,是“用来消除未来的某种不确定性的东西”,信息的多少反映了消除了的不确定性的大小。 不确定性:对客观事物的不了解、不肯定。,10,维纳(1950)(美国数学家、控制论创始人),维纳(N.Wiener)将人与外部环境交换信息的过程看成是一种广义的通信过程,认为信息是人们在适应客观世界的过程中与客观世界进行交换的内容的名称,是人与外部世界的中介。 “信息既不是物质,又不是能量,信息就是信息”。,11,具有广泛影响的定义,信息是事物存在方式、运动状态及其特征的反映,是事物发出的信号、消息。,信息具有共享性、存储性和传递性、价值性、时效性。,12,二、情报(information),辞源:“定敌情如何,而报于上官者”为情报。 辞海:“战时关于敌情之报告,曰情报。”,情报 是指运用一定的形式,传递给用户,并产生效益的知识或信息。 三个属性:知识性、传递性、效用性。,13,三、知识(knowledge),汉语词典中解释为:人们在改造世界的实践中所获得的认识和经验的总和。 知识 是人类对自然界、人类社会中各种现象、规律的信息反映进行思维分析,加工提炼,经过系统化、理论化的结果。 因此,知识是优化、理论化的信息集合。,14,四、文献(document),是指记录有知识的一切载体。也就是说用文字、图形、符号、声频、视频等手段记录下来的人类知识都可以称之为文献。 四个要素:知识 载体 文字、图形、符号、视频、声频 记录,15,信息、知识、情报、文献四者的关系 认识 激活 信息 知识 情报 检索 记录 文献,16,信息素质(information literacy) 是指判断何时、何地需要信息,并有效的定位、获取、评价和利用信息的一系列能力的总和。 包括:计算机素养、因特网素养、媒体素养、图书馆素养、批判性思考的能力。,信息素质,17,信息素质主要体现在: 信息意识:是个体对信息重要性认识程度和对信息是否具有特殊的、敏锐的感受力和持久的注意力,即对信息的捕捉、分析、判断和吸收的敏感性。 信息能力:是对信息的搜集获取能力、分析鉴别能力和综合利用能力。 信息道德:个体在信息的获取、使用、制造、传播过程中应遵守的伦理规范。,18,第二节 文献的类型,一、按文献载体划分 手写型文献(Hand Writing Document) 人工书写或抄写而成的文献。例如,写在竹简、帛或纸张上的古代文献、书法作品、原始记录等。 印刷型文献(Printed Document) 指以纸张为载体,通过胶印、铅印、油印等手段形成的纸质出版物。如书、刊等。,19,缩微型文献(MicroForm Document) 以感光材料为载体,以照相为记录手段把文献缩小形成的复制文献,如缩微平片、缩微胶卷。缺点是使用时要借助缩微阅读器,使用不方便。 视听型文献(Audio-visual Document) 又称声像型,载体是感光材料或磁性材料,如录像带、录音带、科技电影、幻灯片等。 电子型文献(Electronic Document) 是指以数字化技术将文献存储在光、磁载体上,通过计算机或网络进行阅读的文献。例如,数据库文献和网络文献信息。,20,二、按文献的加工程度划分 零次文献 是指未公开出版的实验记录、原始录音(像)、书信、手稿、口头交流的信息或实物等。 一次文献 是指作者直接以自己的工作、科研、社会活动等实践经验为依据而撰写,并公开发行进入社会流通的专著、学术论文、专利说明书、科技报告等。,21,二次文献 是根据一次文献外表或内容特征按照一定的规则和方法进行整理、加工、浓缩,按一定顺序编排形成的有序化文献。如各种目录、索引、文摘和各种书目型数据库。 三次文献 是为了一定的目的和需求,对大量一次文献信息中的有关内容进行综合、分析、提炼、重新组合而形成的再生性文献。如专题评述、综述、百科全书、参考工具书等。,22,三、按文献出版形式划分 图书(Book) 期刊(Journal) 特种文献(Special Document) 科技报告 专利文献 会议文献 学位论文 政府出版物 标准文献 技术档案 产品资料等,23,第二章 信息检索基础,24,本章要求,1.理解信息检索的基本原理; 2.理解分类语言和主题语言; 3.掌握各种检索途径的利用及其区别; 4.掌握信息检索的基本步骤; 5.理解并掌握查全率、查准率的概念与利用,25,第一节 信息检索系统及检索语言,一、信息检索系统 是根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的服务系统。 可分为 手工检索系统 计算机检索系统,26,二、信息检索的原理 是将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。,本质是用户的信息需求与存储 在信息集合中的信息进行比较和 选择, 即匹配的过程。,27,文献的 信息内容,主题 概念,检索者的 信息需要,信 息 检 索 语 言,标识,检索 系统,检索 结果,主题 分析,主题 分析,标引,标引,输入,检索,输出,信息 存贮,信息 检索,主题 概念,标识,28,三、检索语言,是检索信息所使用的语言。是信息检索系统存储和检索信息时共同使用的一种约定性语言,以达到信息存储和检索的一致性,提高检索效率。又称标引语言、索引语言、概念标识系统等。,29,我国古代第一部成型的图书分类法是西汉刘向、刘歆父子编制的七略。 西晋,荀勖(xu)创立了四部分类法,即甲、乙、丙、丁四大部。 从隋唐起,图书的四部分类法已经基本定型。皇家图书馆及秘书省、翰林院等重要典藏图书之所,都是按照经、史、子、集分四库贮藏图书的,名为“四库书“。,辑略 六艺略诸子略诗赋略兵书略数术略方技略,1.分类语言,30,分类语言,是建立在科学分类的基础上,运用概念划分与概括的方法,进行层层划分,每次划分,就产生若干类目。逐级划分,就产生了不同级别的类目,这些类目层层隶属,形成一个严格有序的等级体系。 常用分类号或分类词表示。,31,中图法体系结构,32,C 社会科学总论,C0 社会科学理论与方法论 1 社会科学现状及发展 2 社会科学机构、团体、会议 3 社会科学研究方法 4 社会科学教育与普及 5 社会科学丛书、文集、连续性出版物 6 社会科学参考工具书 7 社会科学文献检索工具书,C 8 统计学 91 社会学 92 人口学 93 管理学 94 系统科学 95 民族学 96 人才学 97 劳动科学,33,C970 劳动科学基础理论 C971 劳动经济学 C972 劳动法学 C973 劳动关系学 C974 劳动管理学 C975 职业培训,C97 劳动科学,34,优势:,类目体系展开比较系统,便于从学科门类出 发,进行族性检索。 将概念逐级划分,具有等级结构,便于扩大和缩小检索范围。 以分类号作为检索标识,不存在文种限制。 标记简明,适用于分类排架,也可用于组织分类检索工具。,35,不足:,不能充分揭示信息资源中大量存在的细小专深主题。 分类表中的类目不能随时更改,因而不能及时反映新的科学技术。 按照直线序列设置类目,对边缘学科课题只能标引在一门学科的类目之下,检索时可能漏检。 大型类表一般篇幅较大,对类表管理的要求较高。,36,2. 主题语言,是用自然语言中具有高度概括性的名词、名词性词组描述事物概念,用参照系统等表达概念之间的相互关系的一种检索语言。 特 点:直观性强,专指度高。 根据抽词原则、编制方法及使用规则不同,可分为标题词语言、元词语言、叙词语言、关键词语言。,37,(1)叙词语言,所谓叙词,是指从自然语言中优选出来并经过规范化处理的术语,又称主题词。 叙词语言是采用表示单元概念的规范化词语的组合来对信息主题或内容进行描述的标识系统。 特 点:专指性、直观性、多维检索等。 如汉语主题词表(1980出版),38,(2)关键词语言,是指从记录信息的文献题名、摘要和正文中提取出来的具有实际意义、能够表达信息主题内容的、未经规范化的自然语言。 特点: 一般不建立关键词表,通常使用禁用词表来淘汰不具有检索意义的词。 在标引阶段只进行少量控制或不作控制,尤其适用于电子计算机处理和自动标引,能及时反映新事物概念。 在检索阶段通过对同义控制和相关词推荐等方式提供帮助。 缺点:检索质量难以保证。,39,1. 分类检索,根据文献内容在学科分类体系中的位置作为文献信息的检索途径,它的检索标识是分类号,是一种族性检索。 我国按中国图书馆分类法进行分类。如,C社会科学总论,C93管理学,C933领导学,C933.1领导体制,2.2.3 信息检索途径,40,2. 关键词途径 关键词:来自于文献的标题、文摘或正文,是一种没有规范化的自然语言。如:词汇的简称(CEO、MIS),生活常用语(打摆子、拉肚子)。 特点:没有严格的语法规范,个人使用的爱好不同自由词选择不同(非典、非典型性肺炎、SARS、严重急性呼吸系统综合症等) 缺点:若要查出所有的相关文献,需要把各种可能的用词都列出来分别查询。,41,3. 主题途径 主题词:是以自然语言为基础,以概念组配为基本原理,并经过规范化处理,表达主题的最小概念单元,作为信息存储和检索依据的一种检索语言。 特 点: 词义、词类、词形规范保证词语与概念的唯一对应关系,具有专指性。,42,检索举例:冠心病的治疗,自由词,冠心病,冠状动脉疾病,冠状动脉粥样硬化性心脏病,冠状动脉心脏病,冠状动脉疾病,主题词,文献,治疗,治疗,43,4. 著者检索,用文献的著者、编者、译者的姓名或机构团体名称编制而成的索引。 按著者姓名字顺编排 书写格式 姓前(全称)、名后(缩写,即用首字母) 如:Willian Henry Harrison Harrison W H Ren Shu Min Ren SM,44,5. 机构检索 以机构名称为检索词,来查该机构学者发表的文献。(排除同名同姓) 6. 题名检索 按书名、刊名或文章篇名的字顺进行检索。检索限定刊物上发表的文献。 7. 号码途径 利用文献代码、序号编排成的号码索引检索文献。如ISBN、ISSN等。 8、引文检索 是以被引用文献为检索起点来查找引用文献的过程。,2.3.1 检索步骤,1.分析检索课题,明确目的和要求 用户的检索需求大致分为3类: 新:及时获得最新的内容,对查全没有过高要求。 准:要解决研究中的具体问题,要求检出的文献有针对性,对查准要求较高。 全:要全面了解某一特定领域的发生、发展和现状,是一种回溯性检索,对查全有较高要求。,2.3 信息检索步骤及检索效果评价,46,2.选择合适的检索工具 根据课题的学科专业范围、主题内容,选择合适的数据库。 3.选择检索途径,确定检索标识。 确定检索途径,根据数据库的词表,把主题内容转换成检索系统采用的检索标识和检索词。 4.查找文献线索。 5.浏览检索结果,获取原始文献。,47,索取原文的方法: (1)检索网上全文数据库 (2)利用网上出版社、杂志 (3)利用图书馆馆藏目录(馆藏联合目录) (4)利用“网上全文传递服务” (5)向著者索取,48,2.3.2 检索效果评价,检索要领是为实现检索结果的全和准: 因为检索结果主要通过查全率、查准率两个指标来进行评价。 查全率:系统进行检索时,检出的相关文献量与系统文献库中相关文献总量的比率。 查准率:系统中检出的相关文献量与检出的文献总量的比率。,49,思考:如某数据库中共有 探讨“企业管理”的相关文章1000篇,而你在这个数据库中只检索出900篇,而且其检索出的结果中还有100篇是不相关的,那么你这次检索的查全率和查准率各是多少?,查全率 80% 查准率 88.9%,50,第三章 计算机信息检索概述,51,本章要求,1.理解并掌握文档、记录和字段之间的关系; 2.熟悉数据库的不同划分类型 3.理解并掌握布尔逻辑算符、截词符、字段限定符的含义与使用方法; 4.熟悉位置算符的概念; 5.理解并掌握提高查全率、查准率的各种方法,52,3.1.3 数据库(P24),数据库的定义 计算机把大量相关的数据项有机地集中起来存放在数据文件中,构成一个存放数据的整体,即数据库。,53,字段1,字段2,字段3,记录1,记录2,记录3,文档1,文档2,文档3,一、数据库结构,54,记录与字段,记录(Record) 是构成数据库的信息单元,每条记录都描述了一原始信息的外表和内容特征。,字段(Field)是记录的下级数据单位,用来描述实体的某一属性。,55,记录与字段,56,顺序文档 (Sequential file) 以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大顺序排列而形成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(Master File),相当于印刷型检索工具的正文部分。,倒排文档 (Inverted file) 就是把记录中一切可检字段或属性值抽出,按某种顺序重新加以组织后所得到的一种文档.倒排档从主文档中派生出来,所以,又叫做辅助文档.,57,二、数据库类型(按内容分型),(一)书目数据库(Bibliographic Databases) :存储文摘、题录、目录等书目数据的一类数据库,又称为二次文献数据库。 (二)事实数据库(Numeric Databases) :存储描述人物、机构、事物的等非文献信息源的数据库。 (三)数值数据库(Fact Databases):为用户提供能够直接使用的数值类信息,无需再追查原文。,58,(四)全文数据库(Full Text Databases) :存储文献全文或节选其中主要部分的数据库。可以直接获取原始资料。 (五)图像数据库(Image Databases):以图像为信息主体,配有文字解释。,59,3.4 计算机检索基本技术与检索策略(P36),检索式是检索策略的逻辑表达式,也称检索提问式。是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成,60,一、运算符 又称逻辑算符,是表达检索词之间逻辑关系和限制关系的运算符号,是复合检索式不可缺少的构件。,61,(一) 布尔算符 1. “and” 称为逻辑“与”,文字表示为“and”,符号表示为“*”。 检索词A与检索词B用and组配,提问式可写为: A and B 或者 A * B 表示:检索结果中每条记录必须同时含有A和B检索词,增强检索的专指性,缩小检索范围,提高了查准率。,62,举例:逻辑运算 AND,组织冲突的管理,组织冲突AND管理,63,2. “or” 称为逻辑“或”,文字表示为“or”,用符号表示为“+”。 检索词A与B用or组配,提问式可写为: A or B 或者 A + B 表示:包含检索词A的文献或包含检索词B的文献或同时包含检索词A和检索词B 的文献均为命中文献,逻辑“或”扩大了检索范围,提高查全率。,64,举例:逻辑运算 OR,低保OR最低生活保障,65,3. “not” 称为逻辑“非”,用文字表示为“not”,用符号表示为“-”。 检索词A与检索词B用not组配,提问式可写为: A not B 或者 A B 表示:检索结果中每条记录必须包含检索词A ,但不包含检索词B 。排除了不希望出现的检索词,缩小了检索范围,提高查准率。,66,举例:逻辑运算 NOT,气功,气功NOT 通气功能,67,1、一般性检索有关甲型H1N1流感的文献,检索式:甲型H1N1流感,检索式:猪流感 OR 甲型H1N1流感 OR 甲流,2、全面检索有关甲型H1N1流感的文献,68,3、一般性检索甲型H1N1流感的传播途径 的文献,检索式:甲型H1N1流感 AND 传播途径,4、全面检索有关甲型H1N1流感的传播途径的文献,检索式 :传播途径 AND (猪流感 OR 甲型H1N1流感 OR 甲流),69,(二)截词符 “*” 和“?”,截词检索:用截词符号“?”、“*” 加在检索词的前后或中间,以检索一组概念相关或同一词根的词。 其中“?”代表有限截断,即一个“?”代表一个字符。 “*”代表无限截断,一个“*”可代表多个字符。,70,后截断,将截词符号放在一个字符串的右方。例如: librar* library, libraries, librarian, 涉及到词的单复数、作者、年代、同根词等方面的检索时,选用后截断技术。,前截断,将截词符号放在一个字符串的左方。例如:*sighted,可查到farsighted 与nearsighted。 前截断只检索后缀相同的一类词,常用于检索化学化工文献与复合词较多的文献。,71,(三)位置算符 near 、 with,位置算符:表示所连接的各个检索词之间位置关系的符号,在不同的系统中往往以不同的符号表示。 常用的位置算符有near 、 with等。 near算符 表示此算符两侧的检索词出现在同一句子中。 A near(n) B 表示两词之间允许插入最多n个其他词。,72,with算符 表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论