信息检索基础知识2.ppt_第1页
信息检索基础知识2.ppt_第2页
信息检索基础知识2.ppt_第3页
信息检索基础知识2.ppt_第4页
信息检索基础知识2.ppt_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2、信息检索基础知识,主要内容,信息检索的概念 信息源 信息检索工具 信息检索语言 信息检索途径及选择 信息检索一般步骤 信息检索效果评价,信息检索的概念,信息检索的概念有广义和狭义之分: 广义的信息检索 包括信息的存储及其检索两个过程。 信息存储:是对有关信息进行收集、标引并使信息有序化,进而形成信息检索工具的过程; 信息检索:利用一定的检索工具和检索算法,从大量的信息集合中找出用户所需信息的过程。 狭义的信息检索 仅指信息的查找过程。,信息检索的概念,原理: 整个信息检索过程刻画为三个方面:即信息的存储与组织、信息的检索实施、信息的展示。其中的关系如下图所示:,信息检索的概念,类型: 按存储和检索的内容,可分为: 文献检索( document Retrieval ) 数据检索(data Retrieval) 事实检索(fact Retrieval) 按信息检索的技术手段,可分为: 手工检索(manual retrieval ) 计算机检索(computer retrieval ) 按信息的组织方式,可分为 自由文本检索(Free-text Retrieval) 全文本检索(Full-text Retrieval) 超文本检索(Hyper-text Retrieval) 超媒体检索(Hyper-media Retrieval),信息源,信息源:信息的来源,分文献信息源和非文献信息源。 文献信息源分类: 文献载体形式:印刷型、声像型、电子型、网络型 文献信息加工深度:零次文献、一次文献、二次文献、三次文献 出版形式:图书、期刊、报纸、专利文献、标准文献、会议文献、学位论文、科技报告、档案文献、产品样本 公开程度和可获取性:白色文献源、灰色文献源、黑色文献源 非文献信息源分类 实物信息源 口头信息源,文献著录信息识别,信息检索工具,定义:信息检索工具是用于报道、存储与查找信息的工具。它是经过对信息进行搜索整理、特征分析和组织加工后的产物,同时也是信息检索的主要手段和条件。 通常按信息的著录特征可将信息检索工具划分为以下类型: 目录 题录 文摘 参考工具书 全文数据库 搜索引擎,信息检索语言,定义:检索语言是根据信息检索的需要而创造的专供信息存储和信息检索使用的规范化的一种人工语言,它贯穿于信息存储和检索的全过程。 信息检索语言是沟通信息存储和信息检索的一种约定语言。 基本功能 对文献信息内容(及某些外表特征)加以标引; 对内容相同及相关的信息加以集中或揭示其相关性; 对大量信息加以系统化或组织化; 便于将标引用语和检索用语进行相符性比较。,信息检索语言,分类 检索语言有多种分类方式,其中就其描述文献的有关特征而言,可分为描述文献外部特征的“外部特征语言”和描述文献内容特征的“内容特征语言”,这两大范畴的语言又可细分为若干具体的语言。,信息检索语言,1、分类语言 是一种用“分类号”来表达各种概念,将各种概念按学科性质进行系统排列。它集中体现学科的系统性,反映事物的从属、派生关系,由上至下,从总体到局部层层展开,是一种等级体系。由类目(语言文字)及其相对应的类号(字母、数字或其组合)来表达各种概念,构成一个完整的分类类目表。 如中国图书馆分类法、国际专利分类表等都属于分类检索语言。,信息检索语言,现以中国图书馆分类法(第四版)个别子类目的隶属与派生关系为例: 自然科学 T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP31 计算机软件 TP311 软件工程 TP311.1 程序设计 TP311.11 程序设计方法 TP311.12 数据结构 TP311.13 数据库理论与系统 TP311.132 数据库系统:按类型分 TP311.132.1 层次数据库 TP311.132.2 网状数据库 TP311.132.3关系数据库 TP311.132.4面向对象数据库 ,信息存储过程:信息主题分类号 信息检索过程:分类号信息主题,信息检索语言,2、主题语言 主题语言不像“分类语言”那样需要借助于分类号来标识信息,而是直接以代表信息内容特征和科学概念的主题词来表达各种概念,并将这些概念词按字顺方式组织起来的一种检索语言。 特点: 1按主题(信息所论述涉及的事物)集中 2. 以自然语言作为标识符号 ,概念与标识合二为一,不存在转换工序。 3. 通过参照系统来多角度、多层次显示主题词之间的语义关系。 如标题法是采用“见(see)”、“见自(see from)”、“参见(see also)”和“参见自(see also from)”等来分别显示各个标题之间的同义、属分和相关语义关系。 主题语言又可进一步细分为标题词语言、叙词语言以及关键词语言。,信息检索语言,标题词(Heading)语言 标题词语言是最早使用的一主题语言,至今仍被称为主题词语言,而实际上它只是主题词语言的一种。标题词原是从文献中抽出的,能标识文献内容特征的一些规范词。 标题词包括主标题词和副标题词。主标题词反映的是文献论述的主题事物,多为“事物”性的名词,如“机床”。副标题词反映的是主题事物的一个方面,是用来修饰和限定主标题词,如“稳定性”。主标题和副标题词相组配就构成了“机床稳定性”这个复杂的主题概念。,信息检索语言,标题词(Heading)语言 标题词之间按字顺排列,组成标题词表。对于一些没有被词表收录的“非正式标引词”,系统设立了专门的“参照系统”,指引检索者从其他相关概念的标题中去查找文献。 评价:主标题词与副标题词组配固定,不便表达复杂概念。,信息检索语言,叙词语言 叙词语言是在20世纪60年代发展起来的,以自然语言为基础的一种主体语言 常用的叙词表有汉语主题词表、中国中医药到病除主题词表、美国的医学主题词表(MeSH)等。 构成:通常由字顺表和词族索引两部分构成。 1、字顺表:是叙词表的主体,提示叙词的等同关系、属分关系和相关关系. 2、词族索引:按概念成族的原理编制而成,将主表中具有族性语义关系的全部叙词逐级展开,全面显示。按音序排列。 作用:增加了叙词表的扩检与缩检功能。,信息检索语言,主题法和分类法区别 揭示对象不同 主题法揭示文献论述的具体事物或主题概念(“是什么”); 分类法揭示的是文献内容的学科属性(“属什么”)。 使用标识 主题法直接用词语表示文献主题; 分类法则以抽象化的类目代号“分类号”作为文献内容标识和检索标识。 前者直观易懂,后者较简洁,但也较费解。,信息检索语言,主题法和分类法区别 排列方式 主题法按词语字顺排列,如同词典,易学易查; 分类法按分类号(学科或专业门类的代号)排列,系统性较强,但不熟悉有关分类表则难以有效地利用。 用途 主题法较适合于对单篇文献的组织和检索,且更适于计算机组织和检索; 分类法则比较适合于图书或文集的组织和检索。,信息检索语言,关键词语言 关键词语言是自然语言(未经优化和规范化处理),直接取自文献的题名、文摘等,或者取自全文。除了禁用词(冠词、介词、副词代词以及语气助词等 ),凡在概念上有意义的词都可用做关键词。它确保检索用词与文献记录中的词汇完全一致。 特点: 语言未作规范,查准率和查全率都较低 方便计算机作自动编排和检索 ,适合网络信息检索,信息检索途径及选择,检索途径:又称检索点或检索入口,包括信息源外表特征与内容特征 外表特征:从构成文献信息源的载体、符号系统和记录方式三要素中提取出的特征构成。 内容特征:由分析构成文献信息源的信息内容要素的特征与学科属性形成。,信息检索途径及选择,文献外部特征的检索途径 题名途径 即直接利用图书的书名、期刊的刊名、标准文献的标准名来查找所需信息的方法途径。 著者途径 即从个人著者名或者团体著者名出发,查找他们所发表或者主持的文献。 代码途径 如专利号、标准书号(ISBN)、标准刊号(ISSN)、馆藏号等。在已知文献特定代码的前提下,利用代码途径检索文献是最为快捷的方法之一。 机构名称途径 主要包括作者所在的单位,以及图书期刊的出版发行单位等。 信息源类型途径 即直接利用信息资源的类型作为检索入口的方法。 其他途径 根据某些信息的特殊标识进行检索的方法,如化学分子式,地域名称等。,信息检索途径及选择,内容特征检索途径 分类途径 指按照文献所属的类别来检索文献的途径。 优点:能够从学科或专业角度广泛地获得较系统的文献,能够达到较高的查全率。 主题途径 指通过能表达文献内容的主题词来检索文献的一种途径。主题检索的实施,需要用到各种主题词索引,如主题索引、关键词索引、叙词索引等。 优点:主题途径表达概念直接、准确、灵活,适合于检索复杂、专深或较为具体的文献资料。 关键词途径 把对信息主题内容起关键作用的词抽取出来,并利用它来检索文献的一种途径。 优点:由于关键词是一种很灵活的单词或词组,它不需规范词表,使用比较方便。在计算机检索系统中应用比较广泛。,信息检索的一般步骤,1、明确检索的目的 2、检索前的准备工作 3、选择检索系统和数据库 4、规划检索程序 5、分析检索结果,信息检索的一般步骤,1、明确检索的目的 课题分析确定检索主题 确定检索的范围:地理、时间段、文献类型等 预期所需文献信息数量,2、检索前的准备工作 明确学科通用的关键检索词 是否对特定的作者、专家学者的研究感兴趣? 是否有特定的出版机构的文献与你的研究主题相关? 其它?,检索要求:新、准、全,如要了解科技的最新动态、学科的进展、了解前沿、探索未知,则强调一个“新“字; 如要解决研究中的具体问题,则要强调一个“准“字; 如要了解一个全过程、写综述、作鉴定、报成果,就要回溯大量文献,要求检索的全面、详尽、系统,则要强调一个“全“字。,3 、选择检索系统和数据库 掌握数据库资源所覆盖的学科范围 掌握各种数据收录文献的类型 查看数据库的详细介绍和说明 请教图书馆员要求介绍检索的最佳数据库,4 、规划检索程序 选定检索主题词 建立检索表达式 调整相关设定:年代、类型等,选定检索主题词,利用关键词的上下位词、特有名词及同义词,查阅工具如字典、分类表等。,建立检索,使用逻辑算符(AND, OR, NOT) 限制检索条件:作者, 刊物或年代.,调整相关设定,决定检索结果的显示方式:以日期,关联性排序,进 行 检 索,5、分析检索结果,不满意,满 意,不满意 非目标性结果,重新檢索,检查检索词的拼写 检查检索词的准确性-查阅词典、字典、词表,删除错误名词 调查被检索的数据库 数据库说明、期刊列表确定是否覆盖你所需要检索的主题,不满意 结果太多,设定限制条件、特定的检索字段及年代 增加检索名词的准确性查阅工具:主题词表、字典、分类表等 修改检索策略增加使用AND,减少使用OR。,重新檢索,不满意 结果太少,检查检索词的正确性、准确性 增加检索词的普遍性查阅工具:主题词表、字典、分类表等 拓宽检索策略减少使用ANDs;使用OR连接增加的同义我词和近义词 增加检索数据库确定其他数据库是否覆盖你所需要的检索主题,重新檢索,满 意,是否获得全部所需? 打印、Email或存档 是否需要获取全文 ? 连接全文连接;图书馆期刊、资料;原文传递服务,检索技巧和提示,广泛浏览数据库 选择合适的数据库试查 调整策略的考虑 利用检出文献的信息,拓宽检索 充分利用各种资源 各种导航工具、虚拟图书馆(网络专题资源的有序集合),信息检索的一般步骤,信息检索一般按分析检索课题、选择检索工具、确定检索策略、调整检索策略、获取原文等五个步骤进行。,信息检索的一般步骤,1、分析检索课题、明确检索要求 分析研究课题,是实施检索中最重要的一步,也是影响检索效果和效率的关键因素。在课题分析中,要明确以下几个问题。 (1)明确研究课题所需的信息内容,提出能准确反映核心内容的主题概念。 (2)确定课题需要查找的文献类型、语种及出版年代等方面的要求。 (3)明确课题对查新、查准、查全的指标要求及其侧重点。,信息检索的一般步骤,2、选择检索工具 在明确了课题的检索范围和要求后,就要据此来选择检索工具。首先,根据检索要求和检索工具的学科特点和收录范围,初步选择一些符合要求的检索工具,然后,再根据这些工具的质量、性能以及检索人员以往使用的经验,来最终确定一个或几个合适的检索工具。选择检索工具应参考的原则是: (1)学科属性 (2)收编的范围和特色 (3)参考资源的检索方法和系统功能。 (4)了解并有效利用检索系统的助检手段和辅助工具,如检索帮助、培训课程。,信息检索的一般步骤,3、确定检索途径、检索方法 检索途径是开始查找的入口点。常用的有分类检索途径、主题检索途径、著者检索途径、题名检索途径。 采取哪种检索途径,要从课题检索要求出发。如果课题检索要求泛指性强,所需文献范围较广,则最好选择分类途径;如果课题检索要求专指性强,所需文献比较专深,则最好选择主题途径;题名途径、分子式途径等进行检索为好。 同时根据用户检索的目的,期望的文献数量以及有关主题在学科中的状况,选用适当的检索方法。,信息检索的一般步骤,4、调整检索策略 确定了具体的检索方法后,就要利用所用的检索工具的索引,在一定的年代范围内具体查找,以获得文献线索。 在具体的检索过程中,当结果中出现了太多的不相关记录或太少的相关记录时,则需要对我们的检索策略进行调整和优化。,信息检索的一般步骤,5、获取原文 信息检索的最终目的是获取有用的原始文献。原文获取的方式主要有以下几种: 利用全文数据库直接获取。现在有许多全文数据库,通过检索均可直接获得原文。如“中国期刊全文数据库”、万方数据化期刊等 。 利用文摘数据库传递系统获取。 利用OPAC检索系统,进行馆际互借,检索效果评价,通用评价指标 包括:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recall ratio)和查准率(Precision ratio),分别用R和P大写字母表示。 史兰弗登(C.W.Cleverdon,英国),检索效果评价,查全率是衡量系统在实施某一检索作业时检出相关文献能力的一种测度指标,其计算方法为: 查全率(R)=查出的相关文献/库中所有的相关文献X100% 由于在系统的数据库中,针对某一提问的全部相关文献数量不能精确获知,因此R的计算结果一般都是近似值。 查准率是衡量系统在实施某一检索作业时检索精确度的一个测度指标,其计算方法为: 查准率(P)=查出的相关文献量/查出的文献总量X100%,检索效果评价,查全率与查准率的关系 克兰弗登进行试验后得出了查全率R与查准率P曲线,并且证明RP之间存在着“互逆”关系。,A点:检索词数量多,泛指性强,查全率较高,但查准率却很低 B点:检索词专指性较强,查准率高,查全率降低; C,D两点:两种极端的折衷。 R和P各自的最佳状态是逼近100%,但同时只能满足一个。要提高查全率,则要付出查准率降低的代价;要提高查准率,也要使查全率下降。 查全率一般在6070%,查准率一般在4050。,文献检索:指查找用户所需文献的线索或者原文的检索。 数据检索:查找用户所需特定数据的检索。 事实检索:以获取事物的实际情况为基础而集合生成新的分析结果的一类信息检索。,手工检索:利用人工来处理和查找所需信息的方式,多利用各种检索工具的印刷版来实现。 计算机检索:将大量的文献资料或数据进行加工整理,按一定格式存储在机读载体上,建成机读数据库,然后利用计算机对数据库进行检索的信息检索方式。包括联机检索系统、光盘检索系统,网络检索系统。,自由文本检索:文献纪录中的题名、著者、文摘、标引的主题标识,特别是文摘的内容,其中每一个词都是可以自由检索的。包括单词检索、词组检索、布尔检索、位置检索、截词检索及检域限制等。 全文本检索:在自由文本检索的基础发展起来。检索对象是计算机可读形式的文献全文文本。 超文本检索:通过预先对文本中的有关词汇进行索引链接,使这些带链接指针的词汇或短语指向文本中的其他有关段落、注解和内容。这些内容通过下划线、高亮、加粗或不同颜色等处理。点击这些词语,超文本立刻就能显示该词语链接的内容,如此又可以继续查找更感兴趣的内容。 超媒体检索:将多媒体技术结合到超文本中,允许文本之外的图片、声音、动画、影视等信息单元,也可以与文本一样,作为指向其他文本或多媒体信息的链接指针。,印刷型:以纸张为存储介质,以手写或印刷为纪录手段而存在的一种传统文献形式。 声像型:以磁性材料、光学材料为纪录载体,利用专门的机械电子装置记录、显示声音和图像的文献。 电子型:以数字代码方式将图、文、声、像等信息记录在磁光电介质上,通过计算机或具有类似功能的设备阅读使用。 网络型:通过计算机网络可以利用到的所有信息资源。,零次文献:非正式出版物或非正式渠道交流的文献,未公开与社会,只为个人或某一团体所用。 一次文献:一切作者以本人的研究成果为基本素材而创作的原始文献。 二次文献:又称检索性文献。指通过对一次文献源进行外部特征和内容特征的分析、提取、整理而形成的新的文献形式。 三次文献:又称参考性文献。由对一定范围内的一次文献和二次文献进行分析、研究、综合生成的系统化的信息而形成,又分为综述研究类和参考工具类。,专利文献:包含已经申请或被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发和试验成果的有关资料以及保护发明人、专利所有人及工业品外观设计和使用新型注册证书持有人的有关资料的已出版或未出版的文献或其摘要的总称。 标准文献:技术标准、技术规范和技术规则等文献的总称,具有法律性和时效性,约束力强。 科技报告:又称研究报告或技术报告,是围绕某个课题所取得的阶段性进展或最终性成果的记录与书面报告。 档案文献:国家机构、社会组织以及个人从事社会活动所形成的具有保存价值的各种文字、图表、声像等不同形式的历史记录。 产品样本:国内外生产厂商或经销商为推销

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论