信息检索与利用课件 第2章 信息检索_第1页
信息检索与利用课件 第2章 信息检索_第2页
信息检索与利用课件 第2章 信息检索_第3页
信息检索与利用课件 第2章 信息检索_第4页
信息检索与利用课件 第2章 信息检索_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章信息检索信息检索与利用检索语言信息检索概述检索途径检索系统检索技术信息检索的实施2.1.1信息检索的概念从广义的角度看,信息检索是将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。从狭义的角度看,信息检索就是根据用户的要求,按照一定的途径和方法,借助一定的检索工具对信息进行查找和调取的过程,是查找信息的方法和手段。广义的信息检索这一过程分为两个部分,即“存”和“取”。1.存储的发展和技术演进“存”即信息标引和存储的过程,在这个过程中,首先需要将大量杂乱无序的信息集中起来,然后按照其外部特征和内容特征进行著录、标引和组织,使其有序化、系统化。2.1.1信息检索的概念信息著录信息著录是在编制文献目录时,按照一定规则,对文献的外部特征和内容特征进行分析、选择和记录的过程,也就是对信息的题名、著者、出处等外部特征和内容特征进行描述。不同的信息资源类型及不同检索系统的描述项目不完全相同。图书著录示例(部分)期刊著录示例(部分)信息整序信息整序即把著录信息按照信息特征的标记进行排列,也就是对信息进行标引,给出信息标识,并编制各种类型的索引。信息整序是根据著者姓名、题名、序号等信息外在属性标识和分类号、主题词等信息内在属性标识来排列信息的。2.1.1信息检索的概念2.“取”“取”即信息分析和检索的过程。在编制好的数据库或检索系统中,利用检索工具或相关方法找到满足用户特定需求的信息,实现信息的检索和利用。也就是用户借助检索工具或检索系统,采用一定的检索策略、方法,从信息资源集合中查找所需信息的过程。2.1.2信息检索的目的和意义学生通过信息检索打开知识的宝库,科学研究者通过信息检索站在前人的肩膀上,创造出更多新的发明和成果。因此,信息检索在当代具有十分重要的意义。②提高学习能力知识处于不断更新和完善之中,通过信息检索,人们可以不断学习新的知识,更新旧的知识,不断提升自己的自学能力、研究能力、思维能力、组织能力等,实现终身学习。①养成创造性思维如今的信息资源是一代一代人共同积累和创造的,其中蕴含大量的知识、方法、技巧、思想等,广泛检索并利用这些知识,有利于人们从中获取灵感,开发智慧、开拓创新,创造新的成就。④提高自身竞争力当前时代是一个信息化的时代,信息的开发与利用是反映一个国家综合国力的重要标志,无论是对个人、企业,还是国家而言,充分掌握各种信息、善于利用各种信息,都可以提升其决策能力和决策正确性,从而获得更强大的竞争力。③提高学习和工作效率无论是学习知识,还是科技研发等,都可以通过信息检索学习他人的优秀方法,了解他人新取得的成果,总结失败的经验教训,从而改进自己学习、研究的方向和内容,缩短学习和研究周期,提高学习和工作效率。2.1.3信息检索的发展历程手动检索阶段A联机检索阶段C网络化检索阶段EBD脱机检索阶段光盘检索阶段如今,信息检索继续向着数字化、便捷化的方向发展,特别是随着计算机集成技术的成熟和数字技术的发展应用,信息的采集、加工、标引、著录、校对、审核、入库、存储,以及检索与利用,都实现了简单、快捷的数字化,将信息检索扩展到了更为广阔的领域。2.1.4信息检索的原理信息检索的本质是将用户信息需求和文献信息集合进行匹配的过程。从系统的角度看,系统需要将用户需求特征与信息资源系统中的检索语言进行匹配,并显示匹配成功的结果;从用户的角度看,用户需要基于特定的信息需求,采用一定的方法、技术和手段,根据一定的线索与规则,从系统中找到相关信息。信息检索原理与过程2.1.5信息检索的类型1.按检索内容划分事实检索事实检索主要以特定的事件或事实作为检索对象,如字、词、诗、时间、地点、人名、事件、法规、制度、图像、参数、公式等内容的查找都属于事实检索。数据检索数据检索主要以数据、图表等作为检索对象。数据检索数据库中往往存储了大量数据,如统计数据、观测数据、各种参数,以及图表、图谱等。文献信息检索文献信息检索主要以文献为检索对象,是从一个文献集合中检索特定文献的活动、方法和程序,其检索内容包括文献的题目、著者、来源或出处、文摘、全文等。0102032.1.5信息检索的类型2.按信息组织方式划分ACB全文检索是很常用且便捷的一种检索方式,用户可以根据需要获取检索系统中的整本书、整篇文章或任意内容。超文本检索是采用计算机技术、通信技术和人工智能知识表示技术,将文字、图像、声音、动画等多种形式的信息按它们相互之间的关联和可能出现的连续性进行非线性编排后构成网络,并对这个网络中的信息进行检索。超媒体检索是对检索系统中的多媒体信息进行检索,包括文本、图像、声音、视频等,同样可以提供浏览式查询和跨库检索。全文检索超文本检索超媒体检索2.1.5信息检索的类型3.按检索方式划分综合检索即手动检索和计算机检索综合进行。预设标题计算机检索是利用计算机和网络来查找信息的检索方法,即利用数据库、计算机软件技术、计算机网络及通信系统进行的信息检索。计算机检索手动检索就是利用各种印刷型检索工具来查找信息的检索方法,是比较传统的检索方式。手动检索检索语言信息检索概述检索途径检索系统检索技术信息检索的实施2.2.1检索语言的概念检索语言是信息存储与检索过程中用于描述信息特征和用户提问的人工语言,是为了满足文献信息加工、存储和检索时的共同需要而编制的专门语言,其实质是检索和标引之间的约定语言和统一标识。检索语言主要用于描述文献特征,不管是文章、图书,还是报告,往往都具有两个比较明显的特征,即外部特征和内容特征。2.2.2分类检索语言1.体系分类法体系分类法是以学科分类为基础,依据概念的划分与概括原理,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系的一种文献分类法,也称为等级体系分类法。该分类法可以体现学科知识的系统性,便于人们从学科分类的角度检索文献。体系分类法是我国图书情报机构常用的分类法,是图书馆组织和检索藏书的主要依据。《中图法》是国内使用最为广泛的分类法,无论是大型图书馆图书资料分类,还是网上的各类数据库,都大量应用了该分类法。分类检索语言是很常用的一种检索语言,是将表示各种知识领域的类目按知识分类原理进行系统排列,并以代表类目的数字或字母符号作为文献主题标识的一类检索语言。《中图法》大部类和基本大类2.2.2分类检索语言2.组配分类法组配分类法是在分类表中分别列出不同范畴的单独概念,再用组配方式来表达具体类目的文献分类法。组配分类法的基本特征是“分面”,即依据某种分类标准划分一个主题所产生的一组类目,可以分为分面组配分类法、组配—体系分类法和体系—组配分类法等类型。《国际十进分类法》分类体系3.混合分类法混合分类法介于体系分类法和组配分类法之间,是在等级分类体系的基础上采用分面组配分类的方法,可以细分主题,新浪、网易等网站大多采用这种分类方法。2.2.3主题检索语言1.关键词检索语言主题检索语言是直接以表达主题内容的词语为检索标识,以字顺为主要排列方式,并通过参照系统等方法,揭示词间关系的标引和检索信息资源的方法。万方数据知识服务平台中的关键词检索语关键词检索语言是指从文献的标题、摘要、正文等抽取的能表达、揭示和描述文献主题内容的重要性语词。关键词检索语言以关键词为标识,关键词属于自然语言,未对拼写形式和词语含义等进行规范化处理,不受词表控制,因而可以自由组合使用。2.2.3主题检索语言2.单元词检索语言单元词是经过规范化处理的、具有独立概念的基本词汇单位,且从字面上不能再分解,否则将不能表达完整的概念或含义发生改变。单元词检索语言就是以单元词为文献内容的标识和检索依据的主题语言,通过从文献标题、摘要、正文中抽取单元词来实现信息检索。3.标题词检索语言标题词检索语言是规范化的自然语言,即以经过标准化处理的名词术语为标识来直接表达文献主题的文献标引与检索方法。标题词由主标题词和副标题词组成,它们在标题词表中按固定的方式组合排列,比较直观明确,但缺乏灵活性,难以满足多途径、多因素的信息检索。2.2.3主题检索语言4.叙词检索语言叙词检索语言又称主题词检索语言,是以自然语言词汇为基础、以规范化的叙词(主题词)为检索标识的文献标引与检索方法。叙词是以基本概念为基础的表达文献内容的词语,是从自然语言中优选出来并经过规范化处理的名词术语,也称为主题词。叙词检索语言是目前广泛使用的主题检索语言,适用于计算机检索系统和手动检索系统。用叙词语言编制的叙词表是概括某一学科或若干学科领域,并由语义相关、族性相关的名词术语组成的规范化的动态词汇表。叙词表是提供现行的、与事物概念唯一对应的、标准的标引和检索用词的权威性词表,便于文献标引人员和情报检索人员查找所需叙词。美国的《工程与科学主题词表》就是一种综合性叙词表,而《美国国家航空航天局叙词表》《国际核信息系统主题词表》则属于专业性叙词表。我国的综合性叙词表有《汉语主题词表》,专业性叙词表有《航空科技资料主题表》《电子技术汉语主题词表》《化学工业主题词表》等。2.2.4代码检索语言代码检索语言是将文献中的一些特殊字符组织排列以表达文献主题概念的一种人工语言,通常以数字、字母、数字与字母的组合或分段的方式来表示各部分含义。例如,科技报告有报告号、合同号等,专利文献有专利号、入藏号、公司代码等。SciFinder(在线版数据库学术版)中的分子式检索就属于代码检索语言,是利用文献涉及的化合物分子式或环状化合物的环分析数据组成的索引,用户可以从分子式出发,检索相应的化合物及其相关的文献信息。检索语言信息检索概述检索途径检索系统检索技术信息检索的实施2.3.1外部特征检索途径文献的外部特征和内容特征不同,其检索途径也不同。外部特征检索途径以题名、著者、代码、引文等为主,当检索人员已知文献的外部特征时,便可使用该方式进行检索。外部特征检索途径2.3.2内容特征检索途径如果在未知文献信息的情况下进行检索,则可以使用内容特征检索途径,基于文献潜在的特征(如分类、主题等)完成信息的检索。内容特征检索途径检索语言信息检索概述检索途径检索系统检索技术信息检索的实施2.4.1检索系统的内容组成检索系统是对结构化和非结构化的数据资源进行存储、索引、查询和管理的系统或体系,是与检索相关的工具、设备和人的总称,其目的是满足人们的信息存储和检索需要。按照检索工具和方式的不同,检索系统可以分为计算机检索系统和手动检索系统。手动检索系统又称印刷型检索工具,主要由正文、辅助索引、分类目录、编辑说明及样例、资料来源索引等部分构成;而计算机检索系统则由硬件、软件、网络通信和数据库等部分构成。2.4.2检索系统的类型1.目录型检索系统目录型检索系统以目录检索工具为主,主要检索文献目录线索,通常以一个出版单位或收藏单位为基本著录单位,其著录大多为书(刊)名、著者、出版年月、出版地及收藏情况等。目录按揭示信息内容范围的不同,可分为馆藏目录、联合目录、出版发行目录等类型。2.题录型检索系统题录型检索系统是将图书、期刊、专利等文献中的题名按一定的排检方式编排而成的检索系统,以单篇文献为基本著录单位来描述文献外部特征,从而快速提供文献线索,其著录内容大多为篇名、著者、著者单位、出版年,以及卷、期、页等。2.4.2检索系统的类型3.文摘型检索系统文摘型检索系统是揭示信息外部特征和内容特征的检索系统,其著录项是在题录的基础上加上文摘内容。使用文摘型检索系统的用户可以通过输入关键词、著者、标题、主题等检索条件来查找特定的文献,从而快速了解文献的核心内容、研究方法、结果和结论等关键信息。4.全文型检索系统全文型检索系统是一种用于检索并提供文本全文内容的检索系统,以一次文献为存储对象,其著录项包括文摘和全文。当用户输入检索条件后,系统会根据索引快速定位并查询相关的文档,然后将完整的原始资料或具体数据返回给用户。2.4.3常用的检索方法检索系统是用于存储、查找各类信息的工具,各种印刷版工具书、计算机数据库,以及网络搜索常用的搜索引擎等都可以归纳为检索系统。从学术检索的角度来看,要想在使用检索系。顺查法顺查法是按照时间顺序,由远及近地利用检索系统进行信息查找的方法。倒查法倒查法和顺查法类似,不同之处是倒查法按照时间顺序由近及远地查找,先查找最近的、最新的信息,且重点查找最新的信息,如果有需要,再查找时间较远的信息。抽查法抽查法是指针对检索需求,抽取学科或领域发展迅速、信息全面的一段时间进行逐年检索,这一段时间往往是该学科或领域信息产生的高峰期,信息较多,因而检索起来比较便捷、高效。追溯法追溯法是指利用文献后面的参考文献来检索信息的方法,这些参考文献与检索文献往往具有较大的相关性,一定程度上可以为检索人员提供关键信息。循环法循环法即综合利用以上方法来检索信息,如先使用顺查法、倒查法、抽查法等方法检索相关文献,再根据文献后面的参考文献继续检索,扩大检索范围。检索语言信息检索概述检索途径检索系统检索技术信息检索的实施2.5.1布尔逻辑检索检索系统是用于存储、查找各类信息的工具,各种印刷版工具书、计算机数据库,以及网络搜索常用的搜索引擎等都可以归纳为检索系统。从学术检索的角度来看,要想在使用检索系。逻辑“与”逻辑“或”逻辑“非”2.5.1布尔逻辑检索在中国知网中运用逻辑“与”、逻辑“或”、逻辑“非”检索检索式是指将各个检索单元之间的逻辑关系、位置关系等用检索系统规定的各种运算符连接起来,计算机通过识别和执行检索式完成检索。检索式控制着检索的过程和结果,因此其合理性直接关系到检索的有效性。不同检索式的不同检索结果2.5.2截词检索截词检索是指在检索词的合适位置进行截断,然后使用截词符进行处理,即利用检索词的词干或局部进行检索,只要含有检索词局部的所有字符,对应的信息都可以被检索出来。前截断也称左截断,是指将截词符置于字符串的前面。后截断也称右截断,是指将截词符置于字符串后面。中间截断是指将截词符置于字符串的中间,表示任意字符。前后截断是指截去某个词语的前部和后部,保持中间一致。12342.5.3字段检索通过外部特征和内容特征进行检索的方法,即通过刊名、作者、关键词等信息进行检索,这些信息在数据库中也称为检索字段,即指定检索词出现的字段。中国知网与万方数据知识服务平台的检索字段万方数据知识服务平台中期刊和科技报告的检索字段2.5.4位置检索位置检索即在检索词之间使用位置算符限制两边的检索词出现在检索结果中的位置。由于文献中词语的位置和相对次序不同,所表达的意思也不同,因而通过限制词语的位置来表达检索词之间的邻近关系,可以更清晰地表达检索意图,提高检索的查全率和查准率。(F)算符(S)算符(N)算符(W)算符W是with的缩写,(W)算符两侧的检索词必须保持前后位置不变,且其中不可插入其他词,只能插入一个空格或一个标点符号。S是subfield的缩写,(S)算符两侧的检索词必须出现在同一子字段或自然句中,即一个句子或一个短句中,且检索词的次序可以颠倒,检索词之间可以添加任意词。N是near的缩写,(N)算符两侧的检索词位置可以颠倒,但两词之间不可插入其他词;扩展为(nN),表示可以在两个检索词中插入n个词。F是field的缩写,(F)算符两侧的检索词必须同时出现在同一字段中,如出现在题名字段、文摘字段中,检索词的次序可以颠倒,检索词之间可以添加任意词。2.5.5加权检索加权检索是一种利用不同权值对检索词进行排序的方法,使用加权检索需要根据检索词对检索课题的重要程度指定不同的权值,其检索重点不仅是检索信息及其关系,还要在此基础上判定检索词对文献命中与否的影响程度。中国知网中的加权检索检索语言信息检索概述检索途径检索系统检索技术信息检索的实施2.6.1信息检索策略与检索步骤1.分析检索课题在检索开始之前,一定要先明确检索课题的研究目的、课题类型、主要内容、背景知识、概念术语、学科范围、文献类型、检索范围等需求。2.选择检索词检索词是能表达检索课题主要内容的提问标识,是在检索时使用的表示提问主题的词、词组、数值或符号,包括题名、著者等外部特征标识和主题词、分类号等内容特征标识。(1)检索词的选取方法主题分析法AC借鉴法B切分法2.6.1信息检索策略与检索步骤(2)检索词的选取技巧为了尽量提高检索的查准率与查全率,在检索时,要灵活使用近义词、同义词,且善用上位词、下位词。总的来说,要基于规范词进行查询,兼顾自由词、全称、简称和缩写字母,如果是外来词,还要注意译写变化,某些时候也可尝试以英文作为检索词。构建检索式即合理利用选取的检索词,基于各个检索系统的检索技术构建完整的检索式。3.构建检索式检索人员最好根据学科特点和检索课题,选择与之相符的权威检索系统,尤其是在课题鉴定、论文开题、科技查新、申请专利等方面,必须选择专业、权威的检索系统。4.选择检索系统2.6.2信息检索效果评估与策略调整1.检索效果评价所谓检索效果,即利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论