版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章信息检索
信息组织是指按照一定的规则来描述信息资源或信息对象,以便于能被需要它们的人高效地利用。信息检索则是指为了个人或他人的需要,去发现适当的信息资源或信息对象。信息组织和信息检索是一对互逆过程。
6.1信息检索的基本概念与原理6.1.1信息检索的涵义根据特定的需求,运用某种检索工具,按照一定的方法,从大量文献中查出所需的资料或信息的过程。满足信息用户的信息需求而建立的,存贮经过加工了的信息集合,拥有特定的存贮、检索与传送的技术装备,提供一定存贮与检索方法及检索服务功能的一种相对独立的服务实体(包括人和检索工作单位),统称为信息检索系统(InformationRetrievalSystem,简称IRS)。信息检索系统的三个基本要素:人、检索工具(包括设备)和信息资料信息检索系统的体系结构
潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则=主题索引规则+辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜索请求存贮2:信息的表示6.1.2信息检索的类型与特性依检索结果内容
划分依信息存储与
检索方式划分手工检索计算机检索事实信息检索文献信息检索数据信息检索信息检索类型手工检索工具
主要指,如印刷版的《全国报刊索引》。计算机检索系统主要指,如《中国期刊全文数据库》数据信息和事实信息检索是确定性的检索,检索结果可以直接利用。文献信息检索是一种相关性检索,检索结果是文献信息的线索,一般通过二次信息来实现。
全文数据库:是一次信息和二次信息的综合体。在检索结果中,有直接的全文链接。特性:信息检索的相关性
相关性表明用户是否认为一文献与一提问吻合。信息检索的不确定性
标引的不确定性是指不同标引员在给同一篇信息对象进行标引时会选用不同的标引词,即标引词选用的不一致性。检索词选用的不确定性是指候选检索词集不止一个,检索过程具有试探性。信息检索的逻辑性检索语言、检索策略(处理信息检索提问的逻辑与查找步骤的科学安排)
6.1.3信息检索的模型布尔逻辑检索模型
(BooleanRetrievalModel,简称BRM)概率检索模型
(ProbabilityRetrievalModel,简称PRM)向量空间检索模型
(VectorRetrievalModel,简称VRM)模糊检索模型
(FuzzyRetrievalModel,简称FRM)
6.2信息检索的职能与程序6.2.1信息检索语言的职能
信息检索语言是根据信息检索需要创制的一种人工语言,又称检索语言、信息存贮与检索语言、文献工作语言、索引语言、标引语言、信息检索标识、标识系统等等。信息检索语言:词汇和语法信息检索语言的职能:可以表示文献内容、数据或其他信息形式有专用概念表示用户的信息提问能够指示计算机执行查询与检索6.2.2信息检索策略信息检索策略是针对检索提问、运用检索方法和技术而设计的信息检索方案,其目的是要达到一定的检准率和检全率。常用信息检索策略包括:分块概念组配检索策略、逐步组配检索策略、对偶组配检索策略、增长组配检索策略等。
目前在以下三方面取得进展:(1)以检全为目标的检索策略的调节与控制;(2)以检准为目标的检索策略的调节与控制;(3)以最小投入为目标的检索策略的调节与控制。
对特定系统、特定数据以及某一类型课题的检索策略的研究具体表现在以下两方面:(1)某一系统、某一数据库检索策略;
(2)某一类型课题检索策略。6.2.3信息检索效率的评价检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。在评价信息检索效率过程中,主要通过检全率、检准率、漏检率和误检率四个评价指标进行评价,其中重点是检全率和检准率。
检全率=检出的相关文献量/系统中的相关文献总量检准率=检出的相关文献量/检出的文献总量漏检率=未检出的相关文献量/系统中的相关文献总量误检率=检出的非相关文献量/检出的文献总量检全率与检准率的互逆相互曲线
1008040601008040202060检
全
率
%
R检准率%P6.2.4信息检索的程序(1)分析检索课题,明确信息需求明确信息检索课题所涉及的领域和范围;明确所需信息的内容及其内容特征;明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者及机构等;明确信息检索课题对查新、查准和查全的指标要求。
(2)选择检索工具,了解检索系统信息检索工具是人们为了充分、准确、有效地利用已有的信息资源而加工编制的用来报道、揭示、存贮和查找信息资源的卡片、表册、计算机信息系统和特定出版物。
(3)确定检索途经,选定检索方法
每一种信息检索方法都有自己的特点,在实践中可以根据信息检索要求选择使用或配合使用,以快速、准确地完成信息检索任务,实现预期的目标。
(4)实施检索策略,浏览初步结果在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。
(5)调整检索策略,获取所需信息判断文献的出版类型。根据文献出处中已有的信息,判断其出版类型。整理文献出处。将文献出处中有缩写语、有音译刊名的还原成全称或原刊名。根据出版类型在图书馆或信息机构查找馆藏目录或联合目录确定馆藏,原则上说应该按“由近及远”的顺序逐步扩大查找馆藏的范围。尽可能多渠道、多方式地获取原始信息。6.3信息检索的发展历程三个阶段手工信息检索阶段机械信息检索阶段计算机信息检索阶段手工信息检索阶段
信息检索起源于参考咨询工作,参考咨询工作产生的标志是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具;40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。
机械信息检索两种基本类型机电信息检索系统光电信息检索系统
机械信息检索并没有发展信息检索语言,只是采用单一的方法对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。
机械信息检索阶段
计算机信息检索系统三个阶段:1971年以前建立的信息检索系统,是传统的批处理检索方式。
1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。20世纪90年代以来,产生并发展的网络信息检索阶段。
信息检索技术两个发展方向:传统信息检索向全文文本、多媒体、多载体等新型信息检索的发展,在深度上提高管理和组织信息的能力;信息资源的网络化和分布化,面向互联网中海量的信息资源,在广度上提高管理和组织的能力。6.3信息检索的技术与方法从检索手段看,信息检索分为:手工信息检索机械信息检索计算机信息检索6.3.1手工信息检索的技术与方法
(1)手工信息检索工具手工信息检索工具主要是各种类型的工具书工具书是根据一定的需要,比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者查考检索有关知识、资料、事实的书籍。据工具书的体例和功能,可分为检索型工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书和边缘性工具书6种类型。
(2)手工信息检索工具的排检技术
字顺排检技术:将检索工具的内容按字、词的一定顺序或规律,有系统地组织排列起来的技术。分类排检技术:将信息素材按学科或事物性质系统地加以排列。主题排检技术:以规范化的自然语言为标识符号来标引信息内容的排检技术。时序排检技术:按时间的顺序组合信息素材的技术,多用于编制年表、年谱等检索工具。如:《国内外大事记》地序排检技术:按一定时期的行政区域来排列信息素材的技术。如:《中国名胜词典》
(3)手工信息检索方法顺查法:时间上,远近查全率高费时费力倒查法:时间上,近远查准率高漏检率高抽查法:学科的兴旺阶段检索效率高追溯法(引文法):
A.一次文献参考文献一次信息参考文献……近远
B.一次文献引用该一次信息的文献新的一次文献……实际是由“远近”越查文献越新扩大信息源效率低检全率低漏检率高循环法:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找。
6.3.2机械信息检索的技术与方法
机电信息检索系统
继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机。这就形成了机电信息检索系统。光电信息检索系统
主要是以缩微胶卷(片)检索方式出现的。缩微胶卷(片)的检索方式大致可以分为两种类型:①寻址检索方式②编码检索方式6.3.3计算机信息检索的技术与方法
(1)联机信息检索信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程。优点:①检索速度快;②检索范围广而全面;③检索途径多、质量高;④检索内容新、实时性强;⑤检索辅助功能完善、使用方便,检索结果输出方式灵活、实用。缺陷:①主机负担重,一旦出现故障,则整个网络都将瘫痪;②信息组织方式以线性为主,不够灵活;③联机检索不像Internet是面向最终用户的,操作也没有后者方便。
联机信息检索系统的结构
由检索服务机构(联机存取中心)、国际通讯网络及终端三部分构成。终端设备用于输入检索程序、显示检索过程、控制打印检索结果。通讯网络用于实现远程人机对话。
检索服务机构(联机存取中心)是存储和检索信息的核心。由中央计算机、数据库检索与管理软件、联机数据库以及相应的检索服务体制组成。
联机信息检索的技术原理一个典型的计算机信息系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程。联机信息检索的服务方式a定题信息提供(SDI)b专题回溯检索(RS)c联机订购原文d电子邮件我国联机存取服务始于1974年,比较有影响的联机存取系统有:
(1)万方数据资源系统
/(2)CNKI数据资源系统
(3)维普数据资讯系统
/(2)光盘信息检索特点:光盘存贮容量大、耐用检索成本低。一次购买可多次使用,节省了电讯费和联机系统使用费。操作简单,检索效果好。用户按提示或帮助功能使用检索系统。运行速度快。单机检索,不受线路影响。安全性能高。只读光盘,一般局域网用户使用。如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制更新周期长。一般的光盘数据库更新要1个月或更长,而网络数据库的更新周期一般是1周或更短。检索时需不断换盘。一个大型数据库,一般都是几张光盘,特别是全文数据库,如中国学术期刊全文光盘数据库,每年都有一百多张光盘,检索时需要不断更换光盘。光盘信息检索方法光盘检索系统的功能和指令与联机检索没有很大区别,但更方便。功能键:Help(帮助)、Index(索引)、History(查阅历史)、Display(显示)、Print(打印)、SelectDatabase(选择数据库)、FormatWindow(格式窗)、Quit(退出)等检索信息时可用单元词、多元词(短语)、数字及布尔运算符和位置运算符把几个检索术语组配成一个提问逻辑式。
用户可以在任何时刻回顾其查找的历史,重新使用或修改以前的任何提问。
屏幕帮助是光盘数据库最常用也是重要的功能之一。(3)网络信息检索网络信息检索模式
广义:从根本上解决有效利用网络信息资源问题的关键
如何对网络上的海量多态信息进行组织,如何对这些信息建立索引,如何对索引及时更新;如何设计检索算法以使检索提问在检全、检准、响应时间、检索结果控制与显示方面表现良好;如何为用户设计一个简单易用的友好界面
狭义:在现实世界中有效利用网络资源的核心
只是以网络(如互联网)为媒介,利用网上已提供的一些信息检索工具,探索如何使用这些工具及如何综合各工具,使它们扬长避短,最后能实现对信息提问的检索查询的一种方法与技术。特点:信息丰富,检索空间拓宽信息资源的异构式分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论