整理版信息检索概述课件_第1页
整理版信息检索概述课件_第2页
整理版信息检索概述课件_第3页
整理版信息检索概述课件_第4页
整理版信息检索概述课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本章主要内容12023/10/2信息检索系统开发与设计第一章信息检索基本原理信息检索系统信息检索发展历史与趋势信息检索学科研究范围1.1

信息检索基本原理22023/10/2信息检索系统开发与设计第一章Information

Retrieval

信息检索将情报按一定的方式组织和存贮起来,并根据用户的需要找出有关情报的过程。(赖)一种延时性通讯形式,在时间上从一个时刻通往一个较晚的时刻,而空间上可能还在同一地点。(Calvin

W, Mooers,

1949)是对信息条目(Information

Items)进行表示、存贮、组织和存取(Access)的过程。Information

Access

信息存取1.1

信息检索基本原理32023/10/2信息检索系统开发与设计第一章信息检索的基本目标:检索出所有与用户提问相关的文献,同时尽可能检出更少的不相关文献。相关信息的有效检索涉及两个方面用户任务文献的逻辑表示1.1.1

信息检索中用户任务检索数据库浏览42023/10/2信息检索系统开发与设计第一章图1-1

信息检索中用户任务1.1.1

信息检索中用户任务52023/10/2信息检索系统开发与设计第一章检索retrieval用户将其信息需求和问题翻译成检索系统要求的提问式(query),系统匹配后,提交相关文献。浏览browsing使用交互式界面翻阅整个文献集合,以找出感兴趣的相关文献。1.1.1

信息检索中用户任务62023/10/2信息检索系统开发与设计第一章传统检索系统:数据检索或信息检索超文本系统:快速浏览电子图书馆与Web搜索引擎系统:检索与浏览的结合。1.1.2

文献的逻辑表示72023/10/2信息检索系统开发与设计第一章全文本——标引词的集合目的:降低文献表示的复杂性,和计算机处理的难度。2023/10/2信息检索系统开发与设计第一章8

图1-2

文献的逻

辑表示文结全本构文结本构文献结构识别着重空格标点等

处理停用词处理名词集合词根处理自动或手工标引标引词标引词1.1.2

文献的逻辑表示92023/10/2信息检索系统开发与设计第一章传统:一个集合中的文献常常通过标引词或关键词的集合来表示。现代:用文献的所有词集合以及结构来表示成为可能,检索系统采用文献的全文本(full-text

view)视图逻辑表示。1.2

信息检索系统102023/10/2信息检索系统开发与设计第一章信息检索系统是由一定的设备和信息集合构成,面向一定的用户,具有信息采集、组织、存贮、选择和传播等功能的信息服务设施。1.2.1

信息检索处理过程112023/10/2信息检索系统开发与设计第一章定义和建立文本数据库用户提问操作匹配处理2023/10/212用户界面文本操作提问操作逻辑视图数据库管理者模块标引查询排序检索得文献用户反馈倒排文档索引排序文献文本数据库文本图1-3

检索处理过程信息检索系统开发与设计

第一章文本1.2.1

信息检索处理过程132023/10/2信息检索系统开发与设计第一章文本数据库由数据库管理者模块建立确定使用的信息条目范围文本操作处理定义文本的逻辑视图,建立索引1.2.1

信息检索处理过程142023/10/2信息检索系统开发与设计第一章1.2.1

信息检索处理过程152023/10/2信息检索系统开发与设计第一章1.2.2

信息检索系统的逻辑构成162023/10/2信息检索系统开发与设计第一章信息检索系统的逻辑构成主要是指它所包括的功能模块或子系统及其相互关系。一个完整的信息检索系统,通常由以下几个功能模块组成:信息源选择采集子系统标引子系统建库子系统词表管理子系统用户接口子系统提问处理子系统1.2.2

信息检索系统的逻辑构成172023/10/2信息检索系统开发与设计第一章信息源选择采集子系统信息源是检索系统的信息或数据来源,目前,信息检索系统中的数据主要来自各种公开文献,如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文、二次文献中的文摘、索引和目录,三次文献中的百科全书、专科词典,名录、指南、手册等,有些系统还收录各种机构的内部资料,如实验记录、测试或观测结果、工程设计资料、统计资料等。本功能模块任务:根据系统的经营方针和服务对象的需要,

以快速、经济的手段,广泛地、连续不断地采集各种信息源,为系统提供充足而适用的数据来源。1.2.2

信息检索系统的逻辑构成182023/10/2信息检索系统开发与设计第一章标引子系统标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(分类号、主题词、关键词等),作为存贮与检索的依据。标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项填入工作单,交录入员去录入计算机中。1.2.2

信息检索系统的逻辑构成192023/10/2信息检索系统开发与设计第一章建库子系统任务是建立和维护可直接用于计算机检索的数据库。作业内容主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。1.2.2

信息检索系统的逻辑构成202023/10/2信息检索系统开发与设计第一章词表管理子系统–功能是管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户的各种词汇查询操作,从提问、对话或其它文本中采集词汇、信息,以及输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。1.2.2

信息检索系统的逻辑构成212023/10/2信息检索系统开发与设计第一章用户接口子系统System-userinterface,是面向系统用户的一种人---机接口。它承担用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接系统(软硬件)。用户模型:是系统建立的用户认知模型,可以用来增强人、机接口的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工程学因素。命令语言:是指系统提供给用户的检索命令集合,包括基本命令(如检索开始、结束、选词、组配、显示、打印等)和扩充集(如截词、位置运算、限制检索、暂存检索策略、套录下载等)。信息显示:指系统以屏幕显示形式提供给用户的各种信息,如菜单、窗口、帮助信息、错误信息等。反馈机制,即系统对用户反馈的信息所做出的反应或操作。1.2.2

信息检索系统的逻辑构成222023/10/2信息检索系统开发与设计第一章提问处理子系统负责处理用户输入的检索词或提问式,并将它们与数据库中存贮的数据进行比较运算,然后把运算结果输出给用户。该模块主要由检索程序构成:接收提问提问校验:包括语法检查、格式检查和用词检查。提问加工:指对源提问式进行解释性或编译性的加工,生成便于机器处理的目标提问式。检索,即从数据库中读入一批记录,与提问式进行比较,把满足要求的记录记入输出文档。1.2.3

信息检索系统的物理构成232023/10/2信息检索系统开发与设计第一章硬件部分外围设备数据处理或传送相关设备软件部分系统软件应用软件:数据库管理系统,建库程序,数据输入输出程序,自动标引程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等数据库磁媒体数据库光盘数据库多媒体数据库1.3

信息检索简史与趋势242023/10/2信息检索系统开发与设计第一章信息检索发展分期信息检索发展趋势1.3.1

信息检索发展分期252023/10/2信息检索系统开发与设计第一章50年代:探索与试验时期60年代:实用化时期70年代:联机服务市场化与网络化时期80年代:最终用户检索发展与多元化时期90年代:Web搜索引擎发展时期21世纪:网络化与智能信息检索时期1.3.1

信息检索发展分期262023/10/2信息检索系统开发与设计第一章图书馆中的信息检索为例第一代:卡片目录自动化系统OPAC online

public

access

catalogue第二代:增加按主题、关键词、复杂查询第三代:图形界面、数字化、超文本、开放系统框架、基于Web1.3.2

信息检索发展趋势272023/10/2信息检索系统开发与设计第一章Web对信息检索系统的巨大影响Low

cost:

是最便宜的存取各类信息源的系统,因而吸引更多的用户;Great

access:数字通信技术的进步提供了更强的接入能力,无论是本地还是远程;Publishing

freedom:

人类历史上第一次,能够自由地发布和获取大量信息。1.3.2

信息检索发展趋势282023/10/2信息检索系统开发与设计第一章IR面临的问题和挑战相关性信息的获取;更快速的提问响应;基于用户行为的新检索系统开发和设计;1.4

信息检索学科研究范围292023/10/2信息检索系统开发与设计第一章信息检索的研究范围包括一切与信息存储检索有关的系统、过程、理论和方法。一切可供存贮和检索利用的信息类型,如文献、数据、事实、知识、声音、图形等;各种细心你间作系统及

其运行过程,如信息采集、标引、组织、存贮、处理、匹配、输出、传送等;各种过程中使用的方法,以及

在信息检索实践和研究的基础上形成的各种理论和假

设,均包括在这个范围内。1.4.1

信息检索的研究对象302023/10/2信息检索系统开发与设计第一章信息检索理论主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论,“相关性”理论以及有关的哲学问题。信息检索系统主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。数据库联机信息检索与网络信息检索是目前信息检索的主要方式,最为便利,使用也最广。涉及到许多计算机设备、软件技术、存贮技术、检索技术、系统管理和经营知识、市场营销技术等。检索策略与方法任务是利用、研究、评价和完善现有的各种检索策略和方法,研究开发新的更有效的策略和方法。1.4.1

信息检索的研究对象312023/10/2信息检索系统开发与设计第一章用户研究与培训研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立响应的用户模型,作为系统设计以及制定系统营销策略的依据。用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非常有效的措施,需要研究各种方式的效果及强化培训效果的各种手

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论