




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、管理学信息组织与检索第一章概述课件管理学信息组织与检索第一章概述课件2022/9/112课程的目标信息管理的核心技术之一是信息检索理论信息组织和管理的实践和理论基础应用信息检索系统的设计、开发和使用基础2022/9/104课程的目标信息管理的核心技术之一是信息检2022/9/113两个主题信息组织和设计模型预处理信息检索处理查询搜索索引结果表达(排序)2022/9/105两个主题信息组织和设计2022/9/114课程安排1 概述42 数据形式及其特性23 信息检索模型44 多媒体内容及其模型25 信息预处理和媒体结构化26 用户查询接口27 搜索和索引42022/9/106课程安排1 概述42
2、022/9/115课程安排8 并行与分布信息检索29 多媒体信息检索210 Web信息检索211 数字图书馆2*专题讨论8-10*考试:课程报告形式2022/9/107课程安排8 并行与分布信息检索22022/9/116教材和参考资料教材李国辉、汤大权、武德峰.信息组织与检索.科学出版社,北京:2002.参考资料Ricardo Baeza-Yates. Modern information retrieval. Addison Wesley Longman Publishing Co. Inc. 1999.Keith V. Rijsbergen, Information Retrieval.
3、The second editon, Butterworths, London, 1979. 2022/9/108教材和参考资料教材2022/9/117参考资料(杂志)Journal of the American society of information science, Wiley and Sons.ACM Transactions on Information Systems, ACM.Magazine. Information Processing & Management, Elsevier Science Ltd. http:/www.elsevier.nl/inca/publ
4、ications/ store/2/4/4/Magazine. Information Systems, Elsevier Science Ltd. http:/www.elsevier.nl/locate/is2022/9/109参考资料(杂志)Journal of t2022/9/118参考资料(杂志)Magazine. Information Retrieval, Kluwer Academic Publisher. /issn/1386-4564Magazine. Knowledge and Information Systems, Springer. /link/service/jo
5、urnals/10115/2022/9/1010参考资料(杂志)Magazine. I2022/9/119国际会议ACM SIGIR International Conference on Information Retrieval.ACM International Conference on Digital Libraries (ACM DL).ACM Conference on Information Knowledge and Management (CIKM).Text Retrieval Conference (TREC). /. 2022/9/1011国际会议ACM SIGIR
6、Inter2022/9/1110第一章 概述 问题:什么是信息检索?信息检索与数据库的查询有什么区别?信息检索领域的背景?总体看,信息检索系统是什么样子?如何评价检索性能的好坏?2022/9/1012第一章 概述 问题:2022/9/1111第一章 概述 什么是信息组织和检索信息检索的发展信息检索系统信息检索的过程检索性能的评价 2022/9/1013第一章 概述 什么是信息组织和检索2022/9/11121.1 什么是信息组织和检索 Web网站的设计和使用的例子 什么是信息?信息如何度量?信息的生命周期?信息组织?信息检索?2022/9/10141.1 什么是信息组织和检索 Web网2022
7、/9/11131.1.1 Web网站的设计和使用的例子 网站的设计内容设计导航设计表现设计 网站的使用浏览搜索2022/9/10151.1.1 Web网站的设计和使用的例2022/9/11141.1.1 Web网站的设计和使用的例子 crawl thewebcreate a keywordindexstore the documentscreate files of metadataCheshire II内容组织2022/9/10161.1.1 Web网站的设计和使用的例2022/9/11151.1.1 Web网站的设计和使用的例子 Cheshire IIresults shownto use
8、rserver accesses thedatabasesuserquery网站使用2022/9/10171.1.1 Web网站的设计和使用的例2022/9/11161.1.2 什么是信息?什么是数据?数据是按某一规格化方式对事实和概念的一种表示,适于人或自动装置进行通信、解释或处理。它是任何有意义或可以赋予含义的表达形式,例如字符或数字。 基本数据类型:文本、图像、视频、音频等。2022/9/10181.1.2 什么是信息?什么是数据?2022/9/11171.1.2 什么是信息?什么是信息?news or facts about something通知、告知、告知的事情、新闻Define
9、data as conventional representations of facts or ideas, and information as the meaning that people give to data.什么是知识?通过经验获得的认识,是个人的信息范畴,是理论或实践上的理解,是对已知事实的经验总结。 2022/9/10191.1.2 什么是信息?什么是信息?2022/9/11181.1.2 什么是信息?信息的层次观点 最下层是数据,是信息的来源和原始资料,用数据可以表达信息。信息是经过处理、组织和表现出来的数据。读、听、看、理解的信息,经过归纳和总结得出知识。最高层为智慧,
10、是提炼和综合出来的知识和理解,它建立在知识之上。 2022/9/10201.1.2 什么是信息?信息的层次观点2022/9/11191.1.2 什么是信息?WisdomKnowledgeInformationData2022/9/10211.1.2 什么是信息?WisdomK2022/9/11201.1.2 什么是信息?我们是否在学习知识中是否忽略了智慧?在获取信息后,是否进一步提炼出知识?而在数据的海洋中是否知道如何获取有价值的信息? 2022/9/10221.1.2 什么是信息?2022/9/11211.1.2 什么是信息?信息的特性信息可以通过广播和网络进行电子化交流因此信息容易复制和实
11、现共享直观上看,信息与事物和事实有关,也许是一种物质、能量或抽象的概念信息是新闻,因此重复以前接收到的消息不是信息不正确的或反面的事实是错误的信息2022/9/10231.1.2 什么是信息?信息的特性2022/9/11221.1.2 什么是信息?从人的角度看信息人的认知处理有多种级别:感知观察/关注推理、形式推论和理解人通过知识来判断信息的真实性人们接受信息的过程通过参考某些正面的观点,结合观察的事实和推理过程,产生归纳的结果 2022/9/10241.1.2 什么是信息?从人的角度看信2022/9/11231.1.2 什么是信息?从人的角度看信息并不是世界上产生的所有信息都是每个人关注的不
12、同的人关注不同的信息例如,昆虫学家关心蚂蚁间的通信和信息交流;自然保护组织关心城市建设中树木被砍伐的情况等。一个人不可能接受所有的信息,他/她只关心与自己有关的信息2022/9/10251.1.2 什么是信息?从人的角度看信2022/9/11241.1.2 什么是信息?信息的含义和形式含义和形式是信息的两个不同的层面 同一个信息含义可以用不同的形式表达 信息的含义需要媒体的表示,向信息接受者呈现(表现)信息的内容2022/9/10261.1.2 什么是信息?信息的含义和形2022/9/11251.1.3 信息的度量对消息的接受者来说,事件的信息量与事件发生的概率有关:事件发生的概率越小,其包含
13、的信息量越大;反之亦然。事件是必然的(概率为1),则它包含的信息量为0;事件是不可能的(概率为0),则它含有无穷的信息量。2022/9/10271.1.3 信息的度量对消息的接受者来2022/9/11261.1.3 信息的度量信息量I与事件概率P(x)的关系:信息量的单位a=2,比特a=e,奈特nat, 约等于1.443比特A=10,笛特 det2022/9/10281.1.3 信息的度量信息量I与事件概2022/9/11271.1.4 信息的生命周期从产生到被利用,信息具有一个完整的生命周期产生检索利用 2022/9/10291.1.4 信息的生命周期从产生到被利2022/9/11281.1
14、.4 信息的生命周期2022/9/10301.1.4 信息的生命周期2022/9/11291.1.5 信息组织和检索概念组织(organization)就是把数据按照一定的结构、顺序、排列方式组织起来信息组织就是按照信息检索的需要,对数据及其特性进行组织检索(retrieval)就是重新获得或恢复,是进行搜索、定位及读出数据的过程信息检索就是从大量的文档集中获取用户需要的相关信息 2022/9/10311.1.5 信息组织和检索概念组织(o2022/9/11301.1.5 信息组织和检索概念数据检索数据库的查询用到的是数据检索的概念数据检索就是根据数据库的结构化属性来搜索,确定哪些文档的属性中
15、包含用户查询的关键字数据检索语言的目标就是检索出满足定义条件的所有对象 是一种精确匹配例如,查询“run”,将只匹配run,而不匹配runs或running 2022/9/10321.1.5 信息组织和检索概念数据检索2022/9/11311.1.5 信息组织和检索概念信息检索检索出有关某个主题(用户的信息需求)相关的信息 检索到的对象可以不太精确(部分匹配),允许有一些小的不明显的偏差以某种方式“解释”文档库中数据单元的内容,并把检索的结果按照与用户查询的相关程度来排序。 相关性(relevance)是信息检索的核心之一 2022/9/10331.1.5 信息组织和检索概念信息检索2022/
16、9/11321.1.5 信息组织和检索概念数据检索与信息检索信息检索涉及到用户的信息需求和提交的查询不总是结构化的,而且具有语义模糊性数据检索系统,例如关系数据库系统,涉及的数据具有完好定义的结构和语义2022/9/10341.1.5 信息组织和检索概念2022/9/11331.1.5 信息组织和检索概念信息检索的一种规范定义 从大量收集的数据或文档集C中,找到与给定的查询请求q相关的恰当数目的数据或文档子集A。 2022/9/10351.1.5 信息组织和检索概念2022/9/11341.2 信息检索的发展可以追溯到4000年前经典的方法:目录和索引手工到计算机计算机化到网络网络到无处不在?
17、.未来?2022/9/10361.2 信息检索的发展可以追溯到4002022/9/11351.2 信息检索的发展三个阶段人工管理的计算机化阶段。上世纪50到60年代,利用计算机来对图书馆馆藏资料进行管理文本信息检索阶段。上世纪70到80年代,从基于文档元数据的查询,发展到能够基于全文内容进行文本信息的检索。网络化信息检索阶段。上世纪90年代开始,有Web搜索引擎、数字图书馆、多媒体信息检索、并行和分布信息检索2022/9/10371.2 信息检索的发展三个阶段2022/9/11361.2 信息检索的发展Web逐步成为人类知识和文化的环球库,允许前所未有的思想和信息的共享 这种无边际的Web中,
18、如何找到有用的信息(不仅仅是文本表示的,还有多媒体表示的信息)?如何真正找到用户感兴趣的信息,而不是把有价值的信息淹没在一大堆的应答文档中?如何把信息检索与浏览和数据库查询结合起来,为Web信息环境提供一种综合的信息存取手段? 2022/9/10381.2 信息检索的发展Web逐步成为人2022/9/11371.3 信息检索系统数据源 文档预处理和媒体结构化 文档集用户查询接口 搜索和索引 2022/9/10391.3 信息检索系统数据源 2022/9/11381.3 信息检索系统2022/9/10401.3 信息检索系统2022/9/11391.3 信息检索系统检索任务数据检索信息检索浏览过
19、滤 检索是从一堆文档中抽取一部分相关的信息,而过滤是把不相关的信息排斥掉从统一的角度看,过滤任务也可以看作是一种文档不断进入到系统中来的信息检索任务。 2022/9/10411.3 信息检索系统检索任务2022/9/11401.3 信息检索系统文档逻辑视图文档的内容的一种抽象表示 文本文档索引项或关键词表示全文逻辑视图人工或自动产生文本处理:分词、非用词去除、获取词干(减到公共的语法根)等 2022/9/10421.3 信息检索系统文档逻辑视图2022/9/11411.3 信息检索系统文档逻辑视图多媒体文档视觉和听觉特性时间和空间分布和结构运动特征视频对象和音频对象特征关系、对象的语义媒体特征
20、处理和结构化:人工和自动方式多媒体内容描述 2022/9/10431.3 信息检索系统文档逻辑视图2022/9/11421.3 信息检索系统文档逻辑视图在文档中的可检索实体,用索引项、查询项来统一表示!检索任务作用于文档的逻辑视图,而不是直接作用在原始文档上*作用在原始文档上,称为模式匹配这时不需要辅助搜索的数据结构2022/9/10441.3 信息检索系统文档逻辑视图2022/9/11431.3 信息检索系统2022/9/10451.3 信息检索系统2022/9/11441.4 信息检索的过程三大步骤:预处理、内容描述、检索 2022/9/10461.4 信息检索的过程三大步骤:预处理202
21、2/9/11451.4 信息检索的过程2022/9/10471.4 信息检索的过程2022/9/11461.5 检索性能的评价 用户向检索系统提交查询后系统返回一组查询结果问题是这组结果是否满足用户的信息需求?满足的程度如何?这就涉及到检索系统的性能评价问题 2022/9/10481.5 检索性能的评价 用户向检索2022/9/11471.5 检索性能的评价检索性能的评价:给定一种检索策略S,对于每个示例的信息请求,对相似性进行定量分析。相似性是指采用检索策略S检索到的文档集合与专家提供的相关文档集合之间的相似性。检索性能评价的考虑交互式还是批处理式的检索任务?测试环境是实验室还是真实的运行环
22、境?2022/9/10491.5 检索性能的评价检索性能的评价:2022/9/11481.5 检索性能的评价经典的评价方法:查准率和回调率对于某个测试参考集,设信息请求样本为E,E对应的相关文档的集合为R,记|R|为该集合中的文档数目。给定一种检索策略S,我们对该检索策略进行评价。检索策略S处理信息请求E,并产生出一个文档应答集合A,记|A|为该集合中的文档数目。另外,计|RA|为集合R和A交集中的文档数目。 2022/9/10501.5 检索性能的评价经典的评价方法:2022/9/11491.5 检索性能的评价2022/9/10511.5 检索性能的评价2022/9/11501.5 检索性能的评价经典的评价方法:查准率和回调率回调率(查全率):定义为应答集合中相关文档数与总的相关文档数的比值,它表示检索到的相关文档的比例:2022/9/10521.5 检索性能的评价经典的评价方法:2022/9/11511.5 检索性能的评价经典的评价方法:查准率和回调率查准率:定义为应答集合中相关文档数与应答集合中文档数的比值,它表示检索到的文档中相关文档的比例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 船舶电子电气技术专业教学标准(高等职业教育专科)2025修订
- 2025年中国坚果礼盒行业市场全景分析及前景机遇研判报告
- 2025-2030年中国PLUS模块行业深度研究分析报告
- 中国剪切板行业市场调查研究及投资潜力预测报告
- 家具工艺培训课件
- 2024年全球及中国食品和饮料软管行业头部企业市场占有率及排名调研报告
- 2025年 化工自动化控制仪表操作证考试练习题附答案
- 2025年 国科大附属学校招聘教师考试试题附答案
- 2024年中国功能性涂布胶膜行业调查报告
- 2025年中国塑合行业市场发展前景及发展趋势与投资战略研究报告
- 零售药店计算机管理系统操作规程
- 洁净室施工培训
- 新生儿糖尿病喂养指导
- 山西省太原市(2024年-2025年小学五年级语文)统编版期末考试(下学期)试卷及答案
- 住院患者跌倒、坠床、压力性损伤的风险评估及管理
- 2023风光互补路灯设计方案
- 2023年山东省夏季普通高中学业水平合格考试会考生物试题及参考答案
- 2024年山东省青岛市中考英语试卷附答案
- 材料力学(山东联盟-中国石油大学(华东))智慧树知到期末考试答案章节答案2024年中国石油大学(华东)
- 江西省南昌二中心远教育集团九湾学校2023-2024学年八年级下学期期末考试物理试题
- 深入理解Nginx(模块开发与架构解析)
评论
0/150
提交评论