




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
精品文档 1欢迎下载 信息检索 1 信息检索概念 P1 2 信息检索的原理一整节内容要自己理解 P3 P4 图 1 1 要掌握 文献替代和文献整序的概念要掌握 3 信息检索在历史上的不同表现 联机检索 光盘检索 网络检索的区别和特征 P6 P9 4 信息检索的模型概念 P9 5 布尔模型 向量空间模型 经典概率模型要理解并掌握各自的优缺点 P11 P12 6 信息检索系统的概念 P12 7 检索效果的评价指标 P15 P16 4 个指标 查全率 查准率 漏检率 误检率 掌握它们的含义并懂得计算 8 网络检索的表达式 布尔逻辑检索 邻近检索 短语检索 截词检索的特点 区别和联 系 P17 P21 9 信息检索的技巧要理解尤其是要掌握及时调整检索策略 P33 P36 10 搜索引擎的概念 P37 11 数据库知识 实验内容 特点 12 引文的概念 13 搜索引擎的分类 P40 41 搜索引擎划分的类别以及元搜索引擎的概念要掌握 12 CBR 概念 P113 12 多媒体信息检索的原理和方法 P110 P114 其中要重点理解基于内容的多媒体信息检索的检索形式 可以结合课件 13 专利的概念 P125 14 专利的类型 P126 理解一下各类型的区别 15 专利文献的概念 P127 16 专利文献的类型 P127 理解一下各类型的区别 17 灰色文献的概念 P147 18 会议文献的概念 P158 19 科技报告的概念 P163 20 查新的概念 P200 21 科技查新的作用 P201 每一个小标题后面要自己展开一段 关于上课讲的那几个数据库大家自己看一下 PPT 掌握一下 以上纯属个人观点 题型 名词解释 5 4 20 简答题 4 10 40 论述题 2 20 40 考试时间 1 月 8 日 上午 9 00 11 00 精品文档 2欢迎下载 1 1 信息检索的概念信息检索的概念 P1 P1 信息检索有广义和狭义两重含义 广义广义上说 信息检索是指将信息按照一定的方式组织和 存储起来 并根据信息用户的需求查找相关信息的过程 它包含信息存储和信息查找两个 过程 信息检索是对信息项进行表示 存储 组织和存取 狭义狭义的讲 信息检索仅仅指信 息查找的过程 即从信息集合中找出所需信息的过程 相当于 信息查询 或 信息查找 文献替代 著录 文献替代 著录 即将表示文献资源特征的元数据替代它指代的资源 文献替代过程实 际上是对原始文献的外表特征 包括题名 著者 出处等 和内容特征 包括分类号 主 题词 摘要等 进行描述的过程 这项工作通常称为著录 著录的结果是将原始文献制成 它的替代文献 二次文献 文献整序 文献整序 指的是对替代文献进行标引 给出文献标识 如分类号 主题词等 将所有替 代文献按其标识进行有规律的组织排列 形成可检索的信息资源集合 信息检索系统 信息检索系统 信息存储与信息查询功能的一类信息服务设施 或工具 信息检索的模型 信息检索的模型 就是运用数学的语言和工具 对信息检索系统中的信息及其处理的过程 加以翻译和抽象 表述为某种数学公式 再经过演绎 推理 解释和实际校验 反过来指 导信息检索实践 搜索引擎 搜索引擎 是一种 Web 上应用的软件系统 它以一定的策略在 Web 上搜集和发现信息 对 信息处理组织后 为用户提供 Web 信息查询服务 元搜索引擎 元搜索引擎 又称多元搜索引擎或集成式搜索引擎 是多个独立搜索引擎的集合 无独立 的数据库 通过一个统一的用户界面 可以同时对多个搜索引擎进行检索操作 即用户只 需一次输入检索式 便可检索一个或多个独立搜索引擎 严格来说 元搜索引擎只能算是 一种用户代理 而不是真正的搜索引擎 CBRCBR 基于内容的多媒体信息检索 主要利用计算机自动收集 量化和存储信息内容自身的 特征 如颜色 纹理 形状 表示成向量空间 建立基于内容特征的多媒体索引库 用户 在查询过程中 系统会自动将用户提问转化成向量 并与已有信息的向量空间进行相似度 匹配计算 具有较强的客观性 专利 专利 即专利权的简称 是由专利机构依据发明申请所颁发的一种文件 这种文件叙述发 明的内容 并且产生一种法律状态 即该获得专利的发明在一般情况下只有得到专利所有 人的许可才能利用 包括制造 使用 销售和进口等 专利的保护有时间和地域的限制 我国专利法将专利分为三种 即发明 实用新型和外观设计 专利权 专利技术 专利说 明书 专利文献 专利文献 主要是指是实行专利制度的国家及国际专利组织在受理 审批 注册专利过程 中产生的官方文件及其出版物的总称 就广义而论 专利文献是指实行专利制度的国家及 国际性专利组织 在审批专利过程中产生的官方事件及其出版物的总称 主要包括申请说 明书 专利说明书等各类有关文件 以及专利公报 检索工具和专利分类表等出版物 就 狭义而言 专利文献通常单指专利说明书 灰色文献 灰色文献 通常指不经营利性出版商控制 而由各级政府 科研院所 学术机构 工商业 界等所发布的各类印刷版与电子版文献资料 会议文献 会议文献 就是在各种会议上宣读和交流的论文 报告 产生的记录及发言 论述 总结 等各种形式的文献资料 是国际学术交流的重要组成部分 按其出版方式可分为会前文献 会中文献和会后文献 新颖性 专业针对性 及时性 连续性 查全率查全率 是指检出文献中合乎需要的文献数量占数据库存在的合乎该需要的所有文献的比 例 用来表示信息系统能满足用户需求的完备程度 精品文档 3欢迎下载 查准率查准率 是指检出文献中合乎需要的文献数量占检出文献全部数量的比例 是衡量信息系 统拒绝非相关信息的能力的量度 科技报告 科技报告 是围绕某个课题的科技活动所取得的阶段性进展或最终性成果的记录与书面报 告 是科研生产活动的第一手资料 有时又被称为研究报告 它是科技人员交流其研究活 动的重要手段 是研究单位向为其提供经费的部门反映研究情况的正式技术文件 以积累 传播和交流为目的 由科技人员按照有关规定和格式撰写 真实而完整地反映科研人员所 从事科技活动的内容和经验 查新 查新 是科技查新的简称 是指查新机构根据查新委托人提供的需要查证其新颖性的科学 技术内容 按照本规范操作 并作出结论 一 信息存储与检索原理一 信息存储与检索原理 1 原理 信息检索的实质就是将用户的检索提问标识与存储在信息检索系统中的信息特征 标识进行比较 匹配 两者一致或者信息特征标识包含了检索提问标识 则具有该标识的 信息就从检索系统中输出 输出的信息就是检索命中的信息 通过对大量的 分散无序的 文献信息进行搜集 加工 组织 存储 建立各种各样的检索系统 并通过一定的方法和 手段使存储与检索这两个过程所采用的特征标识达到一致 以便有效地获得和利用信息源 其中 存储是检索的基础 检索是存储的目的 信息存储与检索的一般过程 2 文献替代 著录 即用表示文献资源特征的元数据替代所指代的资源 特征包括外表特征和内容特征 著录的结果是将原始文献制成二次文献 3 文献整序 标引 对文献进行标引 给出检索标识 如分类号 主题词等 将所有替代文献按照其标识进 行有规律的组织排列 形成可检索的信息资源集合 精品文档 4欢迎下载 文献特征标识与检索提问标识的匹配 二 联机检索 光盘检索 网络信息检索的特征和区别二 联机检索 光盘检索 网络信息检索的特征和区别 1 联机检索 1965 1990 即信息用户利用终端设备 通过通信网络或通信线路与检索 系统联机 进行 人机对话 从检索中心的数据库查找所需的文献倍息的过程 1 构成 联机检索中心 通讯设施 检索终端 2 联机检索的特点 3 优点 检索效率高 可在几分钟内完成检索 检索范围广泛全面 提供的数据量从几十到几百个不等 检索内容新 实时性强 可检索到最新文献 检索功能强 检索途径多 缺点 检索费用高 机时 DU 记录输出打印费 通信费 检索界面单一 检索技术和技巧不易掌握 2 光盘检索 1 由于光盘具有存储密度高 轻便 无机械磨损 易携带耐用等待点 从 20 世纪 80 年代中期生产后便很快被广泛用作信息载体 检索工具 2 光盘按存储信息的种类可分为 激光唱盘 激光视盘以及存储文字 数字等文件资 料的数字光盘 按读写数据的模式可分为只读光盘 写一次光盘和可擦写光盘 3 光盘检索的类型 1 单机 Stand Along 光盘检索系统 由微机 光驱 光盘数据库等硬件设备 操作程序 检索程序等软件组成 提供单用户 单机的使用 系统结构简单 但数据量少 利用率低 2 联机光盘检索系统 将光盘上网 一般只提供在局域网上的检索 用户可以分时共享光盘数据库的信息 光驱 常采用光盘塔 Tower 和光盘库 Jukebox 两种形式 4 光盘检索的特点 价格低 一次购买无限次使用 无需联机检索费用 存储容量大而体积较小 无需通讯联系 不受时间限制 使用方便 易于操作 使用寿命长 机房 设备无特别要求 投资少 信息获取速度和更新频率较联机检索慢 3 网络信息检索 90 年代至今 1 早期的 Internet 信息服务模式 常见服务 FTP Telnet 邮件 新闻组 操作复杂 表现形式单调 信息以文件形式存在 2 网络信息检索 90 年代至今 网络信息检索一般指因特网检索 是通过网络接口软件 用户可以在一终端查询各 地上网的信息资源 网络信息检索与联机信息检索最根本的不同在于网络信息检索 是基于客户机 服务器的网络支撑环境的 客户机和服务器是同等关系 只要遵守 共同协议 一个服务器可以被多个用户访问 一个客户也可以访问多个服务器 特点 精品文档 5欢迎下载 检索范围大 覆盖因特网上几乎所有的网络资源 超文本检索 结合多媒体的全文信息检索 界面友好 用户操作相当方便 良好的反馈能力和快速响应能力 与国际联机检索相比 其最大的优点在于经济 与光盘检索相比 其最大的优点在于 内容更新快 网络检索与联机检索和光盘检索有许多相同之处如需要数据库 要制定检索 策略等 1 联机检索的速度快 效率高 检索的范围广泛 全面 检索途径多 方便 灵活 检索内容新 实时性强 检索辅助功能完善 但是检索的费用高 对检索系统及其文档的 收录 标引 特点等问题较难了解 熟悉 检索技巧和技术不易掌握 2 光盘检索其存储容量大而体积微小 使用方便 不需要通信联系 不受时间限制 使用方便 易于操作 价格低 使用寿命长 用户易接受 机房无特别要求 投资少 要 求设备简单 可随地安装 但是光盘检索的信息获得比联机检索慢 信息更新不及时 三 信息检索系统的评价指标三 信息检索系统的评价指标 1 查全率 检全率 召回率 Recall Ratio 检全率 检出相关文献量 100 系统中相关文献总量 2 漏检率 Omission factor 漏检率 漏检相关文献量 100 系统中相关文献总量 3 查准率 检准率 相关率 Precision Ratio 检准率 检出相关文献量 100 检出文献总量 4 误检率 Noise Factor 误检率 误检文献量 100 检出文献总量 查全率与查准率示例 查询 Q 本应该有 100 篇相关文档 某个系统返回 200 篇文档 其中 80 篇是真正相关的 文档 查全率 80 100 0 8 查准率 80 200 0 4 结论 查全率较高 但是查准率较低 四 布尔模型 向量空间模型 经典概率模型的优缺点 经典信息检索模型 四 布尔模型 向量空间模型 经典概率模型的优缺点 经典信息检索模型 1 基于集合论的模型 Set Theoretic models 精品文档 6欢迎下载 布尔模型 扩展布尔模型 2 基于代数论的模型 Algebraic models 向量空间模型 3 基于概率统计的模型 Probabilistic models 经典概率模型 1 布尔模型 最简单的信息检索模型 是基于集合理论和布尔代数的一种的检索模型 被大多数检索系统所采用 查询是由三种布尔逻辑运算符 AND OR NOT 连接索引词组成的 布尔表达式 每个索引词在一篇文档中只有两种状态 出现或不出现 对应权值为 0 或 1 将查询表达式与文档进行匹配 单词 文档矩阵 布尔模型的优点 1 简单 容易理解 经过某种训练的用户可以容易地写出布尔查询式 2 通过使用复杂的布尔表达式 可以很方便地控制查询结果 3 检索速度快 到目前为止 布尔模型是最常用的检索模型 布尔模型的缺点 1 不支持部分匹配 而完全匹配会导致太多或者太少的结果文档被返回 2 普通用户构造查询不一定准确 容易构造错误 3 很难对输出结果进行排序 不考虑索引词的权重 所有文档都以相同的方式和查询相匹配 可通过扩展来实现排序的功能 即 扩展布尔模型 2 扩展布尔模型 为了克服布尔检索模型查询结果的无序性 引入扩展的布尔检索模型 相似度计算公式 若检索项 Term1 OR Term2 则 若 Term1 AND Term2 则 3 向量空间模型 通过对检出文献按相似度降序排列的方式来实现文献与查询的部分匹 配 向量空间模型的优缺点 优点 1 标引词 Term 加权改进了检索效果 2 支持部分匹配和近似匹配 其部分匹配策略运行检出与查询条件接近的文献 3 结果可以排序 4 可用到相关领域 文本分类 相似匹配 缺点 1 标引词独立的假定 损失掉大量的文本结构信息 2 相似度的计算量较大 4 经典概率模型 核心思想 若以往查询中 如果某个文档和某个词相关度大 则在 以后的查询中 用这个词查询时出现该文档的概率高 给定一个用户提问 则检索系统中 存在一个包含所有相关文档的集合 理想结果集 R 在此基础上 用户可以对初始的检索 结果集合中文档相关与否进行判断 在根据这些反馈信息 系统便可以在后续的检索处理 中不断做出优化和改进 精品文档 7欢迎下载 经典概率模型的优缺点 优点 1 建立在数学模型基础上 理论性较强 2 文档可以按照他们相关概率递减的顺序来排序 缺点 1 需要最初把文献分为相关集合和不相关集合 2 没有考虑标引词在文献中出现的频率问题 3 独立性假设与现实情况不完全相符 4 计算复杂度相对较大 五 布尔逻辑检索 邻近检索概述 短语检索概述 截词检索概述的区别 联系五 布尔逻辑检索 邻近检索概述 短语检索概述 截词检索概述的区别 联系 1 1 布尔逻辑检索概述 布尔逻辑检索概述 1 将多个检索词用布尔运算符组合在一起进行检索 2 逻辑运算符 逻辑与 AND 逻辑或 OR 逻辑非 NOT AND NOT 并非所有数据库都遵循以上算符 绝大部分计算机信息检索系统都支持布尔逻辑检索 3 3 关于 关于 优先级优先级 问题问题 1 当布尔运算符在一个检索式中连续出现时 它们的优先级通常是不同的 2 大部分数据库规定 优先级最高 次之 最低 2 2 邻近检索概述 邻近检索概述 又称位置限制检索 是用位置运算符来表达检索词与检索词之间顺序和词间距的检索 支持邻近检索的系统包括 ProQuest Dialog ScienceDirect Westlaw 等 ProQuest 的 常用位置算符包括 Near Pre 等 1 位置运算符 Near n 查找包含 A 词和 B 词且两词距离很近的文档 使用数值 n 来指定两词之间相隔的词数 2 位置运算符 Pre n 查找包含 A 词和 B 词且 A 词在 B 词之前出现的文档 使用数值 n 来指定两词之间相隔的词数 3 3 短语检索概述 短语检索概述 使用 将多个关键词作为整体检索 又称精确检索 多用于人名 机构名 地名 书名 电影名检索 4 4 截词检索概述 截词检索概述 截词检索即在检索词中保留相同的部分 把变化部分用通配符代替 1 一般情况下 使用 或 代表 0 至 1 个字符 有限截词 使用 或 代表 0 至多个字符 无限截词 Google 部分支持 检索 Baidu 不支持通配符检索 词形变换 年代区间 作者 同根词 2 完全匹配 任意匹配与前方一致 1 完全匹配 要求输入的检索词 与数据库中的文献标识完全相同 前后无其他字符 才能命中 2 任意匹配 前后可包含其他字符 相当于输入 检索词 3 前方一致 精品文档 8欢迎下载 属于截词检索的一种 相当于输入 检索词 5 5 字段限制检索 字段限制检索 组成数据库的最小单位是记录 一条完整的记录中的每个著录项为字 段 在信息检索过程中 为了提高查全率或查准率 需要将检索范围 限制在特定的字段中 即字段限制检索 基本索引字段 辅助索引 字段 6 6 其他检索表达式 其他检索表达式 1 括号检索 用于改变运算的先后顺序 括号内的运算优先进行思考 2 自然语言检索 直接采用自然语言中的字 词 句进行提问式搜索 同一般口语一样 特别适合不熟悉网络信息检索技术的用户使用 3 多语种检索 提供多种语言的检索环境供用户选择 系统按照用户选定的语种进 行检索并反馈结果 4 模糊检索 又称概念检索 是指使用某一检索词进行检索时 能同时对该词的同 义词 近义词 上位词 下位词进行检索 以达到扩大检索范围 避免漏检的目 的 5 区分大小写检索 对于支持区分大小写检索的工具而言 若用户输入小写检索式 搜索工具既匹配大写又匹配小写 若用户输入大写 则只匹配大写形式结果 大 部分搜索引擎对大小写不敏感 六 信息检索的策略与技巧六 信息检索的策略与技巧 1 信息检索策略 信息检索策略 Retrieval Strategy 是为实现检索目标而制 定的全盘计划或方案 是就一个问题检索一个或多个数据库所输入的 全部检索式的集合 2 检索关键词的选择 对检索的概念进行关键词的切分 关键词的剔除 对固定 短语 尽量使用引号进行精确检索 关键词应尽量简练 可根据网页 特征选择查询词 立足常用词 规范词 兼顾自由词 旁类以求 善 用词的全称 简称及缩写 勿忘上下位类词扩展 注意外来词的译写 变化 3 扩检 指初始设定的检索范围太小 命中文献不多 需扩大检索范围的方法 扩大检索范围 提高查全率的技术方法 1 考虑同义词或近义词 使用 OR 连接 2 选择较大检索范围的字段如摘要 3 使用截词符 4 使用上位词 如飞行器 航天飞机 载人航天飞机 4 缩检 指开始的检索范围太大 命中文献太多 或查准率太低的一个方法 缩小检索范围 提高查准率的技术方法 1 使用 AND NOT 等运算符限制检索范围 2 使用短语检索 3 使用位置算符 4 选择检索范围较小的字段 5 使用下位词 5 充分利用组合检索 除使用布尔检索表达式外 应尽可能配合邻近检索 字 段限制检索等检索方法 有些查新课题的查新点内涵很深 难以用有 限的词汇准确 全面地描述 仅用关键词检索极易造成漏检 可采用 分类 主题组合检索 精品文档 9欢迎下载 七 搜索引擎的分类七 搜索引擎的分类 1 1 按信息内容组织方式划分 按信息内容组织方式划分 1 机器人搜索引擎 狭义的 Search Engine 不依靠人工发现和甄别信息 由蜘蛛 Spider 以某种策略自动在互联网中搜集信息 由索引器建立索引 由检索器根据用户查询检索信息并返回给用户 其优点是信息量 大 更新速度快 缺点是返回的信息过多 冗余信息较多 用户必须从结果中进行筛 选 2 目录式搜索引擎 以人工或半自动方式搜集信息 由编辑人员对资源进行选择 评价 编制摘要 分类 后形成的主题目录 具有信息准确 信息质量较高等优点 同时存在收录网站资源规 模有限 维护量大 信息更新不及时等不足 代表产品 早期 Yahoo 早期 Sohu 网址导航 2 2 按专业范畴划分 按专业范畴划分 1 综合性搜索引擎 内容涵盖各个学科和生产生活的各个领域 可检索图片 音频 视频等多种资源类型 适用对象广泛 代表产品 Google Yahoo 百度 搜狗 2 专业性搜索引擎 垂直搜索引擎 收录某一个或几个学科资源的搜索引擎 具有专门搜索功能的搜索引擎 面向特定 的用户的搜索引擎 面向特定学科 行业 对象或用户 特点 专 精 深 3 3 按检索功能划分 按检索功能划分 1 独立搜索引擎 又称单一搜索引擎或常规搜索引擎 有自己的数据库 搜索时通常只检索自己的数据 库 2 元搜索引擎 Meta Search Engine 又称多元搜索引擎或集成式搜索引擎 是多个独立搜索引擎的集合 通过统一用户界 面同时检索多个引擎 即用户只需一次输入检索式 便可检索一个或多个独立搜索引擎 无独立数据库 严格来说 Meta 搜索引擎只能算是一种用户代理 而不是真正的搜索引 擎 八 多媒体信息检索八 多媒体信息检索 1 多媒体信息检索方式 1 基于文本的多媒体信息检索 2 基于内容的多媒体信息检索 2 基于内容的多媒体信息检索 1 基于内容的信息检索 Content Based Retrieval CBR 利用计算机自动收集 量化和存储信息内容特征 表示成向量空间 建立基于内容特征的多媒体索引 库 用户在查询时将用户提问转化成向量 并与已有信息的向量空间进行相似 度匹配计算 具有较强的客观性 2 劣势 特征空间的维度高 用户与系统抽取的信息之间存在语言鸿沟 对同一数 据的解释缺乏一致性 3 普及程度 局限在较小的数据集合 实验室层面 有以下几种 1 基于内容的图像检索 颜色分布法 精品文档 10欢迎下载 1 QBIC Query By Image Content 基于内容图像检索领域应用最早的商用产品 由 IBM Almaden 研究中心于 1995 年开发 为 IBMDB2 数据库提供图像检索 并支持基于 Web 的图像检索服务 系统结构及所用技术对后来的视频检索有深远的影响 2 TinEye TinEye 是由加拿大 Id e 公司所开发的图像搜索系统 于 2008 年发布 提供用户依据 URL 或上传的图像文件 搜索网络上近似的图像与位置 主要用途 1 发现图片的来源与相关信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公租房工作合同标准文本
- 酸碱催化剂企业制定与实施新质生产力战略研究报告
- 2024年福建海畅人才数字服务有限公司招聘笔试真题
- 模块化萨克斯风组装套件行业深度调研及发展战略咨询报告
- 兄弟合作投资合同标准文本
- 初中生物学教师教学反思评价指标体系的构建研究
- 柑橘黄龙病和溃疡病候选生防菌的筛选
- 高中古代记叙散文群文阅读教学策略研究
- 农村水田互换合同标准文本
- 人力劳动合同标准文本
- 农业机械学育苗移栽机械
- 澳大利亚PSC检查经过
- 01-14江苏大学车辆工程考研复试真题答案
- TMYZX 001-2021 酿酒专用小麦原粮
- 2023年湖北国土资源职业学院高职单招(数学)试题库含答案解析
- GB/T 37910.1-2019焊缝无损检测射线检测验收等级第1部分:钢、镍、钛及其合金
- 雷锋叔叔你在哪里教学反思
- (新版)国家统计执法证资格考试备考题库(含答案)
- 项目验收单标准模板
- 小学 三年级 心理健康《最好的老师-兴趣的作用》教学设计
- DB12T 1040-2021 建筑工程规划管理技术规范
评论
0/150
提交评论