[研究生入学考试]武汉大学 信息管理学基础 考研 6 信息检索理论课程_第1页
[研究生入学考试]武汉大学 信息管理学基础 考研 6 信息检索理论课程_第2页
[研究生入学考试]武汉大学 信息管理学基础 考研 6 信息检索理论课程_第3页
[研究生入学考试]武汉大学 信息管理学基础 考研 6 信息检索理论课程_第4页
[研究生入学考试]武汉大学 信息管理学基础 考研 6 信息检索理论课程_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信 息 检 索1图6.1 信息检索系统的体系结构 潜在的相关信息信息组织和检索系统规范化的疑问式信息的组织概述的存贮比较/匹配索引(描述性的、受限制的)游戏规则主题索引规则辞典(包括词汇表和索引语言)需求概述或疑问式信息或数据检索流程组织流程存贮1:概述/搜索请求存贮2:信息的表示1、 信息检索的基本原理2关于相关性 Saracevic认为,一个研究领域的历史实则上就是一些重要思想和理念的历史。Information science自产生至20世纪90年代末期,孕育了三个重要的思想:信息检索、相关性和交互性。信息检索为信息处理过程提供了逻辑基础;相关性直接面向人类信息需求与评价过程;交互促成了

2、人机之间的交流与反馈。3 信息检索的核心是用户查询行为与信息之间的相似性匹配。相关性是查寻表达式与文档内容的一致性,亦即文档所涵盖的内容对查寻表达式的适合程度。 这一定义实际上包含3个基本假设: 查寻表达式中的主题词能够描述用户真实的信息需求; 赋予文档的主题词足以概括文档包含的内容; 检索匹配的结果恰为用户真实的情报需求相关的文档集合。 关于相关性4关于相关性5四个阶段 手工信息检索阶段 机械信息检索阶段 计算机信息检索阶段网络信息检索阶段2、信息检索的发展历程6手工信息检索阶段 正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。“参考咨询工作”产生的标志

3、是1876年召开的美国图书馆协会第一届大会。1883年,波士顿公共图书馆首次设置了专职参考馆员和参考阅览室;20世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成答案。逐渐发展到从多种文献源中查找、分析、评价和重新组织信息;“索引”突破了以前的狭隘范畴,成为独立的检索工具;40年代进一步包括回答事实性咨询,编制书目、文摘,进行专题文献检索,提供文献代译等。“信息检索”从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向专业化方向发展。 7机械信息检索两种基本类型机电信息检索系统光电信息检索系统 机械信息检索并没有发展信息检索语言,只是采用单一的方法

4、对固定的存贮形式进行检索,而且过分依赖于设备,检索复杂,成本较高,检索效率和质量都不理想。 机械信息检索阶段 8计算机信息检索系统三个阶段:1971年以前建立的信息检索系统,是传统的批处理检索方式。 1971年以后,产生并发展的联机信息检索系统,如OCLC、Dialog在线数据库联机检索系统。 20世纪90年代以来,产生并发展的网络信息检索阶段。 9网络信息检索: 以互联网的出现为标志,信息资源分布无序,难于规范化和结构化,用户界面要求高,体系结构从终端主机方式发展到客户/服务器结构方式 搜索引擎、网络数据库等为代表103、信息检索技术 信息检索是一个具有浓重技术性色彩的研究领域,其技术经历了

5、快速而巨大的演变和进步:检索对象:结构化书目信息无结构化或半结构化全文文本多媒体信息信息组织方式:传统的线性文本组织超文本/超媒体组织检索匹配技术:关键词(字面)匹配基于概念匹配概念语义匹配与推理检索方式:手工检索计算机化联机实时网络检索环境:单机网络平台,集中网络分布式网络113.1 定性检索技术 定性检索技术主要指以布尔检索为基础和核心,包含截词检索、位置检索、字段检索等在内的一类检索技术。 定性检索技术主要建立并实现在经典的布尔逻辑模型理论基础上,不仅适用于传统的文本信息检索,而且在当前的非文本检索领域,也有较为广泛的应用123.1 定性检索技术3.1.1 布尔检索布尔逻辑运算符: 与(

6、and / *)、或(or / +)、非(not / -)A and B(A*B): 同时含有A、B这两个检索词才能被命中A or B(AB): 只要含有其中一个检索词或同时含有两个检索词都将被命中A not B(AB): 含有检索词A但不含有检索词B才能被命中133.1 定性检索技术3.1.2 截词检索 在检索时使用词的一个局部(某些位置上的字符被截去)进行检索匹配。需要使用专门的截词符,以制定截词的具体位置和截断字符的数量 右截词:comput* 左截词:*magnetic 中间截词:sul?ur141516173.1 定性检索技术3.1.3 位置检索 位置检索是一种增强的“逻辑与”检索。

7、按照各检索词之间应满足的位置关系要求的不同,可以有多种不同类型的位置检索邻近检索: (nW),n是125之间的整数 中国(5W)大学同句检索、同字段检索:要求多个检索词在同一自然段或同一字段中出现183.1 定性检索技术3.1.4 字段检索 字段检索属于限制检索技术的一种,目的是为了提 高查准率 例如:标题、关键词、文摘、分类号、作者、发表 时间等193.2 量化检索技术聚类检索 主要基于文献聚类文档来进行,针对系统中全部文献向量,使用一定的相似性(或相异性)度量指标聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献聚集在一起,生成文献的聚类文档 进行聚类检索时,首先将用户的检索问题

8、形成为与文献向量等长的提问向量;然后将提问向量与聚类文档中各文献类的类向量进行相似度计算,确定与提问最相关的文献类;最后,在最相关的文献类中,将提问向量与其包含的文献逐篇比较匹配,将相似度大于阈值的文献排序输出20212223243.3 概念检索技术 概念检索指的是检索结果可能包含与检索词同义或近义的内容,但不一定包含检索词。 如:输入“电脑”,结果: 输入“西红柿”,结果: 概念检索的基础是检索系统有一个包含同义词、近义词、广义词、狭义词和相关词等语义关系的词库25 信息检索策略是指在分析信息提问实质的基础上,确定检索途径与检索用词,并且明确词与词之间逻辑关系与查找步骤的科学安排 检索策略考

9、虑的主要有两个因素: 查全率 查准率4 信息检索策略26 信息检索策略是指在分析信息提问实质的基础上,确定检索途径与检索用词,并且明确词与词之间逻辑关系与查找步骤的科学安排 检索策略考虑的主要有两个因素: 查全率 查准率5 检索效果评价27检索效率是指全、准、快、便、省(检全率、检准率、检索速度、检索方便性、检索成本与效益),最主要的是全和准。在评价信息检索效率过程中,主要通过查全率、查准率、漏检率和误检率四个评价指标进行评价,其中重点是查全率和查准率。 5 信息检索效率的评价28查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文

10、献量在多大程度上被检索出来查全率(检出的相关文献量/文献库内相关文献总量)1005 信息检索效率的评价29影响查全率的因素信息收集和加工的角度来看,包括:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当从检索方面来看,包括:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索系统不具备截词功能和反馈功能,检索时不能全面描述检索要求等5 信息检索效率的评价30查准率是指系统在进行某一检索时,检出的相关文献量与检出的文献总量的比率,它反映该系统文献库中实际检出的全部文献中有多少是相关的

11、 查准率(检出的相关文献量/检出文献总量)1005 信息检索效率的评价31影响查准率的因素信息收集和加工的角度来看,包括:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误从检索方面来看,包括:检索词专指度不够,检索面宽于检索要求;检索系统不具备逻辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑“或”不当等5 信息检索效率的评价32图6.2 检全率与检准率的互逆相互曲线 1008040601008040202060检全率 R检准率 P336.1 搜索引擎的发展阶段第一代:根据词频搜索的原理开发第二代: “超链分

12、析”技术第三代:以竞价排名商业模式为特征下一代:社区化搜索 “知识共享社区搜索引擎”6 搜索引擎346.2 搜索引擎技术网络信息自动采集技术:robot/spider搜索结果排序技术 基于web网页内容特征 基于网页链接结构 基于用户信息需求与需求行为 基于关键词竞价排名6 搜索引擎35 主要考虑用户所查询的关键词在结果网页中的出现频率和出现位置等因素,并以此来评价命中网页与用户查询请求之间的相关度大小,作为排序依据基于web内容特征的排序技术网页关键词的出现位置排序权重第一、第二标题5第一段的第一句话5相近关键词(多重关键词)4句首关键词1.5以黑体或斜体出现的关键词1文章内容1主题属性1高

13、亮标签0.5描述标记0.5关键词标记0.0536 最早出现在1998年,主要根据网页被链接或被引用的情况来判断页面信息的权威性和质量,以此来优化对搜索结果的排序,如Google中的PageRank算法基于网页链接结构的排序技术3738 搜索引擎通过将关键词拍卖,让网站或网页所有者对其价格进行竞争的办法来产生搜索结果的排序基于关键词竞价的排名396.3 元搜索引擎 元搜索引擎(metasearch engine)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、

14、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有metacrawler、dopile、ixquick等。406.3 元搜索引擎 成员搜索引擎的选择 提问式转换 结果信息的选择与融合 检索结果的整合 去重,重新排序,结果聚类显示41424344 Grasps the meaning of your content AdSense can deliver relevant ads because Google understands the meaning of a web page. Weve refined our technology, and

15、it keeps getting smarter all the time. For example, words can have several different meanings, depending on context. Google technology grasps these distinctions, so you get more targeted ads. 4546 Show only appropriate ads Googles ad review process ensures that the ads you serve are not only family-

16、friendly, but also comply with our strict editorial guidelines. We combine sensitive language filters, your input, and a team of linguists with good hard common sense to automatically filter out ads that may be inappropriate for your content. Whats more, you can block competitive ads and choose your own default ads. Its your show from start to finish. 47Competitive FilterEnables you to filter out specific competitorsor specific advertisers Contextual FilterEliminate delivery of ads

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论