版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息检索1、 信息检索概念:P12、 信息检索的原理一整节内容要自己理解:P3-P4图1-1要掌握文献替代和文献整序的概念要掌握3、 信息检索在历史上的不同表现:联机检索、光盘检索、网络检索的区别和特征:P6-P94、 信息检索的模型概念:P95、 布尔模型、向量空间模型、经典概率模型要理解并掌握各自的优缺点:P11-P126、 信息检索系统的概念:P127、 检索效果的评价指标:P15-P164个指标:查全率、查准率、漏检率、误检率 掌握它们的含义并懂得计算8、 网络检索的表达式:布尔逻辑检索、邻近检索、短语检索、截词检索的特点、区别和联系:P17-P219、 信息检索的技巧要理解尤其是要掌
2、握及时调整检索策略:P33-P3610、 搜索引擎的概念:P3711、 数据库知识,实验内容,特点12、 引文的概念 13、 搜索引擎的分类:P40-41搜索引擎划分的类别以及元搜索引擎的概念要掌握12、CBR概念 P11312、 多媒体信息检索的原理和方法:P110-P114 其中要重点理解基于内容的多媒体信息检索的检索形式(可以结合课件)13、 专利的概念:P12514、 专利的类型:P126(理解一下各类型的区别)15、 专利文献的概念:P12716、 专利文献的类型:P127(理解一下各类型的区别)17、 灰色文献的概念:P14718、 会议文献的概念:P15819、 科技报告的概念:
3、P16320、 查新的概念:P20021、 科技查新的作用:P201(每一个小标题后面要自己展开一段)关于上课讲的那几个数据库大家自己看一下PPT,掌握一下。以上纯属个人观点题型:名词解释:5*4=20简答题: 4*10=40论述题: 2*20=40考试时间:1月8日 上午:9:0011:001. 信息检索的概念 (P1)信息检索有广义和狭义两重含义。广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并根据信息用户的需求查找相关信息的过程。它包含信息存储和信息查找两个过程。信息检索是对信息项进行表示、存储、组织和存取。狭义的讲,信息检索仅仅指信息查找的过程,即从信息集合中找出所需信息的
4、过程,相当于“信息查询”或“信息查找”。文献替代(著录):即将表示文献资源特征的元数据替代它指代的资源,文献替代过程实际上是对原始文献的外表特征(包括题名、著者、出处等)和内容特征(包括分类号、主题词、摘要等)进行描述的过程,这项工作通常称为著录,著录的结果是将原始文献制成它的替代文献)二次文献。文献整序:指的是对替代文献进行标引,给出文献标识(如分类号、主题词等),将所有替代文献按其标识进行有规律的组织排列,形成可检索的信息资源集合。信息检索系统:信息存储与信息查询功能的一类信息服务设施(或工具)。信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理的过程加以翻译和抽象,
5、表述为某种数学公式,再经过演绎、推理、解释和实际校验,反过来指导信息检索实践。搜索引擎:是一种Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,对信息处理组织后,为用户提供Web信息查询服务。元搜索引擎:又称多元搜索引擎或集成式搜索引擎,是多个独立搜索引擎的集合,无独立的数据库,通过一个统一的用户界面,可以同时对多个搜索引擎进行检索操作,即用户只需一次输入检索式,便可检索一个或多个独立搜索引擎。严格来说,元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。CBR:基于内容的多媒体信息检索,主要利用计算机自动收集、量化和存储信息内容自身的特征(如颜色、纹理、形状),表示成向量空间
6、,建立基于内容特征的多媒体索引库,用户在查询过程中,系统会自动将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算,具有较强的客观性。专利:即专利权的简称。是由专利机构依据发明申请所颁发的一种文件。这种文件叙述发明的内容,并且产生一种法律状态,即该获得专利的发明在一般情况下只有得到专利所有人的许可才能利用(包括制造、使用、销售和进口等),专利的保护有时间和地域的限制。我国专利法将专利分为三种,即发明、实用新型和外观设计。(专利权、专利技术、专利说明书)专利文献:主要是指是实行专利制度的国家及国际专利组织在受理、审批、注册专利过程中产生的官方文件及其出版物的总称。就广义而论,专利文献是
7、指实行专利制度的国家及国际性专利组织,在审批专利过程中产生的官方事件及其出版物的总称,主要包括申请说明书、专利说明书等各类有关文件,以及专利公报、检索工具和专利分类表等出版物;就狭义而言,专利文献通常单指专利说明书。灰色文献:通常指不经营利性出版商控制,而由各级政府、科研院所、学术机构、工商业界等所发布的各类印刷版与电子版文献资料。会议文献:就是在各种会议上宣读和交流的论文、报告、产生的记录及发言、论述、总结等各种形式的文献资料,是国际学术交流的重要组成部分。按其出版方式可分为会前文献、会中文献和会后文献。(新颖性、专业针对性、及时性、连续性)查全率 :是指检出文献中合乎需要的文献数量占数据库
8、存在的合乎该需要的所有文献的比例,用来表示信息系统能满足用户需求的完备程度。查准率 :是指检出文献中合乎需要的文献数量占检出文献全部数量的比例,是衡量信息系统拒绝非相关信息的能力的量度。科技报告:是围绕某个课题的科技活动所取得的阶段性进展或最终性成果的记录与书面报告,是科研生产活动的第一手资料。有时又被称为研究报告,它是科技人员交流其研究活动的重要手段,是研究单位向为其提供经费的部门反映研究情况的正式技术文件,以积累、传播和交流为目的,由科技人员按照有关规定和格式撰写,真实而完整地反映科研人员所从事科技活动的内容和经验。查新:是科技查新的简称,是指查新机构根据查新委托人提供的需要查证其新颖性的
9、科学技术内容,按照本规范操作,并作出结论。一、信息存储与检索原理1、原理:信息检索的实质就是将用户的检索提问标识与存储在信息检索系统中的信息特征标识进行比较、匹配,两者一致或者信息特征标识包含了检索提问标识,则具有该标识的信息就从检索系统中输出,输出的信息就是检索命中的信息。(通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中,存储是检索的基础,检索是存储的目的。)信息存储与检索的一般过程2、文献替代(著录)即用表示文献资源特征的元数据替代所指代的资源。特征包
10、括外表特征和内容特征。著录的结果是将原始文献制成二次文献。3、文献整序(标引)对文献进行标引,给出检索标识(如分类号、主题词等),将所有替代文献按照其标识进行有规律的组织排列,形成可检索的信息资源集合文献特征标识与检索提问标识的匹配二、联机检索、光盘检索、网络信息检索的特征和区别1、联机检索(1965-1990):即信息用户利用终端设备,通过通信网络或通信线路与检索系统联机,进行“人机对话”,从检索中心的数据库查找所需的文献倍息的过程。(1)构成:联机检索中心、通讯设施、检索终端。(2)联机检索的特点(3)优点:检索效率高,可在几分钟内完成检索检索范围广泛全面,提供的数据量从几十到几百个不等检
11、索内容新,实时性强,可检索到最新文献检索功能强,检索途径多缺点:检索费用高(机时/DU、记录输出打印费、通信费)检索界面单一,检索技术和技巧不易掌握2、光盘检索(1)由于光盘具有存储密度高、轻便、无机械磨损、易携带耐用等待点,从20世纪80年代中期生产后便很快被广泛用作信息载体、检索工具。(2)光盘按存储信息的种类可分为:激光唱盘、激光视盘以及存储文字、数字等文件资料的数字光盘;按读写数据的模式可分为只读光盘、写一次光盘和可擦写光盘。 (3)光盘检索的类型1)单机(Stand-Along)光盘检索系统由微机、光驱、光盘数据库等硬件设备、操作程序、检索程序等软件组成,提供单用户、单机的使用,系统
12、结构简单,但数据量少,利用率低。 2)联机光盘检索系统将光盘上网,一般只提供在局域网上的检索,用户可以分时共享光盘数据库的信息。光驱常采用光盘塔(Tower)和光盘库(Jukebox)两种形式。(4)光盘检索的特点 价格低(一次购买无限次使用,无需联机检索费用)存储容量大而体积较小无需通讯联系,不受时间限制 使用方便,易于操作 使用寿命长 机房、设备无特别要求,投资少 信息获取速度和更新频率较联机检索慢3、网络信息检索(90年代至今)(1)早期的Internet信息服务模式:常见服务:、邮件、新闻组 操作复杂、表现形式单调、信息以文件形式存在(2)网络信息检索(90年代至今)网络信息检索一般指
13、因特网检索,是通过网络接口软件,用户可以在一终端查询各地上网的信息资源。网络信息检索与联机信息检索最根本的不同在于网络信息检索是基于客户机/服务器的网络支撑环境的,客户机和服务器是同等关系,只要遵守共同协议,一个服务器可以被多个用户访问,一个客户也可以访问多个服务器。特点:检索范围大,覆盖因特网上几乎所有的网络资源;超文本检索,结合多媒体的全文信息检索;界面友好,用户操作相当方便;良好的反馈能力和快速响应能力;与国际联机检索相比,其最大的优点在于经济;与光盘检索相比,其最大的优点在于内容更新快。网络检索与联机检索和光盘检索有许多相同之处如需要数据库,要制定检索策略等。1、联机检索的速度快,效率
14、高。检索的范围广泛、全面;检索途径多,方便、灵活;检索内容新、实时性强;检索辅助功能完善。但是检索的费用高;对检索系统及其文档的收录、标引、特点等问题较难了解、熟悉;检索技巧和技术不易掌握。2、光盘检索其存储容量大而体积微小;使用方便,不需要通信联系,不受时间限制;使用方便、易于操作;价格低;使用寿命长,用户易接受;机房无特别要求,投资少,要求设备简单,可随地安装。但是光盘检索的信息获得比联机检索慢,信息更新不及时。三、信息检索系统的评价指标 1)查全率(检全率,召回率,Recall Ratio) 检全率= ´检出相关文献量 _ *100% 系统中相关文献总量2)漏检率(Omissi
15、on factor)= 漏检率=´漏检相关文献量 _*100% 系统中相关文献总量3)查准率(检准率,相关率,Precision Ratio) 检准率=检出相关文献量 _*´100% 检出文献总量4)误检率(Noise Factor)= 误检率=´误检文献量 _*100% 检出文献总量 查全率与查准率示例查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档。查全率=80/100=0.8查准率=80/200=0.4结论:查全率较高,但是查准率较低四、布尔模型、向量空间模型、经典概率模型的优缺点(经典信息检索模型):1)基于集合论的模
16、型(Set Theoretic models)布尔模型、扩展布尔模型2)基于代数论的模型(Algebraic models)向量空间模型3)基于概率统计的模型(Probabilistic models)经典概率模型(1)布尔模型:最简单的信息检索模型,是基于集合理论和布尔代数的一种的检索模型,被大多数检索系统所采用。查询是由三种布尔逻辑运算符AND、OR、NOT连接索引词组成的布尔表达式。每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为0或1。将查询表达式与文档进行匹配(单词-文档矩阵)。布尔模型的优点1)简单、容易理解,经过某种训练的用户可以容易地写出布尔查询式。2)通过使用复杂
17、的布尔表达式,可以很方便地控制查询结果。3)检索速度快。到目前为止,布尔模型是最常用的检索模型。布尔模型的缺点1)不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回。2)普通用户构造查询不一定准确,容易构造错误。3)很难对输出结果进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配。可通过扩展来实现排序的功能,即“扩展布尔模型”。(2)扩展布尔模型:为了克服布尔检索模型查询结果的无序性,引入扩展的布尔检索模型。相似度计算公式:若检索项Term1 OR Term2,则 若Term1 AND Term2,则 (3)向量空间模型:通过对检出文献按相似度降序排列的方式来实现文献与查
18、询的部分匹配。向量空间模型的优缺点优点:1)标引词(Term)加权改进了检索效果。2)支持部分匹配和近似匹配,其部分匹配策略运行检出与查询条件接近的文献。3)结果可以排序。4)可用到相关领域(文本分类、相似匹配)缺点:1)标引词独立的假定,损失掉大量的文本结构信息。2)相似度的计算量较大。(4)经典概率模型:(核心思想)若以往查询中,如果某个文档和某个词相关度大,则在以后的查询中,用这个词查询时出现该文档的概率高。给定一个用户提问,则检索系统中存在一个包含所有相关文档的集合(理想结果集R)。在此基础上,用户可以对初始的检索结果集合中文档相关与否进行判断。在根据这些反馈信息,系统便可以在后续的检
19、索处理中不断做出优化和改进。经典概率模型的优缺点优点:1)建立在数学模型基础上,理论性较强。2)文档可以按照他们相关概率递减的顺序来排序。缺点:1)需要最初把文献分为相关集合和不相关集合。2)没有考虑标引词在文献中出现的频率问题。3)独立性假设与现实情况不完全相符。4)计算复杂度相对较大。 五、布尔逻辑检索、邻近检索概述、短语检索概述、截词检索概述的区别、联系1、布尔逻辑检索概述(1)将多个检索词用布尔运算符组合在一起进行检索。(2)逻辑运算符:逻辑与(AND,*,&) 逻辑或(OR,+,|) 逻辑非(NOT,AND NOT,-,!)并非所有数据库都遵循以上算符。 绝大部分计算机信息检
20、索系统都支持布尔逻辑检索。 (3)关于“优先级”问题(1)当布尔运算符在一个检索式中连续出现时,它们的优先级通常是不同的。(2)大部分数据库规定:-优先级最高,*次之,+最低。2、邻近检索概述又称位置限制检索,是用位置运算符来表达检索词与检索词之间顺序和词间距的检索。支持邻近检索的系统包括ProQuest(Dialog)、ScienceDirect、Westlaw等。ProQuest的常用位置算符包括:Near、Pre等。(1)位置运算符Near/n查找包含A词和B词且两词距离很近的文档。使用数值n来指定两词之间相隔的词数。(2)位置运算符Pre/n查找包含A词和B词且A词在B词之前出现的文档
21、。使用数值n来指定两词之间相隔的词数。3、短语检索概述使用" "将多个关键词作为整体检索,又称精确检索。多用于人名、机构名、地名、书名、电影名检索。4、截词检索概述截词检索即在检索词中保留相同的部分,把变化部分用通配符代替。(1)一般情况下,使用?或#代表0至1个字符(有限截词);使用*或$代表0至多个字符(无限截词)。Google部分支持*检索,Baidu不支持通配符检索。(词形变换、年代区间、作者、同根词)(2)完全匹配、任意匹配与前方一致1)完全匹配要求输入的检索词,与数据库中的文献标识完全相同(前后无其他字符),才能命中。2)任意匹配前后可包含其他字符,相当于输入“
22、*检索词*”。3)前方一致属于截词检索的一种,相当于输入“检索词*”。5、字段限制检索:组成数据库的最小单位是记录,一条完整的记录中的每个著录项为字段。在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制检索。(基本索引字段、辅助索引字段)6、其他检索表达式:1)括号检索:用于改变运算的先后顺序,括号内的运算优先进行思考;2)自然语言检索:直接采用自然语言中的字、词、句进行提问式搜索,同一般口语一样。特别适合不熟悉网络信息检索技术的用户使用;3)多语种检索:提供多种语言的检索环境供用户选择,系统按照用户选定的语种进行检索并反馈结果。4)模糊检索:又称概念检索,
23、是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、下位词进行检索,以达到扩大检索范围、避免漏检的目的。5)区分大小写检索:对于支持区分大小写检索的工具而言,若用户输入小写检索式,搜索工具既匹配大写又匹配小写;若用户输入大写,则只匹配大写形式结果。大部分搜索引擎对大小写不敏感。六、信息检索的策略与技巧(1)信息检索策略:信息检索策略(Retrieval Strategy)是为实现检索目标而制定的全盘计划或方案,是就一个问题检索一个或多个数据库所输入的全部检索式的集合。(2)检索关键词的选择:对检索的概念进行关键词的切分;关键词的剔除;对固定短语,尽量使用引号进行精确检索;关键词
24、应尽量简练;可根据网页特征选择查询词;立足常用词、规范词,兼顾自由词;旁类以求;善用词的全称、简称及缩写;勿忘上下位类词扩展;注意外来词的译写变化。(3)扩检:指初始设定的检索范围太小,命中文献不多,需扩大检索范围的方法。扩大检索范围,提高查全率的技术方法:1)考虑同义词或近义词(使用OR连接)。2)选择较大检索范围的字段如摘要。3)使用截词符4)使用上位词(如飞行器>航天飞机>载人航天飞机)(4)缩检:指开始的检索范围太大,命中文献太多,或查准率太低的一个方法。缩小检索范围,提高查准率的技术方法:1)使用AND、NOT等运算符限制检索范围2)使用短语检索3)使用位置算符4)选择检
25、索范围较小的字段5)使用下位词(5)充分利用组合检索:除使用布尔检索表达式外,应尽可能配合邻近检索、字段限制检索等检索方法。有些查新课题的查新点内涵很深,难以用有限的词汇准确、全面地描述,仅用关键词检索极易造成漏检,可采用分类-主题组合检索。七、搜索引擎的分类1、按信息内容组织方式划分1)机器人搜索引擎(狭义的Search Engine) 不依靠人工发现和甄别信息,由蜘蛛(Spider)以某种策略自动在互联网中搜集信息,由索引器建立索引,由检索器根据用户查询检索信息并返回给用户。其优点是信息量大、更新速度快;缺点是返回的信息过多、冗余信息较多,用户必须从结果中进行筛选。2)目录式搜索引擎 以人
26、工或半自动方式搜集信息,由编辑人员对资源进行选择、评价、编制摘要、分类后形成的主题目录。具有信息准确,信息质量较高等优点,同时存在收录网站资源规模有限、维护量大、信息更新不及时等不足。 代表产品:早期Yahoo!、早期Sohu、网址导航2、按专业范畴划分1)综合性搜索引擎内容涵盖各个学科和生产生活的各个领域,可检索图片、音频、视频等多种资源类型,适用对象广泛。代表产品:Google、Yahoo!、百度、搜狗2)专业性搜索引擎(垂直搜索引擎)收录某一个或几个学科资源的搜索引擎,具有专门搜索功能的搜索引擎,面向特定的用户的搜索引擎(面向特定学科、行业、对象或用户)。特点“专、精、深”。3、按检索功
27、能划分1)独立搜索引擎 又称单一搜索引擎或常规搜索引擎,有自己的数据库,搜索时通常只检索自己的数据库。2)元搜索引擎(Meta Search Engine)又称多元搜索引擎或集成式搜索引擎,是多个独立搜索引擎的集合。通过统一用户界面同时检索多个引擎,即用户只需一次输入检索式,便可检索一个或多个独立搜索引擎,无独立数据库。严格来说,Meta搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。八、多媒体信息检索1、多媒体信息检索方式:1)基于文本的多媒体信息检索 2)基于内容的多媒体信息检索2、基于内容的多媒体信息检索 (1)基于内容的信息检索(Content-Based Retrieval,CB
28、R),利用计算机自动收集、量化和存储信息内容特征,表示成向量空间,建立基于内容特征的多媒体索引库,用户在查询时将用户提问转化成向量,并与已有信息的向量空间进行相似度匹配计算,具有较强的客观性。 (2)劣势:特征空间的维度高,用户与系统抽取的信息之间存在语言鸿沟、对同一数据的解释缺乏一致性。(3)普及程度:局限在较小的数据集合(实验室层面)。有以下几种:1、基于内容的图像检索(颜色分布法)(1)QBIC(Query By Image Content)基于内容图像检索领域应用最早的商用产品,由IBM Almaden研究中心于1995年开发。为IBMDB2数据库提供图像检索,并支持基于Web的图像检索服务。 系统结构及所用技术对后来的视频检索有深远的影响(2)TinEye TinEye是由加拿大Idée公司所开发的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年劳务施工总承包合同
- 信息通信业务经营许可证咨询协议文本
- 天津市2024年离婚协议书样本
- 出租车股权转让合同范本
- 深圳市劳动合同范本
- 工程分包个人合同模板
- 教学研究中心项目合作协议模板
- 房屋装潢施工合同范本
- 2024年商业公司钢筋购销合同
- 代理其他商业银行办理全国银行汇票业务协议-合同范本
- DB32 4120-2021 建筑物移动通信基础设施建设标准
- 国家开放大学人文英语1形考任务(单元自测1-8)参考答案-新
- “四风”问题查摆整改台账
- 首诊负责制查检表
- 实验室审核检查表(参照模板)
- 坚持“两个毫不动摇”课件 2022-2023学年高中政治统编版必修二
- 福建广播电视大学中国现当代文学名著导读(2)-形成性考核二答案
- 青岛版三年级上册数学 两位数乘一位数的口算 教案
- 学校教室室内装修工程施工组织设计方案
- 河道整治护岸施工方案
- 《寻访小动物》ppt课件
评论
0/150
提交评论