版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三信息检索基础第1页,课件共27页,创作于2023年2月从信息资源开发与利用的角度讲,信息检索是将信息按一定的方式组织和存储起来,并根据信息用户的需求找出有关信息的过程;从信息用户的角度讲,信息检索就是从已存储的信息资源中检索出与用户提问的相关的文献、知识、事实、数据的逻辑运算和技术造作过程;从社会角度讲,检索广泛存在于人们的日常生活行为当中,比如去实验室、图书馆、食堂、超市等找到个人所需要的物质,精神物品等。3.1信息检索概述信息资源共享(informationresourcesharing)是当今社会的一个热点问题。为了分享人类共同的知识财富,人们必须通过一种科学的方法从取之不尽的信息源中区识别和获取所需要的那部分信息,这个过程就是检索(retrieval)。第2页,课件共27页,创作于2023年2月3.1.1信息检索的特征有确定的目标有一个可能的信息解的集合有一定的线索可依搜索的过程是针对一定的目标、遵循一定的线索,不断缩小范围的求解过程。信息检索的特征:第3页,课件共27页,创作于2023年2月3.1.2信息检索与查找信息检索:从信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。简单说就是从信息集合中迅速,准确地查找出所需信息的过程和方法。信息集合:指有组织的信息资源总体,可以是:馆藏目录,数据库、(印本)检索工具等。目录索引正文信息检索与查字典类比:快速定位第4页,课件共27页,创作于2023年2月检索与查找的区别:检索查找、搜索、搜寻英文Retrival或RetrievalSearch过程和方法有一定策略,是系统的查找资料随机或更随意一些技能需要一定的专门知识和技能简单,任意词用途课题或专题日常生活结果检索前通常不知道有什么结果知道结果效率迅速,准确一般注意如果不加可以区分,检索和查找就没有区别第5页,课件共27页,创作于2023年2月3.1.3信息检索原理从技术上讲,信息检索是以信息的存储和检索之间的相符性为基础的,检索的全过程包括两个子系统:存储子系统和检索子系统。如下图为“信息检索原理图”。标引检索输出存储过程一次信息信息特征检索语言信息特征标识信息检索工具(系统)检索结果检索过程检索课题检索提问检索提问标识分析分析标引输入第6页,课件共27页,创作于2023年2月3.1.4信息检索的类型(如下图:信息检索分类示意图)依检索结果内容
划分依信息存储与
检索方式划分手工检索计算机检索事实信息检索文献信息检索数据信息检索信息检索类型2000以前有关某课题检索的期刊有多少?黄河有多长?2008奥运会竞技项目有多少?注意:数据检索和事实检索是要检索包含在文献中的具体情报,是确定的检索,可以直接利用;文献检索则是要检索出包含所需要情报的文献。万方数据资源第7页,课件共27页,创作于2023年2月3.1.5信息检索的意义及步骤意义:避免重复研究,提高研究效率节省查找资料时间,提高信息获取效率获取新知识的捷径,培养创新型人才步骤:分析检索课题,明确信息需求选择检索工具,了解检索系统确定检索途径,选定检索方法实施检索策略。浏览检索结果调整检索策略,获得检索信息第8页,课件共27页,创作于2023年2月信息检索步骤示意图分析检索课题1.主题内容2.时间范围3.信息类型4.检索语种主题概念确定检索途径1.分类途径2.主题途径3.题名途径4.著者途径5.其它途径选择检索方法1.顺查法2.倒查法
3.抽查法
4.追溯法5.交替法信息线索确定一次信息出处1.缩写还原为全称2.音译转换成原名3.信息类型选择检索工具1.馆藏目录2.图书馆信息检索系统获取一次信息选择检索工具1.索引、文摘2.全文数据库①
②③④⑤第9页,课件共27页,创作于2023年2月第3章信息检索基础3.1信息检索概述3.2信息检索技术3.3信息检索效果评价第10页,课件共27页,创作于2023年2月3.2信息检索技术
检索技术是指利用光盘数据库、联机数据库、网络数据库、搜索引擎等进行信息检索时采用的相关技术,主要包括布尔检索、截词检索、字段检索、限制检索、临近检索等。
计算机信息检索系统的类型检索系统存储的内容文献信息检索系统事实信息检索系统数值信息检索系统图像信息检索系统多媒体信息检索系统检索系统工作方式脱机信息检索系统(20世纪50~60年代)联机信息检索系统(20世纪70年代~光盘信息检索系统(20世纪80年代~网络信息检索系统(20世纪90年代~第11页,课件共27页,创作于2023年2月计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。由于信息检索提问式是用户需求和信息集合之间匹配的依据,所以信息检索技术是信息提问式的构造技术。目前,计算机检索已经从基本的布尔逻辑检索、截词检索、临近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。第12页,课件共27页,创作于2023年2月3.2.1选择合适的检索词头脑风暴法:
在开始检索之前,写出一些详细描写主题的句子,用下划线将句子的关键词和短语划出来。
有了最初的关键词列表之后,要尽可能地列举出更多的关键词或短语。请记下你的任何想法,甚至是一些看上去还没有考虑成熟的想法,但有时是最有用的。
例如:飞机(飞行器包括飞机,飞机包括航天飞机)我们用下面这个例子来了解头脑风暴法如何帮助我们找到合适的检索词。第13页,课件共27页,创作于2023年2月检索主题1:提高电子邮件的安全可以通过改善邮件程序、对邮件地址进行认证以提高用户的警惕性。
首先利用头脑风暴列出关键词和短语:电子邮件Email,e-mail,安全,认证,程序,警惕性。
短语:网络安全,电子邮件系统,软件。检索词一旦确定,我们需要到哪里去检索呢?图书馆拥有的数据库是最好的选择,我校拥有的数据资源如万方数据资源,超星图书资源将在数据库检索这一讲中具体讲解。第14页,课件共27页,创作于2023年2月检索主题2:通过对上网者的研究,发现长时间使用网络将影响人的心理健康。有调查显示,上网时间过长会导致人抑郁和孤独。
1,主题词:网络,internet,上网者,上网,影响,健康,沉溺,调查,抑郁,孤独。
2,找到主要关键词的同义词:(internet)网络,互联网,电脑,信息高速公路,在线,web,worldwideweb等
3,列出其他词的同义词或可替代词(如心理健康)高兴,愉悦,健康,沮丧,郁闷,孤独,孤单,难过,悲伤,情绪低落等。第15页,课件共27页,创作于2023年2月3.2.2布尔逻辑检索AND(*)(&)(空格)AandB逻辑与A和B都为真时才为真,即A&B。逻辑含义用图表示为:布尔逻辑检索组配是现行计算机检索的基本技术,主要通过布尔运算符“与(and),或(or),非(not)”进行检索。OR(+)()AorB逻辑或A和B只要有一个为真,结果就为真,即A+B。逻辑含义用图表示为:NOT(!)(-)AnotB逻辑非A为真,B为假时,结果才为真,即A-B。逻辑含义用图表示为:注意:布尔运算符的优先次序为:not>and>or第16页,课件共27页,创作于2023年2月分析实例:郑州零售业的现状及发展趋势郑州,零售业,现状,发展趋势郑州and零售业and(现状or发展趋势)第17页,课件共27页,创作于2023年2月3.2.3截词检索
截词符就是用一个符号来代替单词的一部分或某个字母,截词符只用于英文检索。按截词位置分:前截断,后截段,中截段
按截词字符数量分:非限制阶段,限制阶段通常**表示截词符号,不同的系统有不同的用法。后截断例:comput*表示其后可带任何字符,并且数量不限,如computer,computing等fib??表示其后只能带两个字符,如fiber,fibre等。中截断(通配符或屏蔽)例:colo?R,可检索到包含color,colour等记录Colo?1r,只能检索到包含colour的记录。第18页,课件共27页,创作于2023年2月3.2.4字段检索(rangesearching)
字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码表示。第19页,课件共27页,创作于2023年2月3.2.5限制检索针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。后缀限制符例如:/TI限在题目中查/AB限在文摘中查/DE限在叙词标引中查前缀限制符例如:AU=限查特定作者JN=限查特定刊名LA=限查特定语种PN=限查特定专利号PY=限查特定年代第20页,课件共27页,创作于2023年2月3.2.6邻近检索
邻近检索用于规定检索词相互之间的邻近关系的检索,包括在记录中的顺序的相对位置。常用的位置算符有(W)、(nW)、(N)、(nN)、(F)、(S)等,各个检索系统中位置算符有所不同,具体查看其使用说明。第21页,课件共27页,创作于2023年2月3.2.7网络检索短语检索(半角双引号)自动纠错检索(如:李熬,你是不是要检索李敖)自动转换检索(如:汉语拼音转换成文字)自然语言检索概念检索(同义词/近义词/狭义词,如搜索引擎Excite)相关检索3.2.8其他表述:二次检索/在结果中检索精确检索模糊检索跨库检索/一站式检索扩展检索(类似搜索引擎的概念检索)一般检索/高级检索/专业检索还有什么检索?第22页,课件共27页,创作于2023年2月第3章信息检索基础3.1信息检索概述3.2信息检索技术3.3信息检索效果评价第23页,课件共27页,创作于2023年2月3.3信息检索效果评价检索效果(retrievaleffectiveness)是指检索系统检索的有效程度,它反映检索系统的能力。也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。包括6个方面:收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率(Recallratio)和查准率(precisionratio),分别用R和P大写字母表示。第24页,课件共27页,创作于2023年2月相关文献非相关文献总计检出文献a(hit)b(noise)a+b未检出文献c(mission)d(rejected)c+d总计a+cb+da+b+c+d查全率(RecallRatio):R=a/(a+c)*100%查准率(PrecisionRatio):P=a/(a+b)*100%一系列的实验结果表明查全率与查准率之间存在互逆关系。第25页,课件共27页,创作于2023年2月小结计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索网络信息检索检索与查找的区别信息检索的含义、原理、类型、意义信息检索工具、方法、步骤信息检索类型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食品加工卫生安全风险评估
- 硕士论文开题报告模板
- 专业基础知识(给排水)-(给水排水)《专业基础知识》模拟试卷4
- 房地产交易制度政策-《房地产基本制度与政策》预测试卷1
- 父亲七十大寿贺词
- 护理读书笔记
- 二零二五年度高空作业吊篮安装与安全风险评估合同3篇
- 人教版四年级数学下册第二次月考综合卷(含答案)
- 广西梧州市2024-2025学年七年级上学期期末考试生物学试题(含答案)
- 二零二五年度股权抵押融资合同文本3篇
- 译林版一年级英语上册全套ppt
- 教师教学常规管理培训夯实教学常规强化教学管理PPT教学课件
- 公务员考试工信部面试真题及解析
- GB/T 15593-2020输血(液)器具用聚氯乙烯塑料
- 2023年上海英语高考卷及答案完整版
- 西北农林科技大学高等数学期末考试试卷(含答案)
- 金红叶纸业简介-2 -纸品及产品知识
- 《连锁经营管理》课程教学大纲
- 《毕淑敏文集》电子书
- 颈椎JOA评分 表格
- 定量分析方法-课件
评论
0/150
提交评论