第二章信息检索原理与方法_第1页
第二章信息检索原理与方法_第2页
第二章信息检索原理与方法_第3页
第二章信息检索原理与方法_第4页
第二章信息检索原理与方法_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、图书馆图书馆 英特尔国际科学与工程大奖赛17岁席夫尔开发了一个模型,用来提高互联网搜索引擎的能力,能够显示微小的内容变化15岁杰克.安德拉卡利用课余时间发明了一种一种滤纸,可能通过尿液和血液检测胰腺癌、卵巢癌和肺癌18岁别克维斯基则研究了量子隐形传态,利用这种手段,需要高数据安全性的团体可以发送远距离加密信息,而不用担心被拦截。http:/ ,即人工智能的始祖阿即人工智能的始祖阿伦伦图灵,他在上世纪图灵,他在上世纪5050年代曾经提出了一个假想的实年代曾经提出了一个假想的实验,验,认为计算机可以具有人类的思维能力认为计算机可以具有人类的思维能力,被称为,被称为“图灵实验图灵实验”。并且预言,在

2、。并且预言,在2020世纪末,具有人工智世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过计算机能通过“图灵实验图灵实验”。计算机检索的奥妙:关键词匹配计算机实现检索的奥妙,就在于它能把你输入计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件的检索词,与它后台数据库中存储的文件关键关键词词进行比对,如果能够进行比对,如果能够匹配匹配,就认为这条信息,就认为这条信息是你需要的,立刻输出给你。是你需要的,立刻输出给你。信息检索的方法信息检索的原理信息检索的流程信息检索的概念信息检索的原理 信息检索的概

3、念信息检索的概念信息检索(Information Retrieval):1950年由美国信息科学先锋穆尔斯穆尔斯提出的Calvin Mooers 将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息的过程和技术。 狭义的信息检索从信息集合中找出所需从信息集合中找出所需 要的信息的过程要的信息的过程,也就是我们常说的信息查询。 信息检索的原理信息检索的原理 将特定的将特定的信息需求与存储在检索系统中的与存储在检索系统中的信息集合进进行异同的行异同的比较与匹配,选取两者相符或者部分相符的信息,选取两者相符或者部分相符的信息予以输出。予以输出。信息需求比较与匹配信息集合表 达标 识检

4、索词在数据库纪录中的匹配【题名】大数据时代下图书馆的挑战及其应对策略 【关键词】大数据;数据处理;数据挖掘;数据服务; 图书馆;【文摘】文章首先阐述了大数据的特征与内涵,指出了大数据在图书馆工作中的重要性及两者之间的关系,分析了大数据所带来的数据管理、数据存储、数据挖掘等方面的挑战。然后研究了图书馆应从数据管理、数据技术及数据队伍建设上所采取的策略。最后探讨。123关键词检索关键词检索布尔逻辑检索布尔逻辑检索截词检索截词检索 关键词检索关键词检索 关键词 关键词是那些出现在文献的篇名、章节名、摘要、正文中,对描述文献主题内容具有实质意义的语词。 关键词的确定(1)列出论文所属学科领域(2)列出

5、研究课题名称(3)列出研究方法或工具名称(4)列出论文作为主要研究对象的事或物质的名称及其相关概念(5)有利于检索和文献利用的其他关键词中国科协关于标识关键词的规定题名中包含多少语词?那些是关键词?那些是非关键词?这些词有什么特点?他们之间及其与全文有什么关系? 例子:“基于项目治理的政府投资项目代建人激励机制研基于项目治理的政府投资项目代建人激励机制研究究”课题:基于项目治理的政府投资项目代建人激励机基于项目治理的政府投资项目代建人激励机制研究制研究关键词: 政府投资项目;代建制;代建人;项目治理;激励机制政府投资项目代建制代建人项目治理激励机制研究目标对象 研究成果的名称 研究学科领域研究

6、内容对象雪灾、冰雪天气、雨雪天气。 灾情、成因、供电、交通、物价、旅游、环境。 影响、中断、关闭、断线、上涨、污染。1.简练使用关键词不滥选;2.正确揭示主题 不错选;3.全面反映主题 不漏选;总结: 关键词的三个原则百度指数Google Adwords 布尔逻辑检索布尔逻辑检索布尔逻辑运算符是为了表达检索词布尔逻辑运算符是为了表达检索词之间的逻辑关系的算符。由英国学之间的逻辑关系的算符。由英国学者乔治者乔治.布尔发明的布尔逻辑运算符布尔发明的布尔逻辑运算符包括逻辑包括逻辑“与与”、逻辑、逻辑“或或”和逻和逻辑辑“非非”三种类型,分别用三种类型,分别用and、or和和not表示。用布尔逻辑运算

7、符连表示。用布尔逻辑运算符连接检索词形成的检索式称为布尔逻接检索词形成的检索式称为布尔逻辑检索式。辑检索式。 逻辑逻辑“与与” 如:如:“计算机计算机”AND“文献检索文献检索”,表示查找文献,表示查找文献内容中既含有内容中既含有“计算机计算机”又含有又含有“文献检索文献检索”词的文献。词的文献。 如:如:“计算机计算机”OR“文献检索文献检索”,表示查找文献内,表示查找文献内容中含有容中含有“计算机计算机”或含有或含有“文献检索文献检索”以及两词都包以及两词都包含的文献。含的文献。 逻辑逻辑“或或” 如:如: “计算机计算机”NOT“文献检索文献检索”,表示查找文献内,表示查找文献内容中含有

8、容中含有“计算机计算机”而不含有而不含有“文献检索文献检索”的那部分文的那部分文献。献。逻辑逻辑“非非”编写布尔逻辑检索式应注意以下技巧:编写布尔逻辑检索式应注意以下技巧:1、把出现、把出现频率低频率低的检索词放在逻辑的检索词放在逻辑“与与”(AND)的左边,可缩短计算机处)的左边,可缩短计算机处理时间。理时间。例如:检索有关例如:检索有关“计算机在机器人应用方面计算机在机器人应用方面”的文献,检索式为:机的文献,检索式为:机器人器人*计算机计算机2、把出现、把出现频率高频率高的检索词放在逻辑的检索词放在逻辑“或或”(OR)的左边,有利于提高检索速)的左边,有利于提高检索速度。度。例如:检索有

9、关例如:检索有关“计算机或者有关机器人计算机或者有关机器人”的文献,构造检索式为:计算的文献,构造检索式为:计算机机+机器人机器人3、同时使用逻辑同时使用逻辑“与与” (AND)和逻辑)和逻辑“或或”(OR)检索时,应把)检索时,应把“或或”运算放运算放在在“与与”运算的左边。运算的左边。例如:正确的检索式:(医学例如:正确的检索式:(医学+生物)生物)* 健康报健康报4、布尔运算符布尔运算符优先级优先级比较比较:有括号时:括号内的先执行;有括号时:括号内的先执行;无括号时:无括号时:NOT AND OR例:检索例:检索“唐宋诗歌唐宋诗歌”的有关信息。的有关信息。关键词:唐、宋、诗歌;关键词:

10、唐、宋、诗歌;检索表达式:(唐检索表达式:(唐 OR 宋)宋)AND 诗歌;唐诗歌;唐 AND 诗歌诗歌 OR 宋宋 AND 诗歌;诗歌; 截词检索截词检索 截词检索就是用截断的词的一个局部进行的检索,并认截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中的文献。按截断的位置来分,截词可有后截断、前截断、中截断三种类型。中截断三种类型。 不同的系统所用的截词符也不同,常用的有不同的系统所用的截词符也不同,常用的有?、$、*等。等。分为有限截词(

11、即一个截词符只代表一个字符)和无限截分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。词(一个截词符可代表多个字符)。 截词原因:西文的结构特性 (1)单复数形式不一单复数形式不一 (2)同一个意思的词,英美拼法不一致;同一个意思的词,英美拼法不一致; (3)词干词干+前缀前缀/后缀就后缀就=派生词派生词截词检索的方式(根据检索系统而定,参见上海大学图书馆(根据检索系统而定,参见上海大学图书馆OPACOPAC)p 前截词,后方一致。如:?computer表示minicomputer,microcomputers等p 后截词,前方一致。如:comput?表示com

12、puter,computers,computing等。p 前后截词,中间一致。如?comput?表示minicomputer,microcomputers等。ACEFDB用户需求分析主题概念分析确定检索词选择检索工具构造检索式并检索反馈与调整获取结果信息检索流程l 用户信息需求分析 信息检索需求类型 查找某概念的确切含义,如:什么是“blog” 查找某概念的背景知识,如:谁最先发现青霉素 查找某些事物的数值及量化指标,如KPI 查找某一学科的一般知识,如:关于分子生物学有 哪些专著 查找学科专业领域的新进展,如:有关纳米技术的 研究综述 查找课题相关的专业文献 最常见的! 用户信息需求 检索目

13、的(开题报告、学术论文、课程论文) 学科范围(新闻学、会计学) 文献类型(期刊论文、会议论文、科技报告、图 书、专利、标准、网站等) 结果形式(全文、文摘、题录、数值、事实等) 检索年限(如2000年以来的文献) 语种(中文、外文;英文、日文) 检索结果数量(100?50?)l 主题概念分析从熟悉的已知文献信息入手从熟悉的已知文献信息入手 分析检索课题的内容实质 表示的概念过大, 必然造成大量误检; 表达的概念过小,则会发生大量漏检例子:青少年性格形成分析主要是考察青少年的性格以及影响其性格形成的因素分析,实质上是青少年心理变化的分析 隐性主题具体化分析课题时不能仅从题目中的词找出概念就认为是

14、满足检索课题要求的概念, 而要从专业方面及检索目标与规则方面分析, 找出反映课题本质的概念。如:“垃圾的处理”中的“处理”一词就隐含着“回收”和“再生”等概念 主题概念具体化如:中国特大城市空气污染 ( 中国特大城市+北京+ 上海+广州+ 重庆+武汉+ 天津+ ,) * ( 空气污染+大气污染+ 空气质量+工业废气+ 一氧化硫+ 二氧化硫+一氧化碳+ 二氧化碳+灰霾+ ,) 找出核心概念,排除无关概念和重复概念,简化逻 辑关系并不是概念越多越好!并不是概念越多越好!抓住主题的核心:最能表达检索课题内容,而且具有抓住主题的核心:最能表达检索课题内容,而且具有实际检索意义的关键词。实际检索意义的关

15、键词。如如“大数据下的空间数据挖掘思考大数据下的空间数据挖掘思考” -大数据大数据 下下 的的 空间空间 数据挖掘数据挖掘 思考思考 -大数据大数据 空间数据挖掘空间数据挖掘排除检索意义不大而且比较泛指的概念排除检索意义不大而且比较泛指的概念,如:展望、如:展望、发展趋势、现状、近况、生产工艺、应用、利用、作发展趋势、现状、近况、生产工艺、应用、利用、作用、方法、影响、制备、结果用、方法、影响、制备、结果 明确概念间的逻辑关系同义词、近义词是同义词、近义词是或或的关系的关系上位词,概念上外延更广的主题词上位词,概念上外延更广的主题词,1 1个主题词所表达个主题词所表达 概念的的任何一种属性、任

16、何一种归类方式,都可概念的的任何一种属性、任何一种归类方式,都可以以 是它的上位词是它的上位词下位词,指概念上内涵更窄的主题词下位词,指概念上内涵更窄的主题词例子分析例子分析 “鲜花快递鲜花快递” 、”鲜花鲜花”、”快递快递”、”网上购网上购物物”、“上海鲜花速递上海鲜花速递” ” 、”深圳鲜花速递深圳鲜花速递”、 ” ”网上鲜花速递网上鲜花速递”PPT背景图片: l 确定检索词 表示具体事物名称的名词术语表示具体事物名称的名词术语 表示事物的状态或现象的名词术语表示事物的状态或现象的名词术语 表示科学分类的名词术语表示科学分类的名词术语 表示研究方法、技术方法的名词术语表示研究方法、技术方法

17、的名词术语 表示工艺方法、加工技术的名词术语表示工艺方法、加工技术的名词术语 表示化学元素、化合物、金属材料与合金的名词术语表示化学元素、化合物、金属材料与合金的名词术语 表示国家名称、地名、组织机构名称及人名的专有名表示国家名称、地名、组织机构名称及人名的专有名 词词 文献类型、文献载体的名词术语文献类型、文献载体的名词术语 不要将整个题目输入检索框,要从概念入手,而不是从字面意思入手。 当课题比较生疏时,应当首先利用百科全书、图书等弄清楚概念,了解课题的有关专业知识,弄清楚课题的内容和要解决的问题以及解决该问题的初步设想等,进而确定检索的主题范围。 立足规范词,兼顾自由词 词的全称、简称及

18、缩写字母 勿忘下位类词 注意外来词的译写变化l 检索工具的选择(设置链接,第三章 图书馆电子资源检索)l 构建检索提问式 使用逻辑使用逻辑“与与”算符算符 使用逻辑使用逻辑“或或”算符算符 使用使用“非非”算符算符课课 题:汽车导航系统的研究题:汽车导航系统的研究关键词:汽车关键词:汽车 机动车机动车 导航系统导航系统 全球定位系统全球定位系统 GPS GPS 研究研究 设计设计 调查调查检索式:检索式:(汽车(汽车+ +机动车)机动车)* *( (导航系统导航系统+ +全球定位系统全球定位系统+GPS)+GPS)* *( (研究研究+ +设设计计+ +调查调查) )l 检索并调整检索策略p 评价标准l 查全率: R=被检出相关文献量/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论