




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三节文献信息检索概述1、信息检索的含义从广义上讲,信息检索(InformationRetrieval)是指将信息按一定的方式组织和存储起来,并根据用户的特定需要找出所需信息的过程。所以它的全称又叫“信息的存储与检索”(InformationStorageandRetrieval)狭义的信息检索则仅指该过程的后半部分,即利用已有的检索工具或数据库从信息集合中找出所需要信息的过程,相当于人们通常所说的信息查寻。(InformationSearch)2、信息检索类型2.1根据检索对象的不同,信息检索可分为数据检索、事实检索、文献检索三种。2.1.1数据检索数据检索是以数值或图表形式表示的数据为检索对象的信息检索,又称数值检索。它是利用参考工具书、数据库等找出包含在信息中的某一数字数据(如国内长途电话区号、邮政编码、各种统计数据、参数等)和市场行情、图表、化学分子式等非数字数据的检索。数据检索是一种确定性检索,检索结果直接回答用户提出的具体题。如“澜沧江-湄公河总长度是多少?”“2007年云南省国内生产总值是多少,居全国第几位?”等等。2、信息检索类型2.1.2事实检索事实检索是以文献中抽取的事项为检索内容的信息检索,又称事项检索。它是利用参考工具书、数据库等从存储事实的信息系统中查找出指定事实的一种信息检索,包括某一事物(事件)的性质、定义、原理以及发生的时间、地占、点、过程等。如“杂交水稻之父袁隆平的生平,他对世界粮食生产有何贡献?”、“什么是生物多样性?”等等。事实检索也是一种确定性检索,是信息检索中比较复杂的一种,一般不能直接回答用户的具体问题,必须进行分析、推理后才能得出最终结果。2、信息检索类型2.1.3文献检索文献检索是以文献为主要检索对象的信息检索。凡是查找某一主题、时代、地区、文种的有关文献,以及回答这些文献的出处和收藏地等,都属于文献检索的范畴,为用户提供的是与用户的信息需求相关的文献信息。文献检索根据检索内容的不同又可分为书目检索和全文检索两种。书目检索以文献检索为检索对象,检索结果是与检索课题相关的一系列文献的线索(包括目录、题录、文摘等),用户只有通过查找收藏单位,才能获得原始文献;2、信息检索类型而全文检索则以文献所含的全部信息为检索对象,即检索系统存储的是整篇文章或整本图书的全部内容,它是数据库技术、网络技术发展的产物。可见,数据与事实检索是一种确定性检索,检索的结果是可供科研人员直接利用的文献;而文献检索则是一种相关性检索,检索结果是与课题相关的数篇文献线索或原始文献。文献检索是信息检索的核心部分,它较之数据检索与事实检索内容更为丰富,方法更为多样。文献检索也是我们这门课程讲述的主要内容。2、信息检索类型2.2根据检索手段的不同,分为手工信息检索、计算机检索两种。2.2.1手工信息检索指利用印刷型检索书刊检索信息的过程,优点是回溯性好,没有时间限制,不收费;缺点是费时,效率低。2、信息检索类型2.2.2计算机检索指利用计算机检索数据库的过程,优点是速度快,缺点是回溯性不好,且有时间限制。由于计算机的发展和普及,计算机检索将成为信息检索的主流,传统的手工检索已逐渐被计算机检索取代。3.信息检索的意义3.1信息检索是获取知识的捷径
美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里查阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。
3.信息检索的意义3.2信息检索是科学研究的向导
美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题。事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。我国的重复率则更高。据相关资料统计,我国每年各类科研和革新课题中有50%左右是重复国外已有的成果;国内课题彼此重复的约占三分之二。3.信息检索的意义3.3信息检索是终身教育的基础
学校培养学生的目标是学生的智能,包括自学能力、研究能力、思维能力、表达能力和组织管理能力。
联合国教科文组织提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。
4、信息检索的方法、步骤4.1检索方法,简单地说就是查找文献资料的方法。选择检索方法的目的在于寻求一种花时少、检索效果好的有效方法。检索方法很多,归纳起来主要有以下几种。
4.1、信息检索的方法4.1.1浏览法
这是科技人员平时获取信息的重要方法,是科技人员经常对本专业或本学科新到的核心期刊浏览阅读的方法。该法的优点是能很快获取最新信息,能直接阅读原文内容,基本上能获知本学科发展的动态和水平。缺点是科技人员必须事先知道本学科的核心期刊,检索的范围也不够宽,因而漏检率较高。4.1、信息检索的方法4.1.2、追溯法
一篇文献后面往往附有数篇参考文献,这些参考文献在某些方面与这篇文献有关,如果追查这些相关的参考文献,会发现每篇参考文献后面又附有与之相关的若干篇参考文献,按照这种方法追查扩检下去,就会一变十,十变百,产生如同滚雪球般的效果,可以获得大批相关文献。此法的优点是不需要利用检索工具,查找方法简单;缺点是漏检率较大。
4.1、信息检索的方法
4.1.3、常用法
也叫检索工具法,是利用各种检索工具查找文献的方法,分顺查法、倒查法、抽查法三种。4.1、信息检索的方法①顺查法:它是以课题研究的起始年代为起点,由远而近,利用检索工具逐年查找,一直查到最近期为止。顺查法一般适用于主题较复杂、研究范围较大、研究时间较久的科研课题。②倒查法:是从最近期向早期回溯,由近及远逐年查找的方法,查到所需资料够用为止。倒查法一般适用于新兴学科的研究课题或检索某课题的最新进展情况。③抽查法:这是一种针对学科发展特点,抓住该学科文献发表较集中的年代,抽出其中一段时间(几年或十几年)进行检索的方法。这种方法的特点是付出的检索时间少,查获文献多,效率高,但必须在熟悉学科发展的情况下才能使用。4.1、信息检索的方法4.1.4循环法又称交替法、综合法,这是常规法和追溯法交替使用的一种方法,即先利用检索工具查得一批文献,然后利用这批文献所附参考文献进行追溯查找,获得更多的相关文献。如此循环交替,直到获得满意结果为止。此法检索效率较高,能较为快速系统地查获所需文献。4.2、信息检索的步骤信息检索的全过程,大体可分为六个步骤:a、分析课题b、选择检索工具c、确定检索途径d、选定检索方法e、查找文献线索f、索取原始文献。其过程如下图:4.2、信息检索的步骤4.2.1分析课题
对一个检索用户来说,对检索课题进行分析,是下一步制定检索策略的前提和基础。其目的是让用户搞清楚自己的需求,要解决哪些问题,分析课题应包括以下几个方面:(1)明确检索目的
一般来说,用户的信息需求和检索目的包括以下几类:
一是需要关于某一个课题的系统详尽的信息,包括掌握其历史、现状和发展,如撰写硕士、博士论文,申请研究课题,进行科技成果查新,鉴定专利,编写教材等。这类需求要求检索得全面、彻底,检索的资源多,覆盖的时间年限长。为满足这类需求,要尽可能使用光盘数据库和网络数据库,降低检索成本。
4.2、信息检索的步骤
二是需要关于某个课题的最新信息,这类需求的用户通常一直对某个课题进行跟踪研究,或从事管理决策、工程工艺的最新设计等工作。相应于这样的检索目的,需要检索的资源则必须是更新速度较快,如网络数据库、搜索引擎等,覆盖的年限也比较短。
三是了解一些片断信息,解决一些具体问题。带有这类需求目的的用户通常比较多。例如写一般论文时,针对某个问题查找一些相关参考资料;或进行工程设计施工时需要一些具体数字、图表、事实数据等;或查找某个人的传记、介绍,某个政府机关或商业公司的网页,某个术语的解释等。这类需求不需要查找大量资源,但必须针对性很强,结果必须准确,速度要快。解决这类需求,除数据库外,网上搜索引擎、专题BBS都是可供使用的资源。
4.2、信息检索的步骤(2)明确课题的主题或主要内容。要形成若干个既能代表信息需求又具有检索意义的主题概念,包括所需的主题概念有几个、概念的专指度是否合适,哪些是主要的,哪些是次要的,概念之间的关系如何等等。(3)课题涉及的学科范围。搞清楚课题所涉及的学科领域,是否是跨学科研究,以便按学科选择信息资源。如有可能,还可以给出相应的分类号。(4)所需信息的数量、语种、年代范围、类型等具体指标。4.2、信息检索的步骤4.2.2选择检索工具检索工具的种类繁多,其检索的文献类型、学科和专业的收录范围各有侧重。所以,根据课题的检索要求,认真准备,选好检索工具十分重要。主要确定以下几个方面:是否所有与检索课题相关的资源都要进行检索,如果是,则不但考虑要检索一次文献和二次文献的数据库,而且对于网上其他资源,如搜索引攀、分类检索指南、学科导航、专题BBS等也要查询。选择哪些学科的信息资源:例如查找生物学方面的信息,则可能会涉及医学方面的信息资源,因此要特别注意跨学科的问题。选择哪些语种的信息资源:是中文还是西文,或是二者兼顾。4.2、信息检索的步骤
信息资源覆盖的年限是否符合需求:大多数数字信息资源覆盖的年限都是近二十年的内容,因此如果需要更早的资料,就要考虑手工检索的问题;还有些数据库由于更新速度的原因(例如光盘数据库,或数据库加工的速度不够快),无法提供最新的信息,这也是要考虑的因素。这时更多是使用其他一些相关数据库(如同一数据库的网络版)或其他网络资源来予以补充。
信息资源的特点及其针对性如何:要了解已选择的信息资源的查询特点,是否与自己的信息需求相吻合。例如查询某个机构或公司的网页,使用搜索引擎是最好的,而即使是搜索引擎,各自的特点不同,涵盖的内容也有所侧重和不同;查询新闻时事,则可以登录到一些新闻网站;查找学位论文,就一定要使用学位论文数据库,或直接到大学或学院的网站上查询,因为有些学校的学位论文在网上是提供二次文献服务的。
4.2、信息检索的步骤4.2.3构造检索式,选择检索途径
检索式(formula,profile,statement)是检索策略的逻辑表达式,是用来表达用户检索提问的。它由基于检索概念产生的检索词和各种组配算符构成。检索式的好坏决定着检索质量。
检索词可以是一个单元词,表达一个单一概念;也可以是一个或多个词组,表达多个概念。检索词可以由检索用户提出,也可以在数据库中的受控词表(主题词表、分类表等)中选择,在人工检索语言和自然检索语言并用的数据库中,最好先浏览一下主题词表、叙词表和分类表,二者并用,以保证查全、查准。组配算符(operator)通常有布尔逻辑算符、截词符(通配符)、位置算符、嵌套算符(优先算符)几种,前两种较为常用。在后面的讲课中将会详细讲述这几种组配算符。
4.2、信息检索的步骤
构造好检索式以后,就要选择检索点(accesspoint),即选择检索途径或检索入口,也称检索字段(field)。检索途径主要分以下几种:从文献的外部特征查找文献:
题名途径(书、刊、篇名)、著者途径、序号途径(ISBN、ISSN、专利号、报告号、标准号…)
从文献内容特征查找文献:
分类途径、主题途径、关键词途径、其他途径(《CA》的分子式索引、《BA》的生物索引)
主题途径便于查找与主题词相关内容的文献。其特点是适应性、直观性及通用性强,表达概念准确灵活,只是不如分类法那样系统,稳定,但适合对学科相互交叉、相互渗透的课题进行检索。4.2、信息检索的步骤主题词表是标引和检索人员的共同依据,各种检索工具有各自的主题词表,并通过参照关系作规范化处理,使同义词、近义词、同族词、相关词、主题词与非主题词在主题词表中都一目了然。也可通过参照关系指引读者,查找作为主题词的词和与主题有关的主题词,扩大检索范围。关键词是直接从文献中抽出来的具有实质性意义的词,其主要特征是未经规范化处理,也不受主题词表控制的词,又称自由词。作为自然语言检索,实际属主题法系统,不需查主题词表,因未作规范化处理不能进行选择和控制,故索引质量粗糙。4.2、信息检索的步骤关键词的缺点是自由选词,而对同一事物的概念不同,作者选词也不尽相同。而且词语中存在着同义词、多义词、复合词,名词单、复数等,文献就会分散在不同关键词中,不能集中一处。同一概念,内容可能完全不同,因此必然影响查准率、查全率。一般来说,为了进行深入全面的检索,往往是以主题途径或者分类途径作为主要检索途径。若课题检索的泛指性较高,即所需文献范围较广,则选用分类途径较好。反之,课题检索的专指性较强,即所需文献比较专深,或涉及跨学科的课题则选主题途径为宜。
4.2、信息检索的步骤4.2.4选定检索方法选择检索方法的目的在于寻求一种花时少、检索效果好的有效方法。
4.2.5查找文献线索
用已经构造的检索式,按照相应的检索途径查找有关的索引(如主题索引、分类索引、作者索引等),通过检索查到与检索提问一致的文献后,就要仔细阅读分析文献的著录款目,判断主题内容是否符合检索要求。倘若符合检索要求,就要准确记下文献篇名、著者、来源、文种等著录事项。这些文献来源项目是获得文献原文的主要线索。如果是利用全文数据库或电子书刊检索系统,则可直接获取原文。
4.2、信息检索的步骤如果检索反馈的结果过多或过少,就应调整检索策略,直至得到满意的结果。对检索数量比较少的结果,可以进行扩检,增加检索结果;
对检索数量过多的检索结果,考虑进行缩检,提高检中的相关文献量。4.2、信息检索的步骤4.4.6索取原始文献
上述几个步骤大多只是得到文献的线索,索取原始文献才是整个检索过程的最后阶段。将所获得的检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,输出检索结果。
根据文献的有关信息查找相应的馆藏目录或联合目录,找到收藏单位,再索借或复制原文。如果本单位图书馆没有收藏所需文献,用户可以通过馆际互借或文献传递服务获取。
在运用检索工具或检索系统进行检索时,我们期望检索出来的文献信息均是自己所需的,并且能够把该检索工具或检索系统中适合自己检索需要的文献信息全部检索出来。检索效果是指检索系统检索的有效程度,它反映了检索系统的能力。检索效果包括技术效果和经济效果,技术效果是由检索系统完成其功能的能力确定,主要指系统的性能和服务质量;经济效果是由完成这些功能的价值确定,主要指检索系统服务的成本和时间。英国的情报学家克兰弗登(Cranfield)在分析用户要求的基础上,提出了6项评价系统性能的指标,它们是收录范围、查全率、查准率、响应时间、用户负担和输出形式,其中查全率和查准率是两个最重要的指标。
5
检索效果及其评价5
检索效果及其评价5.1、查全率(recallfactor)它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。可用下式表示:查全率=检出的相关文献总量/系统中的相关文献总量×100%例如,要利用某个检索系统查某课题。假设在该系统数据库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。
5
检索效果及其评价5.2、查准率(Pertinencyfactor)
它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。可用下式表示:查准率=检出的相关文献总量/检出文献总量×100%例如,如果检出的文献总篇数为50篇,经审查确定其中与课题相关的文献只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。5
检索效果及其评价
然而,由于许多因素的影响,在实际检索中,查全率和查准率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车位出租协议
- 辽宁省大连市普兰店市第三中学2025年物理高二下期末预测试题含解析
- 二零二五年餐饮企业特色美食研发与市场推广合同范本
- 二零二五年度信息安全保密合作合同
- 2025版特色美食街食堂承包管理合同
- 二零二五年度建筑照明材料购销合同规范
- 二零二五版家政服务公司专业保洁服务合同
- 二零二五年度车辆抵押保险理赔合同范本
- 二零二五版绿色食品生产场与客户双重认可合作协议
- 二零二五年度农产品深加工采购合同
- 电网工程设备材料信息参考价2025年第一季度
- GB/T 26323-2010色漆和清漆铝及铝合金表面涂膜的耐丝状腐蚀试验
- GB/T 1796.6-2018轮胎气门嘴第6部分:气门芯
- 高中新生入学教育课件
- 出版政策与法规课件
- 综合管廊基坑降排水施工专项方案
- 安徽省工伤职工停工留薪期分类目录
- MSDS 化学品安全说明书(油漆)
- DB13T 5240-2020 煤矿在用钢丝绳牵引卡轨车安全检测检验规范
- 消防设施移交及消防设施操作维护人员培训和清单参考模板范本
- SLAP损伤的治疗课件
评论
0/150
提交评论