文献检索课件第一章0911_第1页
文献检索课件第一章0911_第2页
文献检索课件第一章0911_第3页
文献检索课件第一章0911_第4页
文献检索课件第一章0911_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索根底知识哈工大图书馆信息咨询部学习文献检索课的目的以最少的时间、精力获取自己需要的信息学习文献检索课的目的Whereisit?获取信息的总路线如何判断自己已具备了信息素质美国大学与研究图书馆协会(ACRL)制定的高等教育信息素质教育标准能够独立决定所需要信息的种类和程度能够高效的获取需要的信息能够根据现有的知识背景和评价标准对信息及其来源评价及遴选能够有效的利用信息到达某一特定的目的能够在信息利用过程中遵守相关的法律法规计算机信息检索根底知识知识的定义知识是人类在认识和改造世界的社会实践中获得的对事物本质认识的成果和结晶,即人类通过有目的、有区别、有选择地利用信息,对自然界、人类社会及思维方式与运动规律的认识、分析与掌握,并通过人的大脑进行思维整合使信息系统化而构成知识,因此,知识仅存在于人类社会。

文献的定义记录有知识的一切载体如:甲骨文、碑刻、图书、连续出版物、录音磁带、电影片、光盘等。

文献的类型按文献的加工程度划分零次文献〔RawLiterature):未以公开形式出版或未经正式渠道流通的文献,如文章草稿、私人笔记、实验记录、会议记录等。一次文献〔PrimaryLiterature〕:是作者以生产或研究成果为依据而创作的原始文献。如,期刊论文、学位论文、专利文献、会议文献、研究报告、专著、译文等。

文献的类型按文献的加工程度划分二次文献〔SecondaryLiterature〕:将无序的一次文献进行收集、整理,著录其特征并以规定的格式编制成为便于管理和查找文献的工具,即检索工具。如目录、题录或索引、文摘等。三次文献〔TertiaryLiterature〕:是指在利用二次文献的根底上,对一次文献的内容经阅读研究,浓缩提炼而编写成的文献。如科技动态、专题综述、决策参考指南、进展等。

事物运动信息知识新的信息文献产生人脑有序化用于实践记录在载体上传递运用后信息、知识、文献的关系信息检索的根本原理存储过程--对文献进行标引,使之有序化、系统化,成为有功能的检索工具或检索系统。检索过程--根据需求,确定提问式,查找到所需要信息检索是信息组织的反变换过程。信息组织的目的是将零散的信息组成一个有序的体系,检索的目的那么是迅速从这个体系中搜寻所需的信息。

信息检索原理可从信息检索过程得到很好的诠释,如以下图

检索提问匹配计算数据库〔检索工具〕

信息检索语言

是信息组织与信息检索时所用的语言,也称文献检索语言、情报语言等。〔一〕分类检索语言用分类法来表达各种信息资源的概念,将各种概念按照学科、专业性质进行分类和系统排列。集中表达学科的系统性,反映事物的附属、派生关系,由上至下,从总到分层层展开,是一种等级体系。〔一〕分类检索语言广泛用于图书资料的是图书分类法中国图书分类法中国科学院图书分类法杜威十进制分类法国际十进制分类法中国图书馆分类法类目简表5个基本部类22个基本大类马列、毛泽东思想A马列、毛泽东思想哲学B哲学、宗教社会科学C社会科学总论;D政治、法律;E军事;F经济G文化、科学、教育、体育;H语言、文字;I文学;J艺术;K历史、地理自然科学N自然科学总论;O数理科学和化学;P天文学、地球科学;Q生物科学;R医学、卫生;S农业科学T工业技术;U交通运输;V航空、航天;X环境科学、劳动保护科学(安全科学)综合性图书Z综合性图书〔一〕分类检索语言

〔二〕主题法检索语言是利用词语来表达信息资源中论述的主题概念。用来表达信息内容的词语称为主题词。用主题词汇表达各种概念,按字母顺序排列。包括控制词语言、叙词语言等。〔二〕主题法检索语言三个根本特征着眼于从事物的特性方面去提示文献主题采用文字符号按字顺排列关键词、叙词的比较关键词Keyword叙词(单元词)Descriptor未经规范化的名词规范化的名词必须是文献或标题中抽出的词汇可以是文献中的词汇,也可以不是1〕逻辑与AND〔*〕逻辑与AND〔*〕:这是一种用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。【例】查找“高强度低合金钢〞方面的文献,可以将概念分解为:“highstrength〞、“lowalloy〞和“steel〞三个根本概念。如用A、B、C三个圆分别代表“steel〞、“highstrength〞和“lowalloy〞,那么三圆交叉的斜线局部才是三个检索词同时存在的文献记录。2〕逻辑或OR〔+〕逻辑或OR〔+〕:这是一种用于并列概念的组配,可以扩大检索范围,防止漏检,提高了查全率。【例】查找有关“太阳能〞方面的文献,不能确定主题词用“sun〞或“solar〞,那么采用“或〞组配。如用A、B两圆分别代表“sun〞或“solar〞,那么斜线局部为其中任何一个词或两个词同时存在的文献记录。3〕逻辑非NOT〔–〕逻辑非NOT〔–〕:用于从原来的检索范围中排除不需要的概念或影响检索结果的概念。用逻辑非,能够缩小命中文献范围,提高查准率。【例】查找“不包括核能的能源〞的文献,用A、B两圆分别代表“energy〞、“nuclear〞,斜线局部从energy中排除了nuclear的文献。1〕后截断例如,输入computer*,那么前8个字符为computer的所有词均满足条件。因而能检出含有computers、computered等相关词。输入computer??可检出含有computer、computers、computered的文献。注意:使用后截断有可能检索出无关词汇,尤其是在使用无限后截断时,所选词干不能太短,否那么将造成大量误检,或发生溢出,导致检索失败。2〕前截断它将截词符号置于一个字符串左方,表示其左面的有限或无限个字符不影响该字符串的检索,也称为左截断。从检索性质上讲,前截断是前方一致检索。例如,输入*computer可以检索出microcomputer、minicomputer、computer等词汇。3〕中间截断它将截词符号置于一个检索词的中间。它对于解决英、美不同拼法、不规那么的单、复数变化等很有用。例如,analy?e表示analyze和analyse,wom?n表示woman和women等。4〕前后截断它是将前截断和后截断结合使用。例如,*Computer??表示minicomputers。3.位置检索位置检索又称邻近检索,用位置算符表示检索词之间的位置邻近关系。常用的位置算符有以下几种:(W)算符、(nW)算符、(N)算符、(nN)算符、(S)算符、(F)算符。1〕(W)算符W是With的缩写,(W)表示其两侧的检索词必须按前后顺序出现在记录中,在两词之间不能插入其他词,只可能有空格或一个标点符号。(W)算符严密性较强,它根本等价于词组检索,可以简写为()。例如,online()information()retrieval2〕(nW)算符W是Words的缩写,n为自然数。(nW)表示其两侧的检索词之间允许最多插入n个词,但它们之间的位置不能颠倒。如laser(1W)priter可检出“laserpriter〞、“lasercolourpriter〞和“laserandpriter〞3〕(N)算符N是near的缩写,(N)表示其两侧的检索词必须彼此相邻,并且这两个检索词的次序任意。如factory(N)automation可检出factoryautomation和automationfactory的信息。4〕(nN)算符表示在其两侧的检索词之间允许最多插入n个单词,且两词词序可以改变。例如,information(1N)retrieval可检出informationretrieval或retrievalofinformation的信息5〕(S)算符S是subfield的缩写,(S)表示其两侧的检索词必须出现在同一子字段,即一个句子或短语中,词序不限,并且夹在其间的词量不限。例如,computer(S)application只要computer和application在一个句子或短语中即为命中文献。6〕(F)算符F是field的缩写,(F)表示其两侧的检索词必须出现在同一个字段中,如篇名字段、叙词字段、文摘字段等,词序不限,并且夹在其间的词量不限。例如,Pollution(F)control表示一篇标题为ControlandManagementofIndustrialPollution的文献记录为命中文献。4.字段限定检索字段限定检索是利用检索字段符来限定检索字段,即指定检索词在记录中出现的字段。检索时,计算机只对限定字段进行运算,这是提高检索效率的措施之一检索字段符分为两类,即后缀方式和前缀方式。前者对应于根本索引,反映文献的主题内容;后者对应于辅助索引,反映文献的外部特征。4.字段限定检索1〕后缀方式后缀方式在检索词后加上指定检索字段的后缀字段代码,反映文献的主题内容。常用的代码有/TI〔篇名〕、/AB〔文摘〕、/DE〔叙词〕。例如,information()retrieval/TI表示仅在TI字段中检索information()retrieval。4.字段限定检索2〕前缀方式前缀方式是在检索词之前加上指定检索字段的前缀字段代码,反映文献的外部特征。常用的代码有AU=(作者)、ISBN=(ISBN号)、CC=(分类号或类目名称)、CD=(会议日期)、CS=(机构名称)、DT=(文献类型)、JN=(刊名)、PY=(出版年)等。4.字段限定检索2〕前缀方式例如,AU=Yu,XiaoyangANDCS=(GuiLINCollegeofAerospaceTechnology)表示查找桂林航天工业高等专科学校的Yu,Xiaoyang的文献。计算机信息检索的

常用方法与步骤1、信息检索方法基于数据库的常用检索方法:计算机检索方法没有固定模式,主要归纳为以下几种:

〔1〕根本检索:是一种最简单的检索方法,多数数据库只提供一个检索框且只能输一词或一个词组检索,但也有的数据库可对两词或多词进行逻辑组配检索。计算机信息检索的

常用方法与步骤基于数据库的常用检索方法:〔2〕高级检索:用户可通过点选检索系统给定的检索算符对多词进行逻辑组配。高级检索提供的检索框也较多,一般一个检索框只能输一词或一个词组,检索框经常控制在2-5个。计算机信息检索的

常用方法与步骤计算机信息检索的

常用方法与步骤2、信息检索步骤科研人员的检索课题和需要虽各不相同,但为了到达检索目的,都要利用一定的检索工具和数据库,按照一定的途径与方法才能检索出需要的文献。一般要经过以下步骤:计算机信息检索的

常用方法与步骤2、信息检索步骤“用户→研究课题→主题分析→选择检索系统或数据库→选择检索途径:主题词、作者、机构等→制定检索策略和检索方式→检索操作→初始检索结果输出→用户结果评价:满意→检索结果→索取原文;不满意:返回主题分析重新检索〞。计算机信息检索的

常用方法与步骤

2、信息检索步骤计算机信息检索的

常用方法与步骤3、信息检索效果评价对计算机网络信息检索的效果评价,应该从质量、费用和时间这三个方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用,是指用户为检索课题所投入的费用。

时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要标准。计算机信息检索的

常用方法与步骤查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。查全率=[检出相关文献量/文献库内相关文献总量]×100%例如,要利用某个检索系统查某课题。假设在该系统文献库中共有40篇相关文献,而只检索出30篇,那么查全率就等于75%。计算机信息检索的

常用方法与步骤查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。查准率=[检出相关文献量/检出文献总量]×100%计算机信息检索的

常用方法与步骤例如,检出的文献总篇数为50篇,经审查确定其中与工程相关的只有40篇,另外10篇与该课题无关,这次检索的查准率就等于80%。显然,查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率〞。查准率和查全率结合起来,描述了系统的检索成功率。计算机信息检索的

常用方法与步骤实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实验说明,查全率与查准率是呈互逆关系的。要想做到查全,势必会对检索范围和限制逐步放宽,那么结果是把很多不相关的文献也带进来,影响了查准率。网络信息资源1、网络信息资源的特点1〕数据量大、传播广泛网络信息资源极为丰富。报告?数字宇宙膨胀:到2021年全球信息增长预测?指出2021年,全球数字信息量为9880亿GB。网络信息资源1、网络信息资源的特点2〕检索方便、本钱低廉网络信息资源可以使用自然语言检索,便于信息资源的获取和信息利用。很多信息对于公众来说都是免费的。因此,相对于其他形式的信息资源,网络信息资源无疑是低本钱、高回报的资源。网络信息资源1、网络信息资源的特点3〕分散无序、缺乏管理网上信息资源具有分布式特点,处于一种无中心控制、混乱无序的分布状态。网站软硬件变动和更新频繁,更新周期不一。4〕分布不均、质量不一网络信息资源在不同学科专业领域、不同行业、不同地理位置上的分布差异很大,数量和质量的差异也很大。网络信息资源1、网络信息资源的特点5〕内容丰富、形式多样互联网信息资源在形式上没有一个统一的体系和结构,处于非结构化状况,其内容包罗万象,覆盖了不同学科、不同领域的信息资源。网络信息资源2、搜索引擎检索和利用1〕搜索引擎概念搜索引擎是一种能够通过Internet接收用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。它是一些在Web中主动搜索信息〔网页上的单词和特定的描述内容〕并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录效劳。网络信息资源2、搜索引擎检索和利用2〕搜索引擎的根本原理搜索引擎的原理可以看成三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。网络信息资源2、搜索引擎检索和利用3〕搜索引擎的检索技巧a〕使用关键词的技巧关键词〔Keywords〕是文献作者在标题、摘要、正文中所用的原词,是对表征文献主题内容具有实质意义的词语,或对揭示和描述文献主题内容来说是重要的词语。选取准确的关键词,对提高检索命中率的影响较大。网络信息资源3〕搜索引擎的检索技巧a〕使用关键词的技巧使用关键词检索时,首先应从复杂的搜索目标中提炼出最具代表性的关键词。其次,搜索条件越具体,搜索引擎返回的结果就越精确,有时多输入一两个关键词,效果就完全不同,因此在搜索中应学会使用两个以上的关键词搜索的方法。网络信息资源网络信息资源3〕搜索引擎的检索技巧b〕减号“〞的运用“〞的作用是为了去除包含特定的关键词但与检索目标无关的搜索结果,提高搜索结果相关性。假设在搜索结果中有很多不相关的结果,那么可用“〞减掉不相关结果的关键词网络信息资源3〕搜索引擎的检索技巧b〕减号“〞的运用例,检索小说“水浒传〞,输入“水浒传电视剧〞来进行搜索,查询的结果里就不会有水浒传电视剧的信息。需要注意的是,前一个关键词和减号之间必须有空格,否那么,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。网络信息资源3〕搜索引擎的检索技巧c〕利用双引号“〞进行精确匹配搜索使用双引号进行精确匹配检索,能缩小检索结果范围,提高查准率,得到的信息结果最少最精确。如,输入“黑龙江大学〞,可以得到与输入词完全匹配的结果否那么,搜索引擎就会将“黑龙江〞或“大学〞等词分别检索出来。网络信息资源3〕搜索引擎的检索技巧d〕停用词的应用停用词〔StopWords〕主要常见于英文搜索引擎中,指的是使用过于频繁的单词,如who、I、what、it、and、how、的、地等。搜索引擎不支持停用词的检索。如果在搜索的检索词中必须使用停用词,可以用加号“+〞来解决。如搜索影片名称“WhoamI〞时,其中“Who〞和“I〞是停用词,用“+〞号强制对其进行搜索,此时的搜索条件即+Who+am+I或将全部检索词用“〞引起来,进行精确匹配搜索。网络信息资源4〕常用的搜索引擎常用的中文搜索引擎a〕百度〔〕百度是全球最大的中文搜索引擎。2000年1月1日,百度公司创始人李彦宏、徐勇以120万美元投资创立了百度公司。同年10月,百度搜索引擎正式发布。百度采用基于内容和基于超链接分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度地保证了检索结果相关性。网络信息资源百度的网页搜索特色功能包括以下方面。〔1〕百度快照。每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照〞。当网站效劳器暂时出现故障或网络传输堵塞时,可以通过“百度快照〞快速浏览页面文本内容。因为百度快照只临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。网络信息资源网络信息资源百度的网页搜索特色功能包括以下方面。〔2〕专业文档搜索。很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档〔包括Word、Excel、PowerPoint〕、AdobePDF文档进行的全文搜索。要搜索这类文档,在普通的检索词后,加一个“filetype:〞文档类型限定,“filetype:〞后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。网络信息资源〔6〕专业文档搜索例如,查找厉以宁关于经济改革方面的经济学论文,输入“经济改革厉以宁filetype:doc〞,单击检索结果的标题,就可以直接下载该Word文档。也可通过百度文档搜索界面〔〕直接使用专业文档搜索功能。网络信息资源网络信息资源网络信息资源网络信息资源网络信息资源网络信息资源网络信息资源网络信息资源d〕天网搜索〔〕。由北京大学网络实验室开发的天网搜索引擎是国家“九五〞重点科技攻关工程“中文编码和分布式中英文信息发现〞的研究成果,于1997年10月29日正式在CERNET上提供效劳。2000年年初,成立天网搜索引擎新课题组,由国家973重点根底研究开展规划工程基金资助开发。网络信息资源网络信息资源常用的英文搜索引擎a〕Google〔〕1998年9月,Google创始人——美国斯坦福大学博士生LarryPage和SergeyBrin在斯坦福大学学生宿舍内共同开发了全新的在线搜索引擎〔Google〕,并于1999年创立Google公司。英语中没有Google这个词,它是数学名词googol的谐音,表示一个1后面跟着100个零。LarryPage和SergeyBrin选择了这个词,使它成为世界上最大、最快的搜索引擎。网络信息资源网络信息资源Google特色功能如下:〔1〕新词和生僻词定义效劳功能。Google表示,一些时髦的新词几乎总是先在网络上出现,因此推出了这一相应的俚语和新词搜索定义功能。在进行新词定义搜索时,输入单词“define〞〔定义〕后按空格键,之后是想要搜索定义的词语。英文单词“define〞也可用“whatis〞或“definition〞代替。网络信息资源网络信息资源〔2〕单词纠错。Google对英文单词拼写错误有纠错功能。例在写上文的时候,要用到英文单词“tutorial〞,记得好似是“tutorial〞,但不肯定,用Google一查,它马上提醒:“您要找的会不会是:tutorial〞,正是这个单词。网络信息资源〔3〕在线的英文活字典。Google可以帮助查找英语单词的解释或用法,在检索栏中只要输入查找的单词并单击“Google搜索〞按钮或按回车键,浏览器就会显示有关该单词的链接,单击这些链接,就会出现有关的信息内容,是一种真正方便、快捷的在线英文活字典。网络信息资源常用的英文搜索引擎b〕Scirus〔〕。Scirus是专门用于科技信息检索的目前互联网上最全面、综合性最强的搜索引擎之一,由荷兰Elsevier科学出版社开发,目前有1.67亿个网页。Scirus引擎的信息源主要有两局部:网页和期刊。网络信息资源Scirus搜索引擎的特点过滤非科学方面的信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论