第一讲 信息检索基础知识_第1页
第一讲 信息检索基础知识_第2页
第一讲 信息检索基础知识_第3页
第一讲 信息检索基础知识_第4页
第一讲 信息检索基础知识_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1信息检索与利用

杨婷E-mail:7578461@昆明理工大学图书馆2成绩评定总成绩=平时成绩(30%)(考勤与课堂作业相结合)

+

期末成绩(70%)(实习报告)3教学参考书:1.乔好勤,冯建福,张材鸿.《文献信息检索与利用》.武汉:华中科技大学出版社.2008.092.赖茂生等.《科技文献检索》(第二版).北京:北京大学出版社.1994年3.和正荣等编著.《信息检索与利用》.重庆:重庆大学出版社.2000年4.储荷婷等.《网络信息检索——原理工具技巧》.北京:清华大学出版社.1999年5.张惠惠.《信息检索》.北京:机械工业出版社.2000年6.张世良.《科技文献检索教程》.北京:北京图书馆出版社.1977年。。。。。。4本课程主要内容一、计算机信息检索基础知识二、图书馆中外文全文期刊数据库

的检索与利用三、专利或年鉴的检索与利用

5第一讲计算机信息检索基础知识1、信息检索的定义2、数据、情报、信息、知识、文献

的区别与联系3、信息检索原理及类型4、信息检索步骤5、信息检索语言6、计算机信息检索过程6

1.信息检索(InformationRetrieval)的定义

信息检索

是指将信息(文献信息)按一定的方式组织、存贮起来,并根据用户的特定需求,运用某种检索工具按照一定的方法查找所需信息的过程。信息检索系统的主要目标:就是检索出所有与用户查询相关的文献,并尽可能地避免检索出不相关的文献。72、数据、信息、知识、情报、文献的区别与联系82.1数据

数据的定义:一般被理解为未经整理的,可被判读的数字、文字、符号、图像、声音、样本等。不能被判读的符号、声音、图像,如计算机的乱码,则不能称作数据92.2信息

信息的定义:在特定背景下经过整理的,表达一定意义的数字、文字、符号、图像、声音、信号等。102.3知识知识定义的理解:

1)是理性的对信息进行加工处理;2)在信息这一原材料的基础上形成的见解、认识;3)要经过更加复杂的思维活动,对信息更深层次的加工,它需要主体根据自身已有的经验和掌握的信息对相关信息进行分析、筛选、总结和概括;

4)知识是比信息经过了更高层次的组织。知识分为显性知识(客观知识)和隐性知识(主观知识)112.4情报

情报的定义:情报既不等同于信息也不等同于知识,它是有明确目标的接受对象的那部分信息或知识,它最早是“对敌情和其他有关对敌斗情况进行分析研究的成果,是军事活动的重要依据,亦泛指一切重要情况的报道”。后来的情报学虽然将情报的外延扩大到非军事领域,但大都保留了它的目标明确性的内涵,即情报是被已知的需求者所寻求的知识或信息,所以,不管是信息还是知识,在特定条件下都可能成为情报。12数据、信息、知识、情报的关系图从数据到知识是一个转化过程的递进链,数据是形成信息的原材料,信息是形成知识的原材料。而信息和知识在特定场合下都可能成为情报。关系图:数据信息知识

情报132.5文献

1)文献的概念:是为了表达思想、学习、参考、贮存、交流的需要,通过一定的方式或手段、以一定的符号系统,将知识、信息记录在一定实物载体上,可作为一个单元处理并具备知识、信息存储、利用、传递功能的人工固态附载物。142)文献的类型:P:4-7

按文献加工程度划分:零次文献:是指著者直接通过观察、实验而获得的知识或数据,具有第一手意义的文献信息,它具备原创性和未正式公开两个特征。如私人手稿、信件、日记、机构内部报告、实验记录等一次文献:当研究组织或个人将研究成果发表在获得社会公开认可或经权威机构认定的公开出版物上时,这类文献即成为一次文献。如学术专著、期刊论文、专利说明书、学位论文等15二次文献:又称检索工具,是将大量、分散、无序的一次文献,用科学的方法进行加工、整理而产生的具有有序化、浓缩化特征的文献,如目录、题录、文摘、索引等。三次文献:指在利用二次文献的基础上,选用一次文献,经过综合研究和归纳分析形成的述评或综述性文献。如综述、述评、百科全书、字典、年鉴、手册等。16按文献载体形式分:印刷型:以纸张为载体,以印刷为记录手段而产生的文献。缩微型:以感光材料为载体,以缩微照相为记录手段而产生的文献。机读型:以磁性材料为载体,通过编码和程序设计,用

计算机可识别的机读语言和存贮知识的文献。声像型:以感光材料或磁性材料为载体,以感光或电磁

转换为记录手段而产生的文献。光盘型:以高密度激光存贮技术为基础产生的文献。17按文献出版类型分:图书、期刊、报纸、专利文献、会议文献、标准文献、学位论文、科技报告、政府出版物、产品资料等。183)文献信息的特征:外部特征:

主要指文献的表面信息,如题名、著者、机构等。内容特征:

主要指文献内容中所论述的主题、观点、见解和结论等。193、计算机信息检索原理及类型20信息检索原理图213.1信息检索原理存储过程:

人们把大量的文献,根据其外部特征和内容特征进行归类、标引,形成一定的检索系统。检索过程:

用户根据检索需要,对检索课题进行主题分析,把所涉及的检索范围明确起来,形成能代表信息需求的主题概念,并将主题概念转换成信息检索语言标识,然后与存储在系统中的检索标识相比较,两者一致时,才能达到检索目的。223.1信息检索原理检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。233.2

信息检索的类型数据型信息检索事实型信息检索文献信息检索全文检索24数据型信息检索:凡是利用参考工具书、数据库等检索工具检索包含在文献中的某一数据、参数、公式或化学分子式等,统称为数据信息检索。25事实检索:凡是利用百科全书等检索工具从存储事实的信息系统中查找出特定事实的过程称为事实信息检索,其检索结果是基本事实。事实型信息检索以某一客观事实为检索对象,其检索结果主要是客观事实或为说明客观事实而提出的资料。这些数据往往需要进一步处理,才能得出与事实相应的结论。26文献信息检索:是一种相关性检索,检索的结果是文献线索,还必须进一步查找才能检索到有关的一次信息。凡是利用目录、文摘、索引、题录二次文献查找某一课题、某一著者、某一地域、某一机构、某一事物的有关信息以及这些信息的出处和收藏单位等,都属于文献信息检索范畴。27全文检索:它是指检索系统中存储的是整篇文章乃至整本书。全文检索是直接查询文献原文而不是文献线索,包括检索一次文献和三次文献,主要是针对全文数据库进行的检索行为。28检索工具的介绍1、目录(Catalog):是以单独出版物作为报道单位,揭示出版物外部特征的检索工具。主要用于检索国内图书、标准、期刊。2、题录(Title):是以单篇文献作为报道单位,揭示文献外部特征的检索工具。主要用于检索国内外报刊论文、科技资料、会议文献、科技报告、科技译文、学位论文、专利等。3、文摘(Abstract):是描述文献外部特征和内容特征的检索工具。检索国内外出版的期刊论文、会议录、专利文献等各类型文献的检索刊物。4、索引(Index):将文献中某些重要的,具有检索意义的内容特征标识或外部特征标识按某种顺序排列并注明文献条目线索的检索工具29百科全书

百科全书:百科全书(encyclopedias)是检查知识的工具。它汇集人类所积累的一切学科知识,包括社会科学、自然科学和工程技术的专门术语、重要名词(包括人名、地名、物名、事件名称)等,列出条目,分门别人地加以编排的一种供查检知识的检索工具。百科全书是汇集人类各种门类或某一门类知识分条编排,并详细系统的加以叙述和说明的大型工具书,集各种类型检索工具之大成,被称为“工具书之王”。30年鉴

年鉴:是查考年内发生的事件、数据、统计资料以及某些动向性问题的工具书。一般是前一年的。是一种独立的特殊类型的工具书,它按年代汇编资料和按年度连续出版,是提供政治时事、新闻人物、图像资料学术动态、研究进展以及成果、统计资料而编辑出版的重要工具书,是“知识密集、信息密集、人才密集型的权威性资料性工具书”。31手册

手册:是汇集某一领域的基础知识、基本数据和资料的工具书,也称指南、便览、要览、大全等。大部分是侧重于日常学习、工作、生活的一般知识,如《读报手册》、《中国近代史知识手册》、《文言文学习手册》、《出版工作手册》等等,另一部分是为学习和研究提供资料而编写的,如《美学向导》、《联合国手册》、《人民手册》(实为年鉴)及中、外社会科学手册等等。即一部分属词典性质,一部分属指南、年鉴、便览性质。后者的最新版本往往反映当代科学水平和收录了大量科学研究资料。32类书

类书:类书是辑录多种门类或某一门类资料,按一定的方法编排,用于查检、征引、相关信息的工具,特别是中国古代类书,它辑录各种古代文献中的史实典故、名物制度、诗赋文章、骈词丽语等资料,是我国珍贵的文化遗产,也是查检、征引、校勘或辑佚古典文献的一种重要依据。类书与百科全书有不同,百科全书是以条目形式,对各类知识做概述性介绍;类书则是从前人积累的文献典籍中,选录最有价值、最具有代表性的整部、整篇或整段原始资料,分门别类加以汇编,类书大多数是将词目按天、地、人、事、物分类编排或按韵部编排,各条目下一般按“先叙事”,“后诗文”的顺序,罗列摘自各种文献的有关原始资料。33政书

政书:政书是检索古代典章制度的工具,它搜集、汇集历代或某一朝代有关典章制度沿革和社会政治、经济、军事、法律、文化发展状况方面的文献,并分门别类地加以编排与叙述。具有制度史、文化史和学术史的性质。344、信息检索语言

P:12-1935(1)

信息检索语言的概念

信息检索语言是信息组织与信息检索时所用的语言,也称文献检索语言、情报检索语言等。信息资源在存储过程中,其内容特征(分类、主题)和外部特征(书名、刊名、题名、著者等)按照一定的语言来加以表达,检索文献信息的提问也按照一定的语言来表达,为了使检索过程快速、准确,检索用户与检索系统需要统一的标识系统,这种在文献信息的存储与检索过程中,共同使用、共同理解的统一标识就是检索语言。36(2)

信息检索语言的分类

P:12-131.按描述文献特征划分1)描述文献外部特征的检索语言:是以文献信息上标明的,显而易见的外部特征,如题名、著者姓名、机构名称、文献号和文献出处等作为文献的标识和检索的依据。2)描述文献内容特征的检索语言:包括分类语言和主题词语言。内容特征语言与外部特征语言相比较,它在揭示文献特征与表达信息提问方面,具有更大的深度,在用来标引与检索信息时,更需要依赖标引人员与检索人员的智力判断。372.按标识组配方式划分1)先组式检索语言:是指在实施检索前,检索词已被预先组配好,检索时,用户只能严格按照预先设定的检索词去查找信息而不能任意组配。如,分类索引中的各级分类款目、标题索引中的各种标题词都不能任意变更秩序进行组配。2)后组式检索语言:是指在检索前检索词在检索系统中没有被预先组配,检索时可以任意对某些词进行组配,构成所需要的检索概念。如单元词、叙词、关键词就属于这一类,其组配的基本原理:具体概念可通过一般概念组配而成。如,要检索有关“多媒体视频点播”方面的资料,可以把“多媒体”和“视频点播”进行组配。383.按是否受控划分1)人工语言:是对检索语言的概念加以控制和规范,即把检索语言中各种同义词、多义词同形异义词等进行规范化处理,使每个检索词只能表达一个概念。如分类体系语言中的分类款目、标题词语言中的标题词都属于人工规范语言。2)自然语言:是与人工语言对应的一个概念,就是对检索语言中的同义词、多义词等不加处理,取其自然状态,因此称为自然语言。例如,单元词和关键词就属于这一类。394.按结构划分

1)分类检索语言:运用概念划分的方法,按文献内容所属学科、专业性质的逻辑次序,以分类号为标识,用来存贮文献和检索文献的一种信息标识系统。

(如中图法)40中国图书馆分类法《中图法》(五大部22大类)马列主义、毛泽东思想、邓小平理论哲学自然科学社会科学综合性图书41中国图书馆分类法O:数、理、化P:天文、地球科学Q:生物科学R:医药、卫生S:农业科学T:工业技术U:交通运输V:航空航天X:环境科学Z:综合性图书二十二个基本大类A:马列主义、毛泽东思想、邓小平理论B:哲学、宗教

C:社会科学总论

D:政治、法律E:军事F:经济G:文化、科学、教育、体育H:语言、文字I:文学J:艺术K:历史、地理N:自然科学总论

42T工业技术TB一般工业技术TD矿业工程TE石油天然气工程TF冶金工业TG金属学金属工艺TH机械仪表工业TJ武器工业TK动力工业TL原子能技术TM电工技术TN无线电电子学电讯技术TP自动化技术计算技术TQ化学工业TS轻工业手工业TU建筑科学TV水利工程43TH机械仪表工业TH11机械学(机械设计基础理论)TH12机械设计、计算与制图

TH121标准、规格

TH122机械设计

TH123机械计算

TH123.1数学计算

TH123.2体积与重量计算

TH123.3强度计算

TH123.4应力计算

TH124机械公差、配合与技术测量

TH126机械制图

TH128机械模型TH13机械零件及传动装置TH14机械制造与材料

……

442)主题法检索语言:是另一种从内容角度标引和检索信息资源的方法,它不像分类法以学科体系为中心,而是利用语词来表达信息资源中论述的主题概念。

分标题词语言、关键语言、叙词语言45标题词语言:是指用以描述文献主题内容的经过规范化处理并具有固定组配关系的名词性术语(包括词组和短语)。以标题词为标识来存贮和检索文献的信息标识系统称为标题词语言。这是最早出现的一种按主题来标引和检索文献的主题词语言,与体系分类语言同属先组型信息检索语言,但它不用分类号而改用语词作为文献标识。是一种先组配式信息检索语言。46关键词语言:是指从文献的篇名、文摘和正文中抽出的对表达文献主题有实质意义,并在揭示和描述文献主题内容上起关键作用的词和词组。使用关键词对文献信息进行描述、建立主题检索系统的方法称关键词法。关键词属于自然语言,它不经规范化处理或仅受极少量的规范化处理。如网易、搜狐等搜索引擎,中国科技期刊数据库等也使用关键词法来组织信息。由于关键词法词语不规范,影响了文献信息的查全率和查准率。47

叙词语言:是将自然语言的语词概念,经过规范化和优选处理,通过组配来标识文献主题的方法。叙词具有概念性、描述性、组配性的特点。叙词法综合了多种信息检索原的原理和方法,采用灵活的概念组配,并在词与词之间建立参照系统。叙词法适用于计算机和手工检索系统,是目前应用较广的一种主题检索语言。如CA、EI、《中国分类主题词表》等就是采用了叙词法进行编排。48自然语言法:自然语言法是不进行标引,直接利用计算机的功能,通过自然语言中的词汇或词组组配对文本形式的信息资源进行匹配检索的方法。这种方法又称文本检索或全文检索。全文检索可以是整个文本,包括文章、专利、或整本书,也可以是标题、文摘等。近年来,随着电子文本的普及,全文检索逐渐成为检索的重要方法。495、信息检索步骤

P:22-2550(1).分析检索课题,掌握检索课题要求:(注意事项)1)分析检索课题所属学科范围:2)确定检索的年代范围:3)分析所需文献类型51(2).选择检索工具:(注意事项)1)检索工具报道文献的学科专业范围2)检索工具所报道的文献类型3)检索工具所收录的文献语种4)检索工具提供的检索途径52(3).确定检索途径:(注意)1)分类途径:是按文献所属的学科类别来检索文献的途径。2)主题途径:是从文献的主题概念出发,按确定的主题词来检索文献的一种途径。3)题名途径:是根据文献名称来检索文献的途径。4)著者途径:是通过已知著者的名称来检索文献的途径。5)号码途径:是通过已知的号码(专利号、标识号、报告号)来检索文献的途径。6)其他途径:在检索某些学科或专业的文献时,有一些特殊的检索途径。如《化学文摘》中的分子式检索。53(4).选择检索方法:(注意以下几种检索方法)P:231)常用法:依赖检索工具查找文献资料的方法,又分以下几种方法。顺查法:即在时间上由远而近地查找。如查某一专题资料,先了解其渊源,而后了解其发展,最后了解其现状和当代发展水平。这种方法有利于了解研究课题的历史背景和产生发展的情况,通常在科研课题立项查新、科研成果鉴定查新和专利查新时有此方法。检索时间跨度一般规定为10年,检索范围要根据研究课题的具体情况而定。倒查法:与顺查相反,由近而远地查找。如查某一课题研究资料,是先查能够反映最先进水平的资料,然后查以往出版的资料。这种方法也可以用于课题查新,但主要用来作规划和掌握研究动态时使用。抽查法:是一种针对研究课题发展的特点,抓住学科发展迅速、发表文献较多的年代进行查找的方法。542)追溯法(回溯法):这种方法不是用检索工具书来检索,而是以某一现有文献后面所附的“参考文献”为线索,逐一追溯查找的方法。这是一种传统的获取文献信息的方法,具有一定的偶然性。553)综合法:即前面两种方法的结合。先用常用法或追溯法法查得一批资料,然后用追溯法或常用法查得一批资料,两者交叉使用,直至满足为此。

以上三种基本方法中,首先要用常用法,第二种最好用作补充,第三方法比较全面。56(5).优化检索提问与策略编制检索表达式要综合、灵活地运用计算机检索系统提供的组配、限定、加权、扩展、截词等多种检索功能构造表达式,获得第一次查检结果,若满意度高则可不调整检索策略,若不满意或满意度不高就需作调整,以获得最佳的检索效果。57(6).索取原始文献根据文献线索:(注意以下文献特征)1)图书(专著、普通图书馆、教科书、工具书、汇编、会议录、报告、标准等)2)期刊论文3)会议论文4)专利文献5)科技报告6)学位论文……查阅各种馆藏目录或联合目录,即可得到原文。6、计算机信息检索过程58

不满意

计算机检索过程图原始文献主题分析

标引开始分析检索课题选择数据库选择检索字段确定检索词构建检索式数据库输出检索结果获取原文检索满意评价检索结果调整检索策略60(1)

分析检索课题

分析检索课题的实质就是明确检索需求。首先应了解检索课题属于什么学科范围,以便选择数据库;其次应了解国内外采用什么技术术语,以便拟定检索词;再次要了解检索目的是广泛地调研发展现状(要查全),还是要解决什么具体技术问题(要查准),是基础理论研究(要查学术性期刊、会议论文、学位论文),还是产品开发、工艺改造的应用性研究(要查报告、专利、标准)等等。61(2)

选择数据库数据库的选择原则可用4个C来概括:Content,Coverage,Currency和CostContent:指数据库的内容,涉及数据库的学科范围、科技含量、数据库类型(如数值、事实、文摘、全文等)、数据来源(如期刊论文、会议论文、专利文献、科技报告等)Coverage:指数据库的规模,涉及数据库覆盖的时间范围、地理范围、机构来源、文献量等Currency:指数据库的更新及时性,涉及数据库的更新周期或频率Cost:指数据库的使用费用,不同的数据库或同一个库的不同连接方式收费均不同62(3)

选择检索字段

选择检索字段也就是检索入口、检索途径或检索点。什么是检索字段?论文和所有文献资源都会被标记一些字段,例如标题、作者、发表时间等,这些字段是机器识别论文和资源的“线索”,而这些线索中可以被用来检索的被成为“检索字段”。在特定检索字段里检索,会提高检索效果。检索字段的选择取决于两个方面:一个是数据库提供哪些可检字段,另一个是检索用户掌握了哪些已知条件。一般而言,在已知检索课题外部特征的前提下,可优先选择反映文献外部特征的字段为检索字段;在不知检索课题外部特征的情况下,选择课题内容特征字段进行检索,检索时通常遵循最专指字段优先的策略,例如题名字段,逐步由专而泛。63(4)

确定检索词

这里所说的检索词泛指一切检索标识。现以主题法为例,介绍确定检索词的步骤:

A.从检索课题中提取检索概念检索课题是一段文字表述,其中包含了一至若干个检索概念。例如要检索“有关微波炉的资料”,则检索概念就是“微波炉”;要检索“用于微波炉的磁控管方面的资料”,则其检索概念就是“微波炉”和“磁控管”。

对于包含若干个检索概念的检索课题,则可以采用分析法或切分法来提取检索概念.64分析法:分析法是建立在检索用户对检索课题所涉及的专业较为熟悉的基础上,特别适用于主动发生的检索行为它通过对检索课题(或检索需求)的深入分析,列出检索课题研究的对象,要解决的问题,为了解决问题所采用的方法、手段或设备,研究工作所依靠的理论、基本原理,该研究的应用领域和研究的时空范围等要素,从而将检索课题分解为单个的检索概念。例如,某海水淡化设备生产厂,欲开发适用于小型船舶(如渔船)的海水淡化设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论