信息检索课件1_第1页
信息检索课件1_第2页
信息检索课件1_第3页
信息检索课件1_第4页
信息检索课件1_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章第一章 信息检索概论信息检索概论2004喻萍第一章第一章 信息检索概论信息检索概论1.1 1.1 信息检索概念及其意义信息检索概念及其意义1.2 1.2 信息文献基本知识信息文献基本知识1.3 1.3 信息检索语言信息检索语言1.4 1.4 信息检索基本方法及步骤信息检索基本方法及步骤1.1 信息检索含义及意义信息检索含义及意义1.1.1 信息检索含义信息检索(信息检索(Information Retrieval)指从指从大量的信息集合中找出所需信息的过程与方法。大量的信息集合中找出所需信息的过程与方法。? 广义:包含信息储存和查找两部分广义:包含信息储存和查找两部分(Informati

2、on Storage and Retrieval)? 狭义:信息查找(狭义:信息查找(Information Search)1.1.2 信息检索能力培养的意义信息检索能力培养的意义?信息检索能力与信息素质信息检索能力与信息素质信息素质概念信息素质概念 :1974年美国信息工程协会年美国信息工程协会主席主席Paul, Zurkowski首次定义为:首次定义为:“利用大量的信息工具及主要信息源使问利用大量的信息工具及主要信息源使问题得到解答的技术和技能题得到解答的技术和技能”?美国美国 高等教育信息素质标准(高等教育信息素质标准(1998)具备明确信息需求的内容与范围的能力高效获取所需信息能客观、

3、审慎地评估信息与信息源个人或作为群体的一员能有效地利用信息以完成特定的任务获取与使用信息要符合道德与法律规范标准一标准一具备明确信息需求的内容与范围的能力?能够定义、并明确地表述信息需求能够识别各种潜在的信息资源的类型和形式能够考虑获取所需信息的代价和受益重新评估所需信息的性质和范围标准二标准二高效获取所需信息信息源分布(图书馆、网络资源、专业协会、研究机构等)?选用恰当的调查研究方法?信息检索系统中利用有效方法和检索策略(如关键词、相关术语、规范化语言、逻辑算符、命令语言)?标准三标准三能客观、审慎地评估信息与信息源?概括信息源的适用性评价和比较信息的可靠性、权威性、时效性综合主要观点的逻辑

4、统一、可查实性标准四标准四个人或作为群体的一员能有效地利用信息以完成特定的任务应用信息创造成果、完成项目(如完成课题报告、学位论文等)?为实现成果和目标修正学习过程?选用最有力的交流媒体和形式?标准五标准五获取与使用信息要符合道德与法律规范?识别并研究印刷型、电子型信息环境的隐私和安全免费和收费信息知识产权、版权合适的文献格式,引用格式等?信息素质教育包括的内容信息素质教育包括的内容1 信息意识教育信息意识教育2 信息能力教育信息能力教育3 信息道德教育信息道德教育?信息与经济、科技、生活的关系信息与经济、科技、生活的关系1.2 信息、文献基本知识信息、文献基本知识1.2 .1 信息、文献概念

5、信息: 1 音讯、消息2 通讯系统传输和处理的对象3 客观事物存在的方式及运动状态的表征。? 信息的基本属性: 普遍性、客观性、传递性、共享性、中介性、可储性、可知性、无限性。?文献:是人们用以记录和传播各种知识信息载体。载体形态如纸张、磁盘、光盘。缩微平片等。? 情报:被激活的那部分信息。1.2 .2信息、知识、情报、文献的关系信息信息知识情报文献1.2.3 文献等级文献等级一次文献(primary document):指作者以本人的研究成果为基本素材而创作或撰写的文献。?二次文献(secondary document):指对一次文献进行加工、提炼和压缩后所得到的报道性产物。检索工具书和网上

6、引擎是典型的二次文献。?三次文献(tertiary document):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的具体知识、数据。如大百科全书、辞典等。?知识产生记录一次文献二次文献三次文献传播利用研究、实验、实践、综合新知识的产生1.2.4 文献型科技信息源文献型科技信息源(一次文献)一次文献)a.科技图书:科技图书:世界年出版50万种。b.科技期刊科技期刊(periodical):年出版10万种,500万篇。c.科技报告:科技报告:报道(记录)研究和开发调查工作的成果或进展情况的一种文献类型,一般都编有号码,供识别报告本身及其发行机构。 报告是一种典型的机关团体出版

7、物。如美国政府工作报告: PB报告,NASA报告、 AD报告、DOE报告。年90万篇。d.会议文献:会议文献:指学术会议文献。年十万余篇。e.学位论文:学位论文:是高校研究生、毕业生为获得学位进行科学研究而写出的学术性论文博士学位论文中,常含有独创性的学术性文献资料f.专利文献:专利文献:专利是与产业活动密切相关的,因而其实用性非常强。根据专利的技术水平和应用情况,其类型有 invention(发明)、utility patent(实用新型)、和design patent(外观设计)等。年50万件。g.标准文献:标准文献:标准化主要包括三个方面:产品标准化,即产品质量要符合技术规定;零部件通用

8、化;产品规格化和系列化。1.2.5 二次文献类型(检索工具)二次文献类型(检索工具)1)目录。以书名、刊名、会议名等为单位编写。2)题录。如:200008568 我国食品与包装机械市场预测 刊田恒真(中国农机院食品研究所) /包装与食品机械。-2000, 18(1) 。-1-53)索引。如:机械加工 00003 00395 11009 14561-模型 00375-误差 18007 11456-发展 131754)文摘。如037840 Algorithm for fuzzy multi-criteria decision-making. This paper presents a new al

9、gorithm for solving the general fuzzy multi-criteria decision making(MCDM) problem involving fuzzy data expressed by means of linguistic terms. (Author abstract) 14 Refs,English.Yeh,Chung-hsing(Monash Univ,Clayton,Aust);Deng,Hepu. Proc IEEE Int Conf Intell Process Syst ICIP v.2.1998 Proceeding of Sy

10、stems,ICIPS. Part 2(of 2),Beijing,China,IEEE,Piscataway,NJ,USA,p1564-1568.1.2.6 三次文献三次文献(参考工具书参考工具书)概述概述一一 中国古代工具书简介中国古代工具书简介1)字词典使用部首法排序。如说文解字、康熙字典。2)韵书按韵编排汉字的字书称为韵书。如佩文韵府。3)类书类书是采集古代文献资料,按类别或韵母编排,以供寻检、征引使用的工具书。如宋太平御览、明永乐大典。4)政书政书是记载历代典章制度的史书。它搜集我国历代或某一朝代政治、经济、文化、军事等史料,分门别类,按时代先后顺序编排。如唐.杜右通典、元典章、明会

11、典、清会典等。二二近代参考工具书类型近代参考工具书类型1、字词典近代 词源、辞海、汉语大词典上海辞书出版社,1986年第一卷,自第二卷起改由汉语大词典出版社出版,共出12卷。共收词语37万条, 5 000余万字。2、百科全书百科全书是概述一切学科领域或者某一学科领域基本知识的具有权威性、知识性、检索性的大型工具书,被称为“工具书之王”。二二近代参考工具书类型近代参考工具书类型?中国大百科全书19781993年编,全书按学科或知识领域分为74卷,其中正文学科分73卷,总索引1卷。总条目7.8万条,总字数1.26亿字总插图近5万幅,其中彩图1.5万幅。不列颠百科全书3、年鉴、年刊、年报4、手册二二

12、近代参考工具书类型近代参考工具书类型5、名录经济机构名录 如世界企业500强。商品名录如美国进出口商品名录。地名录如世界地名录。人名录如当代中国经济学家录。67、资料汇编8、表谱、图录三三工具书的主要排检方法工具书的主要排检方法1、字顺排检法 形序法:部首法、笔画法、笔顺法、号码法 音序排检法:汉语拼音字母顺序排列法;西文字母顺序排列法;韵部排列法,中国古代按音编制的汉字检字法大都是按韵部排列的。2、分类排检法分类法是将图书资料按学科、事物性质等系统加以排列的一种方法,也是目前 世界各国应用最广泛的一种方法。?七分法,又称七略。产生于东汉时期的刘向、刘歆所编,定本13219卷。全部分为:六艺略

13、、诸子略、诗赋略、兵书略、数术略、方技略和辑略,略下分38种。?四分法,清代以来古籍编目常用的方法。以经、史、子、集四部排,经部下分10类,史部下分15类,子部下分14类,集部下分5类。总共四部,44大类,67子目,如四库全书总目200卷。?中国图书馆图书分类法三三 工具书的主要排检方法工具书的主要排检方法?杜威十进分类法国际十进分类法国际专利分类法3、主题排检法以代表文献主题内容的主题词为标识检索文献的途径,这类索引以主题词(标题词、关键词、叙词等)的字顺编排。三三 工具书的主要排检方法工具书的主要排检方法4、时序排检法常用于编制年表、历表、年谱等工具书方面。它按时间顺序先后排列的一种方法。

14、5、地序排检法常用于编制考查地理和地方资料工具书。1.3 信息检索语言信息检索语言A 作者描述文献外表特征的语言B 号码C 其他(书名、引文、出版社、出版日期等)a 分类语言检索语言描述文献内容特征的语言b 主题语言000 000 总论总论100 100 哲学哲学200200宗教宗教1.3.1 1.3.1 文献分类方法文献分类方法( (分类语言分类语言) )300300社会科学社会科学400400语言学语言学500500纯粹科学纯粹科学1 、杜威十进分类法、杜威十进分类法 (DDC)600600技术科学技术科学700700美术美术( Dawey Decimal Classification a

15、nd Related Index ) 800 800 文学文学是世界上比较流行,也比较权威的一种图书分类是世界上比较流行,也比较权威的一种图书分类900 900 历史历史方法。由美国图书馆学家麦维尔方法。由美国图书馆学家麦维尔杜威于杜威于 18761876年年首创,它由大类、门、纲、目、子目等组成。首创,它由大类、门、纲、目、子目等组成。它将全部学科的书刊分为九大类,用它将全部学科的书刊分为九大类,用 1到到9间的数间的数字表示,不属于这九类中的图书为第字表示,不属于这九类中的图书为第 0类。每一大类。每一大类下再分类下再分1到到9个子类,依此类分下去。个子类,依此类分下去。0 0 总论总论1

16、 1 哲学、心理学哲学、心理学2 2、国际十进分类法、国际十进分类法(UDC)UDC)2 2 宗教、神学宗教、神学3 3 社会科学、法律、社会科学、法律、行政行政UDCUDC已有已有2323种语言的版本。种语言的版本。4 4 语言学语言学5 5 数学、自然科学数学、自然科学6 6 应用科学、医学、应用科学、医学、UDCUDC的类目表主要由主表与辅助符号、辅助的类目表主要由主表与辅助符号、辅助工学、农学工学、农学表组成。表组成。UDCUDC的主表把全部知识分为十大的主表把全部知识分为十大7 7 艺术、美术、摄艺术、美术、摄门类,每一类下分大纲、目、分目。门类,每一类下分大纲、目、分目。UDCUD

17、C影、音乐、娱乐、影、音乐、娱乐、基本分类如基本分类如竞技竞技8 8 语言学、文学语言学、文学9 9 地理、传记、历史地理、传记、历史3、中国图书馆分类法中国图书馆分类法A 马克思主义、列宁主义、毛泽东思想马克思主义、列宁主义、毛泽东思想B 哲学哲学C 社会科学总论社会科学总论D 政治、法律政治、法律E 军事军事F 经济经济G 文化、科学、教育、体育文化、科学、教育、体育H 语言、文字语言、文字I 文学文学J 艺术艺术K 历史、地理历史、地理社社会会科科学学自自然然科科学学N 自然科学总论自然科学总论O 数学科学和化学数学科学和化学P 天文学、地球科学天文学、地球科学Q 生物科学生物科学R 药

18、学、卫生药学、卫生S 农业科学农业科学T 工业技术工业技术U 交通运输交通运输V 航空、航天航空、航天X 环境科学、劳动保护科学环境科学、劳动保护科学Z 综合性图书综合性图书TTBTB1TB1TGTB2TB2TB42THTB3TB3TETUTB9TB49TVTB4TB4TB47TB5TB48TB488TB9TB41TB482TB489T工业技术类中国分类法举例工业技术类中国分类法举例以T-工业技术大类下的TP类展开下位类如下:T 工业技术TP 自动化技术、计算机技术TP3 计算技术、计算机技术TP39 计算机应用TP393 计算机网络TP393.0 一般性问题TP393.01 计算机网络理论T

19、P393.02 计算机网络结构与设计从上表看出从上表看出分类号的变化体现了各学科体分类号的变化体现了各学科体系的从属关系,分类号位数每增加一位,则分系的从属关系,分类号位数每增加一位,则分类级别便低一级。类级别便低一级。如如TP39代表计算机应用,代表计算机应用,TP393类目是计算机类目是计算机网络,是网络,是TP39的下位类。的下位类。确定分类号的方法有以下二种:确定分类号的方法有以下二种:直接查找法直接查找法熟悉分类表,按学科体系从大类开始逐级查找熟悉分类表,按学科体系从大类开始逐级查找l l对于只存在一个主题的课题,方法就较简单。对于只存在一个主题的课题,方法就较简单。如如“机械手机械

20、手”。当要求的主题过于狭窄,没有相应类目。当要求的主题过于狭窄,没有相应类目存在,可归属在其上位类。存在,可归属在其上位类。l l对于包含有两个以上主题内容的课题,如对于包含有两个以上主题内容的课题,如“机机械手的控制系统械手的控制系统”涉及涉及“机械手机械手”和和“控制系统控制系统”两个两个主题概念,这时应考虑它们的主从关系,在这个课题中主题概念,这时应考虑它们的主从关系,在这个课题中研究的是仅针对机械手而言的控制系统,可以说是控制研究的是仅针对机械手而言的控制系统,可以说是控制系统在机械手中的应用,当研究某种理论、方法、工艺系统在机械手中的应用,当研究某种理论、方法、工艺等在某领域的应用时

21、,应分在其应用的类目,即等在某领域的应用时,应分在其应用的类目,即“机械机械手手”所在类目。所在类目。l l对有两个主题,又没有主次或应用关系的对有两个主题,又没有主次或应用关系的课题,则在检索相关文献时应分别在两个分类号或课题,则在检索相关文献时应分别在两个分类号或两个主题领域中查找。如加入两个主题领域中查找。如加入WTO对我国纺织业对我国纺织业的影响。的影响。间接获取分类号法间接获取分类号法当手头有现成的对口文献或通过其它方法如主当手头有现成的对口文献或通过其它方法如主题方法查到的对口文献,则可利用该文献标出的分题方法查到的对口文献,则可利用该文献标出的分类号,进行分类查找。类号,进行分类

22、查找。1.3.2 1.3.2 主题检索方法主题检索方法1 关键词2 叙词3 标题词属自然语言属规范化词汇? 关键词关键词?关键词检索为大多数计算机检索系统采用。使用直接来自文献或用户提问的一类检索语言。?优点:关键词检索文献既方便又准确,不受词表控制,能及时检索到最新概念的各类文献。可任意选取专指性强的词语,提高查准率。词量大。?缺点:容易产生的误检、漏检。原因有:1.取名的多样:同物异名、全名与简称、异称(学名、俗名、音译名。2. 构词的多样:派生词、单复数、拼写变体3. 大量的复合词? 规范化主题词(叙词、标题词)检索规范化主题词(叙词、标题词)检索?叙词是主题语言的高级形式。 是以较正规

23、和正式的科学名称为基础组织而成一种主题法检索标识系统。由在概念上不可再分的基本概念单元词汇组成,检索时可以利用这些单元词进行组配,以表达一个复杂的概念。叙词表作为检索过程必不可少的辅助工具,由检索工具出版单位编制,专书专用。是由二次文献编撰单位出版的限制使用的主题词体系。如:课题: 太阳能热水器研究汉语主题词表中正式主题是 太阳能利用、太阳能加热等代替。? 叙词表叙词表( (字顺表、等级表)字顺表、等级表)字顺表如字顺表如:acoustic wave velocityUF acoustic velocity NT ultrasonic velocity BT velocity TT veloc

24、ity RT acoustic dispersion acoustic impedanceCC A4300 A5140 DI January 1973 (Narrower Term)(Broader Term)Top TermRelated TermClassification CodeDate of Input?标题词标题词与叙词一样是以较正规和正式的科学名称为基础的一种主题法检索标识,但存在主、副标题词固定搭配,即属于先组式检索语言。如:MOTORS -control-manufacture?规范词汇优缺点规范词汇优缺点?规范化词主要对词义、词形和词的组合方式进行控制.优点:选择宽广的概念

25、,查全率高。避免由于同义词、近义词的存在而产生的漏检。缺点:使用词表,带有间接性。由于受控语言被限制在预先制定的概念或类目内,不能表示新的概念。词量有限,影响查准率。?选择规范主题词过程中应注意选择规范主题词过程中应注意:1 一般为事物的名称或过程2 具有实质意义的词3 适度专指性。避免泛指性词4 通用性有时不能只从字面上选词。需要时进行必要的替换、补充。如“运用计算机程序建立气候模式”应选计算机摸拟和气候模拟。1.4 信息检索基本方法及步骤信息检索基本方法及步骤1.4.1 文献检索基本方法工具法:也就是利用检索工具或计算机检索系统查找。它可分为顺查和倒查法两种。?追溯法:以文献后所附参考文献

26、为检索起点的检索方法。?循环法:工具法和追溯法交替使用。1.4.2 文献检索步骤:1 分析研究课题:分析研究课题的主题内容,所分析研究课题:分析研究课题的主题内容,所属学科及起始年代。属学科及起始年代。2 确定检索工具或检索系统。确定检索工具或检索系统。3 确定检索语言。确定检索语言。主题途径:主题途径:切忌仅依据课题名称确定主题词,应根据课题涉及地主要对象,研究手段,使用的方法、材料、条件、设备、研究的目的、用途作深入的分析,提取课题研究的主要事物概念 (整理出主题词)。如绿色包装研究;可持续发展若使用的检索工具要求规范化主题词,则查表选若使用的检索工具要求规范化主题词,则查表选词。词。分类途径:分类途径:根据检索工具使用的分类法查找合适的类目。作者、引文。作者、引文。以上途径如能多种配合,效果更好。5 查找原始文献线索及获取文献查找原始文献线索及获取文献项目名称:轻化工生产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论