文献检索与论文写作-1课件_第1页
文献检索与论文写作-1课件_第2页
文献检索与论文写作-1课件_第3页
文献检索与论文写作-1课件_第4页
文献检索与论文写作-1课件_第5页
已阅读5页,还剩339页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节信息一、信息的概念哈特莱:信息是选择通信符号的方式申农:信息是使不确定性消除的某种东西维纳:信息是我们适应外部世界,并把适应反作用于外部世界的过程中同外部世界进行相互联系、相互作用、相互交换的一种内容文献检索与论文写作_1第一章绪论《中国大百科全书》:狭义:用来消除对客观事物认识的不定性的东西,是符号、信号或消息所包含的内容。广义:本体意义说,信息泛指一切事物(物质的、精神的)运动的状态和方式,包括事物内部的状态和方式以及与外部联系的状态和方式。认识论意义说,信息是关于事物运动状态和运动方式的反映,它可以用来消除人们认识上相应的不确定性。文献检索与论文写作_1第一章绪论二、信息的特点

1、依附性2、传递性3、共享性4、价值不确定性5、可开发性6、可存储性7、时效性文献检索与论文写作_1第一章绪论三、相关概念1、数据是未经整理,可判读的描述事物特征的符号序列,记录或载荷信息。如:图书馆2011年上半年电子期刊利用人数2203004566117238311月2月3月4月5月6月信息:在特定背景下,经过整理,能够表达一定意义的一组数据。文献检索与论文写作_1第一章绪论2、知识是人们对客观事物存在和运动规律的认识。如:一个苹果+一个苹果=二个苹果一间教室+一间教室=二间教室

……1+1=2

知识是信息的一部分,即反映客观世界规律性认识的那部分信息才是知识文献检索与论文写作_1第一章绪论3、情报《辞海》《辞源》:“战时关于敌情之报告”情——情况报——报道、交流、传递通常的解释:为解决特定问题,传递给特定对象的有用知识,具有知识性、针对性、传递性、及时性。情报是特定的知识,是知识的一部分。文献检索与论文写作_1第一章绪论4、文献《论语》“八佾”古代:文——典籍献——贤者现代:记录有知识的一切载体。具体讲,用文字、图形、符号、声频、视频等手段记录下来的人类知识的一切物质载体。两个要素:知识物质载体文献检索与论文写作_1第一章绪论5、资料广义上,对人有帮助的物质材料。狭义上,是对生产、科研、教学、管理决策起参考借鉴作用的文献。如:写论文查找的相关资料文献检索与论文写作_1第一章绪论请思考:信息、数据、知识、情报、文献和资料这六者之间的关系是什么?文献检索与论文写作_1第一章绪论第二节信息源与信息资源一信息源

1、概念产生信息的事物,信息的生成源。文献检索与论文写作_1第一章绪论2、分类按照来源形式分:

1)个人信息源

2)实物信息源

3)文献信息源

4)数据库信息源

5)组织机构文献检索与论文写作_1第一章绪论按照生产过程分一次信息源二次信息源三次信息源文献检索与论文写作_1第一章绪论一次信息:一次文献是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,也常被称为原始文献(或叫一级文献),其所记载的知识、信息比较新颖、具体、详尽。文献检索与论文写作_1第一章绪论一次文献的特点:一是内容具有独创性。二是内容叙述具体、详尽,有参考学习利用价值。三是一次文献数量庞大、分散在期刊、论文集、图书、会议论文、学文论文等等各种文献中,检索困难。文献检索与论文写作_1第一章绪论二次文献:二次文献又称二级次文献,是对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成简介、提要或文摘,并按照一定的学科或专业加以有序化而形成的文献形式,如目录、文摘杂志(包括简介式检索刊物)等文献检索与论文写作_1第一章绪论二次文献的特点:1.浓缩性,是对原始文献内容的浓缩,是情报工作的重要工具,成为一种信息文体;2.汇集性,二次文献经过情报工作者加工,把有关内容汇集在一起,能比较全面地反映某个学科、专业或专题在一定时空范围内的文献线索;

3.系统性,由于二次文献是经过情报工作者加工,所以它能系统地反映某个学科、专业或专题在一定时空范围内的最新研究成果文献检索与论文写作_1第一章绪论三次文献:指对有关的一次文献、二次文献进行广泛深入的分析研究之后综合概括而成的产物,人们常把这类文献称为“情报研究”的成果,包括综述、专题述评、学科年度总结、进展报告、数据手册、以及文献指南等。文献检索与论文写作_1第一章绪论注:一次文献和三次文献都融入了作者的智力劳动,是信息分析的过程。而二次文献只是信息有序化的过程,是信息加工的过程。文献检索与论文写作_1第一章绪论二信息资源的概念狭义:指信息本身。广义:指信息及其相关因素的集合。具体讲:即信息及信息的收集、加工、存贮、处理、传输和利用相关的技术、设施、资金和人。文献检索与论文写作_1第一章绪论

三信息源与信息资源信息源包括信息资源,信息资源是其中的一种信息源。但是,信息资源是有用的并且经过组织、有序的、可存取的信息的集合,并非所有的信息源都是信息资源。因此,信息资源一定是信息源,信息源不一定是信息资源。文献检索与论文写作_1第一章绪论第三节信息素质一、信息素质概念这一概念是1974年由美国信息产业协会的主席保罗·泽考斯基首次提出。“利用大量的信息工具及主要信息源使问题得到解决的技能”文献检索与论文写作_1第一章绪论内涵:一是解决问题需要信息。二是具有利用信息的技能。三是利用信息能够解决问题。举例:要买房子的问题???文献检索与论文写作_1第一章绪论信息素质不仅蕴含着客观性发掘和利用信息的基本技能,还包括主观性认识和判断信息的基本品质。主要包括信息意识、信息能力和信息道德

文献检索与论文写作_1第一章绪论二、信息意识

对信息具有特殊的、敏锐的感受力和长久的注意力,是人对各种信息的自觉心理反应。举例:就业信息敏锐的感受力科学研究长久的注意力文献检索与论文写作_1第一章绪论三、信息能力具体包括信息获取能力、信息评价能力、信息组织能力、信息利用能力和信息交流能力。

信息获取能力:利用现有信息资源和检索工具,查找并获取所需信息的能力。文献检索与论文写作_1第一章绪论信息评价能力:对信息进行筛选、判断、甄别和评价的能力。信息组织能力:对无序的信息,根据一定的规则和方法,使其成为有序的信息。信息利用能力:对掌握的信息进行深层次的加工,从中获取所需的特定信息,进而产生新的信息的能力。信息交流能力:交换信息和传递信息的能力。文献检索与论文写作_1第一章绪论四、信息道德人们在信息活动中应遵守的行为规范,如保护知识产权、尊重个人隐私、抵制不良信息等。文献检索与论文写作_1第一章绪论1、处理好信息产权和信息共享的关系。2、处理好信息准确性和信息自由的关系。3、抵制信息犯罪,信息窃取和盗用、信息敲诈和勒索、信息攻击和破坏、信息污染和滥用等等。文献检索与论文写作_1第一章绪论五、信息素质评价标准:美国:《美国高等教育信息素养能力标准》英国:“信息素养的7个支柱模型”澳大利亚:《澳大利亚信息素养标准》文献检索与论文写作_1第一章绪论六、信息素质教育指为启发人的信息意识、提高人的信息能力、提升人的信息道德水平所进行的一系列社会教育和培训活动。目的不仅是培养人们的信息检索技能和计算机应用技术,更重要的是培养人们对现代信息环境的理解能力、应变能力以及运用信息的自觉性、预见性和独立性,从而提高人们的综合素质。文献检索与论文写作_1第一章绪论1、教学内容基础层次:图书馆入馆教育、计算机网络基本知识等普通层次:信息检索、信息加工等高级层次:信息分析、知识管理等文献检索与论文写作_1第一章绪论2、教学模式(1)基于资源的协作式教学模式(2)基于问题的情景教学模式(3)自主学习模式(4)参与式教学模式文献检索与论文写作_1第一章绪论练习:以小组为单位,依据《美国高等教育信息素养能力标准》的评价指标,设计《常州大学大学生信息素质》的调查问卷。文献检索与论文写作_1第二章信息检索基础原理第一节信息资源检索概述一概念与类型1、概念广义和狭义文献检索与论文写作_1第二章信息检索基础原理

从广义上讲,信息资源检索包括两个过程,一是信息资源的存储,既是对有关信息进行选择,并对信息特征进行著录、标引和组织,建立信息数据库的过程。二是信息资源的检索,既是根据提问制定检索策略和表达式,利用数据库查找信息资源的过程。从狭义上讲,信息资源检索指后部分。文献检索与论文写作_1第二章信息检索基础原理2、类型按检索结果内容划分:文献信息检索,数据信息检索,事实信息检索。文献检索与论文写作_1第二章信息检索基础原理文献信息检索:以文献原文为检索对象的一种检索。通常通过目录、索引、文摘等二次文献,以原始文献的出处为检索目的,可以向用户提供原文献的信息。举例:图书馆的书目查询系统文献检索与论文写作_1第二章信息检索基础原理数据检索:以文献中的数据为对象的一种检索。这种检索将经过选择、整理、鉴定的数据存入数据库中,根据需要查询处理,以回答某一问题。这些数据包括物理性能常数、国民生产总值统计数据、外汇之处等等。常用的工具书有年鉴、地方志等。举例:1996年广州人口和面积状况文献检索与论文写作_1第二章信息检索基础原理事实检索:以文献中的事实为对象,检索某一事件发生的时间、地点或过程。主要使用的工具书有年鉴、大事记、百科全书、史料汇编等。例如:“安史之乱”的相关材料。文献检索与论文写作_1第二章信息检索基础原理3、信息检索示意图信息源主题概念数据库检索标识命中文献信息需求主题概念信息检索语言检索提问文献检索与论文写作_1第二章信息检索基础原理二、信息检索的发展阶段1、脱机检索阶段(1954-1964)2、联机检索阶段(1965-1991)3、网络化联机检索(1991至今)文献检索与论文写作_1第二章信息检索基础原理

1946年世界上第一台计算机问世后,在50年代初就应用在信息检索的领域。脱机检索是用户不与检索系统发生直接联系,只需把检索要求送往检索中心,由检索人员进行文献检索的一种检索方式。文献检索与论文写作_1第二章信息检索基础原理1965年美国系统发展公司研制成功联机情报检索软件ORBIT,开始了联机检索阶段。与此同时,美国洛克希德公司研制成功了Dialog检索系统,至今,任然为世界上最著名的信息检索系统。文献检索与论文写作_1第二章信息检索基础原理第二节信息检索方法和策略一、传统信息检索的一般方法1、常规检索方法又称直接法,是直接利用检索系统检索文献信息的方法。又分为顺查法、倒查法和抽查法。文献检索与论文写作_1第二章信息检索基础原理(1)顺查法按照时间的顺序,由远而近检索文献的方法。这种方法能收集到某一课题的系统文献,适用于较大课题的文献检索。例如:已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查。文献检索与论文写作_1第二章信息检索基础原理(2)倒查法由近及远,从新到旧,逆着时间的顺序进行文献检索的方法。此法的重点是放在近期的文献上。文献检索与论文写作_1第二章信息检索基础原理(3)抽查法针对项目的特点,选择有关项目的文献信息最可能出现或者最多出现的时间段,进行重点检索的方法。这种方法较少的时间获得最多文献。文献检索与论文写作_1第二章信息检索基础原理2、回溯检索法又称引文法,是利用已有文献末尾所附的参考文献进行追溯查找的方法,是一种跟踪查找的方法。文献检索与论文写作_1第二章信息检索基础原理3、循环检索法又称交替法,是交替使用常规检索方法和追溯检索方法的方法。注意:在实际检索中,要视条件的可能和课题的需要来选择相应的检索方法文献检索与论文写作_1第二章信息检索基础原理二、计算机信息检索的策略1、最专指面优先策略是指检索时首先查找所有概念组面中最专指的一个概念组面,然后依据用户需求及初步检索结果,决定是否需要加入以及怎样加入其他的概念组面。文献检索与论文写作_1第二章信息检索基础原理

如果命中文献数量远远大于用户期望值,或者初步检索的范围过于宽泛,则要用AND或NOT加入其他的概念组面,或者条件更加严格。如果命中文献数量小于用户期望值,或者初步检索的范围过于狭窄,则用OR加入其他的概念组面,或者条件更为宽松。如果命中文献数量接近用户期望值,且结果也满意,就结束本次检索;倘若结果不理想,要调整检索。文献检索与论文写作_1第二章信息检索基础原理2、积木式策略是指检索时首先逐一查找各个概念组面,然后将各个组面组配起来,得到最终的检索结果。

缺点:检索结果不理想时,不知问题出在哪里。文献检索与论文写作_1第二章信息检索基础原理3、引文珠形增长策略是指首先以一个较为核心的概念组面进行试检验,并仔细浏览初步的检索结果,尤其是特别符合用户需要的文献记录,从中选择更多、更合适的检索词再进行检索,然后再浏览命中文献,从中选择检索词,接着检索,如此反复操作,直至得到理想检索结果。文献检索与论文写作_1第二章信息检索基础原理4、连续分割策略是指检索时首先建立较大的初始文献集,然后利用各种检索的限制,逐步缩小检索范围,直至符合用户需要为止。文献检索与论文写作_1第二章信息检索基础原理三、信息检索的操作步骤1、分析检索任务2、选择检索工具3、确定检索途径4、选择检索方法5、制定检索策略6、获取检索结果分析研究课题的主题内容、学科范围,然后分析出所需要信息的主题概念及其特征,提取关键词、涉及语种、分布地域、年代范围、有关著者和机构等作为检索词,再确定课题对查新、查准、查全的指标要求。(1)目录:著录一批相关图书或其他类型的出版物,并按照一定次序编排而成的一种检索工具。(2)索引:记录一批图书、报刊等所载的文章篇名、著者、主题、人名等,并表明出处,按一定次序组织起来的一种检索工具。(3)文摘:以提供文献内容梗概为目的,不加评论和补充解释,简明记述文献内容的短文,并按一定的方法编排的检索工具。(4)百科全书:概述人类一切门类或某一门类知识的完备工具书。(5)年鉴:按年度汇集一定范围的重大事件工具书。(6)手册、名录:手册是汇集专业知识的工具书;名录是提供有关(人名、地名、机构名)等信息的工具书。(7)词典(字典)(8)表谱、图录:表谱是采用图表、谱系形式编写的工具书;图录就是地图目录。(9)类书、政书:类书是一种古典文献工具书,使中国古代特有的工具书;政书是中国古代记述典章制度的图书。确定检索词选用主题词选用专业术语选用同义词或相关词文献检索与论文写作_1第二章信息检索基础原理第三节信息检索效果一、信息检索的评价指标1、查全率2、查准率

查全率和查准率是美国学者佩里和肯特在20世纪50年代最先提出的。是信息检索效果评价的两个指标。文献检索与论文写作_1第二章信息检索基础原理相关文献非相关文献检出文献未检出文献abcd文献检索与论文写作_1第二章信息检索基础原理查全率=a/a+c*100%查准率=a/a+b*100%注意:理论上,利用公式对每一次信息检索,都可计算出查全率和查准率,对检索效率做出定量化的评价。但在实际量化的操作中,根本不可能浏览所有的文献信息,未被检出的相关文献数量和文献总量等都很难统计。文献检索与论文写作_1第二章信息检索基础原理查全率和查准率的相互关系一个理想的检索系统,应是R=1、P=1。但实际上是不可能的。一般说来,二者之间存在着反变关系,即:

若要提高查全率,查准率往往就会下降;若要提高查准率,查全率又就会下降。(二者相互制约)文献检索与论文写作_1第二章信息检索基础原理R与P的关系可由下图描述:(称为R-P图)文献检索与论文写作_1第二章信息检索基础原理提高查全率的方法:扩大检索课题的目标,使用主要概念,排除次要概念跨库检索逐步扩大检索途径的检索范围取消限定条件降低检索词的专指度,使用上位词或相关词补充到检索式外文单词使用截词检索,中文使用更简短的检索词文献检索与论文写作_1第二章信息检索基础原理提高查准率的方法:精确确定检索课题的目标,使用专业词汇选择专业性检索工具逐步缩小检索途径的检索范围使用限定条件提高检索词的专指度文献检索与论文写作_1第二章信息检索基础原理同时兼顾查全率和查准率的方法(1)跨库检索(2)分类途径和主题途径等结合使用(3)尝试多次检索(4)预防操作错误文献检索与论文写作_1第二章信息检索基础原理影响查全率的注意事项:(1)对课题分析不要望文生义(2)检索工具收录范围有缺漏(3)正确的常规检索方法也有疏漏(4)检索工具选择有误(5)遗漏隐含概念(6)遗漏同义词西部地区社会发展状况西部地区指哪些地区?社会发展状况是哪些状况?文化教育、医疗卫生、工业水平、农业水平等某教授在1994-2002年发表的论文有20篇被印刷型检索工具收录,而CNKI只收录16篇。A有些数据库没有提炼主题词,功能有缺陷B有些数据录入错误导致检索失败C有些作者故意隐藏真实身份D网络上的垃圾信息、欺骗性网站等利用谷歌检索专利白灵菇多糖(阿魏蘑多糖)检索著名作品《飘》乱世佳人,随风而逝,Gonewiththewind,gonewiththewind文献检索与论文写作_1第二章信息检索基础原理影响查准率的注意事项:(1)检索词的专指度要高(2)增加限定字段(3)增加检索词(4)检索工具的检索精度差检索关于啤酒及其生产的中文专利

生产的概念表达为“配制”、“生产方法”、“酿造”等关键词先查“啤酒酿造”,命中300多条记录,再用关键词缩小检索范围。用搜索引擎检索含有研究生考试的文件的网页首先输入“研究生考试”查到500多万条网页,限制站点,缩小为2800多个网页有人发明了一种可以用在公用浴缸上的一次性薄膜罩,以防交叉感染,需检索相关专利。浴缸or浴盆or澡盆1659条膜or罩or套471条一次性66条权威的专利和期刊数据库的查准率较高,网络搜索引擎、中文图书数据库精度较差文献检索与论文写作_1第二章信息检索基础原理3、响应时间

对任何计算机应用系统,响应时间都是一个重要指标。信息检索的响应时间可分为两种情形:(1)委托检索,表示从用户送交提问到收到检索结果所花的时间;(2)非委托检索,表示用户实际的检索时间。计算响应时间一般都是针对某一个提问而言,不同的提问对应的响应时间不同。(因提问式长短、复杂程度而不同)

文献检索与论文写作_1第二章信息检索基础原理有时给出平均响应时间T,ti表示对第i个提问的响应时间,k为提问个数文献检索与论文写作_1第二章信息检索基础原理问题:检索响应时间与哪些因素有关?文献检索与论文写作_1第二章信息检索基础原理通过对检索响应时间的分析,我们可归纳出影响该指标的因素:

(1)文献库规模规模越大,检索时间越长,响应时间值也就越大。

(2)机器速度主机运行速度越快,响应时间越短。

(3)检索软件检索软件是关键,其性能越好,检索时间就越短。文献检索与论文写作_1第二章信息检索基础原理(4)存储设备类型和数据的存贮结构存储设备的访问速度越快,数据的存贮结构(外存贮)越合理,检索越容易,响应时间也就越短。(5)提问组配形式检索式的构造需要有一定的专业技能和检索经验,是一个不断修改和完善的过程。(6)信息中心与检索者的距离通信传输时间与距离有关。文献检索与论文写作_1第二章信息检索基础原理二、网络信息检索效果评价指标体系1、索引数据库的评价指标(1)索引数据库的规模和内容(2)标引深度和标引准确率(3)数据库更新频率思考:人际关系数据库的索引设计。文献检索与论文写作_1第二章信息检索基础原理2、检索功能的评价指标网络检索工具一般都提供布尔检索、截词检索、限制范围检索等基本检索功能。除此之外,有的工具还提供高级检索功能,如多语种检索等。文献检索与论文写作_1第二章信息检索基础原理3、相关性排序相关度的计算是相关性排序优劣的基础,一般是通过计算检索词在每个结果中的出现次数和出现位置来计算相关度的。

一个检索词在网页中出现的次数越多、出现的位置越重要,则网页的相关度越高。文献检索与论文写作_1第二章信息检索基础原理典型的相关度排序方法:(1)按频次排序(2)按网页被访问度排序(3)基于超链接的排序按频次排序的思想是:如果一个网页包含了越多的关键词,其搜索目标的相关性越好。这是一种非常合乎常理的方法在这种方法中,搜索引擎会记录所搜索到的网页的被搜索次数,从而判断该页面被访问的频率,被访问较多的网页,应该包含信息较多。网页之间的链接反映了某种引用关系,通过构造网页引用图,综合考虑页面的被引用次数以及所引用页面的相关度来判断本页面的相关度。文献检索与论文写作_1第二章信息检索基础原理4、重复链接和死链接率如果在检索结果中同一结果重复出现,特别是那些网页标题或描述不同的重复结果所占比例很大时,尤其是当这种情况出现在最前面的10个结果中是,会浪费用户的时间和精力,甚至影响用户对检索工具的印象。死链接率是检索结果中死链接的结果数占全部检索结果的比例。死链接找不到原始文献,即使命中记录再多也没有用。文献检索与论文写作_1第二章信息检索基础原理5、用户满意度主要指标:(1)用户界面的设计(2)具有信息过滤功能(3)具有灵活的输出格式(4)提供灵活的输出格式(5)提供多种内容显示格式文献检索与论文写作_1第三章检索语言第一节检索语言概述一、概念传统意义上的检索语言,是应文献信息的加工、存贮和检索的共同需要而编制的专门语言,它是表达概括文献信息内容的概念及相互关系的一种概念标识系统。广义上的检索语言,指信息检索过程中涉及的人工语言和自然语言。人工语言是根据一定的规则人为编制而成的检索语言,有严格的使用规则,可用于表述文献主要内容,建立信息检索系统。自然语言是人类交流时使用的语言,不受任何限制,未经加工和规范。狭义上的检索语言,仅指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言。文献检索与论文写作_1第三章检索语言检索语言又称情报语言、情报存储与检索语言、文献语言、索引语言、标引语言、标示系统等。1.从自然语言中精选出来并加以规范化的词汇;2.代表某种分类体系的一套分类号码;3.代表类事物特征的一套代码;文献检索与论文写作_1第三章检索语言世界常见的检索语言主要有:《杜威十进制分类法》《国际十进制分类法》《冒号分类法》《中国图书馆分类法》《中国人民大学图书馆分类法》《汉语主题词表》文献检索与论文写作_1第三章检索语言

二、检索语言所具备的功能(1)对文献的信息内容及其外表特征加以规范化的标引;(2)对内容相同及相关的文献信息加以集中或揭示其相关性;(3)可使文献信息的存贮集中化、系统化、组织化,便于检索者按一定的排列次序进行有序化检索;(4)便于将标引用语和检索用语进行相符性比较。文献检索与论文写作_1第三章检索语言

三、检索语言的类型按不同的标准,检索语言划分为:(1)描述文献的特征(2)结构或原理(3)信息标识的组配方式(4)语言的规范程度文献检索与论文写作_1第三章检索语言(1)描述文献的特征描述文献外表特征的检索语言文献外表特征:文献的篇名、作者姓名、出版者、合同号、报告号、引文等;据此作为文献标识和检索依据而形成的检索语言。描述文献内容特征的检索语言

是检索语言研究的核心内容主要包括:分类语言:体系分类语言、组配分类语言主题语言:标题词语言、关键词语言、单元词语言、叙词语言代码语言:分子式索引、结构式索引、专利号索引例如:题名索引、著者索引、合同号索引、报告号索引、引文索引等文献检索与论文写作_1第三章检索语言(2)结构或原理分类语言:用分类号表达各种概念,将各种概念按学科性质进行分类和系统编排。体系分类语言(等级体系分类语言)、组配分类语言(分析-综合分类语言)主题语言:采用表达某一事物或概念的名词术语,用于标引、存储、检索的一种检索语言。标题词语言、关键词语言、单元词语言、叙词语言代码语言:一般只是就事物的某一方面特征,用某种代码系统来加以标引和排列。分子式索引、结构式索引、专利号索引引文语言:利用文献之间的相互关系而建立的一种自然语言,其标引词来自于文献的主要著录项目。特点:选词方便、词汇丰富,往往看作检索语言的一种特殊类型。文献检索与论文写作_1第三章检索语言(3)信息标识的组配方式先组式检索语言:

表述文献主题概念的标识在检索之前就已固定的检索语言。后组式检索语言:

表述文献主题概念的标识在检索之前未固定组配,而是在检索时根据实际需要按组配规则临时组配的检索语言。散组式语言:

对于复杂的主题标识,在此表中不组配,而在标引阶段将表达主题概念的若干标识,根据规则组配在一起的检索语言。优点:语言标识明确,系统性较好,适用于传统的文献单元方式的目录索引,是检索用户比较习惯的形式。缺点:表达专指概念和新概念较困难,灵活性较差,检索途径少,词表体积庞大。优点:语言采用概念分析和综合的原理,可实行多途径、多因素检索乃至精确检索,相当灵活,检索效率较高。缺点:标识明确性不强,造成检索用户使用不习惯。文献检索与论文写作_1第三章检索语言(4)语言的规范程度人工语言:主题法(标题词、单元词、叙词、关键词)、分类法(体系分类法、组配分类法)和(语义代码、化学代码)等种类。自然语言:直接取自文献信息本身,不经过加工或规范的词语或句子。文献检索与论文写作_1第三章检索语言第二节检索语言的理论基础一、概念逻辑

通过明确各种概念及其相互关系而揭示事物的本质属性及事物之间的联系与区别,是一种科学思维方法。概念包含内涵(本质属性)与外延(反映范围)。文献检索与论文写作_1第三章检索语言1、概念间的关系(1)相容关系:同一关系;属种关系;交叉关系;整体与部分关系;全面与某一部分关系、不相排斥的并列关系。(2)不相容关系:相排斥的并列关系;矛盾关系;对立关系例如:计算机与电脑;酒精与乙醇例如:自然科学是化学的属概念,化学是自然科学的种概念部分外延相重合,如“团员”与“党员”例如:汽车与汽车发动机例如:文学家、书法家、军事家例如:公共图书馆这个属概念下,省图书馆、市图书馆具有不相容的并列关系例如:金属材料和非金属材料例如:17世纪哲学和18世纪哲学,其上位类是“近代哲学”文献检索与论文写作_1第三章检索语言2.概念逻辑的关系(1)概念的划分与概括(分类)通过概念划分与概括形成概念等级体系。利用划分和概括过程中所产生的概念隶属关系和并列关系,构成检索语言结构体系。(2)概念的分析与综合(组配)通过概念分析与综合形成概念组配体系。提供多途径的信息检索功能,可以根据需要扩大、缩小或改变检索的范围。文献检索与论文写作_1第三章检索语言二、知识分类1.知识分类的实质是划分知识单元、组织知识体系2.知识分类主要包括学科分类:以信息的学科属性为分类标准,根据各门学科的研究对象的区别和联系对学科进行区分和组织,确定学科在科学整体中的位置,揭示科学的内部结构,建立符合科学发展规律的分类体系。事物分类:根据事物属性的异同将事物划分成类,构成事物的分类体系。3.知识分类遵循的原则:客观性和发展性4.如果说概念逻辑是检索语言的基础,知识分类便是概念逻辑的基础文献检索与论文写作_1第三章检索语言三、术语学术语学:研究概念、概念定义和概念命名规律的学科。术语是传播知识、技能,进行社会文化、经济交流等的重要工具。检索语言是概念标识系统组成的,而概念是术语来表达的,因此,术语是分类表、词表的基本组成要素。文献检索与论文写作_1第三章检索语言第三节分类检索语言一、分类检索语言的概念分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号来代表各级类目和固定其先后次序的分类体系。文献检索与论文写作_1第三章检索语言分类检索语言主要包括:1、体系分类法

指将文献信息的类目按等级层层展开并详尽列举的一种分类法。2、组配分类法根据概念的分析和综合原理编制的文献分类法,它是将主题概念分解为简单概念或概念因素,按照它们所属的方面或范畴,分别编列成表;标引时用两个或多个简单概念的分类号的组合来表达一个复杂的主题概念。《中国图书馆分类法》《杜威十进分类法》《美国国会图书馆分类法》《中国人民大学图书馆图书分类法》组配法可分为全面分类法和半面分类法两种。全面分类法一般仅仅应用较小学科或专业范围。半面分类法是全面分类法与体系分类法相结合的混合式分类法,如《冒号分类法》文献检索与论文写作_1第三章检索语言二、体系分类法1、体系分类法的结构(1)微观结构是指分类法中类目的构成结构。

类目体系是分类法的核心。文献检索与论文写作_1第三章检索语言A、类目划分类目划分的过程通常是由大到小、由属到种、由整体到部分、由总论到分论、由全面到各方面。被分的类目是上位类,分出来的类目是下位类。文献检索与论文写作_1第三章检索语言B、引用次序

是在体系分类法中表现为分类标准的使用次序,当某一类事物连续划分需要采用几种分类标准时,分类标准的使用次序是否合理,直接影响分类体系,决定着类目体系展开方式。合理的引用次序应该满足逻辑性原则、符合检索需要的原则和表达性原则。文献检索与论文写作_1第三章检索语言C、类目的排列同位类是由一个上位类直接划分出的各个下位类,它们之间不从属,相互排斥,处于同等地位。同位类的排列主要采用的序列方法,有按照逻辑顺序排列,按照客观事物发展顺序、按照时间发展顺序、按照空间排列顺序。文献检索与论文写作_1第三章检索语言D、类名的确定

坚持科学性、确定性、简洁性。

注意:如有必要,可将同义词、俗称、旧称等用括号加注在类目名称之后,如《中国图书馆分类法》中的B82伦理学(道德学)文献检索与论文写作_1第三章检索语言E、类目之间的相互关系处理第一从属关系第二并列关系第三交替关系

使用类目和交替类目之间的关系。有的学科或事物分别属于两个门类,编制时确定归入一个门类,同时在另一个门类设交替类目,以适应学科的交叉关系。交替类目不用来类分文献。第四相关关系有些类目之间密切相关,而这些类目又不属于同一个类系,这种类目之间的关系称为相关关系。例如:【B035】国家理论宜入D03(“政治理论”下的“国家理论”类)O212数理统计参见C8(统计学)文献检索与论文写作_1第三章检索语言(2)宏观结构A、类目体系大多数体系分类法由主表和复分表组成。

主表有基本部类、基本大类、简表、祥表组成。

复分表又称为辅助表或者附表,是将祥表中按相同标准划分某些类所产生的一系列相同子目抽出来,配以特定号码,单独编列,供主表有关类目进一步细分的类目表。可分为通用复分表和专用复分表。文献检索与论文写作_1第三章检索语言B、标记系统可分为顺序制、层累制、混合制、分面标记制。特殊标记法:第一,八分法第二,双位法第三,借号法第四,组配法第五,空号法文献检索与论文写作_1第三章检索语言C、说明与注释主要包括编制说明、大类说明和类目注释。类目注释是对类目的性质或类名的补充说明文字。例如:D631.42户籍管理流动人口管理入此.

参见C921.3文献检索与论文写作_1第三章检索语言D、类目索引主要作用是帮助不熟悉分类表的使用者从主题名称迅速找到相应类目。注意:类目索引不能用来分类标引,只能是辅助工具。文献检索与论文写作_1第三章检索语言2、体系分类法的特点(1)提高查全率。以科学分类为基础,以逻辑方式进行划分,体系比较严密,强调知识的系统化组织,便于按学科或专业检索有关文献。(2)便于浏览领域内的相关信息。采用等级列举式的概念标识系统来揭示概念间的相互关系。(3)不受语种的限制。采用分类号作为主题的标识,避免了语种的限制。体系分类法的不足:(1)修订不便。无法及时增加反映新知识主题的类目(2)采用先组式标识,难以进行组配检索。(3)缺乏直观性。以分类号作为主题的标识。(4)学科交叉渗透的困难。文献检索与论文写作_1第三章检索语言三、组配分类法组配分类表:一般由编制说明、基本类表、分面类表目次和分面公式、索引等组成。世界上最重要的组配分类法词表是阮岗纳赞创立的ColonClassification。组配分类表由两个层面结构组成。第一层是分面结构是对整个知识领域进行分面所形成的基本分面结构;第二层面的分面结构是以第一层次的分面结构为依据,对某一知识领域进一步进行分解形成的分面结构。《冒号分类法》第一层次的分面是:本体、物质、能量、空间、时间。教育类的第二层次的分面结构:受教育者、课程、教学方法、教师、教育环境、共同操作及施动者、理论观点、地点和时间、通用复分等文献检索与论文写作_1第三章检索语言组配分类法的特点:(1)类目较少,但标引文献的能力较强;(2)多种途径检索文献。可以自由地扩大或缩小检索范围,能从多种途径检索文献,还能进行较精确的组配检索和轮排检索,在检索性能、检索效率和检索灵活性方面都优于体系分类法;(3)分类表增补和修订方便灵活。采用分段标记制度,便于分类表的增补和修订新的主题概念。文献检索与论文写作_1第三章检索语言《冒号分类法》冒号分类法(Colonclassification),印度图书馆学家阮冈纳赞1933年创制的图书分类法。它是通用而不是专用的分类法,可通过使用“分面”或“冒号”来建立复杂的新范畴。计108个大类(原33类)和10个概括性的类目(大致于人文科学与自然科学之间分类),其类号由阿拉伯数字、拉丁字母,希腊字母的混合标记所组成。例如牙医外科的编号为L124:4:7,它用字母L代表医学,数码124为牙齿,数字4表示疾病,数字7即外科等一系列字母与数字组配而成。文献检索与论文写作_1第三章检索语言第四节主题检索语言一、概述主题检索语言又称主题法,采用语词直接作为文献主题标识,按子顺排列主题标识,提供各种检索语词途径。类型:1、标题词语言2、单元词语言3、叙词语言4、关键词语言文献检索与论文写作_1第三章检索语言二、关键词语言关键词语言的原理是:运用关键词语言编制关键词索引,关键词按子顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,最为检索“入口词”进行检索。文献检索与论文写作_1第三章检索语言关键词索引的类型:1、题内关键词索引2、题外关键词索引3、词对式关键词索引文献检索与论文写作_1第三章检索语言

题内关键词索引(简称KWIC),又称上下文关键词索引。是最早出现的机编索引,首先应用于1960年美国化学文摘社创办的《化学题录》。题内关键词索引的标目在款目的中部,左右均为该标目的上下文;索引款目按位于款目中部作为标目的关键词的字顺排列。格式如:

KWIC的设计思想是:①文献题名通常具有揭示文献主题内容的作用,从题名中抽取的关键词能有效地将用户指向相关主题的文献;②保留题名中关键词前后的上下文,有助于说明关键词的含义,可用作限定标目含义的说明语。

KWIC的编制步骤包括:①把经过人工处理的文献题名(包括增补的关键词)输入计算机。②计算机用“非用词表”剔除题名中的介词、连词、冠词等,筛选出有检索意义的关键词。③将每个关键词依次轮流用作索引标目,同时保留其上下文。若题名过长,可以截断或移位。④编成索引款目,并进行编排加工,最后交付印刷。上述工序除第一步由人工完成外,其余皆由计算机完成。上文关键词下文文献地址文献检索与论文写作_1第三章检索语言例如,一篇题为Playtherapyformaladjustedchildren(《孤僻儿童的游戏疗法》)的论文,输入计算机后可产生以下几条索引款目:上文关键词下文文献地址maladjustedchildrenPlaytherapyfor3000therapymaladjustedChildren/Play3000childrenPlaytherapyformaladjusted3000Playtherapymaladjustedchildren3000文献检索与论文写作_1第三章检索语言题外关键词索引(简称KWOC)。最早出现的KWIC改进形式。与KWIC相比,其标目的位置不在款目的中部而是在款目的左端或提行至左上方,标目之后(或之下)仍保留完整的文献题名。其款目格式为:编制时依次轮流将题名中的每个关键词置于标目的位置,原题名中的关键词也可用一符号(如星号)代替,题名之后注明文献地址,最后款目按关键词的字顺排列起来。上例如按KWOC编制,可产生以下几条款目:或者

关键词标题文献地址关键词标题文献地址文献检索与论文写作_1第三章检索语言children

playtherapyformaladjusted*3000maladjusted

playtherapyfor*children3000play*therapyformaladjustedchildren3000therapy

play*formaladjustedchildren3000文献检索与论文写作_1第三章检索语言词对式关键词索引

由一对关键词组成的索引。其原理与双重关键词索引相似,只是不带上下文。由于款目轮排时采用数学中的排列原理,因此又称为轮排主题索引。1967年美国费城科学情报研究所(ISI)首创,最先用于编制《科学引文索引》的主题索引。格式如:如第一例编成词对式关键词索引,可以产生以下6条款目(款目按标目的字顺排列):

第一关键词第二关键词文献地址文献检索与论文写作_1第三章检索语言children

maladjusted3000children

playtherapy3000maladjusted

children3000maladjusted

playtherapy3000playtherapy

children3000play

maladjusted3000文献检索与论文写作_1第三章检索语言三、叙词语言叙词语言是以单元概念的规范化语词为基础,以概念组配为基本原理,对文献主题进行描述的后组式检索语言。

例如:如何培育香蕉苹果香蕉口味的水果苹果文献检索与论文写作_1第三章检索语言1、叙词表一般由主表和若干个附表组成。主表是叙词字顺表,该表将叙词完全按字顺排列,并有标注事项和参照系统。附表主要包括:叙词分类索引、词族索引、轮排索引、双语种对照索引、专有叙词索引等。也称分类表或者范畴索引,便于从学科或者专业分类的角度选词。也称等级索引,具有属分关系的一组称为一族,构成一个从泛指叙词到专指叙词的等级系统例如:广播系统电视广播系统多伴音乐无线电广播系统也称轮排表,将有相同单词的词组叙词集中在一起,排列这个单词之下如地区索引、人名索引、机构索引等文献检索与论文写作_1第三章检索语言2、主题词之间的关系显示同义关系用“用(Y)”“代(D)”来表示属分关系用“属(S)”“分(F)”来表示相关关系用“参(C)”来表示文献检索与论文写作_1第三章检索语言《汉语主题词表》我国第一部大型的综合性的叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个,词族数3707个,一级范畴数58个,二级674个,三级1080个。文献检索与论文写作_1第三章检索语言

Xianxiangguan——汉语拼音

显像管【56E】——叙词和范畴号

Kenescope——英译名PicturetubeD电视显像管——非叙词(代项)监视管

F彩色显像管——下位词(分项)固体显像管黑白显像管

S电子塑管——上位词(属项)Z电子管——族词首(族项)C显示管——相关词(参项)指示管文献检索与论文写作_1第三章检索语言第五节分类主题一体化检索语言一、分类主题一体化检索语言概念分类主题一体化检索语言又称为分类主题一体化词表,指在一个检索语言系统中,对他们的分类表部分和叙词表部分的术语、标识及索引实施统一的控制,使二者有机地融合为一体,从而能够同时满足分类和主题标引、检索的需要,发挥其最佳的整体效应。分类语言与主题语言是两种不同类型的检索语言,二者各有优势和不足。分类检索语言是按学科、专业集中信息或文献,以分类号作为主题概念的标识,经过类目的层层划分与排列,形成了等级式的学科与逻辑体系。主题检索语言:是按照事物来集中信息或文献,以受控的主题词直接作为主题概念的标识,通过参照系统和范畴索引、词族索引来揭示主题词相互关系的系统。文献检索与论文写作_1第三章检索语言二、分类主题一体化检索语言的原理分类主题一体化检索语言是建立在分类检索语言与主题检索语言相通的原理基础上的。1.理论基础相同。建立在概念逻辑、知识分类、术语学理论基础上,都使用了概念划分、概念分析与综合的方法。2.标识在本质上是相同的。所采用表达信息或文献主题概念的标识在本质上是相同的,只是表达形式不同,(分类检索语言用分类号作标识,而主题检索语言用主题词作标识)3.分类检索语言和主题检索语言处理对象都是语义单元,表达的都是主题概念。文献检索与论文写作_1第四章信息著录和标引第一节信息著录的含义和标准一、信息著录的含义是指在组织检索系统时对文献内容和形式特征进行选择和记录的过程。信息著录的结果是款目。款目是有许多著录项目组成。文献检索与论文写作_1第四章信息著录和标引如:我国国家标准《文献著录总则》规定了9大著录项目,题名和责任者项、版本项、文献特殊细节项、出版发行项、载体形态项、从编项、附注项、文献标准编号及有关记载项、提要项。都柏林核心元数据涵盖15元素:题名、创作者、主题及关键词、描述、出版者、其他贡献者、时间、类型、格式、标识、来源、语言、关联、范围、版权。文献检索与论文写作_1第四章信息著录和标引二、信息著录的作用1.信息著录是揭示文献内容特征及相关信息的有效方法2.信息著录是编制目录和建立数据库的基础3.信息著录结果是信息检索的主要依据文献检索与论文写作_1第四章信息著录和标引第二节机读目录与元数据一、机读目录机读目录(MARC)即机器可读目录的简称,来自英文Machine-ReadableCataloging,利用计算机识读和处理的目录。它是文献编目内容(数据)经过计算机处理,以代码形式记载在一定载体上而形成的一种目录。机读目录是描述文献著录项目的国际标准格式,是实现计算机处理书目信息及资源共享的基础。文献检索与论文写作_1第四章信息著录和标引1963年,美国G.W.金等人发表关于美国国会图书馆书目系统自动化的报告,1965年1月提交了关于机读目录的初步报告。1966年1月,美国国会图书馆开始实施MARC试验计划,吸收了16个图书馆参加,制订了MARCⅠ格式;试编了机读目录,同年9月,生产出机读目录试验磁带。参加馆用这种磁带试验生产目录卡片、书本目录、新书通报等,取得了较好的效果。经过两年多的试验,又设计了适合书目信息交换用的MARCⅡ格式,扩充了字符集,调整和改进了加工系统,1968年7月开始了正式的MARC计划。1969年3月向全国发行MARCⅡ格式的英文图书机读目录磁带。机读目录的出现,有力地推动了图书馆技术的自动化和标准化。到80年代末,已有英国、联邦德国、法国、加拿大、丹麦、意大利、挪威、瑞典、澳大利亚、日本以及拉丁美洲和非洲共20多个国家和地区进行了机读目录的研究和开发,建立了机读目录系统,生产和发行机读目录产品。1977年国际图书馆协会和机构联合会还主持制定了《国际机读目录格式》(UNIMARC)。中国国家图书馆即北京图书馆于1987年开始了中国机读目录的开发工作,1991年1月正式发行机读目录《中国机读目录通讯格式》,即CNMACK。文献检索与论文写作_1第四章信息著录和标引二、元数据元数据的英文为Metadata,意为关于数据的数据。在因特网中,元数据是指描述任何因特网数据和资源,促进因特网信息资源的组织和发现的数据,可协助对网络资源进行识别、描述并指示其位置。文献检索与论文写作_1第四章信息著录和标引三、都柏林核心元数据和机读目录的比较

1.著录的对象不同2.数据的形式不同3.著录的主体不同4.著录的详简程度不同5.标识的方法不同文献检索与论文写作_1第四章信息著录和标引第三节信息标引的含义与步骤一、信息标引的含义与类型标引是对信息的内容进行分析,并运用一定的语言和方法,根据信息内容的学科属性等特征给予标识(如主题词,分类号),并因此作为信息组织、存贮和检索依据的过程。文献检索与论文写作_1第四章信息著录和标引标引的种类标引可分为分类标引(分类法)和主题标引(主题法)两大类。以分类符号作为描述信息的检索标识的一类标引称为分类标引;以语词符号作为描述信息的检索表示的一类标引称为主题标引。文献检索与论文写作_1第四章信息著录和标引从另一角度,标引还可以分为受控标引和自由标引。在标引过程中所使用的检索标识若必须按检索词典及相应的标引规则来规范,则这类标引为受控标引,如叙词法,否则成为自由标引,如关键词法。另外,按是否有机器介入分人工标引、半自动标引和自动标引;按标引的深度分为浅标引和深标引;按标引的信息类型分为概括标引和分析标引。文献检索与论文写作_1第四章信息著录和标引二、

标引的过程一般而言,标引分为三大步。(1)主题分析(2)标引(3)标引结果记录文献检索与论文写作_1第四章信息著录和标引主题类型可以从不同角度划分:1、依据主题数量的多少可以分为:单主题和多主题。2、依据主题的显露程度可分为:显性主题和隐性主题。《加压素治疗休克引起冠心病》这一文章,除了休克、加压素和冠心病这些直接的主题概念外,还隐藏着致病化学因素和药物副作用等主题概念文献检索与论文写作_1第四章信息著录和标引第四节分类标引和主题标引一、分类标引分类标引工作是以标引对象的特征分析为基础、以分类标引工具为依据、为标引对象赋予类别标识的工作。它是信息组织统计分析、存贮和检索不可缺少的加工处理程序。文献检索与论文写作_1第四章信息著录和标引基本原则(1)学科属性原则图书分类应以图书内容的学科性质作为主要标淮,必要时再以图书的其它属性作为辅助标准。如《农村医生手册》,首先按其内容性质分入“R医药、卫生”类。文献检索与论文写作_1第四章信息著录和标引(2)专指性原则要将文献分入最恰当的类,而不能分入范围大于或小于文献实际内容的类目。例如:《信号处理》是论述信号处理的一般原理的著作,入TN911.7;《防火墙与网络安全:防止黑客侵入》应入TP393.08,而不是泛指的类TP309。文献检索与论文写作_1第四章信息著录和标引(3)实用性原则要根据读者的需要将文献分如最大用图的类。例如:《莫泊桑短篇小说选》是法汉对照读物,根据“最大用图”如法汉对照读物H392.4:I565.44。文献检索与论文写作_1第四章信息著录和标引(4)系统性原则凡是归入下位类的文献必须具有上位类的属性,体现他们之间的从属关系。例如:《神经网络》从人体生理角度论述神经网络原理,如R383;《神经原理原理》从科学计算角度论述人工神经网络原理,入TP183文献检索与论文写作_1第四章信息著录和标引(5)一致性原则要将内容相同的文献集中归入同一个类目,而不是分散在有关各类。例如:《老年经济学》入F069.9,不入C913.6文献检索与论文写作_1第四章信息著录和标引具体规则:1.不同主题图书的分类

(1)单主题的书①只论述该主题一个方面的书。单主题只论述该主题一个方面的书,按该方面的学科性质归类。②论述该主题二个方面的书。单主题论述该主题二个方面的书,按著者的写作目的归类。③论述该主题三个或三个以上方面的书。单主题论述该主题三个或王个以上方面的书,按主题的学科性质归类。文献检索与论文写作_1第四章信息著录和标引(2)多主题的书①并列关系各主题是并列关系的图书,如属不同类列的,有重点的依重点主题归类,无重点的依在前的或篇幅较多的主题归类。如属于同一类列的,则归入其上位类。文献检索与论文写作_1第四章信息著录和标引②从属关系各主题是从属关系的图书,内容涉及的学科是上下位类的关系,一般应归入其上位类。如图书内容重点是论述较小主题的,则按较小主题的性质归类。文献检索与论文写作_1第四章信息著录和标引③因果关系各主题是因果关系的图书,一般按结果的主题归类。如果一个原因的主题产生几个结果主题的书,则按原因的主题归类。文献检索与论文写作_1第四章信息著录和标引④影响关系各主题是影响关系的图书,一般依受影响的主题归类。但如论及一个主题在各方面影响的书,则依发生影响的主题归类。文献检索与论文写作_1第四章信息著录和标引⑤应用关系各主题是应用关系的图书,一般按被应用的主题归类。但一个主题综合阐述在各方面应用的书,则按该主题的学科性质归类。文献检索与论文写作_1第四章信息著录和标引⑥对立或比较关系各主题是对立或比较关系的图书,一般按著者所要阐明的或赞同的主题归类。文献检索与论文写作_1第四章信息著录和标引二、主题标引主题标引是依据一定的主题词表或主题标引规则,将信息资源中具有检索意义的特征转换成相应的主题词,赋予信息资源语词标识的过程。按照是否使用词表,主题标引可以分为受控标引和自由标引两类,依据特定词表赋予检索标识的,称为受控标引;直接采用自然语言语词进行标引的,称为自由标引。前者在手工系统中使用较多,后者在计算机系统中使用较多。文献检索与论文写作_1第四章信息著录和标引基本规则:1.主题标引的查词规则(1)采用正式叙词标引。即用来标引文献主题概念的叙词必须是《汉表》中的正式叙词其书写形式必须与词表中的词形一致。非叙词不得直接用来进行标引。采用最专指的叙词标引。当词表中没有相应专指叙词时,可选用词表中最接近、最直接关联的两个或两个以上的叙词进行组配标引。文献检索与论文写作_1第四章信息著录和标引(2)上位叙词标引。当词表中没有最专指的叙词,也无法以词表中最接近、最直接关联的叙词进行组配标引时,可选用上位叙词标引。(3)增词标引。如待标引的主题概念为未收入词表的新概念,不适宜采用上述任何方法标引,同时本身又具有较大研究价值和检索意义时,可采用增词标引。增词标引一般包括下述情况:词表中明显漏收的主题概念的词。文献检索与论文写作_1第四章信息著录和标引2.主题标引的组配规则为了保证在组配标引时尽可能取得一致,避免出现标引误差,在应用《汉表》进行组配标引时,一般应遵循下述组配规则:(1)叙词的组配必须是概念组配,而不是字面组配。参加组配的叙词之间必须符合一定的逻辑关系,而不是简单的字面分拆或语词组合。文献检索与论文写作_1第四章信息著录和标引

(2)叙词的组配应优先采用交叉组配,当不能用相应叙词进行交叉组配时,才选用限定组配。(3)叙词的组配必须选用与文献主题关系最密切、最邻近的叙词进行。文献检索与论文写作_1第四章信息著录和标引第五节自动标引一、自动标引概况自动标引指直接通过计算机的操作处理,赋予检索标识的活动。自动标引是根据检索的需要发展起来的,是电子环境下出现的一种新的标引形式。文献检索与论文写作_1第四章信息著录和标引自动标引的意义:1.适应信息资源快速增长的需要加利福尼亚大学伯克利分校研究人员发现,仅1999-2002年的三年中,全球新生产出的信息量就翻了一番。新产生的信息中92%记录在硬盘等磁存储介质上。信息资源的快速增长,造成信息相对过剩。只有提高信息组织的效率,才能摆脱信息相对过剩带来的困惑,因此信息标引显得非常重要。自动标引适应了这一需要。文献检索与论文写作_1第四章信息著录和标引2.相对手工标引存在很大优势,克服了手工标引难以克服的缺点。与熟练标引人员相比,自动标引的准确性不如手工标引,但在其他指标方面自动标引具有无可比拟的优势:处理能力强处理速度快成本低一致性好,稳定性好文献检索与论文写作_1第四章信息著录和标引美国的Cleverton曾作过一些试验,结果:两组人员为同一主题编出的叙词表中词的同一率仅60%;两位有经验的标引员用同一叙词表对同一篇文献进行标引,其标引词的同一率仅有30%左右;两个在同一数据库中用同一检索系统检索同一问题的用户,检索出的结果同一率仅40%;两位科研人员根据同一提问判断一组指定文献的相关性,其同一率不会超过60%。文献检索与论文写作_1第四章信息著录和标引自动标引不受标引人员状态和情绪的影响,稳定性好。美国学者伦兹作过两个试验,6名标引人员在不同时间标引同一文献,一致率为15.8%;由同一标引人员在不同时间标引同一文献,一致率为16.19%。采用计算机自动标引,无论何时对同一篇文献总能标引出相同的主题词。文献检索与论文写作_1第四章信息著录和标引

美国学者Salton对受控人工标引系统MEDLARS和自动标引系统SMART做了一些比较,结论是:相对简单的自动文本分析系统在文献检索环境中产生的检索结果,其质量不亚于受控标引通常所能达到的水平。文献检索与论文写作_1第四章信息著录和标引自动标引的流程:机读文献语句分析语词加权确定阈值选出标引词概念转换受控词停用词处理抽词关键词文档与索引生成手检或机检用户相关性判断反馈文献检索与论文写作_1二、自动标引方法统计标引法(课堂只讲这种方法)概率标引法:根据文献满足提问的概率来估计句法分析标引法语义分析标引法人工智能标引法文献检索与论文写作_1第四章信息著录和标引Zipf’sLaw齐普夫定律是由美国学者G.K.齐普夫于上世纪40年代提出的词频分布定律。

它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数在这些词编上的等级序号,即频次最高的词等级为1,频次次之的等级为2,,频次最小的词等级为D。若用f表示频次,r表示序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。

文献检索与论文写作_1第四章信息著录和标引与文献标引的关系把所有的词分高频词、中频词和低频词。高频词:传递信息能小,多为虚词,标引能力低。中频词:传递信息能大,多为常用的术语。为标引时选词的最佳对象,专指度适中。低频词:传递信息能力极强。产生的原因较复杂。可能是冷僻词,也可能是新引进的概念。可以选中频词和个别低频词标引作为文献标引的候选词。文献检索与论文写作_1第四章信息著录和标引1、绝对频率加权法20世纪50年代Luhn在Zipf定律基础上提出主要步骤给定m篇文献组成的一个集合,设第k个词在第i篇文献中发生的频率fik。决定该词在整个文献集上的发生频率:fk=∑fik按照fk的大小将词降序排列,用试错法确定高频词和低频词的阈值。去掉高频词和低频词后,将余下的中频词选作标引词。文献检索与论文写作_1第四章信息著录和标引2、相对频率加权法1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法。考虑的因素:词在某个特定文献内的使用频次词在特定领域内的使用频次方法: 建立有关领域全部词汇的相对频率表;对待标引的文献进行处理,排除停用词,计算每个实词在特定文献中的出现频次;将每个实词在特定文献内的频次与相对频率表进行比较。文献检索与论文写作_1第四章信息著录和标引二、自动分类自动分类是指由计算机系统自动提取信息的特征项,依据一定的算法,将信息按内容或属性归到一个或多个类别的过程。主要包括自动归类和自动聚类。文献检索与论文写作_1第五章文本信息的检索第一节基本信息检索一、布尔逻辑算符

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论