




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1Chap1信息检索序论
1-1信息社会中的信息检索
1-2信息检索的概念和类型
1-3信息检索的基本原理
1-4信息检索新编年
思考题21-1信息社会中的信息检索一、信息进入视野成为论域二、信息社会的基本特征三、信息检索教学的主要意义四、信息检索教学的基本内容附录:有关《信息检索与利用》文件3
一、信息进入视野成为论域1、信息的概念2、信息的基本特征3、信息的基本类型41、信息·日常生活概念在日常生活中,信息与符号、数据、消息、事实、新闻、情报、知识等概念混用,核心义项是消息。李中(924~975)在《碧云集》之《暮春怀故人》一诗中最早提出了“信息”一词。符号是指人类感官接受外界刺激后,大脑中产生的刺激的组合;数据是各种事实、数字和字符等符号的集合;信息是指语法特征上相互关联的数据对象的集合;知识是有语法、语义关联的信息结构;而智能则是知识精华的集合。5信息·科学概念科学概念根植于理性的理论框架中,并与不定性、概率、熵、有序化、变异度等概念密切相关。L.V.R.Hartley:信息是选择的自由度(1928);C.E.Shannon:信息是用来减少随机不定性的东西(1948);N.Wiener:信息是指人们适应外部世界,并使这种适应为外部世界所感知的过程中,同外部世界交换的东西的名称(1948);L.Brillouin:信息就是负熵,是系统组织结构和有序程度的度量(1951);W.R.Ashby:信息是集合的变异度(1956)。
一般说来,设随机事件X(x1,x2,…,xn),每个事件(状态)发生的概率为P(p1,p2,…,pn),那么这一随机事件提供的信息量为I(xi)=﹣㏒Pi,而整个信源的信息熵为H(X)=﹣∑Pi㏒Pi。6信息·哲学概念在对信息进行哲学探讨时,信息与物质、能量、运动、反映、意识等概念息息相关。信息是一切事物运动状态和方式的表象或表征。这里,“事物”泛指一切可能的研究对象,可以是外部世界的物质客体,也可以是主观世界的精神现象;“运动”泛指一切意义上的变化;“运动状态”是指事物运动在空间上所展现的性状和态势,是事物的静态特征;“运动方式”则是指事物运动在时间上所呈现的过程和规律,是事物的动态特征。“表象”说明信息并不是事物本身;而“表达”则是认识论上的主体所感知并能够表示的、与人类生活有关的东西,这是上述本体论意义上的信息引入认识主体这一约束条件后的产物。72、信息的基本特征和属性
普遍性与无限性
客观性与相对性
抽象性与依附性
动态性与异步性
传递性与共享性8普遍性。信息是物质的普遍属性,是物质运动的状态和方式。信息的物质性以及物质的普遍性决定了信息的普遍存在性。无限性。物质的更替和人事的代谢无穷无尽,信息因此是无限的;即使在有限的时空中,由于物质的多样性和物质运动的连续性,信息也是无限的。信息无限性的重要表现是信息的多样性和衍生性:就多样性而言,它一方面表现为信息的内容范围无所不包的多样性,另一方面表现为同一信息的表述、表达方式的多样性。就衍生性而言,信息的信息仍然是信息;观察的结果是信息,关于观察结果的表述是信息,关于观察结果的描述作为文献的内容也是信息,而关于该文献的目录索引还是信息,……信息的信息,可以形成无穷无尽的衍生链带。9客观性。信息的客观性源于客观存在的物质运动的特征。信息不是虚无飘渺的东西,也不是可以随意想象和“创造”的事物,它是现实世界各种事物运动的状态和方式,有非常具体和真实的品格。各类信息的表达、存贮、传递、转换和利用等都必须以客观存在的物质载体为依托。相对性。由于认识能力、认识目的及其所储备的先验信息各不相同,各个认识主体从同一事物中获取的信息及信息量(实得语法信息量、实得语义信息量和实得语用量)并不相同。假定事物X的实在信息量I(X)是常数,在这样的条件下,第i个观察者Ri的实得信息量I(X;Ri)就为:I(X;Ri)=I(X)-Io(X;Ri)。既然各个观察者的先验信息量Io(X;Ri)各不相同,它们的实得信息量当然也就各有差异。10抽象性。信息本身是看不见摸不着的,我们所能够看得见摸得着的只是信息载体(包括语言、文字、图画、符号、纸张、磁带和光盘等)而非信息内容。依附性。任何信息都必须以某种物质的特定的运动形式表现出来,即信息必须依附于一定的物质载体上,用文字、语言、图像、符号等把信息记录下来,并寄载在纸张、磁带、胶卷和光盘等介质上,通过声波、光波、电波等物质载体进行传递。信息的依附性是抽象性的延伸,是信息具有可传递性、可转换性、可贮存性和可处理性的基础,是信息能够实际利用的前提;正是因为有了这些载体,信息才能变为一种广泛的资源和财富。11动态性,或称信息的时效性。信息的时效是指信息从产生、传递到接收利用的时间间隔及效率,而时效性就是指信息的内容和信息量大小都会随时间的变化而不断得到更新、充实、积累或取舍。在我们考察物质运动规律时,所取的空间界面和时间区段不同,所得到的有关信息的时效就会有所不同。异步性。异步性是动态性的延伸,包括滞后性和超前性两个方面。信息脱离源物质后需要经过输入、处理、传递和输出等过程才能为人们所理解和掌握,而此时源物质已发生新的变化,这些信息因而就成为“过时”的信息,它们所反映的已是某一时刻之前的源物质运动的状态和方式。换言之,任何信息总是产生、传递在事实之后,即先有事实而后有关于该事实方面的信息等,这是由于人的认识与客观事物运动的异步性造成的,并导致信息都有一定的滞后性和不完全性。另一方面,人们在掌握大量信息的基础上,又可以通过计划、预测等方式测知未来的信息,超前于现实,因而信息又具有超前性。12传递性。信息传递的实质就是一种事物的运动状态与方式脱离源物质而附着于另一事物,并通过后者的运动将这种状态与方式在时空上从一点传递到另一点。信息的传递总是同物质的运动和能量的转换联系在一起。信息传递经历了点-点、点-面、面-面的发展模式。共享性。指同一内容的信息,可以在同一时间内为众多的使用者所接收和使用,当信息从传者转移到受者时,传者不会因此丢失信息。⑴信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息产品的使用价值是一个点集或面,其价值和使用价值具有非对称性;而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。⑶信息共享的意义在于它从根本上改变了人类对资源的态度和方式。⑷不同的信息在共享范围和程度上是有差异的。13
3、信息的基本类型3、1以认识主体为依据对信息进行的划分3、2以信息的生成领域对信息进行的划分3、3以信息的媒体形式对信息进行的划分3、4以信息的逻辑意义对信息进行的划分143、1以认识主体为依据对信息进行的划分客观信息,是指对事物不加判断的如实和公正的报道,即关于认识对象的信息。主观信息,一般是依据事实和分析,阐明个人对论题的观点和见解,是经过思维主体加工的信息。153、2以信息的生成领域对信息进行的划分自然信息,非生命物质的自然信息,是无机界事物属性及事物之间内在联系的表征。自然信息是融合式的、特殊的、弥漫的。生物信息,包括生物与外界联系时做出的反应以及生物体内传递的信息。生物信息是信号形态的信息。社会信息,人类活动和社会发展的信息以及人类接收并破译的自然信息。它以符号信息为特征。思维信息,以人脑为载体,以语言为外壳,以各种感觉器官为接收器,对各种外界信息进行加工、转换,并实现思维分析、语言表达的过程。思维信息是社会信息运动的主体源泉,而社会信息则是思维信息运动的外化和现实化的结果。163、3以信息的媒体形式对信息进行的划分文本信息。按线性顺序排列的,阅读时,人们跟随文本的线性流向吸收其中的知识单元。超文本信息。按知识单元及其关系建立的知识结构网络。其数据库由结点和链路组成,查阅超文本信息时,以知识片段及其关系作为追踪、检索的依据。多媒体信息。多媒体是包括文本、图像和声音在内的各种信息表达或传播形式的总称。多媒体信息系统能针对用户的需求提供各种形式的信息。超媒体信息。是指通过计算机控制,把各种文献载体和各种内容综合为一个整体,从而向读者提供各种形式和各种内容的资料。超媒体是超文本与多媒体两种技术的结合,即在信息浏览环境下超文本的信息管理方式与多媒体的信息表现方法结合在一起时,就称为超媒体。173、4以信息的逻辑意义和利害关系划分有益信息:对社会发展有积极作用的、能够消除人们对未知事物不确定性的信息,它是人类社会的资源和财富。无用信息:指对信息使用者所从事的某种活动没有作用的、多余的信息。衡量无用信息可以使用以下
3个指标:一是德国文献学家瓦斯提出的废页率。二是美国信息科学家彭德尔伯里和加菲尔德等提出的不引率。三是信息冗余度,即信息中超出完整要求而在传递中属于多余的内容。信息的冗余度R=1-H/Hmax。有害信息:指对社会发展和信息用户有消极和阻碍作用的不真实或庸俗、媚俗的信息,主要有虚假信息和色情信息等。18
4、信息与知识、情报、文献的关系
4、1信息与知识
4、2信息与情报
4、3信息与文献
4、4
联系与转换194、1信息与知识知识是人类认识的成果,它是在实践的基础上产生又经过实践检验的对客观实际的反映。人们在日常生活、社会活动和科学研究中所获得的对事物的了解,其中可靠的成分就是知识。依照反映对象的深刻性和系统性程度,知识分为生活常识和科学知识;按知识的成熟程度,分为经验知识、理论知识。除了一部分基础知识外,大部分都是专门知识,是关于某个领域、某个主题、某种思想方法、某门科学、某种技术、某种价值体系、某种社会组织形式的认识。知识具有意识性、信息性、实践性、规律性、继承性和渗透性等基本属性。204、2信息与情报
/4、3信息与文献情报是指被传递的知识或事实,其概念和功能尚在发展中。古代,情报是指“战时关于敌情的报告”。20世纪90年代以来,大情报观逐步确立,情报概念被认为是人类社会中传递的信息。情报3性:知识性、传递性和效用性。情报按应用范围分为科学情报、经济情报、技术情报、军事情报、政治情报等;按内容及其作用分为战略情报、战术情报等等。文献是记录有知识的一切载体。文献是在时间上、空间内用符号和载体积累和传播情报的最有效的手段。214、4联系与转换联系:⑴信息概念不仅包括人与人之间的消息的交换,而且还包括人机之间、机器与机器之间的消息交换,以及动、植物界信号的交换。⑵知识是人类通过加工吸收信息,对自然界、人类社会以及思维方式与运动规律的认识与掌握,是人的大脑通过思维重新组合的系统化信息的集合。⑶情报属于人工信息的范畴,信息和知识都它的来源。转换:⑴物质运动发出信息;⑵信息经人脑加工变成知识;⑶知识被记录形成文献、被传递成为情报;⑷情报应用于实践产生新的信息、失去时效又还原为知识和信息。
发出大脑加工事物信息知识
反馈传递利用存贮情报传递利用文献22
二、信息社会的基本特征1、信息数量的激增。2、信息职业的扩大。信息业成为经济发展中的基干产业,从事信息业的人数占社会劳动力的多数。3、信息资源的显化。信息与能源、材料并驾齐驱、甚至成为更重要的战略资源。我们把一个社会从以材料、能源即物质为基础向以信息、材料和能源并立而信息更具有基础性的发展态势,称之为社会信息化。4、信息应用的泛化。信息技术和信息产品深入到日常生活中。决策科学化、生活多样化、权力分散化和技术综合化等等都与信息网络的发展息息相关。5、信息意识的强化。信息意识是指对有关信息、知识和情报具有高度的敏感性和洞察力,并且及时对其进行分析、联想、综合、推理等,从而判断该信息是否能为自己或某一团体所用,是否能解决现实中某一特定问题等一系列思维过程。主要包括对信息功能的认同意识,对信息来源的选择意识,对信息内涵的同构-再生意识,对信息的检索、利用和开发意识等。23三、信息检索教学的主要意义1、一个平台:培养学生的信息意识,提高其自学能力和独立研究的能力。1992年国家教委高教司在《文献检索课教学基本要求》的通知中指出:“文献检索课是培养学生掌握利用图书文献/情报检索,不断提高自学能力和科研能力的一门科学方法课。”
2、一个引擎:促进信息资源的开发利用,使文献信息机构成为社会信息化发展的智力引擎。信息资源是人类最宝贵的智慧资源,具有可再生性、可建设性、价值的潜在性等特征,是人类所有依赖的资源中最重要的资源。随着自然资源的日益减少甚至枯竭,信息资源的重要性表现得更为明显。3、一个工具:避免科研劳动的重复浪费,协助管理者做出正确的决策。24四、信息检索与利用教学的基本内容1、信息检索的基本知识:文献、情报、知识、信息的概念;不同文献类型的特点;专业文献概况及主要收藏单位;情报与InformationLiteracy对科学活动及个人知识增殖的作用;文献检索的意义和作用。2、信息检索的基本原理:信息检索类型、检索程序和方法;检索语言与排检法;检索工具和参考工具书的类别、特点、功用及其结构;数据库、计算机检索的基本策略。3、信息检索的基本技能:①掌握若干种基本的综合性和专业性中外文检索工具,了解其内容特点、结构和著录格式,能够通过多种途径使用它们检索和专业相关的不同类型的文献。②掌握若干种主要综合性和专业性参考工具书,了解其内容特点、适用范围和查阅方法,能够使用它们进行事实检索和数据检索。③初步掌握机检方法,包括选择数据库、制订检索策略、分析检索结果。④能够独立地根据检索课题选用适当的检索工具,并综合使用多种检索工具和参考工具书完成检索课题。⑤掌握获取原始文献的主要方法。4、信息利用的基本素质:掌握科学研究的基本方法,熟悉学位论文的要求;掌握一定的文献阅读、整理和分析研究的基本方法和技能,具备初步的科学研究方法与研究论文的写作能力等。2024/3/2025一、信息检索的概念信息检索是指知识的有序化识别和查找的过程。1、信息检索是信息获取的一种主要方式。2、信息检索萌芽于图书馆的参考工作。3、信息检索是人类信息活动的高层次,包括存与取两个环节。4、信息检索的本质是一种通讯。5、信息检索是一个发展中的概念。信息检索“就是最终用户借助信息源(或知识源)、推理机,通过人-机、机-机或人-人等系统之间的交互联作,以期达到启迪的认知结构动态的建构过程”。2024/3/2026CalvinN.Mooers,1919~1994
穆尔斯(CalvinN.Mooers,1919~1994)在1948
年提出此术语时,把它定义为一种“延时性通讯形式”。其特点是:发信者在某一时刻发出信息,而接收者可以在晚一些时刻才收到该信息;发信者必须发出一切可能的信息,而接受者必须有某种检索装置以便从大量发送的信息中筛选出适合自己需要的信息。Mooerscoinedtheterms"informationretrieval"anddescriptors"inhisMITMaster'sthesisin1948.HethenwentontodeveloptheZatocodingsystemofsuperimposedrandomcoding.MooersfirstdevelopedtheTRACprogramminglanguagebetween1959-1964.Mooerswasanearlyadvocateoftheuseofintellectualpropertylaw,includingcopyrightandpatents,toprotectcomputerprogramminglanguages.2024/3/2027二、信息检索的类型1、按照存贮与检索的对象进行划分2、按照存储的载体和查找的技术手段进行划分3、按照存贮文献的时间进行的划分4、按照检索系统的结构进行的划分2024/3/20281、按照存贮与检索的对象进行划分1、1Documentretrieval:以文献为检索对象的信息检索,是指将文献按一定的方式存贮起来,然后根据需要从中查出有关课题或主题文献的过程。书目检索:以文献线索为检索对象。换言之,检索系统存贮的是书目、专题书目、索引和文摘等二次文献。全文检索:以文献所含的全部信息作为检索内容,即检索系统存贮的是整篇文章或整部图书。1、2Dataretrieval:以具有数量性质并以数值形式表示的数据为检索内容的信息检索,或称数值检索。1、3Factretrieval:以文献中抽取的事项为检索内容的信息检索,或称“事项检索”。2024/3/20292、按照存储的载体和查找的技术手段进行划分2、1Manualretrieval:用人工方式查找所需信息的检索方式。2、2Mechanicalretrieval:利用某种机械装置来处理和查找文献的检索方式。穿孔卡片检索:Punchcard是一种由薄纸板制成的、用孔洞位置表示信息,通过穿孔或轧口方式记录和存储信息的方形卡片。缩微品检索:把检索标识变成黑白点矩阵或条形码,存储在缩微胶片或胶卷上,利用光电效应,通过检索机查找。2、3Computer-basedretrieval2024/3/20302、3Computer-basedretrieval计算机检索是指把信息及其检索标识转换成电子计算机可以阅读的二进制编码,存储在磁性载体上,由计算机根据程序进行查找和输出。脱机检索:成批处理检索提问的计算机检索方式。联机检索:检索者通过检索终端和通信线路,直接查询检索系统数据库的机检方式。1964年,美国国家医学图书馆开始MEDLARS联机情报检索系统商品服务。光盘检索:以光盘数据库为基础的一种独立的计算机检索,包括单机光盘检索和光盘网络检索两种类型。1983年首张高密度只读光盘存储器诞生;1984年美国、日本和欧洲开始利用CD-ROM存贮科技文献。网络检索:利用E-mail、FTP、Telnet、Archie、WAIS、Gopher、Veronica、WWW等检索工具,在Internet等网络上进行信息存取的行为。2024/3/20313、按照存贮文献的时间进行的划分3、1SelectiveDisseminationofInformation:它是预先把用户需要的有关文献存贮在计算机的存贮器中,定期按用户提问要求从存贮器中检索出用户所需要的最新文献,发给用户,使用户能定期得到所需要的文献信息。3、2RetrospectiveSearch:它是根据用户提出的课题,提供某一时间以前文献的检索方式。2024/3/2032一、信息检索的基本原理检索的基本原理:对信息集合与需求集合的匹配和选择。个人问题特征化选择与特征化信息与知识表示匹配D&I表示集合I需求集合D2024/3/2033信息检索基本过程可定义为一个四维组,即S=(D,Q,T,δ)。D为文献集合,Q为用户查询,T是标引集合,而δ为匹配函数。δ:D/×Q/→R,D/是标引的文献集合,Q/是标引的查询集合,R为函数值集合。每个具体的δ值就表示具体的文献d关于某次查询q的相关程度。(借助于检索语言)信息处理中心σ查寻Q标引Q’输出ψ(q)文献D标引D’2024/3/2034二、信息检索基本原理的阐释1、需求集合2、信息集合3、匹配与选择2024/3/20351、需求集合需求集合涉及人类生存所必需的一切东西,其中包括信息需求。信息需求的结构与规律。⑴信息需求是一种运动状态,并表现为三个层次结构。⑵信息需求的心理行为规律包括Mooers定律、Zipf最少省力法则、马太效应和罗宾汉效应。⑶学生信息需求特征。信息需求的识别与表达。信息需求的处理与加工。即采用特定的检索语言将信息需求表示出来,换言之,将检索问题或课题进行处理,抽取出主题内容或其他特征。经过这样处理的信息需求称之为Query。2024/3/20362、信息集合信息集合是指有关某一领域的文献或数据的集合。信息集合的复杂性。信息集合的序化。Accesspoint。每件信息都包含有其内部和外部的特征即信息的属性,这些特征可以用来作为检索的出发点和匹配的依据。我们称之为检索点。2024/3/20373、匹配与选择匹配与选择是一种机制,它负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息。采用布尔模型,一个文档通过一个关键词条的集合来表示,这些词条来自一个词典。在查询与文档的匹配过程中,主要看该文档中的词条是否满足查询的条件。采用向量模型,计量文档向量与查询词串之间的相似度。采用概率论模型,将文档按照与查询的概率相关性的大小进行排序,排在最前面的文档是最有可能被获取的文档。此外,还可以采用神经网络模型、基于命题逻辑模型、聚类模型、基于规则模型、模糊模型和语义模型等,来深入研究查询与文档之间的匹配过程。2024/3/2038
讨论题Topic你了解哪些信息需求和信息系统?Topic你在学习方面的信息需求的分布状况(按降序或升序排列)?Topic你查寻信息的基本途径有哪些?2024/3/2039Topic你了解哪些信息需求和信息系统?由于父母培养孩子的方法不当,尤其是在最初三年间,许多孩子不能充分发挥其潜力信息经济日新月异,但西北地区的信息水平却很低。孩子教育费用、抚育费用逐年变化情况。肚子饿了,想在兰州市找家饭店却无法弄清孰好孰坏。2024/3/2040Topic你在学习方面的信息需求的分布状况?类型上:教科书、专著、工具书、研究报告、专利文献等;内容上:专业文献、课外读物(文学、管理、经济、政治等)等;地域上:本单位、外单位、外地等;语种上:中文、外文、少数民族文字等。2024/3/2041Topic你查寻信息的基本途径有哪些?检索即是一种交流,它可以是内向的,也可以是外向的。2、同行同事3、中介4、技术5、已记载的知识1、生存环境1、文献信息检索阶段(前两千年~1954)。
公元前两千年,类似文摘的东西首先出现在封装美索不达米亚人用楔形文字写成的文献的陶制封套上。2、脱机信息检索阶段(1954~1964)。1954年,美国海军军械实验站图书馆研制出计算机信息检索试验系统。3、
联机信息检索阶段(1964~1972)。1964年,美国医学图书馆开始了MEDLARS联机信息检索系统商业化服务,使计算机信息检索进入了新的历史发展阶段。4、网络信息检索阶段(1972~目前)。1972年,MEDLINE率先加入TYMNET通信网,然后又加入TELENET通信网。随后,DIALOG、ORBIT等系统也相继进入网络,从而使信息检索进入到网络检索阶段。5、光盘信息检索阶段(1985~目前)。1985年,第一张商品化的CD-ROM数据库Bibliofile,即美国会图书馆的MARC问世,标志着光盘信息检索异军突起,并大有与网络信息检索平分秋之势。43
信息源概念与类型1、信息源的概念与一般特征信息源是指能够提供信息、满足人类信息需求的来源,凡是人类能够获取信息的实体都是信息的来源。信息源具有结构上的多样性和功能上的互补性。2、信息源的基本类型与特点口头信息源实物信息源机构信息源文献信息源44口头信息源与实物信息源口头信息源:传播口头信息的个人或场合。口头信息源具有广泛性、针对性、适时性、随意性和层次性等特点。实物信息源:载有信息内容的各种实际物体的总称。实物信息源具有真实性、综合性、直观性、间接性和商品性等特点。45机构信息源与文献信息源机构信息源:传播信息和提供信息的社会机构。⑴创造信息的机构:学术机构和团体、高校、科研单位和政府部门等;⑵生产信息的机构:出版发行机构、编辑部、报社等;⑶研究信息的机构:信息研究所、数据中心、咨询中心等;⑷传播信息的机构:大众传媒,如电视台、广播电台等;⑸收藏信息的机构:图书馆、文献中心、资料室、档案馆等。文献信息源:记录和传播信息的各类文献,是信息源的主体和检索的主要对象。文献信息源具有交流性、积累性、社会性、时效性和可整理性等特点。46
2-1初识文献
一、文献概念二、文献要素三、文献资源四、经济管理文献47一、文献概念:文献是记录有知识和
信息的一切载体“文献”一词最早见于《论语·八佾》,“夏礼吾能言之,杞不足徵也;殷礼吾能言之,宋不足徵也;文献不足故也。足,则吾能徵之矣”。汉·郑玄释文献为文章和贤才;宋·朱熹注:“文,典籍也,献,贤也。”元代的马端临在《文献通考》自序中指出:“引古经史谓之文,参以唐宋以来诸臣之奏疏,诸儒之议论谓之献。故名曰:‘文献通考’。”近现代,文献作为一个整体术语,在两个层面上使用:狭义上,文献被理解为“具有历史价值的图书文物资料”和“与某一学科有关的重要图书资料”;广义上,文献被理解为记录有知识和信息的一切载体。在国外,Document一词最早由法国文献学家保罗·奥特勒(P.Otlet)提出,泛指“固定、传递、使用信息的物质客体”。48二、文献要素:人们认识文献的关键
1、信息内容
2、信息符号
西平石经
3、记录方式
4、载体材料
甲骨文献
扶风纸
老子帛书49信息内容与信息符号信息内容:文献中所表达的思想意识和知识观念。它是文献的内涵、灵魂之所在,直接体现了文献精神产品的性能,具有知识和情报价值。信息符号:符号系统是揭示文献信息内容的标识,表达知识情报的手段,记录和传播文献信息内容的媒介。文献信息符号主要是从语言不断衍化而来的,并逐步发展为文字、图画、表格、公式、编码、声频和视频等类型。50记录方式与载体材料记录方式:是指将文献符号系统所代表的信息内容通过特定的人工记录手段和方法使其附着于一定的文献载体材料上。文献记录方式具体包括刻划、书写、印刷、拍摄、录制、复印和计算机录入等。载体材料:是可供记录信息符号的物质材料,是全部信息载体中一个重要的子系统。文献载体反映了文献物质产品的性能,具有商品、保存和流通价值。文献载体大体经历了泥板、纸草、羊皮、蜡板、甲骨、金文、石头、简牍、缣帛等早期载体,到纸的出现,再到现代各种新兴文献的发展过程。文献是物化的精神产品,或者说,文献是知识信息的物化形态。其中,信息内容是文献的知识内核,载体材料是文献的存在形式和外壳,而符号系统和记录方式则是二者联系的桥梁和纽带。这4个要素相互联系就构成了文献的四维框架结构。51三、文献资源:人们认识文献的根本所在文献是一种资源,文献资源是人类社会积累、贮存的有序文献的总和或集合,是人类智力资源的主要存在形式。1、可再生性。文献资源不同于一次性消耗资源,它可以反复利用、异地传播、原文复制。2、可建性。文献资源是人类自己创造的智力资源,人们可以对它进行规划、建设、改造和优化。3、共享性。人类有可能、也应当共同分享全世界的文献资源,使之为全人类的进步发挥更大的作用。4、冗余性。社会文献资源并不是各单位文献的简单算术和,相同内容文献的重复积累不仅不能增加信息总量,并形成体系完备、功能最佳的文献资源,相反还会阻塞文献交流通道,使有用信息的传递发生迟滞性干扰。5、价值潜在性。文献资源的作用往往是间接的,其经济和社会效益的实现完全依赖于文献资源被开发利用的程度。52四、经济管理文献经济管理文献是记录有经济管理知识和信息的一切载体。经济管理文献具有较强的生命力,具有较强的经济和管理效益,具有明显的情报价值。经济类文献的基本类型管理类文献的基本类型53
经济类文献的基本类型经济学理论类:包括马克思主义政治经济学和西方各经济学派的经济理论和经济学说等文献。经济史类:包括经济发展史、经济思想史、经济技术史和各种经济学说史等文献。部门经济学类:研究某一具体经济领域内经济发展规律的文献。技术经济学类:研究和记录各个部门所使用的先进技术手段和先进管理方法及其经济效益和社会效益的文献。经济法规和经济政策类:包括一切有关经济的法律、法令、条例、规则和章程及各种纲领性措施和方法。经济统计类:以客观或直观的数据图表等形式反映某一地区或某一国家在某一时期内经济发展的变化、动态和趋势。经济组织机构和人物资料类。经济信息类:指传递和指导经济实践活动中有关经济信息和发展动态的文献。54Primaryliterature是指作者对已经创造的知识信息进行第一次加工固化而形成的文字记载。一次文献具有原始性、创造性和分散性等特点。Secondaryliterature是指文献工作者对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征或基本内容进行著录、改组,并按照一定的学科或专业加以有序化而形成的文献形式。二次文献具有汇集性、检索性和通报性、系统性等特点。目录、索引、文摘是最基本的二次文献类型。Tertiaryliterature是指文献研究者按给定的课题,利用二次文献选择有关的一次文献加以分析综合而创作出来的文献形式。三次文献具有综合性、针对性和价值性等特点。文献经过外部替代、内容改组和综合研究,从一次文献到二次文献再到三次文献,使文献由博而约、由分散到集中、由无组织到系统化,使离散和个别的信息递增为系统的和定型的知识。55二、以文献的物质载体形式为标准划分1、Originaldocument2、Paperdocument3、Microformdocument4、Audio-visualdocument5、Machine-readabledocument56早期文献:笨重、昂贵、荷载信息少,并具有偏倚时间等特征。纸质文献:以纸张为载体,用书写或印刷等方式记录知识的文献。缩微文献:用缩微照像的方式,将原始文献缩小若干倍存储在感光材料上,并借助于专用阅读器而使用的文献。包括Microfiche、Microfilm和Microcard(Micro-opaque)等类型。缩微文献具有自己的特点。57音像型文献:以磁性材料、光学材料等为记录载体,利用专门的机械装置记录与显示声音和图像的文献。主要有Videoform、Audiodocument和Audio-visualdocument等。音像文献具有存储密度高,内容直观真切、表现力强,易于接受和理解,传播效果好等优点。机读文献:是指以机器(主要是计算机)能阅读和处理的形式存储在某些特殊载体上的信息集合体。机读文献具有信息存储量大,编辑出版迅速、传输存取方便,可提供立体的、动态的图文信息以及保存时间长等特点。机读目录、文摘索引磁带、联机数据库、光盘、电子票据、电子邮件等都是机读文献的家族成员。光盘是指利用激光将信息写入和读出的高密度存储媒体。有只读光盘、一次写入光盘、可擦除光盘等类型。58三、以文献的出版形式为主要标准的综合性划分1、Book2、Serial3、Scientific&TechnicalReport4、ConferenceLiterature5、StandardsLiterature6、ProductSampleBook7、GovernmentPublication8、PatentLiterature9、Archives10、DissertationforAcademicDegree59
1、Book用文字、图画或其他符号手写或印刷于纸张等形式的载体上并具有相当篇幅的文献。“图书”一词最早见于《史记·萧相国世家》。广义的图书泛指一切书籍、期刊、小册子、图片等文献。狭义的“图书或称专著,以印刷方式单本刊行的出版物”。就内容而言,图书的主题鲜明,内容系统完整,论述全面深入,知识相对成熟稳定;但由于编撰出版周期较长,其内容有滞后现象,一般不含最新的信息。就形式而言,图书都有相当篇幅,装订成册,完整成型。图书的类型多种多样,Textbook和Referencebooks是较为重要的图书类型。60
2、Serial印刷或非印刷形式的出版物,具有统一的题名,定期或不定期以连续分册形式出版,有卷期或年月标识、并计划无限期地连续出版(GB3792.3-85《连续出版物著录规则》)。连续性、及时性和稳定性是连续出版物的主要特点。连续出版物通常包括期刊、报纸、年刊(年鉴、指南等)、成系列的报告、学术会刊、会议录和专著丛刊等。其中Periodical和Newspaper是最基本的两种类型。61Periodical:有固定名称,定期或按宣布期限出版,并计划无限期出版的一种连续出版物。主要刊登论文、记事或其他著述。通常每年至少出版两期。世界上最早的期刊是1665年1月法国巴黎创刊的《学者杂志》和1665年3月英国皇家学会创办的《哲学汇刊》。第一份中文期刊是英国传教士马礼逊于1815年8月5日在马六甲创办的《察世俗每月统计传》。期刊的类型是多种多样的,有学术性期刊(常冠以Proceeding/Bulletin/Journal等)、情报资料性期刊(Newsletter/Progress/Advance),检索性期刊、普及性期刊、时政性期刊等。核心期刊是期刊研究中最重要的问题。Newspaper:主要刊载新闻和评论,出版周期较短的定期连续出版物。报纸具有传递信息快,现实感强,信息量大等特点。中国唐代官府的“邸报”和古罗马元老院的《每日纪闻》被视为古代最早的报纸。近代较早的报纸有1609年在德国出版的《报道新闻报》、《政府报》等。1858年香港出版的《中外新闻》是最早的中文报纸。623、Scientific&TechnicalReport科技报告是对科学技术研究成果或研究进展的记录。
美国四大报告。在内容上,科技报告具有新颖性、多样性、保密性、真实性和专业性等特点;在形式上,科技报告入藏统一、格式统一、著录项目完整、篇名较为冗长,同时,每份报告都自成一册,印刷装帧比较简单。报告的类型:按科技报告反映的研究阶段划分为研究过程中的报告,如Statusreports、Preliminaryreports、Interimreports、Progressreports、Informalreports;研究工作结束时的报告,如Finalreports、Definitivereports、Testresultsreports、Completionreports、Formalreports、Publicreports等。按报告的文献形式划分为Reports、Notes、Papers、Memorandum、Bulletin和Technicaltranslation等。按报告的使用范围划分为Secretrep.、Confidentialrep.、Unclassified/Limitedrep.、Delimitedrep.和Declassifiedrep.等63
美国四大报告及其检索工具PB报告:1945年6月,美国成立商务部出版局(OfficeofthePublicationBoard),负责整理公布从战败国获取的科技资料,并编号出版,号码前统一冠以PB字样。20世纪40年代的PB报告主要为战败国的科技资料;50年代起,主要是美国政府科研机构及其有关合同机构的科技报告;20世纪70年代以后,PB报告侧重于民用工程技术。AD报告:1951年5月,美国成立ArmedServiceTechnicalInformationAgency,负责收集、整理、编辑、出版国防部所属海陆空三军军事系统科研机构及其与该部订有合同的工业企业、高等院校提出的军事科研报告,在该部规定的范围内发行。AD报告即是这个情报局出版的文献。PB、AD报告的主要检索工具是美国商务部国家技术情报服务处NTIS编辑出版的U.S.GovernmentReportsAnnouncementandIndex,简称GRA&I。64NASA报告:美国NationalAeronauticsandSpaceAdministration拥有的研究机构产生的技术报告。该局成立于1958年10月1日,其前身是美国国家航空咨询委员会(NationalAdvisoryCommitteeforAeronautics,NACA)。NACA报告创刊于1915年,主要检索工具是1963年创刊的《宇航科技报告》(ScientificandTechnicalAerospaceReports,STAR)。AEC/ERDA/DOE报告:1946年美国建立AtomicEnergyCommission,AEC报告即为该委员会所属单位及其合同户编写的报告。1975年,该委员会更名为EnergyResearchandDepartmentAdministration,AEC报告于1976年相应改称为ERDA报告。1977年,该署又扩大为USDepartmentofEnergy,1978年7月起逐渐冠以DOE报告。主要检索工具为NuclearScienceAbstracts,(NSA,1948~1978)、EnergyResearchAbstracts(ERA,1978~)。654、ConferenceLiterature在学术会议上宣读和交流的论文、报告及其他有关资料。按会议的性质和规模划分有Congress/Conference/General
Assembly/Seminar/Symposium/Workshop/Discussiongroupmeeting/Committee/Workinggroup等类型;按会议的级别划分有国际性会议、全国会议、地区会议和基层会议等。会议文献具有内容新颖,传递及时;专业性和针对性较强;数量庞大,类型多样等特点。会议文献通常分为Pre-meetingpublications,包括征文启事、会议通知书、Program、AdvancedAbstracts和Preprints等;会中文献;Post-meetingpublications,包括Proceedings、Conferencepapers、Transactions等。其中,会议录是会后将论文、报告及讨论记录整理汇编而公开出版或发表的系统化文献。许多国家出版有各种会议文献检索工具或数据库。665、StandardsLiterature狭义指按规定程序制订,经权威机构或主管机关批准的一整套在特定领域内必须执行的规格、规则、技术要求等规范性文献。广义指与标准化工作有关的一切文献。标准文献有多种类型和特征,国外经常使用Standard、Specification、Recommendation、RulesInstruction、Handbook、Practice、Code和Bulletin等来表示标准文献。现代标准文献产生于20世纪初。1901年英国成立了第一个全国性标准化机构,1906年成立的InternationalElectrotechnicalCommission和1947年2月成立的InternationalOrganizationforStandardization是最重要的国际标准化机构。1956年我国设立国家标准局,1957年8月加入IEC,并颁布了第一批国家标准;1978年成立国家标准总局,并于同年9月加入ISO。1989年4月1日《中华人民共和国标准化法》实施。中国标准化综合研究所标准馆是中国标准文献中心,收藏有各种级别的标准文献数十万件。676、ProductSampleBook
厂商为向用户宣传和推销其产品而印发的介绍产品情况的文献。但也有少数是产品主管部门出版的。产品样本主要包括产品说明书、产品数据手册、产品目录、厂商介绍和厂刊、外贸刊物等。产品文献所介绍的多是已经投产或行销的产品,反映的是较为成熟的技术,所列的各种特征曲线、数据、表格等比较具体,但不详细,不提供理论依据。产品文献是工程人员设计、制造新产品的重要参考资料,是产品使用人员和维修人员的指南,也是决策管理和市场营销工作者掌握产品市场情况和动向的重要信息源。有许多产品目录、手册、样本数据库、年鉴等可供检索。687、GovernmentPublication由政府机构制作出版或由政府编辑、由政府指定出版商出版的文献。UNESCO规定:政府出版物是根据国家机关的命令并且由国家负担经费而出版的一切记录。常见的出版形式有报告、公报、文件汇编、会议录、统计资料、政府工作手册、官员名录、国家机关指南、地图、地名词典等。西方国家多设有政府出版物的专门出版机构,美国政府出版局和英国皇家出版局都是世界上著名的出版机构。政府出版物主要包括行政性文献和科技文献两种类型,并具有内容广泛、可靠性强,一定的保密性,售价低廉或免费供应。政府出版物与其他文献重复现象比较突出。一个国家的政府出版物的封面往往有其惯用的颜色。美国政府文件、英国下议院文件冠以白皮书,英国国会文件冠以蓝皮书,法国政府公布的报告冠以黄皮书,意大利政府的报告和外交文件、英国政府各部发表的文件冠以绿皮书,美国外交文书、英国中央统计处的国际收支表冠以红皮书,而日本则将外务省的外交文书等冠以灰皮书。698、PatentLiterature8、1概念与发展8、2特征与类型708、1专利文献的概念与发展专利文献是指记录有关发明创造信息的文献。广义包括专利申请书、专利说明书、专利公报、专利检索工具以及与专利有关的一切资料;狭义仅指各个国家或地区的专利局出版的专利说明书或发明说明书。专利文献是专利制度的产物。世界上最早建立专利制度的是威尼斯城邦,1416年2月20日,它批准了第1件记载的专利;1474年威尼斯共和国颁布了世界上第1部专利法。17世纪末~18世纪初,西方各国相继颁布了专利法。19世纪下半叶出现了国际性专利组织并缔结了多种国际条约和协定。20世纪80年代初,全世界有130多个国家建立了专利制度。1980年1月,国务院正式批准中国建立专利制度,并成立了中华人民共和国专利局;1984年3月12日,我国制订并通过了《中华人民共和国专利法》,1985年4月1日正式实施。718、2专利文献的特征与类型专利文献寓技术、法律和经济信息于一体,内容新颖、出版迅速,内容可靠、实用性强,规格统一、分类科学,专利文献的数量庞大,重复性较高。目前已经有系列检索工具(专利公报、文摘索引刊物、专利光盘等)。1980年,中国建立中国专利文献服务中心。729、Archives国家机构、社会组织以及个人从事政治、军事、经济、科技、文化、宗教等活动直接形成的具有保存价值的各种文字、图表、声像等不同形式的历史记录。中国明代以前档案有典册、简牍、文书、簿书、案卷、文案、案牍等称谓。档案的主要特点:⑴记录性和原始性。档案是由文件转化而来的历史记录。⑵定向积累性和历史联系性。档案是各种机关、组织和个人在特定的社会活动中积累而成的文件组合体,其产生与存在始终渊源于专门的形成单位和其职能活动,并由此构成档案材料之间的内在联系。⑶可靠性和稀有性。档案材料是历史的原始记录,具有可靠性,并且多具有单一性和稀有性。我国通常把档案分为文书档案、科技档案和专门档案3种基本类型。7310、DissertationforAcademicDegree学位论文通常是指高校或研究机构的学生为取得学位在导师指导下完成的科学研究、科学试验成果的书面报告。它是科技论文的一种重要类型。此外,Records、MusicScore、Map等都是文献家族中的重要成员。74四、按文献传播和使用范围进行的划分1、白色文献:即通过正式渠道公开发行的文献,具备内容的公开性、发行范围的广泛性等特点。2、黑色文献:指不正式出版、发行范围狭窄、内容保密的文献。绝大部分黑色文献都有密级规定,其制作、保管和流通都有严格控制;非特定读者无法获取。3、灰色文献:指不正式出版、也非秘密文献。75
经济管理类核心期刊核心期刊是指在某一学科或专业信息密度大、刊载论文数量多、借阅率和被引率较高的少数期刊。一般来说,与某学科有关的论文总数的50%刊登在相关期刊总数5%~10%的期刊上,这小部分期刊,我们就称之为核心期刊。我国核心期刊的研究始于20世纪70年代。《世界图书·B辑》1981年第6期刊出《国外科技核心期刊专辑》,报道了88个不同学科的核心期刊表。以后,陆续出版了《中国科技核心期刊》(1990)、《国外科技核心期刊手册》(1991)、《中文核心期刊要目总览》(1992)、《中国自然科学核心期刊百种表》(1992)、《中国科学引文数据库核心期刊》(1994)、《自然科学一流学术期刊》(1995)和《国外人文社会科学核心期刊总览》(1997)等重要成果。全面掌握经济管理核心期刊的刊名、刊期、创刊时间、创办者、地址、主要内容等,并能够在实际工作和科学研究中有效地利用这些核心期刊。76
我国核心期刊研究77一、数量庞大,增长迅速1、现象描述:据统计,世界图书产量为80万种/年,期刊为10万种/年,并以5%的速度增长。科技期刊的增长速度更快,每7~8年就增长一倍;有些新兴学科,每隔3年左右就翻一番。目前,全世界专利文献每年增加100万件,技术标准增加20万件,产品样本增加50~60万件,会议文献增加100万篇左右,各种连续出版物40万种。若以信息单位计算,当今每天约有40亿个信息单位的信息量向全世界发送,年递增速度为18~20%。782、数学描述:1961年,D.Price在ScienceSinceBabylon一书中指出:“似乎没有理由怀疑任何正常的、日益增长的科学领域内的文献是按指数增加的,每隔大约10~15年时间增加一倍,每年增长约5~7%。”他进一步指出,整个科学系统资金、人力和物力的指数输入是造成科研成果和科技文献指数输出的重要原因;并且认为,科研人员、科研经费与文献量呈n、n2、n1/2三个阶数关系。通过对科学期刊的历时性研究,普赖斯得出科学文献增长同时间呈指数函数关系。793、图像描述:以历史年代为横轴,以文献量为纵轴,普赖斯描绘了文献增长的指数模型。即:F(t)=aebt,a>0,b>0,t为时间,a为条件常数,即t=0时的文献量,b为时间常数即持续增长率。
F(t)F(t)=aebtF(t)
科学期刊
106104文摘杂志
t102
t
16651770180019001965804、理论研究之进展。B·纳里莫夫逻辑曲线增长模型;A·И·米哈依诺夫直线增长模型:F(t)=bt+a。一般的看法,文献增长经历四个阶段:缓慢增长的初始阶段,指数增长阶段,线性增长阶段和缓慢增长阶段。5、文献增长对文献检索的影响是多方面的。勒希尔的分级滑动指数模型:F(t)为文献总量,则在λ级上的文献量为[F(t)]λ,λ为文献的质量等级指标,0≤λ≤1。具体而言:(1)λ=1,起码是常规文献(代表了所有文献):F(t)λ=1=aebt;(2)λ=3/4,起码是有意义的文献:F(t)λ=3/4=[aebt]3/4;(3)λ=1/2,重要文献:F(t)λ=1/2=[aebt]1/2;(4)λ=1/4,起码是非常重要的文献:F(t)λ=1/4=[aebt]1/4;(5)λ=0,头等重要的文献:F(t)λ=0=㏑a+bt。81二、时效性强,代谢频繁文献老化(Obsolescence)是指文献随着时间推移而使用频次逐渐减少的现象。2、1文献老化的衡量指标
Half-life、Price’sIndex和Residualutility2、2文献老化的数学模型负指数模型和伯尔顿-凯普勒老化方程
822、1文献老化的衡量指标衡量文献时效,一般有3个指标:半衰期:指现有活性文献中一半的出版时间,或者说,某一学科或专业被利用的文献总量中,一半文献失去效用所经历的时间。各个学科领域和文献类型的半衰期。普赖斯指数:在某一知识领域内,把对年限不超过5年的文献的引文数量与引文总量之比当作指数,用以度量文献老化。即P=被引文献数量(≤5年)/被引文献总量×100%。剩余有益性。有益性是指某一年份某一期刊被用户利用的文章的次数,经过若干年后,期刊还保留的有益性即称为剩余有益性。83各个学科领域和文献类型的半衰期Burton&Kebler对9个领域半衰期的测定数据(1960):苏联《发明杂志》对各类文献半衰期的统计研究数据:学科领域冶金物理学化工机械生理学化学植物学数学地质学半衰期(年)3.94.64.85.27.28.110.010.511.8文献类型图书科技报告学位论文技术标准连续出版物产品样本半衰期(年)10~20105~753~53~5842、2文献老化的数学模型负指数模型:1970年,英国的B.C.Brookes提出了科技期刊文献的被引数量随着时间推移的衰减过程服从简单的负指数规律的假设:C(t)=C0e-bt
。式中,t表示文献的出版年龄(以10年为单位),C(t)表示t年所发表的文献的引用频率,C0为t=0时文献被引用的初始量,b为文献老化速度,0<b<1。伯尔顿-凯普勒老化方程:1960年,美国的伯尔顿和物理学家凯普勒发现科技文献衰变曲线并求出了这一曲线的标准公式:Y=1-(a/ex+b/e2x),式中,a+b=1,Y是被文献量累积百分数(经过一定时间该学科尚在利用的文献的相对数量),x为时间即被引文献出版年龄(以10年为单位),a、b是因学科专业而变化的常数。文献老化规律对信息检索的具有重要的影响。85三、广泛分散,交叉重复科技知识的高度分化和高度综合,使科技文献呈现出高度的离散性和冗余性。就离散性而言,同一专业文献分散在众多的相关专业刊物上,与此同时,某一学科或专业的刊物,除刊载本学科或专业的文献外,还刊载其他学科或专业的文献。这种离散性使用户无法检索到专业文献的全部;但同时也把用户引入到一个交叉渗透的科技世界,有利于用户思考和研究学科的相关性以及科学发展的网络结构。就冗余性而言,科研选题的重复,同一知识内容的不同表现方式等使文献的内容交叉重复现象比比皆是。86四、载文聚散,分布有序[英]文献学家S.C.Bradford在1934年发表的DocumentaryChaos一文中,首次揭示出文献分布的规律。Vickery称之为Bradford’sLawofScattering。4、1布氏定律的基本表述4、2布氏定律的基础与应用874、1布氏定律的基本表述如果将科学期刊按某一给定学科的论文刊载量多少,以递减顺序排列起来,就可以将这些期刊分成专门论述该学科的核心区和另外几个区,其中每区期刊的载文量与核心区期刊载文量相等,这时各区的期刊数成1∶n∶n2∶…。n为布氏常数,n>1,约等于5。如果将一定时间内的按载文量等级排序的期刊分为3个区,使每个区所包含的相关论文数量相等,即恰好等于全部期刊就此学科发表论文总数的1/3,那么就可以发现:Zone1所涉及的论文来自数量不多但效率最高的P1种期刊;Zone2包括数量较大、效率中等的P2种期刊;Zone3包括数量最大但效率很低的P3种期刊。3个区的期刊数量成下列关系:P1∶P2∶P3=1∶n∶n2
。884、2布氏定律的基础与应用布氏定律的基础是科学的统一性和多样性原则。科学既是统一的力场,也有着复杂多样的联系。布氏定律在信息检索中的应用:⑴测定核心期刊。采用载文率、摘引率和流通率等指标来进行。⑵测定检索工具的完备性。对文摘或索引的实际款目数量和摘引的期刊数量进行比较。⑶测定全检论文总数,估计检索范围,计算检全率等指标。89五、形式多样,文种复杂文献类型复杂多样,尤其是电子型信息资源大量涌现。这就要求信息检索不能固守于传统的书本而应当熟练掌握各种类型文献信息,尤其是现代各种数据库的检索技能。世界各国出版的科技出版物所有文种有70~80种,比较常用的也有7~8种,其分布大体为:英文50%,德、俄文各占10%,法文7%,日文3%,西班牙文2%,中文和其他文种则占18%左右。与此同时,各种专业术语和符号越来越多,这些都增加了信息检索和利用的难度。据UNESCO统计,在全世界出版的科技文献中,有50%以上的文献是用50%以上的科学家不懂的语种发表的。90附录:社会科学文献的基本特征社科文献的内容特征社科文献的形式特征社科文献的运动特征91社科文献的内容特征较多主观因素,较少客观因素。按科学知识所含的主观因素递增排序为:自然科学→技术科学→社会科学。较多相对性,较少绝对性。社科理论的提出总是根据某一特定时间段,而科学理论则往往是超越时间的。多为定性思辨,较少定量分析。“分析经济形式,既不能用显微镜,也不能用化学试剂;二者必须用抽象力来代替”。多为综合性,少有专业性。由于社会现象或社会问题的多面性,社会科学研究中的高度综合并与科技理论相渗透,使得社会科学文献在内容上的综合性比较突出。较多依附性,较少独立性。社科理论与其创始者的命运息息相关。根据D.Pendlebury和Garfield等人引文分析,物理、化学等自然科学的不引率为40%,而在社会科学和人文科学、艺术中,不引率却高达74.7%和98%。这说明社会科学和人文科学存在着严重的学问自体性。92社科文献的形式特征社科信息的术语经常有不统一的现象,同一术语在不同的时间和场合常常会有不同的含义,从而造成一种特殊的语言障碍。社科成果常常以专著为主,尤其是在学科发展的常规时期。社会科学研究常常具有辩论甚至论战的性质,需要利用较多的资料,不仅要阐明新结论,而且还要叙述问题的历史演变、研究现状,不同观点的分析,研究逻辑和过程,这就要求较大的篇幅。社科信息的内容除了使用规范的科学语体外,还常常采用政论语体。社科文献的风格、结构、语气等也具有一定的信息内容。93社科文献的运动特征分散性较大;传递有一定的局限性;老化慢,生命力强。943-1检索语言概述
一、检索语言的概念和特点二、检索语言的类型与谱系三、检索语言的构成和基本功能四、检索语言的基本原理五、检索语言的基本要求95一、信息检索语言的概念和特点信息检索语言是根据信息检索的需要而创制的人工语言,其实质是表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。它可以是从自然语言中精选出来并加以规范化的一套词汇,也可以是代表某种分类体系的一套分类号码,还可以是代表某一类事物的某一方面特征的一套代码,用以对文献内容和信息需要进行主题标引、逻辑分类或特征描述。⑴简明扼要地表达文献及其检索课题的主题概念,使词语和概念一一对应,排除一词多义、多词一义或词义含糊等现象。⑵科学准确地匹配概念,即将检索时的标引用语和检索用语进行相符性比较。⑶全面有效地显示概念之间的相互关系。采用等级结构、参照系统、轮排聚类法、范畴聚类法和图示法等各种显示概念之间关系的方法,来实现对内容相同或相关的信息加以集中或揭示其相关性。96二、检索语言的类型与谱系2、1依据检索语言的构成原理,把检索语言划分为分类检索语言、主题检索语言、分类-主题一体化语言、代码语言和引文语言等类型。2、2依据检索语言的受控情况,把检索语言分为ArtificialLanguage和NaturalLanguage。此外,可以按检索语言的学科或专业范围、适用范围、检索标识的组合使用方法以及对信息特征的描述等标准,对检索语言进行划分。2、3检索语言的谱系972、1按构成原理对检索语言进行划分分类检索语言是指使用分类号码表达文献主题标识,并按照知识分类的原理加以排列的一类信息检索语言。主题检索语言则是指使用名词术语表达文献主题标识,并照按字顺加以排列的一类信息检索语言。分类检索语言和主题检索语言相互影响、渗透、补充和结合,从而出现了分类主题一体化语言,即分类语言和叙词语言在术语系统、参照系统、标识系统和索引系统等方面完全实现兼容所组成的统一体。如分面叙词表、叙词表式字顺索引、分类表-叙词表对照索引及集成词表等等。代码检索语言是指用来标引、检索特定专业文献的某种代码系统。引文检索语言则是基于文献之间的引证关系而形成的一种检索语言。它以引文为检索词,根据引证关系将有关文献自然地耦合在一起。982、2按语言受控情况对检索语言进行划分ArtificialLanguage是指采用Controlledterm并进行人工控制的语言,或称受控语言。所谓规范词是指采用特定的词汇来专指或网罗相应的概念,它们能够对同义词、近义词、相关词、多义词及缩略语等进行规范。使用规范词能够提高检索效率。单元词语言、标题词语言、叙词语言等都是规范语言。NaturalLanguage是指采用Uncontrolledterm,即不加规范、不受控制的Freeterm,它们直接来自所处理的文献本身的标引用语或检索用语,在使用前未经优选和规范化处理。992、3检索语言的谱系一般地,可以将检索语言类型按亲属关系划分为4个层次,从而构成检索语言的谱系。
检索语言语系检索语言语族检索语言语支检索语言语种描述文献内容分类检索语言标题词法特征的检索语言主题检索语言元词法分类主题一体叙词法汉语主题词表描述文献外在化语言键词法特征的检索语言
100三、检索语言的构成和基本功能1、检索语言的构成。检索语言包括两个部分:一是检索语言词汇,即登录在分类表、词表中的全部标识。一个标识(分类号、检索词、代码)就是它的一个语词,而分类表、词表、代码表则是它的词典。二是检索语言语法,它是指如何创造和运用那些标识来正确表达文献内容和信息需要,以有效地实现信息检索的一整套规则。检索语言语法可以进一步分为词法和句法两个方面。2、检索语言的基本功能。对文献的信息知识内容及某些外部特征加以标引;对内容相同或相关的信息加以集中或揭示其相关性;对大量信息加以系统化或组织化;便于对标引
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村畜牧业生产与疫情防控责任合同
- 固定支架租赁合同
- 石油化工行业生产安全规范指南
- 药物治疗基础复习测试卷含答案
- 新能源汽车租凭合同协议书
- 3 《自己之歌》公开课一等奖创新教案统编版高中语文选择性必修中册
- 《世界经济的全球化》战后世界格局的演变课件-3
- 上海店铺合租合同范本
- 办公集装购买合同范本
- 房车大白转让合同范本
- DB37T 4516-2022 高速公路边坡光伏发电工程技术规范
- 电力工业企业档案分类表0-5
- 临时用地草原植被恢复治理方案
- 2025高考语文小说文本:人物形象特点概括分析
- 2024年7月国家开放大学法律事务专科《法律咨询与调解》期末纸质考试试题及答案
- 消防系统维保项目的售后服务方案
- 2023年4月1日江苏省事业单位统考《综合知识和能力素质》(管理岗客观题)原卷+答案
- 塞内加尔历史与现在
- 《中国的科技成就》课件
- 虚实互动:人机协同探秘知到智慧树章节答案
- T-JYBZ 024-2022《幼儿园户外游戏场地玩教具配备规范》
评论
0/150
提交评论