




已阅读5页,还剩98页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,第三章信息分布,.,第三章信息分布(6学时),一、教学目的了解信息产生分布中的马太效应,了解马太效应的数学模拟,理解信息按空间、作者、时间等分布的基本规律,掌握信息分布的基本定量规律,掌握半衰期、普赖斯曲线、普赖斯指数等基本概念。掌握网络环境下传统分布规律的实证验证过程,.,二、教学内容,1信息产生分布中的马太效应2信息按生产者的分布规律3信息离散分布规律4信息按时间的分布规律5.网络环境下的信息分布规律的实证研究,.,三、本章重点,1布拉德福定律2齐夫定律3济特卡定律4普赖斯定律5指数增长律6.网络环境下的信息分布规律的实证研究,.,信息的度量,对信息的度量从本质上讲是对信息在社会各系统传输中时间和空间特征、质量和数量特征的定量化描述,基于数据量的信息度量是其基础。3.5.1基于数据量的信息度量3.5.2基于概率的信息度量3.5.3基于经验的信息度量,.,1信息在计算机中的表示,在计算机信息处理中,常用的信息度量方法是按反映信息内容的数据所占用的计算机存储装置的存储空间大小来衡量信息量的大小。这是一种基于数据量的信息度量方法。(1)数值信息(2)字符信息(3)图形图像信息(4)视频信息(5)音频信息,.,(1)数值信息,在计算机内部,数值都以二进制代码表示,一般采用定点数与浮点数两种方法。所谓定点数是指小数点位置固定不变的数。在计算机中,通常用定点数来表示整数与纯小数,分别称为定点整数与定点小数。对于既有整数部分又有小数部分的数,由于其小数点的位置不固定,一般用浮点数表示。在计算机中,浮点数就是指小数点位置不固定的数。,.,二进制的思想,在计算机发展初期,冯诺依曼提出了二进制的思想以简化机器的逻辑线路。二进制0和1两个数码可以采用电信号的两个状态(如电压的高低、脉冲的有无)进行表示。现在的计算机都是基于二进制的。各种信息,包括文本、数据、图片、声音等,都必须转换为二进制形式,才可以被计算机接受和处理。,.,(2)字符信息,字符信息需要进行编码,建立与0和1之间的对应关系,才能实现识别、存储和处理。西文字符一般使用ASCII(AmericanStandardCodeforInformationInterchange)码,这是美国标准信息交换码,分为7位和8位两种版本。国际通用的是7位ASCII码,对大、小写英文字母、阿拉伯数字、标点符号及控制符等特殊符号编码,共128个字符。汉字字符一般采用国标码即信息交换用汉字编码字符集基本集(GB231280)等。,.,(3)图形图像信息,在计算机中,表示图形和图像的方法主要有以下两种:矢量图法,基于矢量技术的图形,以图元为单位,用数学方法来描述;位图法,一个图像被看成是点阵的集合,每一个点被称做像素。,.,(4)视频信息,视频信息:视频可以看成是由多帧图像组成,需要经过一定的压缩算法处理后才能存储和传输。,.,(5)音频信息,音频必须转换成数字信号后才能处理和存储。,.,2信息存储的数据单位,计算机存储装置的最小存储单位为一位二进制数,称为bit(比特)。常用的基本存储单位为8位二进制数,称为byte(字节,B),是计算机数据处理的基本单位。计算机数据处理时一次存取、加工和传送的数据长度称为字(Word),字长体现了计算机处理信息的性能,常用的字长有8位、16位、32位和64位。基于数据量的信息度量,在某种意义上就是载体形态或物理意义的信息的度量。非计算机处理的信息可以有自己专门或通用的载体形态的度量方式。例如,对于印刷型文献,可以运用开本、印张、字数、页码等来描述其物质载体。,.,计算机存储容量的度量单位与文献度量单位的转换:,KB(KiloByte)2KB:一页打字文稿100KB:一张低分辨率照片,.,MB(MegaByte,兆字节),1MB:一本短篇小说或一张35英寸软盘2MB:一张高分辨率照片5MB:一套莎士比亚全集10MB:一分钟高保真度声音100MB:1米长书架陈列的图书500MB:一张CD-ROM,.,GB(GigaByte,千兆字节),1GB:装满一卡车的图书20GB:贝多芬作品精品集100GB:图书馆一层楼的科学杂志,.,TB(TeraByte),1TB:用50000棵树木造纸印成的书2TB:一家科学研究图书馆10TB:美国国会图书馆馆藏所有印刷型文献400TB:美国最大的国家海洋和大气管理数据中心数据库,.,PB(PetaByte),PB:3年NASA的地球观测系统数据PB:美国所有科学研究图书馆PB:1995年所有硬盘产品容量的总和PB:所有印刷资料,.,EB(ExaByte),2EB:1999年生产的所有信息的总量5EB:人类曾经通过语言表达的所有词汇量,.,1基本原理,申农等人用概率的对数来度量消息中所包含的信息量。概率是用来表示随机事件发生可能性大小的一个量。信息是具有两种以上可能性的消息,因为只有一种可能性的消息是已知的消息而不是信息。基于概率的信息度量是从信息传输过程中信源与信宿的相互作用的角度进行的。信息量的大小与原来事件发生的概率有关,也就是与信息所消除的对事物认识不确定程度有关。原来事件发生的概率越小,所提供的准确信息能在较大程度上消除对事物认识的不确定性,因此,这一准确信息的信息量越大。原来事件发生的概率越大,提供的准确信息后所消除对事物认识的不确定性较小,其信息量就小。,.,信息量,申农把信息量定义为“两次不确定性之差”,因而信息量也就是不确定性减少或消除的数量。=(QX)(Q)其中代表信息量;Q代表对某件事的疑问;s代表不确定性;x为收到消息前关于Q的知识;x为收到消息后关于Q的知识。,.,不确定性的量,在信息论中,不确定性的量有两个方面的表述:信息熵()是从信源角度考虑的,标志信源整体的不确定性程度的量。信息量(p)是从信宿角度考虑的,是信宿接收信息后消除不确定性的量。如果没有受到干扰,信源发送的信息熵()全部被接受,信宿就完全消除了对信源的不确定性,这时()(p),.,申农关于信息量的数学表达式意义,描述了信息的传输和提取方面的数量特性,为研究信源和信道编码,提高信噪比,提高传输速率等问题,提供了重要的工具。申农把信息定量化以后,使通信科学由定性阶段进入了定量阶段,从而为信息论的进一步发展奠定了重要的理论基础。人们把信息称为负熵,有利于我们对信息概念的深刻理解。,.,2信息量的测度,在一般情况下,信息量是实得信息的量度,是先验信息和后验信息之差。所谓先验信息,就是信宿在接收到信源所发出的信息之前,事先了解到的关于随机事件的不确定性,可以用(x)表示。所谓后验信息,就是信宿在接收到信源所发出的信息之后,所产生的关于随机事件的不确定性,可以用(x)表示。所谓实得信息,就是信宿在信息输入过程中消除了的不确定性,以及认识主体在认识过程中所获得的信息量,可以用(x)表示。()=(x)一(x)导入基于概率的信息量概念,P先验概率,是事先知道事件发生的概率;P后验概率,是获得信息后知道事件发生的概率,则当PP时()=logPP,.,1基本原理,维克利认为,信息量至少在当前还只能被看成是一种定性的属性。不论如何进行评价,信息的价值认可都具有一定的主观性,都是建立在定性分析之上或者是定性与定量相结合,基于研究者、管理者、使用者的经验而进行的。基于经验的信息度量的基础是对信息价值的基本认识,必须构建科学的信息价值的基本模型。布鲁克斯基本方程式表述了信息的价值与人的知识结构或信息结构的相关性和发展变化。因此,我们可以把布鲁克斯基本方程式作为基于经验的信息度量的理论支点。布鲁克斯基本方程式一:=s+ss布鲁克斯基本方程式二:K(s)+=Ks+s,.,基于经验的信息度量的作用,对信息量的规定性(社会信息总量、信息增长率、信息老化率等)进行定量化分析,对信息的质的规定性(如信息使用价值、信息准确度、信息经济性等)经过指标转换后进行定量化分析。信息内涵(信息源的定量评价、信息管理和服务效益的定量分析等)的定量评价。基于经验的信息度量不仅可以从具体的信息个体或单元人手,也可以在社会信息管理活动的各个领域进行。,.,2主要方法,根据研究对象的特点,基于经验的信息度量一般采用信息计量方法等方法,对可计量的信息单元或转换指标进行科学的测度和分析。,.,(1)信息计量方法,信息计量学(Informetrics)是信息计量方法的理论基础,是应用数学方法研究、描述信息过程、现象与规律的一门学科,综合利用了各种应用数学理论方法并吸收了纯数学理论知识作为基本方法论,对信息活动中一切可计量单元进行科学分析并揭示其规律。,.,信息计量方法,信息计量方法按研究手段可分为信息统计分析法、数学模型分析法、系统分析法、矩阵分析法、网络分析法等。其主要研究手段是信息统计分析法,即利用统计学方法对信息进行统计分析,以数据来描述和揭示信息的数量特征和变化规律。信息计量方法应用的基本步骤为:第一,统计调查,即确定统计对象,搜集原始数据;第二,统计整理,即统计数据的加工整理,统计结果的图表表示;第三,统计分析,即统计数据的结论分析,研究结果的误差分析。,.,引文分析方法,在信息统计分析法中,引文分析(CitationAnalysis)方法最为常用,即以引文统计数据为基础,对信息可计量单元之间的引用和被引用现象进行分析研究,从而揭示其数量特征和内在规律。信息与信息之间并不是毫无联系的,特别是文本信息之间突出地表现出一种引用与被引用关系,其原因包括论证与说明、联系与发展、评价与否定等,.,第三章信息分布,3.1信息产生与分布中的马太效应3.2信息生产者分布规律3.2.1洛特卡定律3.2.2普赖斯定律3.3信息离散分布规律3.3.1布拉德福定律3.3.2齐夫定律3.4信息对时间的分布规律3.4.1指数增长律3.4.2逐渐过时律3.5网络信息资源的分布规律3.5.1网络信息内容的分布规律3.5.2网络信息生产者的分布规律3.5.3网络信息的时间分布规律,.,3.1信息产生与分布中的马太效应,3.1.1马太效应的表现和作用形式3.1.2马太效应的负面影响3.1.3*马太效应的数学模拟,.,3.1.1马太效应的表现和作用形式,(1)信息产生和分布中的“马太效应”(MatthewEffect)核心趋势高产作者群体的形成期刊信息密度增大高频词汇的确立集中取向一篇论文多次被引一个网站被众多用户点击,.,(2)马太效应的由来,马太效应是美国学者R.默顿引用圣经新约全书马太福音中的一段话:“谁若有,就给他,并不断增加;而谁没有,则连已有的都要被夺走”。马太效应真实地概括人类社会生活中的惯性,描述了优势和劣势的积累过程:一经存在有优势,这种优势局面就会不断加强,反之若处于劣势,则这种不利条件也会继续加剧。,.,(3)马太效应的内在机制,马太效应是人类社会特有的选择机制支配的结果。在这种选择作用下,当一系列同类对象被选择时,有的经常被选择,有的不常被选择,这种频度不均匀的选择结果,实际上表征着对象之间个体特性方面的差异,其本身又可以反过来作为再次选择的依据。如果我们把对象受到一次选择看成一次成功,那么,这种成功的累积必然使得该对象具有突出的优势,从而引致新的成功。以科学论文而言,两篇同样水平的文章,一篇是新作者,另一篇是知名度较高的老作者。由于新作者缺乏“成功”的积累,其论文入选可能性很低,甚至决然没有,而反之老作者具有较多的“成功”积累,名气较大,论文发表可能性很大,“还要给他,并不断增加”,这样高产作者就逐渐出现,并形成一个核心群体。于是在信息生产的社会实践中,“强者”与“弱者”愈渐分明,乃至悬殊。论文(信息)的数量上便出现严重倾斜。,.,(4)马太效应的作用,掌握信息分布的富集现象有利于突出重点、摒弃平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。有利于认识信息集中和分散的特征、趋势和规律,发现信息管理的基础性定律。,.,3.1.2马太效应的负面影响,、信息工作简单化马太效应描述信息对象的优势和劣势过度积累,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,走入极端,按经验和简单的规则从事复杂多变的信息管理工作。、信息聚集与信息价值的评价误差马太效应所形成的信息分布富集有时仅仅是表面的、外在的。例如一篇论文被引次数多并不一定表明它有较高的价值,一些有错误观点或有争议的论文也可能有较高的被引率。,.,、信息聚集效应的统计误差优势积累过程带有突发性和受统计学因素的影响,使得信息价值失真。、信息聚集的研究过程的不足过分注重核心信息源,就会忽略分布在其他信息源中有价值的信息。而核心信息源(如核心期刊)本身有一个发育过程,如果不加以控制,任其在某一方面的优势过度积累,高度专门化,其所含的信息就会越来越单一,这对部分用户可能有利,但它却会失去更多的用户。、限制信息创新信息生产者的成长和数量无疑对信息的产生和分布具有较大影响,马太效应青睐名人、拒绝新人的习惯势力不利于新人成长,限制了新思想、新知识和新信息的产生及传播。,.,3.1.3*马太效应的数学模拟,1普利亚(Polya)分布普利亚(Polya)分布亦称单缸模型,它基于下述实验:设某一缸中装有若干红色球和黑色球,按一定的规则从缸中取球,取到红球表示成功,取到黑球表示失败。假定缸中现有a个红球、b个黑球,取出某个球后(例如红球),则将取出球与c个红球一起放回缸中,取到黑球亦同样处理。如果实验重复n次并且假定X表示取出红球的总次数,则X的分布可表示为:P(x)=P(X=x)=,.,(1)若c=0P(x)=P(x)为带有参数n,a/(a+b)的二项分布(2)若c=1P(x)=P(x)为带有参数n,a+b,a的超几何分布(3)若a=b=cP(x)=P(x)为带有参数n,x的均匀分布,.,(4)若n,a(a+b)-10以及c(a+b)-10,P(x)为负二项分布,na(a+b)-1和nc(a+b)-1分别趋向于非零值和P(X=x)=令p,P(X=x)=,.,2.塔格(Tague)分布,塔格(Tague)分布又称多缸模型,是对单缸模型的补充和修正。实验程序如下:设有一系列的缸,每个缸中装有a个红球和b个黑球;如果一个红球被取出,则在该缸中另外加进c个红球;如果黑球被取出,则不另外加进黑球;依次从第一个缸开始取球,一直持续到取出k个球为止接着再从第二个缸取球,重复的程序;程序无限地延续。,.,在单缸模型中,x次成功的概率是在第k只黑球取出之前取出x个红球的概率。P(X=x)=式中,ai0,k-1令=,=,有P(x)=简化得,P(x)=,.,(1)如果k=1;满足弗林分布,其平均数为P(x)=(2)如果1,弗林分布对应于瑞利分布或累积优势分布:P(X=x)=式中,B(,)为贝塔函数。(3)在累积优势分布中,如果=1P(x)=,.,拉维昌德拉劳在1987年提出累积优势分布的替代形式:设u和v为两个随机变量(u=1,2,3,0v0,00平均数为,.,3.2信息生产者分布规律,通过对信息生产者在信息生产过程和生产结构中呈现规律的研究,研究其对信息分布的影响3.2.1洛特卡定律3.2.2普赖斯定律,.,3.2.1洛特卡定律,1926年,统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物华盛顿科学院学报上发表了一篇题名为“科学生产率的频率分布”的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。,.,洛特卡选择美国化学文摘和德国奥尔巴赫物理学史一览表为数据源研究科技工作的论著数量分布。他统计分析了化学文摘19071916年10年累积索引中的部分作者,即姓氏以字母A和B开头的6891位作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。物理学史一览表包括了1900年前物理学领域内出现的1325位物理学家及其论著,取其全部数据进行统计。,.,洛特卡定律的图形描述,洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和logyx)作图,两组数据都是直线(如图所示)。图中虚线表示化学文摘数据,实线代表物理学史一览表的数据。用最小二乘法计算拟合直线的斜率,近似为-2。,Logyx,Logx,10,5,3,2,1,5,1,25,30,100,20,.,洛特卡定律的数学描述,根据洛特卡分析,在论文数x和作者数yx之间存在下列关系:xnyxc式中,yx是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。通过变换可以得到下面的公式:,.,令f(yx)=,实际表示写x篇论文的作者出现的频率,C=,表示作者取样总数的比例,这样可以写成:两边积分得:1,于是,C0.6079,f(yx),.,说明:,1、生产1篇论文的作者的比例为60%。2、生产2篇论文的作者是生产1篇论文作者数的1/22,即1/460%=15%。3、生产3篇论文的作者是生产1篇论文作者数的1/32,即1/960%=7%。局限性:洛特卡定律是对信息生产的一般理论估计,而不是一个精确的统计分布。,.,3.2.2普赖斯定律,核心生产者分布的平方根定律:在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的。该定律可表示为:式中,n(x)为撰写x篇论文的作者数;I=nmax为该学科规定时期内最高产的作者数;N为该学科领域全部作者总数。m可由下式确定:=,=,.,如果规定发表了n篇论文的作者人数为a(n),则发表nNn篇论文的作者人数为:A(n-n)=a(n)+a(n+1)+a(n)=a(n)名作者一共发表的论文为P(n)=na(n)同理,发表了nNn篇论文的作者总共发表的论文数为:P(N)=P(n-n)=na(n)+(n+1)a(n+1)+na(n),.,若1/2P(1nmax)=P(mnmax)=P(1m),则有:=(3-10)其中,a(n)=,a(n)是频数。P(1n)=调和级数和公式变为P(1n)=c(lnn+0.577+n),.,化简得,M=0.749(nmax)1/2式子表明,高产作者中一位最低产的作者发表的论文数量,等于最高产作者所发表论文数的平方根的0.749倍。另一方面,K=这个式子表明了高产作者人数同全体作者人数的比例关系。说明:普赖斯定律是一种假说构想,简洁地描述了信息按生产者能力的分布。,.,3.3信息离散分布规律,信息离散分布是信息的重要属性,表现为信息内容单元以不同角度分布于各种载体中,本质上是由信息的生产和利用决定的。3.3.1布拉德福定律3.3.2齐夫定律,.,3.3.1布拉德福定律,揭示论文在科技期刊中的分布。英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(BradfordsLawofScattering),简称为布拉德福定律或布氏定律:“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的核心部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1aa2的关系(a1)。”这就是布拉德福定律的区域表述形式。,.,应用地球物理学论文的布氏分布,.,布拉德福定律图形描述,如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是下垂的曲线。B.C.布鲁克斯用下述模式来表示布拉德福定律:R(n)=n(1nC)(3-15)R(n)=klog(n/s)(CnN)(3-16),.,曲线上BD部分只是近似地满足(3-16)式。式中:R(n)相关论文累积数。n杂志等级排列的序号(级)。第一级杂志中的相关文章数R(1)。也就是载文章最高的杂志中的相关文章数。C“核心区”中的杂志数量。N等级排列的杂志总数。k,s待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得。当N足够大时,kN。参数,与收藏的杂志(核心中杂志)数量有关,大小等于分布图中曲线部分的曲率,总小于1。式(3-15)和(3-16)就是布拉德福定律的图形表述形式。,.,布拉德福分散曲线,R(n),C,B,D,N,Logen,R(N),C,O,A,R(N),n1,R(n1),N,.,布拉德福定律数学描述,令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量,则有:r1p1=r2p2=r3p3=m1p2/p1=r1/r2=a1p3/p2=r2/r3=a2,令a1=a2=a,于是,p1:p2:p31:a:a2,.,布氏定律的维克利解释,将杂志分区的数目推广到n3的普遍情形。设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,nm有如下关系:T1:T2:T3:Tm=1:b;b2:bm-1(b为维氏分布系数)Tm=n1+n2+n3+nm=N,N为杂志总数,.,布拉德福定律补充说明,布拉德福定律有两个基本要点:一是频次等级排序,形成主体来源(期刊)的有序目录;二是确定相关论文在主体来源中的分布规律。具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但它所揭示的都是论文在期刊中的分散规律。局限:布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究则基本上是空白。,.,3.3.2齐夫定律,词汇是表达和载荷信息的基本单元。词汇的选择、使用及出现频次影响着信息的分布。应用:在信息系统建设、词表管理和控制、自动标引、信息存储与检索等方面取得了应用成果。1.齐夫定律的表述2.齐夫分布的其他形式,.,1.齐夫定律的表述,如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:式中c为常数。上式称为齐夫定律。,fr=c,.,如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线。如果等级r与频次f都取对数,则双曲线变成一条直线。与之等价的数学表达式为:lgr+lgf=lgc,.,词频分布,.,齐夫词频分布曲线及其对数曲线,f,250,200,150,100,50,300,r,1,3,2,5,6,4,Lgf,Lgr,.,齐夫定律的修正,图中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为:Klgr+lgf=lgc这一直线由图中的实线表示。如果将其改写成:,frb=c,.,2.齐夫分布的其他形式,(1)朱斯双参数等级分布美国学者朱斯指出,在(3-20)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为:f(r)=cr-b(3-21)式中,b0,c0,对于r=1,2,n,f(r)=1式(3-21)就是朱斯的双参数等级分布定律。f(r)表示r位词出现的频率(或概率)。,.,(2)曼德尔布罗三参数分布,曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较。设r为词的顺序,f(r)为第r个词的频率,(r)为第r个词的词长。这时平均词长为:L=f(r)m(r)当给定的熵值H最小或当L最小时,应有:H=-f(r)lgf(r)=常数,以及f(r)=1。根据这些条件,曼德尔布罗从理论上提出了三参数分布公式:f(r)=c(r+a)-b(3-22)式中,0a0,c0。a,b,c为参数,具有如下意义:参数c与出现概率最高的词的概率大小相关或者说与f(1)有关。当a=0,b=1时,c=f(1)。参数b与高频词数量的多少有关,对于r50的高频词,b是r的非减函数,随着r的增大,参数b并不减少。参数a与词的数量n有关,由于a的选择自由较大,此公式更为灵活,更能够在各种条件下与测定的统计数据拟合。,.,3.4信息对时间的分布规律,信息在时间轴上和动态分布规律可以揭示信息的增长与老化,用高效的理论模型来刻画信息随时间的推移所表现出来的趋势,把握信息量的变化,对信息实施动态管理。3.4.1指数增长律1.普赖斯曲线2.生长曲线3.4.2逐渐过时律1.文献老化的表现2.文献半衰期3.普赖斯指数,.,3.4.1指数增长律,1.普赖斯曲线如果我们以文献量为纵轴,以历史年代为横轴,把各不同年代的文献量在坐标图上逐点描绘出来,然后以一光滑曲线连接各点,则可十分近似地表征文献随时间增长的规律。这就是著名的普赖斯曲线。,.,普赖斯曲线,F(t),100,10,1900,1950,t,1665,10000,1000,1800,1750,1850,.,通过对曲线分析,普赖斯最先注意到文献增长与时间成指数函数关系。如果用F(t)表示时刻t的文献量,则指数定律可表为下式:式中:a是统计的初始时刻(t=0)的文献量;e=2.718;b表示持续增长率。人们还常常用文献量翻一倍的时间来衡量文献的增长速度,即t=ln2/b式中:t为文献量翻倍时间,b为持续增长率。,F(t)=aebt,.,实际的统计发现,不同时期、不同级别、不同质量、不同学科领域的文献信息增长态势是不一样的。勒希尔考察了不同质量级别的文献增长状况,发现它们的增长速度差别很大。勒希尔认为,文献的数量与其质量有关。他定义(01)为文献的质量级别,则不同级别上的文献量为F(t)。他给的具体值如下:=1:至少是一般文献(实际代表所有文献)=3/4:至少是有意义的文献=1/2:至少是重要的文献=1/4:至少是非常重要的文献=0:第一流的文献对于第一流的文献(即=0),文献数量为lnF(t),.,2.生长曲线,普赖斯指出,考虑物质的、经济的、智力的及时间的影响和限制,文献信息的增长更趋近于生物的生长曲线(LogisticCurve),即最初生长或繁殖很快,随着时间推移,其生长速度越来越慢,以致几乎不增加了。其方程为:式中:F(t)代表时刻t的文献量,k为文献增长的最大值。,F(t)=k/(1+ae-kbt),.,生长曲线,F(t),t,K/2,Lna/kb,.,增长率的描述,一般来说,在不同的阶段科学文献增长的态势是不同的。学科处于诞生和发展阶段,文献量指数增长,文献的寿命较短。学科进入相对成熟阶段,文献增长就不能总保持原有的指数速率,增长率变小,曲线变得平缓,文献寿命相对变长。某一知识领域的研究取得重大进展后进入相对成熟的阶段。内容上更新的文献又将进入一个新的急剧增长时期(如指数增长)。然后又进入一个稳定时期。文献的增长往往会出现几个急剧增长时期和几个相对稳定时期,呈现出错综复杂的格局。一般说来,对不同的领域,描述其文献增长的生长曲线中各个常数(a,b和k)也是不相同的。,.,3.4.2逐渐过时律,1.文献老化的表现文献信息的老化一般指这样四种情形:文献中所含信息仍然有用,但现在已被包含在更新的其他论著中;文献中信息仍旧有用,但现在正处于一个人们对其兴趣下降的学科;文献中的信息仍旧有用,但为后来的著作所超越;信息不再有用。2.文献半衰期所谓文献的半衰期,是指某学科领域现时尚在利用的全部文献中的一半是在多长一段时间内发表的。3.普赖斯指数普赖斯指数,即某一学科领域内,对发表年限不超过5年的文献的引用次数与总的引用次数之比值。一般来说,普赖斯指数越大,半衰期就越小,文献老化的速度越快。,.,3.4.2.1文献信息老化曲线,用纵坐标表示现在正被利用(引证)的文献的被引量,横坐标表示时间,我们可以绘制出文献的老化曲线。相应的方程可表示为:式中:C(t)表示发表了t年的文献的被引次数,k是常数,随学科不同而异,a为老化率。,被引证次数C(t),0.5,出版年龄t,t1,t2,t3,C(t)=ke-at,.,3.4.2.2半衰期,提出:1958年,由美国学者贝尔纳在华盛顿举行的一次国际科技情报会议上提出的。定义:文献的“半衰期”是这祥定义的:某学科现在尚在被使用的全部文献中较新的一半是在多长一段时间内发表的。半衰期的适用性:普赖斯扩大了半衰期的适应范围,指出,一篇论文的半衰期大约是1.5年.也就是说引用这篇论文的全部其它论文的二分之一是在这篇论文发表后1.5年内发表.,.,.,.,.,.,3.4.2.3普赖斯指数,提出:普赖斯内容:在某一知识领域,把对年限不超过五年的文献引文数量与引文总量之比当成指数,用以度量文献的老化速度与程度。计算公式:pr(普赖斯指数)=出版年限不超过5年的被引文献数量/被引文献总量x100%,.,普赖斯指数与半衰期比较,功能相同:它们都是从文献被利用的角度出发来反映文献老化的情况。数值上正好相反:一般来说、某一学科或领域文献的“普赖斯指数”越大,半衰期就越短,说明其文献的老化速度就越快适用面:文献的“半衰期”只能笼统地衡量某一学科领域全部文献的老化情况,而“普赖斯指数”既可用于某一领域的全部文献,也可用于评价某种期刊、某一机构,甚至某一作者或某篇文章的老化特点。,.,文献信息老化的影响因素,(1)文献增长。文献的增长和老化是一个事物的两个方面,它们从不同的侧面来描述科学的发展,阐明科学知识的修正率。(2)学科差异。世界上93%98%的科学杂志引用寿命为20年左右,但并不是所有这些学科的文献老化速率都大体一致,相反,彼此之间差异甚大。(3)学科发展阶段的差异。即使是同一学科,不同的时期或阶段,文献的半衰期不尽完全相同。(4)信息环境和需求。不同信息用户对文献的需求是不同的,因而信息利用者的需求及所处的信息环境的研究十分必要。,.,马太效应信息离散分布规律布拉德福定律(相等载文量的期刊分区)齐夫定律(词频分布)信息生产者分布规律洛特卡定律普赖斯定律(平方根定律)信息在时间上的分布规律指数增长律(普赖斯曲线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临时采购经理合同
- 鱼骨图培训课件
- 小学阅读推广社团活动规划
- 小学英语教科版 (广州)六年级上册Unit 6 The secret of good health教案配套
- 短视频项目造价咨询合同
- 高二地理专题研究计划
- 肺心病健康教育指导
- 施工阶段工作总结协议
- 高校教学改革心得体会
- 城市幼儿园春季传染病防控措施
- 敲墙搬运合同范本
- (高清版)JTGT 5190-2019 农村公路养护技术规范
- 小学生必背古诗“飞花令”200句
- 2024年3月青少年软件编程Scratch图形化等级考试试卷一级真题(含答案)
- 浙江省强基联盟联考2023-2024学年高一下学期5月联考语文试题(含答案)
- 2024年福建省漳州市中考二模化学试题
- 华为绿色运营管理与可持续发展
- 2024年辅警招聘考试试题库含完整答案(各地真题)
- 电缆敷设施工技术经验分享与案例分析重难点施工技术分享与讨论
- 《工程建设标准强制性条文电力工程部分2023年版》
- (2024年)《蛙泳》说课稿
评论
0/150
提交评论