信息资源分布_第1页
信息资源分布_第2页
信息资源分布_第3页
信息资源分布_第4页
信息资源分布_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息资源分布第1页,共66页,2022年,5月20日,1点24分,星期一2022/9/11Information Resource Management 第二章 信息资源分布2.1 信息资源的集中与分散规律 2.2 信息资源随时间的分布规律2.3 信息资源在空间上的分布规律第2页,共66页,2022年,5月20日,1点24分,星期一2022/9/12Information Resource Management 2.1 信息资源的集中与分散规律2.1.1 信息资源分布的马太效应2.1.2 布拉德福定律2.1.3 齐夫定律2.1.4 洛特卡定律2.1.5 普赖斯定律第3页,共66页,2022年,

2、5月20日,1点24分,星期一2022/9/13Information Resource Management 2.1 信息资源的集中与分散规律2.1.1 信息资源分布的马太效应马太效应:R默顿(美国)引用圣经新约全书马太福音中的一段话“谁若有,就给他,并不断增加;而谁没有,则已有的都要被夺走”。信息资源产生和分布中的马太效应少数出版社成为某类图书的权威出版机构核心期刊的形成少数作者成为某一领域的核心作者少数网站集中了大量用户传递功能强的词汇被经常引用这种信息分布的“富集”与“贫集”的现象是人类社会特有的选择机制支配的结果。第4页,共66页,2022年,5月20日,1点24分,星期一2022/

3、9/14Information Resource Management 2.1 信息资源的集中与分散规律由马太效应引起的信息富集分布表现为核心趋势和集中取向。核心趋势:是信息生产主体的主动期望与采取实际步骤的结果。如高产作者群体的形成、期刊信息密度增大、高频词汇的确立等集中取向:主要是社会选择和影响的结果,信息生产者基本上处于被动状态。如一篇论文多次被引、一个网站被众多用户点击等。第5页,共66页,2022年,5月20日,1点24分,星期一2022/9/15Information Resource Management 2.1 信息资源的集中与分散规律信息分布富集现象的积极意义:突出重点、摒弃

4、平均,为信息源的选择、获取、评价和利用提供依据,降低信息管理成本,提高信息利用效益。马太效应的不足:马太效应描述的信息资源的优势和劣势过度积累,容易使信息工作者按简单的优劣进行信息的选择、评价、传播和利用,因循守旧,不思进取。所形成的信息分布富集优势仅仅是表面的、外在的。核心信息源是马太效应优势积累的结果,但过分注重核心信息源,会忽略分布在其他信息源中有价值的信息。马太效应青睐名人、拒绝新人的习惯势力限制了新思想、新知识和新信息的产生及传播。 第6页,共66页,2022年,5月20日,1点24分,星期一2022/9/16Information Resource Management 2.1 信

5、息资源的集中与分散规律2.1.2 布拉德福定律信息资源的离散分布是信息资源的重要属性,它表现为信息的内容单元以不同方式从不同角度分布于各种载体中,信息资源的离散分布具有复杂的机理,本质上是由信息的生产和利用决定的。产生背景:一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。根据科学统一性原则,每一学科都或多或少地与其他任何一门学科相关联。第7页,共66页,2022年,5月20日,1点24分,星期一2022/9/17Information Resource Management 2.1 信息资源的集中与分散规律2.1.2 布拉德福定律英国著名文献信息学家布拉德福发现,某一学科领域中的相关论文在期

6、刊中的分布是不均匀的,而且具有明显的集中与分散规律。他在长期的观察和统计基础之上,提出了有名的“布拉德福分散定律”(Bradfords Law of Scattering),简称为布拉德福定律或布氏定律:“如果将科学期刊按其刊载某个学科主题的论文数量,以递减顺序排列起来,就可以在所有这些期刊中区分出载文率最高的核心部分和包含着与核心部分同等数量论文的随后几区,这时核心区和后继各区中所含的期刊数成1aa2的关系(a1)。”这就是布拉德福定律的区域表述形式。设第一区(核心区)所涉及的文章1种期刊;第二区(相关区)包括2种期刊;第三区(外围区)包括的3种期刊。那么,3个区中的期刊数量成下列关系: 1

7、:2:3=1:2(1) 式中:布拉德福常数,或称比例系数。 第8页,共66页,2022年,5月20日,1点24分,星期一2022/9/18Information Resource Management 2.1 信息资源的集中与分散规律两个学科的期刊分区表:(1)将刊物按刊载相关主题文章的载文量多少的递减顺序排列(2)将表中的科学期刊按其登载论文数量的大小, 期刊分为包含同等数量论文的三个区。相继各区的期刊数成等比数列 其中:9:59:2581:5:25第9页,共66页,2022年,5月20日,1点24分,星期一2022/9/19Information Resource Management 2

8、.1 信息资源的集中与分散规律布拉德福定律的图形描述:如果横坐标取期刊按载文量递减排列时的顺序号n的对数,纵坐标取1至n号期刊所载论文的累积数,我们将绘制出的曲线称为布拉德福分散曲线。布拉德福分散曲线由三部分构成,先是一段上升的曲线AC,然后是一段直线CB,最后是一段上升的曲线BD。第10页,共66页,2022年,5月20日,1点24分,星期一2022/9/110Information Resource Management 2.1 信息资源的集中与分散规律布拉德福分散曲线R(n)CBDNlg nR(N)COAR(N)n1R(n1)N布鲁克斯用下述模式来表示布拉德福定律:R(n)=n (曲线部

9、分) (1nC) (2-1)R(n)=klg(n/s) (直线部分) (CnN) (2-2)曲线上BD部分只是近似地满足(2-2)式。 论文累积数期刊累积数的对数第11页,共66页,2022年,5月20日,1点24分,星期一2022/9/111Information Resource Management 在式中:R(n)相关论文累积数。n杂志等级排列的序号(级)。第一级杂志中的相关文章数R(1)。也就是载文章最高的杂志中的相关文章数。C“核心区”中的杂志数量。N等级排列的杂志总数。k,s待定参数,k等于分布曲线中直线部分的斜率,可用实验方法求得。当N足够大时,kN。参数,与收藏的杂志(核心中

10、杂志)数量有关,大小等于分布图中曲线部分的曲率,总小于1。式(2-1)和(2-2)就是布拉德福定律的图形表述形式。 2.1 信息资源的集中与分散规律第12页,共66页,2022年,5月20日,1点24分,星期一2022/9/112Information Resource Management 以应用物理学期刊为例:2.1 信息资源的集中与分散规律第13页,共66页,2022年,5月20日,1点24分,星期一2022/9/113Information Resource Management 2.1 信息资源的集中与分散规律布拉德福分散曲线:第14页,共66页,2022年,5月20日,1点24分,

11、星期一2022/9/114Information Resource Management 2.1 信息资源的集中与分散规律布拉德福定律的数学描述 令m1,m2,m3为一、二、三各区中的论文数量,p1,p2,p3为对应区的杂志数量,r1,r2,r3为各区每种杂志的平均论文数量,则有: r1=m1/p1, r2=m2/p2, r3=m3/p3划分区域使得: r1p1=r2p2=r3p3=m1 p2/p1=r1/r2=a1 p3/p2=r2/r3=a2 令a1=a2=a, 则 p2=a1p1, p3=a2p2=a1a2p1 于是 p1:p2:p31:a:a2 (2-3)第15页,共66页,2022年

12、,5月20日,1点24分,星期一2022/9/115Information Resource Management 2.1 信息资源的集中与分散规律布氏定律的维克利解释 将杂志分区的数目推广到n3的普遍情形。设将载有某一学科相关论文的杂志分为m个区,使每一区的论文数量相等,各区中期刊的数量n1,n2,n3,nm有如下关系: T1:T2:T3:Tm=1:b:b2:bm-1 (2-4)其中:b为维氏分布系数 Ti=ni(i=1,2,m)为前i个区的杂志数量 Tm=n1+n2+n3+nm=N,N为杂志总数第16页,共66页,2022年,5月20日,1点24分,星期一2022/9/116Informa

13、tion Resource Management 2.1 信息资源的集中与分散规律布拉德福定律的两个基本要点:一是频次等级排序,形成主体来源(期刊)的有序目录;二是确定相关论文在主体来源中的分布规律。布拉德福定律的具体方法则包括区域分析和图形描述,虽然两者数值并不相等,但所揭示的都是论文在期刊中的分散规律。20世纪60年代,人们从不同的角度和侧面提出了许多经验分布公式和理论模型,使布拉德福定律取得了很大发展,但也存在很多问题。对布拉德福定律进行严格检验,比较各公式的优劣,寻找更为规范的精确的数学模型;其次要深入研究布氏分布的机理,寻找科学的统一的理论解释;再次,进一步分析和研究其适用条件及局限

14、性,大力开展应用研究。布拉德福定律主要揭示的是宏观层次的信息(文献)离散分布,而对于微观层次的信息(内容单元)分布的研究基本上是空白。第17页,共66页,2022年,5月20日,1点24分,星期一2022/9/117Information Resource Management 2.1 信息资源的集中与分散规律2.1.3 齐夫定律齐夫定律的研究内容 任何文集或文献中不同词汇的使用有什么特点?它们在文献中出现的频次有没有一定的规律?如果有规律,其表现形式应当是怎样的?齐夫定律正是要回答这个问题。齐夫定律的表述 如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低

15、频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有: fr=c(2-5) 式中c为常数。上式称为齐夫定律。 第18页,共66页,2022年,5月20日,1点24分,星期一2022/9/118Information Resource Management 2.1 信息资源的集中与分散规律词频分布示例 rfLg rLg f140000.9922000.695.3031331.104.8941001.384.605801.614.386661.794.197581.944.068502.083.91

16、9442.203.7810402.303.69第19页,共66页,2022年,5月20日,1点24分,星期一2022/9/119Information Resource Management 2.1 信息资源的集中与分散规律齐夫词频分布曲线:如果建立f与r的直角坐标系,用横坐标表示词的等级序号,纵坐标表示出现频次,就得到一条双曲线。f25020015010050300r132564第20页,共66页,2022年,5月20日,1点24分,星期一2022/9/120Information Resource Management 2.1 信息资源的集中与分散规律 齐夫定律的对数曲线:如果等级r与频次

17、f都取对数,则双曲线变成一条直线。与之等价的数学表达式为: lgr + lgf = lgc 图中的虚线表示理想化形式。齐夫定律的修正:一般地,斜率为b的任一直线可表示为: blgr + lgf= lgc这一直线由图中的实线表示。如果将其改写成(2-5)式的形式就得: frb=c(2-6) 取b=1,(2-6)式与(2-5)式相同,因此可以将(2-6)式看做是对齐夫定律的修正。 Lg fLg r第21页,共66页,2022年,5月20日,1点24分,星期一2022/9/121Information Resource Management 2.1 信息资源的集中与分散规律齐夫分布的其他形式齐夫定律

18、是一个纯粹的经验定律,仅仅使用了一般的统计方法,其过于简单的形式和结论对于出现频次特别高的词和特别低的词都不能完全满足。其适用范围具有一定的局限。朱斯双参数等级分布:美国学者朱斯指出,在(2-6)式中,不仅c应当是参数,而且b并不总是等于1,也是一个参数,齐夫定律可更为一般地表示为: f(r)=cr-b(2-7)式中,b0,c0,对于r=1,2,n,式(2-7)就是朱斯的双参数等级分布定律。f(r)表示r位词出现的频率(或概率)。第22页,共66页,2022年,5月20日,1点24分,星期一2022/9/122Information Resource Management 2.1 信息资源的集

19、中与分散规律曼德尔布罗三参数分布:数学家曼德尔布罗运用信息论原理和概率论方法来研究词频分布,用三参数修正了齐夫定律,使齐夫定律更具有一般性和普遍意义。 曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较。设r为词的顺序,f(r)为第r个词的频率,m(r)为第r个词的词长。这时平均词长为: L=f(r)m(r) 当给定的熵值最小或当L最小时,应有: H=-f(r)lgf(r)=常数,以及f(r)=1。 根据这些条件,曼德尔布罗从理论上提出了三参数分布公式: f(r)=c(r+a)-b(2-8)第23页,共66页,2022年,5月20日,

20、1点24分,星期一2022/9/123Information Resource Management 2.1 信息资源的集中与分散规律(2-8)式中,0a0,c0。a,b,c为参数,具有如下意义:参数c与出现概率最高的词的概率大小相关或者说与f(1)有关。当a=0,b=1时,c=f(1)。 参数b与高频词数量的多少有关,对于r1)时,圆周面积上的压强为:P=4P0/4r12=P0/r12 ,当r1,P0。第62页,共66页,2022年,5月20日,1点24分,星期一2022/9/162Information Resource Management 2.3 信息资源在空间上的分布同时,我们设S为

21、用气体传递信息的信源,显然,气体浓度越高,越易被感知。现设被感知的极限密度为0=106/m3个分子,低于这一数字就无法被感知。 设S以圆周形式从单位半径 r0=1(m) 时开始扩张,原始气体密度为0 =1018个分子/m3,则单位球气体总分子数为: 0V0=10184/3r3=4/31018 (个) 当r0改变为r时(r1),则圆周内气体分子仍呈现均匀分布,总数不变,但密度减小,为: =0 V0 /V=r-3 1018 当r增加到100米时,=(102)-3 1018 =1012 (个) 当r增加到105米时,=(105)-31018 =103(个)第63页,共66页,2022年,5月20日,1点24分,星期一2022/9/163Information Resource Management 2.3 信息资源在空间上的分布2.3.2 文献信息资源分布格局 信息资源分布是信息不断扩散和传递的结果。由于信息提供者和接收者目的的多样性和需求的多样性,使得信息资源在空间分布上显现出复杂的格局。 信息资源的离散分布首先表现在地区差异上。各类政治、经济、文化、科技和教育中心发达国家、发展中国家 信息资源的离散分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论