文献信息中的离散分布规律_第1页
文献信息中的离散分布规律_第2页
文献信息中的离散分布规律_第3页
文献信息中的离散分布规律_第4页
文献信息中的离散分布规律_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一一. .布拉德福定律布拉德福定律二二. .齐普夫定律齐普夫定律三三. .洛特卡定律洛特卡定律四四. .布布- -洛洛- -齐分布系齐分布系文献信息中的离散分布规律一、布拉德福定律 布拉德福定律的产生背景布拉德福定律的形成布拉德福定律的基本原理布拉德福定律的理论发展1.布拉德福定律 的产生背景l布拉德福Samuel Clement Bradford ,1878-1948著名的文献学家和化学家创立了布拉德福文献分散经验法则,是文献计量学的主要奠基人多产作家,著有大量关于分类理论与实践,编目理论的著作1948年,完成巨作文献学文献分散规律的系统概述1.布拉德福定律 的产生背景l文献分散是普遍的客观

2、现象一门学科的论文分散在其他学科的期刊杂志上屡见不鲜。如何找出其分散的规律性是关键所在。l科学统一性原则每一门学科都或多或少与其他任何一门学科相关联对一个专家有用的论文,不仅出现在这个专家所在学科的专业期刊上,也可以出现在“其他学科”的期刊上。1.布拉德福定律 的产生背景现象:300种文摘和索引期刊每年摘登的750000篇文章,由于漏摘、漏标和同时存在的无意义重复,致使仅载有250000篇不同的文章,而两倍于此数量的500000篇文章则全部漏摘、漏标而与读者绝缘。猜测:专业文献除密集地登载于相应的专业期刊(约1/3),还登载于大量的专业边缘(相关的)期刊(约1/3)和更一般化的期刊(约1/3)

3、 ,后两者过于分散而难以查找等原因导致文献大量丢失。假设:任何一学科的绝大部分专业文献都集中于少数的相应专业期刊内,但是同时也散布于其它的相关期刊之中,其散布的态势则与该学科研究范围的大小有关。2.布拉德福定律 的形成1933年,科学博物馆样本:期刊应用地球物理学润滑学领域2.布拉德福定律 的形成右表为科技期刊按其载文量递减顺序排列的表格统计结果A为期刊数量B为相应期刊所载的论文 数量C为A项的累积和AD为B项的累积和BE为期刊累积量的对数 即lgC=lgA。3.布拉德福定律 的基本原理布拉德福的两种处理方法:区域表示法(文字表述法)图形表示法(经验法)3.布拉德福定律 的基本原理区域表示法(

4、文字表述法)布拉德福根据专业论文载于三类不同期刊的设想将表中的数据经加和后按载文累积量划分为a、b、c大致相等的三个区域,即每一区域所包含的相关论文数量相等。两个领域的期刊分区表两个领域的期刊分区表分区期刊载文数数量(篇/年)应用地球物理学润滑作用期刊数量论文数量期刊数量论文数量a94298110b5949929133c2584041271524N14NN13.布拉德福定律 的基本原理发现相应期刊的累积量(C) 之比近似构成等比数列;即: 第一区(核心区):数量不多但效率最高的 种期刊第二区(相关区):数量较大、效率中等的 种期刊第三区(边缘区):数量最大而效率最低的 种期刊三个区域中的期刊数

5、量关系 a为布氏系数 1p2p3p2321:1:aannn(润滑作用)应用地球物理学224:4:1127:29:8)(5:5:1258:59:93.布拉德福定律 的基本原理布氏定律的表示发现:各区的期刊数,逐区上升每种期刊的载文量逐区下降核心区信息密度最高,每种期刊平均刊载27.5篇论文相关区次之,每种期刊平均载文5.5篇论文边缘区最低,每种期刊平均刊载1篇论文分区分区期刊数期刊数论文量论文量1(核心区)82202(相关区)40=8 52203(边缘区)2202582003.布拉德福定律 的基本原理布氏定律的文字描述如果将科技期刊按其刊载某专业论文数量多少,以递减顺序排列,则可分出一个核心区和

6、相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量呈 的关系.:12nn)(:1:2321为公比nnnnnn3.布拉德福定律 的基本原理图形表示法取期刊累积量的对数为横坐标,以相应论文的积累量为纵坐标,得到了图中的AB两条曲线。通过观察,布拉德福认为这两条曲线除下弯部分外,上半部分可以认为是一条直线。3.布拉德福定律 的基本原理设P1为该曲线的直线部分与曲线部分的分界点; 且令 则, 因为横轴为对数坐标,所以有:rOXOYYYYY111223,SXXXX2312)(102lg)(10lg)(10lg2rrr的累积期刊数为第一、第二、第三区或刊数为第一、第二区累积期或为第一区的

7、期刊数或)()(sssrsrr)(:110:10:10:A102)2()(s为公比,得令AAAsrsrr3.布拉德福定律 的基本原理结论如果将某专业刊载文献按载文量的递减顺序排列,并将其划分为三个载文量相等的区域,则相应的期刊累积数量呈等比关系。显然第一区,即P1以下的下弯部分,其载文密度最大,布拉德福将其称为核心区域。)(:1:2为公比AAA3.布拉德福定律 的基本原理布拉德福认为造成这种文献离散分布势态的根本原因在于:科学的整体性原则科学是在时间上先后相继、各个专业间内容相联的整体。作为科学知识载体的各专业文献之间也必然会存在这样的联系,文献的增长与老化是前者的体现,而专业文献散布于相关专

8、业期刊中的事实却是后者的反映学科专业之间联系的紧密程度不一整体性原则还认为科学中各个学科专业之间联系的紧密程度不一。此在文献中的表现就是刊载文献在相应期刊中的不均匀分布3.布拉德福定律 的基本原理格鲁斯下垂:格鲁斯(Q.V.Groos)认为布氏定律的图形应该为三个部分。上升的曲线部分直线部分弯曲下垂部分下垂部分称为布鲁斯下垂加拿大的波普(Adrew Pope)进行统计分析也证明了图形由三部分组成反映理论值与实际值的差异期刊数和文献量统计不足,未能代表全部文献3.布拉德福定律 的基本原理区域描述与图形描述的比较经过数学证明布氏定律的两种形式存在着不能统一的矛盾从数学和实际观察来看,图像描述更接近

9、于文献的实际分布情况就文献计量学的规律说明,不论是区域描述还是图像描述,都只能近似的揭示文献分布的规律,无法精确的符合统计数据4.布拉德福定律的理论发展l创立阶段1934年,布拉德福的论文特定主题的信息源(Sources of Information on Specific Subject)1934-1948年,无人问津1948年,文献学的出版,使其理论开始传播l理论研究阶段(60年代)“布拉德福热”:相关研究空前活跃形成两个学派:区域派和图像派l全面发展阶段(60年代以后)由纯粹的理论研究向应用领域渗透理论与应用并列的全面发展情形4.布拉德福定律的理论发展l维克立的两个推论布氏定律不只局限于

10、划分三个区域,其证明可将等级排列的期刊划分为任意多个区域图像表达式的推论(维氏公式) 为第一区到第k区的期刊累积数量 m为划分的区域数 v为分散系数布氏公式的推广形式(布氏公式) 12131211.:1.:mmVVVnnnn),.3,2(1mknk12321.:1.:mmaaannnn4.布拉德福定律的理论发展l莱姆库勒对布氏定律的描述发展了区域描述方法从布氏定律的文字描述(区域描述)出发,推导出按等级排列的期刊中论文分布的规范式公式莱姆库勒累积分布函数的推导 F(x)表示在x的比例下,期刊论文数与期刊论文总数的比例。p例如,如果要得到比例为80%的论文,将F(x)=0.8和相应的 的值代入,

11、反求出x,即所需期刊的最少数量 ,a是布拉德福系数, =b-1x表示用来定义全部期刊中含有某一指定数量相关论文的最少期刊与期刊总数之比 )1ln()1ln()(xxF11)(bbfXf2ab 4.布拉德福定律的理论发展l布鲁克斯对布氏定律的描述1969年,英国著名情报学家布鲁克斯利用数学公式描述了布氏定律R(n):对应于n的相关论文累积数n:期刊等级排列的序号a:第一级期刊中相关论文数R(1)c:核心区的期刊数N:等级排列的期刊总数k:参数,分散曲线中直线部分的斜率, 当n足够大时,k=Ns:参数,其数值等于图形直线部分反 向延长线与横轴交叉点的n值4.布拉德福定律的理论发展l例子右表为所收集

12、的有关维生素学论文 在相应在期刊中分布的统计数据和 以布鲁克斯公式为数学模型的计算 值。表中n为按载文量递减顺序排列 的期刊序号,R(n)为前n种期刊的论 文累积量。预期的预期的全检数全检数量量4.布拉德福定律的理论发展验证实际统计数据是否符合布拉德福定律: 由布鲁克斯公式可得:查表知R(5)=269,若满足布拉德福定律,则查表可知R(25)=537,R(52) R(25)因此可初步认定上述数据符合布拉德福定律。)(2ln2ln)(22nRsnksnknR5382692)5(2)5(2 RR4.布拉德福定律的理论发展验证查验该项统计的完整性: 经统计已知,有关维生素论文在相应期刊中分布的s值为

13、1,在表中, 选 n=25为参考点,则有: R(25)=Nln25/1=537 所以 N=537/ln25=167(种) 则有论文的理论值总量为: R(167)=167ln167/1=853(篇) 与表中的实际查到值比较,实际查到期刊总量为146种,实际查到文献 总量为730篇,则统计结果的完整性是值怀疑的。 4.布拉德福定律的理论发展l布氏分布理论的发展趋势主要的研究工作进行具体分析,验证布氏经验法则,并实际应用寻求普遍而精确的经验分布公式和理论解释,并取得了较大的发展当前研究方向和有待解决的问题运用大量的统计数据、严密的数学方法,确立或寻求更为精确的规范化的数学模型深入研究布氏分布的机制,

14、寻求科学统一的理论解释努力结合实际,开展应用研究,提高图书情报服务的效率 二、文献信息词频分布规律齐普夫定律l齐氏定律形成的基础频率词典(词表)每一个词在一定长度的文件中出现的频率两个最基本的数量指标(词的出现频率、词的序号)艾斯杜(J. Estoup,速记员)1916发现较长的文章中,词频分布的定量化形式Nrr=C(常数)词的序号:1,2,r,D (1:绝对频率最大的词,D:绝对频率最小的词)词的绝对频率:n1,n2,nr,nD 二、文献信息词频分布规律齐普夫定律l齐氏定律的内容齐普夫定律fr r=c fr:频次,r:等级序号齐普夫定律的“最省力法则”的解释任何语言中,凡是使用频率最高的词,

15、功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。 二、文献信息词频分布规律齐普夫定律l齐氏定律的图像描述 横坐标:等级序号r纵坐标:相应的频率f等级r与频率f均取对数虚线:lnr+lnf=lnc实线:blnr+lnf=lnc斜率为b二、文献信息词频分布规律齐普夫定律l齐氏定律的应用文献标引和词表编制信息检索在图书情报管理中的应用 三、文献信息作者分布规律洛特卡定律l洛特卡定律概述诞生1926年,洛特卡最先研究了科学文献数量与著作数量之间的关系,并创造性地提出“科学生产率”的概念,即指在一定时间内科学工作者在科学上所表现出的能力和工作效果,通常用其生产的科学文献

16、数量来衡量。 在提出科学生产率概念的同时,洛特卡就围绕它进行了统计研究。选用化学文摘与物理学史一览表来研究科学家的著述数量,以此经过数据统计、归纳分析及运用数学工具的推算得出洛特卡定律,即写有x篇论文的作者频率与x的平方呈反比。 频数频数频率频率三、文献信息作者分布规律洛特卡定律l洛特卡定律公式表述设f(x)为写x篇论文的作者数占作者总数的比例,c为某主题领域的特性常数,洛特卡统计的指数a大约为2,对于倒幂法则的这个特例式变为这就是科学生产率的“平方反比定律”的表达式 axcxf/)(2/)(xcxf三、文献信息作者分布规律洛特卡定律l洛特卡定律理论意义1926年洛特卡(Darka)定律创立至

17、今已整整80年,是文献计量学中创立最早的一个定律,洛特卡定律也是文献信息计量学的经典定律之一。为文献计量学的诞生奠定了一定的基础,其创立是值得纪念的。l洛特卡定律的命运由于多种原因,洛特卡定律沉睡了30多年,后来由于普赖斯等人的发掘,自60年代起引起人们的重视。今天,洛特卡定律仍然经常被科学学家、情报学家等引证和研究。 引自科学的计量研究 三、文献信息作者分布规律洛特卡定律l洛特卡定律的基本应用反映科技劳动成果状况可从统计或估算著者数量来预测文献数量的增长速度和文献流向科学估计劳动规模预测科学家数量的增长和科学家发展的规模及趋势掌握科学论文的作者队伍研究科学家的活动规律,研究人才的著述特征,合

18、理编制著者索引,规划检索刊物体系 四.布-洛-齐分布系l布拉德福定律、齐普夫定律和洛特卡定律是三个最基本的定律, 被人们喻之为文献计量学的“三巨头”,多年来一直受到图书情报工作者的高度重视。值得指出的是, 这三个定律之间有很多相似之处, 存在着一定的联系。研究对象期刊上刊载的论文文章中每个词的出现频次科学工作者的著述分析单元期刊数 单词量 著者群计量方法都是通过对文献的调查和统计,取得数据并进行分析归纳来定量地认识文献情报流。四.布-洛-齐分布系数学表达式同一类型布拉德福定律:R(n)= klog(n/s)齐普夫定律f(x)= k/r 及其修正式f= k/rn洛特卡定律f(x)= k/x2如果

19、把数学式中的主体看作箱, 把某一特定量看作投入箱中的球, 那么对于布拉德福分布、齐普夫分布、洛特卡分布来说, 箱好比杂志、词汇、著者; 球好比相关论文、单词、著者所写的论文。四.布-洛-齐分布系布拉德福分布是积累分布,R(n)表示n以前的累积数对R(n)= klog(n/s)微分dR(n)/dn= k/n与齐普夫公式一致,齐普夫修正式f= k/rn 作变换r=(k/f)1/a微分得dr/df =(k1/a /a) f-(1+1/a)取绝对值若a=1,即狭义的齐普夫形式与洛特卡定律一致。因此,这种类型的分布可统一用下式来表示: f(n) = k/nn 式中k,a为常数,一般来说,1a2; f(n)为含有n个具体事项的主体来源数的分布密度。由此可知, 布拉德福分布、齐普夫分布、洛特卡分布的一致性是显而易见的 四.布-洛-齐分布系情报分布模型相似:由上述三定律的数学表达式可以看出,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论