信息计量学复习(1)_第1页
信息计量学复习(1)_第2页
信息计量学复习(1)_第3页
信息计量学复习(1)_第4页
信息计量学复习(1)_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章绪论1 /士 白、W信息计量子定义:采用数学、统计学等各种定量方法,对社会化的信息交流过程中的信息的组织、存储、分 布、传递、相互引证和开发利用等进行定量描述和统计,以便揭示社会信息交流过程数量特 征和内在规律的一门新兴学科。“三计学”关系(1). “三计学”具有极大的相似性,研究领域存在着相当程度的交叉之处。(2).从发展历史来看,信息计量学是在传统文献计量学及科学计量学的基础上扩展和演变 而成的,文献计量学和科学计量学是信息计量学的学科基础。(3).从研究现状来看,“三计学”仍然是相互独立的科学学科。(4).从发展趋势来看,“信息计量学”的研究范围更加广泛,“三计学”将融合到“信息

2、计量学”这一统一的学科体系之下。定义:文献信息流:具有一系列主题特征的科学文献的集合。.静态特性:在一定时间内科学文献在空间的分布性质。布拉德福定律、齐普夫定律、洛特卡定律动态特性:科学文献随时间的延续而增长和老化 的性质。文献信息增长规律、文献信息老化规律.科学知识量的急剧增长是科学文献激增的主要原因.其他原因:社会、教育、材料和加工技术等因素. 分类一:绝对值指标:图书数量、期刊数量、论文数量相对值指标:某个学科文献占全部文 献的比例、不同类型文献的比例、不同语种文献的比例.分类二:非累积数(增量)累积数(总量).内容:F(t)=aebt(a0,b0)指数增长模型表示的是“文献累积量”(总

3、量)与时间(年)的关系,未能反映“非累积 量”的变化规律。科学文献并不总是按指数函数关系增长。指数增长公式对起始时间很敏感。指数规律不能预测文献的未来增长趋势。指数增长模型未考虑文献“老化”、“停刊”等问题,与实际情况有出入。内容:F(t)=k/ (1+ae-kbt)(k, a, b0)当t较小时,逻辑曲线与指数曲线相似;在曲线的最初阶段,科技文献是近似地按照指数规律增长的。当t很大时,逻辑曲线趋向于一个固定值k;此后不管经过多长时间,文献的累积量只能无限地接近一个固定的数值,但永远不会越过 这一极限。逻辑曲线的增长速度在拐点处开始趋缓;逻辑增长曲线的拐点坐标为(lna/kb, k/2),最大

4、增长速度为bk2/4。.局限性分析:给科学文献的增长设定了一个增长的极限。文献量会有一个不可逾越的有 限饱和值K,意味着文献的增长最终会完全停止,知识达到饱和而不再发展了,这与科学 发展的现实情况是不相符的。科学文献随其“年龄”的增长,失去了作为科学情报源的价值,以及因此越来越少被科学家 和专家们利用的过程。一般而言,“文献老化”是针对某一类文献群体而言的,而不是指某 一篇或少量具体文献的“老化”。文献老化:针对情报用户,情报老化:针对情报对象(客观事物)(参照系统不同)(1) 定义:.历时半衰期:某学科已发表的文献中有一半已不再使用的时间。.共时半衰期:某学科正在利用的全部文献中较新的一半是

5、在多长一段时间内发表的。(2) 意义:.科学文献的“半衰期”反映了科学学科的稳定性。“半衰期”短,该学科的文献新陈代谢频繁,新文献得到大量应用;“半衰期”长,该 学科文献更新缓慢,文献时效性长。“比较稳定的学科”比“正在经历重大变化的学科”长;“基础理论学科”比“应用技 术学科”长;“历史悠久的学科”要比“新兴学科”长。.不同类型的文献,“半衰期”也不同。“专著”比“期刊论文、科技报告、会议文献”长;“经典论著”比“一般论著”长;“理论型刊物”比“报道型刊物”长。(1)定义:在某一个知识领域内,把对年限不超过5年的文献的引文数量与引文总量之比。联系:文献的老化速度越快,则“半衰期”越短,“普赖

6、斯指数”越大;文献的老化速 度越慢,则“半衰期”越长,“普赖斯指数”越小。区别:文献的“半衰期”只能衡量某一学科领域全部文献的老化情况;“普赖斯指数”既 可用于某一领域的全部文献,也可用于评价某种期刊、某一机构、某一作者、某篇文章的老 化特点。.共时法:在某一确定的时间间隔内,选定某一专业领域在该时间间隔内所发表的全部文 献,对这些文献的全部参考文献的出版年龄进行统计分析的方法。历时法:首先选定某一专业领域一定数量的文献,然后再对这一确定的文献集合在以后各年被引用次数进行统计 分析的方法。(1)区域表示法:假设一定时间内(通常为一年)共有N种期刊刊载了某学科 的论文(简称为“相关论文”)K篇,

7、将这N种期刊按照所载“相关论文”的数量降序排列, 然后,将该序列划分为三个区,使得每个区所包含的”相关论文“的数量相等(即“K/3篇”),则各区的期刊数量满足下列关系:ni:n2:n3=1:a:a2(2)图像表示法:假设一定时间内(通常为一年)共有N种期刊刊载了某学科的论文(简称 为“相关论文”)K篇,将这N种期刊按照所载“相关论文”的数量降序排列,然后,将该 序列划分为三个区,使得每个区所包含的”相关论文“的数量相等(即“K/3篇”),则前面各区的期刊累积数量满足下列关系:a :p :Y =1:b:b2(b1).一定时间内(通常为一年)共有N种期刊刊载了某学科的论文(简称为“相关论文”) K

8、篇,将这N种期刊按照所载“相关论文”的数量降序排列,然后,将该序列划分为m个 区,使得每个区所包含的”相关论文“的数量相等(即“K/m篇”),则:n1:n1-2:n1-3:n1-m=1:V:V2 ::Vm-1(V1)“维氏(分散)系数”和“布氏(分散)系数”的实质:反映了科学论文在期刊中的分布情况:其值越大,表明该专业的论文在相关期刊中的分布 越不均匀,集中与分散的趋势越大,相关论文高度集中在核心区少数几种期刊,其他各区 的平均载文率相差也在;其值越小,则该专业的论文在相关期刊中的分布越均匀,集中与分 散的趋势越小。4.格鲁斯下垂a n 8.布拉德福曲线中存在格鲁斯下垂lg上升的曲线部分-直线

9、部分1弯曲下垂部分原因学科互相交叉渗旌)导致文献难以准确地分类;(C v n V N)统计工具本身的不足;其他因素的干扰。(期刊的更名、停刊,文献的重复发表等等).科学统一性原则:每一个科学学科都或多或少,或远或近地与其他任何一个学科相关联。 因此,属于某学科的文献,不仅仅会出现在这个学科的专业期刊上,而且也时时可能出现 在其他学科的期刊上。. 成功产生成功的原则(the success-breeds-success principle): 一种期刊的文献量 越大、质量越高,作者就越愿意将自己的文章刊登在这些期刊上,形成了一种“堆加效应”。.饱和效应(saturation effect):抑制

10、核心期刊数量的无限增加,此外期刊的载文量是 有限的,编辑人员不得不制定出版计划和方针,控制文献的数量.随着时间的增加,刊登该学科文献的期刊与相关论文数成正比增加,使得布氏定律的图 形成直线增长。i “单一化的力”:只用一个词就可以表达所有概念为“最省力”;i “多样化的力”:每个概念都用一个不同的词来表达为“最省力”;在“单一化的力”和“多样化的力”的共同作用下,文献中的词频分布满足“齐普夫分布规 律”。设有一篇文献包含N个词(NA5000),统计其中每个词出现的频次Fr,按照频次递减的顺序排列,并用自然数给这些词编上等级序号r (L3r N 1),贝0: FrXr = C或者fr = cXr

11、-1l “齐普夫公式”是“朱斯公式”的一种特殊情况。(b=1)F = Cr-b r芒代尔布罗三参数公式齐夫第二定律一一低频词分布规律i齐夫第二定律是阐述低频词频次与词数关系的一个定律。i具体描述为:设In表示为出现频次为n的词的个数,则In/I1大小与文献的长度无关,仅取决于频次n,即:In/I1=2/n(n+1) 第六章洛特卡定律1.洛特卡定律内容f(x) = C / x2:写了 X篇论文的作者数占作者总数的百分比f(x),与其撰写的论文数X的平方成反比。x:发表论文数量;lf(x):某领域中发表了 x篇论文的作者数量占作者总数的比例;C:等于在该领域中发表了 1篇论文的作者数量占作者总数的

12、比例,即C=f(1)。f(x) = C / xnx:发表论文数量;f(x):某领域中发表了 x篇论文的作者数量占作者总数的比例;C:等于在该领域中发表了 1篇论文的作者数量占作者总数的比例,即C=f(1);n:参数,在特定的学科领域是一常数,在不同的学科领域有波动,一般在1.54之间变化。 幕指数n的含义.幕指数n表示作者分布分散程度或不均匀程度以及学科或主题相互渗透水平的定量描述 它与各学科各主题的复杂性及发展现状和规律密切相关.幕指数n越大,作者分布越分散, 即作者分布越平均.幕指数n因为不同学科或主题研究的对象不同,使用的理论和方法,需要的研究条件和实 验手段,研究人员的知识水平和素质,

13、学科自身的难度特点等因素不同,造成各学科研究人 员的研究能力和撰文能力不同,因此不同学科的幕指数n是不同的. 幕指数n的取值大致按自然科学技术社科和人文科学的顺序增大.在某一特定领域中,全部论文的半数系由该领域中全部作者的平方根的那些人撰写的。布-齐-洛定律的理论解释(1)一般理论解释马太效应.成功产生成功:“成功”有广泛的含义,诸如:论文的写作与发表,收入的增加,杂志 声誉的提高,词汇的被选用等。已取得的成功次数越多,就越容易在此基础上获得新的成 功。省力法则支配的人为选择的作用:人的选择要受省力法则支配。在这种选择作用下,当 一系列同类对象被选择时,有的经常被选择,有的不常被选择,这种频度

14、不均匀的选择结 果,实际上表征着被选择对象之间个体特性方面的差异,其本身又可以反过来作为再次选 择的依据。如果我们把对象受到一次选择看成一次成功的话,那么这种成功的累积必然容 易导致新的成功(2)布-齐洛定律的心理物理学机制洛特卡定律:科学生产率是指科学家在科学上所表现出来的能力和工作效果,通常用 其生产的科学文献的数量来衡量。这种衡量说到底是人和社会对科学家的主观评价的客观 描述。科学家发表的论文数量( )成为科学生产率的刺激的量表,即反映着科学生产率 这种刺激的强弱(大小),该刺激在心理上的反应就是科学家生产率高低的感受(r),即科 学家每发表一篇论文提高的生产率(被社会承认的程度)与他已

15、发表的论文数量成反比。齐夫定律:客观信息对人产生的刺激,通过思维加工(即反映)形成意识形态的信息 产品,即对信息反应的结果,而为了交流,这种反应要客观化,便需要符号,这里是词。所以,词频大小的序号给出了信息单元的刺激强弱的客观度量,而词频是对反映的客观化 的度量。词频大小的序号()形成了刺激的量表,词频(r)形成了 “反应”的量表。布拉德福定律:社会信息系统(这里主要是期刊系统)对特定类别信息刺激一一反映 关系的定量描述。从用户考虑其合理性,可以从信号检测模型得到解释,对特定的心理需 求,期刊作为交流的工具,他向用户提供一种刺激。它包含有信号和噪音。将期刊按特定 类别的载文率高低排序构成期刊的

16、等级。显然期刊等级()给出了特定心理需求刺激强 弱的度量,而特定类别载文量相同的期刊可以按非相关论文的载文量排序,相信这将保留 更多的有用信息。1.引文分析.Price的定义:“如果文献A将文献B作为参考文献,则文献&就有了一篇参考文献B,而文献3就有了一 篇引用文献A。换言之,B是A的参考文献,A是B的引用文献。”“利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、专著、著者等各种 分析对象的引证与被引证现象进行分析,以便揭示其数量特征和内在规律的一种文献计量分析方法。”依据“研究目的”来划分:.通过文献之间的相互引用建立科学论文和期刊的学科联系,进行科学文献结

17、构和科学结 构的研究;.通过文献中引用的事项和时间序列等要素,来揭示科学发展的沿革和历史;.通过引证次数多少来评价成果和人才;.通过引用和被引用的习惯与趋势,来研究信息用户的结构和行为特征。依据“研究对象”来划分:. 对“引文数量”进行研究(主要用于评价期刊和论文);.对“引文网络”进行研究(主要用于揭示学科的发展与联系);.对“引文主题”进行研究(用于揭示科学的结构和进行文献检索)。.从引文的语种、国别、年代、作者等进行的引文分析选取统计对象 根据所要研究 的学科的具体情况,选择该学科中有代表性的较权威的杂志,确定若干期及若干篇相关论文 作为统计的对象。统计引文数据在选取的若干篇论文中,分项

18、统计每篇论文后面引文的数量,引文的出版年代、语种、类型,论文作者的自引量等。引文分析在获取的引文数据的基础上,根据研究的目的,从引文的各种指标或其他不同的角度进行分析。例如,引文量的理论分布分析,引文量的集中、离散趋势分析,引文量 随时间增长规律的分析,引文的主要指标分析,包括自引量、引文语种、文献类型、年代、 国别等项目分析作出结论加菲尔德引文集中定律.引文按年度、语种、文献类型等的分布,都表现出集中与离散的趋势。(1)对于整个自 然科学来说,各学科的核心期刊总和大致不会超过1 000种,甚至可能只有500种。对于单 一学科,则集中的程度因学科、专业而异。(2)任何一个学科所需要的“尾部期刊

19、”,即布拉德福定律中所描述的非本专业的科学期刊, 绝大多数构成其他学科的核心期刊。引文测度的主要指标分析.引文指标分析包括引文年代、引文语种、引文类型、引文国别、引文作者(特别是著名 大师)、引证经典著作。评价期刊的主要测度指标(1)期刊载文量 在给定时间内,期刊发表的全部论文数量。描述期刊生产论文能力的基本 指标之一。这是一个绝对数指标,根据统计需要,它可以是期刊刊载的全部论文量,也可以 是特定学科或专业的论文量。(2)期刊引证率 在给定时间内,期刊引证的全部参考文献数量。如:某篇论文(或某书、 某期刊)的被引文量,指该论文(或书、期刊)中含参考文献的数量。描述期刊吸收外部文 献能力的基本指

20、标之一。(3)期刊被引率在给定间内,期刊被引证的全部次数。该指标以客观使用的数量直接反映了期刊在科学发展和文献交流中所起的作用,即影响力。(4)平均引文率. 平均引证率:在给定时间内,期刊引证参考文献的数量除以相应期刊的载文量。它表示期刊每篇论文 被引证参考文献的平均水平。平均引证率通常可以反映期刊吸收信息的能力和学术水平的高 低,以及科学交流程度的高低。. 平均被引率:在给定时间内,期刊所载文献被引的数量除以该刊的全部载文量。平均被引证率高表示 该刊的学术水平高低。(5)影响因子(IF)某年度某刊的影响因子=该年引用该刊前两年论文的总资料/前两年该刊所发表论文总数.影响因子主要用以调整和修正大刊、老刊凭借发表论文绝对数量而在期刊被引上所占的 优势,是衡量期刊重要性,选择核心期刊时使用的一个重要指标。.某刊影响因子的值越大,说明它的被引用率越高,质量也就越高。(6)即年指标即年指标=该刊某年发表论文在当年的被引次数/当年发表论文的篇数.它是用于测度期刊被利用速度的指标,也是衡量期刊重要性的一种依据。它是期刊质 量中及时性和有用性相结合的客观评价指标。(7)期刊自引率指某期刊全部参考文献中,引证该刊自己发表的论文所占的比例。期刊自引率=引证该刊自己发表论文的次数/期刊参考文献的总数(8)期刊自被引率某期刊全

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论