一种新的期刊评价指标特征因子原理及实证研究_第1页
一种新的期刊评价指标特征因子原理及实证研究_第2页
一种新的期刊评价指标特征因子原理及实证研究_第3页
一种新的期刊评价指标特征因子原理及实证研究_第4页
一种新的期刊评价指标特征因子原理及实证研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种新的期刊评价指标特征因子原理及实证研究

1alrak算法及改进的研究方法如何评价科学期刊是一个关系文学、新闻、出版和科学的主题。文献计量专家从不同角度提出了许多计量指标,如传统的载文量、被引次数、影响因子以及近些年提出的h指数以及g指数、A指数、r指数等类h指数。2008年,Nature报道了Scopus数据库的期刊评价新指数SCImagoJournalRank(SJR),SJR使用类似于Google网页和排名的PageRank算法,计算时给予来自高声望期刊的引用更高的权重,是一个同时衡量了期刊被引数量和质量的指标。2009年1月18日,PLoS(PublicLibraryofScienceONE)推出“单篇文章影响力”,新的“文章级指标计划”将为PLoS数千篇文章中的每一篇都标上一系列数据指标,这些指标包括使用数据、页面浏览量、从Scopus和CrossRef获得的引用次数、社会网络链接、媒体报道、评论以及读者评分。这两个新的评价方式被认为是对汤姆森路透科技集团JournalCitationReport(JCR)影响因子的挑战。作为回应,汤姆森路透科技集团于2009年1月22日推出了JCR的增强功能,2007版的JCR报告除了增加五年影响因子、五年影响因子趋势图、影响因子箱线图、分类排名表等功能外,还新增了两个评价指标:EigenfactorScore和ArticleInfluenceScore。2期刊影响力评价Eigenfactor中的词头“eigen-”来源于德语,是characteristic(本征、特征、固有)的意思,国内学者任胜利将其翻译为“特征因子”,本文也沿用这一译名。特征因子由华盛顿大学的CarlBergstrom和JevinWest等人提出,它的基本思路是:影响因子在计算期刊的引用次数时,将来自所有刊物的引用都平等看待,而实际上,对于像Nature和Science这样有影响力的大刊,来自它们的引用显然比一些小刊的引用分量要大得多。特征因子的制定就是考虑到不同层次期刊的引用权重,通过引文构建起文献引用网络,对期刊的影响力进行评价。特征因子的工作原理是这样的:假设一位研究者随机选择某年(比如2007年)出版的一份刊物的某篇文章,任意选择该文章的一篇参考文献,跟随引文链接进入下一份期刊,然后从2007年版的这份期刊中再任意选择文章,继续随机选择引文进入下一份期刊,研究者不停地重复这个行为,很显然,如果这个动作无限地进行下去,越是影响力大的期刊,研究者进入的次数越多。研究者进入某个期刊几率的百分值,就是该期刊的特征因子分值。例如,2008年Nature的特征因子分值是1.76407,这表明研究者在JCR收录的SCI和SSCI文章中按照上述的模式进行漫游,有1.76407%的几率进入Nature。从特征因子的工作原理可以看出:特征因子分值评价的是期刊的整体影响力,会受到期刊刊文数量的影响,如果两种期刊的质量相当,一种期刊的刊文数量是另一种的2倍,那么它的特征因子也会是后者的2倍。2008年度影响因子最高的JCR期刊是CA-CANCERJCLIN,高达74.575,但是由于它的刊文量只有19篇,因此它的特征因子分值只有0.03648。为了评价期刊论文的平均影响力,JCR还提出了论文影响分值(ArticleInfluenceScore)指标,论文影响分值和传统的影响因子相对应,它的计算方法是用特征因子除以期刊所发表论文的规范化比值(即该刊发表论文占所有论文的比例)。论文影响分值的平均值为11,分值大于1表明期刊中每篇论文的影响力高于平均水平,反之则表明期刊中每篇论文的影响力低于平均水平。Nature杂志2008年度的论文影响分值为17.278,这说明Nature每篇文章的影响力是JCR收录期刊平均值的17倍左右。3小期刊群的研究过程通过数学方法,可以模拟上述研究者在文献网络的漫游过程,从而计算出期刊的特征因子。West和Bergstrom以汤姆森路透科技集团的《期刊引证报告》(JCR)为数据源,构建了JCR收录期刊(包括自然科学和社会科学期刊)剔除自引的5年期引文矩阵,用类似于PageRank的算法迭代计算出期刊的权重影响值,通过权重影响值计算出期刊的特征因子。下面我们就采用这个算法,计算2008-2009年度CSSCI收录的18种图书情报学期刊的特征因子分值和论文影响分值。由于2008年后的数据还不完整,我们采用2007年度的数据。具体方法是:从“中国引文数据库”分别查得18种期刊2007年对其他期刊2002-2006年度文章的引用情况,将结果用Excel进行处理之后,得到18种期刊排除自引后的互引矩阵和2002-2006年发表文章总数,如表1所示:为了方便显示,在下面的计算中,我们仅取前五种期刊的互引数据为例,具体步骤如下:(1)构造互引矩阵Z,Zi,j表示期刊j对期刊i的引用次数。由于排除了自引,所以Z的对角线上全为0。(2)对Z进行规范化,也就是用每列被引数除以该列的总和,即:Hi,j表示期刊i被期刊j的引用次数占期刊j总引用数的比例,由此得到规范化矩阵:(3)处理悬点(DanglingNodes)。有些期刊从未引用过其他期刊,这些期刊对应的列全是0,这就是悬点。悬点所在列可以用一个由0或1组成的行向量d表示,其中1对应悬点所在列,0对应非悬点所在列。由于我们的例子中不存在悬点,所以该行向量d=(4)计算文章向量。设A是所有期刊发表的文章数,文章向量a是在5年内每个期刊发表文章比例的列向量(用每个期刊发表的文章总数除以A,总值为1)。在本例中:A=799+854+768+2438+949=5808,文章向量就是:(5)将矩阵H中的悬点用文章向量替代,构建随机矩阵H′,矩阵H′对应着模型研究者在科学文献中随机漫游的过程。由于本例中没有悬点,所以H′和H是相等的:(6)构建过渡矩阵P。P=αH′+(1-α)a.eT在上式中,eT是一个全为1的行向量,a是规范化的文章向量,因而a.eT就是拥有同样列a的矩阵。α是阻尼因子,一般取0.85,矩阵P同google用来计算PageRank的google矩阵相类似,对应着如下的随机过程:研究者以α的概率跟随链接进入下一个期刊,以1-α的概率随机跳转到另外的期刊,这个期刊的选择是根据其刊发文章总数占所有文章的比例而定的。之所以增加突然跳转的随机过程,是为了处理类似悬点的小期刊群,比如某个小期刊群和整个引用网络只通过少数链接相连,那么一旦漫游行为进入这个小圈子,就会陷入其中很久,从而高估了这个小期刊群的影响力,增加跳转的行为则可以减少这方面的影响。从矩阵P的构建可以知道它是一个不可约的、非周期性马尔科夫链,根据Perron-Frobenius定理,它有一个唯一的主特征向量π*,π*对应着在矩阵P表示的随机过程中,研究者在每个期刊停留的时间比例,因此可以作为评价期刊影响力的权重,也称影响向量。设π(0)=[1/5,1/5,1/5,1/5,1/5],通过下面的方程进行迭代计算,可以收敛到矩阵P的主特征向量:π(k+1)=αHπ(k)+[αd.π(k)+(1-α)]a取ε=0.00001,每次迭代之后,检查π(k+1)-π(k)是否小于ε,如果小于,那么π*≈π(k+1)就是影响向量。在本例中,经过12次迭代,会得到稳定的影响向量:(7)计算特征因子分值和论文影响分值特征因子的值向量是矩阵H和π*的点积,经过规范化之后乘以100,换算为百分值,即:本例中的特征因子分值向量就是:期刊论文影响分值由下式计算:其中EFi是期刊i的特征因子值,ai是规范化后的文章向量对应于期刊i的分量。从论文影响分值的计算公式可以看出:分子是期刊i的特征向量,乘以0.01之后就是研究者通过引文在文献网络之间随机漫游时进入期刊i的几率,分母代表该期刊发表文章总数占所有文章数的比例。显然,对于一篇平均水平的期刊,这个比值应该等于1。本例中的论文影响分值向量是:通过上面的描述的算法可以看出,特征因子具有很多优点:(1)对引文的处理方式更先进,同时体现了引文的数量和质量。(2)以五年作为引文时段,更全面地反映在引文产生时间上各具特点的不同学科论文的被引情况。(3)对特征因子的计算排除了自引,避免了期刊为了提高排名而鼓励自引。(4)发文量较少的综述类期刊的影响力有可能被影响因子所夸大,特征因子的计算中用引用期刊的影响力除以期刊的总引文数,调整了不同学科和不同类型期刊之间的引用差异。(5)特征因子算法对悬点和类悬点,也就是那些和网络其他部分联系很少的点或者点集进行了特殊处理,避免了悬点和类悬点期刊对结果的影响。4期刊特征因子与综合指数的关系相对于其他传统期刊评价指标,特征因子分值和论文影响分值的计算比较复杂。为方便计算,我们用软件实现了上述算法,计算软件可以在/files/EFCalculator.rar下载。通过该软件,我们计算出2008-2009年CSSCI收录的18种图书情报学期刊的特征因子分值和论文影响分值,如表2所示。表2还列出了其他一些期刊评价指标,其中CSSCI排名由中国社会科学研究评价中心根据各学科期刊总被引次数、2004-2006三年他引影响因子及其加权值数据得出,综合指数由5项传统指标和5项新指标加权归一化处理后得出,h指数的数值取自赵基明等人的论文,影响因子来源于中国科学技术信息研究所发布的2006年度《中国期刊引证报告》。从表2可以看到,CSSCI排名前7的期刊论文影响分值都在1以上,其余期刊的论文影响分值都在1以下,这表明论文影响分值对期刊质量的评价和CSSCI是大体一致的。此外还可以发现,情报和偏情报类的期刊的特征因子分值普遍较高,这与我们取样样本较少有关,由于情报类期刊发文数量相对较多,导致情报类期刊特征因子分值偏高,而情报类期刊之间较多的互引又增加了对情报类期刊特征因子分值的正反馈。有国内研究者通过分析我国大陆地区被SCI(E)收录的64种期刊的数据,得出结论:特征因子与期刊论文数量、总被引以及h指数具有较强的相关性。但论文影响分值和其他期刊评价指标的关系还未见报道。我们利用表2的数据,通过SPSS软件进行分析,得到特征因子分值和综合指数以及论文影响分值和影响因子、综合指数、h指数的皮尔逊相关矩阵,如表3、表4所示。从表3和表4可以看出,特征因子分值与综合指数具有较强的相关性,可见特征因子分值和综合指数一样,可以用于评价期刊的总体影响力。论文影响分值和影响因子的相关性最强,与h指数、综合指数也具有较强的线性相关性,不过由于我们的样本数量不大,未能包含所有类型的期刊,因此论文影响分值和h指数、综合指数的相关性只代表期刊文章数相差不大情况下的结论。5缺少有影响的研究文献总被引次数和论文数量学术文献通过引文形成文献网络,通过研究者在文献网络中每种期刊停留时间,可以计算出期刊的特征因子和论文影响分值。特征因子兼顾引文的数量和质量,能够很好地反映优秀期刊的真实学术地位。但是,特征因子也有不足之处:首先,特征因子分值和论文数量、总被引次数相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论