




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
免疫学与生物信息学论文相关性分析
自1975年《jct》公布以来,if成为一个关注的焦点,并逐渐发展成为一个国际基准和科研评估的核心内容。期刊评估也是评价科研评估的同义词。然而,近年来伴随着日益复杂的科研环境以及评价需求,IF弊端凸显,因此新型期刊引文测评方法成为国内外研究的热点,AF(audiencefactor,读者指数),SNIP(Sourcenormalizedimpactperpaper,单篇文章源标准影响指数)以及Crownfactor(荣誉指数)等概念不断推出。本文将从期刊评价发展脉络中追溯其进化历程,并通过相关分析、聚类分析与因子分析论证主要评价指标相关性及其优劣。1期刊评价发展1972年,基于Martyn和Gilchrist所谓26.1%引文来自2年内的文献这一事实,Garfield将IF定义为某期刊前两年发表的论文在统计当年的被引用总次数除以该刊在前两年内发表的论文总数。IF的确立无疑是具有里程碑意义的,它奠定并开创了科学计量学的基础。但是从根本上说,这一指标原产于美国、因美国图书馆员选刊而生,简单而明了是其基本特征。后来人们用之于期刊评价并在科学评价中备受争议,这一点Garfield本人也始料未及。由于用途的改变,没有将专业性、引文密度、半衰期等可变因素考虑在内而造成的许多重要信息的丢失问题也就浮出水面。综合起来,问题的焦点主要集中在以下几个方面:首先,没有滤过自引造成的噪声而引起人为操纵;其次,2年统计期使不同刊物、不同学科可比性受到制约;第三,引文来源不清,仅仅基于被引绝对数量将不同来源引文等同视之。上述因素引发的发展的内部张力,加之本世纪初复杂网络研究的兴起以及PageRank所谓“不同链接贡献不等值”理念输入的新思维,促使期刊评价在矫正和补充IF中进化。总的来说,期刊评价指标沿着下述四个方向发展:(1)类PageRank型:以Eigenfactor与SCImagoJournalRank(简称SJR)为代表。这两个指标皆是Google网页排名算法应用于引文网络的产物。首先是2007年,Bergstrom等人构建了特征因子(Eigenfactor),其中将期刊引文测评方法的理论假设从“所有引文重要性等价”修正为“引文重要性正比于施引期刊重要性”,它通过构建剔除期刊自引的5年期引文矩阵,以类似于PageRank的算法迭代计算出期刊的权重影响值,从而实现了早在1965年Price提出的引文数量与价值的综合评价。同年,FélixdeMoya教授带领的西班牙SCImago研究团队使用Scopus数据给出新型期刊测评指标SJR,这一指标将期刊引文网络从同等对待各刊引用的无权网进化到体现各刊声望差异的权重网。(2)类h-指数型:以期刊h-指数为典型。这一指标是2005年美国加州大学圣迭哥分校物理学家乔治·赫什(JorgeE.Hirsch)提出的衡量科学家个人科研成就的h-指数的衍生物。2007年,Braun将h-指数扩展到对期刊的评价,并定义为在统计时段内,该期刊至少有h篇论文获得了h次引用。其继承了h-指数兼顾生产率和影响力的优点,巧妙地将数量指标(论文数量)和质量指标(被引频次)有机结合,从而摈弃了影响因子的弊端,迎合了学术界开发更为客观、透明的学术遴选指标的迫切需求。(3)百分比排序型:以五年期影响因子(下文简称IF5)为代表。其沿袭了2年期影响因子的算法,只不过将统计年限确定为5年,因此通过较长时间的期刊平均生产率以及论文被引的统计折射出期刊的影响。(4)SNA型:如LoetLeydesdorff教授提出的期刊中心度的概念。它是社会网络(SocialNetwork,简称SN)在引文网络中的体现,即根据期刊在引文网络中所处位置的重要程度评判期刊的学术地位,而网络由代表期刊的节点和代表期刊间引用关系的连线构成,期刊的重要程度则用中心性指标如:点度、中介和特征向量中心度来表示。此外,常用的指标还包括JCR中的论文影响分值(ArticleInfluenceTMscore,下文简称AI)、即时指数(immediacyfactor),以及2010年HenkF.Moed教授开发的新指标SNIP,本文将采用定量方法就上述指标的相关性展开分析。2文献检索和snip查询本文选用F1000数据库,以该库中免疫学、生物信息学文献为统计对象,统计年限为2005年。在F1000高级检索界面中,笔者设定检索式为:articlepublicationdata=2005andsubject=“immunology”orsubject=“bioinformatics”。检索结果为免疫学文献981篇,生物信息学文献999篇,共计1980篇。对于上述记录,首先采用计算机编程语言Java抓取了文献的篇名、期刊名、F1000因子(F1000ArticleFactor,下文简称FFa)、作者等信息,并将上述信息导入excel;其次,将其中期刊汇总,选用2007年版JCR逐条查询获取对应期刊的2年期影响因子,并通过2010年版JCR获取IF5以及特征因子、AI、即时指数等指标的数值,查找中采用全称与截词检索相结合的方式,以避免由于F1000数据库与WebofKnowledge简称不一致而造成的漏检;第三,以同样的检索方式通过网站获取了每种期刊的SJR以及期刊h-指数,通过/journalmetrics/snip.html网站查询了每种期刊的SNIP。在上述统计与检索基础上,笔者采用SPSS16.0,就指标间相关度及其关系、各指标与同行评议结果(即FFa)的一致性展开分析。2.1非参数斯皮尔曼等级相关检验鉴于相关数据K-S检验表明显著性水平小于0.05,即各项指标均不符合正态分布(正态性检验从略),因此选用非参数的斯皮尔曼等级相关检验。表1显示了IF与IF5、特征因子、AI、即时指数以及与SJR、SNIP、h-指数的相关性分析结果。由表中不难看出:IF与IF5以及AI、SJR、SNIP、即时指数均为高度正相关,虽与特征因子以及h-指数的相关系数相对较低,但仍为0.741和0.685。2.2因子分析结果在此,我们将采用层次聚类法中的R型聚类,依据指标间的相似性将上述8个指标分为不同集合。其中SNIP、SJR、h-index、IF、IF5、Immediacyindex、EigenfactorTM、ArticleInfluenceTM分别对应变量1~8。由于指标计算方法不同,方差和平均数差异较大,所以采用Z分数进行标准正态变换,样本间距离的测量则选用相关系数距离法。凝聚状态表(表2)清晰地体现了8个变量的聚类过程,表3为聚类结果。通过聚类将指标概分为两大类,其中第一类由IF、IF5、即时指数、AI、SNIP、SJR组成,第二类包括期刊h-指数、特征因子。为了验证聚类分析结果,这里将通过因子分析的命名解释性进一步分析指标间的关系。KMO检验和Bartlett球度检验(从略)结果表明,该样本适合因子分析。就因子分析过程看来,公共因子碎石图(略)表明前面的2~3个因子特征值变化非常明显,第4个特征值以后变化趋于平稳,因此提取2~3个因子将对指标的描述有显著作用。同时为使每个因子上的具有最高载荷的变量数目最少,并简化对因子的解释,本文采用方差极大法将因子载荷矩阵进行旋转,表4为旋转后各指标因子载荷。因此,我们提取了数量与质量两个因子。因子协方差矩阵表明,因子变量为正交,即二者不相关。载荷散点图(图1所示),作为旋转后因子载荷矩阵的图形化表示方法,使我们更为清晰地看到指标之间的相互关系,该图进一步验证了聚类结果。2.3核心指标与期刊影响因子的相关性作为同行评议的典型代表,F1000数据库中的FFa系根据全球资深科学家的意见,以事后评议的方式(postpublicationpeerreview,简称PPPR),采用加权平均的方法将专家意见汇总而来。其评审程序与Garfield所谓“专家在阅读每篇文献基础上进行评判”的理想完全吻合。那么我们能否做出这样的假设:FFa是对论文质量评价的最接近的替代者。鉴于国内在科研评价中,将期刊影响因子等同于该刊所刊载论文的水准,已经成为一种成规,尽管二者存在很大差异。因此这里将以FFa以及上述8指标作为科学评价中的两种主要方法的代表,通过各指标与同行评议结果的相关性剖析这一差异,并试图进一步解析各指标用于科研人员或论文评价中的可靠性。表5、表6即为二者相关性分析结果。分析表明:无论是生物信息学还是免疫学均体现出各项指标与FFa的低度相关。3聚类分析与因子分析(1)首先,相关分析表明各指标间具有较好的一致性。就数值而言,IF、AI与其他指标的相关度最高,除与特征因子和h-指数关系落入0.6<r<0.8之间,其余均属0.8以上的高度相关;最高值出现在AI与IF5之间,相关系数为0.960;h-指数与其他指数的相关度较低,该指标除与特征因子相关系数为0.861之外,其余均在0.6<r<0.8之间,最低值为0.655,出现在h-指数与SJR之间。由此说明,各指标虽源自WoS、Scopus不同的数据库,计算方法也不尽相同,但是其间具有较高的相关度,这就为利用中指标之间、数据库之间的可替代性和选择性提供了依据。(2)其次,聚类过程与因子分析得出了一致的结论。如将因子载荷阈值设定为0.5,那么h-指数即成为两栖指标,将阈值进一步提高到0.8,因子分析划分出的2个小组就清晰地显现出来。它们分别代表了量化组与量、质合一组。通过聚类过程不难看出:两个指标集合分别以IF、h-指数为核心,IF与h-指数既是关键节点同时也是连接量化组、量质合一组两个集合的纽带。如果将各组指标联合,将区分出期刊在数量与质量两个维度上的特点。对于以IF为代表的量化组,总被引次数、刊载论文数量和论文及引文统计期(n年)是其中三个关键的参数。以h-指数为核心的小组,体现了期刊的评价不仅仅依赖于引文的数量,同时有赖于引文的质量。(3)第三,聚类分析与因子分析同时表明,SJR、SNIP等新生指标并未达到预期设想,这与LoetLeydesdorff在参考文献、中得出的结论是一致的。虽然这些新指标是在对IF的批判声中形成的,初衷是冲破传统文献计量思想的束缚,从而将指标表述成为量与质的双重函数,但是就因子分析结果看来,现阶段并没有解决影响因子中的问题,其实质还是对于“量”的描述。然而,h-指数与特征因子对于“质”一定程度上实质性的强化,则意味着它们在引文分领域迈入了重要的一步,并为研究评价提供了新的视角,代表了人们在科学地将引文分析方法应用到期刊评价领域方面的努力和尝试(4)最后,就与FFa相关性分析结果而言,以生物信息学为例,所有相关系数均在0.3<r<0.5之间,因此各指标均体现出与专家意见的低度相关。从这种意义上说,如果以同行评议结果作为准绳,无论是IF等经典指标,亦或是以量、质统一著称的新指标,在作为论文质量评价的间接替代品方面均无优势可言。具体地说,包括期刊h-指数、特征因子在内,它们或许是期刊质量评价的一个比较好的指标,但对论文评价来讲并非很好的选择。因而进一步证实了A.vanRaan的观点,即“如果有一个每一位文献计量学家都同意的观点,那就是永远不要用刊物的影响因子来评价一篇论文或某个研究人员的学术表现——这是不可饶恕的大错”。4评价中的指标从上述论述可以得出这样的结论:(1)上述指标虽然源于WoS与Scopus两个不同的数据库,但是指标之间具有较好的一致性。因此,两个数据库具有利用中的可比性以及评价中的可选择性与替代性,这就为定位在开源的SJR、SNIP以及h-指数的应用大开方便之门。(2)期刊评价指标的发展折射出新的研究趋向:即“质”已经成为期刊评价中的基本元素。具体地说,评价中不仅仅考虑引用的原始数据,更为重要的是引文的重要性。它们所传递的是这样一种信息:即新的指标不仅仅是引文数量的函数,而是量与质结合的产物。伴随着这种从一维评价向多维评价的进化,新指标欲将被引的绝对数量考虑在内,同时也将引用来源的质量纳入关注的视野。但是现阶段指标尚未发展成为量与质的有机结合体,因此,影响因子仍然是一个非常有益的评估指标。(3)这些指标为衡量学术活动的影响提供一种捷径,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基础化学知识点试题及答案
- 果树工考试题及答案
- Review 2(教学设计)-2023-2024学年闽教版英语三年级下册
- 实践理念落实在育婴师考试中的应用试题及答案
- 2025-2030中国电压和和无功管理行业市场发展趋势与前景展望战略研究报告
- 完备的税务师考试资料试题及答案
- 2025-2030中国电动卷取机行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国甲醛行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国甲基乙烯基醚行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030中国生物防御行业市场现状供需分析及投资评估规划分析研究报告
- 三年级下册乘除法竖式计算题100道
- 2024年4月全国自考概率论与数理统计(一)02024真题及答案
- 光伏组件功率衰减检验技术规范
- 物业经理面试:问题和答案大全
- 《宫颈癌防治》课件
- 220V直流容量计算书
- 余华读书分享名著导读《文城》
- 医院培训课件:《基于医院感染防控的安全注射》
- 【抖音直播带货模式研究国内外文献综述3200字】
- 混凝土回弹标准表格
- 征兵工作课件
评论
0/150
提交评论