引文分析法共词分析法浅析_第1页
引文分析法共词分析法浅析_第2页
引文分析法共词分析法浅析_第3页
引文分析法共词分析法浅析_第4页
引文分析法共词分析法浅析_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

引文分析法共词分析法浅析第一页,共四十一页,2022年,8月28日

科学研究前沿代表了科学发展的难点、热点以及发展趋势,从浩瀚的科技信息中探测研究前沿是科技创新的关键任务之一。因此,如何能够科学、准确地把握研究前沿已经成为科学研究人员及其管理者关注的焦点。科学家提出各种方法与技术用于探测研究前沿,其中以利用引文分析和共词分析的研究最为常见。第二页,共四十一页,2022年,8月28日引文分析

引文分析是利用各种数学、统计学以及逻辑方法,对科技期刊、论文、著作等各种分析对象的引用或被引用现象进行分析研究,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势的目的。近几年主要的关注研究对象或热点集中在“引文网络”、“自引与自引率”、“共引分析”、“影响因子”以及“引文分析和统计中的误差”等方面。第三页,共四十一页,2022年,8月28日

在引文分析中,引文网络得到了学者们的高重视。国外方面,将引文看作代表信赖的原型。他们认为在虚拟环境中,引文实际上代表了一种信赖。当A引用B的文章时,A认为B的观点是支持性的,而B引用的内容是被协商许可了的,引用内容的同时也就影响了B的思维。因此,引文网络系统可以被看成是信赖系统,引文索引则可以被看成是一个推荐系统———推荐被引次数多的文章。引文网络第四页,共四十一页,2022年,8月28日在引文网络中存在大量的同引和耦合。同引(或称同被引)是指两篇或两篇以上文献共同被之后的一篇或多篇文献引用,如图中5和6同时被之后的8和8′引用;引用它们的论文的多少,即同被引程度,称为同被引强度。耦合则是指两篇文献共同引用了一篇或多篇文献,如图中2和4共同引用了1;耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度。第五页,共四十一页,2022年,8月28日第六页,共四十一页,2022年,8月28日

引文网络的结构特点有:①引文网络是静态的,不可以在任何已有节点上增加新的代表引用的单向箭头,也不可以随意删除已有的代表引用的单向箭头,因为文献一经出版之后,它的参考文献就一成不变了;②引文网络中的引用是单向的,即只能是后期的文献引用前期的文献,而前期的文献不能反过来引用后期的文献;③引文网络中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主体只能是作者、期刊、学科、机构等;④引文网络中的引用是有固定时间的,即文献A引用文献B是有固定时间的,这个固定时间正好是文献A的发表时间,且文献A的发表时间必然在文献B之后,如图3中8和8′同时发表,故不存在8引用8′或8′引用8;⑤引文网络中引文间的引用呈现出主题集中,因为引文间引用的正式性和文献出版的质量控制,引文基本来自同一科学领域或关系紧密的领域。第七页,共四十一页,2022年,8月28日常见的引文网络测度指标可以分为四类:①引文数量特征测度指标:引文数;②引文分布特征测度指标:平均引用数、自引数与自引率、被引次数与引用数的比值;③期刊(论文)影响力测度指标:被引用数、同引和耦合、期刊影响因子即年指标;④文献老化规律测度指标:衰减系数等第八页,共四十一页,2022年,8月28日自引自引率

关于自引和自引率的研究是引文分析的内容之一。目前在国外研究最多的是关于期刊的自引和自引率。一般认为,期刊高自引有助于提升其影响因子;也有研究人员研究去除期刊自引数对影响因子的影响,认为未去除影响因子的数据可以采用;还有研究显示期刊自引与自引率与影响因子的负相关性。第九页,共四十一页,2022年,8月28日共引(co-citation)就是两篇文献同时被其他文献引用。一般认为同被引用的文献在主题上具有或多或少的相似性,因此同被引次数即共引强度可以测度文献在内容方面的相关度。由此,通过一组文献之间的共引关系可以形成共引网络,该网络内节点之间的远近便可以反映它们主题内容的亲疏关系。第十页,共四十一页,2022年,8月28日

共引分析方法始于small于1973年提出的以文献为单位的共引分析,但共引概念可以推广到与文献相关的各种特征对象上,形成各种类型的共引概念,如词的共引、文献共引、著者共引、期刊共引、主题共引和类的共引等。第十一页,共四十一页,2022年,8月28日共引的意义

自1973年被提出以来,共引分析已成为引文分析里面一种潜在多产的分析方法,它不仅可以用来揭示科学结构的发展现状乃至变化情况,还可以用来进行前沿分析、领域分析、科研评价等,进而为宏观科技决策提供先行支持,为科技规划与评估提供基础。第十二页,共四十一页,2022年,8月28日共引分析的一般过程共引分析方法的一般过程可以概括为分析领域的确定分析对象的选择及共引矩阵的形成共引数据的处理聚类分析和多维标度结果分析和解释。方法的演进过程以分析过程中分析对象的选择和聚类方法中的参数修正为主。第十三页,共四十一页,2022年,8月28日

选择对象搜索数据构建矩阵聚类分析/多维尺度分析/计算战略坐标分析结果第十四页,共四十一页,2022年,8月28日几乎国内外所有学者都是按照统一的方法模式来进行共被引分析,即第一步构造共被引矩阵;第二步将该矩阵转化为相似系数矩阵,方法大多为皮尔逊相关系数法(Pearson’SCorrelationCoeficient);第三步是进行聚类(Cluster)和多维尺度分析(MDS)。这基本是大家默认的方法,在我国许多相关教材和相关论文中也多是采用这样的方法。从2003年开始,在科学计量学学者之间又引发了关于共被引分析方法的讨论。焦点主要集中在对皮尔逊相关系数是否适合应用到共被引分析这一问题,及共被引矩阵对角线如何取值这一问题的讨论。第十五页,共四十一页,2022年,8月28日McCain将其定为:默认值,这也是影响最广泛的一种对角线确定方法;Ahlgren等认为应该使用自己与自己实际共被引次数;White则建议使用最大值来确定对角线的值。邱均平等认为根据共被引原理来看,从临近矩阵的定义来看,White的建议则更正确。共被引矩阵本来就是考察各对象之间亲疏关系的临近矩阵,只不过研究的目标选定了有特殊意义的作者、论文、期刊、学科等而已。从这点出发,我们自然而然的认为自己和自己的关系最亲近,所以应该是该作者与其他作者共被引频次中最高的。表达方式可以是最大值。但我们认为为了突出自己与自己的亲密关系,可以用最大值+l来凸显。所以我们大体倾向于White的提法,但可做适当的调整。第十六页,共四十一页,2022年,8月28日Pearson’s只是一种测度变量相似性的方法,是为了更好地发现变量之间的关系,而许多方法都可以取代它。我们认为SquaredEuclideandistance是代替它的最好方法。理由如下:Pearson’S相关系数矩阵自身的确存在问题。其不适合对有0-模块的矩阵进行转化,虽然White等一再强调,共被引矩阵不应该存在0-模块,并且给出了许多实例。但是我们认为这还是不具有普遍性,难免遇到0-模块,尤其是在我国的研究者之间。在这里,我们再次肯定Ahlgren等提出的相似性测度的两个必要条件(注)是非常正确的。虽然是针对相似性测度提出,但是其原理对于非相似测度同样正确。我们用SquaredEuclideandistance测度方法是满足两个必要条件。根据SquaredEuclideandistance公式可以看出即使在矩阵后加入0-模块,D²(X,Y)的值保持不变,说明SquaredEuclideandistance测度方法具有很好的稳定性。第十七页,共四十一页,2022年,8月28日注:

两个必要条件:(1)对于相似性测度,变量A和变量B的相关系数s(A,B)在加入0-模块后不能减小;(2)未加入0-模块前,如果s(A,>s(C,D),那么加入0-模块后,这种关系也仍要保持。返回上一张第十八页,共四十一页,2022年,8月28日第十九页,共四十一页,2022年,8月28日第二十页,共四十一页,2022年,8月28日第二十一页,共四十一页,2022年,8月28日注:在战略坐标中,X轴为向心度,表示领域间相互影响的强度,Y轴为密度,表示某一领域内部联系强度。以向心度和密度为参数绘制成的二维坐标即为战略坐标,它可以概括地表现一个领域内亚领域的结构。第二十二页,共四十一页,2022年,8月28日共引的发展趋势a.综合多种分析方法。例如研究前沿和热点分析时,将共引分析结果和文献耦合、共词聚类、词频统计等方法的分析结果加以比较分析;揭示科学结构时,将共引分析与共词分析相结合,分析结果会更准确可靠。b.不断融入新的技术。由最初借用多维尺度技术进行降维,到现在用PFNETS替代Pearson相关系数,引入自组织映射(Self-OrganizationMap,SOM)技术、潜在语义索引(LatentSemanticIndexing,LSI)技术等。随着各种技术的发展,共引分析中不断融入其他学科新的技术,真可谓吸众家之长为我所用。c.扩展至网络结构研究。网络环境中,站点的链接关系类似于文献的引用关系,因此可以将共引分析方法移植到网络站点共引研究或称其为网页共链分析(WebColinkAnalysis,WCA),反映网络本身的结构和网络中知识的结构。d.不断探究共引分析中的一些细节问题。这其中包括相似性计算方法的优化,如何对合著者进行所有作者的共引分析等。第二十三页,共四十一页,2022年,8月28日影响因子

影响因子(ImpactFactor,IF)是美国ISI(科学信息研究所)的JCR(期刊引证报告)中的一项数据。即某期刊前两年发表的论文在统计当年的被引用总次数除以该期刊在前两年内发表的论文总数。这是一个国际上通行的期刊评价指标。意义:该指标是相对统计值,可克服大小期刊由于载文量不同所带来的偏差。一般来说,影响因子越大,其学术影响力也越大。第二十四页,共四十一页,2022年,8月28日

附:IF值计算方法(以1992年为例)

A=1992年的全部引文(指定数据库中的记录)

B=1992年某期刊发表在1990和1991的论文的被引次数

C=某期刊1990和1991年发表的全部论文的总和

D(期刊1992的影响因子)=B/C第二十五页,共四十一页,2022年,8月28日例如,某期刊2005年影响因子的计算

1.本刊2004年的文章在2005年的被引次数:48本刊2004年的发文量:187

2.本刊2003年的文章在2005年的被引次数:128本刊2003年的发文量:154

3.本刊2003-2004的文章在2005年的被引次数总计:176

4.本刊2003-2004年的发文量总计:341

5.本刊2005年的影响因子:0.5161=176÷341

第二十六页,共四十一页,2022年,8月28日

引文分析和统计中的误差

引文分析以其独特的科学评价功能而备受推崇,然而随着应用的深化,越来越多的人开始对引文分析的有效性与可靠性提出质疑。因为无论是引文分析的对象,还是引文分析的方法本身,都存在一些虚假和错误的成份。虽然不是很热门,但针对引文分析和统计误差的研究一直伴随着SCI的成长历程。尽管专论相对而言不是很多,但在不少采用引文数据进行研究工作的文献中多少都存在对引文分析中缺陷和错误的分析和研究,很多文献也以善意的提醒或者警示来告知读者要谨慎地使用引文数据。目前,国内对于引文虚假和误差讨论最多的当属伪引和漏引。第二十七页,共四十一页,2022年,8月28日共词分析法

共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。共词分析就是以此为原理,将文献主题词作为分析对象,利用包容系数、聚类分析等多种统计分析方法,把众多分析对象之间错综复杂的共词网状关系简化为以数值、图形直观地表示出来的过程。第二十八页,共四十一页,2022年,8月28日共词分析法的过程

1确定分析的问题2确定分析单元3高频词的选定4共词分析中统计方法5对共词结果的分析

第二十九页,共四十一页,2022年,8月28日一、确定分析的问题

利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域、学科的发展过程、特点以及领域或学科之间的关系等等。不同的问题有不同的分析过程,采用不同的数学计量方法。第三十页,共四十一页,2022年,8月28日二、确定分析单元

有学者选择文献中的主题词、关键词为共词分析的基本单元。在共词分析中借助数据库管理软件以及SPSS统计软件进行识别统计,对计算机而言同义不同词的词在统计过程中,被看作两个完全不相关的词汇,对统计分析的结果产生很大干扰。因此,被分析的词汇最好是受控的、被统一标引的主题词。只有这样,共词分析方法利用文章中词语对的共现频次来反映包含在文章中的概念才能成立。第三十一页,共四十一页,2022年,8月28日

主题词是规范化的检索语言,它对文献中出现的同义词、近义词、多义词以及同一概念的不同书写形式等进行严格的控制和规范,使每个主题词都含义明确,以便准确检索,防止误检、漏检。如:白介素2、白细胞介素2、IL2、IL-2等表达同一概念的不同书写形式规范为“白细胞介素2”。

关键词是属于自然语言的范畴,未经规范化处理,也不受主题词表的控制。如:对于“白细胞介素2”这一概念可有白介素2、白细胞介素2、IL2、IL-2等不同形式来表达。

主题词与关键词最大的区别就是主题词经过了规范化处理。

第三十二页,共四十一页,2022年,8月28日三、高频词的选定

为简化统计的过程及减少低频词对统计过程带来的干扰,通常共词分析选择高频主题词为分析的对象。共词分法对高频词数量的选择没有统一的见解,如果主题的范围过小,则不能如实反映学科知识点的构成;如果主题的范围选择过大,则给共词分析过程带来不必要的干拢。用域值表示高频词划分的频次值,高频词域值越高,高频词的数量越多。高频词阈值是被认定高频词的词频总和,占所有词频总和的比率。第三十三页,共四十一页,2022年,8月28日高频词的确定主要有两种方法:一种是结合研究者的经验在选词个数和词频高度上平衡,该方法具有一定的主观性;另一种是结合齐普夫第二定律辅助判定高频词的界限。第三十四页,共四十一页,2022年,8月28日四、共词分析中统计方法

共词矩阵的计算是共词分析中的重要一步,在此基础上采用不同的统计学方法,揭示共词中的信息,常用的分析方法有:聚类法、关联法、词频法、突发词监测法等。第三十五页,共四十一页,2022年,8月28日共词聚类分析法

借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。第三十六页,共四十一页,2022年,8月28日共词关联分析法

关联规则是描述一个事物中物品之间同时出现的规律的知识模式,更确切地说,就是通过量化的数据描述物品A的出现对物品B的出现有多大的影响。共词关联分析以此为原理,通过关联统计方法,揭示主题词间的依存关系,在这基础上可现实对文献知识的提取以及组织文献数据库的作用。在共词关联分析的过程,涉及到4个重要的概念:a.支持度(Support)b.可信度(Confidence)c.期望可信度(ExpectedConfidence)d.作用度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论