基于共词网络的学术期刊知识图谱构建_第1页
基于共词网络的学术期刊知识图谱构建_第2页
基于共词网络的学术期刊知识图谱构建_第3页
基于共词网络的学术期刊知识图谱构建_第4页
基于共词网络的学术期刊知识图谱构建_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于共词网络的学术期刊知识图谱构建

修回日期:2011-06-300引言二次世界大战以来,文献数量增长的速度越来越快。20世纪60年代,科技文献大概每10年增加一倍,20世纪90年代,科技文献大约每20个月会增加一倍[1]。随着信息技术,尤其是信息存储技术的飞速发展,科技文献增长的速度越来越快。在这种背景下,科研人员从科技文献中获取相关知识变得越来越困难。知识图谱是图书情报、科学计量学和计算机科学界为解决这个问题而开辟的新的研究领域。它的研究目标是借助现代技术与理论,使知识可视化,让研究人员更加方便、准确地获取知识[2]。KevinW.Boyack[3]将知识图谱的分析单元分为:词、作者、文档、期刊和计量指标,不同分析单元可以解决与之对应的问题,而且都有相应的研究方法。本文将利用知识图谱领域的理论和方法,研究学术期刊知识图谱的构建。通过图谱的构建来研究学术期刊载文的网络结构及其发展变化的情况,同时可以研究不同学术期刊知识图谱的差异。1学术期刊知识图谱的构建1.1学术期刊知识图谱知识图谱是一个正在不断深入的研究领域,关于知识图谱的概念也存在不同的认识。Shiffrin和Brner[2]认为,知识图谱是一个新的跨学科研究领域,它是通过绘图、挖掘、分析、分类等工作实现知识导航和展示的过程。陈悦和刘则渊[4]、秦长江和侯汉青[5]认为知识图谱是显示科学知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。从国内知识图谱研究成果[6]看,知识图谱定量研究的对象有学科、研究主题、学术期刊、学术机构等。笔者认为,学术期刊知识图谱是以学术期刊为研究对象,对期刊载文信息进行整理、挖掘和分析,并以可视化方式绘制而成的不同类型的图形。研究人员通过图谱的解读,可以了解到期刊发文主题的结构及其变化情况;通过图谱还可以比较学术期刊之间发文主题的异同。文献[7~9]分别以《科学哲学》、《中国科技期刊研究》和《情报科学》为研究对象,运用CiteSpace、Ucinet等可视化工具和共词分析、共引分析等方法对期刊的研究热点和演进过程进行研究。笔者认为这些成果都是学术期刊知识图谱的研究,其数据量较大,时间跨度较长,共词网络都是由高频词构成,数据来源是SCI或CSSCI。如果研究者无法获取SCI等数据;如果用户想及时了解某学术期刊发文的主题情况,前面的研究方法就会较难实现。此外,只对高频词的共词网络做研究,无疑会损失一些低频词信息。本文将在解决这些问题方面进行探索。1.2共词网络及其构建方法文献[10]提出,由文章关键词及其共现关系形成的网络可以称为“共词网络”,它是以“知识单元”——文章关键词为基础构建的一类特殊知识网络。共词网络作为一种研究方法,不仅可以从微观层面揭示了科学知识体系内的实体关系特征,还以其演化过程反映了科学概念和科学命题的增长规律。本文不采用基于关键词两两出现来构建共词网络,而是采用社会网络分析的点列表形式[11]来构建。这种共词网络是把每篇文章第一个关键词作为“自我点”,其关系指向其他关键词。它可以把一定时间范围内期刊论文的所有关键词都通过共词网络图的形式展现出来。即使关键词之间共现频次较少,也不影响共词网络的构建。另外,当一个共词网络中节点较多时,这种方法有简化网络的效果。1.3学术期刊知识图谱构建的过程本文学术期刊知识图谱的构建分为四个步骤。第一步,选择研究对象。从理论层面,任何一种学术期刊都可以作为研究对象;但从实际情况和研究方法考虑,学术期刊论文必须有关键词信息。第二步,收集数据。从数据采集的便利性、时效性、规范性和经济性等角度出发,本文研究数据可以从中国知网、万方数据等数据库获取。第三步,整理数据。本文可视化软件处理的数据,不需要通过专门工具进行数据统计去得到关键词出现的频次或共现数据等信息,而是利用记事本等简单的文本处理工具将论文关键词信息编辑成一个数据语言文件(DLfile)。如图1是5篇文献关键词的数据,n=14表示共有14个不同的关键词。图1数据文件格式样例第三步,数据可视化。利用Ucinet可以将数据语言文件(DLfile)转换为其两个物理文件,并可以将数据绘制成对应的网络图。如图2是对图1数据的可视化结果。从图2中可以看出,5篇文献由于关键词共现而形成的网络结构。图2包含两个独立的部分,左边的文献自成一个小网络,而右边的4篇文献由于都涉及本体而形成一个相对较大的连通网络。同时,从图2中还可以看出论文第一个关键词与其他关键词的区别。如旋进原则是第4篇文献的第一个关键词,在图2中表现为由它代表的节点指向是其他三个关键词。图2图1数据可视化结果本文没有对关键词做预处理,这虽然会影响到共词网络分析的准确性和科学性,但客观地反映了期刊关键词形成的共词网络。2学术期刊知识图谱构建的实证研究2.1不同时间学术知识图谱的比较与分析本文选择从中国学术期刊全文数据库获取了《情报学报》2000年和2010年的关键词信息;然后利用Ucinet绘制了《情报学报》2000年和2010年知识图谱(图3和图4,去重后分别有313和512个关键词)。2.1.1图谱整体结构分析。根据关键词之间是否连通及关键词共现网络规模大小,本文将图3和图4划分为A、B和C三部分。A部分网络规模大,关键词数量最多,它是多篇文献的关键词直接或间接建立联系而形成的网络。B部分多数是一篇文献的关键词形成的一个个小网络,关键词数量较多。C部分通常是由多篇文章的关键词共现而形成的规模居中的网络。这种现象符合科学研究的一般规律。一篇文献研究内容、方法或视角独特,首先形成一个单独的小网络。随着相关研究成果的出现,小网络规模会扩大,形成较大的网络。同时,随着时间推移,图中的三部分之间存在一定转换关系:B→A;C→A。如图3B部分的CSSCI和图3C中的竞争情报,都出现在图4的A部分。也有些研究主题由于研究者不再关注而从网络中消失。如图3的知识经济、信息化等词在图4中都没有出现。图3《情报学报》2000年知识图谱图4《情报学报》2010年知识图谱注:为了使可视化效果较好,图4B部分只列出了少量关键词形成的小网络其次,从图中还可以发现《情报学报》这两年发文的一些特点。a.研究主题在不断变化。图3包含“信息”的词较多,而图4包含“知识”的词非常丰富。这反映了《情报学报》发文主题整体上从信息单元向知识单元的转变。有的研究主题从小的网络慢慢转变成较大的网络,如竞争情报。有的研究主题淡出了《情报学报》的发文视野,如信息产业、信息立法等。b.关键词共现的相关性不同。Z39.50是由美国图书馆界创立的计算机数据库网络互联通讯协议,在信息检索和信息服务中都扮演着非常重要的角色。从图3看,它与信息检索和信息服务直接连接,反映的是研究内容之间的实质联系。图4C中的“情报服务”与“情感分类”只是由于两篇文献都选择“综述”作为关键词而建立了联系,研究内容之间相关性不大。c.关键词共现的原因不同。文献关注相同的主题(如本体、竞争情报等),使用相同研究方法(如引文分析、共词分析等),采用相同数据源(如CSSCI)等情况下,都有可以使关键词在网络中建立联系。d.关键词之间建立联系受作者用词影响较大。图4A的自动编目和B的编目从语义层面分析是有联系的,但由于作者用词不同,导致两节点之间并没有连线。图4B的CiteSpace和A的CiteSpaceⅡ如果统一选择CiteSpace,那么C的一个独立网络就可以转移到A部分。e.同一关键词在不同时间其反映的研究内容不同。如2000年的CSSCI是研究其系统设计,而2010年CSSCI是相关研究文献采用的重要数据源。2.1.2网络节点分析。点度中心度和中间中心度是社会网络分析中表征节点中心度的两个指标。它们反映了节点在网络中的地位和作用。在共词网络中,点度中心度越大,表示某个关键词与网络中其他关键词共同出现的次数越多,它有可能是期刊论文研究的热点问题,如图3的Z39.50、图4的本体等。有些关键词的点度中心度虽然较高,但并不是研究热点,如图2中的“中国”,其点度中心度数值较大,只是表征研究内容的空间范围,不能反映《情报学报》发文的研究主题。中间中心度越大,则表示控制其他关键词建立连接能力越大,它有可能是一些交叉性较强的研究主题(如图4中的推荐系统等)或是使用较多的研究方法(如图4的社会网络分析、聚类分析等)。本文利用Ucinet得到了图2和图3共词网络中关键词的点度中心度和中间中心度数据,并统计了关键词出现的频次。表1列出前十个关键词及相关指标值,左边为2000年数据,右边为2010年数据。笔者认为,2010年的CSSCI是重要的信息源,引文分析是重要的研究方法,而其他词是这两年研究的热点问题。从图3和图4可以发现这些关键词大部分都分布在共词网络的A部分,少数(如自动分类)分布在C部分。从表1也可以看出,除竞争情报外,2000年研究热点在2010年都没有出现。这反映出《情报学报》发文主题变化很大。在图3、图4中出现了影响、21世纪等看似意义宽泛的关键词,在共词网络中通过与其他词是否共现可以合理分析,使其意义具体化。如“21世纪”与“信息技术”之间有连线表明了“信息技术”研究的时间范围;信息技术、影响、学科体系三者共现,表明论文研究的是信息技术对学科体系的影响。这是共词网络与传统词频统计相比的一个优势。2.2不同学术期刊知识图谱的比较与分析利用学术期刊知识图谱可以对比不同学术期刊发文的内容的差异。本文选择《情报学报》和《中国图书馆学报》2010年知识图谱(图5,包含316个关键词)进行比较研究。从图谱整体结构看,图5也可以分为相同的三个部分。同时还可以发现,两种期刊发文有一些共同的主题,如知识组织等;也有非常明显的不同的研究内容,如图5中的“图书馆学”、“分类法”等是《中国图书馆学报》2010年重点关注的内容,而“本体”、“知识发现”、“知识组织”等是《情报学报》2010年重点关注的内容。对比表1和表2可以看出两种期刊发文的热点除引文分析外,没有别的相同关键词。这反映出两种期刊发文热点方面差别很大,也从一个侧面体现了图书馆学与情报学研究存在的差异性。图5《中国图书馆学报》2010年知识图谱《中国图书馆学报》是分栏目的,这体现了期刊的一种导向。除理论研究、实践研究等5个传统栏目外,它在2010年有4期都设计了“公共图书馆法”立法支撑研究专稿栏目,共刊出11篇相关成果。从图中也可以看出围绕“公共图书馆”形成了一个较大的相对独立的网络。而《情报学报》是没有栏目划分的,其共词网络图就没有出现这样的现象。这反映了学术期刊栏目也是一个影响学术期刊知识图谱形成的因素。2.3期刊主题知识图谱的比较及分析期刊主题知识图谱是反映学术期刊持续关注的研究主题内容的图谱。通过对这类知识图谱的解读,可以反映研究内容随时间变化的情况。从词频统计结果分析,除2000年和2002年外,“竞争情报”一直是《情报学报》发文较多的主题。本文以2000-2009年《情报学报》发表的“竞争情报”论文为研究对象,绘制了其十年的知识图谱(见表3)。从表3可以发现《情报学报》发表的“竞争情报”研究论文的一些特点:a.既有一些长期关注的子主题,如人际网络、竞争情报系统等;也不断有新的主题出现,如2004年的国家竞争情报、2009年的人际竞争情报等。b.同一研究内容在不断变化。从表3看,与人际网络连接的关键词每年都不相同,结合文献内容分析,2005年之前是定性研究,之后开始利用社会网络分析进行定量研究。c.竞争情报研究方法较为丰富。从表3看,竞争情报研究过程中,既有问卷调查、专家咨询会、案例分析等定性研究方法;也有征兆分析、SWOT、定标比超、人工神经网络等定量研究方法。d.竞争情报的相关主题较多。从表3看,企业信息化、虚拟组织、数据挖掘、价值链等都是与竞争情报相关的一些研究主题。为了直观显示竞争情报发文在更长时间段的主题结构,本文绘制了《情报学报》2005年到2009年“竞争情报”知识图谱(见图6)。根据关键词及其相互关系,笔者认为这五年间《情报学报》竞争情报的研究内容可以归纳为11个方面。这些研究成果,既涉及竞争情报研究方法、情报源等内容,也涉及知识管理、数据挖掘等相关研究主题。此外,从图6还可以直观地发现研究主题与研究方法之间关联,如人际竞争情报研究过程中,使用了社会网络分析和网络建模的方法;还可以看出竞争情报软件是竞争情报研究领域一个相对独立的研究内容。表3《情报学报》2000-2009年“竞争情报”年度知识图谱图6《情报学报》2005-2009年“竞争情报”跨年度知识图谱在关键词共现的基础上,本文尝试将作者、时间两个属性值与关键词同时集成在一个混合网络中(见图7)。从图7可以发现:a.研究在特定时间的研究内容,如包昌火等人在2005年探讨了CI学科结构等基本问题。b.国内竞争情报

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论