本体与社会化标签关联研究的可视化分析_第1页
本体与社会化标签关联研究的可视化分析_第2页
本体与社会化标签关联研究的可视化分析_第3页
本体与社会化标签关联研究的可视化分析_第4页
本体与社会化标签关联研究的可视化分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本体与社会化标签关联研究的可视化分析

0对象的界定:主体与社会化的关联研究随着网络资源的迅速增长,人们开始研究新的信息组织方式,实现数据、信息和知识的共享。本体(Ontology)是20世纪90年代从哲学领域引入到人工智能(AI)领域的概念,作为实现语义网的核心,需要具有专业知识的领域专家参与构建,存在成本高、周期长、不易更新等缺点。而随着社会化标注网站Del.icio.us和Flickr的成功,2004年,“Folksonomy”一词被正式提出,由大众用户参与的大众分类恰好弥补了本体构建的不足,GruberT和SpivackN早在2005年就强调了两者结合的必要性,至此,本体和社会化标签的关联研究引起了学者们的广泛关注。本文基于WebofScience的检索数据,以CiteSpace作为工具,通过软件提供的聚类视图(clusterviews)和时区视图(time-zoneviews)对该研究领域的研究人员及其国别和机构、参考文献和研究热点等进行可视化分析。1数据准备和方法介绍1.1检索式和文献类型从WebofScience(http://apps.webofknow,WebofScience数据库)检索该研究的文献记录,检索时间为2013年12月31日,检索式为(TS=(ontolog*AND(socialtag*ORsocialbookmark*ORsocialclassif*ORfolksonom*))),文献类型为Article,语言为English,时间跨度为2004年至2013年。共检索到101条文献记录,记录字段包括:作者(AU)、文献标题(TI)、出版物名称(SO)、作者关键字(DE)、索引词(ID)、摘要(AB)、作者地址(C1)、基金(FU)、参考文献(CR)、被引频次(TC)、出版年份(PY)等。通过软件数据格式转换工具将原始数据转化为其可处理的格式。1.2节点引用分析科学知识图谱(ScientificKnowledgeMapping)是一种新的图书情报技术,其以科学知识为计量研究对象,通过可视化方式展示科学知识的发展进程和结构关系,揭示领域的动态发展规律,为学科研究提供切实的、有价值的参考。目前用于绘制科学知识图谱的软件有Ucinet、HistCite、Bibexcel、CiteSpace等。本文使用的分析工具是CiteSpace3.7.R8,是由美国Drexel大学信息科学与技术学院陈超美博士开发的基于Java平台的可视化分析软件,适用于多元、分时、动态的复杂网络分析。CiteSpace中通过节点引用年环的大小和颜色(冷色调代表早期,暖色调代表近期)展现节点各时期被引用的频次,网络中的关键节点(中间中心性≥0.1)用圆圈突出显示。CiteSpace软件提供了11个分析选项:作者(Author)、机构(Institution)、国家(Country)、词汇(Term)、关键词(Keyword)、类别(Category)、被引文献(CitedReference)、被引作者(CitedAuthor)、被引期刊(CitedJournal)、论文(Paper)、资助(Grant),另外还有突现词(burstterm)检测及与其他节点共同分析的功能。由于burstterm检测的词汇来源包括了论文的题目(title)、摘要(abstract)和关键词(keyword:DE&ID),采用burstterm检测后不再分析Term和Keyword两项;Category用于分析论文的WOS类别情况,检索记录中约80%的文献WOS类别为ComputerScience,其他类别的文献极少,也不作分析;CitedJournal用于分析记录中被引文献的期刊来源,Paper用于分析记录中的论文耦合情况,Grant用于分析记录中论文的基金资助情况,这三项对分析研究进展情况作用较小,故也不作分析。所以本文选取了作者、国家、机构、被引文献及作者几项进行分析,并结合突现词展现本体与社会化标签关联研究的进展情况。2作者分析2.1基因本体协会使用CiteSpace进行合著者(Co-Authors)分析。时间区间为2004年至2013年(TimeSlicing:from2004to2013),每个时间段的长度为1年(YearsPerSlice:1),节点类型为作者(NodeTypes:Author),选择所有节点(Top100%perslice),使用网络简化算法对每个时间段内的网络剪枝(Pathfinder/Pruningslicednetworks),选择静态聚类展示所有时间区间的合并网络(ClusterView-Static/ShowMergedNetwork)。得到一个由355个节点和839条边构成的作者合作网络图,网络密度(density)为0.0134,图1(a)展示了整个作者合作网络和发表文章频次不小于2的作者合作网络。从知识图谱和统计结果可得出,76%以上的文章由多位作者合作完成,研究人员总体合作程度较高,但在各个合作子网之间的连接很少,只有少数的团体之间有合作。图1(a)中最大的合作群体是由137人组成的一个团体———基因本体协会(GeneOntologyConsortium,GOC),其文章介绍了GOC在GO项目中对基因本体标注词汇数据库、基因本体标注工具等方面的研究工作。K.Hartfelder是巴西圣保罗大学的科研人员,分别在2006年和2012年与其他作者合作,是两个合作网络的共同节点,研究内容涉及昆虫学及生物化学学,在研究过程中提到了基因的标注及基因本体。TamasVicsek、PeterPollner和GergelyPalla三位作者是匈牙利国家科学院统计和生物物理研究小组的成员,2008年与GergelyTibely合作,2012年与IIIesJ.Farkas和ImreDerenyi合作,研究的是社会化标签的统计特征和标签本体的组织。JohnG.Breslin,Hak-LaeKim,StefanDecker,HongGeeKim和AlexandrePassant五位作者在2009年至2011年之间有合作关系。他们都是数字企业研究所(DERI)的科研人员,合作研究的内容是标签本体的比较及构建、异构环境中标签数据的共享与互操作以及基于用户兴趣的标签推荐。YingDing、SchubertFoo、ErjiaYan和ElinK.Jacob四位作者于2009年和2010年分别与其他三位作者合作了一篇文章,研究内容为社会化标注模型和标签本体的构建。VilasWuwongse是亚洲理工学院的科研人员,于2009年和2010年分别与其他两位作者合作发表一篇文章,是连接两个合作网络的中间节点,其研究内容是关联数据和基于语义网技术的社交网络平台检索优化。YitzchakMiller,SnunithShoham,MaayanZhitomirsky-Geffet和JuditBarIlan都是以色列巴伊兰大学信息科学系的成员,他们分别于2010年和2012年合作发表文章,研究内容为社会化标注系统的框架设计及基于标签的资源检索。HaiDong,FarookhKhadeerHussain和ElizabethChang是澳大利亚科廷科技大学数字生态系统和商业智能研究所的成员,他们于2010年和2011年合作了两篇文章,其研究内容是基于本体的数字生态系统平台框架构建和服务信息检索。IChingHsu是台湾国立虎尾科技大学计算机科学和信息工程研究所科研人员,在2012年和2013年独著了两篇关于本体和社会化标签关联研究的文章,其主要内容是社会化标签系统的语义框架和基于语义技术的个性化标签推荐。上述研究内容反映了本体和社会化标签关联研究的四个发展阶段:阶段一,社会化标签基本特征、标注模型等研究。这个阶段的研究成果是标签负幂率分布等特点的发现,以用户、资源、标签三个基本要素为基础的不同标注模型的提出。阶段二,与本体技术相结合,标签本体构建的研究。在这个阶段中多个标签本体模型被提出来,形成了基于相似度和基于集合论两类标签本体学习方法。阶段三,社会化标注系统框架设计研究。这个阶段的研究是将语义网技术应用到标注系统设计中,以期达到标签数据共享与互操作。阶段四,资源检索、标签推荐等应用的研究。这个阶段的研究是如何优化系统及系统间的资源组织,建立用户兴趣模型以提供个性化检索与推荐。另外,分析图1(a),该研究在2005年和2010年有明显的增长,且在2010年以后研究者之间的合作明显增加,出现了一些持续的合作。2.2网络中部分突现词的连接通过绘制研究国家和机构的混合网络图分析各国及机构在该研究方向的实力与相互之间的关系。使用CiteSpace对数据集记录中的突现词进行检测,再设置词汇类型为突现词(TermType:burstterm),节点类型为国家和机构(NodeTypes:Country,Institution),阈值分别为(1,1,20)、(1,2,20)和(2,2,20)。聚类后得到一个由155个节点和281条边构成的国家及机构混合网络图,如图1(b)所示,表1列出了网络中的部分国家/地区。图1(b)中的各科研机构与所属的国家/地区相连,形成了以国家/地区为中心的子网络,各子网络通过作者的合作或对突现词的共同使用形成连接。图中带有圆圈的节点是中间中心性较大的节点,而图中大部分国家/地区节点都是这样的节点,这说明各国/地区之间的合作交流不密切。例如,以台湾为中心的网络,除了通过突现词节点和其他网络相连外并没有与其他国家或机构直接相连,说明其合作交流的程度低,这也可能和其对该研究起步较晚有关系。但是值得关注的是韩国这一节点,其中间中心性值并不高,对该研究起步也较晚,但与爱尔兰国立大学的合作比较密切。图1(b)中还存在一些孤立的网络,形成网络的国家/地区分别是爱沙尼亚(东欧国家)、英格兰、葡萄牙、印度、希腊、以色列、巴西和匈牙利。这些国家/地区与其他国家没有合作交流,但部分国家/地区内的研究是较活跃的,例如英格兰和巴西。表2列出了网络中的部分机构。除此之外,国内还有复旦大学、天津大学和中科院等机构也做这方面的研究。另外,一些企业和科研单位也有相关的研究,例如韩国三星电子、法国国家信息与自动化研究院、IBM智慧城市技术中心等。通过图1(b)中突现词与国家和机构的连接了解不同国家在该研究中所偏重的研究内容,例如与中国相连接的突现词有emergent-semantic、proposedmethod和socialtagging,说明中国研究人员研究得较多的是社会化标签与“语义浮出”方法方面的内容;而在tag-recommendation方面,研究较多的国家是希腊和印度。在第3节中将介绍这些研究以及它们是由哪些研究者、哪些基础理论推进发展而来的。3联合索引分析3.1重要作者方面使用CiteSpace进行共被引作者分析(AuthorCo-CitationAnalysis,ACA),节点类型为被引作者(NodeTypes:CitedAuthor),选择前10%的节点(Top10%perslice)。对网络简化和聚类后,得到一个由255个节点和597条边构成的共被引作者网络图,如图2所示。图2中最大的连通网络显示了该研究中的重要作者以及他们的作用。依据共被引频数和中间中心性大小将其分为核心作者和关键作者,见表3。核心作者的文献被持续引用,对推进研究有重要作用,而关键作者通常是连接两个子网络的中间节点,推动研究向不同分支发展。图2中有少量的共被引作者形成了一些小的孤立网络,产生这种现象的原因是所搜集到的数据中有少量文献记录所涉及的研究领域广泛。例如DoinaCaragea等在介绍异构、分布式环境下的数据挖掘算法和软件时,提到了涉及生物、环境、企业、社会的知识发现需求,同时指出在程序算法和统计方面面临的问题。从表3和图中网络的颜色以及重要节点作者研究领域可以辨识出该研究在各个时期所关联的研究领域。其从2004年前的生物信息领域、统计领域逐渐转变到机器学习领域、数据挖掘领域,2007年左右转变为智能代理和认知语言领域。另外,人工智能、自然语言处理、语义网、社交网络四个研究领域始终与本体和社会化标签研究有关联。可以看出本体和社会化标签的关联研究是跨学科的、涉及多个研究领域的。从节点和连接的颜色上可以看出,2004-2007年的节点极少;2008年和2009年的节点数量明显增加,而且网络连接紧凑,说明这个时期的研究主题较单一;2010-2013年的节点又有所增加,但网络连接稀疏,说明这个时期的研究开始朝多个分支发展。3.2社会化标注的理论模型对共被引文献进行分析(DocumentCo-CitationAnalysis,DCA),词汇类型为突现词(TermType:burstterm),节点类型为被引文献(NodeTypes:Citedreference),阈值分别设置为(2,1,20)、(2,1,20)和(3,2,20),聚类得到一个由67个节点和230条边构成的共被引文献和突现词混合网络图,如图3所示。通过共被引频数和中间中心性大小从网络中识别出该研究的经典文献和关键文献。经典文献被持续引用,往往包含研究中的基础理论。文献是关于语义网的代表性文章。Berners-LeeT等在文章中描绘了一个语义网的应用场景,认为语义网不仅是帮助人们完成日常工作的一种工具,更可以推动人类知识的演化。语义网即是概念之间的连接,统一的逻辑语言将人们表达的新概念连接到网络中,在语义网中,个人代理可以实现知识的获取和分析。构建语义网需要解决几个关键问题:概念的获取、知识的表示、本体的构建。2004年,社会化标注系统兴起。AdamMathes介绍了两个社会化标签网站———Del.icio.us和Flickr,认为大众分类是产生元数据的第三种方法,相比于专家产生和资源所有者产生的方法,大众分类将任务交给广大用户,不需要严格的受控词表,个体不必处理大量的信息,体现了“开放性元数据”分类机制。虽然大众分类产生元数据的方法具有词义模糊、不准确等问题,但是将其从专家活动转向大众活动是一种发展趋势。ScottA.Golder等通过Del.icio.us的统计数据分析了社会化标注系统的三个要素———用户(users)、标签(tags)、资源(resources)。在分析用户标注行为、标签使用情况(标签频率与类型)和资源标注稳定性的基础上提出了协同标注系统的动态模型。TomGruber阐述了本体和大众分类的区别与联系,本体是实现语义网的有效工具,而大众分类是从用户数据共享中产生的一种“自然语言社群聚类”。认为两者不是独立的,而是相互关联的,并且提出了标签本体(Tag-Ontology)的概念。PeterMika强调了社交网络中参与者对于构建本体的重要作用。将传统的本体两部分图模型扩展为包含社会维度的三部分图模型(主体,概念,实例),将社会化标注系统中标签共现关系建模为图,并用该图进行本体学习(ontologylearning)。关键文献是网络连接路径上的节点,是一种过渡文献,其对应某一时期的研究前沿。随着时间的推进,以该节点扩展出来的网络可能会变得越来越紧密,最终形成新的研究前沿。RajivKishore等介绍了哲学和计算机科学中本体的不同含义,计算机科学中的本体是特定范围内现实存在的计算机实现。另外,还对信息系统的本体和信息系统本体做了区分,从信息系统建模语法评价和本体驱动信息系统两方面讨论了本体的应用。考虑图3中由三个节点组成的网络(1)。这三篇文章主要是对WordNet和GeneOntology研究的介绍,这个子网络通过突现词proposed-method连接文献和文献,文献介绍了本体的构建方法及其对知识共享的促进作用。从颜色的变化可以看出,研究方向从本体向信息系统和知识共享的研究转变。TomGruber提出了公认度最高的本体构建的5条原则:明确性、一致性、可扩展性、最小编码偏好和最小本体承诺。CameronMarlow等总结了社会化标注系统应用和研究的情况,在分析对比Del.icio.us和Flickr的用户激励模式和结果输出模式后,针对这两方面给出了改进的建议。WuXian等提出了一种基于统计方法的模型,将自底向上的社会化标注转化为语义标注。该模型通过明确系统中标签的含义、分组同义标签,实现语义浮出(emergentsemantic),进而改善网络资源检索及发现的效果。这三篇文章将网络(2)和网络(3)连接起来,表明本体和社会化标签的研究从独立研究开始转变为两者相结合的研究。在线社区之间的数据没有实现交换和互操作,形成了信息孤岛,一个主要的原因是没有公共的标准。UldisBojars等介绍了语义网的公共词表SIOC和SI-OC本体,并描述了基于SIOC本体等语义网技术实现互连的、语义丰富的知识网络过程。综上,本体和社会化标签的关联研究有两条演进路径。一是通过研究两者与知识共享的关系转变为两者相结合的研究,即图3中由网络(1)到网络(2);二是通过研究本体与语义网、标签与元数据的关系转变为两者相结合的研究,即图3中由网络(3)到网络(2)。CiteSpace使用谱聚类的方法将网络节点聚成两类,采用LLR(Log-likelihoodratio)法则对两个聚类自动标识的结果是linked和folksonomies(图3,图4),即是该研究中的两个研究前沿:关联数据和大众分类。图中的突现词表示了各时期的研究热点,从该网络的时区视图(图4)可以更好地观察到研究前沿和研究热点的变化,表4列出了各时期的研究热点。从图4中可以看出,对于关联数据的研究并不多,开始于2005年左右,到2010以后就没有相关的文献了。而对于大众分类的研究则比较多,从2004年一直持续到现在,在2004年、2006年和2007年都有关键文献的发表,这些文章也成为了后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论