




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第复杂网络与可视化研究所基于复杂网络可视化模型的专题新闻演化研究
[摘要]本文是基于复杂网络的思想,根据card(1999)提出的信息可视化参考模型构建的专题新闻文本集信息可视化的概念模型和形式化模型,以温州动车事故专题新闻文本集为例,对专题新闻按照时间段分为三个时期,并对不同时期进行信息可视化分析,分析总结新闻演化过程。分析得出,随着时间的变化,新闻集中的关注点发生变化,而且关注点会逐渐变得分散,新闻的关注度也逐渐减少。
[关键词]专题新闻;信息可视化;演化
doi:10.3969/j.issn.1673-0194.2012.24.047
[中图分类号]G203[文献标识码]A[文章编号]1673-0194(2012)24-0077-02
1引言
随着计算机网络的出现,信息技术迅速发展,人类进入了信息爆炸的时代。信息爆炸的一个重要表现就是新闻信息飞速增加。新闻传播的更新速度和传播效率不断加快,这种加快导致新闻数量不断增大,各种信息非常分散。为了能快捷地了解新闻的演化过程,直观地观察信息之间的复杂关系,需要一门结合科学可视化、数据挖掘、图像技术、图形学、人机交互和认知科学等诸多学科理论或方法的新学科,这就是20世纪80年代末诞生的可视化技术。
复杂网络的主要思想是将真实系统中各部分之间的联系看作一个复杂网络,以网络的形式来抽象地描述真实系统中各部分之间的关系,强调系统结构的拓扑特征,从而使人们更好地了解现实世界系统的本质特征。一个典型的网络是由许多节点与连接节点之间的边组成的。节点代表系统中的实体,边则表示节点之间的作用关系。
2复杂网络可视化模型
2.1信息实体的提取
本文采用人工方式选择及提取新闻文本信息实体,按照专题新闻文本信息实体的定义和选择新闻文本信息实体的原则与方法可以将专题新闻文本中不同要素的信息实体按不同粒度提取出来,形成信息实体库。新闻文本信息实体之间的存在的各种关系,即信息实体之间形成的有意义的系统的联系,即为信息实体之间的联系。本文中两个信息实体出现在相同新闻文本中的新闻文本数量即为这两个信息实体之间的关联权重。
2.2模型构建
可视化模型包含3个要素:信息实体、信息实体关联和信息实体网络。新闻文本信息实体的实质就是能代表新闻文本内容的基本信息单位。新闻文本信息实体关联也就是新闻文本信息实体之间形成的有意义的系统的联系。信息实体网络是由用户信息需求、信息实体和信息实体关联构成的。
通过数据变换从专题新闻文本集中提取信息实体,经过可视化映射过程,信息实体及信息实体关联转换为可视化的结构。最后进行视图变换利用可视化显示技术将所得的信息实体网络用直观的、易于理解的图形方式显示出来。
2.3复杂网络可视化模型的分析
网络度是描述网络中某一节点连接其他节点程度的概念,定义文本网络中的度是与某个节点有联系的节点的总数,通过可视化结果分析,度大的节点出现在句子中的次数越多,则该词的重要程度越高,是文中的关键实体。
最短路径是用来测量网络结构中距离最好的方法,路径是由从一个节点到另一个节点的不重复边构成,与网络度和网络节点强度不同的是,它不仅考虑了节点的近邻节点,还考虑了间接节点。最短路径是衡量实体连通性好坏的标准,最短路径越短,实体节点在文章中起到的作用越重要。
聚类系数反映网络的紧密程度,整个网络的聚类系数是所有节点的聚类系数的平均值,聚类系数则反映文章内容的紧密程度。这项特征值的分析主要是对文本的内容进行评价,聚类系数越大,文本复杂网络的紧密程度越好,也就是文本内容在表述上更紧密与紧凑。
3实证分析
本次收集的新闻文本报道时间从2011年7月23日20:34分至2012年4月13日8:05。本文利用谷歌快讯推送含有“温州”、“动车”关键词的新闻,共搜集到新闻总量为892条。由于样本量太大,进行了抽取。依照不同新闻时间抽取不同数量的新闻文本。本次抽取新闻共100条。
3.1总体网络分析
利用UCINET将动车事故新闻文本集信息实体网络的关联矩阵转化为直观的信息实体网络图,如图1所示。灾后重建新闻文本集信息实体网络图直观地展示了所收集的100个灾后重建新闻文本中的主要信息。
在全局网中,度数排名前五的非时间关键词为:“温州”、“北京”、“国务院”、“温家宝”、“召开记者会”。
在全局网中,平均最短路径为1.019。表明全局网各节点之间的连贯性和凝聚力较好。
在全局网中,基于距离的聚类系数为0.990。聚类系数非常大,证明复杂网络的紧密程度较好。
3.2演化分析
按照温州动车事故新闻文本数量的变化,把此事件分为3个部分,如图2所示,可是分为爆发期、转折期与平稳期3个阶段。
第一阶段新闻爆发时期,从2011年7月23日开始到7月28日,共抽取76条新闻,87个信息实体。爆发期网络中,度数排名前五的非时间节点为“温州”、“温家宝”、“召开记者会”、“动车”、“北京”。此网络的平均最短路径为1.033,基于距离的聚类系数为0.983。表明此网络的连贯性和凝聚力较好,紧密程度较好。
第二阶段新闻转折时期,从2011年7月29日开始到7月31日,共抽取11条新闻,22个信息实体。转折期网络中,度数排名前五的非时间节点为“温州”、“北京”、“签订赔偿协议”、“家属”、“国务院”。此网络的平均路径为1.905,较爆发期网络有所增长,表明网络的连通性和凝聚力变弱。基于距离的聚类系数为0.591,较网络一减少,表明网络变得比较分散。
第三阶段新闻平稳期,从2011年8月1日开始到2012年4月13日,共抽取13条新闻,33个信息实体。平稳期网络中,度数排名前五的非时间节点为“北京”、“国务院”、“事故处理”、“安监局”、“调查结束”。平稳期网络的平均最短路径为2.313,基于距离的聚类系数为0.504。3.3结果与讨论
通过对新闻事件按时间分成不同时期,对不同时期的信息实体建立可视化模型,对不同时期的网络图进行对比研究,可以从网络的拓扑结构、节点的度、平均最短路径以及基于距离的聚类系数方面分析出新闻演化的过程。
专题新闻不同时期的关注点不同。通过对温州动车事故的实证研究可以看出,不同时期的节点度数排名有很大不同。爆发期关注点集中在“温州”,即事件的发生地。平稳期关注点集中在“北京”,即事件的处理中心。
专题新闻不同时期的关注度不同。通过对温州动车事故的实证研究可以看出,不同时期的网络平均最短路径与聚类系数不同,由爆发期到转折期再到平稳期,网络的平均最短路径不断增大,基于距离的聚类系数不断减小。意味着网络的凝聚性越来越小,网络逐渐变得分散。这一方面是由于新闻的关注点逐渐变得分散,另一方面是由于新闻的数量逐渐变少,表明新闻的关注度逐渐变少。
4结语
新闻是人们获取各种各样信息的主要方式,也是最容易获得的公共信息。通过信息可视化构建专题新闻演化的信息实体网络,展示新闻演化过程,不仅能节省人们的大量的阅读时间而且能提高人们的信息获取能力,发现隐藏在新闻中的潜藏信息,有利于为管理决策提供依据。本文从网络构建的角度出发,构建了专题新闻演化信息可视化模型,并对温州动车事故专题新闻文本集进行了实证研究,利用复杂网络展示专题新闻演化过程。
但是仍然存在以下不足需要进一步研究:
(1)信息实体的选取方法。本文主要根据新闻要素说提出从时间、地点、主体、事件4个方面提取信息实体以代表专题新闻文本中的主要信息。但是这4个方面只是代表了新闻文本中的主要信息,而新闻文本中的其他信息则丢失了,无法在专题新闻文本集可视化视图中展示出来。因此需要进一步研究如何选择信息实体以代表专题新闻文本集中的全部信息,减少信息的丢失。
(2)信息实体的提取方法。本文采取的手工提取信息实体的方法,由于不同信息处理者对信息的获取、处理的能力不同,或者由于新闻文本写作的不规范导致新闻要素的缺失,会造成对于同一篇新闻文本不同信息处理者提取的信息实体不同的结果,特别是对于语义描述性信息实体(事件)的影响更大。所以需要进一步探讨如何客观地提取信息实体,使信息实体的提取结果更能准确地表示新闻文本集中的信息。
(3)深入分析新闻演化可视化结果。本文只是对演化的结果进行了简单分析,没有利用网络分析方法深入研究所构建的不同时期信息实体网络的特性。有必要对专题新闻不同时期信息实体网络的特性进行深入研究以期发现新的不同时期网络特性,进一步分析新闻的演化过程。
主要参考文献
[1]SHStrogatz.ExploringComplexNetworks[J].Nature,2001(41
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省2024-2025年高中物理 学业水平测试冲A 第5章 万有引力定律 经典力学的成就与局限教学设计(含解析)
- 历史七年级上册人教版 第18课 《三国鼎立》教学设计
- 现代投资理念的试题及答案解析
- 理财师考试内容的系统分析和提升试题及答案
- 银行业务痛点及改进策略试题及答案
- 小语种学习分享的试题及答案
- 丰富多样的网络编辑师证书考试试题及答案
- 特许金融分析师考试试题深度解读试题及答案
- 小语种证书考试高频考点试题及答案
- 2025年银行资格证考试必考知识点试题及答案
- 2025项目部与供应商安全生产物资供应合同
- 统借统还合同协议
- 2025年上半年中国十五冶金建设集团限公司公开招聘中高端人才易考易错模拟试题(共500题)试卷后附参考答案
- XX镇卫生院综治信访维稳工作方案
- 2023年河南单招语文模拟试题
- 2024南宁青秀区中小学教师招聘考试试题及答案
- 《道路运输企业和城市客运企业安全生产重大事故隐患判定标准(试行)》知识培训
- 解读《学前教育法》制定全文课件
- 2025年公路工程预制箱梁运输安装合同
- DB31∕T 1243-2020 互花米草生态控制技术规范
- 经济效益评价的基本方法课件
评论
0/150
提交评论