社交网络分析_第1页
社交网络分析_第2页
社交网络分析_第3页
社交网络分析_第4页
社交网络分析_第5页
免费预览已结束,剩余103页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

社会网络分析杨良斌2015.12.3参考资料社会网络分析导论/刘军著.北京:社会科学文献出版社,2004社会网分析讲义/罗家德著.北京:社会科学文献出版社,2005蜘蛛:社会网络分析技术/林枫译世界图书出版公司,2012国际社会网络分析网(INSNA):主要内容Gephi2.1社会网络分析实例3分析网络基本性质3.1社会网络分析指标3.2Pajek2.2igraph2.3常用社会网络分析工具2社会网络分析概述1基本概念社会网络分析关注的焦点是关系和关系的模式,采用的方式和方法从概念上有别于传统的统计分析和数据处理方法。-血缘关系:是谁的兄弟,是谁的父亲,婚姻关系等-社会角色:是谁的领导,是谁的教师,是谁的朋友等-情感关系:喜欢谁,尊敬谁,恨谁等;-认知关系:知道谁,与谁看起来相似等;-行动关系:同谁谈话,一同吃饭,进攻谁,传递信息给谁,从谁接受信息等;-流动关系:汽车流量,信息流量,通信流量等-距离关系:两地距离;-相似关系:相关系数度量;-共同发生:同一个俱乐部,有相同颜色头发等。-……社会网络分析概述基本概念社会网络分析是西方社会学的一个重要分支,是国外从30年代末出现并在最近20多年得到重要发展的研究社会结构的最新方法和技术,也是一种全新的社会科学研究范式。国际上有两项开创性工作掀起了一股复杂网络研究的热潮。一是1998年Watts和Strogatz在Nature杂志上发表文章,引入了小世界网络模型。二是1999年Barabasi和Albert在Science上发表文章指出,许多实际的复杂网络的连接度分布具有幂律形式。由于幂律分布没有明显的特征长度,该类网络又被称为无标度(Scale-Free)网络。加入复杂网络研究的学者主要来自图论、统计物理学、计算机网络研究、生物信息学、生态学、社会学以及经济学等领域,所使用的主要方法是数学上的图论、物理学中的统计物理学方法和社会网络分析方法。社会网络分析概述复杂网络VS与社会网络Complex

NetworkVSSocial

Network不同领域的复杂网络社会网:演员合作网,友谊网,姻亲关系网,科研合作网,Email网,……生物网:食物链网,神经网,新陈代谢网,蛋白质网,基因网络,……信息网络:WWW,专利使用,论文引用,计算机共享,……技术网络:电力网,Internet,电话线路网,……交通运输网:航线网,铁路网,公路网,自然河流网,……6社会网络分析概述社会网络分析可以解决下列问题1-人际传播问题,发现舆论领袖,创新扩散过程;2-恐怖分子网络;3-小世界理论,六度空间分割理论;4-Web分析,数据挖掘中的关连分析,形成交叉销售,增量销售,也就是啤酒和尿布的故事;5-社会资本,产业链与价值链;6-文本的意义输出,通过追问调查研究文本的关连和意义;7-竞争情报分析;8-语言的关连,符号意义;9-相关矩阵或差异矩阵的统计分析,类似得到因子分析和MDS分析;10-知识管理与知识的传递,弱关系的力量;11-引文和共引分析;……社会网络分析概述【数据可视化:群体关系】图一是新浪微博名人关注关系可视化,显示出明星、公知阵营明确,@姚晨

@宁财神

与两个阵营关系均密切。社会网络分析概述新浪微博上的社会网络

新浪微博上的社会网络微博消息《北京警方抓获地铁骚扰男》进行传播分析。社会网络分析概述定义什么是社会网络?

社会网络是指社会行动者(socialactor)及其间的关系的集合。也可以说,一个社会网络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合。用点和线来表达网络,这个是社会网络的形式化界定。点关系个体、公司、……、城市、国家

贸易关系、朋友关系、……、距离关系实质研究对象社会网络分析概述1.规则网络模型是指我们常见的具有规则拓扑结构的网络,如完全连结图,星形网络,邻近节点连接图等。一般情况下,聚集系数较大,平均最短路径较长。11复杂网络模型社会网络分析概述

(a)完全连结网络;(b)邻近节点连接网络;(c)星形网络122.随机网络模型

20世纪60年代,由两位匈牙利数学家Erdǒs和Rényi建立的随机图理论(randomgraphtheory)被公认为是在数学上开创了复杂网络理论的系统性研究。ER随机图的度分布可用Poission分布来表示:因此,ER随机图也称为“Poission随机图”。在20世纪的后40年中,随机图理论一直是研究复杂网络的基本理论。复杂网络模型社会网络分析概述133.小世界网络模型(WS模型)

1967年美国哈佛大学的社会心理学家StanleyMilgram通过一些社会调查后给出的推断是:地球上任意两个人之间的平均距离是6。这就是著名的“六度分离”(sixdegreesofseparation)推断。

直到1998年哥伦比亚大学的Watts和其博士导师Strogatz在Nature杂志发表了第一篇构造小世界网络数学模型的论文(Watts&Strogatz,CollectiveDynamicsof‘Small-World’Networks1998)。社会网络分析概述复杂网络模型1998,Watts和Strogatz:WS小世界网络D.J.Watts,andS.H.Strogatz,Nature,393,440-442(1998).144.无标度网络模型(BA模型)

1999年10月美国NotreDame大学物理系的Barabāsi教授及其博士生Albert在Science杂志上发表的题为《随机网络中标度的涌现》(EmergenceofScalinginRandomNetworks)的文章。社会网络分析概述A.-L.Barabasi

andR.Albert,Science,286,509(1999).1999,Barabasi和Albert

:BA无标度网络

这两篇开创性的文章可以看作是复杂网络研究新纪元开始的标志。复杂网络模型网络的定义用图论(graphtheory)来定义网络的概念。一个网络包括一组节点以及它们之间的连线的集合。一个节点vertex

是网络中的最小单元。在社会网络分析中,它代表一个角色(例如,一个社会组织或者一个国家)。连线line代表网络中两节点之间的联系。在社会网络分析中,它代表某种社会关系。一条线由两个与它关连的节点确定。有方向线的叫弧arc,没有方向的线叫边edge。社会网络分析概述社会网络的形式化表达形式化表达矩阵中的行与列都代表“社会行动者”,即图中的各点。行与列对应的要素代表的就是各个行动者之间的“关系”。社群图用于表示一个群体成员之间的关系,由点和线连成的图。矩阵社会网络分析概述完备图、非完备图(成员之间的紧密度)有向图、无向图(关系方向)二值图、符号图、赋值图(关系的紧密程度)网络的数据表示adjacencymatrixEdgelistadjacencylist123450000000110010100000111000A=Edgelist2,32,43,23,44,55,25,1Adjacencylist1:2:343:244:55:12adjacencymatrix社会网络分析概述网络分析的层次除了把网络描述为图和矩阵,还发展了一系列度量尺度去计算网络的各种性质,这些性质能够在分析的不同层次进行计算。Wasserman和Faust(1994)提出有五个不同的层次:1.个体层次——节点及节点之间的联系2.二元层次——节点对之间的关系3.三元层次——检验三个节点,焦点在网络中三者间的平衡4.子群层次——确认节点的分类5.全局层次——对整个网络的分析18社会网络分析概述与“关联性”有关的概念1子图

一个图G的子图Gs的定义是,Gs中的点集(记作Ns)是G的点集(N)的一个子集,并且Gs中的线集(Ls)也是G的线集(L)的一个子集,Gs中的所有线也必须是在G中的所有点之间的线。社会网络分析概述2关联图和成分对于一个图来说,如果其中的任何两点之间都存在一个途径(Path),则称这两点是相互可达的,称该图是关联图(connectedgraph)。也就是说,关联图中的任何两点之间都是可达的(reachable)。

如果一个图不是关联的,就称之为“不关联图”。一个“不关联图”,可以分为两个或者多个子图,我们称之为关联子图。一个图中的各个关联子图都叫做“成分”(components),它是最大的关联子图。也就是说,“成分”内部的任何点之间都存在途径。但是,成分内部的一点与任何外在于该成分的点之间都不存在任何途径。社会网络分析概述三个成分:C1={n1,n2,n3,n4,n5}C2={n7,n8,n9,n10} C3={n6}社会网络分析概述与“距离”有关的概念1点的度数

与某点相邻的那些点称为该点的“邻点”(neighborhood),一个点ni的邻点的个数称为该点的“度数”(nodaldegree),记作d(ni),也叫关联度(degreeofconnection)。一个点的度数就是对其“邻点”多少的测量。实际上,一个点的度数也是与该点相连的线的条数。如果一个点的度数为0,称之为“孤立点”(isolate)。在一个有向图中,必须考察线的方向。因此,一点的“度数”包括两类,分别称为“点入度”(in-degree)和“点出度”(out-degree)。一个点的点入度指的是直接指向该点的点的总数;点出度指的是该点所直接指向的点的总数。社会网络分析概述点5的度数为:点10的度数为:点8的点数为:421阿库(n3)的点入度是:点出度是:32社会网络分析概述2测地线、距离和直径

在给定的两点之间可能存在长短不一的多条途径。两点之间的长度最短的途径叫做测地线。如果两点之间存在多条最短途径,则这两个点之间存在多条测地线。两点之间的测地线的长度叫做测地线距离,简称为“距离”(distance)。也就是说,两点之间的距离指的是连接这两点的最短途径的长度。一个图一般有多条测地线,其长度也不一样。我们把图中最长测地线的长度叫做图的直径。如果一个图是关联图,那么其直径可以测定。如果图不是关联的,那么有的点对之间的距离就没有界定,或者说距离无穷大。在这种情况下,图的直径也是无定义的。社会网络分析概述n1到n4的测地线是:

n1到n5的距离是:该图的直径是:l2l433(

l2l4

l5、l3l4

l5

)社会网络分析概述3密度(density)

密度指的是一个图中各个点之间联络的紧密程度。固定规模的点之间的连线越多,该图的密度就越大。密度的测量:在无向图中,密度用图中实际拥有的连线数L与最多可能存在的连线总数之比来表示,即密度=2L/n(n-1)

在有向图中,有向图所能包含的最大连线数恰恰等于它所包含的总对数,即n(n-1),密度=L/n(n-1)

(n表示图的规模,即该图一共有n个点。)社会网络分析概述与“中心性”有关的概念“中心性(centrality)”的研究意义:

“权力”在社会学中是一个非常重要的概念。一个人之所以拥有权力,是因为他与他者存在关系,可以影响他人。在一个群体中,我们如何去界定某个人的权利大小?社会网络学者就从“关系”的角度出发,用“中心性”来定量研究权力。人或者组织在社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。社会网络分析概述1点度中心性(1)点度中心度与该点有直接关系的点的数目(在无向图中是点的度数,在有向图中是点入度和点出度),这就是点度中心度(pointcentrality)。点度中心度绝对中心度无向图中,点的绝对中心度即为该点的度数。有向图中内中心度点入度外中心度点出度相对点度中心度有向图:C’RD(x)=(x的点入度数+x的点出度)/(2n-2)无向图:C’RD

(x)=(x的度数)/(n-1)社会网络分析概述(2)点度中心势(pointcentralization)中心度是来描述图中任何一点在网络中占据的核心性,中心势是来刻画网络图的整体中心性。对于一个网络来说,它的中心势指数由如下思想给出:首先找到图中的最大中心度数值;然后计算该值与任何其他点的中心度的差,从而得到多个“差值”;再计算这些“差值”的总和;最后用这个总和除以各个差值总和的最大可能值。用公式表示如下:社会网络分析概述2中间中心性(betweennesscentrality)(1)点的中间中心度

中间中心度测量的是行动者对资源控制的程度。如果一个点处于许多其他点对的测地线(最短的途径)上,我们就说该点具有较高的中间中心度。他起到沟通各个他者的桥梁作用。社会网络分析概述中间中心度的测量:具体地说,假设点j和k之间存在的测地线数目用gjk来表示。第三个点i能够控制此两点的交往的能力用bjk

(i)来表示,即i处于点j和k之间的测地线上的概率。点j和k之间存在的经过点i的测地线数目用gjk

(i)来表示。那么,bjk

(i)=gjk

(i)/gjk。计算点i的中心度,需要把其相应于图中所有的点对的中间度加在一起,所以点i的绝对中间中心度=社会网络分析概述

1-4-5是一个连接1和5的测地线,1和5之间的测地线仅此一条,4的中间中心度为1。2-4-5是一个连接2和5的测地线,2和5之间的测地线仅此一条,4的中间中心度多了1。3-4-5是一个连接3和5的测地线,3和5之间的测地线仅此一条,4的中间中心度又多了1。1-4-3是一个连接1和3的测地线,1和3之间的测地线有2条(1-4-3和1-2-3),4的中间中心度赋予1/2。所以,行动者4的中间中心度为:1+1+1+1/2=3.5,记作CB(4)=3.5社会网络分析概述(2)中间中心势(betweennesscentralization)

网络中中间中心性最高的节点的中间中心性与其他节点的中间中心性的差距。该节点与别的节点的差距越大,则网络的中间中心势越高,表示该网络中的节点可能分为多个小团体而且过于依赖某一个节点传递关系,该节点在网络中处于极其重要的地位。社会网络分析概述3接近中心性(closenesscentrality)(1)点的接近中心度接近中心度又称整体中心度,它是对图中某点的不受他人控制的测度。接近中心度的测量方法:接近中心度绝对接近中心度相对接近中心度(dij为点i和j之间的测地线距离)(n为网络的规模)社会网络分析概述“中心性”总结

刻画的是行动者的局部中心指数,测量网络中行动者自身的交易能力,没有考虑到能否控制他人

点度中心度研究一个行动者在多大程度上居于其他两个行动者之间,因而是一种“控制能力”指数

中间中心度考虑的是行动者在多大程度上不受其他行动者的控制

接近中心度社会网络分析概述与“凝聚子群”有关的概念

大体上说,凝聚子群是满足如下条件的行动者子集合,即在此集合中的行动者之间具有相对较强的、直接的、紧密的、经常的或者积极的联系。研究意义:通过对社会网络的凝聚子群的分析,可揭示社会结构,量化结构。社会网络分析概述“凝聚子群(cohesivesubgroup)”1派系(cliques)

在一个图中,“派系”指的是至少包含三个点的最大完备子图。①派系的成员至少包含三个点;②派系是“完备”的,即其中任何两点之间都是直接相关,都是邻接的;③派系是“最大”的,其含义是,我们不能向其中加入新的点,否则将改变“完备”这个性质。社会网络分析概述2-派系(n-cliques)

对于一个总图来说,如果其中的一个子图满足如下条件,就称之为n-派系:在该子图中,任何两点之间在总图中的距离(即测地线距离)最大不超过n。一个1-派系实际上就是最大的完备子图本身,也就是上述的“派系”。而一个2-派系则是这样的一个派系,即其成员或者直接(距离为1)相连,或者通过一个共同邻点(距离为2)间接相连。社会网络分析概述3k-丛(k-plex)一个k-丛就是满足下列条件的一个凝聚子群,即在这样一个子群中,每个点都至少与除了k个点之外的其他点直接相连。也就是说,当这个凝聚子群的规模为n时,其中每个点至少都与该凝聚子群中n-k个点有直接联系,即每个点的度数都至少为n-k。如果k=1,根据定义,1-丛中的每一个成员都与其他n-1个点相连,那么,一个1-丛就等于1-派,也当然是一个派系,是一个最大的完全子图。当k=2的时候,其中所有点都至少与n-2个其他点相连,但是,2-丛可以不是2-派系。社会网络分析概述左图是3-派系,因为所有点之间的距离都不大于3。然而,它却不是一个3-丛,因为与点A、C、E、F相连的成员的数目都少于6-3=3。右图即是3-派系,也是3-丛。社会网络分析概述4k-核(k-core)

k-核指的是满足下面条件的一个子图,即子图中的点都至少与该子图中的k个其他点邻接。k-丛要求各个点都至少与除了k个点之外的其他点相连,而k-核要求任何点与至少k个点相连。社会网络分析概述42k-核反复去掉图中度小于等于k的节点后,所剩余的子图。K-派系(Cliques)

在一个无向网络图中,“派系”指的是至少包含3个点的最大完备子图。n-派系(n-Cliques)

对于一个总图来说,如果其中的一个子图满足如下条件,就称之为n-派系:在该子图中,任何两点之间在总图中的距离(即捷径的长度)最大不超过n。n-宗派(n-Clan)

所谓n-宗派(n-Clan)是指满足以下条件的n-派系,即其中任何两点之间的捷径的距离都不超过n。可见,所有的n-宗派都是n-派系。k-丛(k-Plex)

一个k-丛就是满足下列条件的一个凝聚子群,即在这样一个子群中,每个点都至少与除了k个点之外的其他点直接相连。也就是说,当这个凝聚子群的规模为n时,其中每个点至少都与该凝聚子群中n-k个点有直接联系,即每个点的度数都至少为n—k。社会网络分析概述测度指标——社团结构43

点度中心度(DegreeCentrality)指的是该点的度数,即与该点直接相连的点的个数。在无向图中是点的度数,在有向图中是点入度和点出度之和。分析节点直接影响。设网络具有n个节点,k为节点度,则节点i的度数中心度为:中介中心度(BetweennessCentrality)一个点Y相对于一个点对X和Z的中间中心度指的是该点处于此点对的捷径上的能力。经过点Y并且连接这两点的捷径占这两点之间的捷径总数之比。分析该节点对网络信息流动的影响。用gst,i表示节点对s和t最短路径经过i点的路径数,nst表示节点s和节点t之间存在所有最短路径的路径数,则节点i的中间中心度:社会网络分析概述测度指标——中心度接近中心度(ClosenessCentrality)是指该点与图中所有其它点的捷径距离之和。分析节点通过社会网络对其它节点的间接影响力。特征向量中心度(Eigenvectorcentrality)节点的中心化测试值由周围所有连接的节点决定,即一个节点的中心化指标应该等于其相邻节点的中心化指标之线性叠加。分析这种通过与具有高度值的相邻节点所获得的间接影响力。社会网络分析概述测度指标——中心度组分PageRank算法HITS算法主路径CitationWeights>SearchPath关键路径(CRM)结构洞(Structuralhole)岛(Islands)社会网络分析概述测度指标——其他常用社会网络分析工具1Gephi(visualizationandbasicnetworkmetrics)Pajek

veryextensivefunctionalityviadrop-downmenusfreeWindows-onlyiGraph(forprogrammingassignmentsRandPython)UCINetextensive,sociology-focusedfunctionalityWindows-onlycosts$$NetLogo(modelingnetworkdynamics)社会网络分析概述NodeXLSNAintegratedintoExcelWindows-onlyfreeBetaNetworkXextensivefunctionalityscalestolargenetworksbytakingadvantageofexistingC,Fortranlibrariesforlargematrixcomputationsopensource

snapackageforRextensive,statistics-heavyfunctionality

SoNIA-SocialNetworkImageAnimator

specializedforlongitudinalanalysisofnetworks常用社会网络分析工具2社会网络分析概述主要内容Gephi2.1社会网络分析实例3分析网络基本性质3.1社会网络分析指标3.2Pajek2.2igraph2.3社会网络分析概述1常用社会网络分析工具2Gephi是一款开源的交互式的复杂网络分析平台。它支持Windows,MacOSX以及Linux等环境。主要功能包括:网络布局:提供了超过10种不同的布局算法

统计功能强大:对网络的统计,对节点的统计

网络社团分析和分类网络属性计算动态网络分析特点:Gephi操作流程简单,有中文版本,多种数据输入格式,界面友好。GephiGephi基本介绍导入数据打开Gephi,文件>打开,选择数据文件(.net,.gml,.gephi等)例1:facebook三个界面:[概览][数据资料][预览]在[概览]界面中,可以看到刚导入的数据图形Gephi基本操作Gephi统计功能右手边的统计(Statistics)栏目中网络概述:

平均度(度分布)

平均加权度

网络直径

图密度

模块化(Modularityclass)PageRank

连接组件节点概述:平均聚类系数特征向量中心度边概述:

平均路径长度(中介中心度,接近中心度…)GephiGephi基本操作滤波功能:右手边的统计(Filters)栏目中有滤波库,比如拓扑,K-核心。我们选中K-核心,拖到下面的查询中,然后点右下方的滤波。可以设置滤波的值,也可以在[数据资料]面板的过滤对网络进行简化。GephiGephi基本操作分区功能回到左手边的分割(Partition)窗口。点击节点(Nodes)下面的刷新按钮,再从下拉菜单选择Modularityclass。然后选择应用(Apply)。即可根据社团结构对节点染色。GephiGephi基本操作项目汇报-杨立英排序功能在左手边的排序(Ranking)窗口,选择第一栏第二个图标,下面标准选择Degree。点击Apply即可按度大小改变节点大小可视化。GephiGephi基本操作布局功能左边的流程(Layout)可以调整可视化图的布局。Choosealayout的下拉栏选择相应的数据分析算法,选择YifangHu,或下面的Fruchterman-Reingold点击运行,并实时调试各种参数,直至各组数据达到理想的分布效果;也可以通过下载插件扩展多种算法。得到合适的布局时点击Stop。GephiGephi基本操作

预览功能通过「预览」窗口,看到的效果如图。还可以通过“改变大小”和“编辑”两个工具手动调整。完成后选择file-export-Pdffile即可输出图形文件。GephiGephi基本操作主要内容Gephi2.1社会网络分析实例3分析网络基本性质3.1社会网络分析指标3.2Pajek2.2igraph2.3社会网络分析概述1常用社会网络分析工具2Pajek软件诞生于1996年,是由VladimirBatagelj和AndrejMrvar共同编写的。Pajek是自由扩散非商业用途的软件,可以自由下载,在本地选择目录简单安装后就能方便运行,最新版本是3.14(11月12日更新)。软件网址是:Pajek在斯洛文尼亚语中是蜘蛛的意思,该软件的Logo就是一只蜘蛛,暗示其具有网络绘制的功能。Pajek"ExploratorySocialNetworkAnalysiswithPajek,2ndedition"

Pajek基本介绍PajekPajek的特点1.提供了探索网络结构的途径。2.但统计分析功能很弱。Pajek的六种数据结构网络分类向量重排聚类层次三种主要的数据结构Pajek用邻接矩阵的方法来表示复杂网络结构。邻接矩阵是一个nn的矩阵,(其中,n为复杂网络的节点数),它反映了两个节点之间具体的连接关系。这种形式表示的复杂网络用后缀名为.dat的文件来存储。例2:Pajek1.datDLN=4FORMAT=FULLMATRIXDIAGONALPRESENTLABELS:ChinaUSAUKJapanDATA:0200000005030300Network(网络)——.dat格式PajekPajek的数据格式依次列举该复杂网络所有的边。这种表述形式的复杂网络用后缀名为.net的文件来存储。如下列文件:例2:*Vertices41"China"0.29970.16690.50002"USA"0.51470.41060.50003"UK"0.90000.50000.50004"Japan"0.50000.90000.5000*Arcs122325343423*Edges(若该边写在*Edges行下,则为无向边)。Network(网络)——.net格式PajekPajek的数据格式例2:Pajek1.mat*Vertices4

1"China"0.29970.16690.5000

2"USA"0.51470.41060.50003"UK"0.90000.50000.5000

4"Japan"0.50000.90000.5000*Matrix

0.0002.0000.0000.000

0.0000.0000.0000.000

0.0005.0000.0003.000

0.0003.0000.0000.000Network(网络)——.mat格式PajekPajek的数据格式Network格式转换手工格式转换.dat模版格式转换软件PajekrelatedtoolsCreatepajek.exeWoS2PajekExcel2Pajek

是从excel(注意,是2003版)中转化为net文件Text2PajekFCMapperUrlNetFaceBook

PajekPajek的数据格式Createpajek.exeExcel(2003),数据集包含114个用户节点,703条互粉关系,格式如左。例3:【数据堂】微博互粉网络.xls,转换之后,生成.net格式。65Partition(分类/分区)用户可以根据复杂网络中各个节点的不同特性将其人为地分类;同样的,以某种特性作为参考标准(如节度的大小、节点的名称、节点的形状等),Pajek也可以自动将复杂网络中的各个节点按照用户指定的标准进行分类,这些分类的结果就输出为一个Partition的文件(其后缀名为.clu)。

.clu文件如以下形式:1972

1975

1977

1977

1981

1981

1985

表示节点3和节点4属于同一个类,该类的标记为1977。PajekPajek的数据格式以向量的形式为某些操作提供各节点所需的相关数据。一般可以输出由Pajek得到的相关处理结果。如利用Pajek求各节点的度(Degree),其结果就保存在一个vector的文件中。Vector文件的后缀名为.vec。Vector(向量/矢量)*Vertices1551.9780000001.4860000000.7680000002.3700000000.8320000000.8820000001.6860000001.5800000000.912000000……PajekPajek的数据格式Pajek的基本操作步骤1:读取文件例4:世界体系划分和金属贸易网读取网络文件:例4读取分区文件:例4World_system.clu读取向量文件:例4GDP_1995.vecPajek步骤2:成图(Draw)Draw>Network只画网络>Network+FirstPartition给网络加上分类>Network+FirstPartition+FirstVector给网络

再加上向量Pajek默认的成图方式是环形算法(circular)。步骤3:选成图算法绘图窗口Layout/Energy/Kamada-Kawai/Free得到Kamada-Kawai算法的成图,Layout﹥Energy﹥Fruchterman-Reingold,得到Fruchterman-Reingold算法的成图。PajekPajek的基本操作步骤4:图的优化——修改点或线的颜色和大小等绘图窗口>Options>Size>Colors>PartitionColors>forVerticesPajekPajek的基本操作步骤5:输出保存绘图窗口>Export>2D>JPG>run此外,Pajek还能将网络图输出成为可放缩的矢量图形——SVG格式(ScalableVectorGraphics),EPS格式以及3D格式,如X3D,VRML,MDLMOLfile等。

PajekPajek的基本操作Network(网络)>Info(信息)﹥General(基本),可以返回网络的基本信息。

网络基本信息中包含了四部分的信息:节点数、边数、环数、密度。其中,密度(Density)是Pajek软件中最常用的一种测度指标。返回的结果:PajekPajek基本指标——网络的基本信息Pajek对网络的简化1.提取子网络——局部视角(Local)金属制品贸易网络文件:例4大陆分区文件:例4Continet.clu提取子网络:Operations/Network+Partition>ExtractSubNetwork/,在对话框中输入2,就可以得到亚洲的金属制品贸易网。Pajek2.收缩网络——整体视角(Global)金属制品贸易网络文件:例4大陆分区文件:例4收缩网络:Operations/Network+Partition>ShrinkNetwork/根据大陆分区文件,把网络中的顶点按照分区的类别进行收缩。第一个对话框中输1,第二个对话框输0.,就得到各个大陆之间的金属制品贸易网。PajekPajek对网络的简化3.收缩网络——背景视角(Context)金属制品贸易网络文件:例4大陆分区文件:例4收缩网络:Operations/Network+Partition>ShrinkNetwork/根据大陆分区文件,把网络中的顶点按照分区的类别进行收缩。第一个对话框中输1,第二个对话框输2,就得到亚洲不参与收缩的,考察亚洲以其他各大陆为背景的金属制品贸易网。PajekPajek对网络的简化Pajek对网络的转换1.有向网络和无向网络的转换(Transform)例5:把网络中的有向的弧改变为无向边Network>CreateNewNetwork>Transform>Arcs->Edges>AllPajek2.去掉低于一定阈值的连线(1).Network>CreateNewNetwork>Transform/Remove/LineswithValue/lowerthan(2).在弹出的对话框中输入阈值,弹出的information中,Makeanewnetwork?,点Yes。PajekPajek对网络的转换3.把孤立点去掉(Extract)例5:(1).Network/CreatePartition/Degree/All(2).Operations/Network+Partition>ExtractSubNetwork/,得到至少有一条连线的节点的网络:PajekPajek对网络的转换与简化主要内容Pajek2.2社会网络分析实例3分析网络基本性质3.1社会网络分析指标3.2igraph2.3社会网络分析概述1常用社会网络分析工具2Gephi2.1R包—iGraphRversion3.0.2在运行之前先在R中安装几个packages:igraph,VGAM、R.matlab、Splines和stats4。1.设置镜像Packages>SetCRANmirror2.安装数据包Packages>InstallPackage(s)3.运行igraphPackages>LoadPackage>igraph80igraphiGraph创建、读入数据用igraph创建图g1<-graph(c(1,2,1,3,1,4,2,4,3,4),directed=T)g1IGRAPHD45–读入.net格式的数据从网络Fromthewebkarate<-read.graph("",format="pajek")浏览这个网络summary(karate)读入GML格式的数据指明路径g=read.graph("I:\\pajekstudy\\Pajek-2014.3.26\\SNAsoftwareanddata\\data\\facebook372.gml",format="gml")summary(g)81igraphiGraph可视化plot(g1,layout=layout.fruchterman.reingold)plot(karate,layout=layout.fruchterman.reingold)82igraph算法语句画图plot(g)圆形布局plot(g,layout=layout.circle)有向布局,fruchterman.reingold算法plot(g,layout=layout.fruchterman.reingold)有向布局,graphopt算法plot(g,layout=layout.graphopt)有向布局,kamada.kawai算法plot(g,layout=layout.kamada.kawai)有向布局,kamada.kawai算法,交互Interactive,点可以移动tkplot(g,layout=layout.kamada.kawai)更多算法……节点的数量Noofnodeslength(V(g))[1]200连线的数量Noofedgeslength(E(g))[1]197图的密度Densitygraph.density(g)[1]0.009899497图的直径Diameterofthegraphdiameter(g)[1]1883igraph图表统计功能igraph通过大量统计信息我们可以大致看到图表的形状。图的各类信息,包括:

-图的大小(节点和连线的数量)

-图的密度

-图的连通性

-度分布节点的统计信息主要内容igraph2.3Pajek2.2社会网络分析实例3分析网络基本性质3.1社会网络分析指标3.2社会网络分析概述1常用社会网络分析工具2Gephi2.1识别网络属性基本性质包括度分布、平均路径长度、平均聚类系数。识别网络是无标度网络、小世界网络,还是随机网络。无标度网络特征度分布小世界网络特征若网络具有较大的聚类系数、较小的平均路径长度,则具有小世界网络的特性。分析网络基本性质1.网络的无标度特征随机网络的度分布类似泊松分布(Poissondistribution).现实世界中有很多网络的度分布为幂律分布(Powerlawdistribution),P(k)~k-r无标度网络包括如Internet网络、引文网络、科学家合作网络、蛋白质互作用网络、语言学网络、电影与电视剧演员合作网络、交通网络等等。泊松分布幂律分布分析网络基本性质幂律分布Power-lawdistributionhighskew(asymmetry)straightlineonalog-logplot分析网络基本性质(1).Network>CreatePartition>Degree>Input/Output/All(2).点击主窗口的Partitions图标下的放大镜按钮,出现度的值。点击保存按钮,保存成.clu文件,把数据拷入excel计算度分布P(k),生成下图。1.网络的无标度特征——Pajek度分布分析网络基本性质(1)读入GML格式的数据g=read.graph("I:\\pajekstudy\\Pajek-2014.3.26\\SNAsoftwareanddata\\data\\facebook388.gml",format="gml")g=read.graph("I:\\pajekstudy\\Pajek-2014.3.26\\SNAsoftwareanddata\\data\\facebook372.gml",format="gml")summary(g)

plot(g,layout=layout.fruchterman.reingold)

(2)计算无向的度分布degrees=degree(g,mode="all")(3)

检验是否power-law分布下载plfit.rRunningthisfunctionplfit.rFile>ScourceRCode>plfit.ra=plfit(degrees)a89分析网络基本性质网络的无标度特征——igraph度分布$xmin[1]34$alpha[1]3.5$D[1]0.07686098检验是否power-law分布1.如果$D<0.05,则KolmogorovSmirnov检验认为这个分布是power-law.2.看估计的power-law指数alpha以及xmin(thepointatwhichyoushouldstartfittingthedistribution)90cumy=c()y=tabulate(degrees)x=1:length(y)for(iin1:length(x)){ cumy[i]=sum(y[i:length(x)])/sum(y)}options(scipen=10)plot(x,cumy,log="xy",xlab="degreek",ylab="P(x)>=k",cex=0.5) #overlaythefitteddistributionstartval=cumy[a$xmin]fittedvals=(a$xmin:max(x))^(-a$alpha+1)*(startval)/a$xmin^(-a$alpha+1)points(a$xmin:max(x),fittedvals,type='l',col='red')分析网络基本性质网络的无标度特征——igraph度分布(4)把下面的代码输入,画出plot*plot累积的度分布图

1.在Gephi中读入网络:例5facebook,记录网络的节点数和连线数,计算:平均聚类系数AverageClusteringCoefficient(ACC)平均路径长度AveragePathlength(APL)(2)

生成有相同节点数和连线数的对应的ErdosRenyirandomgraph。(File>Generate>Randomgraph...)。(需要调整wiringprobability),计算:无向的平均聚类系数(ACC)最短路径长度(APL)。36168(3)

指标对比分析。聚类系数和平均路径长度是考察网络小世界特征的两个重要指标。比较“目标网络”和随机网络的两个指标。91NodesLineswiringProbabilityACCAPLFacebookNetwork361680.483.449ERRandomnetwork361630.250.0462.3392.网络的小世界特征Gephi小世界网络VS随机网络分析网络基本性质“FacebookNetwork”的平均路径长度小于或接近相应的随机网络,同时聚类系数远大于相应的随机网络,即可以证明“FacebookNetwork”具有小世界特征。1.读入网络,然后记录下网络的节点数和连线数。2.计算聚类系数(ClusteringCoefficients)Network/CreateVector/ClusteringCoefficients/CC13.计算平均路径长度和直径Network>CreateVector>DistributionofDistances*4.生成一个与“目标网络”相对应的随机网络,然后重复步骤2和3,计算聚类系数和平均路径长度。Network/CreateRandomNetwork/SmallWorld2.网络的小世界特征Pajek小世界网络VS随机网络平均路径长度分析网络基本性质主要内容社会网络分析实例3分析网络基本性质3.1igraph2.3Pajek2.2社会网络分析指标3.2社会网络分析概述1常用社会网络分析工具2Gephi2.1中心度(Centrality)度中心度(DegreeCentrality)——拥有较高出/入度数的节点中介中心度(BetweennessCentrality)——与其他节点对之间有最短路径的节点接近中心度(ClosenessCentrality)——与其他节点之间有短路径的节点-特征向量中心度(Eigenvectorcentrality)——连接了许多中心性较高节点的节点凝聚子群或社团结构组分(强、弱组分)K-邻K-核P派系扩散主路径CitationWeights>SearchPath……社会网络分析指标平均度(度中心度)平均路径长度(中介中心度,接近中心度…)例1facebookGephi中心度(Centrality)社会网络分析指标Pajek度中心度(DegreeCentrality)一个点的绝对中心度是指该点的度数,即与该点直接相连的邻点个数,Network>CreatePartition>Degree>Input/Output/All度的绝对值Network>CreateVector>Centrality>Degree>All度的相对值Network>CreateVector>Centrality>WeighedDegree>All点击主窗口的vectors图标下的编辑按钮,出现度的绝对值。点击主窗口的vectors图标下的编辑按钮,出现度的相对值。例1facebook社会网络分析指标Pajek中介中心度(BetweennessCentrality)Network>CreateVector>Centrality>Betweenness节点的中介中心度即

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论