多指标面板数据的聚类分析研究_第1页
多指标面板数据的聚类分析研究_第2页
多指标面板数据的聚类分析研究_第3页
多指标面板数据的聚类分析研究_第4页
多指标面板数据的聚类分析研究_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、P) /徐学TONGJI UNIVERSITY1管理信息系统课程小组作业多指标面板数据的聚类分析研究以我国15个副省级城市综合竞争力评价为例小组组长:XXXXX小组成员:XXXXXXXXXX完成时间:指导教师:徐德华55目录31 选题背景与意义2 聚类分析与聚类算法2.1 聚类分析2.1.1 相关概念与定义2.1.2 相似度计量模型2.2 聚类算法2.2.1 传统聚类算法及其比较142.2.2 扩展聚类算法153 面板数据及其聚类方法3.1面板数据概述153.23.33.1.1 概念及发展3.1.2 面板数据的特点3.1.3 面板数据的分析处理方法单指标面板数据的数据形式和聚类分析方法多指标面

2、板数据的数据形式和聚类分析方法1516161718183.3.1 多指标面板数据的数据形式3.3.2 常见的多指标面板数据聚类分析方法184 实证研究234.1 城市竞争力研究综述234.1.1 城市竞争力内涵研究综述244.1.2 城市竞争力模型研究综述264.1.3 城市竞争力评价体系研究综述3031314.2城市竞争力指标选取4.2.1 城市竞争力评价指标选取的原则3154.2.2 我国 15 个副省级城市竞争力评价指标体系4.3聚类分析324.44.3.1 基于主成分分析的聚类4.3.2 基于指标距离求和的聚类4.3.2 基于概率连接函数的聚类结果分析5 结论与展望4432394143

3、5.1结论445.2 不足与展望45主要参考文献45附录46附录1*46附录2*46附录31 选题背景与意义面板数据(Panel Data )作为截面数据与时间序列数据的组合数据集,同时体现了空间维度和时间维度的数字特征,克服了时间序列数据多重共线性、数 据量不足等困扰,逐渐发展成为现代计量经济学领域统计分析与统计研究的重要方法和工具。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研 究领域。聚类分析 作为一种数据挖掘手段,已被广泛地应用在许多领域中,包括模式识别、数据分析、图像处理、市场研究、管理评价等。传统的聚类分析对象 一般是固定时期的不同个体截面数据,二维数据聚类分析往往不能满足

4、人们分 析问题的需要,而且基于单一的固定时期的聚类分析往往抹杀了指标的动态发 展趋势及其发展状态,无法预测其未来发展轨迹和所属类别。例如:在城市竞 争力聚类分析中,竞争力存在着随时间动态变化过程,仅仅固定在某一年度的 截面数据分析就显得有失偏颇,如果根据一个较长时期的面板数据进行聚类分 析则显得较为合理。城市竞争力 是国内近年来正在兴起的一个新课题,目前处于起步研究阶 段,还未形成公认的完整体系。经济全球化,知识经济时代的到来,促使我国 城市必须进行转型改革,走上新型的发展道路。我国现阶段的城市要从建设城 市转向管理和经营城市,就是要重塑城市资源整合和配置资源机制,提高城市 对社会资源的吸引力

5、和创造社会财富的能力,从根本上就是提高城市竞争力。 城市竞争力评价是典型的综合评价,在不同的评价体系下有不同的指标指标, 而且必须考虑时间因素,因此相关的数据就是典型的多指标面板数据。1994年5月,经中央机构编制委员会第 6次会议通过,决定将原来的 14个计 划单列市和杭州、济南 2市正式确定为副省级市(其中,重庆市97年恢复直辖)。将这 15个城市定为副省级市,是中央对于区域经济发展的重要决策,加 强了省级机构统筹规划和协调的地位和作用,不仅有利于加快这些城市的经济 与社会发展,而且有利于更好的发挥这些中心城市的辐射作用。在国家政策层 面和经济决策权待遇同等的情况下,经过 20年,这 15

6、个副省级城市的发展出现 了很大差异,城市竞争力也日趋呈现差异化。鉴于此,我们小组决定利用多指 标面板数据的聚类方法对此进行探析,一方面介绍面板数据的一些处理思路, 另一方面通过聚类寻找 15个城市类别之间的差异,以提出相关建议。2 聚类分析与聚类算法2.1 聚类分析2.1.1 相关概念与定义聚类分析( Cluster Analysis )又称群分析,是根据“物以类聚”的道 理,对样品或指标进行分类的一种方法,其目的是将有限个无标注数据划分到 有限个离散的组或类中,发现数据隐藏的内部结构。聚类分析是数据挖掘的一 种重要手段,是一种无监督的模式分类方法,在分类时只依赖对象自身所具有 的属性来区分对

7、象之间的相似程度。聚类分析作为一种有效的数据分析方法被 广泛应用于数据挖掘、机器学习、图像分割、语音识别、生物信息处理等方 面。给定一个对象集合XXi,X2丄,xn,假设每个对象Xi,i IL ,n含有m个特征,在此用向量的方式来表示对象的特征,xil1,l2,L ,lm ,聚类分析的过程就是根据对象的特征来分析对象之间的相似程度,并根据某种聚类决策准则 来获得聚类结果。聚类的结果用 CC1,C2,L ,Ck 表示,则聚类结果满足以下条k件:Ci,ihLKUidX;qCj,ij,i, j1,L ,k。模糊聚类的结果没有上面的约束条件,模糊聚类给出的结果只是对象隶属于每个类的程度。通常聚类分析一

8、般包含四个部分: (1) 特征获取与指标选择; (2) 计算相似 度;(3) 聚类分组; (4) 结果分析。2.1.2 相似度计量模型给定数据矩阵,通常需要通过某种相似度计算模型来计算相似度矩阵。相 似性计算模型一般需满足如下三个条件:(1) 非负性:对于任两个对象 x 和 y, 有 0 s(x, y) 1;(2) 对称性:对于任两个对象 x 和 y, 有 s(x, y) s(y,x);(3) s(x,x) 1。 相似度的计算依赖于数据的特性,针对不同的数据类型,目前有许多相似 度的计算公式,下面列出一些常见的计算公式:(1) 数值型数据的相似度 数值型数据的相似度通常利用数据间的距离来构造,

9、可以利用公式41s(x,y)ddy7vs(x,y) ed("或s(x,y) 1将距离转化为相似度,其中max_d表示集中数据之间的最大距离。 常见的距离公式有:闵可夫斯基(Minkowski)距离:d(x, y)yi切比雪夫(Chebyshev)距离:d (x, y)i 1nxi马氏(Mahalanobis)距离:d(x, y) x yT S 1(x其中,表示取大运算。闵可夫斯基距离是一个一般化的距离度量,当p=1是为曼哈顿距离,当p=2是为欧式距离。(2)二元数据的相似度二元数据是由二元变量构成,二元变量只能有两种取值状态:0或1,其中0表示该特征为空,I表示该特征存在。如果二元变

10、量的两个状态是同等价值的 具有同样的权重称为对称的二元变量,否则称为不对称的二元变量。对于对称的二元变量评价两个对象和之间相似度的最著名的系数是简单匹配系数:d(x,y),其中r为X和y取值不相同的属性的个数,s为x和yr s取值相同的属性的个数。对于非对称的二元变量,常用系数来表示,其中最常 用的是Jacard 系数。下面给出常见系数的计算公式,设X X1,X2,L ,Xn y理可用0-1、1-0及Xk, yk Xk=i且 yk=j,k%2丄,yn为二元数据,常用0-0匹配表示Xi=0且yi=o,同1-1匹配表示Xi及yi相应的取值,其中f j表示集合1,2,L ,n 的基数,i, j 0,

11、1。Jacard 系数 jf1101f10f11Rogers-Tanimoto 系数 RTSokal-Sneath-a 系数I11 I 00f00 2( f01f10)f11Sa2(f11 f00)2 f00f01 f10 2 f11(3)其他相似度余弦相似度cos(x, y)xyX yn,其中 xy= Xiyijxi 1相关系数构成的相似度s(x, y) corr (x, y)或者s(x, y)= 1+COrr( X, y)2.2聚类算法2.2.1传统聚类算法及其比较聚类分析的核心就是聚类算法,在不断的发展过程中演化出了多种经典的 聚类算法,在现有文献中,传统的聚类算法主要有几种类型:划分方

12、法、层次 方法、密度方法、模型方法和网格方法。(1)基于划分的方法对于给定的包含n个数据对象的数据库,通常基于划分的方法要求用户给定 构建数据的最终划分数目k,通过采用目标函数最小化策略,将数据分成k个簇。可以看出,算法将整个数据集划分为 k个簇,同时满足以下两个条件:每 个簇至少包含一个数据对象;每个数据对象必须属于且唯一的属于一个簇。 但在某些模糊划分技术中,如在FCMT法中,第二个要求可以放宽。给定划分数 目k,基于划分的方法首先创建一个初始划分,通常采用的方法是随机选取k个数据对象作为初始聚类中心点,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分,采用的准则是:在同一

13、个簇中的数据对象尽可能相 似,不同的簇中的数据对象尽可能相异。根据对象在划分之间移动的衡量参数 和簇的表示方法不同,基于划分的方法主要包括有 K-Means法, K-中心点算法以 及对他们的扩展。(2)基于层次的方法层次的方法按数据分层建立簇,形成一棵以簇为节点的树。根据层次如何 形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称自底向上的方 法,该方法从数据点作为个体簇开始,每一步合并两个最接近的簇,直到所有 的簇合并为一个(层次的最上层),或者达到一个终止的条件。在这里,判断最 接近的簇需要簇的临近性定义。大多数的层次聚类算法都属于这类。分裂的方 法,也称为自顶向下的方法,它与凝聚的

14、方法正好相反,该方法从包含所有点 的一个簇开始,每一步分裂一个簇,最终每个对象在单独的一个簇中,或者达 到一个终止条件,比如达到某个希望的簇数目,或者两个最近的簇之间的距离 超过了某个闭值。在这种情况下,我们需要确定每一步分裂哪一个簇,以及如五个广泛采用的簇间距离度量方法如下:dmin(Ci ,Cj) = min P - Pj , R?Ci,p?Cjdmin(G,Cj)= max P - R何分裂。无论是凝聚算法还是分裂算法都要采用一个划分准则,以便判定簇之 间的相似性或相异性,i .最小(单链)距离:I,R?Ci,Pj?Cj,其中mi、mj是Ci,Cj的质心? ?|Pi- Pj|,P?Ci,

15、Pj?Cjii .最大(全链)距离:iii.平均值(质心)距离:dmean(Ci,Cj) =m - mjiv .平均(组平均)距离:davg(Ci,Cj) = %njV.中心点距离:dmedian(Ci,Cj) = |Mi - Mj ,其中Mi、M j是Ci,Cj的中心点。这里P - Pj I表示两个对象 P和Pj之间的距离,mi是簇Ci的平均值(质心),M i是簇Ci的中心点,而q是簇G中对象的数目。如图2.1所示,凝聚的层次算法和分裂的层次算法在包含五个对象的数据 集合上的处理过程。凝聚的方法将每个对象看作一个簇,然后将这些簇一步一 步进行合并。图中簇a和b相似性最高首先进行合并,其次是

16、d和e,再de合 并的簇与簇c合并,最终与a,b组成的簇合并,合并过程反复进行直到最终合 并为一个簇。而在分裂方法处理的过程中,初始时所有对象都放到一个簇中, 根据数据对象之间的相异性将该簇分裂,簇的分裂过程反复进行,直到最终每 个簇中只包含一个对象。黴累尊法帳 3#523*1堀&图2.1 凝聚和分裂层次聚类算法层次聚类算法可以在不同粒度水平上对数据进行探测,而且很容易实现相 似度量或距离度量。但是层次聚类算法由于合并或分裂簇的操作不可逆,也给 聚类结果带来不准确性。有一些技术试图克服“合并是最终的”这一限制。一 种方法试图通过移动树的分支以改善全局目标函数。另一种方法使用划分聚类 技

17、术来创建许多小簇,然后从这些小簇出发进行层次聚类。凝聚层次聚类技术 使用各种标准,在每一步局部地确定哪些簇应当合并(或分裂,对于分裂方法)。这种方法产生的聚类算法避开了解决困难的组合优化问题。这样的方法没 有很难确定初始点和局部最小问题。但是,在很多情况下,0(n2log n)的时间复杂度和0(n2)的空间复杂度阻碍了它们的应用。通常在解决实际聚类问题时 把层次方法与其他方法结合起来。改进层次方法聚类质量的一个很有前途的方 向,是把层次聚类和其他聚类方法相结合起来,形成多阶段的聚类,改善聚类 质量。这类方法包括BIRCH和CURET法等。BIRCH算法利用层次方法进行平衡迭代归约和聚类。它引入

18、了两个概 念:聚类特征和聚类特征树。聚类特征是一个反映类内对象信息的三元组,包 含类内数据点的个数、线性和以及平方和。它首先将对象划分成树形结构,然 后采用其他聚类算法对聚类结果求精。BIRCH算法采用多阶段聚类技术,对数据集进行一遍扫描后生成初步簇的 CF 树,再经过一遍或多遍扫描改进 CF 树的 质量。CF树建好后,可以使用任何聚类算法,如典型的划分方法,对其叶节点 进行聚类。BIRCH算法支持增量聚类。当插入新数据对象时,CF树可以动态构造,CF树的重建类似于B+树构建中的节点插入和分裂。但由于 CF树的每个节 点的大小的限制,可能导致节点并不总是对应于用户所认为的一个自然聚类。 而且,

19、如果簇不是球形的,BIRCH算法不能很好地工作,因为它用了直径的概 念来控制聚类的边界。CURE算法使用各种不同的技术创建一种能够处理大型数据、离群点和具有 非球形和非均匀大小的簇的数据的方法。 CURE使用簇中多个代表点来表示一个 簇。实际上,CURE是从一个簇中选择一定数目散布很好的点来代表该簇,这些 点能够用于确定簇的形状和大小。一旦选定代表点,他们就以一定的收缩因子 向簇中心收缩,这有助于减轻离群点的影响。使用这些点收缩之后的位置来代 表簇,从中找到最近的两个簇,然后把它们进行合并。CURE算法克服了利用单个代表点或基于质心的方法的缺点,可以发现非球形及大小差异明显的簇。同 时采用了收

20、缩因子在处理孤立点上也更加健壮。(3)基于密度的方法很多算法中都使用距离来描述数据对象之间的相似性,前面提到的两种聚 类方法就是基于这种相似性进行聚类,这样的聚类方法对于大部分的球形簇聚 类效果较好。但往往对任意形状的簇聚类结果较差,甚至无法进行有效聚类, 因此提出了基于密度的聚类方法。这类方法将簇看作是数据空间被低密度区域 分割开的高密度区域。该类算法除了可以发现任意形状的类,还能够有效去除 噪声。典型的基于密度的聚类方法包括 DBSCA和0PTICS1)DBSCA算法主要思想是:只要临近区域的密度 (对象或数据点的数目 ) 超过某个预先设 定的闭值,该数据对象就属于此簇,并继续聚类,直至所

21、有的对象都唯一的划 定到一个簇中。基于密度的聚类方法通常是对于给定类中的每个数据点,在一个给定范围 的区域中设定必须至少包含数据点的数目。它定义簇为密度相连点的最大集 合。以下为有关密度的一些相关概念:i . e-邻域:给定对象e半径内的区域称为该对象的e-邻域;ii. 核心对象:如果一个对象的e邻域至少包含最小数目 MinPts个对象,则 称该对象为核心对象, MinPts 由用户给定;iii. 直接密度可达:给定一个对象集合 D如果P是在q的e-邻域内,而q 是一个核心对象,我们说对象 p 从对象 q 出发是直接密度可达的;iv. 密度可达:如果存在对象链 P1,P2,,Pn, R=q ,

22、卩.=卩对R?D (1 £i £n) , P+1是从p关于e和MinPts直接密度可达的,则对象 P是从对象q 关于 e和 MinPts 密度可达的(Density Reachable);V .密度相连:如果对象集合 D中存在一个对象0,使得对象P和q是从0 关于e和MinPts密度可达的,那么对象 P和q是关于e和MinPts密度相连的 (Density 一 Connected)。密度可达是直接密度可达的传递闭包,这种关系是非对称的。只有核心对 象之间是相互密度可达的。然而,密度相连性是一个对称的关系。基于密度的聚类算法通过检查数据库中每个数据对象的:e-邻域来寻找最终的

23、聚类。如果一个数据对象P的e-邻域包含多于MinPts个其他数据对象,则创建一个以P作为核心对象的新簇。然后,反复地寻找从这些核心对象直接 密度可达的对象。这个过程可能涉及一些密度可达簇的合并。当没有新的点可 以被添加到任何簇时,该过程结束。这样算法得到的簇是是基于密度可达性的 最大的密度相连对象的集合,其他不包含在任何簇中的对象被认为是“噪声”。这样的方法可以用来过滤“噪声”,去除孤立点数据,并且可以发现任 意形状的簇。对于基于密度的算法聚类过程而言,它的优点是具有相对较低的时间复杂 度(如果采用空间索引,DBSCAN勺计算复杂度是O(nlogn),否则,计算复杂度 是O(n2),这里n是数

24、据库中对象的数目),另外可以根据给定输入参数 e和 MinPts对数据对象进行较好的聚类,但是对于用户而言,参数的取值通常依靠 经验,如果用户对数据集不熟悉,又或者是数据集为一个高维数据集,这时用 户就很难确定参数e和MinPts ,而算法参数取得是否得当直接影响最终的聚类 效果。该算法对用户定义的参数十分敏感,因此在实际应用中聚类效果较差, 往往全局密度参数不能刻画其内在的聚类结构。基于密度的算法一般采用给定 特定函数,来减少用户人为给定的参数对最终聚类结果的影响。2) OPTICS算法OP TICS算法是通过对象排列识别聚类结构的密度聚类算法,它为自动和交 互的聚类分析计算一个簇次序。这个

25、次序代表了数据的基于密度的结构,这个 次序的选择根据最小的 e值密度可达的对象,以便高密度的聚类能被首先完 成,基于这个想法,每个对象需要存储两个值 )核心距离(core distanee)和可达距离(reach ability distanee)。i .核心距离:一个对象 P的核心距离是使得P成为核心对象的最小e。如 果P不是核心对象,P的核心距离没有定义;ii.可达距离:一个对象q关于另一个对象P的可达距离是P的核心距离和 p与q的欧几里得距离之间的较大值。如果 P不是一个核心对象。P和q之间的 可达距离没有定义。0P TICS算法创建了数据库中对象的一个次序,额外存储了每个对象的核心 距

26、离和一个适当的可达距离,基于产生的次序信息,0P TICS来抽取聚类。(4)基于网格的方法 基于网格的聚类方法采用多分辨率的网格数据结构,把对象空间量化为有 限数目的单元,形成一个网格结构,所有操作都在这个网格结构上进行。这种 方法的主要优点是处理速度快,处理时间独立于数据对象的数目,只与量化空 间中每一维的单元数目有关。代表性的算法是 STING算法和CLIQUE算法。1) ST I N G(Statistical Information Grid)是基于网格方法的一个非常典 型的例子。该算法基于网格的多分辨率聚类技术,它将要聚类的空间区域划分 为矩形单元。针对不同级别的分辨率,通常存在多个

27、级别的矩形单元,这些单 元形成了一个层次结构:高层的每个单元被划分为多个低一层的单元。关于每 个网格单元属性的统计信息 ( 例如平均值、最大值、最小值 ) 被预先计算和存 储,以便于进行查询处理。该算法的主要优点是它的网格结构有利于并行处理和增量更新而且效率非 常的高,主要不足是由于它采用了一个多分辨率的方法来进行聚类分析,它的 聚类的质量取决于网格结构最低层的粒度,如果粒度比较细,处理的代价会显 著的增加,但如果最低层的粒度太粗将会降低聚类分析的质量;而且STING在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系,所以其聚类 边界只能是水平的或竖直的,没有对角的边界。因此,尽管该技

28、术有快速的处 理速度,但可能降低簇的质量和精确性。2)CLIQUE(Clustering In Quest ,自动子空间聚类算法 )聚类算法综合了 基于密度和基于网格的聚类方法。它对于大型数据库中的高维数据的聚类非常 有效。CLIQUE的中心思想如下:i .给定一个多维数据点的大集合,数据点在数据空间中通常不是均衡分布 的。CLIQUE区分空间中稀疏的和“拥挤的”区域,以发现数据集合的全局分布 模式。i . 如果一个单元中的包含数据点超过了某个输入模型参数,则该单元是密 集的。在CLIQUE中,簇定义为相连的密集单元的最大集合。CLIQUE分两步进行多维聚类:首先,CLIQUE将数据空间中分布

29、不均匀的数 据对象,按照 n 维数据空间划分为互不相交的长方形单元,并识别其中的密集 单元,该工作对每一维进行;其次,CLIQUE为每个簇生成最小化的描述。对每 个簇,它确定覆盖相连的密集单元的最大区域,然后确定最小的覆盖。CLIQUE将基于密度和基于网格的算法相结合,它能够自动地发现最高维的 子空间,高密度聚类存在于这些子空间中,对元组的输入顺序不敏感,无需假 设任何规范的数据分布。它随输入数据的大小线性地扩展。当数据的维数增加 时具有良好的可伸缩性。但是。由于方法大大简化。聚类结果的精确性可能会 降低。(5)基于模型的方法基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟 合。

30、一个基于模型的算法可能通过构建反映数据点分布的密度函数来定位聚 类。基于模型的聚类方法试图优化给定的数据和某些数学模型之间的适应性, 这样的方法经常是基于这样的假设:数据是根据潜在的概率分布生成的。基于 模型的方法主要分两类:统计学方法和神经网络方法。大多概念聚类都采用了统计方法,也就是利用概率参数来帮助确定概念或 聚类。每个所获得的聚类通常都是通过概率描述来表示的。COBWE是一个常用并且简单的增量式概念聚类方法。它的输入对象是采用符号量来描述,采用分 类树的形式创建一个层次聚类。一个分类树中的一层形成一个划分。COBWE是基于属性概率分布相互独立的假设,属性取值多时较难存储和更 新聚类。C

31、OBWE另外一个版本是CLASSIT它可以对连续取值属性进行增量式 聚类。这两个方法都不适合对大数据库进行聚类。神经网络聚类方法是将每个聚类描述成一个例证,每个例证作为聚类的原 型。然后根据某种度量,将新的对象分配到最相似的聚类之中。主要的方法有: 竞争学习方法和自组织特征映射方法。(6)几种传统聚类算法比较2.1所示。基于上述的分析,下面对传统聚类方法中的一些常用聚类算法的性能从可 伸缩性、发现聚类的形状、对“噪声”的敏感性、对数据输入顺序的敏感性、 高维性和算法效率六个方面进行比较,结果如表表2.1 聚类算法比较性能算法、可伸缩性发现聚类的形状对“噪声”的敏感性对数据输入顺序的敏感性高维性

32、算法效率CLARANS好凸形或球形不敏感非常敏感一般较低CURE较差任意形状不敏感敏感好较咼BIRCH较差凸形或一般不太敏感好高球形DBSCAN较好任意形状不敏感敏感一般一般STING好任意形状不敏感不敏感好高COBWEB较好任意形状一般敏感好较低K-mea ns较好球形敏感不太敏感一般一般SOM较好任意形状敏感敏感好一般由表2.1的比较可以看出,现有传统聚类算法在某些方面达到数据挖掘对 聚类分析的要求,但是没有哪一种算法是绝对优越的。由于数据挖掘在不同领 域的应用对聚类算法提出了各自特殊的要求,我们可以根据具体的要求选择适 当的聚类算法。222 扩展聚类算法(1)模糊聚类算法如果数据对象分布

33、在明显分离的组中,则把对象明确分成不想交的簇是一种理想的方案。然而,在大部分情况下,数据集中的对象不能划分成明显分离 的簇。传统聚类把每个样本严格地划分到某一类,随着模糊集理论的提出,传 统聚类被推广为模糊聚类。在模糊聚类中,每个样本不再仅仅属于某一类,而 是以一定的隶属度属于某一类。通过模糊聚类分析,得到了样本属于各个类别 的不确定性程度,即建立起了样本对于类别的不确定性描述。基于目标函数的模糊聚类方法首先由Ruspini提出,但真正有效的算法模糊 C均值算法却是由Dunr给出的。Bezdek将其进一步扩展,建立起了模糊聚类理 论。(2)综合聚类算法现在有很多算法是将不同算法进行综合,以此来

34、获得不同算法的优点。DENCLUEDENsity-based CLUstEring )就是一个综合了划分方法、层次方法和密度方法的综合方法。该算法主要基于以下理论: 每个数据点的影响可以用一个数学函数形式化地模拟,它描述了一个数 据点在领域内的影响,被称为影响函数; 数据空间的整体密度可以被模型化为所有数据点的影响函数的总和; 聚类可以通过密度吸引点来得到,这里的密度吸引点是全局密度函数的 局部最大值。3)新的对象的聚类算法近年来越来越多的应用产生流数据。它不同于传统的存储在磁盘上的静态 数据,而是一类新的数据对象,它是连续的、有序的、快速变化的、海量数 据。相应地,流环境下的流聚类问题研究也

35、成为聚类分析中的一个热点。流数 据是数据点Xi,X2,.,Xn的一个有序序列,它只能被顺序访问,而且仅能被扫描一 次货有限的几次。数据流是快速变化的,因而对流数据聚类也要能随着时间而 不断地进行。流数据是海量且有序的,不可能保证存储整个数据集,只能分析 一定范围内的数据,因而要有效地利用有限的空间。随着人们对面板数据认知的加深,对面板数据的聚类也成为聚类分析中的 另一热点。面板数据的有序聚类是难点,如何保证在聚类的过程中,同时保留 面板数据的以下三个特征是当前研究的热点:某时期指标发展的绝对水平;特定个体的指标发展的动态水平,即指标随时间变化的增量水平或增 速;特殊个体某项指标发展的协调水平,

36、即指标的变异程度或波动程度。3 面板数据及其聚类方法3.1 面板数据概述3.1.1 概念及发展面板数据,即 Panel Data ,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据,也就是把截面数 据和时间序列数据融合在一起的一种数据。最早做面板数据收集和研究的是美 国,开始于十九世纪六十年代,两个著名的例子一是由米歇根大学的社会研究协会做的关于收入动态的面板研究;二是由俄亥俄州立大学人力资源研究中心 和人口普查局所做的劳动力市场经历的国家平行数据调查。欧洲这方面起步相 对比较晚,开始于十九世纪八十年代。我国这方面起步则更晚,面板数据的收 集还不是很

37、健全。近20多年来,面板数据模型在计量经济学理论和方法上都取得了重要发 展,新方法、新观点层出不穷。在经济分析中,面板数据模型起着只利用截面 数据和时间序列数据模型所不可替代的作用,具有很高的应用价值。3.1.2 面板数据的特点面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看则是一个时间序列。面板数据可以用三下标变量表示,例Xjt,i 1,2丄,N,j 1,2,L ,m,t 1,2,L ,T ,N表示面板数据中含有的个体数;m表示指标变量的总数;T表示时间序列的最大长度。相对只利用截面数据模型和只利用时间序列数据模型进行经济分析而言, 面板数据模型具有许多优点:第一,

38、减少多重共线性。面板数据通常提供给研究者大量的数据,包含更 多的变量,这样就增加了自由度,减少了解释变量之间的共线性。第二,相对于纯横截面和纯时间序列数据而言,面板数据可以从多种层面 分析经济问题。第三,面板数据能够更好的识别和测量一些效应,而这些效应是单纯的时间序列数据或横截面数据所不能简单觉察的。第四,控制个体效应。面板数据通常以微观单元来收集,如个人、公司和 家庭。在微观的水平上许多变量能被更为精确的测量,因此有测量误差所引起 的偏能够得到减轻。3.1.3 面板数据的分析处理方法从20世纪70年代末以来,面板数据回归模型的理论方法己日渐成熟,涌现了大量有关面板数据理论和经验分析文章,形成

39、了现代计量经济学中一个相对独立的分支。绝大多数有关面板数据的分析处理理论,一方面从从计量建模的角度着手,从单方程模型到联立方程模型,从变截距模型到变系数模型,从线 性模型到非线性模型等等,另一方面着重于模型参数估计方法的研究。目前, 用面板数据建立的模型通常有 3种,即混合模型、固定效应模型和随机效应模型,其中固定效应模型又可分为个体固定效应模型、时点固定效应模型和个体时点双固定模型三类。常用的面板数据模型估计方法有混合最小二乘估计、组 内最小二乘估计、组间最小二乘估计、广义最小二乘估计、协方差估计、一阶 差分估计和最小二乘虚拟变量估计,其中前两种适用于混合模型,组内、组间 和广义最小二乘估计

40、适用于堆积效应模型,后三种适用于固定效应模型。Bonzo D.C 和 Hermosilla A.Y 等统计学家开创性的将多元统计方法引入 到面板数据的分析中来,并运用概率连接函数和遗传算法改进了聚类分析的算 法,从而将聚类分析用于面板数据的分析。运用多元统计方法对面板数据进行 聚类分析是统计学的新兴研究领域。3.2 单指标面板数据的数据形式和聚类分析方法单指标面板数据的数据格式可以用一个二维表来表示单指标面板数据聚 类分析有两种处理方法:一种是转换方法,将单指标面板数据的时间维度转换 为截面数据的指标维度表示,两种数据的统计描述特征相似,在聚类分析中, 二者关于样品距离的算法、聚类过程都是相同

41、的,因此,单指标面板数据的聚 类分析可以借鉴截面数据的聚类分析,可以直接运行相关软件进行计算。另一 种是一维有序样品聚类方法,将单指标面板数据的空间维度转换为有序样品的 指标维度表示,但需要进行降维处理得到一维指标。目前有不少专业软件可以 完成一维样品有序聚类计算,比如 DPS 等。由于面板数据自身复杂的数据结构,对于面板数据聚类分析的研究早期多 停留在单指标面板数据上较多,例如: Michel 和 Jeroen(2005) 用逐步回归的方 法对缺省数据的单个指标面板数据进行了聚类分析研究;朱建平和陈民恳 (2007) 利用差异上确界、差异欧式距离、差异绝对值等方法研究了单个指标面板数据 的聚

42、类分析,构造了度量单个指标面板数据中横截面个体之间相似性的统计指 标,并对全国 31个省市城镇居民的收入和支出分别作了系统聚类分析。对单个 指标面板数据的聚类分析在理论研究上就是一个简化问题,其聚类算法和聚类 过程都类似于多指标横截面数据或者时间序列的聚类分析。因此,单指标面板 数据的聚类分析相对比较简单,数据也易于处理。但是,实际情况往往是复杂 的,单个指标包含的信息太少 , 不能充分反映现实情况的特征。因此,单指标面 板数据的聚类分析在实际应用中往往受到很大限制。3.3多指标面板数据的数据形式和聚类分析方法3.3.1多指标面板数据的数据形式在实际中,由于现象的复杂性,研究对象往往表现为多指

43、标面板数据。多 指标面板数据的结构要复杂一些,严格上应该用三维表来表示,在在平面上我 们可以将其转换为一个二级二维表的形式,如表3.1所示。研究总体共有N个, 每个样品的特征用P个指标表示(Xi, X2,,Xp),时间长度为T,则Xj (t)表示第 个样品第j个指标在t时间的数值。表3.1多指标面板数据的数据形式时间 样本1tIB*TJG為pX X 应旳Kp 呛嘉扯12H + rit NXn心mfr+hrrrI-+hJtii(t)" Aij(i) - JCip(i) *' X3p(t)1*a1+a1Xj乐JGpXii 住)XMF)鬲,(r)広卜 * - Xfvp(l)心fl

44、(叮JG町()XjvpfT)3.3.2常见的多指标面板数据聚类分析方法(1)主成分分析方法主成分分析法是利用主成分分析构造一个综合指标,再对综合指标进行聚 类分析。例如,肖泽磊等(2009)对多指标面板数据在各时刻t的横截面数据进行主成分分析,构造出了多指标面板数据在时刻t的综合指标Fn,t:吒严G;比+6%严N(2-1)J=l然后将综合指标Fn,t间的距离定义为面板数据中横截面个体间的距离或者相 性指标,肖泽磊等(2009)定义了如下3个度量横截面个体相似性的指标:、(3-2)f-l欧尸= (吃巧J(3-3)V t=i矶环巧)=maxi© “段ia(sr上述式(2-2)、式(2-3

45、)和式(2-4)分别将综合指标Fi,t和Fj,t的绝对距离、欧 氏距离以及极差距离作为度量横截面个体 i和j相似性的指标。将Xn,t的样本观 测值xn,t带入Fn,t中,可以直接得到相似性指标对应的样本值 ,由该样本值可以直 接度量横截面个体间的相似性。虽然上述综合指标Fn,t通常能够包含P维随机变量Xn,t的大部分信息,例如肖 泽磊等(2009)在利用主成分分析构造综合指标时,考虑综合指标的累积贡献率 都在85%上。但是,上述3个相似性指标只度量了在综合指标上横截面个体i和j间的相似性,未必能够度量在P维随机变量Xn,t上横截面个体i和j是否是相似的。除此之外,主成分分析法还在数据方面存在着

46、一定的不足。第一点是指标 的量纲问题,不同的指标具有不同的经济意义或者经济解释,往往可能具有不 同量纲或者单位。虽然可以通过总体样本的均值斤和总体样本的方差矩阵 瓦进行标准化处理将各指标的量纲剔除,但是综合指标往往还是无法给出其经济意 义或者经济解释的。第二就是指标的数量级问题,不同的指标往往数量级也有 可能是不同的。在主成分分析法中,如果指标数量级差异较大,综合指标间的 距离往往就会只由数量级较大的指标决定,而数量级较小的指标往往可能对综 合指标间的距离影响很小。这样就会直接对数量级较小的指标造成较大的信息 损失,可能会导致对横截面个体间相似性度量不够准确。第三是面板数据出现 异常值的问题。

47、当面板数据中的某个横截面个体样本观测在某些期出现异常值 时,主成分分析法往往会对该横截面个体与其他横截面个体间相似性的度量上 出现问题。例如,横截面个体i在t*期样本出现异常值,致使横截面个体i与j间的距离在t*期很大,从而造成了相似性指标的样本值也较大,认为横截面个 体i与j的相似性不大;但是在其他各期上横截面个体i与j间的距离都是较小的,只是因为在t*期出现了异常值,才使得横截面个体i与j间的判别距离很大。因此,在面板数据中出现了异常值时,主成分分析法往往可能会对横截面 个体间相似性在整个观测期上的度量出现失误。(2) 指标距离求和法指标距离求和法是在指定时间上,将横截面个体间每个指标间的

48、距离看作 是等价的,将所有指标间距离求和作为度量横截面个体间相似性的指标。例 如,郑兵云(2008)定义了横截面i和j的欧式距离:T P%(3-5)d(i,j)(Xist Xs,t)2,i,j 1,2,L ,Nt 1 s 1除此之外,李因果和何晓群(2010)在上述的欧式距离中,还考虑加入横截 面个体在时间变化上的距离和“变异系数”距离。其形式如下:曲-X”(乙:-Z;)问八(3-6)a=l .1=1r=l. i=J=l j=l其中_*_*1 p p_* 2YS = DXiSt/DXiSt.1,DXiSt=XiSt- XiSt.1,ZiSt = Xi,t/Si,t,Xi,t= ? Xjs i,

49、t = ? (X - Xi,t),上 P S=1P S=1述第二个求和项就是横截面个体在时间变化上的距离,第三个求和项就是“变 异系数”距离。将横截面个体的样本观测值Xi,t和Xj,t带入式(2-5)和式(2-6)中,可以得到相似性指标d(i, j)对应的样本值,由相似性指标对应的样本值可以直接度量 横截面个体间的相似性。在上述式(2-5)和式(2-6)中,构造欧式距离时,虽然 该方法看似对各指标都进行了比较,但是却将每个指标间的距离看作是等价 的,将面板数据中的指标看作是“可退化的”。与主成分分析法的区别是,主 成分分析法是将面板数据中的P个指标变为一个综合指标,指标距离求和法是直接将面板数

50、据中的指标退化,将P个指标的T次观测直接退化为对一个指标的p*T次观测。郑兵云(2008)也认为指标距离求和法存在着直接忽略了不同指 标的概率分布特征的缺陷。对于面板数据来说,不同指标的数字特征和概率分 布特征往往是不同的。对于面板数据中某个给定的横截面个体,某一个指标的 T次观测往往反映了该指标的概率分布特征,指标距离求和法是无法反映出任何 指标的概率分布特征。与主成分分析法一样,指标距离求和法也在数据方面存在着三点不足。第 一是指标的量纲问题,虽然在指标距离求和法中没有构造综合指标,但是却直 接对指标进行退化求距离,而指标退化所求的距离往往也是无法给出其经济解 释的。第二是指标的数量级问题

51、,指标退化的求和距离往往也是由数量级较大 指标决定,而数量级较小的指标往往可能对指标距离求和影响很小。第三是面 板数据出现异常值的问题。和主成分分析法一样,当面板数据中的某个横截面个体样本观测在某期出现异常值时,在该期横截面个体间的距离往往可能会过 大,影响了对整个观测期相似性的度量。(3) 概率连接函数Bon zo(1998)首先提出了面板数据的“聚类概率性结构”这个概念,认为不 同指标的概率分布情况是不同的,在面板数据中性质相类似的横截面个体应该 在各个指标的概率分布特征以及在多个指标的联合概率分布特征上是类似的。主成分分析法和指标距离求和法都无法反映面板数据中各指标的概率分布特 征,这两

52、种方法自然也就无法反映面板数据中多个指标的联合概率分布特征, 包括了不同指标间的相关性等。因此,这两种方法都存在着一个缺陷:破坏由 Bonzo(1998)提出的面板数据“聚类概率性结构”或者“概率性结构”。Bonzo(1998)在研究面板数据的聚类分析时,采用了概率连接函数 (P robability link fun ctio n)来代替一般的距离函数作为横截面个体间的相似性指标。假设整个面板的N个横截面个体可以被分为 m个类。记C为整个面板 数据,G, Q,,G分别表示面板数据的m个分类。记:CYgUy为了研究多指标面板数据中横截面个体在其指标概率分布特征上的相似性,Bonzo和Hermo

53、sma(2002假设Xj是Ck类中横截面个体j的p维随机变量, 且对于"j ? Ck在t时刻都有相同的期望向量 mkt及相同的方差矩阵? kt。' k,t若 j1,j2?Ck,Bonzo (p robability link fun cti on)和 Hermosilla(2002) 在研究概率连接函数 时,首先定义了如下的两个马氏距离:0k(Xj1,t, X j2,t)0k(Xj1t,Xj2,t)1(Xj1,t k,t) k,t(Xj2,t k,t) (3-7)1(Xj1,tk,t)kt(Xj2,tk,t) (3-8)上述马氏距离D0k(Xj1t,Xj2,t)度量了 t时刻

54、横截面个体j1与j2之间样本观测值的相似性。Bonzo和Hermosilla (2002)不再简单地对指标进行降维或退化 处理,而是直接从横截面个体 P维随机变量Xj的联合概率分布出发,定义了由 分布概率值构成的相似性指标。Bonzo和Hermosilla (2002) 定义了如下的概率连接函数:Tk(j1,j2)atP 0k(X j1,t,Xj2,t)0k (Xj1,t , Xj2,t )(3-9)t 1其中常数序列沖=12-,丁是在时间t上的权重系数,?at=l,在通常t-1情况下,Bonzo和Hermosilla(2002) 认为更加关心近期得到的观察数据,因此 通常都把at=K2- j

55、定义为随时间t非递减的常数序列。dk(j1,j2)是横截面个体j1与 j2在一个概率尺度上的相似性度量,实际上是 马氏距离D0k(Xj1t,Xj2,t)在时间上的加权概率值,因此也把概率连接函数称作为 “概率相似系数”。可以看出,概率连接函数dk(j1,j2)对横截面个体j1与j2在各时间t上都进行了相似性的度量,然后把各期的相似性度量综合起来。因 此,概率连接函数作为横截面个体间相似性的度量,具有以下的四个优点。第一,上述概率连接函数dk(j1,j2)首先在考虑了 Xj1,t和Xj2,t的概率分布特 征情况下,再来研究马氏距离 D0k(Xj1,t,Xj2,t)的概率分布。这里并没有直接釆用 马氏距离D0k(Xj1,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论