基于山东省17地市面板数据的聚类分析_第1页
基于山东省17地市面板数据的聚类分析_第2页
基于山东省17地市面板数据的聚类分析_第3页
基于山东省17地市面板数据的聚类分析_第4页
基于山东省17地市面板数据的聚类分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

青岛农业大学毕 业 论 文(设计)题 目: 基于山东省17地市面板数据的聚类分析 姓 名: 学 院: 理学与信息科学学院 专 业: 信息与计算科学 班 级: 学 号: 指导教师: 2014年 6 月 1 日目录摘要 .1Abstract.21 引言 .12 聚类分析的基本原理 .13 面板数据 .23.1 单指标面板数据的统计描述 .23.2 单指标面板数据的聚类分析 .43.3 多指标面板数据的统计描述.53.4 多指标面板数据的聚类分析.64 实证分析 .74.1 选题背景.74.2 实例分析.74.2.1 借助因子分析构建综合评价矩阵 .84.2.2 聚类分析 .114.3 发展建议 .145 总结 .15致谢 .17参考文献 .18附录 .191基于山东省 17 地市面板数据的聚类分析摘要:本论文对面板数据的聚类分析进行了基础研究。首先,介绍了聚类分析方法的基本思想以及面板数据的基本概念和基本分类:单指标面板数据和多指标面板数据。介绍了单指标和多指标面板数据的统计描述方法,讨论了它们的聚类分析。然后,对山东省 17 地市经济发展的多指标面板数据进行聚类分析,对描述经济发展的 7 个指标进行因子分析提取公因子并计算综合得分指标,构建综合评价矩阵,将三维多指标面板数据转化为截面数据,采用平方欧式距离作为评价指标进行系统聚类,取得了良好的效果。最后,对山东省区域协调发展提出一些建议。关键词:面板数据;因子分析;聚类分析;区域发展2The Cluster Analysis based on the data of 17 cites in Shandong ProvinceStudent majoring in Information and Computing Science Kong JianTutor Yin XiaocuiAbstract: This paper has done some basic researches about the cluster analysis of Panel Data.First of all, it introduced the basic idea of cluster analysis method and the basic concept and classifies of Panel Data, it includes Single index Data and multi-index Panel Data. Secondly, it introduced the statistical description method of Single index Data and multi-index Panel Data and discussed their cluster analysis. Then it maked a cluster analysis of multi-index panel data about economic development of 17 cities in Shandong province. And analyzed 7 indicators of describe economic development by factor analysis to extract the common factor, calculated the comprehensive score index, build comprehensive evaluation matrix, turned the 3D multi-index panel data into section data, clustered the system use square Euclidean distance as the evaluation index and has achieved good results. Finally, it has put forward some suggestions of regional harmonious development of Shandong province.Key words: Panel Data; Factor analysis; Cluster analysis; Regional development11 引言聚类分析已经被广泛地应用在众多领域中,包括数据分析、图像处理、模式识别、市场研究、管理评价等。面板数据由于同时包含截面数据和时间序列,其特征是同时含有具有空间维度和时间维度,因此能够较好的表示样本发展状态及其动态发展趋势。利用面板数据的优良特性,在理论研究和应用研究上近年来取得了广泛和深入的发展,相关研究也表明利用面板数据模型,可以取得良好效果。 Bonzo 和 Hermosilla1提出了用“概率连接函数”来代替一般的平面距离作为横截面个体间相似性指标,提出了新的聚类算法。Zhao 和 Hang2研究了在整个面板数据中横截面个体互不相关情况下,概率连接函数的定义及其性质。提出了在该情况下基于概率连接函数的多指标面板数据重心系统聚类法。朱建平和陈民恳 3利用差异上确界、差异欧式距离、差异绝对值等方法研究了单个指标面板数据的聚类分析。肖泽磊等 4用主成分分析的方法对多指标变量面板数据进行降维处理,构造出一个综合指标,研究了多维面板数据的聚类分析。郑兵云 5分析了面板数据的数据格式和数字特征,构造了多指标面板数据的距离函数,在时间维度上取平均值将多指标退化为截面数据。李因果和何晓群 6在考虑面板数据的动态数字特征情况下,也采用所有指标的距离求和作为横截面个体间聚类相似性指标,对多指标变量面板数据做了研究。任娟和陈忻 7针对多指标面板数据的样品分类问题,从特征提取角度提出一个多指标面板数据的聚类分析方法。本文尝试对面板数据做一些简单介绍,对其聚类分析作一些基础性研究,并以山东省经济均衡发展为例通过因子分析构造综合评价矩阵对多指标面板数据进行实证分析。2 聚类分析的基本原理聚类分析是将随机现象归类的统计学方法,也称群分析、点群分析,它是研究分类的一种多元统计方法。其基本思想是把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大2的分类单位,直到把所有的样品(或指标)聚合完毕。由此得知,聚类分析的任务有两个,第一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。按照分类对象的不同又分为 R 型聚类(R-type cluster)和 Q 型聚类(Q-type cluster)两大类,R 型聚类是对变量 (指标)进行分类, Q 型聚类是对样品进行分类。最常用的聚类方法是系统聚类法和 K-均值聚类法。此外,还有模糊聚类法、有序样品聚类法、分解法和加入法等。样品之间的聚类,常用距离来测度样品之间的亲疏程度。将每一个样品看作 P 维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的点归为一类,距离较远的点应属于不同的类。常用的距离有绝对值距离、欧式距离、切比雪夫距离、马氏距离、兰氏距离等。本文选用最常用的聚类方法-系统聚类法,并依据欧式距离对样品进行聚类。系统聚类法,又称层次聚类法 ,在实际应中使用最多,是将类由多变少的一种方法。主要思想:开始将 N 个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。绘制出谱系聚类树状图,结合实际问题确定分类的个数及各类的成员。3 面板数据面板数据,即 Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。其有截面和时间序列两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把Panel Data 译作“面板数据”。这类数据能够同时反映研究对象在时间和截面单元两个方向上的变化规律和不同时间不同单元的特性,可以更综合全面和动态的利用样本信息。根据指标个数可分为单指标面板数据和多指标面板数据,作为一种复杂的数据结构形式,如果要对其进行深入的理论研究,尤其是要建立计量经济数学模型时,如果想从给定原始的面板数据中得到有价值的信息,就需321var(t)(t)t,0NXiiXtT要对面板数据有一个预处理操作。所以,引进面板数据的统计描述方法是很有必要的,这样除了可以给面板数据的预处理提供可行的思路之外,更重要的是可以为面板数据的深入分析奠定深厚的理论基础。3.1 单指标面板数据的统计描述单指标面板数据的数据格式可以用一个二维表来表示。设总体共有 N 个样本,每个样本的特征用一个指标 X 来表示,时间长度为 T,则单指标面板数据(t)iX(i=1,2.N,t=1,2.T)表示第 个样本在 t 时间的指标值,如表 1。i表 1 单指标面板数据时间样本 1 . t . T1 X1(1) . X1(t) . X1(T)i Xi(1) . Xi(t) . Xi(T)N XN(1) . XN(t) . XN(T)我们一般称tttii0),(1)(为 的均值函数 , 表示一种动态平均水平。称 ti为 的方差函数,其平方根为 的标准差函数。(t)i ti对于不同的时间点 ,称120tT1211221cov(t,)(t)(t)(t)(t)NXi iiXX为 的协方差函数。称(t)i41212 12cov(t,)(t,),0arrXXcor tT为 的联合相关函数。设有一对面板数据 ,称(t)i (t),i,.N0tiiYT,12,12 12cov(t)(t),0arrXYXYcor tT为 的交叉相关函数。(t),ii有了面板数据的统计描述后,能够利用所获得的数据信息,依据要解决的问题构建面板数据的计量经济模型、面板数据的聚类分析等。3.2 单指标面板数据的聚类分析 聚类分析需要解决两个最根本的核心问题: 一是样本之间的相似程度用何种统计量来表示;二是类与类之间的相似水平采用何种聚类方法或者说采用何种准则来确定。对于单指标面板数据 ,(i=1,2.N,t=1,2.T),考虑 N(t)iX个面板数据之间的近似性,用面板之间的距离表示,其表现形式是一个 NN 的对称阵 ,即 1231210.0nnXX 其中 是第 i 个面板数据与第 j 个面板数据之间的相似程度的量化表示 ,xij当第 i 个与第 j 个面板数据相似或“接近”,其值越接近于 0。对于连续时间的面板数据 数据之间的相似指标X(),12,Nit , 0,tT可以采用下列指标来描述:(1)差异值的上确界: (1)sup(),ijijxtt(2)一致性差异: (2)0Tijijd针对间断型的面板数据 ,面板数据之,1,Nikxt 12m.ttT间的相似指标可用:5(3)差异值的最大值: (3)1max()ijikjkktt(4)差异值的绝对和: (4)1ijikjktt(5)差异值的欧氏距离: 2(5)1()mijikjkxtt对所研究的问题需要构造出数据之间的相似指标,根据连续和间断的不同情形,从不同的角度考虑,构造描述面板数据之间相似程度的指标。3.3 多指标面板数据的统计描述多指标面板数据的结构较单指标数据要复杂一些,不同于单指标数据可以由一个简单的二维表来表示,严格上应该用一个三维表来表示,在平面上我们可以将其转换为一个二级二维表的形式,设研究总体共有 N 个样本,每个样本的特征用 P 个指标表示 ,时间长度为 T,则 表示第 个样品12(,)jXXp ()ijXti第 个指标在 t 时间的数值,如表 2。j表 2 多指标面板数据1 t T 时间样本 tpX 1tpX 1tpX 12iN11()()j 22jp 1()()iijipX 1()()Njp 1()()jt 212jptt 1()()iijipXttt 1()()NjNptt 1()()j 212.jpT1()()iijipX 1()()NjNpT 类似于单指标数据,下面给出几个多指标面板数据在聚类分析中需要的统计 量,其中 i1,N;j1,p;t1,T。第 j 个指标在 t 时间的均值为:61x()()Nj ijitxt第 j 个指标的均值为:1x()()TNj ijtitxt第 j 个指标在 t 时间的方差为:21varx()()x()Njj ijitt第 j 个指标的方差为:2i1varx()xNjj ijttT规定了多指标面板数据的格式,定义了几个基本统计量之后,针对不同的实际问题,我们就可以采用计量建模分析和多元统计分析进行对多指标面板数据的研究。3.4 多指标面板数据的聚类分析由于截面数据的数据格式也是用一个二维表来表示的,设总体共有 N 个样品,每个样品的特征用 P 个指标来表示 ,则 表示第 个样品第 个指标的数值。ijXij经比较易发现,将单指标面板数据的时间维度转换为截面数据的指标维度表示时,两种数据的统计描述特征相似,其平均值、方差和协方差等统计量的函数表现形式都是相同的,在聚类分析中,二者关于样品距离的算法、聚类过程都是相同的,因此,单指标面板数据的聚类分析可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论