聚类分析论文_第1页
聚类分析论文_第2页
聚类分析论文_第3页
聚类分析论文_第4页
聚类分析论文_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析及其在新疆经济研究中的应用孙鹿梅(伊犁师范学院数学与统计学院新疆伊宁835000)摘要:本文论述聚类分析的基础理论和研究方法,包括系统聚类法和K-均值法,并以新疆十四个地州市2009的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们的综合发展水平进行类型划分及差异性程度分析.关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分一、引言聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面.在社会经济研究中,经常需要对所研究的区域进行经济区划分,以便进行分类指导.如何进行经济区划分呢?利用世界著名统计软件SPSS(StatisticalProgramforSocialScience)的聚类分析功能,效果比较理想.聚类分析包含的内容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和K-均值法.由于西部发开发战略的实施和援疆工作的展开,新疆经济的发展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡发展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区的进行经济区划分,以对新疆各地区实施不同的经济政策做依据.二、基础知识2.1聚类分析的基本思想由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大.2.2聚类分析的种类聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行分类的分析方法.聚类分析不仅可以对样品进行分类,也可以用来对变量进行分类.对样品的分类常称为2型聚类分析,对变量的分类常称为R型聚类分析.2.3聚类分析的原理聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类.常见的聚类分析方法有系统聚类法、K-均值法和模糊聚类法等.2.3.1聚类要素的数据处理假设有m个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值范围,为了使不同量纲,不同取值范围的数据能够放在一起比较,通常需要对数据进行变换处理.在聚类分析中,常用的聚类要素的数据处理方法有如下几种.总和标准化x'=——可—(i=1,2,…,m,j=1,2,…n)iJ*xji=1且*x'=1(j=1,2,…n).i=1标准差标准化x'=J(i=1,2,…,m,j=1,2,…,n),ijsj— 1瑚 '1寸x=一:x' s='一七(x'-x')2jmijj\mijji=1 , i=1 .且F=—并x'=0s=」U(x'-x)2=1jm司 j,m目ji=1 , i=1 •变换后的数据,每个变量的样本均值为0,极差为1,且|x;|v1,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量.极大值标准化x:= t^i=I?••',m,j=1,2,…,n)i可经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1.极差的标准化•{}xminx^=mx,}min{}*=1,2,…m,j=1,2,,n)iijiij经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间.2.3.2样品间的距离和相似系数(1)距离的计算描述样品间的亲疏程度最常用的是距离,设观测数据xji=1,2,・..,n;j=1,・..,m)列成下列X矩阵的形式.设有n个样品,每个样品测得p个变量,原始资料阵为X=x11x21x12x22x1p•x2pxx•xLn1n2np其中x..为i个样品的第j个变量的观测数据.ij用勺.表示第i个样品的第j个样品之间的距离,其值越小表示两个样品接近程度越大.距离的一般要求:《>0,对一切i,j;当《=00X(.)=X(.);d,=d,对一切i,j;d<d+d,对一切i,j,k(三角不等式).ijikkj常用的距离有以下几种:1)闵氏距离d(q)=(X|X.-X|q)1qk=1其中常用的距离有绝对距离和欧氏距离.绝对距离d⑴=(U|X.-X|)k=1欧氏距离d⑵=(X|x.-x|2)i.・2k=1 .欧氏距离是常用的距离,但它也有不足之处,一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.2)马氏距离设X.与Xj是来自均值向量为u,协方差为£(>0)的总体G中的p维样品,则两个样品间的马氏距离为d2(M)=(X-X)'£-1(X-X). .j .j.马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏距离还考虑了观测变量之间的变异性,不再受各指标变量的影响,将原始数据作线性变换后,马氏距离不变.选择不同的距离,聚类结果会有所差异.在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合适的距离进行聚类.(2)相似系数在对多元数据进行分析时,相对于数据的大小,我们更好地对变量的变化趋势或方向感兴趣.因此,变量间的相似性,我们可以从它们的方向趋同性或“相关性”进行考察,我们用相似系数用来测量变量之间的距离,常用的相似系数有以下两种:1) 夹角余角变量X,与X是来自均值向量为H,协方差为Z(x>0)的总体G在的P维空间的两个向量,则这两个向量间的夹角余弦可表示为ZXX乙XjkXjkcos0=,kTj;'(^^X2)(8xjk)k=1 k=1 .2) 相关系数相关系数经常用来试题变量间的相似性.变量X,与X,的相关系数定义为Z(x^-X)(X-X-)r=—k=1 —j'v一——[乙(X,k-X,)2(Xjk-Xj)2■k=1在实际问题中,对样品分类常用距离,对变量分类常用相似系数,即2型聚类分析常用距离,R型聚类分析常用相似系数.2.4聚类分析方法系统聚类法开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward法等八种不同的方法.K-均值将给定的样本划分为K类,K预先指定,基于使聚类性能指标最小化,所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和,并使其最小化.比较两种算法,系统聚类是事先并不知道分为几类,根据算法可以直接数据实际情况得出来,K-均值聚类法虽然比较方便迅速,但必须事先定好分类数.两种算法各有优缺点,所以用哪种算法,还要考虑到实际情况.各算法的具体过程在下列实例中有介绍,此处就不做介绍了.三、实例例表12009年给出能反映新疆十四个地州市综合经济的十项指标分别为:X1地区生产总值(亿元),X2人均地区生产总值(元),X3第二产业比重(%),X4第三产业比重(%),X5人口(万人),X6固定资产投资(亿元),X7规模以上工业总产值(亿元),X8地方财政一般预算收入(万元),X9地方财政一般财政支出(万元),X10在岗职工平均货币支出(元).利用数据对新疆十四个地州市进行综合发展水平进行类型划分及差异性程度分析.表1地区X1X2X3X4X5X6X7X8X9X10乌鲁木齐市1087.53824942.955.6241598.031374820086100480737161克拉玛依市480.298700086.712.628186.61881.133276342715336248吐鲁番地区154.582574162.524.44480.47141.712241025915932911哈密地区130.322305539.445.15095.657310446429356230427昌吉州444.712852039.430.8116205.08290.655629793824626924伊犁直属县市333.661295134.441.4149193.29165.623902297602122727塔城地区284.822078434.129.675124.37116.813687548947019615阿勒泰地区117.391990340.535.93677.935211795852742520587博州100.962113018.451.53847.27234857024902220421巴州525.943946763.920.1100252.8543726599666573527715阿克苏地区320.451309828.437.4146234.03176.129606486429124327克州32.46618319.657.63127.46.12261933855726946喀什地区284.24708517.242.2140219.3748.4147358142791925713和田地区88.58458316.347.86476.110.74499075216726445以2010年新疆统计局出版的《新疆统计年鉴》(2009年度的数据)为数据来源,运用上述10项指标(表1)借助于统计分析软件包SPSS17.0进行聚类分析计算.3.1系统聚类算法对数据进行聚类分析方法选取上,分别用组间联接、最短距离法和和离差平方和(ward)法得出分析结果的聚类图.组间联接法得到的结果和ward方法一致,但,就类和类的之间区别程度而言,组间法的效果没有ward法的好.最短距离法的结果跟ward的不一致,且,就类和类的之间区别程度而言,其效果远差于ward法和质心法.我们也尝试了使用类平均法、最长距离法及中间距离法.他们的聚类图结果类似于ward法,这里为了简洁起见就没有呈现.计算过程如下:用标准差标准化方法对10项指标的原始数据进行处理.采用欧氏距离测度个15个地州市之间的样本间距离.选用组ward法计算类间的距离,并对样本进行归类.经过上述聚类方法,由分析-描述统计-描述,进行数据的标准化,得到下列标准化后的数据.表2地区X1X2X3X4X5X6X7X8X9X10乌鲁木齐市2.940.630.161.342.543.072.922.761.051.9克拉玛依市0.683.032.36-1.98-10.151.620.5-0.541.73吐鲁番地区-0.540.011.15-1.07-0.73-0.61-0.32-0.47-11.11哈密地区-0.63-0.12-0.010.53-0.63-0.5-0.5-0.55-0.910.64昌吉州0.540.15-0.01-0.580.460.280.071.540.86-0.01伊犁直属县市0.13-0.62-0.260.241.010.19-0.260.070.97-0.79塔城地区-0.06-0.23-0.28-0.67-0.21-0.3-0.39-0.4-0.37-1.37阿勒泰地区-0.68-0.270.04-0.18-0.86-0.63-0.56-0.49-0.26-1.19博州-0.74-0.21-1.071.02-0.83-0.84-0.63-0.81-1.03-1.22巴州0.850.691.22-1.40.190.620.460.20.120.14阿克苏地区0.08-0.61-0.56-0.070.960.48-0.230.330.66-0.49克州-1-0.95-1.011.49-0.95-0.98-0.68-0.93-0.78-0.01喀什地区-0.06-0.91-1.130.30.860.38-0.57-0.352.21-0.24和田地区-0.79-1.03-1.170.73-0.41-0.64-0.67-0.830.35-0.1表2表示为标准化的数据,由于我我所选的是反映新疆经济综合指标,这些变量在数量级和计量单位上的差别,要让这些不同单位的变量具有可比性.这是就必须采用某种方法对各变量数值进行标准化处理,或者叫无量纲处理,解决各数值不具综合性的问题.SPSS提供了很方便的数据标准化方法,这里我用的是Z标准化方法.即每一变量与其平均值之差除以该变量的标准差.无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响.分析表中的数据,数据大于0的表示高于平均值,小于0的表示低于平均值.我们看从X1地区生产总值,高于平均地区有乌鲁木齐市、克拉玛依市、昌吉州、伊犁直属县市、巴州、阿克苏地区,低于平均值的地区有吐鲁番地区、哈密地区、塔城地区、阿勒泰地区、博州、克州、喀什地区、和田地区依次再看X2地区人均生产总值,高于平均值的地区乌鲁木齐市、克拉玛依市、哈密地区、昌吉州、巴州低于平均值的地区吐鲁番地区、伊犁直属县市、塔城地区、阿勒泰地区、博州、阿克苏地区、克州、喀什地区、和田地区.依次再看其他变量指标,哪些地区高于平均值,哪些地区低于平均值.经过上述聚类方法,由分析-分类-系统聚类,得出聚类表聚类表

阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集21611.022006278.0720083912.1730044914.331308534.50400106613.6931097510.9000098791.36324109562.014761110372.697581111354.4781091312126.6010013131310.40412110通过表3,我们可以看出聚类的过程,第一步看出6,11距离最近首先分为一类.也就是伊犁直属县市和阿克苏地区首先分为一类,下一阶表示下次要用到这一类是在第六步时,把6,11和13合并为一类,即把伊犁,阿克苏地区和喀什地区分为一类,第二步看出7,8分为一类,也就是塔城地区和阿勒泰地区分为一类,下一阶再把塔城地区、阿勒泰地区和博州分为一类.以此类推直至把所有的合并为一类.由于一共有十四个地区,所以至少要用十三步才能把它们都归于一类.也可以通过此表看出系统聚类的基本思想:开始将样品或变量各视为一类,根据类与类之间的距离或相似程度将最近的类加以合并,再计算新类与其他类之间的相似程度,并选择最相似的加以合并,这样每合并一次就减少一类,不断继续这一过程,直至所有样品(或变量)合并为一类.图1

案例霉数案例霉数图1为系统聚类分析得出的冰状图,从此图我们可以直观的看出,左边框的数字代表的是分类数,从下到上我们可以看出,先是将各地区各为一类到14类再到12类再到10类,依次下去,一直到所有地区合为一类.上边框上代表的是分类的各地区.根据新疆实际情况我们把这十五个地州市分为五类.第一类为强经济经济区{乌鲁木齐市};第二类为较强经济区{克拉玛依市};第三类为一般经济区{昌吉州、巴州、伊犁直属县市、喀什地区、阿克苏地区};第四类为较弱经济地区{哈密地区、吐鲁番地区};第五类为弱经济地区{塔城地区、阿勒泰地区、博州、和田地区、克州}.3.2K-均值算法对数据进行聚类分析K-均值是一种基于划分的聚类算法,因为它有理论上可靠、算法简单、速度快等优点而被广泛使用.K-均值算法是一个迭代计算“质心”并根据样本和质心的距离把各样本指派到各个簇的过程.主要具体步骤如下:

确定初始质心生成K个质心,K由用户指定.指派样本计算每一个样本到各个质心的距离,把样本指派给距离最小的簇.更新质心根据每个簇当前所拥有的所有样本,重新计算每个簇的质心.检查是否满足停止条件.表4最终聚类中心间的距离聚类1234517.5647.4638.5776.52127.5644.2756.5846.24037.4634.2752.6522.98748.5776.5842.6522.85956.5216.2402.9872.859通过表4,我们可以看出最终聚类中心间的的距离,第一类与第二类之间的距离为7.564,第一类和第三类之间的距离为7.463,依次可以看出各类之间的距离.表5聚类成员案例号地区聚类距离1乌鲁木齐市1.0002克拉玛依市2.0003吐鲁番地区3.0004哈密地区32.0525昌吉州53.0856伊犁直属县市51.7477塔城地区42.3078阿勒泰地区41.8539博州4.00010巴州32.84411阿克苏地区51.90612克州41.55813喀什地区5.00014和田地区42.038根据表5可以看出第一类{乌鲁木齐};第二类{克拉玛依市};第三类{巴州、哈密地区、吐鲁番地区};第四类{和田地区、克州、博州、塔城地区、阿勒泰地区};第五类{伊犁直属县市、阿克苏地区、昌吉州}.对所得结果进行差异性分析:乌鲁木齐作为新疆的政治、经济的中心,在经济上的发展上都高于其他各地州市,克拉玛依市由于其石油资源优势和大型央企的进入,使其也获得了较好的发展机遇,具有较强的经济竞争优势.由于政府政策,如进一步加强喀什霍尔果斯两大经济开发区、南疆三地州片区扶贫规划以及其它重点区域战略发展规划的编制和落实执行,积极贯彻落实已出台的区域规划和政策文件,充分发挥重点地区对区域经济的辐射带动作用,培育新的经济增长极.加快制定天山北坡经济带和南坡产业带的发展战略,积极完善扶持南疆三地州、高寒沿边地区加快发展的政策措施,强化的自我发展能力.所以伊犁州,喀什地区,以及阿克苏地区的经济也发展迅速,昌吉州由于受乌鲁木齐经济的带动经济.它们几个地区经济水平都在迅速发展.博州由于人口少,自然资源也少,南疆的克州和和田地区则由于地理原因和经济社会相对落后的发展状态,呈现出较低水平.所以SPSS分类结果较为合理.参考文献高惠璇.应用多元统计分析[M].北京:大学出版社,2005.郝黎仁.SPSS实用统计分析[M].北京:中国水利水电出版社,2002.李双杰,顾六宝.用聚类分析法评估区域经济[J].中国农村观察,2001(3),52-56.李世伟,丁胜.聚类分析在经济学当中的一个应用[J].商场现代化,2009(3),23-25.卢文岱.SPSSforwi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论