基于SPSS的聚类分析在行业统计数据中的应用_第1页
基于SPSS的聚类分析在行业统计数据中的应用_第2页
基于SPSS的聚类分析在行业统计数据中的应用_第3页
基于SPSS的聚类分析在行业统计数据中的应用_第4页
基于SPSS的聚类分析在行业统计数据中的应用_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于SPSS的聚类分析在行业统计数据中的应用摘要基于SPSS的聚类分析在行业统计数据中的应用改革开放以来,随着中国的经济高速发展,各行膈应人都已经有了飞跃进步。科技在现在的经济发展中起着越来越重要的作用。目前,人民已经在总体上达到了小康水平,我国也已经成为了世界上最有潜力的大国。中国的经济离不开改革开放,离不开科技的发展,离不开各行各业努力工作的人民的辛勤劳动。从十九世纪五十年代以来,中国已经陆续的完成了是一个“五年计划”,在这五十多年里,中国所取得的成就是全世界有目共睹的,中国的经济得到了非常快的增长,为国民经济的发展打下了非常坚实的基础。本文的研究对象是“中经网数据统计库”中的行业统计数据

2、,数据包括含有年份的和地区的统计数据。本文建立的主要模型是主成分-聚类模型。该模型的主要思想是将数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自主分类,产生多个分类结果。本文的研究将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-聚类法(快速聚类法)。通过这两个模型,对各地区的的经济进行划分,能更好的了解中国的经济信息。关键词:聚类分析;SPSS;系统聚类法;K-聚类法。AbstractThe Application of Clustering Analysis Based on SPSS in Industry Statistical DataSince the

3、 reform and opening up,every industry has got a leap in progress with the rapid development of Chinas rapid economic.Technology and science play an important role in economic development.People have reached a comfortable level in general,and China has become ane of the most potential countries in th

4、e world.The economy of China is inseparable from the reform of Chinas development and technology.The economy is also inseparable from all walks of life to work hard.China has successively completed some five-years plans in these fifty years since the year of 1850.Chinas achievements are obvious to a

5、ll around the world in the fifty years,and Chinas economy has grown fast,and laid a very solid foundation for the development of the national economy.The object of this paper is CEInet Statistics Database.The data contains the years and regions statistics. The main model established in this paper is

6、 the Principal Component Analysis-Clustering model.The model idea of this model is the data according to its many characteristics and the degree of closeness,in the absence of prior knowledge classification independently,produce multiple classification results.The research will use two kinds of meth

7、od for clustering analysis,one is the system clustering method,the other is a K-clustering method.By these two models,can better understand Chinas economic information.Key words:Clustering Analysis;SPSS;System clustering;A K-clustering。3目录第1章 绪论11.1.选题背景11.2数据来源11.3本文主要工作1第2章 SPSS软件简介2第3章 聚类分析33.1简介

8、33.2系统聚类法33.3均值聚类法33.4聚类法分析的优缺点3第4章聚类分析的应用54.1数据输入54.2统计数据-系统聚类分析54.3统计数据-k均值聚类分析7第5章总结9参考文献10致谢11第1章 绪论1.1.选题背景目前,社会主义市场经济体制在社会中发挥着重要的作用。市场和宏观调控互相协调,相得益彰,各种体系发展日益完善,经济形势发展越来越好,产生的价值越来越大。到2020年,我国会建立起比较成熟的社会主义市场经济体制。2012年一月份至九月份,中国经济增长速度是已经回落到7.7%。相较于中国过去30年接近10%的增长速度,十一五期间更是接近11.2%的增长速度。因此在10%或者8%以

9、下,显然是经济增长缓慢。另外,中经数据统计发布的各种宏观数据显示,中国经济增长速度已经开始缓慢。1.2数据来源中经网统计数据库是由国家信息中心中经网凭借与国家发改委、国家统计局、海关总署、各行业主管部门以及其他政府部门的良好合作关系,经过长期数据积累并依托自身技术、资源优势,通过专业化加工处理组织而成的一个综合、有序的庞大经济统计数据库群。本文从中经网选取个地区最近三年各季度城镇工资总额来进行分析,该部分反映我国劳动经济方面的基本情况,其中各地区包括31个省、自治区、直辖市。1.3本文主要工作本文的研究对象是“中经网统计数据库”中个地区城镇工资总额,总所周知,各地区由于地理,文化的差异,其各地

10、区的工资水平以及发展程度是不一样的。分析各地区的工资问题,可以为我们毕业生提供宏观的就业位置,给出一个合理的基准判断。本文就是针对按照地区各季度城镇工资总额等数据,对中国各省份地区进行聚类分析,建立聚类分析【1】模型。聚类分析是数据挖掘【2】中的一种重要的算法,他将生活中的数据对象进行数据分析,将性质相似或者相近的对象放在一个类中,将性质不同的对象放在不同的类中,研究聚类分析,使得我们从复杂的现实生活中提取有用的信息,从而更好的分析数据,反应生活中的社会信息。本文建立的主要模型是系统聚类分析模型和K-均值聚类分析模型,该模型主要思想是将数据按照亲疏的不同进行聚类,一步一步聚类,最终聚类成一个大

11、类。然后对聚类过程中的步骤进行分析,从而得到聚类结果。第2章 SPSS软件简介SPSS【3】是现代统计软件的典型代表,其全称:Statistical Package for the Social Sciences,即社会科学统计软件包。世界上公认数据分析软件有三个,分别是SAS、SPSS和SYSTAT。SPSS软件作为其中的一个统计学软件,有着强大的功能和特点。SPSS统计学软件有以下几个特点。(1)利用SPSS软件能够实现很多的类似于微软的操作,列如可以将数据录入到SPSS中,可以将资料进行编辑,可以将数据进行管理,可以像EXCEL一样进行报表制作等。(2)SPSS统计学软件的统计功能,可以

12、实现“报告”“描述统计”“表”“比较均值”“一般线性模型”“广义线性模型”“相关”“回归”等功能。(3)SPSS数据输入和输出可以选取多种格式如:sav、xls等等。第3章 聚类分析3.1简介聚类分析【4】是数据挖掘中一种重要的算法。它主要是将具有相同或者相似性质的对象放在同一个集合中,把具有不同性质的对象放在不同的集合中。聚类分析在商业、生物、教育等很多行业有着重要的应用。正是有了类似分析这样的数据挖掘算法,我们才从庞大的社会信息中提取出对我们有用的信息,更好的反馈社会。3.2系统聚类法系统聚类法分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚在一起,使差异性大

13、的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。在本文中Q型聚类中类与类之间距离的计算方法主要有以下几种:(1)最短距离法,是指两类之间每个个体距离的最小值;(2)最长距离法,是指两类之间每个个体距离的最大值;(3)组间联接法,是指两类之间个体之间距离的平均值;(4)组内联接法,是指把两类所有个体之间的距离都考虑在内;(5)重心距离法,是指两个类中心之间的距离;(6)离差平方和法,是指同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。3.3均

14、值聚类法k均值类法【5】的工作原理:该算法首先确定初始的聚类中心,一般是随机的选定个对象,然后计算各个样本到聚类中心的距离,从而把样本或者对象归到离它最近的聚类中心所在的类。计算完所有样本后,重现计算聚类中心,重新对样本或者对象进行类,如果相邻两次的聚类中心没有变化或者两侧的聚类中心之间的差距已经收敛,则聚类结束。3.4聚类法分析的优缺点聚类分析是数据挖掘中的经典算法之一。聚类分析的优点如下:(1)聚类分析能够很好的反映类之间的关系,研究聚类分析能够研究数据背后的对象的性质,能够对我们了解这些对象有着重要的作用。(2)聚类分析能够使用聚类中心来很好地体现该类的性质。比较不同类的聚类中心能够发现

15、不同类的聚类中心所代表的意义不同。(3)聚类分析能够帮助我们从数据中提取重要的信息,聚类分析可以反映数据信息的有效性。聚类分析的缺点如下:(1)以k均值聚类算法为例,初始聚类中心随机设定,这就使研究者在设定聚类中心时产生随机性。(2)聚类分析的类数k的确定。在聚类分析算法中,一般人为的设定k值。这样,如果将一堆对象分城较少的类,则可能不能体现聚类中各个类的性质。如果将对象分成较多的类,则可能造成数据的冗余。第4章聚类分析的应用4.1数据输入图4.1年份各地区数据变量视图在SPSS统计学软件中,有“数据视图”和“变量视图”两种。数据视图就是将实际数据导入SPSS中后显示的实际数据,而变量数据是对

16、数据对象打的属性变量的定义,包括名称、类型、宽带、小数、数值等相关信息。变量视图如上图所示。4.2统计数据-系统聚类分析在本小节中,针对统计数据,使用SPSS统计学软件进行系统聚类分析。如图4.2所示,将数据导入SPSS软件,然后进行系统分析。图4.2统计数据-系统分析通过系统分析可以得到其各个样本之间的相似系数,数值越大表示两样本之间的距离越大。如下图4.3所示。图4.3相似矩阵表冰柱图直观的反应了系统聚类法中分类的步骤。如图4.4所示。图4.4系统聚类分析冰柱图利用SPSS软件,进行系统分析,可以利用软件做出树状图,利用树状图我们可以看出各个样本之间的聚类过程,可以看出分类的过程,直观的显

17、示结果。如图4.5所示。图4.5系统聚类分析树状图通过利用SPSS统计软件分析,结合树状图和冰状图可以得出,系统分析将各省份分城三个大类,第一类是北京和广州属于城镇工资总额最高的两个城市,表明出,在北京和广州两地的工资较高相应看出这两个地方的经济较为发达。第二类是江苏、浙江、山东和上海,其余的分为第三类。4.3统计数据-k均值聚类分析本小节,针对统计数据进行k均值聚类分析。图4.6统计数据-k均值聚类分析图4.7初始聚类中心图4.8迭代历史记录得到初始中心后,利用k均值聚类的计算方法,计算得到聚类中心,然后,把每个对象归类到距离最近的聚类中心所在的类中,在这个过程中,需要经过迭代过程,上图4.

18、8反映的是迭代过程中的聚类中心结果。如果收敛,即停止计算聚类中心。通过k均值计算依据,可以得到聚类结果。聚类成员如下图4.9所示,最终的聚类中心如下图4.10所示。聚类成员包含有案例号、案例所在的类数和对象距离聚类中心的距离。图4.9k均值聚类聚类成员图4.10k均值聚类最终聚类中心在统计数据经过K均值聚类分析后,得到三个大类,图4.11表示了聚类成员和最终聚类中心间的距离,同时也表示出每个类别的案例。图4.11k均值聚类分析结果显示图通过k均值聚类分析,我们可以得到第一大类包含:北京,上海,广州,江苏,浙江,山东。第二类包含:湖南,福建等地。明显可以得到在北上广等地区属于中国经济发的的地区,然而中国城镇工资总额不高的地区还是占多部分的省份。总体而言,可以反映出中国的经济发展还不平衡,各地区经济水平差异较大。第5章总结在数据挖掘中,聚类算法是一类很重要的算法,并且在现实的社会生活中有着非常广泛的应用。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论