多元统计分析我国主要城市聚类分析课程设计_第1页
多元统计分析我国主要城市聚类分析课程设计_第2页
多元统计分析我国主要城市聚类分析课程设计_第3页
多元统计分析我国主要城市聚类分析课程设计_第4页
多元统计分析我国主要城市聚类分析课程设计_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 摘 要以我国31个主要城市为研究样本,选取平均气温、平均相对湿度、降水量、日照时数、4个反映生态气候情况的主要指标,对我国主要城市气候进行聚类分析。使用spss将全国主要城市的平均气温、平均相对湿度、降水量、日照时数,利用K均值聚类分析法和系统聚类分析法进行分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。关键词:平均气温;平均相对湿度;降水量;日照时数;系统聚类;聚类分析;spss 目录1. 设计目的42. 聚类分析的基本思想53. 实际问题分析54. 系统聚类分析64.1 实际操作64.2 结果分析6 5. K均值聚类分析115.1. 基本思想115.2. 操作步骤11

2、5.3. 结果分析126两种方法的结果比较167. 总结18参考文献19 我国主要城市气候的聚类分析1. 设计目的了解系统聚类分析法,学会应用spss软件进行系统聚类分析。同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合spss对数据的处理解决实际问题。本设计是利用spss软件我国31个城市的气候进行聚类分析。我国主要城市的气候利用K均值聚类分析法和系统聚类分析法进行分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。2. 聚类分析的基本思想 找出能够度量样品或指标之间相似程度的统计量以此作为划分类型的依据,把一些相似程度较大

3、的聚合为一类另一些相似程度较大的聚合为一类,直到所有都聚合完毕形成一个由小到大的分类系统 3. 实际问题分析下表是某年我国31个主要城市平均气温、平均相对湿度、降水量、日照时数的数据,试使用系统聚类法对这些地区进行聚类分析。城市平均气温平均相对湿度降水量日照时数北京12.754.0 571.82667.2天津12.560.8 544.32247.8石家庄14.258.8 517.12007.8太原11.855.2 431.12438.7呼和浩特7.846.9 397.92741.1沈阳7.467.7 690.32366.7长春5.457.6 570.42711.5哈尔滨4.658.1 524.

4、42506.5上海17.568.8 1164.51649.5南京16.770.3 1062.31933.3杭州17.271.3 1454.61513.8合肥16.878.3 995.21704.5福州21.168.3 1393.61449.5南昌18.967.7 1624.41712.3济南14.961.3 672.72233.9郑州15.859.2 632.41880.4武汉17.166.8 12691752.2长沙18.769.6 1331.31295.9广州22.970.8 1736.11609.2南宁22.675.5 1309.81478.2海口25.480.0 1652.11800.

5、0重庆19.181.1 1104.4961.1成都17.776.7 927.51010.2贵阳15.375.1 1117.71068.2昆明17.371.8 1011.31995.5西安16.478.11033.21091.9拉萨10.933.8 232.62672.9兰州7.553.3 311.72657.3西宁7.557.1 373.82534.2银川10.652.3 240.12759.3乌鲁木齐8.656.0 286.32570.54. 系统聚类分析4.1 实际操作1.操作步骤1在spss将数据导入数据视图;2点击spss选择 分析、分类、系统聚类;选中系统聚类分析主页面,将 城市选入

6、标注个案,将变量平均气温至日照时数移入变量框中。单击定义组 因为本案例是对样本进行聚类,所以在分群中勾选个案,在输出选项组中勾选统计量复选框和图复选框。3点击绘制按钮,选中树状图和冰柱栏中的无,点击继续按钮;4 点击保存按钮,在聚类成员框中选中方案范围按钮,最小聚类数设为2,最大聚类书设为5,继续;5统计量和方法都选择系统默认值;6点击确认按,运行系统聚类过程。4.2 结果分析(1) 案例处理汇总表案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比31100.00.031100.0a. 平方 Euclidean 距离 已使用 b. 平均联结(组之间)案例处理汇总表中汇总了有效数据数量3

7、1个,占百分比百分之百,缺失数据0个,占百分之零。总计数量31个,占百分比百分之百。(2) 聚类过程的结果聚类表阶群集组合首次出现阶群集群集 1群集 2系数群集 1群集 2下一阶1172030.7000023210256472.4500024327286891.980008424267712.1500012511137879.7000010614218652.1200018729318976.36000198273011702.360301494813361.980001910112015090.71050201121516685.780001512222416946.055041713917

8、21471.70000211452723973.1870822152626784.820110251631629527.570002517222330375.0431202918141933341.82060261942933759.970972220111841305.233100262191254576.15013024224566153.898191423231476408.073122282491096207.958212272523133658.538151628此表是对每一阶段聚类结果的反映,第四列表示聚合系数,第二列第三列表示聚合的类,例如,第一个阶段是把相似程度较大的第一个样品

9、和第七个样品聚为一类,此时有30类,第二个阶段是把相似程度较大的第十个样品和第二十五个样品聚为一类,此时有29类,以此类推。此图为根据聚类表所制出的折线图 (3)聚类成员表群集成员案例 5 群集4 群集3 群集2 群集1:北京 11112:天津 22113:石家庄 22114:太原 11115:呼和浩特 11116:沈阳 22117:长春 11118:哈尔滨 11119:上海 332210:南京 332211:杭州 432212:合肥 332213:福州 432214:南昌 432215:济南 221116:郑州 221117:武汉 332218:长沙 432219:广州 432220:南宁

10、432221:海口 4322该表每个案例分别在分为五类、四类、三类、二类时所在的类别数,由表可知因为最小聚类数为2,最大聚类数为5 ,类别数分别为2, 3,4,5时样本的类别归属情况。可以结合后面的树状图、冰柱图及研究目的,确定具体的较为合理的类别数与成员归属。(4)冰柱图冰柱图也是反映样品聚类情况的图,比如我们希望分为3类,那么最左边的类数应选4,每个样品右边都有一列冰柱,如果某个样品右边的列冰柱长度小于三,那么他和前面冰柱长度大于三的样品聚为一类,如此下去直到找到全部三类为止,例如,案例二十二右边的列冰柱长度为2,那么它就与案例二十三和案例二十八为一类了,第九个案例右边的列冰柱长度为1,那

11、么从案例十九到九为一类,其余为一类。由此,将本题分为了三类(5)树状聚类图* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 北京

12、1 -+-+ 长春 7 -+ | 拉萨 27 -+ +-+ 兰州 28 -+ | | 银川 30 -+ | | 呼和浩特 5 -+-+ | 西宁 29 -+ | 乌鲁木齐 31 -+ +-+ 太原 4 -+ | | 哈尔滨 8 -+ | | 天津 2 -+ | | 济南 15 -+-+ | | 沈阳 6 -+ +-+ | 石家庄 3 -+-+ | 郑州 16 -+ | 贵阳 24 -+ | 西安 26 -+ | 重庆 22 -+-+ | 成都 23 -+ | | 南京 10 -+-+ | | 昆明 25 -+ +-+ +-+ 上海 9 -+ | | |由上表可以由分类个数得到分类情况,如果我们

13、选择分类数为5,就从距离大概为4的地方往下切,把地区分为5类,得到分类结果如下:第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类:天津、石家庄、沈阳、济南、郑州第三类:上海、南京、合肥、武汉、昆明第四类:长沙、广州、南宁、海口、杭州、福州、南昌、昆明第五类:重庆、成都、贵阳、西安如果我们选择分类数为4,就从距离大概为5的地方往下切,把地区分为4类,得到分类结果如下:第一类:北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类:天津、济南、郑州、沈阳、石家庄第三类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、第四类:重

14、庆、成都、贵阳、西安如果我们选择分类数为3,就从距离大概为6的地方往下切,把地区分为3类,得到分类结果如下:第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明第三类:重庆、成都、贵阳、西安如果我们选择分类数为2,就从距离大概为20的地方往下切,把地区分为2类,得到分类结果如下:第一类:拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州第二类:上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明

15、、重庆、成都、贵阳、西安5. K均值聚类分析5.1. 基本思想把样品粗略分成K个初始类,进行修改,逐个分派样品到其最近均值得类中。重新计算接受新样品的类和失去样品的类的均值,重复,直到各类无元素进出。5.2. 操作步骤(1)在菜单中依次单击分析,分类,K-均值聚类,打开K-均值聚类对话框。将 城市选入个案标记依据,将平均气温、平均相对湿度、降水量和日照时数选入变量,聚类数,本例中设为4,方法选项组中采用默认的迭代与分类选项。(2)输出结果设置:单击保存按钮,打开K-Means群集:保存新变量对话框,勾选聚类成员和与聚类中心的距离复选框,单击继续。(3)选择统计量指标:单击 选项按钮,打开K均值

16、聚类分析:选项对话框,勾选初始聚类中心、ANOVA表和每个个案的聚类信息,输出方差分析表和相应的个案信息。缺失值处理方式使用系统默认选项。(4)单击确定按钮,执行操作,输出结果。5.3. 结果分析(1)初始类中心 初始聚类中心聚类1234平均气温10.6017.7017.3022.90平均相对湿度52.3076.7071.8070.80降水量240.10927.501011.301736.10日照时数2759.301010.201995.501609.20 上表为初始聚类中心表,从上表中可以看出聚类数为4,所以表中给出了4个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。

17、(2) 迭代历史记录下表为迭代历史记录表,显示了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经历了3次迭代,前两次的变化较大,最后一次聚类中心内的更改没有变化,所以表示迭代完成。初始中心间的最小距离为821.337。迭代历史记录a迭代聚类中心内的更改12341203.671190.792156.579208.245264.882.00044.52382.4003.000.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。(3)聚类成员 聚类成员案例号城市聚类距离1北京

18、1169.3682天津 1344.1953石家庄 3302.1044太原 1134.1415呼和浩特1171.7276沈阳 1331.3307长春 1196.5408哈尔滨 1114.5039上海 4287.49410南京 3248.51911杭州 4106.91212合肥 3312.15113福州 4180.32914南昌 4196.62715济南 3309.46416郑州 3199.18217武汉 4224.27218长沙 2310.69619广州 4285.82620南宁 4200.245上表为聚类成员表,第三列为该地区所在的类别数,第四列为该案例距离类中心的距离。把地区分为4类时,第一

19、类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类:长沙、重庆、成都、贵阳、西安第三类:南京、河南、济南、郑州第四类:广州、南宁、海口、南昌、武汉我们可以对分类结果做分析,第一类的城市地处我国北部;其降雨量湿度与日照时数较低,气候多为干冷,第二类的城市地处我国西南部,第三类的城市地处我国东南部,第四类的城市地处我国最南,我国主要城市气候可根据地区的生态环境进行分类。(4)最终聚类中心 最终聚类中心聚类1234平均气温8.9417.4415.9520.34平均相对湿度54.4076.1266.6271.15降水量431.231102.82815.17145

20、0.51日照时数2572.811085.461959.231620.59该表为最终聚类中心表,由此表,再对比上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进行了调整。(5)最终聚类中心间的距离 最终聚类中心间的距离聚类123411632.112723.9361395.02021632.112919.955638.1893723.936919.955719.99041395.020638.189719.990该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为1632.112,第2类和第3类中心点坐标之间的距离为9

21、19.955。以此类推。(6)方差分析表 ANOVA聚类误差均方df均方dfFSig.平均气温232.93736.1702737.752.000平均相对湿度759.884347.2012716.099.000降水量1764610.042333190.6452753.166.000日照时数3083306.950322847.20527134.953.000F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。该表是方差分析表,F值只能作为描述使用,不能根据该值判断各类均值是否有显著性

22、差异,从方差分析表可以看出有三个变量:平均气温,平均相对湿度,降水量,对分类现象显著。(7)每个聚类中的案例数目 每个聚类中的案例数聚类112.00025.00036.00048.000有效31.000缺失.000每个聚类中的案例数表,由表便可看出,类别1中的案例数为12个,类别2中的案例数为5个,类别3中的案例数为6个,类别4中的案例数为8个。有效个案数为31个。(8)QCL1为分类归属情况,QCL2为样本到类中心的距离。城市QCL1QCL21北京1169.3682天津1344.1953石家庄3302.1044太原1134.1415呼和浩特1171.7276沈阳1331.3307长春1196

23、.5408哈尔滨1114.5039上海4287.49410南京3248.51911杭州4106.91212合肥3312.15113福州4180.32914南昌4196.62715济南3309.46416郑州3199.18217武汉4224.27218长沙2310.69619广州4285.82620南宁4200.24521海口4270.05622重庆2124.48123成都2190.79224贵阳222.91225昆明3199.53026西安269.95327拉萨1223.38028兰州1146.38429西宁169.26530银川1267.04931乌鲁木齐1144.953由表可知,相对于系统

24、矩阵,K均值矩阵把地区分为5类时,第一类:北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类:长沙、重庆、成都、贵阳、西安第三类:南京、河南、济南、郑州第四类:广州、南宁、海口、南昌、武汉6两种方法的结果比较 我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比较,结果如下表:(1) 把地区分为5类时,两种方法比较如下表所示系统聚类K均值聚类第一类北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐长沙、重庆、成都、贵阳、西安第二类天津、石家庄、沈阳、济南、郑州上海、南京、合肥、武汉、昆明第三类上海、南京、合肥、武

25、汉、昆明天津、石家庄、沈阳、济南、郑州第四类长沙、广州、南宁、海口、杭州、福州、南昌、昆明广州、南宁、海口、南昌、杭州、福州第五类重庆、成都、贵阳、西安北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐(2)把地区分为4类时,两种方法比较如下表所示:系统聚类K均值聚类第一类北京、太原、呼和浩特、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐北京、天津、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐第二类天津、济南、郑州、沈阳、石家庄长沙、重庆、成都、贵阳、西安第三类上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、南京、河南、济南、郑州、石家庄第四类重庆、成都、贵阳、西安、昆明广州、南宁、海口、南昌、武汉(3)把地区分为3类时,两种方法比较如下表所示系统聚类K均值聚类第一类拉萨、兰州、西宁、银川、乌鲁木齐、北京、太原、呼和浩特、天津、石家庄、沈阳、长春、哈尔滨、济南、郑州北京、天津、石家庄、太原、呼和浩特、沈阳、长春、哈尔滨、拉萨、兰州、西宁、银川、乌鲁木齐、济南、郑州第二类上海、南京、合肥、杭州、福州、南昌、武汉、长沙、广州、南宁、海口、昆明长沙、重庆、成都、贵阳、西安第三类重庆、成都、贵阳、西安上海、南京、合肥、杭州、福州、南昌、武汉、广州、南宁、海口、昆明(1)上图分别比较了k=3,4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论