K-均值聚类法实例解析_第1页
K-均值聚类法实例解析_第2页
K-均值聚类法实例解析_第3页
K-均值聚类法实例解析_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、例:为了更深入了解我国环境的污染程度状况,现利用2009年数据对全国31个省、自治区、直辖市进行聚类分析。解:现在要分析我国各个地区的环境污染程度,案例中选择了各地区“工业废气排放总量”“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,同时选择了北京等省市的数据加以研究。这个问题属于典型的多元分析问题,需要利用多个指标来分析各省市之间环境污染程度的差异。因此,可以考虑利用快速聚类分析来研究各省市之间的差异性,具体操作步骤如下。1)打随书光盘中的数据文件9-2.sav,选择菜单栏中的【Analyze(分析)一【Classify(分类)】一【K-MeansCluste

2、r(K均值聚类)】命令,弹出【K-MeansClusterAnalysis(K均值聚类分析)】对话框。2)在左侧的候选变量列表框中将X1、X2和X3变量设定为聚类分析变量,将其添加至Variables(变量)】列表框中;同时选择Y作为标识变量,将其移入【LabelCasesby(个案标记依据)】列表框中。3) 在【NumberofClusters(聚类数)】文本框中输入数值“3”,表示将样品利用聚类分析分为三类,如下图所示。4) 单击【Save(保存)】按钮,弹出【K-MeansClusterAnalysis:Save(K均值聚类分析:保存)】对话框;勾选Clustermembership)(

3、聚类新成员)】和【Distancefromclustercenter(与聚类中心的距离)】复选框,表示输出样品的聚类类别及距离,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)按钮返回主对话框。K-BeansCluster;S.磋gustemembershipiDistancefromclustercenterlaricoMinue|CanceljHelp5) 单击【Options(选项)】按钮,弹出【K-MeansClusterAnalysis:Options(K均值聚类分析:选项】对话框;勾选【Statistics(统计量)】选项组中的复选框,其他选项保持系统默认设置,

4、如下图所示,单击【Continue(继续)按钮返回主对话框,单击【OK(确定)】按钮完成操作。庭KTeanwClusterAnal-Statistics1VInitialclustercentersANOVAtablelsirii-iirn-iimrBimrsinrsinrsinrini-sinninnimrBinrsinrsinrsinrini-sinninriiI4ClusterinformationforeachcasgL,rL,rL,rl,rL«rL«rl,rL,rL,rL,rL,rl,rL«rl,rL,rL,rL,rTIMissingValuesExcl

5、udecaseslistwiseExcludecasespairwiseContinueC日IHelp实例结果及分析(1)快速聚类分析的初始中心SPSS软件首先给出了进行快速聚类分析的初始中心数据。由于这里是要求将样品分为三类,因此软件给出了三个中心位置。但是,这些中心位置可能在后续的迭代计算中出现调整。Cluster123工业废气排放总量152218627432工业废水排放总量942140325256160二氧4t硫排放总量0.2135.5107.4(2)迭代历史表下表显示了快速聚类分析的迭代过程。可以看到,第一次迭代的变化值最大,其后随之减少。最后第三次迭代时,聚类中心就不再变化了。这说明

6、,本次快速聚类的迭代过程速度很快。IteranonChangeinClusterCenters1.J3I129063.87515957.00526705.18774706.4013783.4S2222OS69230.0000.0000.000(3)聚类分析结果列表通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。第一类:北京、天津、山西、内蒙古等20个地区。这些地区工业废水、废气及二氧化硫的排放总量相对最低。第二类:河北、福建、河南、湖北、湖南、广西和四川。它们的污染程度在所有省份中位居中等水平。第三类:江苏、浙江、山东和广东。这些地区的工业废水、废气及二氧化硫排放总量是最高的,

7、因此环境污染也最为严重。表中最后一列显示了样品和所属类别中心的聚类,此表中的最后两列分别作为新变量保存于当前的工作文件中。(4)最终聚类分析中心表如下表所示列出了最终聚类分析中心。可以看到,最后的中心位置较初始中心位置发生了较大的变化。Cluster123I工业废气排放总量99211907926025工业废水排放总量33219121194207780二氧化硫排放总量56.093.0110.9(5)最终聚类中心位置之间的距离如下表所示为快速聚类分析最终确定的各类中心位置的距离表。从结果来看,第一类和第三类之间的距离最大,而第二类和第三类之间的距离最短,这些结果和实际情况是相符合的。Cluster

8、12318s449975175301.923288449.975S6864.2293175301.92386S64229(6)方差分析表如下表所示为方差分析表,显示了各个指标在不同类的均值比较情况。各数据项的含义依次是:组间均方、组间自由度、组内均方、组内自由度。可以看到,各个指标在不同类之间的差异是非常明显的,这进一步验证了聚类分析结果的有效性。ClusterEnorFSig.MeanSquareMeanSquare工业废气排放总量5.45RE8S6415059.434286.3160.005工业废水排放总量6.018E107金6317ES28952700.000二氧化硫排放总量7125.1107心15102472S4,71S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论