第7讲 SPSS的聚类分析_第1页
第7讲 SPSS的聚类分析_第2页
第7讲 SPSS的聚类分析_第3页
第7讲 SPSS的聚类分析_第4页
第7讲 SPSS的聚类分析_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——第7讲SPSS的聚类分析

第7讲SPSS的聚类分析7.1基本概念将n个个体看成k维空间上的点,根据这些点间距离大小将n个个体分类。点间距离的计算公式与数据类型有关。1、定距变量个体间距离的计算欧式距离(Euclideandistance)EUCLID(x,y)=

(xiyi)2∑i=1

k

2、计数变量个体间距离的计算假使k个变量都是计数的非连续变量,则用卡方(Chi-Squaremeasure)距离定义个体间距离。

CHISQ(x,y)=

(xiE(xi))2+k(yiE(yi))2∑E(x)∑E(y)i=1i=1iik

其中,E(.)是期望频数。例如:表7-1两名学生的选修课数据姓名张三李四合计选修课门数(期望频数)9(8.5)8(8.5)17专业课门数(期望频数)6(6)6(6)12得优课门数(期望频数)4(4.5)5(4.5)9合计1919382

3、二值(Binary)变量个体间距离的计算简单匹配系数(SimpleMatching)原理:对应表7-2的简单匹配系数为:S(x,y)=b+ca+b+c+d

表7-2简单匹配系数的频数表个体y10ab1x个体cd0

例题:表7-3是三名病人的临床数据,其中1表示呈阳性,0表示呈阴性。利用该表可得A与B的简单匹配系数为(0+1)/(2+0+1+3)=1/6;A与C的简单匹配系数为(1+1)/(1+1+1+3)=2/6;B与C的简单匹配系数为(2+1)/(1+2+1+2)=3/6。由于A与B的简单匹配系数最小,因此他们两者的差异最小,有可能是同一种病。表7-3三名病人的临床表现数据姓名发烧咳嗽检查1A101B101C110检查2000检查3010检查40004

7.2聚类分析方法一、层次聚类原理:首先,n个个体自成一类;然后,度量所有个体间的亲疏程度,将其中最亲近的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,将当前最亲近的个体或小类各聚成一类;重复上述过程,可将n个个体通过n-1步聚成一大类。类型:对样本聚类称为Q型聚类;对变量聚类称为R型聚类。操作:Analyze-Classify-HierarchicalCluster。5

例7.1利用t7-1的数据,五商厦进行层次聚类分析。表7-4五座商厦两两个体间欧氏距离矩阵ProximityMatrixEuclideanDistanceCase1:A商厦2:B商厦3:C商厦4:D商厦1:A商厦0.0008.06217.80426.9072:B商厦8.0620.00025.45634.6553:C商厦17.80425.4560.0009.2204:D商厦26.90734.6559.2200.0005:E商厦30.41438.21012.8063.606Thisisadissimilaritymatrix

5:E商厦30.41438.21012.8063.6060.000

由表7-4可知,D商厦和E商厦间距离最小(为3.606),首先聚成一小类。6

表7-5五商厦层次聚类分析凝聚状态表ClusterCombinedCluster1Cluster245123413AgglomerationScheduleStageClusterFirstAppearsCoefficientsCluster1Cluster23.60608.062011.013028.9082NextStage00133440

Stage1234

表7-5中,第一列表示聚类分

析的第几步;其次、三7-5列表示本步聚类中哪两个样本或小类聚成一类;第四列是个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非0表示由第n步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到。7

表7-6五商厦层次聚类分析中的类成员Case1:A商厦2:B商厦3:C商厦4:D商厦5:E商厦ClusterMembership4Clusters3Clusters11213243432Clusters11222

由表7-6可知,当聚成三类时,A、B为一类,C自成一类,D、E为一类。

表7-7五商厦层次聚类分析的冰挂图VerticalIcicleCase5:E商厦XXXXXXXX4:D商厦3:C商厦2:B商厦1:A商厦Numberofclusters1234

XXXX

XX

XXXX

X

XXXX

XXX

XXXX

由表7-7可知,当聚成4类时,D、E为一类,其他自成一类。

例7.2利用表7-2的数据,对31个省市自治区小康和现代化指数进行Q型层次聚类分析。表7-8小康指数分类表黑内北上天浙广江辽福山龙吉湖陕河山海重蒙湖青四宁新安云甘广江河贵西京海津江东苏宁建东江林北西北西南庆古南海川夏疆徽南肃西西南州藏3类4类5类111111111222222223223222223334334334334334334345334334334334334334334334334334334334334334334

由表7-8可知,当分成3类时,北京、上海、天津为一类;浙江、广东、XX、辽宁、福建、山东为一类;其余为一类。

表7-8小康指数分类表黑内北上天浙广江辽福山龙吉湖陕河山海重蒙湖青四宁新安云甘广江河贵西京海津江东苏宁建东江林北西北西南庆古南海川夏疆徽南肃西西南州藏3类4类5类111111111222222223223222223334334334334334334345334334334334334334334334334334334334334334334

由图7-1,可以考虑聚成3类或4类。

由表7-9可知,第1类的所有6个指标均最好;第2类居中;第3类最差。表7-9小康指数聚类分析描述统计DescriptiveStatisticsAverageLinkageNMinimumMaximum1387.9093.20综合指数393.40100.00社会结构388.7094.70经济与技术发展398.00112.00人口素质390.0097.40生活质量355.5062.70法制与治安2671.7080.90综合指数670.8090.40社会结构665.7086.90经济与技术发展665.9093.10人口素质668.1086.60生活质量658.0077.20法制与治安32250.9070.10综合指数2251.6081.10社会结构2231.5057.20经济与技术发展2256.0085.80人口素质2229.9067.60生活质量2261.60100.00法制与治安Mean91.

133396.166792.0333106.133394.266758.566776.383383.650075.200077.016777.216766.533360.477367.368244.563669.904552.531875.9136Deviation2.836083.426853.055057.270033.827973.716633.691847.082878.997789.904437.871328.361505.387107.382956.795708.782108.392829.17280

例7.3利用t7-3,对裁判打分进行R型层次聚类分析。由表7-10可知,如将裁判分成3类,热心观众自成一类(第1类),美、法、韩为一类(第2类),其余为一类(第3类)。假使要选出3名代表性裁判,则应从这三类中各选一名复相关系数最高的。如:第1类中,美、法、韩的复相关系数分别为0.93、0.944和0.949,因此可选韩国。表7-10裁判打分变量聚类分析冰挂图VerticalIcicleCase热心Numberof观clusters众1X2X3X4X5X6X7X俄罗斯XXXXXXX罗马尼亚XXXXXXX意大利XXXXXXX

X

美国XXXXXXX

XXXXX

法国XXXXXXX

XXXXXXX

韩国XXXXXXXXX

XXXX

中国XXXXXXX

XXXXXX

XXX

二、K-means聚类原理:指定聚类数目K;确定K个初始类中心;根据距离最近原则分类;重新确定K各类中心;判断是否已满足终止聚类分析的条件。操作:Analyze→Classify→K-meansCluster例7.4利用t7-2的数据,对31个省市自治区小康和现代化指数进行K-means聚类分析。

表7-11小康指数K-means聚类分析初始类中心InitialClusterCentersCluster1279.2092.3090.4095.1086.9092.7065.90112.0086.5095.4059.4057.50

351.1061.9031.5056.0041.0075.60

综合指数社会结构经济与技术发展人口素质生活质量法制与治安

表7-11给定的3个初始类中心中,第2类各指数均是最优的;第1类次之;第3类最不理想。

表7-12说明,第一次迭代后,3个类的中心点分别偏移了24.378、6.307和23.579。其次次迭代后,3个类的中心点偏移均小于指定的判定标准(0.02),聚类分析终止。表7-12小康指数K-means聚类分析迭代状况IterationHistory(a)ChangeinClusterCenters1224.3876.3070.0000.000

Iteration12

323.5790.000

表7-13得出的3个最终类中心中,与指定的初始类中心一致,仍是第2类各指数均是最优的;第1类次之;第3类最不理想。表7-13小康指数K-means聚类分析最终类中心FinalClusterCentersCluster1综合指数社会结构经济与技术发展人口素质生活质量法制与治安75.4982.867

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论