聚类分析步骤_第1页
聚类分析步骤_第2页
聚类分析步骤_第3页
聚类分析步骤_第4页
聚类分析步骤_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、聚类分析步骤以教材第五章习题8的数据为例,演示并说明聚类分析的详细步骤:原始数据的输入:见律巳 抵输日祝图力 敷饱叫铤被口 分析为 图膨【空).实用程序叫附如内容(QD 窗口 蒂助& H a面(+ M B B? #4 *B ft 耋垂毒弩1 专穿1:衣者地区食品衣着燃料住房变通和通讯娱乐教-育文化21北京190.3343779.7360.5449.019.04a.关津135.20.36.4010.4744.1636.493-. 943.河北95.2122.039.3022.4422.812.804山西104.7825.116.409.8918.173.255内蒙古128.4127.638.94

2、12.5823.99官6辽宁145.683迥17.7927.2939.093.477吉林159.3733.3818.3711.8125.295.228黑龙江116.2229.5713.2413.7621.756.049上海221.1138.6412.53115.6550.825.8910奇工苏114.9829.1211.6742.6027;305.7411浙江169.9232.7512.7247.1234.355.0012获微135.1123.0915.6223.5418.206.3913福建144.9221.2616.9619.5221.756.3714江西140.5421.5017.641

3、9.1915.974.9415山东115.8430.2612:2033. S033.773.8516河南101.1823.268.4620.2020.504.3017选项操作:打开SPSS的“分析”一 “分类”一“系统聚类”,打开“系统聚类”对话框。把“食品”、“衣着”等6变量输入待分析变 量框;把“地区”输入“标注个案”;“分群”选中“个案”;“输出”选中“统计 量”和“图”。(如下图)标注案确定粘贴J取消帮助标注案确定粘贴J取消帮助相关说明:(相关说明:(1)系统聚类法是最常用的方法,其他的方法较少使用。(2)“标注个案”里输入“地区”,在输出结果的距离方阵和聚类树状图里会 显示出“北京”

4、、“天津”等,否则SPSS自动用“1”、“2”等代替。(3)“分群”选中“个案”也就是对北京等16个样本进行分类,而不是对食 品等6个变量分类。(4) 必须选中“输出”中的“统计量”和“图,。在该例中会输出16个地区的 欧氏距离方阵和聚类树状图。设置分析的统计量打开最右上角的“统计量”对话框,选中“合并进程表”和“相似性矩阵”, “聚类成员”选中“无”。然后点击“继续”。打开第二个“绘制”对话框,必须选中“树状图”,其他的默认即可。打开第三个对话框“方法”:聚类方法选中“最邻近元素”;“度量标准” 选中“区间”的“欧氏距离”;“转换值”选中“标准化”的“Z得分”,并且 是“按照变量”。打开第四

5、个对话框“保存”,“聚类成员”选默认的“无”即可。分析结果的解读:按照SPSS输出结果的先后顺序逐个介绍:欧氏距离矩阵:是16个地区两两之间欧氏距离大小的方阵,该方阵是应用各 种聚类方法进行聚类的基础。Proximity MatrixEuclidean DistanceCase1:北京2:天津3:河北4:山西5:内蒙古6:辽宁7:吉林8:黑龙江9:上海10:江苏11:浙江11:北京.0003.8396.2896.2235.8314.7344.6914.7933.1314.3003.4042:天津3.839.0002.9113.1082.3902.1902.8922.5814.1531.8811

6、.4733:河北6.2892.911.0001.1341.3243.4933.7892.5156.5442.3283.4204:山西6.2233.1081.134.0001.3184.0514.0402.6066.8032.6203.6385:内蒙古5.8312.3901.3241.318.0003.0503.3262.5586.0922.5132.8916:辽宁4.7342.1903.4934.0513.050.0001.8002.7644.7002.6771.9847:吉林4.6912.8923.7894.0403.3261.800.0002.0525.2472.6192.2158:黑龙江

7、4.7932.5812.5152.6062.5582.7642.052.0005.7971.2902.4709:上海3.1314.1536.5446.8036.0924.7005.2475.797.0004.9363.51910:江苏4.3001.8812.3282.6202.5132.6772.6191.2904.936.0001.91711:浙江3.4041.4733.4203.6382.8911.9842.2152.4703.5191.917.00012:安徽5.2513.4002.9923.2763.1783.0602.1461.4065.8341.9222.74313:福建5.339

8、3.6313.3043.6653.4322.9552.0881.8435.8262.3212.82614:江西5.9813.7012.9793.4203.0912.9022.1102.0416.1912.5673.07115:山东4.6811.2801.9612.4821.8401.8812.5651.8874.9861.3301.85716:河南5.8212.888.960.9891.6523.6623.6061.9726.4021.8803.221This is a dissimilarity matrix合并进程表:主要看前四列,现在以前三个步骤为例说明合并过程:第一步,样本12和 样本

9、13合并,此时系数为0.650;第二步,样本3和样本16合并,此时系数为 0.960;第三步,样本3 (实际上是第二步样本3和16组成的新类)和样本4合 并,此时系数为0.989;以此类推。Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster 1Cluster 2Cluster 1Cluster 26:101213141512126131614151051269.650.960.9891.0251.2801.2901.3181.3301.4061.4

10、731.8001.8401.8813.1313.4045:101214691891012131315153.冰柱:左侧是分组数目,上侧是被分组的样本,样本之间由等距的间隔分开,间隔 被填充的,说明相邻两样本合并为一组,没有被填充就不被合并。按照此规则, 首先从下往上看,当分为15类时,只有样本13和12合并了,其余的各自是一 类;当分为 10 类时,从左到右依次是(7),(6),(5),(4, 16, 3),(11),(14, 13, 12),(10, 8),(15, 2),(9),(1);其他的分组数目时以此类推。(该冰柱的分组数目有2.5、7.5、 12.5等含有半组的情况,不需要掌握。)

11、1S.D-7:1.-至6:江.T4;*_L浙110:I i大9:上堂1: 1S.D-7:1.-至6:江.T4;*_L浙110:I i大9:上堂1: 上 4.树状图:这是分类结果最后的树状图,把整个分类情况一目了然地呈现出来了。最上 面的是标尺,数字0-25是大致按照距离比例重新标定的数值,不影响对分类结 果的观察与结论。解读此图的方法是:每个样本的右侧都是虚线,虚线的端点处 是“ + ”,说明该样本在此和另一个样本或者组(它也有上下相对齐的“ +”)合 并为一类。如:安徽和福建在对应标尺1附近时合并为一类,之后与江西在标尺 数值4附近合并为一类。天津、山东、黑龙江、江苏四个样本的“ + ”看起

12、来好 像是统一对齐的,其实不是,实际情况是:天津和山东在1.280 (欧氏距离)处 对齐,黑龙江和江苏在1.290 (欧氏距离)处对齐。总说明:聚类分析从数学上讲不是很严谨,所以采用不同的统计量和采取不同的聚类 方法,聚类结果可能有较大的差异。但是只要整个分析过程没有错误就是完 整正确的,聚类结果都是认可的。(本例中,原始数据首先进行标准差标准化, 再求欧氏距离方阵,聚类方法采取的是最短距离法。)聚类分析的最终结果自然是分类,除了 SPSS输出的树状图,最好自己再做 出Word格式的分类表,具体分为几类,自己看情况而定。譬如该例子就可 以分为4类或5类。聚类分析只是分类,并不能进行评判(如发展

13、水平高低等),如要评判各样本 应结合主成分分析、因子分析等方法共同进行。其分类结果也不一定按照聚 类分析的结果为准,可以结合主成分分析、因子分析的结果进行修正。最短距离法具体计算方法及步骤在系统聚类法中,最短距离法应用比较广泛。计算过程一般是首先对原始数 据进行标准化处理,再计算初始欧氏距离矩阵,然后应用最短距离法聚类。假设有6个样本的初始欧氏距离矩阵如下:G1G2G3G4G5G6, 0)0.37500.4830.7760D(0=1.7491.5961.92601.5161.3361.6620.50101.9721.7432.1540.6930.5890 ,(系统聚类法在聚类之前把每个样本看成

14、一组,用G1,G2,.代替。在该矩阵 中,第i行和第i列都代表第i组,在左侧括号的外面应该自上到下依次是G1, G2,.,G6,因为word中不好输入,所以省略了。)在初始距离系数矩阵的基础上,用最短距离法分类的具体步骤是:1.在初始距离系数矩阵D(0)中,选出距离数值最小者,即d12=0.375,把第 一类G1和第二类G2合并为一个新类G7,记为G7=G1,G2。再利用最短距 离法计算新类G7与其他各类G3, G4, G5, G6的距离,得d73=mind13,d23=min0.483, 0.776=0.483d74=mind14,d24=min1.749, 1.596=1.596d75=m

15、ind15,d25=min1.516, 1.336=1.336d76=mind16,d26=min1.972, 1.743=1.743形成距离系数矩阵D(1)G7G3G4G5G6f 0)0.4830D=1.5961.92601.3361.6620.5010 1.7432.1540.6930.5890 J在矩阵D(1)中,选出距离数值最小者,即d73=0.483,这时G7和G3合并 为一个新类G8,记为G8=G7, G3。再利用最短距离法计算新类G8与其他各 类G4,G5,G6的距离,得D84=mind34,d74=min1.926, 1.596=1.596D85=mind35,d75=min1

16、.662, 1.336=1.336D86=mind36,d76=min2.154, 1.743=1.743形成距离系数矩阵。(2)。G8 G4 G5 G6 TOC o 1-5 h z f 0 HYPERLINK l bookmark22 o Current Document d(2) n59601.336 0.50101.743 0.693 0.589 0)在矩阵D(2)中,选出距离数值最小者,即d45=0.501,这时G4和G5合并 为一个新类G9,记为G9=G4, G5。再利用最短距离法计算新类G9与其他各 类G8,G6的距离,得D98=mind48,d58=min1.596, 1.336=1.336D96=mind46,d56=min0.693, 0.589=0.589形成距离系数矩阵。(3)。G8G9G6f 0D=1.33601.7430.5890 )4.在矩阵D(3)中,选出距离数值最小者,即d69=0.589,这时G6和G9合并 为一个新类G10,记为G1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论