聚类分析例子_第1页
聚类分析例子_第2页
聚类分析例子_第3页
聚类分析例子_第4页
聚类分析例子_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上精选优质文档-倾情为你奉上专心-专注-专业专心-专注-专业精选优质文档-倾情为你奉上专心-专注-专业例题1:下表是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试利用调查资料对16个地区进行分类。地区食品衣着燃料住房生活用品及其他文化生活服务支出北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25内蒙古128.41

2、27.638.9412.5823.993.27辽宁145.6832.8317.1927.2939.093.47吉林159.3733.3818.3711.8125.295.52黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5121.517.6419.1915

3、.974.94山东115.8430.2612.233.6133.773.85河南101.1823.268.4620.220.54.3下面用统计学软件 SAS(Statistical Analysis System)data dfdf;input city $ x1 x2 x3 x4 x5 x6;cards;beijing 190.33 43.77 9.73 60.54 49.01 9.04tianjing 135.20 36.40 10.47 44.16 36.49 3.94hebei 95.21 22.83 9.30 22.44 22.81 2.80shanxi 104.78 25.11 6

4、.40 9.89 18.17 3.25neimenggu 128.41 27.63 8.94 12.58 23.99 3.27liaoning 145.68 32.83 17.19 27.29 39.09 3.47jilin 159.37 33.38 18.37 11.81 25.29 5.22heilongjiang 116.22 29.57 13.24 13.76 21.75 6.04shanghai 221.11 38.64 12.53 115.65 50.82 5.89jiangsu 144.98 29.12 11.67 42.60 27.30 5.74zhejiang 169.92

5、32.75 12.72 47.12 34.35 5.00anhui 153.11 23.09 15.62 23.54 18.18 6.39fujian 144.92 21.26 16.96 19.52 21.75 6.73jiangxi 140.54 21.50 17.64 19.19 15.97 4.94shandong 115.84 30.26 12.20 33.61 33.77 3.85henan 101.18 23.26 8.46 20.20 20.50 4.30;run;proc cluster data=dfdf std outtree=tree method=ave pesudo

6、 rsq;id city;run; /*ward离差平方和法 war; 类平均法 ave; 重心法 cen;最长距离法 com;中间距离法 med; 最短距离法 sin;密度估计法 den;极大似然法 eml; 可变类平均 fle;相似分析法 mcq; 两阶段密度估计 two; */proc tree data=tree out=new graphics horizontal; id city;run;ClusterHistoryNormRMSNCLClustersJoined-FREQSPRSQRSQPSFPST2Dist15anhuifujian20.00250.99828.7.0.193

7、14hebeihenan20.00550.99219.1.0.286913CL14shanxi30.00680.98516.71.20.311612CL15jiangxi30.00990.97514.440.348111jiangsuzhejiang20.00890.96614.4.0.36610CL13neimengg40.01060.95614.41.70.36929tianjingshandong20.00920.94715.5.0.37118CL9CL1140.02370.92313.72.60.49577liaoningjilin20.01890.90414.1.0.53296hei

8、longjCL1240.02670.87714.34.30.54635CL8CL760.05280.82412.93.50.66814CL5CL6100.12690.6989.26.60.78233CL4CL10140.19550.5026.67.80.87512beijingshanghai20.05620.44611.3.0.91841CL2CL3160.44580.11.31.5454(1)统计量(列标题为)用于评价每次合并成个类时的聚类效果。现考察的值随的变化。比如,在分为四个类之前()的并类过程中的减少是逐渐的,改变不大;当分为四个类时的,而下一次合并后分为三个类时下降较多(),由此

9、可以通过对统计量的变化分析可得出分为四个类是较合适的。(2)半偏(列标题为)得到。根据半偏的值是上一步骤与该步骤的差值,故某步骤的半偏值越大,说明上一步骤合并的效果越好,此例半偏最大和次大分别为,说明根据半偏准则分为两个类,四个类和五个类是较合适的。(3)伪统计量(列标题为)用于评价分为个类的聚类效果。伪值越大表示这些观测样品可以显著地分为个类。此例中伪最大和次大分别为(当),说明根据伪准则分为五个类或两个类较合适的。(4)伪统计量(列标题为)用以评价此步骤合并的效果。由该统计量的定义知,伪大表明上一次合并的两个类是很分开的,也就是上依次聚类的效果是好的。此例子中最大和次大分别为,说明根据伪准

10、则分为两个类,四个类和五个类是较合适的。综合分析,认为采用类平均法分类,将16个地区分为两个类或五个类较合适。分为五个类的结果为:北京,上海,天津、山东、江苏、浙江、辽宁、吉林,黑龙江、安徽、福建、江西,河北、河南、山西、内蒙;若分为两类,北京,上海,天津、山东、江苏、浙江、辽宁、吉林,黑龙江、安徽、福建、江西,河北、河南、山西、内蒙。类别第一类第二类第三类第四类第五类该类所包含的区域河北 河南山西 内蒙黑龙江 安徽福建 江西天津 山东 江苏 浙江 辽宁 吉林北京上海食品平均消费107.395138.698145.165190.33221.11衣着平均消费24.70823.85532.4574

11、3.7738.64燃料平均消费8.27515.86513.8709.7312.53住房平均消费16.27819.00034.43160.54115.65生活用品以及其他平均消费21.36819.41332.71549.0150.82文化生活服务支出平均消费3.4056.0254.5379.045.89例题2:对305名女中学生测量八个体型指标:身高 :体重 :手臂长 :颈围上肢长 :胸围 :下肢长 :胸宽相关矩阵如下表。我们用相关系数来度量各对变量之间的相似性。相应于最长距离法,类与类之间的相似系数定义为两类变量间的最小相关系数,每次聚类时合并两个相似系数最大的类。1.0000.8461.00

12、00.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000/*用变量聚类过程varclus对变量进行分类data jlfx (type=corr);input id x1 x2 x3 x4 x5 x6 x7 x8;_type_=corr;cards;1 1.000 . . . . . . .2 0.846 1.000 . . . . . .3 0.805 0.881 1.000 . . . . .4 0.859 0.826 0.801 1.000 . . . .5 0.473 0.376 0.380 0.436 1.000 . . .6 0.398 0.326 0.319 0.329 0.762 1.000 . . 7

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论