数据分析梅长林习题答案_第1页
数据分析梅长林习题答案_第2页
数据分析梅长林习题答案_第3页
数据分析梅长林习题答案_第4页
数据分析梅长林习题答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、60 1 / 15 第六章习题 习题6.3 解:用SAS的proc fastclus将各个国家聚为三类,即如果如下: 聚类散点图如下: x2 30 (2) 聚为四类结果散点图如下: x2 30 111 1 1 1 1 1111 1 1 1 1 1 x1 10 10 111 1111 1 1 1 20 30 40 50 20 10 10 111 1 1 1 1 1 1 20 30 Cluster 111 40 11 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 50 60 x1 1111 1112 1113 20 2 / 15 Cluster 1111 1112 1113 11

2、14 习题6.4 解:通过proc fastclus聚为三类结果如下:3 / 15 Cluster List ing Obs years Cluster Dista nee from Seed 1 1978 1 474.3 2 1979 1 433.2 3 1980 1 362.1 4 1981 1 288.9 5 1982 1 260.0 6 1983 1 218.3 7 1984 1 141.7 8 1985 1 60.4851 9 1986 1 169.3 10 1987 1 350.2 11 1988 1 730.5 12 1989 1 890.3 13 1990 2 985.0 14

3、 1991 2 723.8 15 1992 2 249.2 16 1993 2 484.6 17 1994 2 1475.1 18 1995 3 1086.4 19 1996 3 394.5 20 1997 3 96.1975 21 1998 3 471.9 22 1999 3 958.6 聚类结果散点图:4 / 15 x1 Cluster 1111 1112 1113 习题6.6 解:(1)在proc cluster过程中取选项“ method=single” ,用最短距离法得到的聚 类结果如下所示: Cluster History NCL Clusters Joined FREQ Min

4、Dist T i e 10 N Da 2 1 T 9 Fr I 2 1 T 8 CL9 S 3 1 7 E CL10 3 2 6 CL8 P 4 3 5 CL7 G 4 4 4 CL5 Du 5 5 T 3 CL4 CL6 9 5 2 CL3 H 10 8 T 1 CL2 Fi 11 8 5 / 15 上述聚类过程为:首先在最短距离为 1的时候,将挪威语和丹麦语聚为一 类,得新类CL10=丹麦语,挪威语,其中包含2个样本,这是全部类被分为10 类;其次,将法语和意大利语聚为一类, CL9=法语,意大利语;其中包含两个 样本,这是全部样本被分为 9类,接着在最短距离为2的时候,波兰语被分到 CL

5、9当中,也即CL8=CL皱兰语,然后英语被分到CL10中,的新类CL7=CL10, 英语=丹麦语,挪威语,英语,如此等等,最后在最短距离为 8的时候,所有 类并入CL2中,这样全部样品归为一类,系统聚类结束。 由谱系聚类法能够细致的看出由小到大的聚类过程,由合并时的距离水平 可以看出样本之间的亲疏程度。 然后利用proc tree过程可以画出最短距离谱系图如下所示: 其中以E、N、Da、Du、G、Fr、S、I、P、H、Fi分别代表英语、挪威语、丹 麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语、芬兰语 等11中语言。 I identity E - N - - Da - - G

6、- Du - Fr - - I - - S - - P - H - Fi - 012345678 Minimum Distance Between Clusters (2)最长距离法。在proc cluster过程中选取”method=conplete”,得到最长距离法 聚类过程见下表: Cluster History NCL Clusters Joined FREQ Max Dist T i e 10 N Da 2 1 T 9 Fr I 2 1 T 8 E CL10 3 2 T 6 / 15 7 CL9 S 3 2 6 Du G 2 5 T 5 CL7 P 4 5 4 CL8 CL6 5 7

7、 T 3 H Fi 2 8 2 CL4 CL3 7 9 1 CL2 CL5 11 10 不最短距离法聚类过程相比,倒数第六步两种方法合并次序和合并距离水平有所 丌同。 identity E - N - - Da - - Du - G - H - Fi - 1 Fr - I - - S - - P - j I I I I I I I I I I 0123456789 10 Maximum Distance Between Clusters (3)类平均距离法。在 proc cluster过程中选取”method=average”,得到最长距离 法聚类过程见下表:7 / 15 Cluster Hi

8、story NCL Clusters Joined FREQ Aver Dist T i e 10 N Da 2 1 T 9 Fr I 2 1 T 8 CL9 S 3 1.5 7 E CL10 3 2 6 CL8 P 4 4 5 CL7 G 4 5 T 4 CL5 Du 5 5.75 3 CL4 CL6 9 6.9 2 H Fi 2 8 1 CL3 CL2 11 9.0556 不最短距离法聚类过程相比,倒数第二步两种方法合并次序丌同, 在最长距离聚 类中时将匈牙利语和芬兰语先合并为一类在和 CL3聚为一类。 最长距离聚类法谱系图如下所示: Average Distance Between Cl

9、usters 8 / 15 (4)重心法。在proc cluster过程中选取”method=centroid ”,得到最长距离法聚类 过程见下表:9 / 15 Cluster History NCL Clusters Joined FREQ Squared Cent Dist T i e 10 N Da 2 1 T 9 Fr I 2 1 T 8 CL9 S 3 1.25 7 E CL10 3 1.75 6 CL8 P 4 3.5556 5 CL7 G 4 4.4444 T 4 CL5 CL6 8 4.0625 3 CL4 Du 9 5.3594 2 CL3 Fi 10 6.5679 1 CL

10、2 H 11 6.22 重心法不前述几种方法在类的合并以及距离水平都有所差异 其谱系聚类结果如下所示: identity 2.习题 6.7 解:(1)最长距离法。在 proc cluster过程中选取”method=complete”,得到最长距 离法聚类过程见下表:H Distance Between Cluster Centroids 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 0.0 0.5 1.0 10 / 15 Cluster History NCL Clusters Joined FREQ Max Dist 15 1989 199

11、0 2 13.9 14 1999 2000 2 17.06 13 1985 1986 2 18.83 12 1991 1992 2 29.022 11 1996 1997 2 31.489 10 CL13 1987 3 47.606 9 CL15 CL12 4 53.244 8 CL11 1998 3 68.7 7 1995 CL8 4 81.253 6 CL10 1988 4 118.56 5 CL9 1993 5 123.18 4 CL7 CL14 6 144.09 3 1994 CL4 7 199.95 2 CL6 CL5 9 306.9 1 CL2 CL3 16 672.8 然后得到聚

12、为三类的结果: 第一类:1989、1990、1992、1991、1993 第二类:1999、2000、1996、1997、1998、1995、1994 第三类:1985、1992、1988 Obs years CLUSTER CLUSNAME 1 1989 1 CL5 2 1990 1 CL5 3 1999 2 CL3 4 2000 2 CL3 5 1985 3 CL6 6 1986 3 CL6 7 1991 1 CL5 8 1992 1 CL5 11 / 15 9 1996 2 CL3 10 1997 2 CL3 12 / 15 Obs years CLUSTER CLUSNAME 11 1

13、987 3 CL6 12 1998 2 CL3 13 1995 2 CL3 14 1988 3 CL6 15 1993 1 CL5 16 1994 2 CL3 谱系聚类结杲图: years 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Maximum Distance Between Clusters proc cluster过程中选取”method=average;得到最长距离 Cluster History NCL Clusters Joined FREQ Aver Dist

14、T i e 15 1989 1990 2 13.9 14 1999 2000 2 17.06 13 1985 1986 2 18.83 12 CL15 1991 3 23.508 11 1996 1997 2 31.489 10 CL13 1987 3 38.338 9 CL12 1992 4 42.159 50 00 n50 I00 2 300 400 450 I70 (2 )类平均距离法。在 法聚类过程见下表:、 13 / 15 8 CL11 1998 3 56.317 14 / 15 Cluster History NCL Clusters Joined FREQ Aver Dist T

15、 i e 7 1995 CL8 4 73.327 6 1988 CL9 5 89.989 5 CL7 CL14 6 110.9 4 CL6 1993 6 122.26 3 1994 CL5 7 171.24 2 CL10 CL4 9 185.58 1 CL2 CL3 16 466.34 谱系聚类结果图如下所示: 然后得到聚为三类的结果: 1990、 1992、 1988、 1991、 1993 Obs years CLUSTER CLUSNAME 1 1989 1 CL4 2 1990 1 CL4 3 1999 2 CL3 4 2000 2 CL3 5 1985 3 CL10 1999、 20

16、00、1996、1997、1998、1995、1994 1986、1987、1985 第一类 第二类 第三类 1989、 Average Dista nee Betwee n Clusters years 1985 15 / 15 Obs years CLUSTER CLUSNAME 6 1986 3 CL10 7 1991 1 CL4 8 1996 2 CL3 9 1997 2 CL3 10 1987 3 CL10 11 1992 1 CL4 12 1998 2 CL3 13 1995 2 CL3 14 1988 1 CL4 15 1993 1 CL4 16 1994 2 CL3 (3)对数

17、据进行标准化之后,得到聚为三类的结果分别为: 最长距离法: 聚为三类的结果为: 第一类:1999、2000、1996、1997、1998、1994 第二类结果:1989、1990、1991、1992、1993 第三类结果为:1895、1986、1987、1988 Obs years CLUSTER CLUSNAME 1 1999 1 CL3 2 2000 1 CL3 3 1989 2 CL4 4 1990 2 CL4 5 1985 3 CL6 6 1986 3 CL6 7 1996 1 CL3 8 1997 1 CL3 9 1991 2 CL4 10 1992 2 CL4 11 1987 3

18、CL6 12 1998 1 CL3 13 1995 1 CL3 14 1988 3 CL6 16 / 15 Obs years CLUSTER CLUSNAME 15 1993 2 CL4 16 1994 1 CL3 类平均距离法聚聚为三类的结果: 第一类:1999、2000、1996、1997、1994、1995、1998、 第二类:1989、1990、1991、1992、1993 第三类:1985、1986、1987、1988 Obs years CLUSTER CLUSNAME 1 1999 1 CL3 2 2000 1 CL3 3 1989 2 CL4 4 1990 2 CL4 5 1

19、985 3 CL5 6 1986 3 CL5 7 1991 2 CL4 8 1996 1 CL3 9 1997 1 CL3 10 1987 3 CL5 11 1992 2 CL4 12 1998 1 CL3 13 1995 1 CL3 14 1988 3 CL5 15 1993 2 CL4 16 1994 1 CL3 观察聚类结果发现,在数据标准化之前丌同聚类方法得到的结果丌仅尽相同, 而且在标准化前后聚类结果也是丌要一样的, 但是在数据标准化之后,两种丌同 的聚类方法聚类结果完全相同。 3.习题6.8 解:首先从相关系数矩阵出发,通过变换得到距离矩阵。 令dj 1 5,从D (dj )出发,

20、得到变换之后的距离矩阵:17 / 15 0 0. 423 0 0. 491 0.401 0 0. 613 0.611 0. 564 0 0. 538 0. 538 0. 574 0. 477 0 (1)最短距离聚类法。在proc cluster过程中取选项“ method=single”,用最短距 离法得到的聚类结果如下所示: Cluster History NCL Clusters Joined FREQ Min Dist T i e 4 x2 x3 2 0.5825 3 x1 CL4 3 0.6209 2 x4 x5 2 0.708 1 CL3 CL2 5 0.8394 谱系聚类结果图: identity x1 x2 x3 x4 x5 - 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Minimum Distance Bet

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论