版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、MeiWei 81重点借鉴文档】 合肥学院 2015-2016 第二学期 多元统计分析课程论文 论文题目聚类分析 姓名 学号 专业 数学与应用数学(1) 成绩 2015.5 聚类分析 摘要:本论文为了研究南部海洋1970-1985年这15年20个站点的平 均每年每月的表而空气温度数据分为几类最合适。用南部海洋 1970-1985年20个站点的平均每年每月的表面空气温度数据中,所 有数据两两数据间距离的平均作为类间距离,使用聚类分析中的最长 距离法,运用SAS软件,从而得岀相应的数据,分析数据即确定了南 部海洋1970-1985年这15年20个站点的平均每年每月的表而空气温 度数据分为几类最合适
2、。 关键词:聚类分析最长距离法SAS软件分类 一、聚类分析理论 1、数据的变换方法 (1)中心变换 变换 =-耳(,=1,2,,川;丿=1,2,.,加)称为中心化变换。它是一种标准 化处理方法,变换后数据的均值为0,而协方差阵不变,即协差阵为 1 n1 /I S=S=(%),其中 Sjj = (X,r. - J, )(xr - Xj ) = 22o 中心化变换 川 _ f-1 _ f-1 是一种方便地计算样木协差阵的变换。 MeiWei_81重点借鉴文档】 MeiWei 81重点借鉴文档】 (2)标准化变换 、X X 变换易= _ 0 = 1,2,= 1,2,,加) 称为标准化变换,变换后的数
3、据,每个变量的样本均值为0,标准差 为1,而且标准化变换后的数据技;与变量的量纲无关。 (3)对数变换 变换 x; = log (叼)(旳 0,i = 1, Z ,隔 J = 1,2,皿) 称为对数变换,它可将具有指数特征的数据结构化为线性数据结构 此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性 数据结构变为线性数据结构。 称变换 (4)极差标准化变换 称变换 X-J = (/ = 1,2,71; J = 1,2,7H) 称为极差标准化变换,变换后的数据,每个变量的样本均值为o,极 差为1,且|x;|l,在以后的分析计算中可以减少误差的产生;同时 变换后的数据也是无量纲的量。 5
4、.极差正规化变换 称变换y 汇吗( inputgroups$Rl-R12; MeiWei_81重点借鉴文档】 MeiWei 81重点借鉴文档】 cards; 坎贝尔岛 9.59.7 9.18.07. 1 49 5 9 5 8 4 8 G 5 75 9.1 Leeuwin19 920 0 190 17 5 15 8 14 9 13 912. 8 12.914.115.0 175 开普敦 19620.816 1 18 9 13 9 11 8 11 .1 11.5 120 15.917.420.9 查塔姆岛13314.813 6 12 0 10 9 沢4 7.5 8 9 9 6 10.2 123 1
5、28 克罗泽 10611.28. 6 66 4 7 3 9 3 1 2 9 26 37 4 8 6 0 戈夫岛 14014.012 .712 .8 10 9 93 9.1 9. 2 9 2 10.1 123 145 格瑞特威肯 4.9 5.7 4.9 2. 8 -04 -0 8 _2 5 01 1 5 2 0 39 32 复活节岛23023.322 .8 21 7 21 5 18 9 19 2 18.0 179 19.621.220.5 胡安费尔南德兹 17.517 316 5 15 4 14 9 13 .4 128 116 12.514.216.9 173 凯尔盖朗 8.59.37.2 6.
6、6 3. 4 1 3 2. 0 2 6 2 5 3 4 52 71 maatsuRker15 116 4 151 13 4 11 1 93 1 8 1 88 10 1 10.913.7 麦夸里岛 8.18.07.36.0 5. 6 44 4 5 4 5 2 5 4 3 49 70 玛丽恩岛 7.68.3 5.88.34. 6 40 3 7 3 2 3 1 4 5 53 60 新阿姆斯特丹岛 17.417 .415 .8 15 9 13 5 12 .5 11.0 113 11.211.112.9 157 皮特克恩岛 22.522.9 230 21 6 21 4 20 4 19 .417. 9 1
7、8.719.821.6 217 蓬塔阿雷纳斯8.68.37.65. 7 23 0 8 0 5 2 8 3 8 68 7.5 8 0 拉乌尔 22.421.922 0 20 .7 19 .0 18. 8 16 1 172 172 18.219.120.2 白菜 23524.724.1 233 21 4 19 0 18 4 17 918. 9 20.120.921.7 拉罗汤加岛 25.825.8 262 26 3 24 5 23 4 23 0 22. 0 23.123.724.4 256 斯坦利 8.2 8.2 7.65.93. 0 25 1 6 3 1 4 6 5 7 68 72 proccl
8、usterdata=jIfRmethod=compseudo cccouttree=BjIfR; varRl-R12; idgroups; proctreedat;a=B j IfRhorizontalgraphics; title 数据不变换.使用最长距离法的谱系聚类图1 ; run; 输岀结果一: MeiWeL81重点借鉴文档】 MeiWeL81重点借鉴文档】 SAS系统 CLUSTER 过程 最长距离聚类分析 协右差矩阵的特征值 特征値 差分 比例 震枳 1 555.065691 551.083556 0.9828 0.9828 2 S.982135 1.350673 0.0071 0.
9、9898 3 2.631461 1.252767 0.0047 0.9945 4 1.378694 0.829523 0.0024 0.9969 5 0.549171 0.164652 0.0010 0.9979 6 0.384520 0.082137 0.0007 0.9986 7 0.302382 0.078125 0.0005 0.9991 8 0.224257 0.085946 0.0004 0.9995 9 0.138312 0.038399 0.0002 0.9998 10 0.09991 S 0.072213 0.0002 0.9999 11 0.027700 0.017698
10、0.0000 1.00Q0 12 0.010001 0.0000 1.00QQ 根均右总样本标准差 6.86048 观测之间的平均距冉 28.23777 输岀结果二: MeiWeL81重点借鉴文档】 MeiWeL81重点借鉴文档】 000060402005040302010 S5窝数 史 历 类 聚 i 类 聚 接 连 偏方 半R - 霧 82肆 统 rrnumce onLm Nilrta - 9 1 岛 节 活 2 00 1 6 23 8 1 雷 阿 塔 篷 利 坦 斯 2 999 95 1 7 1 塔 查 岛 夫 戈 2 999 89 1 6 1 9 L1 6 3 ?8 99 68 1 5
11、 5 1 S 里 夸 麦 2 )8 99 63 1 4 1 3 7 99 8 4 1 4 2. 13 泽 罗 克 2 6 99 42 1 2 1 3 L1 CL 5 L1 CL 4 994 6 2 1 2.1 1 尔 安 胡 2 3 99 23 1 O 1 尔 拉 4 O 99 5 1 1 5 5 9 1 敦 5 开 3 988 O 1 8 1 8 2 L1 CL 8 L1 CL 6 84 9 07 1 8 3. 7 4 LI CL 4 79 9 03 1 4 7 6 CL8 7 75 9 O O 3. 5 L9 L7 CL 7 O 5 9 4 1 7 9 1 1 4 o LI CL 5 6
12、3 9 948 70 5 77 9 3. 1 3 L6 CL 8 2 92 03 9 0.80 01 1 1 7 2 CL5 CL4 2 1 7 72 6 6 7 68 - 8 47 8 8 3 1 CL3 CL2 20 00 O 00 00 00 0. 8 47 6 2 75 2. 朶类数准则 输出结果三: MeiWei_81重点借鉴文档】 MeiWeL81重点借鉴文档】 聚类分析 拉罗汤加 拉乌尔 白菜- 皮待克恩- 复活芳岛 新阿虑斯- maakuyk 戈天岛 査塔鸭岛 开普敦 胡安费尔 Leeuwin 格瑞特威 斯坦利- 蓮塔何富 玛丽恩岛 麦夸里比 凯尔茏朗 克段泽- 坎贝趴岛 0.
13、00.51.01.5 2.0 2.5 聚类之间的晁大距癣 最长距宴烫类分新 数据不变换、使用最长距离法的谱系聚类图 输岀结果一为12个聚类变量的协方差阵的特征值等信息。 MeiWeL81重点借鉴文档】 MeiWei 81重点借鉴文档】 从输出结果二可以看出:心准则支持分为二类和三类;伪f统计量支持分为三类; 伪t方统计量支持分为二类和三类。 综合分析,认为用最长距离法20个站点分为三类较合适。 从输出结果三可以看出分为三类的结果: Gf = 坎贝尔岛,克罗泽,凯尔盖朗,麦夸里岛,玛丽恩岛,蓬塔阿雷纳斯,斯坦利,格 瑞特威肯 Gf = Leeuwin.胡安费尔南德兹,开普敦,查塔姆岛,戈夫岛maatsuRker,新阿姆 斯特丹岛 Gj = 复活节岛,皮特克恩岛,口菜,拉乌尔,拉罗汤加岛 四、总结 通过南部海洋1970-1985年这15年20个站点的平均每年每月的表而 空气温度数据进行聚类分析,我得到了南部海洋1970-1985年这15 年20个站点的平均每年每月的表而空气温度数据分为三类最合适这 一结论。 详细地说,即从以上分析可以看出,疋的准则支持分为二类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石河子大学《食品工程原理二》2021-2022学年第一学期期末试卷
- 石河子大学《现代人工智能技术》2023-2024学年期末试卷
- 石河子大学《家畜繁殖学》2022-2023学年第一学期期末试卷
- 沈阳理工大学《自动控制理论》2021-2022学年期末试卷
- 沈阳理工大学《建筑模型制作与工艺》2021-2022学年第一学期期末试卷
- 沈阳理工大学《电工与电子技术实验》2023-2024学年期末试卷
- 光伏代理商合同范本
- 沈阳理工大学《环境设计》2021-2022学年第一学期期末试卷
- 海事法院 合同解除 典型案例
- 合同到期的续签申请书
- 小米公司CIS设计
- 【可行性报告】2023年年烟草行业项目可行性分析报告
- 《茶叶审评技术》课程考试复习题库(含答案)
- 泡沫塑料行业消防安全制度设立与监察
- 《非连续性文本解读》
- 表演专业大学生职业生涯规划书
- 网络安全防御综合态势感知系统项目可行性分析报告
- 螺纹紧固件知识
- NET Core 底层入门(完整版)
- 浅谈歌曲《红豆词》的艺术特征
- 【设计师】访谈平面设计师
评论
0/150
提交评论