聚类分析.doc_第1页
聚类分析.doc_第2页
聚类分析.doc_第3页
聚类分析.doc_第4页
聚类分析.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

合肥学院20152016第二学期多元统计分析课程论文论文题目 聚类分析 姓 名 陈毅 学 号 1307021036 专 业 数学与应用数学(1)成 绩 2015.5聚类分析摘要:本论文为了研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。用南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据中,所有数据两两数据间距离的平均作为类间距离,使用聚类分析中的最长距离法,运用SAS软件,从而得出相应的数据,分析数据即确定了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。关键词:聚类分析 最长距离法 SAS软件 分类一、聚类分析理论1、数据的变换方法(1)中心变换变换 称为中心化变换。它是一种标准化处理方法,变换后数据的均值为0,而协方差阵不变,即协差阵为 ,其中 。中心化变换是一种方便地计算样本协差阵的变换。(2)标准化变换变换称为标准化变换,变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据 与变量的量纲无关。(3)对数变换变换 称为对数变换,它可将具有指数特征的数据结构化为线性数据结构此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构。称变换(4)极差标准化变换称变换称为极差标准化变换,变换后的数据,每个变量的样本均值为0,极差为1,且 ,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量。5.极差正规化变换称变换为极差正规化变换。变换后的数据 ;极差也为1,同时变换后的数据也是无量纲的量。2、距离的定义1.闵科夫斯基(Minkowski)距离称 为闵科夫斯基距离。(1)绝对值距离:在上式中,当q=1时的一阶闵科夫斯基距离为 称它为绝对值距离。(2)欧氏距离:取 ,就可以得到二阶闵科夫斯基距离为称它为欧氏距离。3、系统聚类法的思想(1)定义样品间的距离(或相似系数)和类与类之间的距离;(2)将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;(3)然后将距离最近的两类合并,并计算新类与其他的类间距离,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都成一类为止。这个并类过程可以用谱系聚类图形像地表达出来4、系统聚类的步骤(1)数据变换:可以使用上节介绍的方法对数据进行变换。数据变换目的是为了便于比较、计算上的方便或改变数据的结构。选择试题样品间距离的定义(如欧氏距离)及度量类间距离的定义。(2)计算n个样品两两间的距离,得样品间的距离矩阵 。(3)一开始n样品各自构成一类,类的个数 个类: ,此时类间距离就是样品间的距离(即 )然后对步骤 执行并类过程(4)和(5).(4)每次合并类间距离最小的两类为一新类,此时类的总个数k减少到1类,即 。(5)计算新类与其他类的距离,得到新的距离矩阵,若合并后类的总个数k仍大于1,重复(4)和(5)步,直到类的总个数为1为止。(6)画谱系聚类图。(7)决定分类的个数及各类的成员。二、问题提出与分析现有南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据,请用聚类分析研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。数据资料如下表所示:观测站点一月二月三月四月五月六月七月八月九月十月十一月十二月坎贝尔岛8.07.59.1Leeuwin19.920.019.017.515.814.913.912.812.914.115.017.5开普敦19.620.816.118.913.911.811.111.512.015.917.420.9查塔姆岛13.314.813.612.08.99.610.212.312.8克罗泽10.64.86.0戈夫岛14.014.012.712.812.314.5格瑞特威肯2.8-0.4-0.8-2.03.93.2复活节岛23.023.322.821.721.518.919.218.017.919.621.220.5胡安费尔南德兹17.517.316.515.414.913.412.811.612.514.216.917.3凯尔盖朗2.05.27.1maatsuyker15.116.415.113.48.18.810.110.913.7麦夸里岛8.18.07.36.04.97.0玛丽恩岛新阿姆斯特丹岛17.417.415.815.913.512.511.011.315.7皮特克恩岛22.522.923.021.621.420.419.417.918.719.821.621.7蓬塔阿雷纳斯拉乌尔22.421.922.020.719.018.8白菜23.524.724.123.321.419.018.417.918.920.120.921.7拉罗汤加岛25.825.826.226.324.523.423.022.023.123.724.425.6斯坦利5.93.07.2https:/legacy.bas.ac.uk/met/READER/temperature.html该问题是聚类分析问题,实际中通常要解决以下问题:(1)会对实际问题进行聚类分析;(2)掌握SAS输出结果用于判别实际问题的数据分为几类最合适。在本问题中,即用于判别南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。三、模型建立程序:data jlfx;input groups $ x1-x12;cards;坎贝尔岛8.07.59.1Leeuwin19.920.019.017.515.814.913.912.812.914.115.017.5开普敦19.620.816.118.913.911.811.111.512.015.917.420.9查塔姆岛13.314.813.612.08.99.610.212.312.8克罗泽10.64.86.0戈夫岛14.014.012.712.812.314.5格瑞特威肯2.8-0.4-0.8-2.03.93.2复活节岛23.023.322.821.721.518.919.218.017.919.621.220.5胡安费尔南德兹17.517.316.515.414.913.412.811.612.514.216.917.3凯尔盖朗2.05.27.1maatsuyker 15.116.415.113.48.18.810.110.913.7麦夸里岛8.18.07.36.04.97.0玛丽恩岛新阿姆斯特丹岛17.417.415.815.913.512.511.011.315.7皮特克恩岛22.522.923.021.621.420.419.417.918.719.821.621.7蓬塔阿雷纳斯拉乌尔22.421.922.020.719.018.8白菜23.524.724.123.321.419.018.417.918.920.120.921.7拉罗汤加岛25.825.826.226.324.523.423.022.023.123.724.425.6斯坦利5.93.07.2;proc cluster data=jlfx method=com pseudoccc outtree=Bjlfx;var x1-x12;id groups;proc tree data=Bjlfx horizontal graphics;title数据不变换、使用最长距离法的谱系聚类图;run;输出结果一:输出结果二:输出结果三:结果分析:输出结果一为12个聚类变量的协方差阵的特征值等信息。从输出结果二可以看出: 准则支持分为二类和三类;伪F统计量支持分为三类 ;伪t方统计量支持分为二类和三类。综合分析,认为用最长距离法20个站点分为三类较合适。从输出结果三可以看出分为三类的结果: 坎贝尔岛, 克罗泽, 凯尔盖朗, 麦夸里岛, 玛丽恩岛, 蓬塔阿雷纳斯, 斯坦利, 格瑞特威肯 Leeuwin, 胡安费尔南德兹, 开普敦, 查塔姆岛, 戈夫岛, maatsuyker, 新阿姆斯特丹岛 复活节岛, 皮特克恩岛, 白菜, 拉乌尔, 拉罗汤加岛 四、总结通过南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据进行聚类分析,我得到了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为三类最合适这一结论。详细地说,即从以上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论