版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§3.3聚类分析概要§3.3聚类分析概要1
聚类分析是研究多要素的客观分类方法,即运用数学方法对不同的样品进行数字分类,定量地确定样品之间的亲疏关系,并按照它们之间的相似程度,归组并类,以便客观分类的一种统计分析方法。它同判别分析同属分类问题,但前提不相同,所给的样本类型和类型数都是未知的。气象学中存在许多分类问题,如气候分类区划、天气过程分类、环流分类、预报因子的合并归类、相似年的确定等。聚类分析是研究多要素的客观分类方法,即运用数2
一、相似性指标统计量1.样品与分类指标对与研究对象有关的m个变量作n次观测,得样本矩阵,称每行为一个分类指标,每一列为一个样品,对样品进行分类;每个样品包含m个指标,即样品的特征用m个指标来描写,可以是一个测站的m个指标的时间分布,也可以是同一指标的m个测站的时空分布。一、相似性指标统计量32.距离和相似系数进行分类,要将特征相似的样品聚为同一类,首先要定义样品之间亲疏程度的数量指标。A、距离样品看作m维空间的点,以某种形式定义点与点之间差异大小(不完全是地理或几何距离),数学上的距离可以有不同定义,但要满足4个条件1)dij=0时,样品i和j恒等(dii=0)唯一性和单一性2)dij≥0,非负性3)dij=dji对称性
4)dij≤dik+dkj三角不等式2.距离和相似系数4
常用距离Minkowski距离:绝对距离Euclid距离
2.Mahalanobis距离马氏距离考虑了类型总体的内部结构,更加合理,但计算繁琐。常用距离绝对距离Euclid距离2.Mahalanobi5
在距离指标中,当样品指标不是同一变量时,各变量对距离的影响与它们的量纲有关,如气温为101,气压为103量级,气压变化对距离的影响远大于气温。克服这一缺点的方法是对各指标标准化
在距离指标中,当样品指标不是同一变量时,各变量对6B相似系数1)
将样品i、j看作m维空间的向量,常用于要素场的相似。包括空间点的相似和时间点的相似度量。B相似系数将样品i、j看作m维空间的向量,常用于要素场7二、类与类的特征1,类的定义由于客观事物的千差万别,在不同问题中,类的含义是不尽相同的,给类下严格地定义是不容易的,有不同的定义。如:定义1:T为一给定的阈值,如果对任意的,有,则称G为一个类。定义2:对阈值T,如果对于每一个,有,则称G为一个类。定义3:对阈值T,如果对于每一个,一定存在使得,则称G为一个类。二、类与类的特征,有,则称G为一个类。定义2:对阈值T,如果82.类的距离由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法,设中分别有l和m个样品,它们之间的距离用D(p,q)表示,常用定义有:最短距离法:即为中最邻近的两个样品的距离。2.类的距离中分别有l和m个样品,它们之间的距离用D(p,92。最长距离法:即为中最远的两个样品的距离。3.重心法:它为两个类的重心间的距离4.类平均法:它等于中所有任意两个样品距离的平均。2。最长距离法:即为中最远的两个样品的距离。3.重心法:它为10§3.4系统聚类法(逐级归并法)系统聚类法是聚类分析中使用最多的方法,其基本思路是:先将n个样品各自看成一类,然后规定样品之间的距离(或相似系数)和类与类之间的距离,开始,将每个样品各自成一类,根据距离选择最相似的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,依次下去,直至所有样品并成一类,或各类之间的距离大于给定阈值T为止。§3.4系统聚类法(逐级归并法)系统聚类11包含步骤(1)计算n个样品两两间的距离{dij}(2)构造n个类,每类只包含一个样品(3)合并距离最近(最相似)的两类为一个新类(4)定义类间距离,计算新类与当前各类的距离。若类的个数等于1,转到(5)。否则回到步骤(3)。(5)画聚类图(6)决定类的个数和类包含步骤12
使用不同的类间距离,便得到不同的系统聚类法。如最短距离法、最长距离法、重心法等。使用不同的类间距离,便得到不同的系统聚类法。如最短13i12345678x12244-4-2-3-1x25343322-3一、最短距离法例对同量纲指标x1和x2进行八次观测得各样品数据如下试以最短距离法将其分类。解:x1和x2为同量纲,无需标准化采用欧氏距离i12345678x12244-4-2-3-1x253433141、计算距离,如d1,3得距离阵:G1G2G3G4G5G6G7G8G10G220G32.22.20G42.8210G56.368.180G654.16.36.12.20G75.85.17.37.11.410G88.56.78.67.86.75.15.40D(0)1、计算距离,如d1,3得距离阵:G1G2G3G4G5G6G153、计算新类与其他类的距离GkGpGqGr例如:
3、计算新类与其他类的距离GkGpGqGr例如:162、定义类间距离在D(0)中,即G3,G4和G6,G7最为相似。故将G3,G4并成G9G6,G7并为G10合并最相似两类Gr={Gp,Gq}2、定义类间距离在D(0)中,即G3,G4和合并最相似两类17删除p,q行和列,加上r行和列得D(1)G1G2G5G8G9G1G22G56.36G88.56.76.7G92.2287.8G1054.11.45.16.14、在D(1)中,D5,10=1.4是最小值,将G5和G10并成G11,进一步计算D(2)删除p,q行和列,加上r行和列G1G2G5G8G9G1G2218G1G2G8G9G1G22G88.56.7G92.227.8G1154.15.16.1在D(2)中,D1,2,D2,9=2是最小元素,将G1,G2,G9合并为新类G12。计算新类与各类的距离:G8G11G8G115.1G126.74.1得D(3),其中D11,12=4.1为最小元素,合并G11,G12为G13D(3)D13,8=5.1最后G13,G8并成一类G14G1G2G8G9G1G22G88.56.7G92.227.819气候统计第三章2聚类分析课件205、画聚类图绘制各次聚类结果。若选择T=3.0,从图可见,1,2,3,4合并一类,5,6,7并成一类,8自成一类,全部样品分成三类为宜。5、画聚类图21
最长距离法、重心法等其他系统聚类法的步骤相同,仅在计算类间距离时的定义不同。最短距离法也可用于变量的分类,分类指标也可用相似系数,在用相似系数时,要找相似系数最大的两类合并,即总是最相似的两类合并。下面看一实例:最长距离法、重心法等其他系统聚类法的步骤相同,仅22
例,某地用4个因子表示气候闷热状况,分别是x1:日平均温度x2:14时气温x3:14时相对湿度x4:日最低气温试根据下表所列相似系数将因子分类G1G2G3G20.93G3-0.74-0.83G40.690.5-0.38例,某地用4个因子表示气候闷热状况,分别是G1G2G323解:G1和G2的相似系数最大,R1,2=max,表明两者最接近,先将它们并成G5。计算G5与G3,G4的相似系数分别为:解:G1和G2的相似系数最大,R1,2=max,表明两者最24G3G4G4-0.38G5-0.740.69R(1)中,R4,5=0.69=max,将G4,G5并成G6G3与G6变化趋势相反,并成一类无意义,聚类结束G3G4G4-0.38G5-0.740.69R(1)中,R425聚类结果中,x1,x2,x4表示温度状态,自然成为一类,而x3是空气湿度因子,物理上属于另一类。聚类结果中,x1,x2,x4表示温度状态,自然成为一26逐步聚类法略
逐步聚类法略27§3.3聚类分析概要§3.3聚类分析概要28
聚类分析是研究多要素的客观分类方法,即运用数学方法对不同的样品进行数字分类,定量地确定样品之间的亲疏关系,并按照它们之间的相似程度,归组并类,以便客观分类的一种统计分析方法。它同判别分析同属分类问题,但前提不相同,所给的样本类型和类型数都是未知的。气象学中存在许多分类问题,如气候分类区划、天气过程分类、环流分类、预报因子的合并归类、相似年的确定等。聚类分析是研究多要素的客观分类方法,即运用数29
一、相似性指标统计量1.样品与分类指标对与研究对象有关的m个变量作n次观测,得样本矩阵,称每行为一个分类指标,每一列为一个样品,对样品进行分类;每个样品包含m个指标,即样品的特征用m个指标来描写,可以是一个测站的m个指标的时间分布,也可以是同一指标的m个测站的时空分布。一、相似性指标统计量302.距离和相似系数进行分类,要将特征相似的样品聚为同一类,首先要定义样品之间亲疏程度的数量指标。A、距离样品看作m维空间的点,以某种形式定义点与点之间差异大小(不完全是地理或几何距离),数学上的距离可以有不同定义,但要满足4个条件1)dij=0时,样品i和j恒等(dii=0)唯一性和单一性2)dij≥0,非负性3)dij=dji对称性
4)dij≤dik+dkj三角不等式2.距离和相似系数31
常用距离Minkowski距离:绝对距离Euclid距离
2.Mahalanobis距离马氏距离考虑了类型总体的内部结构,更加合理,但计算繁琐。常用距离绝对距离Euclid距离2.Mahalanobi32
在距离指标中,当样品指标不是同一变量时,各变量对距离的影响与它们的量纲有关,如气温为101,气压为103量级,气压变化对距离的影响远大于气温。克服这一缺点的方法是对各指标标准化
在距离指标中,当样品指标不是同一变量时,各变量对33B相似系数1)
将样品i、j看作m维空间的向量,常用于要素场的相似。包括空间点的相似和时间点的相似度量。B相似系数将样品i、j看作m维空间的向量,常用于要素场34二、类与类的特征1,类的定义由于客观事物的千差万别,在不同问题中,类的含义是不尽相同的,给类下严格地定义是不容易的,有不同的定义。如:定义1:T为一给定的阈值,如果对任意的,有,则称G为一个类。定义2:对阈值T,如果对于每一个,有,则称G为一个类。定义3:对阈值T,如果对于每一个,一定存在使得,则称G为一个类。二、类与类的特征,有,则称G为一个类。定义2:对阈值T,如果352.类的距离由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法,设中分别有l和m个样品,它们之间的距离用D(p,q)表示,常用定义有:最短距离法:即为中最邻近的两个样品的距离。2.类的距离中分别有l和m个样品,它们之间的距离用D(p,362。最长距离法:即为中最远的两个样品的距离。3.重心法:它为两个类的重心间的距离4.类平均法:它等于中所有任意两个样品距离的平均。2。最长距离法:即为中最远的两个样品的距离。3.重心法:它为37§3.4系统聚类法(逐级归并法)系统聚类法是聚类分析中使用最多的方法,其基本思路是:先将n个样品各自看成一类,然后规定样品之间的距离(或相似系数)和类与类之间的距离,开始,将每个样品各自成一类,根据距离选择最相似的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,依次下去,直至所有样品并成一类,或各类之间的距离大于给定阈值T为止。§3.4系统聚类法(逐级归并法)系统聚类38包含步骤(1)计算n个样品两两间的距离{dij}(2)构造n个类,每类只包含一个样品(3)合并距离最近(最相似)的两类为一个新类(4)定义类间距离,计算新类与当前各类的距离。若类的个数等于1,转到(5)。否则回到步骤(3)。(5)画聚类图(6)决定类的个数和类包含步骤39
使用不同的类间距离,便得到不同的系统聚类法。如最短距离法、最长距离法、重心法等。使用不同的类间距离,便得到不同的系统聚类法。如最短40i12345678x12244-4-2-3-1x25343322-3一、最短距离法例对同量纲指标x1和x2进行八次观测得各样品数据如下试以最短距离法将其分类。解:x1和x2为同量纲,无需标准化采用欧氏距离i12345678x12244-4-2-3-1x253433411、计算距离,如d1,3得距离阵:G1G2G3G4G5G6G7G8G10G220G32.22.20G42.8210G56.368.180G654.16.36.12.20G75.85.17.37.11.410G88.56.78.67.86.75.15.40D(0)1、计算距离,如d1,3得距离阵:G1G2G3G4G5G6G423、计算新类与其他类的距离GkGpGqGr例如:
3、计算新类与其他类的距离GkGpGqGr例如:432、定义类间距离在D(0)中,即G3,G4和G6,G7最为相似。故将G3,G4并成G9G6,G7并为G10合并最相似两类Gr={Gp,Gq}2、定义类间距离在D(0)中,即G3,G4和合并最相似两类44删除p,q行和列,加上r行和列得D(1)G1G2G5G8G9G1G22G56.36G88.56.76.7G92.2287.8G1054.11.45.16.14、在D(1)中,D5,10=1.4是最小值,将G5和G10并成G11,进一步计算D(2)删除p,q行和列,加上r行和列G1G2G5G8G9G1G2245G1G2G8G9G1G22G88.56.7G92.227.8G1154.15.16.1在D(2)中,D1,2,D2,9=2是最小元素,将G1,G2,G9合并为新类G12。计算新类与各类的距离:G8G11G8G115.1G126.74.1得D(3),其中D11,12=4.1为最小元素,合并G11,G12为G13D(3)D13,8=5.1最后G13,G8并成一类G14G1G2G8G9G1G22G88.56.7G92.227.846气候统计第三章2聚类分析课件475、画聚类图绘制
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 说课模板及框架图
- 人教部编版四年级语文上册第20课《陀螺》精美课件
- 算法设计与分析 课件 5.5.1-动态规划应用-矩阵连乘-问题描述和分析
- 2024年伊春客运从业资格证理论考试题
- 2024年呼和浩特客运资格考试考题题库答案
- 2024年河池客运资格证考试试题模拟
- 吉首大学《教师综合素质强化》2021-2022学年第一学期期末试卷
- 吉首大学《程序设计基础实验》2021-2022学年期末试卷
- 《机床夹具设计》试卷22
- 吉林艺术学院《艺术专题策划》2021-2022学年第一学期期末试卷
- 分包单位资格报审表-填写模板
- 城市经济学习题与答案
- 马工程《马克思主义发展史》课后习题答案
- 《培养良好的卫生习惯》主题班会(30张)课件
- 1到50带圈数字直接复制
- 医学学员沟通和接诊能力面试评分表
- 创业指导师培训计划
- 幼儿园中班数学《有趣的图形》课件
- 四年级上册数学课件-4.6 整数的四则运算(运算定律)▏沪教版 (共15张PPT)
- 《饲料标签》国标
- DB11-415-2016危险货物道路运输安全技术要求
评论
0/150
提交评论