聚类分析与单因素方差分析简介ppt课件_第1页
聚类分析与单因素方差分析简介ppt课件_第2页
聚类分析与单因素方差分析简介ppt课件_第3页
聚类分析与单因素方差分析简介ppt课件_第4页
聚类分析与单因素方差分析简介ppt课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 聚类分析与聚类分析与方差分析方差分析: :一、聚类分析一、聚类分析(cluster analysis): :1、聚类分析、聚类分析(Cluster Analysis)简介简介聚类分析是直接比较各事物之间的性质,将聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。入不同的类的分析技术。现实现实情形情形QQ分组分组衣物放置衣物放置朋友,同学朋友,同学网友网友有助于有助于快速判快速判断断: :2、聚类对象、聚类对象聚类的目的聚类的目的待分析对象待分析对象根据亲疏程度根据亲疏程度分类分类提取特征指标提取特征指标Q型

2、聚类:对样本进行分类型聚类:对样本进行分类R型聚类:对指标型聚类:对指标(变量变量)进行分类进行分类两种两种聚类聚类: :Q型聚类:对样本进行分类型聚类:对样本进行分类作用:作用:能利用多个变量对样本进行分类;能利用多个变量对样本进行分类;分类结果直观,聚类谱系图能明确、清楚分类结果直观,聚类谱系图能明确、清楚地表达其数值分类结果;地表达其数值分类结果;所得结果比传统的定性分类方法更细致、所得结果比传统的定性分类方法更细致、全面、合理。全面、合理。: :R型聚类:对指标型聚类:对指标(变量变量)进行分类进行分类作用:作用:了解变量间及变量组合间的亲疏关系;了解变量间及变量组合间的亲疏关系;根据

3、变量的聚类结果及它们之间的关系,根据变量的聚类结果及它们之间的关系,选择主要变量进行回归分析或选择主要变量进行回归分析或Q型聚类型聚类分析。分析。: :3、聚类过程与方法、聚类过程与方法构造关系矩阵构造关系矩阵数据预处理数据预处理确定最佳分类确定最佳分类标准化标准化亲疏关系的描述亲疏关系的描述聚类聚类根据不同方法进行分类根据不同方法进行分类类别数类别数1234: :例例1、下表给出了、下表给出了1982年全国年全国28个省、市、自个省、市、自治区农民家庭收支情况这里节选治区农民家庭收支情况这里节选6个地区,个地区,全部数据见附全部数据见附1.),), 有六个指标,利用调查资有六个指标,利用调查

4、资料进行聚类分析,为经济发展决策提供依据。料进行聚类分析,为经济发展决策提供依据。地区地区 食品食品 衣着衣着 燃料燃料住房住房 生活用品生活用品文化生活文化生活北京北京196449.760.5449.019.04上海上海2213913115.6550.825.89广东广东1832118423712四川四川138211118164.4贵州贵州122221314124.6云南云南124208.914163思考思考1:指标单位若不同,应如何处理?:指标单位若不同,应如何处理?思考思考2:如何衡量样本的相似性?:如何衡量样本的相似性?: :思考思考1 1:指标单位若不同,应如何处理?:指标单位若不同

5、,应如何处理?思考思考2 2:如何衡量样本的相似性?:如何衡量样本的相似性?若指标单位不同,应消除量纲的影响若指标单位不同,应消除量纲的影响例如可采用办法:标准分数例如可采用办法:标准分数(z score)直观:直观: 间隔间隔 夹角夹角 夹角余弦夹角余弦为简化,取两个为简化,取两个指标,做平面图指标,做平面图: :思考思考2 2:如何衡量样本的相似性?:如何衡量样本的相似性?直观:直观: 相关系数相关系数 夹角余弦夹角余弦所有指标一起考虑,如何处理?所有指标一起考虑,如何处理?分类思想:分类思想: 间隔或相似度相近的划分为同一类。间隔或相似度相近的划分为同一类。: :为了便于后面的说明,作如

6、下假设:为了便于后面的说明,作如下假设: nmnmxxxxX1111均值表示为均值表示为 niijjxnx11标准差表示为标准差表示为 nijijjxxnS1211所有样本表示为所有样本表示为极差表示为极差表示为ijniijnijxxR 11minmax: :(1数据预处理数据预处理 Z Scores:标准化变换:标准化变换 mjniSSSxxxjjjjijij, 2 , 1, 2 , 1000*若若若若 指标变量的量纲不同或数量级相差很大,指标变量的量纲不同或数量级相差很大,为了使这些数据能放到一起加以比较,常为了使这些数据能放到一起加以比较,常需做变换。需做变换。 下面给出两种常见数据预处

7、理方法。下面给出两种常见数据预处理方法。: : Range 0 to 1(极差正规化变换极差正规化变换 / 规格化变换规格化变换)作用:变换后的数据最小为作用:变换后的数据最小为0,最大为,最大为1,其,其余在区间余在区间0,1内,极差为内,极差为1,无量纲。,无量纲。 mjniRRRxxxjjjijniijij, 2 , 1, 2 , 105 . 00min1*若若若若作用:变换后的数据均值为作用:变换后的数据均值为0,标准差为,标准差为1,消去了量纲的影响;当抽样样本改变时,它消去了量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。这是最常用的方法。仍能保持相对稳定性。这是最常用的方法。

8、: :3、聚类过程与方法、聚类过程与方法构造关系矩阵构造关系矩阵数据预处理数据预处理确定最佳分类确定最佳分类标准化标准化亲疏关系的描述亲疏关系的描述聚类聚类根据不同方法进行分类根据不同方法进行分类类别数类别数1234: :(2构造关系矩阵构造关系矩阵 描述变量或样本的亲疏程度的数量指标描述变量或样本的亲疏程度的数量指标有两种:有两种:相似系数相似系数性质越接近的样品,相似系性质越接近的样品,相似系数越接近于数越接近于1或或-1;彼此无关的样品相似系;彼此无关的样品相似系数则接近于数则接近于0,聚类时相似的样品聚为一类,聚类时相似的样品聚为一类间隔间隔将每一个样品看作将每一个样品看作m维空间的一

9、个维空间的一个点,在这点,在这m维空间中定义距离,距离较近的维空间中定义距离,距离较近的点归为一类。点归为一类。相似系数与距离有相似系数与距离有40多种,但常用的只是多种,但常用的只是少数少数: :构造关系矩阵的常用测度构造关系矩阵的常用测度 1. Euclidean distance:欧氏距离:欧氏距离(二阶(二阶Minkowski距离)距离) iiiyxyxd2)(),( *Squared Eucidean distance:平方欧氏距离:平方欧氏距离 iiiyxyxd2)(),(: :构造关系矩阵的常用测度构造关系矩阵的常用测度 2. Block:绝对值距离一阶:绝对值距离一阶Minko

10、wski度量)度量)(又称(又称Manhattan度量或网格度量、度量或网格度量、 马马氏距离、广义欧氏距离)氏距离、广义欧氏距离) iiiyxyxd),(1: :构造关系矩阵的常用测度构造关系矩阵的常用测度 3. Cosine:夹角余弦:夹角余弦(相似性测度相似性测度) iiiiiiiyxyxyx22),cos(: :构造关系矩阵的常用测度构造关系矩阵的常用测度 4. Pearson correlation:皮尔逊相关系数:皮尔逊相关系数 (简单相关系数)(简单相关系数) niiniiniiiyyxxyyxxr12121: :3、聚类过程与方法、聚类过程与方法构造关系矩阵构造关系矩阵数据预处

11、理数据预处理确定最佳分类确定最佳分类标准化标准化亲疏关系的描述亲疏关系的描述聚类聚类根据不同方法进行分类根据不同方法进行分类类别数类别数1234: :(3选择聚类方法选择聚类方法 确定了样品或变量间的距离或相似系数确定了样品或变量间的距离或相似系数后,就要对样品或变量进行分类。后,就要对样品或变量进行分类。 分类的一种方法是系统聚类法又称谱分类的一种方法是系统聚类法又称谱系聚类);另一种方法是调优法如动态系聚类);另一种方法是调优法如动态聚类法就属于这种类型)。此外还有模糊聚类法就属于这种类型)。此外还有模糊聚类、图论聚类、聚类预报等多种方法。聚类、图论聚类、聚类预报等多种方法。 我们主要介绍

12、系统聚类法我们主要介绍系统聚类法(实际应用中使实际应用中使用最多用最多)。: :系统聚类法的基本思想系统聚类法的基本思想a) 令令n个样品自成一类,计算出相似性测度;个样品自成一类,计算出相似性测度;b) 此时类间距离与样品间距离是等价的,此时类间距离与样品间距离是等价的,把测度最小的两个类合并;把测度最小的两个类合并;c) 然后按照某种聚类方法计算类间的距离,然后按照某种聚类方法计算类间的距离,再按最小距离准则并类;再按最小距离准则并类;d) 这样每次减少一类,持续下去直到所有这样每次减少一类,持续下去直到所有样品都归为一类为止。样品都归为一类为止。e) 聚类过程可做成聚类谱系图聚类过程可做

13、成聚类谱系图(Hierarchical diagram)。: :常见类间距离的计算方法常见类间距离的计算方法a) Between-groups linkage 组间平均距离连接法组间平均距离连接法用用D(p,q)表示类表示类p和类和类q之间的距离之间的距离 方法简述:将两个类所有的样本对样本对的方法简述:将两个类所有的样本对样本对的两个成员分属于不同的类的平均距离作为两类两个成员分属于不同的类的平均距离作为两类的距离,合并距离最近或相关系数最大的两类。的距离,合并距离最近或相关系数最大的两类。此方法利用了两个类中所有的样本信息。此方法利用了两个类中所有的样本信息。 : :a) Between-

14、groups linkage 组间平均距离连接法组间平均距离连接法特点:非最大距离,也非最小距离特点:非最大距离,也非最小距离 pqGiGjijdjiqpD1),(考虑:除了用平均值作为特征值外,还考虑:除了用平均值作为特征值外,还可采用什么特征值?可采用什么特征值?: :b) Nearest neighbor 最近邻法最短距离法)最近邻法最短距离法)方法简述:用两类中所有样本对的距离的最小方法简述:用两类中所有样本对的距离的最小值作为两类的距离,合并最近或最相似的两项。值作为两类的距离,合并最近或最相似的两项。特点:样品有链接聚合的趋势,这是其缺点,特点:样品有链接聚合的趋势,这是其缺点,不

15、适合一般数据的分类处理,除去特殊数据外,不适合一般数据的分类处理,除去特殊数据外,不提倡用这种方法。不提倡用这种方法。: :c) Furthest neighbor 最远邻法最长距离法)最远邻法最长距离法)方法简述:用两类之间最远点的距离代表两类方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法。之间的距离,也称之为完全连接法。d) Median clustering 中位数法中位数法方法简述:以用两类中所有样本对的距离中位方法简述:以用两类中所有样本对的距离中位数作为两类间的距离。数作为两类间的距离。特点:图形将出现递转,谱系树状图很难跟踪,特点:图形将出现递转,谱系树状

16、图很难跟踪,因而这个方法几乎不被人们采用。因而这个方法几乎不被人们采用。: :e) Centroid clustering 重心聚类法重心聚类法方法简述:两类间的距离定义为两类重心之间方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属的距离,对样品分类而言,每一类中心就是属于该类样品的均值。于该类样品的均值。特点:该距离随聚类地进行不断缩小。该法的特点:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算谱系树状图很难跟踪,且符号改变频繁,计算较烦。较烦。: :f) Within-groups linkage 组内平均连接法组内平均连接法方法

17、简述:两类合并为一类后,合并后的类中方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小所有项之间的平均距离最小,包括两个类之间的包括两个类之间的样本对以及两个类内的样本对。样本对以及两个类内的样本对。: :f) Wards method 离差平方和法离差平方和法方法简述:基于方差分析思想,如果分类合理,方法简述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间则同类样品间离差平方和应当较小,类与类间离差平方和应当较大。离差平方和应当较大。特点:实际应用中分类效果较好,应用较广;特点:实际应用中分类效果较好,应用较广;要求样品间的距离必须是欧氏距离。要求样品

18、间的距离必须是欧氏距离。: :续例续例1、对、对1982年年6个地区农民家庭收支情况,个地区农民家庭收支情况,进行聚类分析。进行聚类分析。地区地区 食品食品 衣着衣着 燃料燃料住房住房生活用品生活用品 文化生活文化生活北京北京 196449.760.5449.019.04上海上海 2213913115.6550.825.89广东广东 1832118423712四川四川 138211118164.4贵州贵州 122221314124.6云南云南 124208.914163 这里这里6个变量都以元为单位,量纲相同且个变量都以元为单位,量纲相同且数量级相差不大,可以不用做标准化处理。数量级相差不大,

19、可以不用做标准化处理。: :方法:方法:样本间距离样本间距离采用平方欧氏距离;采用平方欧氏距离;类间距离类间距离 采用组间平均距离连接法采用组间平均距离连接法此时,距离越小越相似!此时,距离越小越相似!5 5、6 6最相似最相似: :类间距离类间距离采用组间平均距离连接法采用组间平均距离连接法5.贵州贵州6.云南云南4.四川四川293.04219.37均值均值256.205: :类间距离类间距离采用组间平均距离连接法采用组间平均距离连接法图表阅读说明:图表阅读说明: 以以stage 2为例为例地区地区5在在stage 1中出现过中出现过;stage 2这里的类,下一次将在第这里的类,下一次将在

20、第5步再次步再次参与聚类,衔接地区是地区参与聚类,衔接地区是地区4: :类似进行下去,可得聚类谱系图树状图)类似进行下去,可得聚类谱系图树状图): :3、聚类过程与方法、聚类过程与方法构造关系矩阵构造关系矩阵数据预处理数据预处理确定最佳分类确定最佳分类标准化标准化亲疏关系的描述亲疏关系的描述聚类聚类根据不同方法进行分类根据不同方法进行分类类别数类别数1234: :(4谱系分类的确定谱系分类的确定经过系统聚类法处理后,得到聚类树状谱经过系统聚类法处理后,得到聚类树状谱系图,系图,Demirmen(1972)提出了应根据研究提出了应根据研究的目的来确定适当的分类方法,并提出了的目的来确定适当的分类

21、方法,并提出了一些根据谱系图来分类的准则:一些根据谱系图来分类的准则:任何类都必须在临近各类中是突出的,即任何类都必须在临近各类中是突出的,即各类重心间距离必须极大各类重心间距离必须极大确定的类中,各类所包含的元素都不要过确定的类中,各类所包含的元素都不要过分地多分地多分类的数目必须符合实用目的分类的数目必须符合实用目的若采用几种不同的聚类方法处理,则在各若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类自的聚类图中应发现相同的类: :28个地区聚类图个地区聚类图: :二、方差分析二、方差分析(ANOVA) (Analysis of Variance): :1、方差分析、方差分析(

22、ANOVA)引例引例例例2、某电器公司用四种不同配料方案生产出四、某电器公司用四种不同配料方案生产出四批元件,在每一批元件中取出若干个分别装在批元件,在每一批元件中取出若干个分别装在整机中作寿命试验,得到如下数据整机中作寿命试验,得到如下数据(单位:小时单位:小时)元元件件A11600161016501680170017201800A215801640164017001750A314601550160016201640166017401820A4151015201530157016001680 考察用不同的配料方案所生产的元件,其使考察用不同的配料方案所生产的元件,其使用寿命有没有显著差异?用

23、寿命有没有显著差异?方差分析示例方差分析示例: :思考思考1:这类分析有何作用?:这类分析有何作用? 找出影响较大的因素,进行优化。找出影响较大的因素,进行优化。思考思考2:如何找出影响因素?:如何找出影响因素? 可先尝试探索性分析,如下图可先尝试探索性分析,如下图: :思考思考3:产生数据差异的原因?:产生数据差异的原因?数据差异数据差异配料不同思考思考4:同一配料方案下:同一配料方案下(条件相同条件相同),寿命仍有,寿命仍有差异的原因?差异的原因?即 条件不同随机因素数据差异数据差异配料不同随机因素条件误差随机误差误差分解: :条件误差随机误差条件变化对考察指标条件变化对考察指标(元件寿命

24、元件寿命)影响不显著影响不显著条件误差随机误差条件变化对考察指标条件变化对考察指标(元件寿命元件寿命)有有 显著影响显著影响方差分析的基本思想:方差分析的基本思想:数据差异数据差异条件误差随机误差误差分解: :2、单因素方差分析、单因素方差分析 只考察一个因素的变化对试验指标的影响,只考察一个因素的变化对试验指标的影响,称为单因素方差分析。称为单因素方差分析。 通常,在单因子试验中,记因子为通常,在单因子试验中,记因子为 A, 设其有设其有s个水平,记为个水平,记为A1, A2, As。 在每一水平下考察的指标可以看成一个总体在每一水平下考察的指标可以看成一个总体 ,现有现有 s 个水平,故有

25、个水平,故有 s个总体,个总体, 假定:假定: 每一总体均为正态总体,记为每一总体均为正态总体,记为 N(i , i 2),i1, 2, s ; 各总体的方差相同各总体的方差相同: 1 2= 22= s2 = 2 ;: : 从每一总体中抽取的样本是相互独立的,从每一总体中抽取的样本是相互独立的, 即所有的试验结果即所有的试验结果 xij 都相互独立。都相互独立。 要比较各水平下的均值是否相同要比较各水平下的均值是否相同, 即要对如下的一个假设进行检验即要对如下的一个假设进行检验: H0 :1 =2 =s (2.1) 备择假设为备择假设为H1 :1, 2, , s 不全相等不全相等 在不会引起误

26、解的情况下,在不会引起误解的情况下, H1 通常可省略不通常可省略不写。写。: :离差平方和分解离差平方和分解单因素方差分析中可将试验数据列成如下形式:单因素方差分析中可将试验数据列成如下形式:因子水平因子水平 试试 验验 数数 据据 和和 平均平均 A1x11 x12 x1n1 T1A2x21 x22 x2n2T2Asxs1 xs2 xsnsTsT1x2xsxx样本组样本组均值均值样本总样本总均值均值: :数据间是有差异的。数据数据间是有差异的。数据 与总平均与总平均 间的偏间的偏差可用差可用 表示,它可分解为二个偏差之和表示,它可分解为二个偏差之和ijxxxxij xxxxxxiiijij

27、 组内离差组内离差(偏向偏向)组间离差组间离差(偏向偏向)反映组内数据与组反映组内数据与组内平均的随机误差内平均的随机误差反映第反映第i个水平的个水平的效应效应: : 在统计学中,常用离差平方和来度量若干在统计学中,常用离差平方和来度量若干个数据分散的程度,记个数据分散的程度,记 sinjijTixxS112 sinjiijEixxS112 siiisinjiAxxnxxSi12112总离差平方和总离差平方和组内离差平方和组内离差平方和组间离差平方和组间离差平方和可证:可证:AETSSS 离差平方和分解离差平方和分解: :由抽样分布定理:由抽样分布定理: 1122 nST 方差分析由来:方差分析由来:统计量由方差统计量由方差之比构造之比构造离差平方和的统计性质及显著性检验离差平方和的统计性质及显著性检验 snSE 221 1122 sSA snSSEE 1 sSSAAEASSF snsFSSFEA , 1: : snsFSSFEA , 1分析:分析:若因素若因素

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论