生物数据统计分析方法——第六章2_第1页
生物数据统计分析方法——第六章2_第2页
生物数据统计分析方法——第六章2_第3页
生物数据统计分析方法——第六章2_第4页
生物数据统计分析方法——第六章2_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主要内容主要内容绪论绪论统计量、统计分布与统计比较统计量、统计分布与统计比较回归与最小二乘分析回归与最小二乘分析比较试验设计与分析比较试验设计与分析回归试验设计与分析回归试验设计与分析动态试验指标的统计推断动态试验指标的统计推断综合试验指标的统计推断综合试验指标的统计推断Cluster Analysis 一、一、 简介简介 聚类分析也是一种分类聚类分析也是一种分类技术。与多元分析的其他方法相技术。与多元分析的其他方法相比,该方法较为粗糙,理论上还比,该方法较为粗糙,理论上还不完善,但应用方面取得了很大不完善,但应用方面取得了很大成功。与回归分析、判别分析一成功。与回归分析、判别分析一起被称为多

2、元分析的三大方法。起被称为多元分析的三大方法。1. 聚类的目的 根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。 同一种疾病(如肝炎),根据临床表现等将病人分成若干类(甲、乙、丙、丁、戊型肝炎) 根据疾病的若干临床表现,将病人分成轻、中、重三型 在儿童生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类根据分类的原理可将聚类分析分为: 系统聚类与快速聚类根据分类的对象可将聚类分析分为: 系统Q型与R型(即样品聚类

3、clustering for individuals 与与指标聚类clustering for variables)k 先采用聚类分析获得各个个体的类别(classification );然后采用判别分析建立判别函数,对新个体进行类型识别((identification ) 假使每个样品有每个样品有p个变量,则个变量,则每个样品都可以看成每个样品都可以看成p维空间中的维空间中的一个点,一个点,n个样品就是个样品就是p维空间中维空间中的的n个点,则第个点,则第i样品与第样品与第j样品之样品之间的距离记为间的距离记为dij SPSS称为BLOCK品品作用:消除量纲的影响作用:消除量纲的影响 优点优

4、点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲缺点缺点:样品协方差矩阵不变不合理。 斜交空间21112)(1pkplklljlikjkirXXXXp可考虑变量间相关性问题 配合适用于分类变量,尤其是名义尺度变量52322),(),(2121221配合数不配合数配合数mmmdKFSMVXKTSQVX 研究样品间的关系研究样品间的关系常用常用距离,研究指标间的关系距离,研究指标间的关系常常用用相似系数。相似系数。 相似系数常用的有:夹角相似系数常用的有:夹角余弦与相关系数余弦与相关系数1.1.最短距离法最短距离法(single linkage) (single linkage) 2

5、.2.最长距离法最长距离法(complete linkage) (complete linkage) 3.3.中间距离法中间距离法(median method)(median method)4.4.类平均法类平均法(average linkage)(average linkage)5.5.可变类平均法可变类平均法(flexible-beta method)(flexible-beta method)6.6.重心法重心法(centroid method)(centroid method)7.Ward7.Ward离差平方和法离差平方和法(Wards minimum-(Wards minimum-v

6、ariance method)variance method)8.Mcquitty8.Mcquitty的相似分析法的相似分析法(Mcquittys (Mcquittys similarity analysis)similarity analysis)9.9.最大似然估计法最大似然估计法(EML)(EML)10.10.密度估计密度估计(density linkage)(density linkage)11.11.两阶段密度估计法两阶段密度估计法(two-stage (two-stage density linkage)density linkage)等。等。 B2A2 * B1 A1 * * B

7、3 *样品间样品间:欧氏距离类类间类类间:两类间两两样品距离最短。即图中样品A2和B1之间的距离 ),min(LJKJMJDDD6个民族的粗死亡率与期望寿命 B2A2 * B1 A1 * * B3 *样品间样品间:欧氏距离类类间类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离 ),max(LJKJMJDDD最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离KLJM2222412121KLLJKJMJDDDD222221KLLJKJMJDDDD之间的数通常情况下取01, 1SPSS作为默认方法,称为 between-groups linkage KLJM为

8、各类中所含样品数为欧氏距离的平方其中.2.222nDDnnDnnDLJMLKJMKMJ类平均法的变型 KLJM25. 0; 1)1 (2222软件预置为SASDDnnDnnDKLLJMLKJMKMJ B2A2 * B1 A1 * * B3 *类类间的距离用各自类类间的距离用各自重心间的距离表示重心间的距离表示 )(222222KLMLKKLMLKLJMLKJMKMJDnnnDnnnDnnDnnD比中间距离多 先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSMSSKSSL)最小的两类合并,直至所有的样品归为一类为止。2222KLMJJLJMJL

9、JKJMJKJMJDnnnDnnnnDnnnnD 以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为:222222LJKJKLLJLKJKMJDDDDDD 单调性 中间距离法、重心法不具有单调性 空间的浓缩与扩张 不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法类平均法比较适中。 几种聚类方法获得的结果不一定相同 指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。 221ijijrd 样本量很大,用系统聚类法样本量很大,用系统聚类法计算的工计算的工作量

10、作量极大,作出的极大,作出的树状图树状图也十分复杂也十分复杂, , 不不便于分析便于分析 原理选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类, 直至分类达到稳定初始凝聚点initial cluster seeds ;cluster centers自动选择 必须给出允许分类的最大个数k( SASSAS中用中用MAXCLUSTERS=k(或MAXC=k) )凭经验选择 以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件 原理与以上聚类法类似原理与以上聚类法类似, , 只是将只是将标准化后的变量视为标准化后的变量

11、视为“个体个体”,变,变量间的相关系数描述量间的相关系数描述“个体个体”间的间的相似程度。相似程度。 SASSAS中采用中采用VARCLUSVARCLUS过程过程。与判别分析的区别(作用,数据要求?)与判别分析的区别(作用,数据要求?)聚类分析是一种探索性技术,对于同一问聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知题,可获得多种结果,解释需要结合专业知识识样品量大可采用快速聚类方法样品量大可采用快速聚类方法变量的形式?距离与相似系数?变量的形式?距离与相似系数?系统聚类常用方法?系统聚类常用方法?分类数的确定分类数的确定 专业知识专业知识聚类方法的选择聚类方法的选

12、择试用多种方法,系统聚类与快速聚类相结合试用多种方法,系统聚类与快速聚类相结合聚类进度表相似矩阵样品或变量的分类情况树状结构图冰柱图冰柱的方向聚类方法标准化变换亲疏关系指标将分类结果存入数据文件中读写凝聚点人为固定分类数ANOVA表,初始凝聚点等样品聚类样品聚类:PROC CLUSTER pseudo RSQUARE STD METHOD=(AVE, AVERAGE, CEN, CENTROID, COM, COMPLETE, DEN, DENSITY, EML, FLE, FLEXIBLE, MCQ, MCQUITTY, MED, MEDIAN, SIN, SINGLE, TWO, TWOSTAGE, WAR, WARD);ID national;PROC TREE HORIZONTAL; ID national;变量聚类变量聚类:PROC VARCLUS CORR CENTROID HIERARCHY MAXC=4;快速聚类:快速聚类:PROC FASTCLUS MAXC=4 MAXITER=100 ; ID national;资料预处理:资料预处理:PROC ACECLUS ;(ACECLUS (App

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论