《多元统计分析2》PPT课件.ppt_第1页
《多元统计分析2》PPT课件.ppt_第2页
《多元统计分析2》PPT课件.ppt_第3页
《多元统计分析2》PPT课件.ppt_第4页
《多元统计分析2》PPT课件.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第篇 多元统计分析 第章 主成分分析 基本概念 科学研究所涉及的课题往往比较复杂,是因为影 响客观事物的因素多,需要考察的变量多。比如说, 对于糖尿病、动脉硬化等疾病,其病因是多种多样的 ,收集的资料中包含的信息是丰富多彩的。然而,重 叠的、低质量的信息越多,越不利于医生作出诊断。 在大部分实际问题中,变量之间是有一定的相关性的 ,人们自然希望找到较少的几个彼此不相关的综合指 标尽可能多地反映原来众多变量的信息。1933年 ,Hotelling提出的主成分分析法正是实现这一目的的 有效途径之一。 何为主成分?简而言之,主成分实际上就是 由原变量X1Xm线性组合出来的个互不相 关、且未丢失任何信息的新变量,也称为综合 变量。多指标的主成分分析常被用来寻找判断 某种事物或现象的综合指标,并给综合指标所 蕴藏的信息以恰当解释,以便更深刻地揭示事 物内在的规律。 数据结构 表6.1.1 主成分分析的数据结构 适合用主成分分析的数据具有左边的结构 ,见表6.1.1。 编号 X1 X2 X3 X4 Xm 若原始数据或变换的结果是各行数据 之和为100,则称为合成资料,用非线性 1 3.8 3.7 0.5 5.3 4.8 主成分分析法。 2 8.6 5.0 1.3 9.8 2.1 值得注意的是:适合作主成分分析的 资料,也适合作因子分析、对应分析、 n 4.6 2.1 1.4 7.3 6.3 聚类分析 ,何时应选择什么法,主要取决 于研究目的和对结果的要求。 每个Xi都是定量指标 主成分的表达式与性质 Z1=a11(X1-X-1)+a12(X2-X-2)+a1m(Xm-X-m) Z2=a21(X1-X-1)+a22(X2-X-2)+a2m(Xm-X-m) (1) Zm=am1(X1-X-1)+am2(X2-X-2)+amm(Xm-X-m) Z1=b11x1+b12x2+b1mxm Z2=b21x1+b22x2+b2mxm (2) Zm=bm1x1+bm2x2+bmmxm Z1=c11x1+c12x2+c1mxm Z2=c21x1+c22x2+c2mxm (3) Zm=cm1x1+cm2x2+cmmxm x1=c11Z1+c21Z2+cm1Zm x2=c12Z1+c22Z2+cm2Zm (4) xm=c1mZ1+c2mZ2+cmmZm 第章 因子分析 第节 基本概念 学生的各科成绩受智力、计算能力、表达能力和 灵活性等因子的影响, 可以通过考试或检查等手段获 得学生的各科成绩, 但那些对各科成绩起支配作用的 因子的状态不能直接测定到; 又如,考虑项生理指 标收缩压、舒张压、心跳间隔、呼吸间隔和舌下温 度,从生理知识知道这项指标是受植物神经的交 感神经和副交感神经支配的,而这种神经的状态也 不能直接测定出来。 因子分析(Factor Analysis)就是要找出某 个问题中可直接测量的、具有一定相关性的诸 指标,如何受少数几个在专业上有意义,又可 直接测量到,且相对独立的因子支配的规律, 从而可用诸指标的测定值来间接确定诸因子的 状态。 第节 因子模型 初始因子模型 x1=a11F1+a1pFp+C1U1 xm=am1F1+ampFp+CmUm 旋转后的因子模型 xi=bijGj+CiUi (i=1,2,m;j=1,2,p;pm) 因子得分模型 Gj=dijxi (i=1,2,m;j=1,2,p;pm) 。 第章 对应分析 第节 方法的概述 主成分分析、因子分析、变量聚类分析都 是研究变量之间的相互关系。有时,在某些实 际问题中,既要研究变量之间的关系、还要研 究样品之间的关系。不仅如此,人们往往还希 望能在同一个直角坐标系内同时表达出变量与 样品两者之间的相互关系。实现这一目的的方 法,称为对应分析。 对应分析,也称相应分析,它是列联表资料的加权主 成分分析,用它去寻求列联表的行列变量之间联系的 低维图示法。此法的关键是利用一种数据变换法,使 含有n个样品m个变量的原始数据矩阵X=(x)nm变成 另一个矩阵Z=(z)nm,并使R=ZZ(分析变量之间关 系的协方差矩阵)与Q=ZZ(分析样品之间关系的协 方差矩阵)具有相同的非零特征根,它们相应的特征向 量之间也有密切的关系。对协方差矩阵R、Q进行加 权主成分分析或因子分析,分别能提取两个最重要的 公因子R1、R2与Q1、Q2。于是可将(R1,Q1)和 (R2,Q2)两组数据点在由(dim1,dim2)组成的同 一个直角坐标系中。这样,便于考察变量与样品之间 的相互关系。 第节 对应分析中的变量变换法 设原始数据矩阵X=(xij)nm,i=1,2,n(n为 样品数);j=1,2,m(m为变量数)。又设xi.为 第i行的合计、x.j为第j列的合计、x为全部数据的合 计,则变量变换的公式为: zij(xij-xi.x.jx)/sqr(xi.x.j) 由此变换产生出矩阵Z,即Z=(zij)nm。分别对R=ZZ 与Q=ZZ进行加权主成分分析或因子分析,就实现了 对应分析。 从这种变换可以看出:原始数据xij并非一定是频 数,也可以是正实数。这说明对应分析可以处理RC 列联表资料,也可处理适合作主成分分析、因子分析 、聚类分析的资料。 第章 聚类分析 第节 方法的概述 聚类分析(Cluster Analysis)是物以类聚的一种 统计分析法。用于对事物类别的面貌尚不清楚,甚至 在事前连总共有几类都不能确定的情况下进行分类的 场合。 聚类分析可分为对变量聚类(如在儿童的生长发 育研究中,把以形态学为主的指标归于一类,以机能 为主的指标归于另一类等)和对样品聚类(如解剖学 上依据骨骼的形状和大小等,不仅可以区别样品是人 还是猿,还可以区别性别、年龄等)。 聚类法大致可归纳如下: 系统聚类法 先将个元素(样品或变量)看 成类,然后将性质最接近(或相似程度最大)的 类合并为一个新类,得到n-1类,再从中找出最接近 的类加以合并变成了n-2类,如此下去,最后所有 的元素全聚在一类之中。 分解法 其程序与系统聚类相反。首先所有的 元素均在一类,然后用某种最优准则将它分成类, 再用同样准则将这类各自试图分裂为类,从中选 个使目标函数较好者,这样由类变成了类。如 此下去,一直分裂到每类中只有个元素为止,有时 即使是同一种聚类法,因聚类形式(即距离的定义法) 不同而有不同的停止规则。 动态聚类法 开始将个元素粗糙地分 成若干类,然后用某种最优准则进行调整,一 次又一次地调整,直至不能调整了为止。 有序样品的聚类 个样品按某种因素 (时间或年龄或地层深度等)排成次序,要求 必须是次序相邻的样品才能聚在一类。 其他还有加入法、有重叠的类、模糊聚类 等。 聚类分析实质上是寻找一种能客观反映元 素之间亲疏关系的统计量,然后根据这种统计 量把元素分成若干类。常用的聚类统计量有距 离系数和相似系数类。距离系数一般用于对 样品分类,而相似系数一般用于对变量聚类。 距离的定义很多,如极端距离、明考斯基距离 、欧氏距离、切比雪夫距离等。相似系数有相 关系数、夹角余弦、列联系数等。 用VARCLUS过程实现变量聚类分析 用CLUSTER过程实现样品聚类分析 用FASTCLUS过程进行大样本样品聚类分析 用ACECLUS过程对需作样品聚类分析的资料 进行预处理 第章 判别分析 判别分析(Discriminatory Analysis)的任 务是根据已掌握的批分类明确的样品,建立 较好的判别函数,使产生错判的事例最少,进 而对给定的个新样品,判断它来自哪个总体 。 根据资料的性质,分为定性资料的判别分 析和定量资料的判别分析;采用不同的判别准 则,又有费歇、贝叶斯、距离等判别法。 费歇(FISHER)判别思想是投影,使多维问 题简化为一维问题来处理。选择一个适当的投 影轴,使所有的样品点都投影到这个轴上得到 一个投影值。对这个投影轴的方向的要求是: 使每一类内的投影值所形成的类内离差尽可能 小,而不同类间的投影值所形成的类间离差尽 可能大。 贝叶斯(BAYES)判别思想是根据先验概率 求出后验概率,并依据后验概率分布作出统计 推断。所谓先验概率,就是用概率来描述人们 事先对所研究的对象的认识的程度;所谓后验 概率,就是根据具体资料、先验概率、特定的 判别规则所计算出来的概率。它是对先验概率 修正后的结果。 距离判别思想是根据各样品与各母体之间的距 离远近作出判别。即根据资料建立关于各母体 的距离判别函数式,将各样品数据逐一代入计 算,得出各样品与各母体之间的距离值,判样 品属于距离值最小的那个母体。 定性资料的判别分析 定量资料的逐步判别分析(考虑变量筛选) 一般判别分析(不考虑变量筛选) 第章 典型相关分析 研究组变量之间的相关性,是许多实际问题的需要 。例如,研究病人的各种临床症状(X1、 、Xp)与 所患各种疾病(Y1、 、Yq)之间的相关性;研究原料 的主要质量指标(X1、 、Xp) 与其相应产品的主要 质量指标(Y1、 、Yq)之间的相关性;研究居民的营 养状况的一组指标(X1、 、Xp)与其健康状况的另 一组指标(Y1、 、Yq)之间的相关性等等。当 时,就是个变量之间的简单相关分析问题;当 、时,就是个因变量与多个自变量之 间的多元相关分析问题;当、均大于时,就是 研究组多变量之间的相关性,称为典型相关分析 (Canonical Correlation Analysis)。 利用主成分的思想,可以把多个变量之间的相关化为 两个变量之间的相关。就是找组系数A(a1、 、ap)及B(b1、 、bq),使得新变量 V1=a1X1+apXpAX 与 W1=b1Y1+bqYqBY 之间有最大可能的相关系数, 称(V1, W1)为第 对典型相关变量, 它们之间的相关系数(V1,W1)简 记为1;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论