《多元统计分析2》PPT课件.ppt

上传人：j*** IP属地：北京上传时间：2019-01-11 格式：PPT 页数：27 大小：159KB 积分：15 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第篇多元统计分析第章主成分分析基本概念科学研究所涉及的课题往往比较复杂，是因为影响客观事物的因素多，需要考察的变量多。比如说，对于糖尿病、动脉硬化等疾病，其病因是多种多样的，收集的资料中包含的信息是丰富多彩的。然而，重叠的、低质量的信息越多，越不利于医生作出诊断。在大部分实际问题中，变量之间是有一定的相关性的，人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。1933年 ,Hotelling提出的主成分分析法正是实现这一目的的有效途径之一。何为主成分？简而言之，主成分实际上就是由原变量X1Xm线性组合出来的个互不相关、且未丢失任何信息的新变量，也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标，并给综合指标所蕴藏的信息以恰当解释，以便更深刻地揭示事物内在的规律。数据结构表6.1.1 主成分分析的数据结构适合用主成分分析的数据具有左边的结构，见表6.1.1。编号 X1 X2 X3 X4 Xm 若原始数据或变换的结果是各行数据之和为100，则称为合成资料,用非线性 1 3.8 3.7 0.5 5.3 4.8 主成分分析法。 2 8.6 5.0 1.3 9.8 2.1 值得注意的是：适合作主成分分析的资料，也适合作因子分析、对应分析、 n 4.6 2.1 1.4 7.3 6.3 聚类分析 ,何时应选择什么法，主要取决于研究目的和对结果的要求。每个Xi都是定量指标主成分的表达式与性质 Z1=a11(X1-X-1)+a12(X2-X-2)+a1m(Xm-X-m) Z2=a21(X1-X-1)+a22(X2-X-2)+a2m(Xm-X-m) (1) Zm=am1(X1-X-1)+am2(X2-X-2)+amm(Xm-X-m) Z1=b11x1+b12x2+b1mxm Z2=b21x1+b22x2+b2mxm (2) Zm=bm1x1+bm2x2+bmmxm Z1=c11x1+c12x2+c1mxm Z2=c21x1+c22x2+c2mxm (3) Zm=cm1x1+cm2x2+cmmxm x1=c11Z1+c21Z2+cm1Zm x2=c12Z1+c22Z2+cm2Zm (4) xm=c1mZ1+c2mZ2+cmmZm 第章因子分析第节基本概念学生的各科成绩受智力、计算能力、表达能力和灵活性等因子的影响, 可以通过考试或检查等手段获得学生的各科成绩, 但那些对各科成绩起支配作用的因子的状态不能直接测定到; 又如，考虑项生理指标收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度，从生理知识知道这项指标是受植物神经的交感神经和副交感神经支配的，而这种神经的状态也不能直接测定出来。因子分析(Factor Analysis)就是要找出某个问题中可直接测量的、具有一定相关性的诸指标，如何受少数几个在专业上有意义，又可直接测量到，且相对独立的因子支配的规律，从而可用诸指标的测定值来间接确定诸因子的状态。第节因子模型初始因子模型 x1=a11F1+a1pFp+C1U1 xm=am1F1+ampFp+CmUm 旋转后的因子模型 xi=bijGj+CiUi (i=1，2，m；j=1，2，p；pm) 因子得分模型 Gj=dijxi (i=1，2，m；j=1，2，p；pm) 。第章对应分析第节方法的概述主成分分析、因子分析、变量聚类分析都是研究变量之间的相互关系。有时，在某些实际问题中，既要研究变量之间的关系、还要研究样品之间的关系。不仅如此，人们往往还希望能在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。实现这一目的的方法，称为对应分析。对应分析，也称相应分析，它是列联表资料的加权主成分分析，用它去寻求列联表的行列变量之间联系的低维图示法。此法的关键是利用一种数据变换法，使含有n个样品m个变量的原始数据矩阵X=(x)nm变成另一个矩阵Z=(z)nm,并使R=ZZ（分析变量之间关系的协方差矩阵）与Q=ZZ（分析样品之间关系的协方差矩阵）具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。对协方差矩阵R、Q进行加权主成分分析或因子分析，分别能提取两个最重要的公因子R1、R2与Q1、Q2。于是可将(R1，Q1)和 (R2，Q2)两组数据点在由(dim1，dim2)组成的同一个直角坐标系中。这样，便于考察变量与样品之间的相互关系。第节对应分析中的变量变换法设原始数据矩阵X=(xij)nm，i=1,2，n(n为样品数)；j=1，2，m(m为变量数)。又设xi.为第i行的合计、x.j为第j列的合计、x为全部数据的合计，则变量变换的公式为： zij（xij-xi.x.jx）/sqr(xi.x.j) 由此变换产生出矩阵Z，即Z=(zij)nm。分别对R=ZZ 与Q=ZZ进行加权主成分分析或因子分析，就实现了对应分析。从这种变换可以看出：原始数据xij并非一定是频数，也可以是正实数。这说明对应分析可以处理RC 列联表资料，也可处理适合作主成分分析、因子分析、聚类分析的资料。第章聚类分析第节方法的概述聚类分析(Cluster Analysis)是物以类聚的一种统计分析法。用于对事物类别的面貌尚不清楚，甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析可分为对变量聚类（如在儿童的生长发育研究中，把以形态学为主的指标归于一类，以机能为主的指标归于另一类等）和对样品聚类（如解剖学上依据骨骼的形状和大小等，不仅可以区别样品是人还是猿，还可以区别性别、年龄等）。聚类法大致可归纳如下：系统聚类法先将个元素（样品或变量）看成类，然后将性质最接近（或相似程度最大）的类合并为一个新类，得到n-1类，再从中找出最接近的类加以合并变成了n-2类，如此下去，最后所有的元素全聚在一类之中。分解法其程序与系统聚类相反。首先所有的元素均在一类，然后用某种最优准则将它分成类，再用同样准则将这类各自试图分裂为类，从中选个使目标函数较好者，这样由类变成了类。如此下去，一直分裂到每类中只有个元素为止，有时即使是同一种聚类法，因聚类形式(即距离的定义法) 不同而有不同的停止规则。动态聚类法开始将个元素粗糙地分成若干类，然后用某种最优准则进行调整，一次又一次地调整，直至不能调整了为止。有序样品的聚类个样品按某种因素（时间或年龄或地层深度等）排成次序，要求必须是次序相邻的样品才能聚在一类。其他还有加入法、有重叠的类、模糊聚类等。聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量，然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数类。距离系数一般用于对样品分类，而相似系数一般用于对变量聚类。距离的定义很多，如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。相似系数有相关系数、夹角余弦、列联系数等。用VARCLUS过程实现变量聚类分析用CLUSTER过程实现样品聚类分析用FASTCLUS过程进行大样本样品聚类分析用ACECLUS过程对需作样品聚类分析的资料进行预处理第章判别分析判别分析(Discriminatory Analysis)的任务是根据已掌握的批分类明确的样品，建立较好的判别函数，使产生错判的事例最少，进而对给定的个新样品，判断它来自哪个总体。根据资料的性质，分为定性资料的判别分析和定量资料的判别分析；采用不同的判别准则，又有费歇、贝叶斯、距离等判别法。费歇（FISHER）判别思想是投影，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。贝叶斯（BAYES）判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式，将各样品数据逐一代入计算，得出各样品与各母体之间的距离值，判样品属于距离值最小的那个母体。定性资料的判别分析定量资料的逐步判别分析(考虑变量筛选) 一般判别分析(不考虑变量筛选) 第章典型相关分析研究组变量之间的相关性，是许多实际问题的需要。例如，研究病人的各种临床症状(X1、、Xp)与所患各种疾病(Y1、、Yq)之间的相关性；研究原料的主要质量指标(X1、、Xp) 与其相应产品的主要质量指标(Y1、、Yq)之间的相关性；研究居民的营养状况的一组指标(X1、、Xp)与其健康状况的另一组指标(Y1、、Yq)之间的相关性等等。当时，就是个变量之间的简单相关分析问题；当、时，就是个因变量与多个自变量之间的多元相关分析问题；当、均大于时，就是研究组多变量之间的相关性，称为典型相关分析 (Canonical Correlation Analysis)。利用主成分的思想，可以把多个变量之间的相关化为两个变量之间的相关。就是找组系数A(a1、、ap)及B(b1、、bq)，使得新变量 V1=a1X1+apXpAX 与 W1=b1Y1+bqYqBY 之间有最大可能的相关系数，称（V1, W1）为第对典型相关变量，它们之间的相关系数(V1,W1)简记为1；

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《多元统计分析2》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

《多元统计分析2》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档