多元课件第九章_第1页
多元课件第九章_第2页
多元课件第九章_第3页
多元课件第九章_第4页
多元课件第九章_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元课件第九章第一页,共三十四页,2022年,8月28日1第九章对应分析

对应分析又称相应分析,于1970年由法国统计学家提出的.它是在R型和Q型因子分析基础上发展起来的多元统计分析方法,故也称为R-Q型因子分析.

因子分析方法是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R型和Q型,如果研究变量间的相互关系时采用R型因子分析;如果研究样品间相互关系时采用Q型因子分析.第二页,共三十四页,2022年,8月28日2第九章对应分析

无论是R型或Q型都未能很好地揭示变量和样品间的双重关系.

另方面在处理实际问题中,样本的大小经常是比变量个数多得多.当样品个数n很大(如n>100),进行Q型因子分析时,计算n阶方阵的特征值和特征向量对于微型计算机的容量和速度都是难以胜任的.

还有进行数据处理时,为了将数量级相差很大的变量进行比较,常常先对变量作标准化处理,然而这种标准化处理对于变量和样品是非对等的,这给寻找R型和Q型之间的联系带来一定的困难.第三页,共三十四页,2022年,8月28日3第九章什么是对应分析

对应分析方法是在因子分析的基础上发展起来的,它对原始数据采用适当的标度方法.把R型和Q型分析结合起来,同时得到两方面的结果---在同一因子平面上对变量和样品一块进行分类,从而揭示所研究的样品和变量间的内在联系.

对应分析由R型因子分析的结果,可以很容易地得到Q型因子分析的结果,这不仅克服样品量大时作Q型因子分析所带来计算上的困难,且把R型和Q型因子分析统一起来,把样品点和变量点同时反映到相同的因子轴上,这就便于我们对研究的对象进行解释和推断.第四页,共三十四页,2022年,8月28日4第九章对应分析的基本思想

由于R型因子分析和Q型分析都是反映一个整体的不同侧面,因而它们之间一定存在内在的联系.对应分析就是通过一个变换后的过渡矩阵Z将二者有机地结合起来.

具体地说,首先给出变量间的协差阵SR=Z'Z和样品间的协差阵SQ=ZZ',由于Z'Z和ZZ'有相同的非零特征根,记为λ1≥λ2≥…≥λm,如果SR的特征根λi对应的特征向量为vi,则SQ的特征根λi对应的特征向量ui=Zvi/.由此可以很方便地由R型因子分析而得到Q型因子分析的结果.第五页,共三十四页,2022年,8月28日5第九章对应分析的基本思想

由A的特征根和特征向量即可写出R型因子分析的因子载荷阵(记为AR)和Q型因子分析的因子载荷阵(记为AQ).vp1ARvp2vpm第六页,共三十四页,2022年,8月28日6第九章§9.1什么是对应分析

基本思想

由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类.AQun1un2unm第七页,共三十四页,2022年,8月28日7第十章典型相关分析

相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示.1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.第八页,共三十四页,2022年,8月28日8第十章

什么是典型相关分析

在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如:

在工业中,考察原料的主要质量指标(X1,...,Xp)与产品的主要质量指标(Y1,...,Yq)间的相关性;

在经济学中,研究主要肉类的价格与销售量之间的相关性;

在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性;

在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;第九页,共三十四页,2022年,8月28日9第十章什么是典型相关分析在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系;

在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系;

在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系;

在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.第十页,共三十四页,2022年,8月28日10第十章什么是典型相关分析一般地,假设有一组变量X1,...,Xp与另一组变量Y1,...,Yq(也可以记为Xp+1,...,Xp+q),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析.

当p=q=1时,就是研究两个变量X与Y之间的相关关系.简单相关系数是最常见的度量.其定义为第十一页,共三十四页,2022年,8月28日11第十章什么是典型相关分析当p≥1,q=1时(或q

≥1,p=1)设则称为Y与(X1,…,Xp)的全相关系数.其实Y对X的回归为且,并称R为全相关系数.def

=第十二页,共三十四页,2022年,8月28日12第十章什么是典型相关分析当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关.

也就是求=(1,…,p)和

=(1,…,q),使得新变量:V=1X1+…+pXp=X

W=1Y1+…+qYq=Y之间有最大可能的相关,基于这个思想就产生了典型相关分析(Canonicalcorrelatinalanalysis).第十三页,共三十四页,2022年,8月28日13第十章总体典型相关设X=(X1,...,Xp)及Y=(Y1,...,Yq)为随机向量(不妨设p≤q),记随机向量Z=XYZ的协差阵为其中Σ11是X的协差阵,Σ22是Y的协差阵,Σ12=Σ’21是X,Y的协差阵.第十四页,共三十四页,2022年,8月28日14第十章总体典型相关我们用X和Y的线性组合V=aX和W=bY之间的相关来研究X和Y之间的相关.我们希望找到a和b,使ρ(V,W)最大.由相关系数的定义:又已知第十五页,共三十四页,2022年,8月28日15第十章总体典型相关故有对任给常数c1,c2,d1,d2,显然有

ρ(c1V+d1,c2W+d2)=ρ(V,W)即使得相关系数最大的V=aX和W=bX并不唯一.故加附加约束条件Var(V)=aΣ11

a=1,Var(W)=bΣ22

b=1.问题化为在约束条件Var(V)=1,Var(W)=1下,求a和b,使得ρ(V,W)=aΣ12

b达最大

.第十六页,共三十四页,2022年,8月28日16第十章样本典型相关

设总体Z=(X1,...,Xp,Y1,…,Yq)’.在实际问题中,总体的均值E(Z)=和协差阵D(Z)=

通常是未知的,因而无法求得总体的典型相关变量和典型相关系数.

首先需要根据观测到的样本资料阵对其进行估计.

已知总体Z的n个样品:第十七页,共三十四页,2022年,8月28日17第十章样本典型相关

样本资料阵为x11x12…

x1p

y11y12…y1qx21x22…

x2p

y21y22…y2q……..xn1xn2…

xnp

yn1yn2…ynq若假定Z~N(,),则协差阵的最大似然估计为

Z’(1)

Z’(2)=...

Z’(n)def

=*第十八页,共三十四页,2022年,8月28日18第十章样本典型相关

我们从协差阵的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计.

也可以从样本相关阵R出发来导出样本典型相关变量和样本典型相关系数.第十九页,共三十四页,2022年,8月28日19第十章

样本典型相关

典型相关系数的显著性检验

总体Z的两组变量X=(X1,...,Xp)’和Y=(Y1,…,Yq)’如果不相关,即COV(X,Y)=12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间相关关系之前,应首先对以下假设H0作统计检验.(1)检验H0:12=0(即1=0)设总体Z~Np+q(,).用似然比方法可导出检验H0的似然比统计量为(A,A11,A22为离差阵)第二十页,共三十四页,2022年,8月28日20第十章

样本典型相关

典型相关系数的显著性检验

(2)检验H0(i):

i=0

(i=2,...,p)

当否定H0时,表明X,Y相关,进而可得出至少第一个典型相关系数1≠0.相应的第一对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息.第二十一页,共三十四页,2022年,8月28日21

在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法.第十一章什么是偏最小二乘回归第二十二页,共三十四页,2022年,8月28日22偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。

偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。第十一章什么是偏最小二乘回归第二十三页,共三十四页,2022年,8月28日23

本章结合SAS/STAT软件中用于完成偏最小二乘回归的PLS过程,介绍偏最小二乘回归分析的建模方法;并通过例子从预测角度对所建立的回归模型进行比较。第十一章什么是偏最小二乘回归第二十四页,共三十四页,2022年,8月28日24

考虑p个因变量Y1,…,Yp与m个自变量X1,…,Xm的建模问题。

偏最小二乘回归的基本作法是首先在自变量集中提取第一成分T1(T1是X1,…,Xm的线性组合,且尽可能多地提取原自变量集中的变异信息);

同时在因变量集中也提取第一成分U1,并要求T1与U1相关程度达最大。然后建立因变量Y1,…,Yp与T1的回归,如果回归方程已达到满意的精度,则算法终止。第十一章

偏最小二乘回归分析第二十五页,共三十四页,2022年,8月28日25第十一章什么是偏最小二乘回归

否则继续第二对成分的提取,直到能达到满意的精度为止。

若最终对自变量集提取r个成分T1,T2,…,Tr,偏最小二乘回归将通过建立Y1,…,Yp与T1,T2,…,Tr的回归式,然后再表示为Y1,…,Yp与原自变量的回归方程式,即偏最小二乘回归方程式.第二十六页,共三十四页,2022年,8月28日26

假定p个因变量Y1,…,Yp与m个自变量X1,…,Xm

均为标准化变量。因变量组和自变量组的n次标准化观测数据阵分别记为:第十一章偏最小二乘回归分析Y0=y11…y1p………yn1…

ynpX0=x11…x1m………xn1…

xnmnpnm第二十七页,共三十四页,2022年,8月28日27偏最小二乘回归分析建模的具体步骤如下:(1)分别提取两变量组的第一对成分T1和U1,并使之相关性达最大。为了回归分析的需要,要求:①T1和U1各自尽可能多地提取所在变量组的变异信息;②T1和U1的相关程度达到最大。

(2)建立Y1,…,Yp对T1的回归及X1,…,Xm

对T1的回归,得:

第十一章偏最小二乘回归分析第二十八页,共三十四页,2022年,8月28日28第十一章偏最小二乘回归分析

(3)用残差阵E1和F1代替X0和Y0重复以上步骤.

如果残差阵F1中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取成分.否则用残差阵E1和F1代替X0和Y0重复以上步骤.第二十九页,共三十四页,2022年,8月28日29

第十一章偏最小二乘回归分析即得p个标准化因变量的偏最小二乘回归方程然后再还原为原始变量的偏最小二乘回归方程:

(4)设n×m数据阵X0的秩为r≤min(n-1,m),则存在r个成分t1,t2,…,tr,并建立Yj*与t1,t2,…,tr的回归式:第三十页,共三十四页,2022年,8月28日30

第十一章偏最小二乘回归分析

(5)确定抽取成分的个数l.

一般情况下,偏最小二乘回归并不需要选用存在的所有r个成分t1,t2,…,tr来建立回归式,而像主成分分析一样,只选用前k个成分(k≤r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论