




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间 相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系 它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相 关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型 相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种 算法做了比拟全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要 性质并给出了证实,接着推导了典型相关系数的显著性检验.最后通过理论与实 例分析两个层面论证了典型相关分析的应用于实
2、际生活中的可行性与优越性.【关键词】 典型相关分析,样本典型相关,性质,实际应用ABSTRACTThe Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line depende
3、ncerelation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and foreca
4、sted analysis.This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the s
5、ample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysi
6、s from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life.【Key words 1 Canonical Correlation Analysis, Sample canonical correlation,Character, Practical applications刖H 1第1章典型相关分析的数学描述 2第2章典型变量与典型相关系数 32.1 总体典型相关 3
7、2.2 样本典型相关 42.2.1 第一对典型相关变量的解法 42.2.2 典型相关变量的一般解法 82.2.3 从相关矩阵出发计算典型相关 9第3章典型相关变量的性质 11第4章典型相关系数的显著性检验 15第5章典型相关分析的计算步骤及应用实例 185.1 典型相关分析的计算步骤 185.2 实例分析 19结语 26致 ft 27参考文献 28附录 29典型相关分析(Canonical Correlation Analysis ,CCA)作为多元统计学的一个重要局部,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身 具有重要的理论意义,而且它还可以作为其他分析方法, 如多重回归、判
8、别分析 和相应分析的工具,因此在多元分析方法中占有特殊的地位.典型相关的概念是在两个变量相关的根底上开展起来的.我们知道,两个随 机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第 二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另 一组变量的相关,这样做比拟繁琐,抓不住要领 .因此,为了用比拟少的变量来 反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析, 考虑两组 变量的线性组合,从这两个线性组合中找出
9、最相关的综合变量, 通过少数几个综 合变量来反映两组变量的相关性质,这样便引出了典型相关分析.典型相关分析的根本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性, 如此继续下去,直到两组变量 之间的相关性被提取完毕为止.有了这样线性组合的最大相关,那么讨论两组变量 之间的相关,就转化为只研究这些线性组合的最大相关, 从而减少研究变量的个 数.典型相关分析是由Hotelling 于1936年提出的.就目前而言,它的理论己经 比拟完善,计算机的开展解决了典型相关分析在应用中计算方面的困难
10、,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理 论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植 被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因 素的相关关系等等.第1章典型相关分析的数学描述一般地,假设有一组变量Xi,X2, ,Xp与另一组变量丫1,丫2, ,Yq,我们要研 究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.当p q 1时,就是我们常见的研究两个变量 X与Y之间的简单相关关系, 其相关系数是最常见的度量,定义为:_Cov(X,Y)_xy ,Var(X)、Var(Y)当p 1 , q
11、 1 (或q 1, p 1 )时,p维随机向量X (X1,X2 Xp),设XNp1(,),11 12 ,其中,11是第一组变量的协方差阵,12是Y2122第一组与第二组变量的协方差阵,22是第二组变量的协方差阵.那么称r L21/;2为Y与X1,X2, ,Xp的全相关系数,全相关系数用于度量一个随22机变量Y与另一组随机变量X1,X2, ,Xp的相关系数. p当p,q 1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即U 1X12X2)pXp XV1Y12Y2qYqY其中, (1. 2,p)和(1, 2,q)为任意非零向量
12、,于是我们把研 q究两组变量之间的问题化为研究两个变量U与V之间的相关问题,希望寻求使U , V之间最大可能的相关,我们称这种相关为典型相关,基于这种原那么的分析方法就是典型相关分析第2章典型变量与典型相关系数2.1总体典型相关设有两组随机变量 X (X1,X2, ,Xp)1,Y (Y1 ,Y2, ,Yq)',分别为p维和q维 随机向量,根据典型相关分析的思想,我们用X和Y的线性组合X和'Y之间 的相关性来研究两组随机变量 X和Y之间的相关性.我们希望找到和,使得('X, Y)最大.由相关系数的定义(X, Y) Cov( X,Y),Var( X) ,Var( Y)易得出
13、对任意常数e, f ,c,d ,均有e( X) f,c( Y) d ( X, Y) . _ . 这说明使得相关系数最大的X, Y并不唯一.因此,为防止不必要的结果重复,我们在求综合变量时常常限定Var( X) 1, Var( Y) 1于是,我们就有了下面的定义:设有两组随机变量X (Xi,X2 ,Xp), X Y (丫" ,Yq) , p q维随机向量丫 的均值向量为零,协万差阵0 (不妨设p q).如果存在1( 11, , pi)和1( 11, qi),使得在约束条件Var( X) 1 , Var( Y) 1 下,(1X, 1 Y) max ( X, Y)那么称;X, 1'
14、Y是X,Y的典型相关变量,它们之间的相关系数称为典型相关系数; 其他典型相关变量定义如下:定义了前k 1对典型相关变量之后,第k对典型相 关变量定义为:如果存在k ( 1k, , pk)和k ( 1k, , qk),使得 kX,卜丫和前面的k 1对典型相关变量都不相关; Var( kX) 1 , Var( kY) 1;kX和kY的相关系数最大,那么称卜邓口 kY是X,Y的第k对(组)典型相关变量,它们之间的相关系数称为第k个典型相关系数(k 2, , p ).2.2样本典型相关以上是根据总体情况的情形进行, 而实际研究中,总体均值向量 和协 方差阵 通常是未知的,因而无法求得总体的典型相关变量
15、和典型相关系数, 首 先需要根据观测到的样本数据阵对 进行估计.2.2.1 第一对典型相关变量的解法, 设总体Z (Xi, ,Xp,Yi, ,Yq),总体的n次观测数据为:Z(t)X (t)Y(t)1,2,q)于是样本数据阵为X11x21x12x22X1pX2pYuy21y12y22y1qY2qXn1Xn2XnpYn2Ynq n ( p q)假设假定Z Np q(,),那么由参考文献【2】中定理2.5.1知协方差阵的最大似然 估计为(Z(t) Z)(Z Z)其中Z=, Z,样本协方差矩阵SS11S12式中S111 n(X jn j 1X)(XjX)S121 n(X jn j 1X)(YjY)令
16、 Uj Xj又由于:USujVjSU jUjSVjVj所以由于Uj1 n一(Yjn j 11 n一(Yjn j 1Y)(XjY)(Yj,VjYj ,那么样本的相关系数为r(Uj,Vj)n(U j j 1n(UjXjX)Y)1 nY -Yjn j 1U)(Vj V)(Vj1V)21 n一Vjn j 1(Uj1(Uj1(VjU)(VjU)(U jV)U)V)(Vj V)r(Uj,Vj) 1 n一Yjn j 1n(Yj j 1S11XjXj,一S12X)(X)(Y)( YjS22YjXjY)Y)X)S12,_ S11Vj乘以任意常数并不改变他们之间的相关系数,即不妨限定取标准化的Uj与Vj,即限定U
17、j及Vj的样本方差为1,故有:(2.2.1 )r(Uj,Vj)' S12(2.2.2 )于是我们要求的问题就是在2.2.1 的约束条件下,求Rp,Rq,使得式2.2.2 到达最大.这是条件极值的问题,由拉格朗日乘子法,此问题等价于'一 ,'一S|2 ( S121)2(S221)(2.2.3 )到达最大.式中,其为0,得方程组:为拉格朗日乘数因子.对上式分别关于求偏导并令S12S11(2.2.4 )左乘方程2.2.4 S12S11S22(Si2 )S21所以(S12也就是说, 为:正好等于线性组合U与V之间的相关系数,于是2.2.4 式可写S12S11S11S12(2.2
18、.5 )SUjUjSVjVj(2.2.6 )该方程左端是的p q次多项式,因此有q个根.求解的高次方程2.2.6 ,把求得的最大的代回方程组2.2.5 ,再求得 和,从而得出第(2.2.5 )一对典型相关变量.具体计算时,因的高次方程2.2.6 不易解,将其代入方程组 后还需求解p q阶方程组.为了计算上的方便,我们做如下变换:用S12S22左乘方程组2.2.5 的第二式,那么有C C 1 CS12S22 S21S12s22 s22S12s22 S21S12又由2.2.5 的第一式,得S12Su代入上式:S12s22 S212S11(S12s22 s212S11)(2.2.7 )再用Sii1左
19、乘式2.2.7 ,得(Sn1 S12S22S212(2.2.8 )因此,对2有p个解,设为r;r2也有p个解.类似地,用S21S1;左乘式2.2.5 中的第一式,那么有S21s11 S12又由2.2.5 中的第二式,得S21 S11 S110(2.2.9 )代入到2.2.8 式,有(S21S111 S122S22 )0再以Sz2左乘上式,得(S22 s21s11 S122|q)0(2.2.10 )因此对2有q个解,对对应于也有q个解,因此 2为S111 S12S221 S21的特征根, 是2的特征向量.同时2也是S?2s21611s12的特征根, 为相应特征向量.而式2.2.8 和2.2.10
20、 有非零解的充分必要条件为:C 1 c C 1 C2|p(2.2.11 )S22 s21s11 S122|q对于2.2.11 式的第一式,由于Su0,0 ,所以 Sii10 , S2;0 ,故有:Sii S12S22 S21S111s12S22S21SiiV2Sn'2Si2S221''2S21'2S21而 初&艮由21飞;'2s21与sJ&SzlSzySziSii1'2有相同的特征根.如果记T Q 12G Q 1 21S11 s12 s22SiiiSizSz/2s212s21&1*2=TT类似的对式2.2.11 的第二式,
21、可得2.2.10 的非零特S 12S S 12S 1 2S S 1 2 T T °22 °21°11°11 °12 °22而TT与T T有相同的非零特征根,从而推出2.2.8 和征根是相同的.设已求得TT的p个特征根依次为:那么TT的q个特征根中,除了上面的p个外,其余的qp个都为零.故p个特征根排列是12p 0 ,0 p p 1只要取最大的1 ,代入方程组2.2.5 即可求得相应的U = 1X与ViY为第一对典型相关变量,而rU,ViSi2 11为第一典型相关系数.可见求典型相关系数及典型相关变量的问题,就等价于求解TT的最大特征值
22、及相应的特征向量.2.2.2 典型相关变量的一般解法从样本典型相关变量的解法中,我们知道求典型相关变量和典型相关系数的 问题,就是求解TT的最大特征值及相应的特征向量不仅如此,求解第k对典型相关变量和典型相关系数,类似的也是求 TT的第k大的特征值和相应的特征向量.下面引用参考文献【2】中定理10.1.1来得 出样本典型相关的一般求法.设总体的n次观测数据为:XZ(t) Y(t 1,2, ,n)(p q) 1不妨设p q ,样本均值为0,协方差矩阵S为:SS11S120S21 S22'记TSn1/2S12S22/2 ,并设p阶方阵TT的特 征值依 次为22p 0S1112l(i 0,i
23、 1, ,p);而l1,l2, ,lp为相应的单位正交特征向量.令k S22 S21k那么Uk k'X , Vkk'Y为X,Y第k对典型相关变量,k为第k典型相关系数.由上述分析不难看出,典型相关系数i越大说明相应的典型变量之间的关系越密切,因此一般在实际中忽略典型相关系数很小的那些典型变量,按 i的大小只取前n个典型变量及典型相关系数进行分析2.2.3 从相关矩阵出发计算典型相关以上我们从样本协方差阵S出发,导出了样本典型相关变量和样本典型相关 系数.下面我们从样本相关阵R出发来求解样本典型相关变量和样本典型相关系 数.设样本相关阵为R (与),其中rj 5 /JSiSjj
24、, s.为样本协方差阵S的i行j 列元素.把R相应剖分为R R11 R12R21 R22有时,X和Y的各分量的单位不全相同,我们希望在对各分量作标准化变换之后 再做典型相关.记 1 E(X),2 E(Y)Sp 1,p 1D10sppS11 D1R11D1,S22S12D1R12D2 ,S21对X和Y的各分量作标准化变换,即令* 1XD1 (X 1), Y现在来求*4* *X和Y的典型相关变量i X ,SX*XD11sli 口1于是R1111R12 R22 R21由于所以式中D1i,有同理:式中D1D2q,p qD2R22D2D2R21D1,_ 1D2 (Y2)R11SY*Y,SY,X,D21D
25、21D10D21D21S21D11R21111111(D11S11D11) 1D11S12D21(D21S22D21)D&S12S22S1D11S11S12S22 S21iriiD1S111s12S2;S21D1c c *R11 R12R22R21i*'.R11 i i D1 R11 D111*R22 R21 R11 R12iR22(D12ri2rii)2ri(D1 i),i S11'_ _ _i D2 R22 D2由此可见*X ,Y的第i对典型系数,其第i个典型相关系数为0,在标准化变换下具有不变性.第3章典型相关变量的性质根据典型相关分析的统计思想及推导, 重要性质
26、并对总体与样本分别给出证实.性质1同一组的典型变量互不相关i总体典型相关我们归纳总结了典型相关变量的一些设X与Y的第i对典型变量为Ui iX , ViiY, i 1,2, ,m(Vi ,Vj) 01 i j m那么有(Ui,Uj) 0证实详见参考文献【5】.ii样本典型相关设X与Y的第i对典型变量为Ui iX , Vi iY, i 1,2, ,m由于SJU i ii S11 i 1 , SViiS22 i 1, i 1,2, ,mr(Ui,Uj) 0凹iSn j 0, 1 i j mr(Vi,Vj)S/VjiS22 j 0, 1 i j m说明由X组成的第一组典型变量U1,U2, ,Um互不相
27、关,且均有相同的方差1;同样,由丫组成的第二组典型变量V1,V2, ,Vm也互不相关,且也有相同的方差1.性质2不同组的典型变量之间的相关性i总体典型相关(Ui,Vi) ii 1,2, ,m(Ui,Vj) 01 i j m证实详见参考文献【5】.ii样本典型相关 '- . _r (U i ,Vi) ii ii 1,2,mr(Ui,Vj)Gm i§211jrji j 0,- c ci Su S12S22说明不同组的任意两个典型变量,当i j时,相关系数为;当i j时是彼此 不相关的.记U (Ui,U2,Um), V (Vi,V2,Vm),那么上述性质可用矩阵表示为其中 diag
28、 (r1,rm)SJJSJVImImSV1 mIm性质3原始变量与典型变量之间的关系求出典型变量后,进一步计算原始变量与典型变量之间的相关系数矩阵,也称为典型结构.下面我们分别对总体与样本进行讨论.i总体典型相关的原始变量与典型变量的相关性详见参考文献【ii样本典型相关2】.SyjSyvA ( i,2 , m)(ij ) p mB ( i,2, m)(ij)q mSiisi psi,lpsi, p qsplsPPsp, p 1sp,p qsp 1,1sp 1,psp l,p 1s p 1,p qsp q,1s p q, psp q,p 1sp q,p q1 n1 (XiX)(A X1 ,A X
29、)SiiAn i i1 n1 (XiX)(B XB X)S12BS11 S12S21 S22n i iSXU1 n1(Yin i i» » »Y)(AX A X)s21a1 n1(丫n i iY)(BY B Y)S22B所以利用协方差进一步可以计算原始变量与典型变量之间的相关关系.假设假定原始变量均为标准化变量,那么通过以上计算所得到的原始变量与典型变量的协 方差阵就是相关系数矩阵.pr (Xi ,U j )sik kj ;siik 1.,q_r( Xi ,Vj )si,p k kj . Jsiik 1i 1,2, ,p , j 1,2, ,mpr(Y, U j)
30、 si p,k kj . ,:Sp i,p i k 1,1qr (Yi ,Vj )si p,pkkj .; spi,p ik1.i1,2,q,j1,2,m性质4设X和Y分别为p维和q维随机向量,令X1*1由于 ai C ai , biG bi C,X d,Y* G,Y h,其中C为p p阶非退化矩阵,d为p维常数向量,G为q q阶非退化矩阵,h为q 维常数向量.那么:i对于总体典型相关有:(1) X和Y的典型相关变量为(ai ) X和(bi)Y,其中ai C,i , bi G %(i 1,2, ,p);而科和.是X和Y的第i对典型相关变量的系数.(ai*)X*,(b;)Y*a;X,HY,即线性
31、变换不改变相关性.证实详见参考文献【2】.ii对于样本典型相关有:(1) X和Y的典型相关变量为(ai ) X和(bi)Y,其中ai C ai , bi G bi(i 1,2, ,p);而4和0是X和Y的第i对典型相关变量的系数.r(ai ) X , (bi ) Y raiX,bjY,即线性变换不改变相关性.证实: 设X*和Y*的典型相关变量分别为 * , * * , * U (ai ) X , V(bi) Y* _ » * _ X CXd,Y GY h所以 U (C 13i) (C X d) ai(C 1) (C X d) a aj(C1)dV (G 1bi) (GY h) bi(
32、G 1) (GY h) bi Y bi (G 1) h即有ai和bi是X和Y的第i对典型相关变量的系数.(2)由的证实可知* ' * ' . - ',一1、'. U (ai) X aiX ai (C ) dV (bi ) Y biY bi(G 1) h由于a;(C 1)'d与b;(G 1)'h都是常数,所以r(ai ) X ,(bi )Y raiX aC )d,biY b (G ) h rai X,biY 即有线性变换不改变相关性.性质5简单相关、复相关和典型相关之间的关系当p q 1, X与Y之间的(惟一)典型相关就是它们之间的简单相关;当p
33、1或q 1时,X与Y之间的(惟一)典型相关就是它们的复相关.复相关是典型 相关的一个特例,而简单相关又是复相关的一个特例.从第一个典型相关的定义 可以看出,第一个典型相关系数至少同 X(或Y)的任一分量与Y(或X)的复相关系 数一样大,即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大; 同样,从复相关的定义也可以看出,当 p 1 (或q 1)时,X(或Y)与Y(或X)之间的复相关系数也不会小于 X(或Y)与Y(或X)的任一分量之间的相关系数,即使 所有这些相关系数都很小,复相关系数仍可能很大.第4章典型相关系数的显著性检验设总体 Z 的两组变量 X (X1,X2, ,Xp)'
34、 , Y (Y1,Y2, ,Yq),且'4一、一 一 、-、一、Z (X,Y) Np q(,),在做两组变量X , Y的典型相关分析之刖,首先应该检验两组变量是否相关,如果不相关,那么讨论两组变量的典型相关就毫无意义.1.考虑假设检验问题:H 0 -12m 0Hi :1, 2, m至少有一个不为零其中m min p,q .假设检验接受H0 ,那么认为讨论两组变量之间的相关性没有意义;假设检验拒绝H.,那么认为第一对典型变量是显著的.上式实际上等价于假设 检验问题H0 : Cov(X,Y) 120, H1 :120用似然比方法可导出检验H 0的似然比统计量|S| S11 | | S22
35、|其中p q阶样本离差阵S是 的最大似然估计,且S= S11 S12 , S11, S22分别S21 S22是11 ,22的最大似然估计.该似然比统计量的精确分布已由霍特林(1936), Girshik (1939)和Anderson (1958)给出,但表达方式很复杂,又不易找到该分布的临界值表,下 面我们采用的近似分布.利用矩阵行列式及其分块行列式的关系,可得出:|S| |S22 | IS11G2S2=S21 | = |S22 | |Sn | | pS11s12s22 s21 1(12)2i 1p所以1| p &1&8人21 |0其中2是TT'的特征值(TS1112
36、812s2产),按大小次序排列为:0,当n1时,在Ho成立下Qo mln近似服从2分布,、一 一1这里f pq , m n 1 -(p q 1),因此在给止检验水平之下,右由样本算出的Qo2临界值,那么否认H o ,也就是说第一对典型变量U 1 , V1具有相关性,其相关系数为1 ,即至少可以认为第一个典型相关系数1为显著的.将它除去之后,再检验其余p 1个典型相关系数的显著性,这时用Bartlett提出的大样本2 检验计算统计量: p1(12)(13)(1 p)(12)i 2那么统计量八1Q1n 2 (p q 1)ln 1近似地服从(p 1)(q 1)个自由度的2分布,如果Q12 ,那么认为
37、2显著,即第二对典型变量U2, V2相关,以下逐个进行检验,直到某一个相关系数k检验为不显著时截止.这时我们就找出了反映两组变量相互关系的 k 1对典型变 量.2.检验 H0k): k 0 (k 2, p)当否认Ho时,说明X,Y相关,进而可以得出至少第一个典型相关系数1 o ,相应的第一对典型相关变量 U1,V1可能已经提取了两组变量相关关系的绝大局部信息.两组变量余下的局部可认为不相关,这时k o (k 2, , p),故在否认Ho后,有必要再检验Hok) (k 2, ,p),即第k个及以后的所有典型相关系数均为o (k 2,3, , p).为了减少计算量,下面我们采用二分法来减少检验次数
38、,取检验统计量为1 p2Qkn k -(p q 1) ln(1 Q2 i k它近似服从(p k 1)(q k 1)个自由度的分布.在检验水平 下,假设Qk 2(p k 1)(q k 1),那么拒绝Ho ,即认为第k对典型相关系数在显著性水平下是显著的,否那么不显著.从第2个典型相关系数到第p个典型相关系数,共p 1个数,所以根据二分法的原理,将它们分为一个区间 2,p ,然后先检验第上个典型相关系数 2即中位数,当 p1 0时,即认为第 上二个典型相关系数不相关,否认原假 彳2设,接着检验2 ,上;假设当P10时,那么检验上二,p.如此2?2划分区间依次检验下去,由数学分析上的区间套定理,一定
39、存在第k个数(k 2,3, , p),使得 k 10 ,而 k 0.以上的一系列检验实际上是一个序贯检验,检验直到对某个k值H 0未被拒绝为止.事实上,检验的总显著性水平已不是了,且难以确定.还有,检验的结果易受样本容量大小的影响.因此,检验的结果只宜作为确定典型变量个数的重 要参考依据,而不宜作为惟一的依据.第5章 典型相关分析的计算步骤及应用实例5.1典型相关分析的计算步骤设X,Xn为取自正态总体的样本实际上,相当广泛的情况下也对 每个样品测量两组指标,分别记为 X Xi, ,Xp, Y 丫,Yq,原始资料 矩阵为:XiiX12Xi pyiiyi2yi qX21X22X2py2iy22y2
40、qXniXn2Xnpyniyn2ynq n ( p q)第一步 计算相关矩阵R,并将R剖分为Ri7其中Rii, R22分别为第一组变量和第二组变量之间的相关系数矩阵,R12R21为第一组与第二组变量之间的相关系数.第二步求典型相关系数及典型变量首先求A 吊22221的特征根2 ,特征向量Di;BRzNRziRiKiz的特征根2 ,特征向量D2. DiiDi i,iD21D2i写出样本的典型变量为U11 X , V1 YU2 X , V22 Y,、' ,、'U X , VppYpp第三步典型相关系数的显著性检验 首先,检验第一对典型变量的相关系数,即H0 : i 0, Hi :
41、i 0它的似然比统计量为AAApAi i 2i2 i p i 2i i那么统计量八iQin 2 p q iln i给定显著性水平,查表得2 ,假设Qi2 ,那么否认Ho ,认为第一对典型变量相关,否那么不相关.如果相关那么依次逐个检验其余典型相关系数,直到某一个相A关系数k k 2, ,p检验为不显著时截止.5.2实例分析例i:某康复俱乐部对20名中年人测量了三个生理指标:体重xi、腰围 X2、脉搏X3和三个练习指标:引体向上1、起坐次数丫2、跳跃次 数y3.数据如附录i:斛:记 X Xi,X2,X3 , Y %,丫2.3,其中样本谷重 n 20.附录i中的数据用SPSS统计软件计算得六个变量
42、之间的相关矩阵如下:CorrelationsXiX2X3YiY2Y3XiPearsonCorrelatioi.870(*)-.366-.390-.493(*)-.226nSig.(2-tailed).000.ii3.089.027.337N202020202020X2Pearson Correlatio n.870(*)i-.353-.552(*)-.646(*)-.i9iSig.(2-tailed).000.i27.0i2.002.4i9N202020202020X3PearsonCorrelatio-.366-.353i.i5i.225.035nSig.(2-tailed).113.127
43、.526.340.884N202020202020Y1PearsonCorrelatio-.390-.552(*).1511.696( Correlation is significant at the 0.01 level (2-tailed).* Correlation is significant at the 0.05 level (2-tailed).即样本相关矩阵为:).496(*)nSig.(2-tailed).089.012.526.001.026N202020202020Y2Pearson Correlatio n-.493(*)-.646(*).225.696(*)1.66
44、9(*)Sig.(2-tailed).027.002.340.001.001N202020202020Y3PearsonCorrelatio-.226-.191.035.496(*).669(*)1nSig.(2-tailed).337.419.884.026.001.N202020202020R1尸 0.8700.3660.353 1R22= 0.6960.4960.6690.3900.4930.226R12R210.5520.6460.1920.1510.2250.035于是特征方程1R11 R12R22R2120.6630、0.0402 和0.0053 ,于是用Matlab求得矩阵R11
45、1K2R2;R21的特征值分别为0.797 , 0.201 ,30.0732卜面我们进行典型相关系数的显著性检验,先检验第一对典型变量的相关系数,欲检验:H0 :10,H1 :10它的似然比统计量为1(12)(12)(12)=(1 0,6330)(1 0.0402)(1 0.0053) 0.35041Q120 .(3 3 3)ln 115.5 In 0.3504 16.255查2分布表得,0205(9) 16.919,因此在0.05的显著性水平下,Qi(9),所以拒绝原假设H.,也即认为第一对典型相关变量是显著相关的.然后检验第二对典型变量的相关系数,即进一步检验:H0 :20,Hi :20它
46、的似然比统计量为2 (12)(13)(1 0.0402)(1 0.0053) 0.9547122Q220 1 -(3 3 3)12ln 216.08 In 0.9547 0.745 9.488(4)所以无法否认原假设H.,故接受H.:2 0 ,即认为第二对典型相关变量不是显著相关的,由以上检验可知只需求第一对典型变量即可.于是求10.797的特征向量1 ,而0.775* _ 11,579,0.059因此,第一对样本典型变量为 * *Ui0.775Xi* *v10.350y1X与Y第一对典型变量的相关系数为1 1R22 R211 ,斛小于10.350*. _,1.054 ,0.716* *1.5
47、79x2 0.059x3_ * _ . _ *1.054 y2 0.716y310,797,可见两者的相关性较为密切,即可认为生理指标与练习指标之间存在显著相关性 .例2:为了研究某企业不同部门人员工作时间的关系,随机选取 25个企业进行入户调查,到达25个被访企业业务部门和技术部门经理每月工作时间和员工每月工作时间(单位为小时),具体数据如附表 2分析:设业务部门经理和员工每月工作时间为Xi,X2,技术部门经理和员工每月工作时间为X,利用典型相关分析研究企业业务部门和技术部门人员工作时间的关系.解:样本容量为n 25, p 2, q 2分别为随机变量X与Y的维数.标准化随机变量X遇1/2
48、39;与丫 丫1,丫2.根据样本均值xi与标准差v'S",依照公式xkixki xi.SH,对数据标准化.X 求解X的相关矩阵R ,并将其分块YxxyxRxyRyy将数据输入SPS欹件求得相关系数矩阵如下:CorrelationsX1X2Y1Y2X1PearsonCorrelatio1.735(*).711(*).705(*)nSig.(2-tailed)N.25.00025.00025.00025X2PearsonCorrelatio.735(*)1.693(*).705(*)nSig.(2-tailed)N.00025.25.00025.00025Y1PearsonCor
49、relatio.711(*).693(*)1.834(*)nSig.000.000.000(2-tailed)N25252525Y2PearsonCorrelatio.705(*).705(*).834(*)1nSig.000.000.000.(2-tailed)N25252525* Correlation is significant at the 0.01 level (2-tailed).所以样本相关矩阵0.7350.7110.7050.69310.705 0.834 1分块后Rxx Ryx2RxyRyy2-1 1 1 1R 1 R 1 R 1R 1xx xy yy yx0.544309
50、0.5388400.538840的两个非零特征根,解得0.534949两个非零特征根为20.6218,20.0029.进行相关系数的显著性检验,取 mr个显著性检验不为0的特征根.X与Y第一对典型变量的相关系数为10.7885, X与Y第二对典型变量的相关系数为2 0.0537先检验第一对典型变量的相关系数,假设H01:10即第一对典型变量不相关,由典型相关系数的值可得2-2) 0.3771计算统计量-1Qi(n 1) (P q 1) ln i2(24 2.5) In 0.3771 20.97对于给定的显著性水平0.05Q120.971(11)(1(p m 1)(q m 1) 机 9.488所
51、以否认零假设.H01:10,即第一对典型变量是显著相关的.然后检验第二对典型变量的相关系数,假设H02:2 0 (即第二对典型变量不相关),由典型相关系数的值可得2(12) 0.9971计算统计量Q2(n 2) 1( p q 1)ln 22(24 2.5) In 0.9971 0.05945对于给定的显著性水平0.05Q2 0.059452(p m 1)(q m 1);.05(1) 3.841所以无法否认假设.H 02 : 2 0 ,即第二对典型变量不是显著相关的.由以上检验可知,只需求 第一对典型变量即可. 求m 1个显著性检验不为0的特征根2的特征向量I1 ,而m11RRyJ ,解得 I1 (0.55216,0.521548), m1(0.504018,0.538134)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保安工作总结计划办公家具行业保安工作的资产保护
- 医院应急管理与预案执行路径计划
- 法务专员聘用合同
- 律师行业个人发展计划
- 2024年开封市事业单位联考招聘考试真题
- 如何提升自我管理能力的新年计划
- 非营利组织品牌运营总监岗位职责
- 化学实验教学信息化计划
- 人教版生物教学计划中的学情分析
- 以游戏为基础的幼小衔接教学计划
- DL∕T 512-2014 KRC系列环锤式破碎机
- 珠海市文园中学2022-2023学年七年级下学期期中考试英语试题
- 园区及配套设施验收表
- 幼儿园小班社会课件:《小猴借玩具》
- 大学校园白蚁防治方法
- 雷雨-剧本原文-高中语文雷雨剧本原文
- 【信息技术】组建无线局域网 课件 2023-2024学年人教-+中图版(2019)高中信息技术必修2
- 2024年10月公务员制度自考试卷含解析
- MOOC 电路基础-西北工业大学 中国大学慕课答案
- 幼儿园课件:谷雨绘本故事-养蚕忙
- 高级审计师《审计理论与审计案例分析》真题
评论
0/150
提交评论