应用多元统计分析第09章-典型相关分析_第1页
应用多元统计分析第09章-典型相关分析_第2页
应用多元统计分析第09章-典型相关分析_第3页
应用多元统计分析第09章-典型相关分析_第4页
应用多元统计分析第09章-典型相关分析_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章典型相关分析第一节

引言第二节

典型相关的基本理论第三节

样本典型相关分析第四节

典型相关分析应用中的几个问题第五节

实例分析与计算实现第一节引言典型相关分析(CanonicalCorrelation)是研究两组变量之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。

知道,在一元统计分析中,用相关系数来衡量两个随机变量之间的线性相关关系;用复相关系数研究一个随量和多个随量的线性相关关系。然而,这些统计方法在研究两组变量之间的相关关系时却为力。比如要理指标与训练指标的关系,居民生活环境与健康状况的关系,人口统计变量(户主、家庭年收入、户主受教育程度)与消费变量(每年去餐馆就餐的频率、每年出外看的频率)之间是否具有相关关系?阅读能力变量(阅读速度、阅读才能)与数算能力变量(数算速度、数算才能)是否相关?这些多变量间的相关性如何分析?1936年霍特林(Ho成绩”的关系、ling)最早就“大学表现”和“入学前政策变量与经济目标变量的关系等问题进行了研究,提出了典型相关分析技术。之后,Cooley和Hohnes(1971),Tatsuoka(1971)及Mardia,Kent和,Bibby(1979)等人对典型相关分析的应用进行了Kshirsagar(1972)则从理论上给出了最好的分析。典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。目前,典型相关分析已被应用于心理学、市场等领域。如用于研究个人性格与职业的关系,市场促销活动与消费者响应之间的关系等问题的分析研究。第二节典型相关的基本理论—

典型相关分析的基本思想二

典型相关分析原理及方法一、典型相关分析的基本思想典型相关分析由Ho

ling提出,其基本思想和主成分分析非常相似。首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提取完毕为此。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。一般情况,设是两个相互关联的随机向量,分别在两组变量中选取若干有代表性的综合变量Ui、Vi,使得每一个综合变量是原变量的线性组合,即)

@a(i

)

X(1)V

b(i

)X

(2)

b(i)

X

(2)i

1

1

2

2

b(i)

(2)

@b(i)

X(2)L(1)

(1)

(1)

(1)X

(

X

,

X

,L

,

X

)(2)

(2)

(2)

(2)1

2

p

1

2

q、

X

(

X ,

X ,L

,

X )为了确保典型变量的唯一性,只考虑方差为1

的X

(1)、X

(2)的线性函数a(i

)

X

(1)与b(i

)

X

(2),求使得它们相关系数达到最大的这一组。若存在常向量a

(1),b(1),在D(a(1)

X

(1))

D(b(1)

X

(2))

1的条件下,使得(a(1)

X

(1),b(1)

X

(2))达到最大,则称a(1)

X

(1)、

b(1)

X

(2)是X

(1)、X

(2)的第一对典型相关变量。求出第一对典型相关变量之后,可以类似的求出各对之间互不相关的第二对、第三对等典型相关变量。这些典型相关变量就反映了

X

(1),X

(2)之间的线性相关情况。这里值得注意的是,可以通过检验各对典型相关变量相关系数的显著性,来反映每一对综合变量的代表性,如果某一对的相关程度不显著,那么这对变量就不具有代表性,不具有代表性的变量就可以忽略。这样就可以通过对少数典型相关变量的研究,代替原来两组变量之间的相关关系的研究,从而容易抓住问题的本质。二、典型相关分析原理及方法12(

pq)11(2)2(2)qX

(1)X设有两组随机向量,X

(1)代表第一组的p

个变量,X

(2)代表第二组的q

个变量,假设p≤q。令Cov(

X

(1)

)

Σ

,

Cov(

X

(2)

)

Σ

,

Cov(

X

(1)

,

X

(2)

)

Σ

Σ11

22

12

2

X

(1)

X

(1)

p

X

(2)

X

M

M

X

(1)

X

(2)X

(

p

p

)(

pq

)

(q

p(qq

)

Σ11Σ21Cov(

X

,

X

)

Σ12

Σ22

根据典型相关分析的基本思想,要进行两组随机向量间的相关分析,首先要计算出各组变量的线性组合——典型变量,并使其相关系数达到最大。因此,设两组变量的线性组合分别为:(2)1

1V

bX

(2)

b

X

(2)2

2

b

X

(2)L

b易见D(U

)

D(aX

(1)

)

aCov(

X

(1)

,

X

(1)

)a

a11D(V

)

D(bX

(2)

)

bCov(

X

(2)

,

X

(2)

)b

b2212Cov(U

,V

)

aCov(

X

(1)

,

X

(2)

)b

bCorr(U

,V

)

Cov(U

,V

)

aΣ12bD(U

)

D(V

)

aΣ11a

bΣ22b希望寻找使相关系数达到最大的向量a与b,由于随机向量乘以常数时并不改变它们的相关系数,所以,为防止结果的重复出现,令D(U

)

aΣ11a

1D(V

)

bΣ22b

1根据求极值的必要条件得1211

22aΣ12b那么,

Corr(U

,V

)

baΣ

abΣ

b问题就成为在(9.1)式的约束条件下,求使Corr(U,V

)

aΣ12b

,达到最大的系数向量a

与b

。根据条件极值的求法引入Lagrange

乘数,将问题转化为求(9.2)12

11222

2(a,

b)

b

(aΣ

a

1)

(bΣ

b

1)(9.3)的极大值,其中λ,ν

是Lagrange

乘数。12

1121

22

Σ

b

Σ

a

0

a

Σ

a

Σ

b

0

b(9.4)22

将(9.4)方程组的二式分别左乘a

与b

则得aΣ12b

aΣ11a

0b

Σ21a

bΣ b

022

即有aΣ12b

aΣ11a

b

Σ21a

bΣ b

因为(bΣ21a)

aΣ12b

,所以

aΣ12b

,知

为线性组合U

,V

的相关系数。用

代替方程组中的

,则(9.4)方程组写为:

Σ12b

Σ11a

022

21Σ a

Σ b

0(9.5)假定各随

量协差阵的逆矩阵存在,则由方程组(9.5)式中的第二式,可得:22

21b

1

Σ1Σ

a(9.6)将(9.6)式代入方程组(9.5)式的第一式,得12

22

21

1111Σ Σ Σ a

Σ a

0即有21Σ

Σ

Σ

a

Σ

a

012

22

21

11同理,由方程组(9.4)式可得(9.7)21

11

12

221

Σ

Σ

b

Σ

b

0(9.8)用Σ1

和Σ1

分别左乘(9.7)和(9.8)式,得11

2211

12

22

211

1

211

2

22

21

11

12Σ

Σ

Σ

Σ a

a

Σ

Σ

Σ b

b

0(9.9)即211

12

22

21222

21

11

1200p

I

)a

q

I

)b

(Σ1Σ

Σ1Σ(Σ1Σ

Σ1Σ(9.10)由此可见,

Σ1Σ

Σ1Σ

和Σ1Σ

Σ1Σ11

12

22

21

22

21

11

12具有相同的特征根

2

,a

,b

则是其相应的特征向量。为了表示方便,令11

12

22

21A

Σ1Σ

Σ1Σ22

21

11

12B

Σ1Σ

Σ1Σ其中

A

为p×p

阶矩阵,B

为阶矩阵。因为

aΣ12b

Corr(U,V

),求Corr(U

,V

)最大值也就是求

的最大值,而求

的最大值又转化为求A

和B

的最大特征根。可以证明,A

和B

的特征根和特征向量有如下性质:A

和B

具有相同的非零特征根,且所有特征根非负。A

和B

的特征根均在0~1

之间。22

21

2

r3.

A

B

L

,r

rank(A)

rank(B),a(1),a(2),L,a(r

)为A

对应于2

2

212r

,

,L ,

(r

)b(1),b(2),L

,b

为B

对应于的特征向量,的特征向量。2

2212r

,

,L ,

由于

所求的是最大特征根及其对应的特征向量,因此,最大特征根2

(1)(1)

(1)(1)1

1

2

p对应的特征向量

a

(a

,

a

,L ,

a

)

和b(1)(b(1),b(1),L

,b(1))

就是所求的典型变量的系数向量,1

2

q即可得V

b(1)

X(2)

b(1)X

(2)

b(1)

X

(2)1

1

1

2

2L

b(1)(2)称其为第一对典型变量,最大特征根的平方根1

即为两典型变量的相关系数,

称其为第一典型相关系数。如果第一典型变量不足以代表两组原始变量的信息,则需要求得第二对典型变量,即(2)

(1)U2

a

XV

b(2)

X(2)2显然,要求第二对典型变量也要满足如下约束条件:D(U

)

a(2)

Σ

a(2)

12

112

22D(V

)

b(2)

Σ

b(2)

1(9.11)除此之外,为了有效测度两组变量的相关信息,第二对典型变量应不再包含第一对典型变量已包含的信息,因而,需增加约束条件:1

2

111

2

22Cov(U

,U

)

Cov(a(1)

X(1)

,

a(2)

X(1)

)

a(1)

Σ

a(2)

0Cov(V,V

)

Cov(b(1)

X(2)

,

b(2)

X(2)

)

b(1)

Σ

b(2)

0(9.12)类似地,依次可求出第r

对典型变量:UrCorr(U

,V

)(

2) (

2)2

2

12在(9.11)和(9.12)式的约束条件下,可求得其相关系数

a

Σ

b

的最大值为上述矩阵A

B和 的第22

2二大特征根

的平方根,其对应的单位特征向量a(2),b(2)就是第二对典型变量的系数向量,称U2

2

a(2)

X(1)

和V

b(2)

X(2)

为第二对典型变量,

为第二典型相关系数。2

a(r

)

X(1)和r(

r

)V

b(

2)

(r

)

(r

)X ,其系数向量a

和b

A

B分别为矩阵

和 的第r2r特征根

对应的特征向量。rr

即为第 典型相关系数。综上所述,典型变量和典型相关系数的计算可归结为矩阵A

和B

特征根及相应特征向量的求解。如果矩阵A

和B

的秩为r,则共有r

对典型变量,第k

对(1

k

r)典型变量的系数向量分别是矩阵2kA

和B

k

特征根

相应的特征向量,典型相关系数为k

。典型变量具有如下性质:1.

D(Uk

)

1,

D(Vk

)

1

(k

1,

2, ,

r)Cov(Ui

,U

j

)

0,

Cov(Vi

,Vj

)

0 (i

j)i

0(i

j,

i

1,

2, ,

r)(i

j)(

j

r)i

j2.

Cov(U

,V

)

00第三节样本典型相关分析—

样本典型相关变量及典型相关系数的计算二

典型相关系数的显著性检验一、样本典型相关变量及典型相关系数的计算设(2)

在实际分析应用中,总体的协差阵通常是未知的,往往需要从研究的总体中随机抽取一个样本,根据样本估计出总体的协差阵,并在此基础上进行典型相关分析。

X(1)

XpqX

服从正态分布

N

(μ,

Σ),从该总体中抽取样本容量为n

的样本,得到下列数据矩阵:11

1221n1n

2X

(1)X

(1)X

(1)X

(1)

X

(1)

X

(1)X

(1)

1

p

2

p

X

(1)X

(1)

np

X(1)

M

L22

LM

M

OL样本均值向量样本协差阵11121q21n1n

2X

(2)X

(2)X

(2)X

(2)

X

(2)nqX

(2)X

(2)

2q

X

(2)

X

(2)X(2)

L22

LM

M

OLM

X(1)

X

X(2)其中X(1)(1)1nn

1

X(2),

X(2)1nn

1

X2122

Σˆ

12

ˆΣˆΣˆ

11Σ

Σˆ其中j

1ˆn

1n(k

)

(k

) (l

) (l

)Σkl

1

(X

j

X

)(X

j

X

)

,

k,

l

1,

2由此可得矩阵A

和B

的样本估计:11

12

22

21Aˆ

Σˆ

1ΣˆΣˆ

1Σˆ22

21

11

12Bˆ

Σˆ

1ΣˆΣˆ

1Σˆ如前所述,求解

的特征根及其相应的特征向量,即可得到所要求的典型相关变量及其典型相关系数。这里需要注意,若样本数据矩阵已经标准化处理,此时样本的协差阵就等于样本的相关系数矩阵21ˆ22

11

12

R

RˆRˆ由此可得矩阵A

和B

的样本估计:11

12

22

21Aˆ

*

1RˆRˆ

1Rˆ22

21

11

12Bˆ

*

1RˆRˆ

1Rˆ求解Aˆ

*

和Bˆ

*的特征根及相应的特征向量,即可得到典型变量及典型相关系数。此时相当于从相关矩阵出发计算典型变量。二、典型相关系数的显著性检验在利用样本进行两组变量的典型相关分析时,应就两组变量的相关性进行检验。这是因为,如果两个随机向量

X(1)、X(2)互不相关,则两组变量协差阵Cov(X(1),X(2))

0

。但是有可能得到的两组变量的样本协差阵不为零,因此,在用样本数据进行典型相关分析时应就两组变量的协差阵是否为零进行检验。即检验假设H0

:

Σ12

0,

H1

:

Σ12

0根据随机向量的检验理论可知,用于检验的似然比统计量为2011

22ˆri1i(1

)

ΣˆΣˆ

Σˆ(9.13)两组变量间存在相关性。在进行典型相关分析时,对于两随机向量X(1)、X(2),可以提取出p

对典型变量,问题是进行典型相关分析的目的就是要减少分析变量,简化两组变量间关系分析,提取p

对变量是否必要? 如何确定保留多少对典型变量?2ˆi在(

9.13

)式中是

矩阵

A

的第

i

征根的

估计值,r

min(p,q)

p

。巴特莱特(Bartlett)证明,当H0

成立时,Q0

mln

0近

2

(

f

)分

中1度

f

pq

。在给定的显著性水20m

(n

1)

(

p

q

1)

,2平

下,当由样本计算的Q

临界值时,原假设,认为2ˆ若总体典型相关系数k

0

,则相应的典型变量Uk,Vk

之间无相关关系,因此对分析

X(1)

对X(2)

的影响不起作用.这样的典型变量可以不予考虑,于是提出如何根据样本资料来判断总体典型相关系数是否为零,以便确定应该取几个典型变量的问题。巴特莱特(Bartlett)提出了一个根据样本数据检验总体典型相关系数1,2

,L,r

是否等于零的方法。检验假设为H0

:

k

1

k

2

L

r

0H1

:

k

1

0用于检验的似然比统计量为:rki

(1

)ik

1(9.14)k2k可以证明,

Qk

mk

ln

近似服从

(

f

)

分布,其中度1fk

(p

k)(q

k),mk

(n

k

1)

2

(p

q

1)。首先检验

H0

:

1

2

L

r

0

。此时k

0

,则(9.14)式为212ˆ

ˆ

ˆ

ˆri1ir(1

)

(1

)(1

)L

(1

)

0

0

002Q

m

ln

[(n

1)

1

(

p

q

1)]ln

20

0若Q

(

f

)

,则原假设,也就是说至少有一个典型223ˆ

ˆ

ˆ

ˆ相关系数大于零,自然应是最大的典型相关系数1

0

。若已判定

1

0

,则再检验

H0

:

2

3

L

r

0

。此时

k

1

,则(9.14)为riri2

(1

)

(1

)(1

1

)L

(1

)1

1

112Q

m

ln

[(n

11)

1

(

p

q

1)]ln

1Q

近似服从21

(

f

)1分布,

其中

f

(

p

1)(q

1)

,如果21

1Q

(f

),则原假设,也即认为2

,3

,L,r

至少有一个大于零,自然是2

0

。若已判断1

和2

大于零,重复以上步骤直至r

0

,此时令2ˆH

0

:

j

j

1

L

ˆij

1jrj

1

(1

)(1

)L

(1

ˆ

)

(1

)i

j则2j

1j

1Qj

1

mj

1ln

[(n

j)

1

(

p

q

1)

ln

Qj

1

近似服从

(

f

)

分布,2j

12其中

f

(

p

j

1)(q

j

1)

,如果Qj

1

j

1

j

1

(

f)

,则

j

j

1

L

r

0

,于是总体只有

j

1

个典型相关系数不为零,提取

j

1对典型变量进行分析。【例9.1】康复

对20名中年人测量了三个生理指标:体重(x1),腰围(x2),脉搏(x3);三个训练指标:引体向上次数(y1),起坐次数(y2),跳跃次数(y3)。分析生理指标与训练指标的相关性。数据详见表9.1。表9.1

康复

数据样本2x1

x3x1y2y3y7181821x1x2x3y1y2y3013根据表

9.1

数据可得11579.1465.36

61.869.74

7.74

7.74Σˆ

65.3661.86

26.5549.39

218.60 127.67

3718.85

2039.642039.64

2497.9122Σˆ

218.60127.671248.32723.63122.8796.458.88122.8729.87272.18Σˆ

8.8829.87

5.46

48.3212.27

5.46

21Σˆ

723.6396.45272.1812.2711Σˆ

1

0.0472140.007232370.001659410.00165941

0.07323990.023507840.000410.0472140.42549329

0.007545310.007545310.00407890.00071416

0.000370.0003747220.0004126Σˆ

1

0.00407890.000727计算得11

12

22

21Aˆ

Σˆ

1ΣˆΣˆ

1Σˆ0.24594540.04651367

4.4988110.0575041

0.161788310.017283710.2230850.05518870.90714323

0.73922120.01389642.034284390.54877371

0.0913390.4227509222

21

11

12Bˆ

Σˆ

1ΣˆΣˆ

1Σˆ

0.040761710.032827421求得特征值为:=0.632994993,20.03208=0.040214862,23=0.005267145。典型相关系数分别为:1=0.796,2

=0.201,3

=0.073。Aˆ

和Bˆ

相应的的特征向量分别为:a(1)

(0.031,

0.493,

0.008)a(2)

(0.076,

0.369,

0.032)a(3)

(0.008,

0.158,

0.146)b(1)

(0.066,

0.017,

0.014)b(2)

(0.071,

0.002,

0.021)b(3)

(0.245,

0.020,

0.008)根据前述的典型相关系数显著性检验方法,对于H0

:

1

2

3

0

H1

:至少有一个不为零。32i1ˆ

(1

0.632994993)(1

0.040214862)(1

0.005267145)

0.350390621i(1

)

0

0

000

[(20

1)

1

(3

3

1)]ln

2

15.5

ln

0

16.2552Q

m

ln

[(n

1)

1

(

p

q

1)]ln

32i2ˆi(1

)

(1

0.0402148

1

1

110

[(20

1)

1

(3

3

1)]ln

2

15.5

ln

1

0.7182Q

m

ln

[(n

1)

1

(

p

q

1)]ln

0<20.05Q

(9)=16.91896016,故在α=0.05

下,生理指标与训练指标之间不存在相关性;020.10而在α=0.10

下,Q

>(9)=14.68366,生理指标与训练指标之间存在相关性,且第一对典型变量相关性显著。继续检验:1<20.10Q

(4)

=7.779434,故在

=0.10

下,第二对典型变量间相关性不显著。说明生理指标和训练指标之间只有一对典型变量,即:U1

0.031X1

0.493X2

0.008X3V1

0.066Y1

0.017Y2

0.014Y3第四节典型相关分析应用中的几个问题—

从相关矩阵出发计算典型相关二

典型载荷分析三

典型冗余分析一、从相关矩阵出发计算典型相关典型相关分析涉及多个变量,不同的变量往往具有不同的量

纲及不同的数量级别。在进行典型相关分析时,由于典型变

量是原始变量的线性组合,具有不同量纲变量的线性组合显

然失去了实际意义。其次,不同的数量级别会导致“以大吃

小”,即数量级别小的变量的影响会被忽略,从而影响了分

析结果的合理性。因此,为了消除量纲和数量级别的影响,

必须对数据先做标准化变换处理,然后再做典型相关分析。

显然,经标准化变换之后的协差阵就是相关系数矩阵,因而,也即通常应从相关矩阵出发进行典型相关分析。【例9.2】对于例9.1从相关系数矩阵出发进行典型相关分析。11

0.8702434910.3528921Rˆ

0.365762221Rˆ

0.6957274210.669206080.495760180.38969371221110.4930836

0.22629560.645598

0.22503808

0.03493306Rˆ0.1914994

0.55223210.1506480211

12

22

21

1RˆRˆ

1RˆAˆ

0.58342550.01679290.161788270.0312927

0.0z22

21

11

12

1RˆRˆ

1Rˆ0.1718776

0.022998202

0.5487737

0.111448282

0.3464725Bˆ

0.482441590.3184294z计算得Aˆ

z

,Bˆ

z21的特征值为:=0.6329949930.032080511,2

=0.22

3040214862,

=0.005267145。其结果同从协差阵出发计算的特征值相同,因此检验结果也相同,提取第一典型变量,按照类似的方法可求得典型变量系数向量:a(1)*

(0.775,

1.579,

0.059)a(2)*

(1.884,1.181,

0.231)a(3)*

(0.191,

0.506,1.051)b(1)*

(0.349,1.054,

0.716)b(2)*

(0.376,

0.123,1.062)b(3)*

(1.297,1.237,

0.419)可得到标准化的第一对典型变量:U

*

0.7751Z

(1)

1.579Z

(1)

0.059Z

(1)1

1

2

3V

*

0.349Z

(2)

1.054Z

(2)

0.716Z

(2)1

1

2

3其中,Z

(1)

Z

(

2)

分别为原始变量

X

和Y

标准化后的结果。i

j

i

j二、典型载荷分析进行典型载荷分析有助于更好解释分析已提取的p

对典型变量。所谓的典型载荷分析是指原始变量与典型变量之间相关性分析。

a(1)

b(1)

(

p

)

令A*

a

(

p

)

a(2)

b(2)

B*

bU

2

U

U1

V1

V

2

U

p

Vp

V

U

A*X(1)

V

B*X(2)其中A*

,B*

为p

对典型变量系数向量组成的矩阵,U

和V

为p

对典型变量组成的向量。则11Cov(U,

X(1)

)

Cov(A*X(1)

,

X(1)

)

A*Σ(1)Cov(U

,

X

(1)

)D(U

)

D(

X

(1)

)i

k(1)Corr(Ui

,

Xk)

i

k

Xk

)1/

2

(1)i

kk

Cov(U

,

i

k

Cov(U

,

X

)kD(

X

(1)

)i(1)k这里

D(U

)

1,

D(

X1/

2kk)

11。记V1/

2为对角元素是1/

2kk的对角阵,所以有U

,

X

(1)11

Corr(U,

X(1)

)

Cov(U,

V1/

2

X(1)

)

Cov(A*X(1)

,

V1/

2

X(1)

)

A*Σ

V1/

211

11

11R类似可得:V

,

X

(

2

)22

22

B*ΣV1/

2RU

,

X

(

2

)12

22

A*Σ

V1/

2RV

,

X

(1)21

11

B*Σ

V1/

2R对于经过标准化处理后得到的典型变量有:Z

11U

,Z

(1)R

A*

R;Z

22V

,Z

(

2

)R

B*

RZ

12

Z

21U

,Z

(

2

)

V

,Z

(1)R

A*

R

R

B*

R对于样本典型相关分析,上述结果中的数量关系同样成立。【例9.3】利用例9.2

资料进行典型载荷分析。计算生理指标与其自身典型变量间的相关系数U

,Z

(1)Z

111.5791.1810.5060.9250.3770.031R

A*

R

0.7750.059

10.870

0.3661

0.3530.353

1

1.8840.231

0.8700.1910.621

1.051

0.3660.333

0.7720.0410.1350.942以上结果说明生理指标的第一典型变量与体重的相关系数为-0.621,与腰围的相关系数为-0.925,与脉搏的相关系数为0.333。从另一方面说明生理指标的第一对典型变量与体重、腰围负相关,而与脉搏正相关。其中与腰围的相关性最强。第一对典型变量主要反映了体形的胖瘦。三、典型冗余分析在进行样本典型相关分析时,也想了解每组变量提取出的典型变量所能解释的该组样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小。对于经标准化变换处理的样本数据协差阵就等于相关系数矩阵,因而,第一组变量样本的总方差为tr(R11

)

p

,第二组变量样本的总方差为tr(R22

)

q

。那么如何计算前r

个典型变量对样本总方差的贡献呢?从前述的典型载荷可知,Aˆ

*

和Bˆ

*

是样本典型相关系数矩阵,典z

z型系数向量是矩阵的行向量,

*

Z(1)

*

Z(2)

。z

z那么:1

121r

(1)

ˆz

,U12

122r

(1)

ˆz

,U11zˆ(1)pp

2

Aˆp

pzCov(Z(1)

,

)

Cov(Aˆ

1Uˆ

,

)z,Uz(1)

,Uˆz(1)

,Uˆr

(1)

ˆz

,Ur

(1)

ˆz

,Urrr

(1)

ˆz

,Urz(1)

,Uˆ

rp

2

p

r

(

2

)

ˆz1

,V21

11r

(

2

)

ˆz2

,V22

12(

2

)21z

BˆzCov(Z(2)

,

)

Cov(Bˆ

1Vˆ

,

)z(

2

),Vˆz(

2

)r

(

2

)

ˆz

,Vr

(

2

)

ˆz

,Vrrr

(

2

)

ˆz

,Vq

rz(

2

),Vˆ

q

r定义前r

对典型变量对样本总方差的贡献为(1)ˆikprz

,Ur2i1

k

1tr(aˆ(1)aˆ(1)

aˆ(2)aˆ(2)

aˆ(r

)aˆ(r

))

z

z

z

z

z

z(

2)ˆiKqrz

,Vr2i1

k

1tr(bˆ(1)bˆ(1)

bˆ(2)bˆ(2)

bˆ(r

)bˆ(r

))

z

z

z

z

z

z则第一组样本方差由前r

个典型变量解释的比例为(1)z(1)

|Uˆˆikprz

,Ur2Rd

pi1

k

1(9.15)第二组样本方差由前r

个典型变量解释的比例为(

2

)z(

2

)

|Vˆˆikqrz

,Vr2Rd

qi1

k

1(9.16)【例

9.4】依据例

9.3

所得

R

(

2

)

数据,进行典型冗余分析。U,Z(1)z(1)

|Uˆ根据(9.15)式

Rd

ˆikprz

,Ur2pi1

k

1求得生理指标样本方差由自身3

个典型变量解释的方差比例分别为:第一典型变量解释的方差比例=(0.6212+0.9252+0.3332)/3=0.451第二典型变量解释的方差比例=(0.7722+0.3772+0.0412)/3=0.246第三典型变量解释的方差比例=(0.1352+0.0312+0.9422)/3=0.302前2个典型变量解释的方差比例=0.451+0.246=0.697同样的方法可求得训练指标样本方差由自身3个典型变量解释的方差比例分别为:0.408、0.434、0.157。第五节实例分析与计算实现—

利用SPSS进行典型相关分析实例1二

利用SPSS进行典型相关分析实例2一、利用SPSS进行典型相关分析实例1测量15名受试者的身体形态以及健康情况指标,如9.2表。第一组是身体形态变量,有

、体重、

和日抽烟量;第二组是健康状况变量,有脉搏、收缩压和舒张压。要求测量身体形态以及健康状况这两组变量之间的关系。X1

体重X

2收缩压Y2舒张压Y3表9.2

两组身体素质的典型变量抽烟量

X

3

X

4

脉搏Y1251253083.57013085261312582.97213580281283588.17514090291264088.47814092271264580.67313885321182088.47013080X1

体重

X

2

抽烟量

X

3X

4

脉搏Y1收缩压Y2舒张压Y3311201887.86813575341242584.67013575361282588.07514080381242385.67214586411354086.37614888461434584.88014590471414887.98214892481395081.68515095451405588.08816095(一)操作步骤在SPSS中没有提供典型相关分析的专门菜单项,要想利用SPSS实现典型相关分析,必须在语句窗口中调用SPSS的Canonical

correlation.sps

宏。具体方法如下:按File→New→Syntax的顺序新建一个语句窗口。在语句窗口中输入下面的语句:(图9.1)INCLUDE

'Canonicalcorrelation.sps'.CANCORR

SET1=x1

x2

x3

x4

/SET2=y1

y2

y3

/

.图9.1

语句窗口2.点击语句窗口Run菜单中的All子菜单项,运行典型相关宏命令,得出结果。(二)主要运行结果解释Correlations

for

Set-1、Correlations

for

Set-2、Correlations

BetweenSet-1andSet-2(分别给出两组变量内部以及两组变量之间的相关系数矩阵)Canonical

Correlations(给出典型相关系数)

从表9.3中可以看出第一典型相关系数达到0.957,第二典型相关系数为0.582,第三典型相关系数为0.180。CanonicalCorrelations1.9572.5823.180表9.3

典型相关系数3.

Test

that

remaining

correlations

are

zero(给出典型相关的显著性检验)

表9.4中从左至右分别为Wilks的统计量、卡方统计量、

度和伴随概率。从表中可以看出,在0.05的显著性水平下,三对典型变量中只有第一对典型相关是显著的。Test

that

remaining

correlations

are

zero:Wilk'sChi-SQDFSig.1.05429.18612.000.0042.6404.4596.000.6153.967.3312.000.848表9.4

典型相关系数的显著性检验4.Raw

CanonicalCoeficients(分别给出两组典型变量的未标准化系数)5.

Standardized

Canonical

Coefficient(s

分别给出两组典型变量的标准化系数)由于本例中的数据单位并不

,所以

主要通过观察标准化的典型变量的系数来分析两组变量的相关关系。从表

9.5

中可以看出,来自身体形态指标的第一典型变量V1

为:V1

0.256X1

0.151X2

0.694X3

0.189X4由于X3(抽烟量)的系数-0.694

绝对值最大,反映身体形态的典型变量主要由抽烟量决定。而来自健康状况指标的第一典型变量U1

为:U1

0.721Y1

0.171Y2

0.142Y3Standardized

Canonical

Coefficients

for

Set-1123X1-.256-1.1301.060X2-.151-.113-2.215X3-.6941.0671.212X4-.189.051.027Standardized

Canonical

Coefficients

for

Set-2123Y1-.721-.191-2.739Y2-.171-1.2651.751Y3-.1421.5141.259表9.5

两组典型变量的标准化系数由于Y1(脉搏)的系数-0.721绝对值最大,说明健康状况的典型变量主要由脉搏所决定。

同时,由于两个典型变量中抽烟量和脉搏的系数是同号的(都为负),反映抽烟量和脉搏的正相关,即日抽烟越多则每分钟的脉搏跳动次数也越多。抽烟对身体健康有害,这和客观事实是相符的。6.

Redundancy

ysis(分别给出两组典型变量的冗余分析)

表9.6中给出的四组数据分别是身体形态变量被自身的典型变量解释的方差比例、身体形态变量被健康状况的典型变量解释的方差比例、健康状况变量被自身的典型变量解释的方差比例和健康状况变量被身体形态的典型变量解释的方差比例。Redundancy

ysisProportion

of

Variance

of

Set-1

Explained

by

Its

Own

Can.Var.Prop

VarCV1-1.576CV1-2.129CV1-3ProportionCan.Var.of.053Variance

ofSet-1

Explained

by

OppositeCV2-1Prop

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论