典型相关分析_第1页
典型相关分析_第2页
典型相关分析_第3页
典型相关分析_第4页
典型相关分析_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、典型相关分析研究多个变量与多个变量之间的相关性2要 点典型相关分析的数学表达式,约束条件;典型相关系数的数学含义;典型变量的数学含义;典型相关的应用3第一节 典型相关分析的基本思想 当研究两个变量x与y之间的相关关系时,相关系数是最常用的度量。yyxxssyxyx),cov(,如何研究两组变量之间的相关关系呢?1x2x3x1y2y如何进一步确定两组变量在整体上的相关程度呢?11yxr21yxr12yxr22yxr13yxr23yxrSxx为标准差 通常情况下,为了研究两组变量 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题

2、的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。),(21pxxx),(21qyyy),(21pxxx),(21qyyy 在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的q个质量指标 和p个原材料的指标之间的相关关系;可以采用典型相关分析来解决。如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使变量个数简化,又可以达到分析相关性的目的。6 利用主成分分析的思想,可以把多个变量与多个变量之间的相关转化为两个变量之间的相关。主成分ppxaxaxay12211111.综合变量找出系数 和 使得新变

3、量321,aaa21,bb332211xaxaxau和2211ybybv之间有最大可能的相关系数。(典型相关系数)即使max,vu例 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.

4、00变量间的相关系数矩阵y2y3y1x2x133122111112211111ybybybvxaxau33222211222221122ybybybvxaxau?),(11vu?),(22vu 典型相关分析的思想:典型相关分析的思想: 首先分别在每组变量中找出第一对典型变量,使其具有最大相关性, 111 1212111112121ppqqua xa xa xvb yb yb y 11 然后再在每组变量中找出第二对典型变量,使其分别与本组内的第一对典型变量不相关,第二对本身具有次大的相关性。 u2和v2与u1和v1相互独立,但u2和v2相关。如此继续下去,直至进行到r步,两组变量的相关性被提取完

5、为止。rmin(p,q),可以得到r组变量。212 1222221212222ppqqua xa xa xvb yb yb y二、典型相关的数学描述典型相关的数学描述 考虑两组变量的向量 1212(,)pqx xxyyyZ其协方差阵为pqpq11122122(一)想法 其中11是第一组变量的协方差矩阵;22是第二组变量的协方差矩阵; 是X 和Y 的协方差矩阵。1221 如果我们记两组变量的第一对线性组合为:11u = a X11v = b Y 其中: 11211(,)paaa1a11211(,)qbbb1b122()1VarVar1111vb(Y)bb b1()11Cov u ,vCov11u

6、 ,v11121a(X,Y)ba b 所以,典型相关分析就是求a a1和b b1,使uv达到最大。1()()1Var uVar111111aX aa a(二)典型相关系数和典型变量的求法 在约束条件:( )1Var u11a a( )1Var v22b b下,求a a1 1和和b b1 1,使uv达到最大。令15根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求的极大值,其中和是 Lagrange乘数。) 1 () 1(2) 1(2),(12211111112111bbaababa(3)121111211221 b - a = 0 a - b = 0 将上面的3

7、式分别左乘 和 1a1b 1121111112111221a b -a a = 0b a -b b = 0)2(0012212111111121bvababa11( , )u v 1121a b由(3)式的第二式,得0-121222211111 a - a0-1-121112222111 a - a 11211211a bb a(3)121111211221 b - a = 0 a - b = 01211221ab代入(3)式的第一式,得211221211121a的特征根是 ,相应的特征向量为-1-1111122221-1-1222211112M = M = 令2122M a = aM b =

8、 b(3)121111211221 b - a = 0 a - b = 0由(3)式的第一式,得1121111ba代入(3)式的第二式,得121112112221b的特征根是 ,相应的特征向量为0122211211121bb01211211121122bb2 结论: 既是M1又是M2的特征根, 和 是相应于M1和M2的特征向量。1a1b 至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。 第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。 在剩余的相关中再求出第二对典型变量和他们的典型相

9、关系数。设第二对典型变量为:2u2a x22v = b y在约束条件: 2()1Var u2112a a2()1Var v2222b b12cov( ,)cov()0u u121112a x,a xa a12cov( ,)cov()0v v121112b y,b yb b 求使 达到最大的 和 。22cov(,)u v2122a b2a2b21例 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。22X1X2y1y2

10、y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关系典型相关系数的平方数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数 U1U2X1(就餐)0.7689-1.4787X2(电影)0.27211

11、.6443Y组典型变量的系数 V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.29562112721. 07689. 0 xxu2126443. 14787. 1xxu32111900. 08975. 00491. 0yyyv32122956. 05837. 00003. 1yyyv三、典型变量的性质1、同一组变量的典型变量之间互不相关同一组变量的典型变量之间互不相关 kuka xkvk= b ylkrlk;, 2 , 1,X组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:Y组的典型变量之间是相互独立的:组的典型变量之间

12、是相互独立的:因为特征向量之间是正交的。故0),cov(),cov(11lklklkaaXaXauu0),cov(),cov(11lklklkbbYbYbvv2、不同组变量的典型变量之间的相关性不同组变量的典型变量之间的相关性 不同组内一对典型变量之间的相关系数为:cov( ,)cov()iju vija x,b ycov()jii12jax,y ba bjijii, 0,同对相关系数为 ,不同对则为零。i3、原始变量与典型变量之间的相关系数原始变量相关系数矩阵 22211211RRRRRX典型变量系数矩阵111212122212rrp rpppraaaaaaaaa12rAaaa1112121

13、22212rrq rqqqrbbbbbbbbb12rBbbby典型变量系数矩阵),cov(),cov(2211ppjjjijixaxaxaxux),cov(),cov(),cov(2211ppjijijixaxxaxxaxpkxxkjkia1,pkxxxxkjjiiikiaux1,/),(30),cov(),cov(2211qpjjjijiybybybxvx),cov(),cov(),cov(2211ppjijijiybxybxybxqkyxkjkib1,qkxxyxkjjiiikibvx1,/),(),cov(),cov(2211ppjjjijixaxaxayuy),cov(),cov(),

14、cov(2211ppjijijixayxayxaypkxykjkia1,pkyyxykjjiiikiauy1,/),(32),cov(),cov(2211qpjjjijiybybybyvy),cov(),cov(),cov(2211ppjijijiybxybxybxqkyykjkib1,qkyyyykjjiiikibvy1,/),(33例 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。34X1X2y1y2y3X1

15、1.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关系典型相关系数的平方数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数 U1U2X1(就餐)0.7689-1.4787X2(电影)0.27211.644

16、3Y组典型变量的系数 V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.29562112721. 07689. 0 xxu2126443. 14787. 1xxu32111900. 08975. 00491. 0yyyv32122956. 05837. 00003. 1yyyv典型变量的结构(相关系数) U1U2X10.9866-0.1632X20.88720.4614 V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的结构(相关系数) V1V2X10.6787-0.0305X20

17、.61040.0862 U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.056339 两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入, u1和 v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的; 第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464和0.3

18、013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的相关性。414、各组原始变量被典型变量所解释的方差X组原始变量被ui解释的方差比例pmpiiiixuxuxuu/ )(2,2,2,21X组原始变量被vi解释的方差比例pmpiiiixvxvxvv/ )(2,2,2,21y组原始变量被ui解释的方差比例y组原始变量被vi解释的方差比例qnqiiiiyuyuyuu/ )(2,2,2,21qnqiiiiyvyvyvv/ )(2,2,2,21 被典型变量解释的被典型变量解释的X组原始变量的方差组原始变量的方差被本组

19、的典型变量解释被本组的典型变量解释被对方被对方Y组典型变量解释组典型变量解释比例比例累计比例累计比例典型相关典型相关系数平方系数平方比例比例累计比例累计比例10.88030.88030.47330.41660.416620.11971.00000.03490.00420.4208 被典型变量解释的被典型变量解释的Y组原始变量的方差组原始变量的方差被本组的典型变量解释被本组的典型变量解释被对方被对方X组典型变量解释组典型变量解释比例比例累计比例累计比例典型相关典型相关系数平方系数平方比例比例累计比例累计比例1 0.46890.46890.47330.22190.22192 0.27310.742

20、00.03490.00950.231544五、样本典型相关系数 在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行估计,然后利用估计得到的协方差或相关系数矩阵进行分析。45 1、假设有X组和Y组变量,样本容量为n。假设( X1, Y1), ( X2, Y2), ( Xn, Yn),观测值矩阵为:nqnnpnqpqpqpqpyyxxyyxxyyxxyyxxyyxx11441441331231221221111111yyyxxyxxSSSS样本的协方差:46 2、计算特征根和特征向量 求M1和 M2的特征根 ,对

21、应的特征向量 。则特征向量构成典型变量的系数,特征根为典型变量相关系数的平方。)(111yxyyxyxxSSSSM令:)(112xyxxyxyySSSSM令:22221r), 2 , 1(riii和47职业满意度典型相关分析 某调查公司从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意变量。讨论 两组指标之间是否相联系。X组: Y组:X1用户反馈 Y1主管满意度X2任务重要性 Y2事业前景满意度X3任务多样性 Y3财政满意度X4任务特殊性 Y4工作强度满意度X5自主权 Y5公司地位满意度 Y6工作满意度 Y7总体满意度48X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7

22、X11.000.490.530.490.510.330.320.200.190.300.370.21X20.491.000.570.460.530.300.210.160.080.270.350.20X30.530.571.000.480.570.310.230.140.070.240.370.18X40.490.460.481.000.570.240.220.120.190.210.290.16X50.510.530.570.571.000.380.320.170.230.320.360.27Y10.330.300.310.240.381.000.430.270.240.340.370.40

23、Y20.320.210.230.220.320.431.000.330.260.540.320.58Y30.200.160.140.120.170.270.331.000.250.460.290.45Y40.190.080.070.190.230.240.260.251.000.280.300.27Y50.300.270.240.210.320.340.540.460.281.000.350.59Y60.370.350.370.290.360.370.320.290.300.351.000.31Y70.210.200.180.160.270.400.580.450.270.590.311.00

24、49 Canonical Correlation Analysis AdjustedCanonicalCorrelationApproxCanonicalCorrelationSquaredStandardError CanonicalCorrelation10.5537060.5530730.0069340.30659120.2364040.2346890.0094420.05588730.119186.0.0098580.01420540.072228.0.0099480.00521750.057270.0.0099680.00328050 U1U2U3U4U5X10.42170.3429

25、-0.8577-0.78840.0308X20.19511-0.66830.4434-0.26910.9832X30.1676-0.8532-0.25920.4688-0.9141X4-0.02290.3561-0.42311.04230.5244X50.45970.72870.9799-0.1682-0.4392X组的典型变量51V1V2V3V4V5Y10.4252-0.08800.4918-0.1284-0.4823Y20.20890.4363-0.7832-0.3405-0.7499Y3-0.0359-0.0929-0.4778-0.60590.3457Y40.02350.9260-0.

26、00650.40440.3116Y50.2902-0.10110.2831-0.44690.7030Y60.5157-0.5543-0.41250.68760.1796Y7-0.1101-0.03170.92850.2739-0.0141Y组的典型变量52 U1U2U3U4U5X10.82930.1093-0.4853-0.24690.0611X20.7304-0.43660.20010.00210.4857X30.7533-0.4661-0.10560.3020-0.3360X40.61600.2225-0.20530.66140.3026X50.86060.26600.38860.1484

27、-0.1246 V1V2V3V4V5Y10.75640.04460.3395-0.1294-0.3370Y20.64390.3582-0.1717-0.3530-0.3335Y30.38720.0373-0.1767-0.53480.4148Y40.37720.7919-0.00540.28860.3341Y50.65320.10840.2092-0.43760.4346Y60.8040-0.2416-0.23480.40520.1964Y70.50240.16280.4933-0.18900.0678原始变量与本组典型变量之间的相关系数53 V1V2V3V4V5X10.45920.0258-

28、0.0578-0.01780.0035X20.4044-0.10320.02390.00020.0278X30.4171-0.1102-0.01260.0218-0.0192X40.34110.0526-0.02450.04780.0173X50.47650.06290.04630.0107-0.0071 U1U2U3U4U5Y10.41880.01050.0405-0.0093-0.0193Y20.35650.0847-0.0205-0.0255-0.0191Y30.21440.0088-0.0211-0.03860.0238Y40.20880.1872-0.00060.02080.0191

29、Y50.36170.02560.0249-0.03160.0249Y60.4452-0.0571-0.02800.02930.0112Y70.27820.03850.0588-0.01360.0039原始变量与对应组典型变量之间的相关系数54 可以看出,所有五个表示职业特性的变量与u1有大致相同的相关系数, u1视为形容职业特性的指标。第一对典型变量的第二个成员v1与Y1,Y2,Y5,Y6有较大的相关系数,说明v1主要代表了主管满意度、事业前景满意度、公司地位满意度和工种满意度。而u1和v1之间的相关系数0.5537。55 Canonical Redundancy Analysis Raw Variance of the VAR Variable

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论