典型相关分析和相关系数关系_第1页
典型相关分析和相关系数关系_第2页
典型相关分析和相关系数关系_第3页
典型相关分析和相关系数关系_第4页
典型相关分析和相关系数关系_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、典型相关分析和相关系数关系研究多个变量与多个变量之间的相关性Canonical Correlation要 点典型相关分析的数学表达方式,约束条件;典型相关系数的数学含义;典型变量的数学含义;典型相关系数的显著性检验;冗余分析;典型相关的应用3第一节 典型相关分析的基本思想 当研究两个变量x与y之间的相关关系时,相关系数是最常用的度量。如何研究两组变量之间的相关关系呢?如何进一步确定两组变量在整体上的相关程度呢?4通常情况下,为了研究两组变量的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样既烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想

2、,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。典型相关分析(Canonical Correlation)是研究两组变量之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。6基本概念Analyze the relationships between two sets of variables Canonical correlation(rc): Correlation between two composition of variablesX1X2X3X4X5Y1Y2Y3Y4Y5rcRxxRyyRyxRxy71936年霍特林(Hotelling)最

3、早就“大学表现”和“入学前成绩”的关系、政府政策变量与经济目标变量的关系等问题进行了研究,提出了典型相关分析技术。之后,Cooley和Hohnes(1971),Tatsuoka(1971)及Mardia,Kent和Bibby(1979)等人对典型相关分析的应用进行了讨论,Kshirsagar(1972)则从理论上给出了最好的分析。 8 在解决实际问题中,这种方法有广泛的应用。如居民生活环境与健康状况的关系;考察一些与财政政策有关的指标:财政支出总额增长率、财政赤字增长率、税率降低,与经济发展的一系列指标如GDP增长率、就业增长率、物价上涨率等,来研究扩张性财政政策实施后对宏观经济发展的影响。这

4、些多变量间的相关性如何分析? 典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。目前,典型相关分析已被应用于心理学、市场营销等领域。如用于研究个人性格与职业兴趣的关系,市场促销活动与消费者响应之间的关系等问题的分析研究。 10 利用主成分分析的思想,可以把多个变量与多个变量之间的相关转化为两个变量之间的相关。主成分综合变量找出系数 和 使得新变量和之间有最大可能的相关系数。(典型相关系数)即使11例 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分

5、析两组变量之间的关系。X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵RxxR21R22R1213y2y3y1x2x1 典型相关分析的思想: 首先分别在每组变量中找出第一对线性组合,使其具有最大相关性, 然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。 u2和v2与u1和v1相互独立,但u2和v2相关。如此继续下去,直至进行到r步

6、,两组变量的相关性被提取完为止。rmin(p,q),可以得到r组变量。16二、典型相关的数学描述 考虑两组变量的向量 其协方差阵为(一)想法 其中11是第一组变量的协方差矩阵;22是第二组变量的协方差矩阵; 是X和Y的协方差矩阵。如果我们记两组变量的第一对线性组合为: 其中: 所以,典型相关分析就是求a1和b1,使uv达到最大。(二)典型相关系数和典型变量的求法 在约束条件:下,求a1和b1,使uv达到最大。令根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求的极大值,其中和是 Lagrange乘数。20 将上面的3式分别左乘 和 将 左乘(3)的第二式,得 并

7、将第一式代入,得 的特征根是 ,相应的特征向量为将 左乘(3)的第一式,并将第二式代入,得 的特征根是 ,相应的特征向量为 结论: 既是M1又是M2的特征根, 和 是相应于M1和M2的特征向量。 至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。 第一对典型变量提取了原始变量X与Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。 在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:在约束条件: 求使 达到最大的 和 。例 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调

8、查了70个家庭的下面两组变量:分析两组变量之间的关系。26X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数U1U2X1(就餐)0.7689-1.4787X2(电影)0.27

9、211.6443Y组典型变量的系数V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.2956三、典型变量的性质1、同一组变量的典型变量之间互不相关 X组的典型变量之间是相互独立的:Y组的典型变量之间是相互独立的:因为特征向量之间是正交的。故2、不同组变量的典型变量之间的相关性 不同组内一对典型变量之间的相关系数为:同对相关系数为 ,不同对则为零。3、原始变量与典型变量之间的相关系数(典型载荷分析 )原始变量相关系数矩阵 X典型变量系数矩阵y典型变量系数矩阵3537例 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关

10、系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。38X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵39典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X组典型变量的系数U1U2X1(就餐)0.7689-1.4787X2(电影

11、)0.27211.6443Y组典型变量的系数V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.2956典型变量的结构(相关系数)U1U2X10.9866-0.1632X20.88720.4614V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型载荷分析 典型变量的结构(相关系数)V1V2X10.6787-0.0305X20.61040.0862U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.0563Cross loadings 两个反映消费的指标与第

12、一对典型变量中u1的相关系数分别为和,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为,可见典型变量v1主要代表了了家庭收入, u1和 v1的相关系数为,这就说明家庭的消费与家庭的收入之间其关系是很密切的;44 第二对典型变量中u2与x2的相关系数为,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为和,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为,说明文化消费与年龄和受教育程度之间的相关性。4、各组原始变量被典型变量所解释的方差(典型冗余分析)X组原始变量被ui解释的方差比例X组原始

13、变量被vi解释的方差比例y组原始变量被ui解释的方差比例y组原始变量被vi解释的方差比例46 被典型变量解释的X组原始变量的方差被本组的典型变量解释被对方Y组典型变量解释比例累计比例典型相关系数平方比例累计比例10.88030.88030.47330.41660.416620.11971.00000.03490.00420.4208 被典型变量解释的Y组原始变量的方差被本组的典型变量解释被对方X组典型变量解释比例累计比例典型相关系数平方比例累计比例1 0.46890.46890.47330.22190.22192 0.27310.74200.03490.00950.2315五、样本典型相关系数

14、 在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行估计,然后利用估计得到的协方差或相关系数矩阵进行分析。49 1、假设有X组和Y组变量,样本容量为n。假设( X1, Y1), ( X2, Y2), ( Xn, Yn),观测值矩阵为:50 2、计算特征根和特征向量 求M1和 M2的特征根 ,对应的特征向量 。则特征向量构成典型变量的系数,特征根为典型变量相关系数的平方。51职业满意度典型相关分析 某调查公司从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意度变量。讨论两组指标之间是否相

15、联系。X组: Y组:X1用户反馈 Y1主管满意度X2任务重要性 Y2事业前景满意度X3任务多样性 Y3财政满意度X4任务特殊性 Y4工作强度满意度X5自主权 Y5公司地位满意度 Y6工作满意度 Y7总体满意度52X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7X11.000.490.530.490.510.330.320.200.190.300.370.21X20.491.000.570.460.530.300.210.160.080.270.350.20X30.530.571.000.480.570.310.230.140.070.240.370.18X40.490.460.481.000.

16、570.240.220.120.190.210.290.16X50.510.530.570.571.000.380.320.170.230.320.360.27Y10.330.300.310.240.381.000.430.270.240.340.370.40Y20.320.210.230.220.320.431.000.330.260.540.320.58Y30.200.160.140.120.170.270.331.000.250.460.290.45Y40.190.080.070.190.230.240.260.251.000.280.300.27Y50.300.270.240.210.

17、320.340.540.460.281.000.350.59Y60.370.350.370.290.360.370.320.290.300.351.000.31Y70.210.200.180.160.270.400.580.450.270.590.311.0053 Canonical Correlation AnalysisAdjustedCanonicalCorrelationApproxCanonicalCorrelationSquaredStandardErrorCanonicalCorrelation10.5537060.5530730.0069340.30659120.2364040

18、.2346890.0094420.05588730.119186.0.0098580.01420540.072228.0.0099480.00521750.057270.0.0099680.00328054U1U2U3U4U5X10.42170.3429-0.8577-0.78840.0308X20.19511-0.66830.4434-0.26910.9832X30.1676-0.8532-0.25920.4688-0.9141X4-0.02290.3561-0.42311.04230.5244X50.45970.72870.9799-0.1682-0.4392X组的典型变量55V1V2V3

19、V4V5Y10.4252-0.08800.4918-0.1284-0.4823Y20.20890.4363-0.7832-0.3405-0.7499Y3-0.0359-0.0929-0.4778-0.60590.3457Y40.02350.9260-0.00650.40440.3116Y50.2902-0.10110.2831-0.44690.7030Y60.5157-0.5543-0.41250.68760.1796Y7-0.1101-0.03170.92850.2739-0.0141Y组的典型变量56U1U2U3U4U5X10.82930.1093-0.4853-0.24690.0611X

20、20.7304-0.43660.20010.00210.4857X30.7533-0.4661-0.10560.3020-0.3360X40.61600.2225-0.20530.66140.3026X50.86060.26600.38860.1484-0.1246V1V2V3V4V5Y10.75640.04460.3395-0.1294-0.3370Y20.64390.3582-0.1717-0.3530-0.3335Y30.38720.0373-0.1767-0.53480.4148Y40.37720.7919-0.00540.28860.3341Y50.65320.10840.2092-

21、0.43760.4346Y60.8040-0.2416-0.23480.40520.1964Y70.50240.16280.4933-0.18900.0678原始变量与本组典型变量之间的相关系数57V1V2V3V4V5X10.45920.0258-0.0578-0.01780.0035X20.4044-0.10320.02390.00020.0278X30.4171-0.1102-0.01260.0218-0.0192X40.34110.0526-0.02450.04780.0173X50.47650.06290.04630.0107-0.0071U1U2U3U4U5Y10.41880.010

22、50.0405-0.0093-0.0193Y20.35650.0847-0.0205-0.0255-0.0191Y30.21440.0088-0.0211-0.03860.0238Y40.20880.1872-0.00060.02080.0191Y50.36170.02560.0249-0.03160.0249Y60.4452-0.0571-0.02800.02930.0112Y70.27820.03850.0588-0.01360.0039原始变量与对应组典型变量之间的相关系数58 可以看出,所有五个表示职业特性的变量与u1有大致相同的相关系数, u1视为形容职业特性的指标。第一对典型变量的

23、第二个变量v1与Y1,Y2,Y5,Y6 有较大的相关系数,说明v1主要代表了主管满意度、事业前景满意度、公司地位满意度和工种满意度。而u1和v1之间的相关系数。59 Canonical Redundancy Analysis Raw Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Cumulative Proportion Proportion Proportion Proportion Raw Variance of the WITH Variables Explained by

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论