版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章典型相关分析
CanonicalCorrelationAnalysis1变量组之间的相关性问题2数学模型及计算方法3典型相关系数的显著性检验4应用举例第八章典型相关分析
CanonicalCorrelat11变量组之间的相关性问题2005年中国28省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,…,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、 舒张压(消音)、肺活量(ml)分别为Y1,Y2,…,Y5。现欲研究这两组变量之间的相关性。1变量组之间的相关性问题2005年中国28省市城市男生(21变量组之间的相关性问题X1,X2,…,XpY1,Y2,…,Yq1临床症状所患疾病2原材料质量相应产品质量3居民营养健康状况4生长发育(肺活量)身体素质(跳高)5人体形态人体功能1变量组之间的相关性问题X1,X2,…,XpY1,31变量组之间的相关性问题两个随机变量X,Y的相关性可用它们的相关系数来度量.但在许多实际问题中,需要研究多个变量间的相关关系.对于变量组(X1,X2,…,Xp)和(Y1,Y2,…,Yq),虽然每个Xi与每个Yj之间的相关关系也反映了两组变量中各对之间的联系,但不能反映这两组变量整体之间的相关性.这样又烦琐又不能抓住问题的本质。但是,我们可以把两组变量的相关性转化为两个变量的相关性来考虑,即考察一组变量的线性组合1变量组之间的相关性问题两个随机变量X,Y的相关性可用它们4与另一组变量的线性组合的相关性.为最大地提取(X1,X2,…,Xp)与(Y1,Y2,…,Yq)之间的相关性,我们选择a和b,使U与V之间有最大的相关系数,这时称U和V为第一对典型变量.进一步,我们还可以确定第二对、第三对典型变量等等,并使各对典型变量之间互不相关.这样就将两组变量间的相关性凝结为少数几个典型变量对之间的相关性.与另一组变量的线性组合的相关性.为最大地提取(X1,X2,…52数学模型及计算方法1)总体的典型变量与典型相关设两组随机变量分别为令则有2数学模型及计算方法1)总体的典型变量与典型相关设两组随6进一步假定∑11和∑22是满秩阵,令则∑是(X1,X2,…,XpY1,Y2,…,Yq)T的协方差矩阵.由于考虑两组变量的线性组合进一步假定∑11和∑22是满秩阵,令则∑是(X1,X2,…7则U和V的相关系数为典型相关分析即确定a和b使得ρU,V达到最大.可知,给a和b同时乘以非零常数C,U和V的相关系数不变,故可对a和b作如下约束于是典型相关分析即在上面约束之下,确定a和b使得ρU,V达到最大.这时,称U,V为典型变量.则U和V的相关系数为典型相关分析即确定a和b使得ρU,V达到8如果只有一对U,V还不足以反映X和Y之间的相关性,可进一步构造与U,V互不相关的另外一对典型变量,如此等等.一般的,第k对(k≤p≤q)典型变量是Uk=akTX和Vk=bkTY,其中Uk,Vk具有单位方差,且与前k-1对典型变量中的每个Ui,Vi(i=1,2,…,k-1)均不相关,在此条件下并使Uk,Vk的相关系数达到最大.我们称第k对典型变量间的相关系数为第k个典型相关系数.如果只有一对U,V还不足以反映X和Y之间的相关性,可进一步构9X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5典型相关分析示意图X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1V1典型10典型相关变量的计算方法利用矩阵平方根的概念,可得出如下定理.其典型相关系数为定理
X=(X1,X2,…,Xp)T,Y=(Y1,Y2,…,Yq)T,Var(X)=Σ11,Var(Y)=Σ22,Cov(X,Y)=Σ12,其中Σ11和Σ22均为满秩阵且p≤q.则X,Y的第k对典型变量为典型相关变量的计算方法利用矩阵平方根的概念,可得出如下定理.11其中为p阶矩阵A的特征值e1,e2,…,ep为相应的正交单位化特征向量f1,f2,…,fp为q阶矩阵B的对应于前p个最大特征值的正交单位化特征向量.其中为p阶矩阵A的特征值e1,e2,…,ep为相应的正交单位12并且可以得到典型变量Uk和Vk(k=1,2,…,p)有如下性质:并且可以得到典型变量Uk和Vk(k=1,2,…,p)有如下性13标准化后的计算对X和Y的各分量进行标准化,得其中标准化后的计算对X和Y的各分量进行标准化,得其中14其中ρ11,ρ22分别为X*和Y*的相关矩阵,而为(X1,X2,…,XpY1,Y2,…,Yq)T相关矩阵.则有其中ρ11,ρ22分别为X*和Y*的相关矩阵,而为(X1,X15从ρ出发作典型相关分析,有类似前述的结果.即第k对典型相关变量为典型相关系数为从ρ出发作典型相关分析,有类似前述的结果.即第k对典型相关变162)样本的典型变量与典型相关分析则样本协方差矩阵为设为来自总体的一个样本,其中2)样本的典型变量与典型相关分析则样本协方差矩阵为设为来自总17其中以S11,S12,S22,S21分别代替定理中的∑11,∑12,∑22,∑21而得到的典型变量称为样本典型变量,相应的典型相关系数称为样本典型相关系数.其中以S11,S12,S22,S21分别代替定理18这时,样本典型变量为样本典型相关系数为其中是的特征值,为相应的正交单位化特征向量.是相对于的正交单位化特征向量.这时,样本典型变量为样本典型相关系数为其中是的特征值,为相应19为了消除量纲的影响,也可以对样本观测值进行标准化,即令其中skk(1)和skk(2)分别为S11和S22的主对角线上的第k个元素.和分别为和的第k个分量.为了消除量纲的影响,也可以对样本观测值进行标准化,即令其中s20标准化样本以R11,R12,R21,R22代替前面的S11,S12,S21和S22,则得到标准化样本的典型变量和典型相关系数.的样本协方差矩阵即为原样本的样本相关矩阵R.令标准化样本以R11,R12,R21,R22代替前面的S21在实际分析中,为使典型变量易于解释,通常从R出发,求标准化样本的典型变量,选择样本典型相关系数较大的少数几对样本典型变量,以反映原来两组变量间的关系.那么,样本典型相关系数多大时,才可认为相应的一对典型变量之间存在显著相关性呢?我们可用Bartlett检验来讨论此问题.在实际分析中,为使典型变量易于解释,通常从R出发,求标准化样223典型相关系数的显著性检验如果X和Y互不相关,则有∑12
=0,典型相关系数ρk=0(k=1,2,…,p);反之也有∑12
=0.假定总体服从p+q维正态分布Np+q(μ,∑),p≤q,且因此通过检验ρ1=ρ2=…=ρk=0,便可以判断X与Y是否显著相关.3典型相关系数的显著性检验如果X和Y互不相关,则有∑12=23若接受H0(2)时,则认为除第一对典型变量显著相关以外,其余各对典型变量的相关性不显著.故可只考虑用第一对典型变量反映X与Y的相关性.检验假设当接受H0(1)时,即认为X与Y不相关.这时相关分析便无意义.当拒绝H0(1)时,可进一步检验假设若拒绝H0(2)时,则需进一步检验ρ3是否为零.依此类推直到接受H0(k)为止.若接受H0(2)时,则认为除第一对典型变量显著相关以外,其余24前述假设的Bartlett检验方法如下在满足右边条件下一般地,若第k-1步检验拒绝H0(k-1),则需检验H0(k),令前述假设的Bartlett检验方法如下在满足右边条件下一般地25当H0(k)为真时,Ak渐近服从自由度为(p-k+1)(q-k+1)的χ2分布,当满足否则接受H0(k),检验结束.即认为只有前k-1个典型变量显著相关.时,拒绝H0(k).对标准化样本,检验方法完全相同.当H0(k)为真时,Ak渐近服从自由度为(p-k+1)(q-26四、典型相关分析的应用1、职业满意度典型相关分析
某调查公司从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意变量。讨论两组指标之间是否相联系。
X组:Y组:X1—用户反馈Y1—主管满意度X2—任务重要性Y2—事业前景满意度X3—任务多样性Y3—财政满意度X4—任务特殊性Y4—工作强度满意度X5—自主权Y5—公司地位满意度Y6—工作满意度Y7—总体满意度四、典型相关分析的应用1、职业满意度典型相关分析27
X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7X11.000.490.530.490.510.330.320.200.190.300.370.21X20.491.000.570.460.530.300.210.160.080.270.350.20X30.530.571.000.480.570.310.230.140.070.240.370.18X40.490.460.481.000.570.240.220.120.190.210.290.16X50.510.530.570.571.000.380.320.170.230.320.360.27Y10.330.300.310.240.381.000.430.270.240.340.370.40Y20.320.210.230.220.320.431.000.330.260.540.320.58Y30.200.160.140.120.170.270.331.000.250.460.290.45Y40.190.080.070.190.230.240.260.251.000.280.300.27Y50.300.270.240.210.320.340.540.460.281.000.350.59Y60.370.350.370.290.360.370.320.290.300.351.000.31Y70.210.200.180.160.270.400.580.450.270.590.311.00
X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7X11.028CanonicalCorrelationAnalysis
AdjustedCanonicalCorrelationApproxCanonicalCorrelationSquaredStandardError
CanonicalCorrelation10.5537060.5530730.0069340.30659120.2364040.2346890.0094420.05588730.119186.0.0098580.01420540.072228.0.0099480.00521750.057270.0.0099680.003280CanonicalCorrelation29
LikelihoodRatioApproxFNumDFDenDFPr>F10.63988477134.42373542018.150.000120.9228094133.82422434848.670.000130.9774354115.26341527578.390.000140.9915203010.65798199820.000150.9967201510.9600399920.0001当前和后面的典型相关系数均为零的检验
LikelihoodRatioApproxFNumDF30
U1U2U3U4U5X10.42170.3429-0.8577-0.78840.0308X20.19511-0.66830.4434-0.26910.9832X30.1676-0.8532-0.25920.4688-0.9141X4-0.02290.3561-0.42311.04230.5244X50.45970.72870.9799-0.1682-0.4392X组的典型变量
U1U2U3U4U5X10.42170.3429-0.8531
V1V2V3V4V5Y10.4252-0.08800.4918-0.1284-0.4823Y20.20890.4363-0.7832-0.3405-0.7499Y3-0.0359-0.0929-0.4778-0.60590.3457Y40.02350.9260-0.00650.40440.3116Y50.2902-0.10110.2831-0.44690.7030Y60.5157-0.5543-0.41250.68760.1796Y7-0.1101-0.03170.92850.2739-0.0141Y组的典型变量
V1V2V3V4V5Y10.4252-0.08800.4932
U1U2U3U4U5X10.82930.1093-0.4853-0.24690.0611X20.7304-0.43660.20010.00210.4857X30.7533-0.4661-0.10560.3020-0.3360X40.61600.2225-0.20530.66140.3026X50.86060.26600.38860.1484-0.1246
V1V2V3V4V5Y10.75640.04460.3395-0.1294-0.3370Y20.64390.3582-0.1717-0.3530-0.3335Y30.38720.0373-0.1767-0.53480.4148Y40.37720.7919-0.00540.28860.3341Y50.65320.10840.2092-0.43760.4346Y60.8040-0.2416-0.23480.40520.1964Y70.50240.16280.4933-0.18900.0678原始变量与本组典型变量之间的相关系数
U1U2U3U4U5X10.82930.1093-0.4833
V1V2V3V4V5X10.45920.0258-0.0578-0.01780.0035X20.4044-0.10320.02390.00020.0278X30.4171-0.1102-0.01260.0218-0.0192X40.34110.0526-0.02450.04780.0173X50.47650.06290.04630.0107-0.0071
U1U2U3U4U5Y10.41880.01050.0405-0.0093-0.0193Y20.35650.0847-0.0205-0.0255-0.0191Y30.21440.0088-0.0211-0.03860.0238Y40.20880.1872-0.00060.02080.0191Y50.36170.02560.0249-0.03160.0249Y60.4452-0.0571-0.02800.02930.0112Y70.27820.03850.0588-0.01360.0039原始变量与对应组典型变量之间的相关系数
V1V2V3V4V5X10.45920.0258-0.0534可以看出,所有五个表示职业特性的变量与u1有大致相同的相关系数,u1视为形容职业特性的指标。第一对典型变量的第二个成员v1与Y1,Y2,Y5,Y6有较大的相关系数,说明v1主要代表了主管满意度,事业前景满意度,公司地位满意度和工种满意度。而u1和v1之间的相关系数0.5537。可以看出,所有五个表示职业特性的变量与u1有大致相同35
CanonicalRedundancyAnalysisRawVarianceofthe'VAR'VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10.58180.58180.17840.178420.10800.68980.00600.184430.09600.78580.00140.1858
40.12230.90810.00060.186450.09191.00000.00030.1867RawVarianceofthe'WITH'VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10.37210.37210.11410.114120.12220.49430.00680.120930.07400.56830.00110.1220
40.12890.69720.00070.122650.10580.80300.00030.1230Canoni36u1和v1解释的本组原始变量的比率:X组的原始变量被u1到u5解释了100%Y组的原始变量被v1到v5解释了80.3%X组的原始变量被u1到u4解释了90.81%Y组的原始变量被v1到v4解释了69.72%u1和v1解释的本组原始变量的比率:37在对房地产指标的典型相关分析中建立了如下的指标体系:X1:开发公司个数(个)X2:年平均职工人数(人)X3:自开始建设至本年底累计完成投资X4:本年完成投资X5:施工房屋面积(万平方米)Y1:经营总收入Y2:土地转让收入Y3:商品房屋销售收入Y4:房屋出租收入Y5:经营税金及附加Y6:营业利润Y7:竣工房屋面积(万平方米)Y8:竣工房屋价值(万元)其中,X1-X5是反映房地产投入的变量,Y1-Y8是反映房地产产出的变量。数据来源于《1999中国统计年鉴》,选取了全国30个省市自治区的相应指标值.2、房地产指标典型相关分析报告在对房地产指标的典型相关分析中建立了如下的指标体系:2、房地38序号典型相关系数典型变量1
0.998716
U1=-0.1769X1+0.0639X2+0.7264X3+0.3633X4+0.0053X5V1=2.5217Y1+0.1720Y2-1.7370Y3-0.1993Y4-0.0886Y5-0.3747Y6-0.1016Y7+0.6610Y82
0.980640
U2=0.3319X1+0.0785X2-3.3077X3+1.8943X4+1.2047X5V2=-2.0308Y1-0.2555Y2+0.3219Y3+0.4304Y4+1.4052Y5+0.4774Y6+2.0697Y7-1.8594Y8
3
0.916191U3=-1.1339X1-3.1176X2+1.2803X3-3.9436X4+6.7392X5V3=0.3990Y1-0.6098Y2-0.7852Y3-2.0872Y4+4.2927Y5-0.6167Y6-1.6135Y7+0.5071Y840.757332U4=1.4478X1-1.7250X2-4.4766X3+8.1918X4+3.5963X5V4=-8.0531Y1-0.9941Y2-1.6221Y3-1.3311Y4+5.1584Y5+1.6818Y6-0.9464Y7+6.4783Y85
0.739978
U5=-3.7387X1+2.3073X2-2.0488X3+1.8063X4+1.4170X5V5=4.7208Y1-0.3733Y2-4.4002Y3+3.1983Y4-4.2877Y5-1.8271Y6+1.5460Y8+0.9555Y9
序号典型相关系数典型39第一对典型变量中,U1主要受自开始建设至本年底累计完成投资影响,V1主要受经营总收入和商品房屋销售收入影响;第二对典型变量中,U2主要受自开始建设至本年底累计完成投资、本年完成投资和施工房屋面积影响,V2主要受经营税金及附加、竣工房屋面积和竣工房屋价值影响:第三对典型变量中,U3受各个指标影响都较大,V4主要受房屋出租收入、经营税金及附加和竣工房屋面积的影响;第一对典型变量中,U1主要受自开始建设至本年底累计完成投资影40第四对典型变量中,U4主要受本年完成投资的影响,V4主要受经营总收入和工房屋价值的影响。第五对典型变量中,U5主要受开发公司个数影响,V4主要受经营总收入、商品房屋销售收入、房屋出租收入和经营税金及附加影响。但注意到,第一对典型变量的方差贡献率已达92.20%,故保留第一对典型变量用作分析,从而达到降维的目的。总的来说,房地产的投入变量主要受自开始建设至本年底累计完成投资影响,产出变量集中在经营总收入和商品房屋销售收入上。累计完成投资额与经营总收入,特别是商品房屋销售收入高度相关。第四对典型变量中,U4主要受本年完成投资的影响,V4主要受经41本例想利用我国1999年城镇居民的家庭收入来源和消费性支出的数据了解我国居民消费构成及主要影响因素分析所用的数据来自:《中国统计年鉴》2000。3、我国居民消费构成及主要影响因素本例想利用我国1999年城镇居民的家庭收入来源和消费性支出的42收入指标:X1——可支配收入X2——实际收入X3——国有单位职工收入X4——集体单位职工收入X5——其他经济类型职工收入,X6——转移收入支出指标:Y1——消费性支出Y2——食品Y3——衣着Y4——交通和通讯Y5——医疗和保健Y6——娱乐、教育、文化服务Y7——居住收入指标:X1——可支配收入43序号典型相关系数典型变量10.990174U1
=0.9989X1+-0.0595X2+0.0776X3+0.0489X4-0.0931X5+0.0074X6
V1=1.3263Y1-0.0270Y2-0.0005Y3-0.0769Y4-0.0717Y5-0.2031Y6-0.0219Y20.868704U2=-4.8668X1+0.1264X2+1.9585X3+0.3299X4+1.4095X5+2.6453X6
V2
=-4.4920Y1+2.5421Y2+1.2480Y3-0.4621Y4+1.0443Y5+0.8610Y6+0.0586Y7
20.868704U2=-4.8668X44由累计贡献率得知,第一组和第二组变量的累计贡献率已达到了97.56%,而且,这两组的系数和方差与其他组相比要大得多.即只需要前两组变量就已经可以解释全部信息的97.56%.在第一对典型变量中,U1主要受可支配收入的影响,V1主要受消费性支出的影响;可见实际收入对消费支出的影响远小于可支配收入的影响。居民消费主要依据其可支配收入而定。
第二对典型变量中,U2主要受国有单位职工收入、其他经济类型职工收入和转移收入的影响,V2主要受食品、衣着、医疗和保健的影响。由累计贡献率得知,第一组和第二组变量的累计贡献率已达到了9745在此可见,我国集体单位的职工收入还不能够与国有甚至是其他经济类型的单位这职工收入相比,这也从一个侧面放反映了集体单位规模等方面的现状。再有就是我国居民食品和衣着方面的支出仍占了总支出的大部分,反映了我国居民总体收入水平还不够高;其次,医疗保健支出的比例比较大是可喜的,说明我国居民已经可以把部分精力放在了自己身体的调养上来,全国居民的总体健康状况在上升之中。让我们担忧的是在教育方面的支出所占比例太小,不符合现今世界发展对教育程度的要求。科技是第一生产力,如何提高国民的科技文化知识水平是当今的一大重点。在当代激烈的竞争中,没有知识的支撑是不行的。在此可见,我国集体单位的职工收入还不能够与国有甚至是其他经济46完完47附1矩阵平方根的概念设A为p阶对称正定矩阵,令p=(e1,e2,...,ep),其中ei(i=1,2,...,p)为A的p个正交单位化特征向量,λi(i=1,2,...,p)为相应的特征值,则λi>0(i=1,2,...,n).由线性代数知识知P为正交矩阵且令附1矩阵平方根的概念设A为p阶对称正定矩阵,令p=(e148则A的平方根矩阵定义为易证A1/2有下列性质:即A1/2是对称矩阵;其中则A的平方根矩阵定义为易证A1/2有下列性质:即A1/2是对49第八章典型相关分析
CanonicalCorrelationAnalysis1变量组之间的相关性问题2数学模型及计算方法3典型相关系数的显著性检验4应用举例第八章典型相关分析
CanonicalCorrelat501变量组之间的相关性问题2005年中国28省市城市男生(19~22岁)的调查数据。记形态指标身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽分别为X1,X2,…,X6;机能指标脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、 舒张压(消音)、肺活量(ml)分别为Y1,Y2,…,Y5。现欲研究这两组变量之间的相关性。1变量组之间的相关性问题2005年中国28省市城市男生(511变量组之间的相关性问题X1,X2,…,XpY1,Y2,…,Yq1临床症状所患疾病2原材料质量相应产品质量3居民营养健康状况4生长发育(肺活量)身体素质(跳高)5人体形态人体功能1变量组之间的相关性问题X1,X2,…,XpY1,521变量组之间的相关性问题两个随机变量X,Y的相关性可用它们的相关系数来度量.但在许多实际问题中,需要研究多个变量间的相关关系.对于变量组(X1,X2,…,Xp)和(Y1,Y2,…,Yq),虽然每个Xi与每个Yj之间的相关关系也反映了两组变量中各对之间的联系,但不能反映这两组变量整体之间的相关性.这样又烦琐又不能抓住问题的本质。但是,我们可以把两组变量的相关性转化为两个变量的相关性来考虑,即考察一组变量的线性组合1变量组之间的相关性问题两个随机变量X,Y的相关性可用它们53与另一组变量的线性组合的相关性.为最大地提取(X1,X2,…,Xp)与(Y1,Y2,…,Yq)之间的相关性,我们选择a和b,使U与V之间有最大的相关系数,这时称U和V为第一对典型变量.进一步,我们还可以确定第二对、第三对典型变量等等,并使各对典型变量之间互不相关.这样就将两组变量间的相关性凝结为少数几个典型变量对之间的相关性.与另一组变量的线性组合的相关性.为最大地提取(X1,X2,…542数学模型及计算方法1)总体的典型变量与典型相关设两组随机变量分别为令则有2数学模型及计算方法1)总体的典型变量与典型相关设两组随55进一步假定∑11和∑22是满秩阵,令则∑是(X1,X2,…,XpY1,Y2,…,Yq)T的协方差矩阵.由于考虑两组变量的线性组合进一步假定∑11和∑22是满秩阵,令则∑是(X1,X2,…56则U和V的相关系数为典型相关分析即确定a和b使得ρU,V达到最大.可知,给a和b同时乘以非零常数C,U和V的相关系数不变,故可对a和b作如下约束于是典型相关分析即在上面约束之下,确定a和b使得ρU,V达到最大.这时,称U,V为典型变量.则U和V的相关系数为典型相关分析即确定a和b使得ρU,V达到57如果只有一对U,V还不足以反映X和Y之间的相关性,可进一步构造与U,V互不相关的另外一对典型变量,如此等等.一般的,第k对(k≤p≤q)典型变量是Uk=akTX和Vk=bkTY,其中Uk,Vk具有单位方差,且与前k-1对典型变量中的每个Ui,Vi(i=1,2,…,k-1)均不相关,在此条件下并使Uk,Vk的相关系数达到最大.我们称第k对典型变量间的相关系数为第k个典型相关系数.如果只有一对U,V还不足以反映X和Y之间的相关性,可进一步构58X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5典型相关分析示意图X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1V1典型59典型相关变量的计算方法利用矩阵平方根的概念,可得出如下定理.其典型相关系数为定理
X=(X1,X2,…,Xp)T,Y=(Y1,Y2,…,Yq)T,Var(X)=Σ11,Var(Y)=Σ22,Cov(X,Y)=Σ12,其中Σ11和Σ22均为满秩阵且p≤q.则X,Y的第k对典型变量为典型相关变量的计算方法利用矩阵平方根的概念,可得出如下定理.60其中为p阶矩阵A的特征值e1,e2,…,ep为相应的正交单位化特征向量f1,f2,…,fp为q阶矩阵B的对应于前p个最大特征值的正交单位化特征向量.其中为p阶矩阵A的特征值e1,e2,…,ep为相应的正交单位61并且可以得到典型变量Uk和Vk(k=1,2,…,p)有如下性质:并且可以得到典型变量Uk和Vk(k=1,2,…,p)有如下性62标准化后的计算对X和Y的各分量进行标准化,得其中标准化后的计算对X和Y的各分量进行标准化,得其中63其中ρ11,ρ22分别为X*和Y*的相关矩阵,而为(X1,X2,…,XpY1,Y2,…,Yq)T相关矩阵.则有其中ρ11,ρ22分别为X*和Y*的相关矩阵,而为(X1,X64从ρ出发作典型相关分析,有类似前述的结果.即第k对典型相关变量为典型相关系数为从ρ出发作典型相关分析,有类似前述的结果.即第k对典型相关变652)样本的典型变量与典型相关分析则样本协方差矩阵为设为来自总体的一个样本,其中2)样本的典型变量与典型相关分析则样本协方差矩阵为设为来自总66其中以S11,S12,S22,S21分别代替定理中的∑11,∑12,∑22,∑21而得到的典型变量称为样本典型变量,相应的典型相关系数称为样本典型相关系数.其中以S11,S12,S22,S21分别代替定理67这时,样本典型变量为样本典型相关系数为其中是的特征值,为相应的正交单位化特征向量.是相对于的正交单位化特征向量.这时,样本典型变量为样本典型相关系数为其中是的特征值,为相应68为了消除量纲的影响,也可以对样本观测值进行标准化,即令其中skk(1)和skk(2)分别为S11和S22的主对角线上的第k个元素.和分别为和的第k个分量.为了消除量纲的影响,也可以对样本观测值进行标准化,即令其中s69标准化样本以R11,R12,R21,R22代替前面的S11,S12,S21和S22,则得到标准化样本的典型变量和典型相关系数.的样本协方差矩阵即为原样本的样本相关矩阵R.令标准化样本以R11,R12,R21,R22代替前面的S70在实际分析中,为使典型变量易于解释,通常从R出发,求标准化样本的典型变量,选择样本典型相关系数较大的少数几对样本典型变量,以反映原来两组变量间的关系.那么,样本典型相关系数多大时,才可认为相应的一对典型变量之间存在显著相关性呢?我们可用Bartlett检验来讨论此问题.在实际分析中,为使典型变量易于解释,通常从R出发,求标准化样713典型相关系数的显著性检验如果X和Y互不相关,则有∑12
=0,典型相关系数ρk=0(k=1,2,…,p);反之也有∑12
=0.假定总体服从p+q维正态分布Np+q(μ,∑),p≤q,且因此通过检验ρ1=ρ2=…=ρk=0,便可以判断X与Y是否显著相关.3典型相关系数的显著性检验如果X和Y互不相关,则有∑12=72若接受H0(2)时,则认为除第一对典型变量显著相关以外,其余各对典型变量的相关性不显著.故可只考虑用第一对典型变量反映X与Y的相关性.检验假设当接受H0(1)时,即认为X与Y不相关.这时相关分析便无意义.当拒绝H0(1)时,可进一步检验假设若拒绝H0(2)时,则需进一步检验ρ3是否为零.依此类推直到接受H0(k)为止.若接受H0(2)时,则认为除第一对典型变量显著相关以外,其余73前述假设的Bartlett检验方法如下在满足右边条件下一般地,若第k-1步检验拒绝H0(k-1),则需检验H0(k),令前述假设的Bartlett检验方法如下在满足右边条件下一般地74当H0(k)为真时,Ak渐近服从自由度为(p-k+1)(q-k+1)的χ2分布,当满足否则接受H0(k),检验结束.即认为只有前k-1个典型变量显著相关.时,拒绝H0(k).对标准化样本,检验方法完全相同.当H0(k)为真时,Ak渐近服从自由度为(p-k+1)(q-75四、典型相关分析的应用1、职业满意度典型相关分析
某调查公司从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意变量。讨论两组指标之间是否相联系。
X组:Y组:X1—用户反馈Y1—主管满意度X2—任务重要性Y2—事业前景满意度X3—任务多样性Y3—财政满意度X4—任务特殊性Y4—工作强度满意度X5—自主权Y5—公司地位满意度Y6—工作满意度Y7—总体满意度四、典型相关分析的应用1、职业满意度典型相关分析76
X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7X11.000.490.530.490.510.330.320.200.190.300.370.21X20.491.000.570.460.530.300.210.160.080.270.350.20X30.530.571.000.480.570.310.230.140.070.240.370.18X40.490.460.481.000.570.240.220.120.190.210.290.16X50.510.530.570.571.000.380.320.170.230.320.360.27Y10.330.300.310.240.381.000.430.270.240.340.370.40Y20.320.210.230.220.320.431.000.330.260.540.320.58Y30.200.160.140.120.170.270.331.000.250.460.290.45Y40.190.080.070.190.230.240.260.251.000.280.300.27Y50.300.270.240.210.320.340.540.460.281.000.350.59Y60.370.350.370.290.360.370.320.290.300.351.000.31Y70.210.200.180.160.270.400.580.450.270.590.311.00
X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7X11.077CanonicalCorrelationAnalysis
AdjustedCanonicalCorrelationApproxCanonicalCorrelationSquaredStandardError
CanonicalCorrelation10.5537060.5530730.0069340.30659120.2364040.2346890.0094420.05588730.119186.0.0098580.01420540.072228.0.0099480.00521750.057270.0.0099680.003280CanonicalCorrelation78
LikelihoodRatioApproxFNumDFDenDFPr>F10.63988477134.42373542018.150.000120.9228094133.82422434848.670.000130.9774354115.26341527578.390.000140.9915203010.65798199820.000150.9967201510.9600399920.0001当前和后面的典型相关系数均为零的检验
LikelihoodRatioApproxFNumDF79
U1U2U3U4U5X10.42170.3429-0.8577-0.78840.0308X20.19511-0.66830.4434-0.26910.9832X30.1676-0.8532-0.25920.4688-0.9141X4-0.02290.3561-0.42311.04230.5244X50.45970.72870.9799-0.1682-0.4392X组的典型变量
U1U2U3U4U5X10.42170.3429-0.8580
V1V2V3V4V5Y10.4252-0.08800.4918-0.1284-0.4823Y20.20890.4363-0.7832-0.3405-0.7499Y3-0.0359-0.0929-0.4778-0.60590.3457Y40.02350.9260-0.00650.40440.3116Y50.2902-0.10110.2831-0.44690.7030Y60.5157-0.5543-0.41250.68760.1796Y7-0.1101-0.03170.92850.2739-0.0141Y组的典型变量
V1V2V3V4V5Y10.4252-0.08800.4981
U1U2U3U4U5X10.82930.1093-0.4853-0.24690.0611X20.7304-0.43660.20010.00210.4857X30.7533-0.4661-0.10560.3020-0.3360X40.61600.2225-0.20530.66140.3026X50.86060.26600.38860.1484-0.1246
V1V2V3V4V5Y10.75640.04460.3395-0.1294-0.3370Y20.64390.3582-0.1717-0.3530-0.3335Y30.38720.0373-0.1767-0.53480.4148Y40.37720.7919-0.00540.28860.3341Y50.65320.10840.2092-0.43760.4346Y60.8040-0.2416-0.23480.40520.1964Y70.50240.16280.4933-0.18900.0678原始变量与本组典型变量之间的相关系数
U1U2U3U4U5X10.82930.1093-0.4882
V1V2V3V4V5X10.45920.0258-0.0578-0.01780.0035X20.4044-0.10320.02390.00020.0278X30.4171-0.1102-0.01260.0218-0.0192X40.34110.0526-0.02450.04780.0173X50.47650.06290.04630.0107-0.0071
U1U2U3U4U5Y10.41880.01050.0405-0.0093-0.0193Y20.35650.0847-0.0205-0.0255-0.0191Y30.21440.0088-0.0211-0.03860.0238Y40.20880.1872-0.00060.02080.0191Y50.36170.02560.0249-0.03160.0249Y60.4452-0.0571-0.02800.02930.0112Y70.27820.03850.0588-0.01360.0039原始变量与对应组典型变量之间的相关系数
V1V2V3V4V5X10.45920.0258-0.0583可以看出,所有五个表示职业特性的变量与u1有大致相同的相关系数,u1视为形容职业特性的指标。第一对典型变量的第二个成员v1与Y1,Y2,Y5,Y6有较大的相关系数,说明v1主要代表了主管满意度,事业前景满意度,公司地位满意度和工种满意度。而u1和v1之间的相关系数0.5537。可以看出,所有五个表示职业特性的变量与u1有大致相同84
CanonicalRedundancyAnalysisRawVarianceofthe'VAR'VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10.58180.58180.17840.178420.10800.68980.00600.184430.09600.78580.00140.1858
40.12230.90810.00060.186450.09191.00000.00030.1867RawVarianceofthe'WITH'VariablesExplainedbyTheirOwnTheOppositeCanonicalVariablesCanonicalVariablesCumulativeCumulativeProportionProportionProportionProportion10.37210.37210.11410.114120.12220.49430.00680.120930.07400.56830.00110.1220
40.12890.69720.00070.122650.10580.80300.00030.1230Canoni85u1和v1解释的本组原始变量的比率:X组的原始变量被u1到u5解释了100%Y组的原始变量被v1到v5解释了80.3%X组的原始变量被u1到u4解释了90.81%Y组的原始变量被v1到v4解释了69.72%u1和v1解释的本组原始变量的比率:86在对房地产指标的典型相关分析中建立了如下的指标体系:X1:开发公司个数(个)X2:年平均职工人数(人)X3:自开始建设至本年底累计完成投资X4:本年完成投资X5:施工房屋面积(万平方米)Y1:经营总收入Y2:土地转让收入Y3:商品房屋销售收入Y4:房屋出租收入Y5:经营税金及附加Y6:营业利润Y7:竣工房屋面积(万平方米)Y8:竣工房屋价值(万元)其中,X1-X5是反映房地产投入的变量,Y1-Y8是反映房地产产出的变量。数据来源于《1999中国统计年鉴》,选取了全国30个省市自治区的相应指标值.2、房地产指标典型相关分析报告在对房地产指标的典型相关分析中建立了如下的指标体系:2、房地87序号典型相关系数典型变量1
0.998716
U1=-0.1769X1+0.0639X2+0.7264X3+0.3633X4+0.0053X5V1=2.5217Y1+0.1720Y2-1.7370Y3-0.1993Y4-0.0886Y5-0.3747Y6-0.1016Y7+0.6610Y82
0.980640
U2=0.3319X1+0.0785X2-3.3077X3+1.8943X4+1.2047X5V2=-2.0308Y1-0.2555Y2+0.3219Y3+0.4304Y4+1.4052Y5+0.4774Y6+2.0697Y7-1.8594Y8
3
0.916191U3=-1.1339X1-3.1176X2+1.2803X3-3.9436X4+6.7392X5V3=0.3990Y1-0.6098Y2-0.7852Y3-2.0872Y4+4.2927Y5-0.6167Y6-1.6135Y7+0.5071Y840.757332U4=1.4478X1-1.7250X2-4.47
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度装修包清工合同范本:设计变更与追加工程款处理3篇
- 2024年合同:无财产争议+债务清零+唯一子女生育权3篇
- 小学小数的课程设计
- 小闹钟vc课程设计
- 团购达人基本课程设计
- 小班文学素养课程设计
- 体育竞赛场地与设施规划考核试卷
- 产业政策分析与咨询考核试卷
- 光伏系统性能评估制度
- 《妇科腹腔镜手术并发症发生的相关因素及防治》
- 学生会学习部面试问题
- 股市买入和卖出经典口诀课件
- 跌倒坠床原因分析课件
- 2024年药剂科工作总结与计划
- 医院环境的清洁与消毒护理课件
- 环境工程专业英语 课件 U1L2 Global Environmental Concern
- 水务行业新员工入职培训
- 《普洱茶概说》课件
- 2024年转基因耐贮藏番茄项目创业计划书
- TNP-4110技术说明(电子版)
- 马克思主义政治经济学概论(第二版)知识点总结
评论
0/150
提交评论