




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、典型相关分析在居民家庭人均收入与支出指标中的应用摘要:现阶段居民家庭的经济状况对分析我省各个城市的经济水平具有重要的代表性,通过使用典型相关分析的原理和方法,对2011年辽宁省14个大中城市居民家庭人均收入与支出指标数据之间的关系进行了分析和比较研究,得出了各个城镇居民收入与支出的主要构成因素。关键词:典型相关分析 相关系数 组合系数 巴泰勒特检验收入与支出指标1引言随着我国经济建设的发展,城市居民家庭的收入与支出受到越来越多的重视。如何提高居民家庭的生活质量,达到真正的富裕生活,一直是领导人不断研究的问题。本文采用多元分析中的典型相关分析方法,根据居民家庭的收入与支出情况,给出了评价指标,并
2、与之前的数据进行比对。2典型相关分析的基本介绍2.1典型相关分析的基本思想典型相关分析(canonical correlation analysis,CCA)基本思想是类似于主成分分析法中把多变量与多变量之间的相关化为两个变量之间相关的做法,首先在每组变量内部找出具有最大相关性的一个线型变量组合,然后在每组变量内找出第二对线性组合,使其本身具有最大的相关性,并分别与第一对线性组合不相关。如此下去,直到两组变量内个变量之间的相关性被提取完毕为止。有了这些最大相关的线性组合,在讨论两组变量之间的相关,就转化为研究这些线性组合的最大相关,从而减少了研究变量的个数。2.2典型相关分析的基本原理设有两随
3、机变量组=(,)和=(,),不妨设pq.对于,,不妨设第一组变量的均值和协方差矩阵为E(X)= Cov(X)=第二组变量的均值和协方差矩阵为E(Y)= Cov(Y)=第一组与第二组变量的协方差矩阵为Cov(X,Y)=对于矩阵Z=X Y有均值向量=E(Z)=EE(X) E(Y)=协方差矩阵=E(Z-)(Z-)= =要研究两组变量,和,之间的相关关系,首先分别作两组变量的线性组合,即U=(,),=(,)分别为任意非零常系数向量,则可得,Var(U)=aCov(X)a=aVar(V)=bCov(Y)b=bCov(U,V)=aCov(X,Y)b=a则称U与V为典型变量,它们之间的相关系数称为典型相关系
4、数,即=Corr(U,V)=典型相关分析研究的问题是,如何选取典型变量的最优线性组合.选取原则是:在所有的线性组合U和V中,选取典型相关系数为最大的U和V,即选取和使得=与之间的相关系数达到最大(在所有的U和V中),然后选取和使得与的相关系数在与和不相关的组合U和V中最大,继续下去,直到所有分别与,,和,,都不相关的线性组合,为止。此时p等于诸变量X与Y之间的协方差矩阵的秩.典型变量和,和和是根据它们的相关系数由大到小逐对提取,直到两组变量之间的相关性被分解完毕为止.2.3典型相关分析的应用典型相关分析的用途很广.在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要
5、用到典型相关分析.2.4 典型相关系数的检验典型相关系数显著性检验,主要采用的是巴泰勒特(Bartlett)关于大样本的检验.如果两组变量X和Y之间互不相关,则协方差矩阵仅包含零,因而典型相关系数都变为零.为此,即Cov(X,Y)=0对于矩阵A的p特征值,按照大到小排列为,这时作乘积:其中是A=的特征根。对于当n充分大,成立时,统计量近似服从pq个自由度的分布,若在给定的显著性水平下,则拒绝原假设相关性,相关系数为,第一个典型相关系数为显著的.接下来,为检验其余的典型相关系数的显著性,先将剔出,在作乘积,作统计量为它近似服从自由度为的分布,若在给定的显著性水平下,则拒绝原假设认为显著,即第二对
6、典型相关变量具有相关性.如此进行下去,直至到第k个典型相关系数检验为不显著时,即第k对典型变量不具有相关性时停止.2.5典型相关分析计算步骤2.5.1 原始数据矩阵2.5.2 对原始数据进行标准化变化并计算相关系数矩阵其中,分别为第一组变量和第二组变量的相关系数矩阵,=为第一组变量和第二组变量的相关系数.2.5.3 求典型相关系数和典型变量计算矩阵以及矩阵的特征值和特征向量,分别得典型相关系数和典型变量.2.5.4 检验各典型相关系数的显著性3对所选取的实例进行典型相关分析3.1 2011年辽宁省14个大中城市居民家庭人均收入与支出元城市收入支出工薪经营财产转移食品衣着设备用品医疗保健交通通信
7、文教娱乐居住杂项服务其他社会保障沈阳14339.52735.7166.06719.35384.82139.71032.01448.02428.32359.31364.9804.62742.62974.4大连15820.31630.3625.27147.16145.21676.0994.81128.22519.61741.81741.6623.64909.43381.0鞍山10546.81214.1482.07843.94671.41490.8719.81080.92095.51374.71572.2704.42741.01392.2抚顺9121.3820.7133.66710.94041.19
8、75.7473.1895.41196.71090.2900.6433.84121.71291.5本溪10789.11267.4342.56239.04779.81583.5712.9976.61321.41291.6907.7545.94564.71662.7丹东8601.8932.569.76523.34470.31118.6675.91129.91110.81032.81402.4382.11668.51428.1锦州10081.33246.1161.35395.54190.91457.6560.71061.31356.61305.41460.6408.53165.41272.6营口102
9、87.92661.35228.66483.94511.31528.4819.5953.61074.41159.71409.2767.22270.61407.4阜新8386.3805.93163.34348.33462.71274.2594.9759795.41046.8820.8293.51760.0864.5辽阳10570.91763.32128.96172.64202.21284.5718.9766.81624959.91056.2458.21884.11812.7盘锦18229.9875.51223.65181.14358.12034.9878.51450.51963.21661.499
10、5.8580.54699.02873.4铁岭7763.11008.0397.65637.63566.71321.5805.0717.8939.3850.21815.1306.42629.4662.8朝阳8091.2701.5493.05034.53478.91121.3487.7892.61238.6745.41006.3347.52442.5781.9葫芦岛9213.02997.52331.76285.93771.71131.7619.7671.02071.31136.11065.1502.73865.41205.7说明:数据来源:辽宁统计年鉴2010;本数据在原来数据的基础之上只保留了一位
11、小数;其中其他支出项包括:财产性支出、转移性支出、购房与建房支出;在处理数据的过程中保留了四位小数.在上表中各项收入与支出指标的数量单位相同,但数量级差异较大,因此从相关矩阵出发进行典型相关分析.记4项收入指标的数据矩阵为X=,10项支出指标的数据矩阵为Y=,即p=4,q=10,n=14.又记Z=(XY),R=,经计算得各指标间的相关系数如表3.2表3.4所示.表3.2 收入指标的自相关系数(Rxx)工薪经营财产转移工薪1.00000.10380.46000.1801经营0.10381.00000.13470.1892财产0.46000.13471.00000.5656转移0.18010.18
12、920.56561.0000表3.3 支出指标的相关系数(Ryy)食品衣着设备用品医疗保健交通通信文教娱乐居住杂项服务其他社会保障食品1.00000.62370.73860.63260.70260.76790.42820.71650.42360.8509衣着0.62371.00000.82400.79720.58770.86450.21560.69080.33490.7742设备用品0.73860.82401.00000.58220.60420.74450.50970.66940.21920.7844医疗保健0.63260.79720.58221.00000.52770.80650.16620
13、.58430.29020.7519交通通信0.70260.58770.60420.52771.00000.75970.25480.66190.48800.7863文教娱乐0.76790.86450.74450.80650.75971.00000.20830.73950.39810.8458居住0.42820.21560.50970.16620.25480.20831.00000.2512-0.06360.1727杂项服务0.71650.69080.66940.58430.66190.73950.25121.00000.25880.6366其他0.42360.33490.21920.29020.
14、48800.3981-0.06360.25881.00000.5176社会保障0.85090.77420.78440.75190.78630.84580.17270.63660.51761.0000表3.4 收入与支出指标的互相关系数(Rxy)食品衣着设备用品医疗保健交通通信文教娱乐居住杂项服务其他社会保障工薪0.68560.84250.72850.78290.72340.79220.09380.59930.59270.9335经营0.24280.25700.21340.05820.34840.36710.24340.44290.02490.1715财产0.65930.31280.40950.
15、15740.65550.40520.31210.52000.58090.4893转移0.65860.11290.35180.22480.54650.36090.45940.64810.20390.3571从表3.2可以看出,收入指标间存在一定的多重共线性关系,财产收入和转移收入的相关性最大为0.5656.从表3.3可以看出,支出指标间的多重共线性关系较收入指标复杂,正负相关性并存,居住与其他支出呈现负相关.文教娱乐与衣着支出的相关系数最大为0.86447.从表3.4可以看出,收入指标与支出指标间有较强的线性相关性,工薪收入与社会保障支出的相关系数最大为0.93355.表3.2、表3.3、表3.
16、4表明,有必要对城市居民家庭收入和支出指标进行典型性相关分析.由标准化数据进行典型相关分析的计算公式和步骤,计算得表3.53.7.表3.5 典型相关系数组对1234决策系数1.00000.96740.59810.4881典型相关系数1.00000.98360.77330.6986表3.6 收入指标典型变量的组合系数(矩阵A)典型变量工薪经营财产转移F11.1025-0.0247-0.3264-0.1188F20.01470.27410.41740.6025F3-0.24760.56080.9426-1.031F40.10940.8077-0.81060.2825表3.7 支出指标典型变量的组合
17、系数(矩阵B)典型变量食品衣着设备用品医疗保健交通通信文教娱乐居住杂项服务其他社会保障G10.8800-0.41910.2378-0.17790.27010.2035-0.1424-0.0673-0.0539-1.5891G20.6468-0.2576-0.1332-0.24200.42720.03630.19440.55970.1581-0.4147G30.12632.5015-1.9085-1.95240.01500.17420.5043-0.2760-0.03700.8153G41.85540.21771.60840.94531.0838-1.7459-1.1047-1.14150.63
18、08-2.4252G5-0.7595-0.23090.06780.3667-1.01550.18260.40380.93251.0110-0.2434G60.33400.13380.2439-0.7907-1.2854-0.2060-0.37230.7995-0.01200.8094由巴泰勒特检验方法检验典型相关系数的显著性,计算得表3.8.表3.8 典型相关系数的巴泰勒检验组对1234检验统计量的自由度4027167检验统计量的观测值206.8777166.250615.17228.5587检验的最小显著性概率000.15210.2859表3.6表明,城镇居民收入(F1)的主要构成因素是工薪
19、收入.表3.7表明,城镇居民支出(G1)的主要构成因素是食品、社会保障支出.表3.8表明,第1典型相关系数1高度显著,第2典型相关系数2有较高的显著性,第3和第4典型相关系数3和4相对讲是不显著的.4结论通过分析2010年辽宁省14个大中城市居民家庭人均收入与支出现状,对比2005年的各个数据得出一下结论:结论一:城市居民家庭人均收入指标间存在一定的多重共线性关系,收入指标由2005年的相关性最大是工薪和财产收入为0.6831变化到2010年的财产和转移收入为0.5656;支出指标间的多重共线性关系较收入指标复杂,正负相关性并存,负相关由2005年的居住与衣着、交通和通信、杂项商品和服务、其他
20、支出变化到2011年的居住与其他支出,最大相关系数由2005年的衣着与交通通信支出的0.8722变化到2010年的文教娱乐与衣着支出的0.86447;收入与支出指标间有较强的线性相关性,在2005年工薪收入与社会保障支出的相关性最大为0.9425,到2010年工薪收入与社会保障支出的相关系数最大为0.93355,总体呈现下降的趋势.结论二:2005年城镇居民收入(F1)的主要构成因素是工薪和经营收入,而2010年主要因素是工薪收入;2005年城镇居民支出(G1)的主要构成因素是衣着、交通通信、社会保障,而2011年的主要构成因素是食品和社会保障支出;在分析典型性相关系数时,2005年与2011
21、年有相似的结论:第1典型相关系数1高度显著,第2典型相关系数2有较高的显著性,第3和第4典型相关系数3和4相对讲是不显著的.参考文献1 包研科.数据分析教程.北京:清华大学出版社,20112于秀林,任雪松.多元统计分析.北京:中国统计出版社,20033付德印.Excel与多元统计分析.北京:中国统计出版社,2007附录:1.使用MATLAB求自相关系数、互相关系数、典型相关系数和组合系数:function R,CCORR,ALPHA,BETA,LAMDA,Rxx,Ryy,Rxy=cca(X,Y)%CCA由两组变量的相关矩阵求典型相关系数和典型变量% 语法%R,CCORR,ALPHA,BETA,
22、LAMDA,Rxx,Ryy,Rxy=cca(X,Y)% X第1组多维随机变量的“np”数据矩阵% Y第2组多维随机变量的“nq”数据矩阵% RX与Y的相关系数矩阵% CCORR典型相关系数% ALPHAX的典型变量(系数)% BETAY的典型变量(系数)% LAMDA典型决策系数(典型相关系数的平方)% X的自相关系数矩阵% Y的自相关系数矩阵% X与Y的互相关系数矩阵n,p=size(X);n,q=size(Y);Z=X,Y;% 求相关系数矩阵以及剖分R=corrcoef(Z);Rxx=R(1:p,1:p);Ryy=R(p+1:end,p+1:end);Rxy=R(1:p,p+1:end);
23、Ryx=Rxy'% 求典型变量(系数)和典型相关系数MF=sqrtm(inv(Rxx)*Rxy*inv(Ryy)*Ryx*sqrtm(inv(Rxx);MG=sqrtm(inv(Ryy)*Ryx*inv(Rxx)*Rxy*sqrtm(inv(Ryy);LF,LAMDA=eigs(MF);LG,LAMDA=eigs(MG);LAMDA=diag(LAMDA)'CCORR=sqrt(LAMDA)'ALPHA=LF'*sqrtm(inv(Rxx);BETA=LG'*sqrtm(inv(Ryy);输入14个城市的收入矩阵和支出矩阵:X=14339.52735.7
24、166.06719.3; 15820.3 1630.3 625.27147.1; 10546.8 1214.1 482.07843.9; 9121.3 820.7 133.66710.9;10789.11267.4342.56239.0; 8601.8 932.5 69.76523.3; 10081.33246.1 161.35395.5; 10287.9 2661.35 228.66483.9; 8386.3805.93163.34348.3; 10570.91763.32 128.96172.6;18229.9 875.51 223.65181.1; 7763.1 1008.03 97.6
25、 5637.6 ; 8091.2701.54 93.05034.5; 9213.02997.52 331.76285.9; Y=5384.82139.71032.01448.02428.32359.31364.9804.62742.62974.4;6145.21676.0994.81128.22519.61741.81741.6623.64909.43381.0;4671.41490.8719.81080.92095.51374.71572.2704.42741.01392.2;4041.1975.7473.1895.41196.71090.2900.6433.84121.71291.5;47
26、79.81583.5712.9976.61321.41291.6907.7545.94564.71662.7;4470.31118.6675.91129.91110.81032.81402.4382.11668.51428.1;4190.91457.6560.71061.31356.61305.41460.6408.53165.41272.6;4511.31528.4819.5953.61074.41159.71409.2767.22270.61407.4;3462.71274.2594.9759795.41046.8820.8293.51760.0864.5;4202.21284.5718.
27、9766.81624959.91056.2458.21884.11812.7;4358.12034.9878.51450.51963.21661.4995.8580.54699.02873.4;3566.71321.5805.0717.8939.3850.21815.1306.42629.4662.8;3478.91121.3487.7892.61238.6745.41006.3347.52442.5781.9;3771.71131.7619.7671.02071.31136.11065.1502.73865.41205.7;调用M文件函数:R,CCORR,ALPHA,BETA,LAMDA,R
28、xx,Ryy,Rxy=cca(X,Y)结果为:R = Columns 1 through 11 1.0000 0.1038 0.4600 0.1801 0.6856 0.8425 0.7285 0.7829 0.7234 0.7922 0.0938 0.1038 1.0000 0.1347 0.1892 0.2428 0.2570 0.2134 0.0582 0.3484 0.3671 0.2434 0.4600 0.1347 1.0000 0.5656 0.6593 0.3128 0.4095 0.1574 0.6555 0.4052 0.3121 0.1801 0.1892 0.5656
29、1.0000 0.6586 0.1129 0.3518 0.2248 0.5465 0.3609 0.4594 0.6856 0.2428 0.6593 0.6586 1.0000 0.6237 0.7386 0.6326 0.7026 0.7679 0.4282 0.8425 0.2570 0.3128 0.1129 0.6237 1.0000 0.8240 0.7972 0.5877 0.8645 0.2156 0.7285 0.2134 0.4095 0.3518 0.7386 0.8240 1.0000 0.5822 0.6042 0.7445 0.5097 0.7829 0.0582
30、 0.1574 0.2248 0.6326 0.7972 0.5822 1.0000 0.5277 0.8065 0.1662 0.7234 0.3484 0.6555 0.5465 0.7026 0.5877 0.6042 0.5277 1.0000 0.7597 0.2548 0.7922 0.3671 0.4052 0.3609 0.7679 0.8645 0.7445 0.8065 0.7597 1.0000 0.2083 0.0938 0.2434 0.3121 0.4594 0.4282 0.2156 0.5097 0.1662 0.2548 0.2083 1.0000 0.599
31、3 0.4429 0.5200 0.6481 0.7165 0.6908 0.6694 0.5843 0.6619 0.7395 0.2512 0.5927 0.0249 0.5809 0.2039 0.4236 0.3349 0.2192 0.2902 0.4880 0.3981 -0.06360.9335 0.1715 0.4893 0.3571 0.8509 0.7742 0.7844 0.7519 0.7863 0.8458 0.1727 Columns 12 through 14 0.5993 0.5927 0.9335 0.4429 0.0249 0.1715 0.5200 0.5
32、809 0.4893 0.6481 0.2039 0.3571 0.7165 0.4236 0.8509 0.6908 0.3349 0.7742 0.6694 0.2192 0.7844 0.5843 0.2902 0.7519 0.6619 0.4880 0.7863 0.7395 0.3981 0.8458 0.2512 -0.0636 0.1727 1.0000 0.2588 0.6366 0.2588 1.0000 0.5176 0.6366 0.5176 1.0000CCORR = 1.0000 0.9836 0.7733 0.6986 0.0000 0 - 0.0000iALPH
33、A = 1.1025 -0.0247 -0.3264 -0.1188 0.0147 0.2741 0.4174 0.6025 -0.2476 0.5608 0.9426 -1.0310 0.1094 0.8077 -0.8106 0.2825BETA = 0.8800 -0.4191 0.2378 -0.1779 0.2701 0.2035 -0.1424 -0.0673 -0.0539 -1.5891 0.6468 -0.2576 -0.1332 -0.2420 0.4272 0.0363 0.1944 0.5597 0.1581 -0.4147 0.1263 2.5015 -1.9085
34、-1.9524 0.0150 0.1742 0.5043 -0.2760 -0.0370 0.8153 1.8554 0.2177 1.6084 0.9453 1.0838 -1.7459 -1.1047 -1.1415 0.6308 -2.4252 -0.7595 -0.2309 0.0678 0.3667 -1.0155 0.1826 0.4038 0.9325 1.0110 -0.2434 0.3340 0.1338 0.2439 -0.7907 -1.2854 -0.2060 -0.3723 0.7995 -0.0120 0.8094LAMDA = 1.0000 0.9674 0.59
35、81 0.4881 0.0000 -0.0000Rxx = 1.0000 0.1038 0.4600 0.1801 0.1038 1.0000 0.1347 0.1892 0.4600 0.1347 1.0000 0.5656 0.1801 0.1892 0.5656 1.0000Ryy = 1.0000 0.6237 0.7386 0.6326 0.7026 0.7679 0.4282 0.7165 0.4236 0.8509 0.6237 1.0000 0.8240 0.7972 0.5877 0.8645 0.2156 0.6908 0.3349 0.7742 0.7386 0.8240 1.0000 0.5822 0.6042 0.7445 0.5097 0.6694 0.2192 0.7844 0.6326 0.7972 0.5822 1.0000 0.5277 0.8065 0.1662 0.5843 0.2902 0.7519 0.7026 0.5877 0.6042 0.5277 1.0000 0.7597 0.2548 0.6619 0.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业废水处理技术与流程优化分析
- 工业污染治理及排放标准
- 工业建筑设计与产业园区规划
- 工业物联网与智能安防的融合
- 工业机器人发展现状与市场分析
- 工业绿色制造从废品到再利用的循环经济
- 工业机器人操作与编程技巧
- 工业自动化中的能源管理与节能技术
- 工业自动化控制系统解决方案
- 工业环境监测与法规遵守
- 医药代表专业化拜访技巧培训课件
- 《催化剂的制备》课件
- 风电项目达标创优规划(终板)
- IPC-A-600G印制板验收标准(中文版)概论
- FIDIC设计建造与交钥匙工程合同条件(橘皮书)
- 蒸发设备操作讲解
- 东风汽车零部件编码规则
- CATIA在汽车底盘设计中的应用
- 【简谱】亲爱的旅人啊简谱
- 大理智能制造项目可行性研究报告模板
- 现代护理管理工具的应用.ppt
评论
0/150
提交评论