版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章典型相关分析为了研究饲料与荤菜价格的关系,统计若干年玉米、豆饼、稻子、麦子以及猪肉、 牛肉、鸡肉、鸡蛋、鸭肉、鸭蛋的价格,分析饲料与荤菜价格的关系时,发现单独一种饲料 和单独一种肉蛋禽价格关系并不密切(由显著性检验可见),但饲料的某种综合价格则与肉蛋 禽综合价格的关系很密切。把饲料价格看成一组随机变量,肉蛋禽价格看成另一组随机变量, 找这两组随机变量的线性组合,使之相关系数平方最大,从而分析两组随机变量间的关系, 判定这两组随机变量是否有关联,这就是典型相关分析。9.1典型相关分析数学模型设随机向量X =(x1,.xp)'与Y =(y1,.yp)'的方差存在,协方差为 c
2、ov(X,Y) 。a,b为常数向量。则 corr(a,X,Y'b axyb/(axxab yyb)1/2,为了 计算方便,限制 D(a'X)二 a'xxa =1, D(b'Y)二 b'3yyb = 1。定义 9.1 设 a1,b1 在条件 D(a'X) = a'la =1, D(b'Y) =b'2yyb = 1 下使 cova'X,Y'b)大,则称 V1 =a1,X,W1 =b/Y 为第一对典型相关变量, cov(arx,丫'“)称 为第一典型相关系数。由定义可见,V1 ,W1尽可能多地反映原来 p
3、对随机变量相关的信息。第一对典型相关变往往不能完全反映随机向量间的关系,必须建立其他典型相关变量,它也应当最能反映随机向量间关系,但是它应当与第一对典型相关变量不相关(不包含第一对典型相关变量的信 息)。定义 9.1'若常数向量 a= a2 , b= b2在条件 D(a'X)二a'3“a = 1,D(b'Y) =b'二yyb =1, cov(v1,a'X 0 , cov(w1,b'Y 0 下,使 cov(a'X ,Y'b)最大,则称V2 =a2'X,W2 =b2,Y为第二对典型相关变量,cov(a2'X,Y
4、'b2)称为第二典型相关系数。若常数向量 a= a3 , b= b3 在条件 D(a'X) =1, D(b'Y) =1 , cov(w,a'X) = 0 , cov(w1,b'Y) = 0 , cov(v2, a'X) = 0 ,cov(W2, b'Y) = 0下,使 cov(a2X ,Y'b2)最大,则称 va3'X,wb3'Y为第3对典型相关变量,cov(a3'X,Y'b3)称为第3典型相关系数,。求第1对典型相关变量是在条件D(a'X) a'la =1, D(b'Y)
5、=b'2yyb =1下使 cov(a'X ,Y'b) =a'二xyb 最大,由 Lagrenge 乘 子法,应当求 Lagrenge 函 数I =a匹xyb -(axxa -1)/2 - 2(b'Zyy 1)/2的无条件极大。对a,b求偏导数得(9.1)xy b - 人 Hxxa = 0;_ yx a -,2 yy b = 0假设Zxx/yy正定(否则用广义逆处理),(9.1 )第1式左乘a'得1二atxyb ; (9.1 ) 第2式左乘b'得/-2 = b'丄xya ;从而汩=,2 ='。当 -0时(9.1)式消去a得y
6、xd Ixyb- '21yyb =0,从而,分别是S j 1/2 1 1/2相对于lyy的特征值,特征向量,或Zyy yxxx Ixylyy 的特征值,特征向量。(9.1) -122 _1式消去b得二xyyy 1 yx ' xx 0,从而',a分别是 1 yx相对于3拓的特征 值,特征向量,或zxxJ/4xzyyJzyxxJ/2的特征值,特征向量。可以证明.定理9.1设z2 ,a分别是龙/2工肿工必工/2的最大特征值及相应特征向量;九2, _1/2 _11/2b分别是Zyy y的最大特征值及相应特征向量;满足条件D(a'X) = 1,D(b'Y) =1,
7、则V1二arX,W1二b/Y为第一对典型相关变量,为第一典型相关系数的2 1 / 2 1 1/2平方。更一般的,设 -0 , ai分别是Ixx Ixyy 的第i大特征值及相应 特征向量;打2 =0 , bi分别是lyy'tyxS七Xyyy"的第i大特征值及相应特征向量;满足条件D(ai'X) =1, D(bj'Y) =1 ,则Vj -ai'X,wbi'Y为第i对典型相关变量,为第i典型相关系数的平方。实际问题中协差阵总用样本协差阵估计,i = 1,2,.n是正态总体的一个样本。X =二:X ,n丄1d丄,(XnY丫,则n X)(X 一 X)
8、39; ,1 xy_X)(Y(i)_Y)',A1iilyy(Y-Y)(丫-丫)'分别是Ixxxyyy的极大似然估计样本协差阵。 定理n(9.1 )中协差阵可用极大似然估计样本协差阵代替。这样做的依据是2 1 / 2 1 1 / 2定理9. 2 设%=0 , Cj分别是Ixx Ixylyy 的第i大特征值及2A 1I2 A .A A相应特征向量;7- 0 , di分别是lyy lyxxx二xy 3 yy 的第i大特征值及相应特征向量;满足条件:q'X , di'Y的样本方差都是 1;则Ci,di分别为ai,b的极大似然估2 2计,丄i为 i的极大似然估计。2定义9
9、. 2 Ci'X , di'Y称为第i对样本典型相关变量,Ji称为第i个样本典型相关系数平方.冗余分析也是典型相关分析的重要内容设每组变量都标准化了,从第 1组变量提取的典型变量为 V =(V!,V2,V',从第2组 变量提取的典型变量为 W = (w,w2,.wr)';原第1组变量为X =(石公2,Xp)',原第2 组变量为Y =(yi,y2,yq)' ; Vi与X分量的相关系数所成向量为 Gi =(,? ip )' , Wi与Y分量的相关系数所成向量为 Hi =()',则第i 个典型变量Ui从第1组变量提取的方差比例为 Gi&
10、#39;Gi / p,则第i个典型变量Vi从第2组变 量提取的方差比例为 Hj'Hj/q。令 RU)=,iGi 'Gi / p , RV)= ' i H i ' H i / q ;则 Ru 表示9.2典型相关过程SAS中用CANCORR过程(典型相关过程)计算样本典型相关系数和样本典 型相关变量。该过程主要包括以下三个语句:(1) ROC CANCORR 语句,一般形式是 PROC CANCORR选择项1选择项 2.PROC CANCORR语句中选项可以是 DATA =;用以表明输入数据集; OUT = 或OUTSTAT =;用以表明输出数据集,还可以是 ALL
11、,用以表明输出全部计算内容。(2) VAR语句,一般形式是 VAR 变量I变量2.;用以指出第一组变量。(3) WITH 语句,一般形式是 WITH 变量1变量2 用以指出第二组变量。例9. 1 现有北京地区19511976年冬季的气象资料见表 9. 1,其中year:年份Dec: 12月份平均气温.Jan:次年一月份平均气温.Feb:次年二月份平均气温.High4 : 4 月 500hpa 图上(110 o E,High7 : 7月500hpa图上13°-14°E, 40°-50°N范围内6点高度距平和.45°N)(100°W, 4
12、0 oN)和(100°W, 50° N)3 点高度距平和.high8 : 8 月 500hpa 图上 150° E, 35° -45 ° N ; 100° E, 40°-50° N 范围内 5 点高度距平和.表9. 1 北京地区冬季气温yearDecJanFebHhigh7high4high819511.0-2.7-4.34-7121952-5.3-5.9-3.502151953-2.0-3.4-0.86-951954-5.7-4.7-1.1101761955-0.9-3.8-3.115111956-5.7-5.3
13、-5.9-31-121957-2.1-5.0-1.6-1531319580.6-4.3-0.210-301959-1.7-5.72.0-9-5-141960-3.6-3.61.311-3181961-3.0-3.1-0.85-15419620.1-3.9-1.181211963-2.6-3.0-5.2113-31964-1.4-4.9-1.7-11-871965-3.9-5.7-2.5-186-61966-4.7-4.8-3.3-9-6151967-6.0-5.6-4.940-201968-1.7-6.4-5.1-7-2-151969-3.4-5.6-2.0417-231970-3.1-4.2
14、-2.99-16231971-3.8-4.9-3.9-135-21972-2.0-4.1-2.470101973-1.7-4.2-23.6-3.3-2.017-201975-2.7-3.70.1-1-13101976-2.4-7.6-2.259-30以Dec,Jan,Feb 为第1组变量,high7,high4,high8 为第2组变量座典型相关分析。解采用如下程序data temperat;in put year Dec Jan Feb high7 high4 high8;cards;1951 1.0 -2.7 -4.3 4 -7 121952 -5.3 -5.9
15、-3.5 0 21 51953 -2.0 -3.4 -0.8 6 -9 51954 -5.7 -4.7 -1.1 10 17 61955 -0.9 -3.8 -3.1 1 5 111956 -5.7 -5.3 -5.9 -3 1 -121957 -2.1 -5.0 -1.6 -15 3 131958 0.6 -4.3 -0.2 10 -3 01959 -1.7 -5.7 2.0 -9 -5 -14 1960 -3.6 -3.6 1.3 11 -3 18 1961 -3.0 -3.1 -0.8 5 -15 4 1962 0.1 -3.9 -1.1 8 12 1 1963 -2.6 -3.0 -5
16、.2 11 3 -3 1964 -1.4 -4.9 -1.7 -11 -8 7 1965 -3.9 -5.7 -2.5 -18 6 -6 1966 -4.7 -4.8 -3.3 -9 -6 15 1967 -6.0 -5.6 -4.9 4 0 -20 1968 -1.7 -6.4 -5.1 -7 -2 -15 1969 -3.4 -5.6 -2.0 4 17 -23 1970 -3.1 -4.2 -2.9 9 -16 23 1971 -3.8 -4.9 -3.9 -13 5 -2 1972 -2.0 -4.1 -2.4 7 0 10 1973 -1.7 -4.2 -2.0 27 -11 4 1
17、974 -3.6 -3.3 -2.0 17 -2 0 1975 -2.7 -3.7 0.1 -1 -13 10 1976 -2.4 -7.6 -2.2 5 9 -30 proc cancorr all; var Dec Jan Feb; with high7 high4 high8; run;执行后得到如下结果Means and Standard Deviations3 'VAR' Variables3 'WITH' Variables26 ObservationsVariableMeanStd DevDEC-2.7423081.859069JAN-4.5923
18、081.172663FEB-2.2730771.960930HIGH72.03846210.470839HIGH4-0.0384629.799922HIGH80.73076913.128771以上给出 6个变量的样本均值与样本标准差Correlations Among the Original VariablesCorrelations Among the 'VAR' VariablesDEC1.00000.32840.2652JAN0.32841.00000.1587FEB0.26520.15871.0000DECJANFEBCorrelations Among the
19、39;WITH' VariablesHIGH7HIGH71.0000HIGH4-0.1103HIGH80.1019HIGH4 HIGH8-0.11030.10191.0000-0.3871-0.38711.0000以上是两组变量的组内样本相关阵Correlations Among the Original VariablesCorrelations Between the 'VAR' Variables and the 'WITH' VariablesHIGH7HIGH4HIGH8DEC0.1238-0.28310.1652JAN0.4378-0.447
20、90.6645FEB0.1180-0.18120.2118以上是两组变量的组间样本相关阵Canonical Correlation AnalysisAdjusted Approx SquaredCanonicalCorrelationCanonicalCorrelationStandard CanonicalError Correlation10.7935620.7616860.074052 0.62974120.190066-.0073680.192775 0.03612530.022657. 0.199897 0.000513以上给出(样本)典型相关系数分别是 0.793562 ,0.19
21、0066 ,0.022657 ;(样本)典型相关系数平方分别是0.629741,0.036125 , 0.000513 。0.793562 远大于两组变量间单个相关系数。Eigenvalues of INV(E)*H= CanRsq/(1-CanRsq)Eigenvalue Difference Proportion Cumulative1.70081.66330.97820.978220.03750.03700.02160.999730.00050.00031.0000Canoni cal Correlati on An alysisTest of H0: The canonical cor
22、relations in thecurre nt row and all that follow are zeroLikelihoodRatio Approx F Num DF Den DF Pr > F1 0.356700322.86122 0.963380070.19773 0.999486660.0113948.825350.0086442 0.9382122 0.91633对典型相关是不似然比检验表明第1对典型相关是高度显著的(0.0086 <0.01 );第2, 显著的(概率0.9382,0.9163远大于0.05 )。Canonical Correlation Anal
23、ysisMultivariate Statistics and F ApproximationsS=3M=-0.5N=9StatisticValueF Num DF Den DF Pr > FWilks' Lambda0.356700322.861948.825350.0086Pillai's Trace0.666379292.0949660.0424560.001322 0.0001Hotelling-Lawley Trace 1.738803463.60649Roy's Greatest Root 1.7008107912.47263NOTE: F Stati
24、stic for Roy's Greatest Root is an upper bound. 多种检验表明两组变量存在相关性。Canoni cal Correlati on An alysisRaw Canonical Coefficie nts for the 'VAR' VariablesV1V2V3DEC-0.032779661-0.568666035-0.13313535JAN0.83397895730.2818830288-0.212608817FEB0.0889953418-0.0028848890.5230182828Raw Canonical Coef
25、ficients for the 'WITH' VariablesW1W2 W3HIGH70.0435982890.0116551032-0.085060488HIGH4-0.0249253530.1078948423-0.007697455HIGH80.05420836620.04778505480.0403880758上表给出原始变量典型相关变量的系数,第1对典型变量是v1=-0.032779661Dec+0.8339789578Jan+0.0889953418w1=0.043598289high7-0.024925353high4+0.0542083662hign8第2对
26、典型变量是v2=-0.568666035Dec+0.2818830288Jan-0.002884889 Feb w2=0.0116551032high7+0.1078948423high7+0.0477850548high8 第3对典型变量学者自己找一找。Canonical Correlation AnalysisStandardized Canonical Coefficients for the 'VAR' VariablesV1V2V3DEC-0.0609-1.0572-0.2475JAN0.97800.3306-0.2493FEB0.1745-0.00571.0256S
27、tandardized Canonical Coefficients for the 'WITH' VariablesW1W2W3HIGH70.45650.1220-0.8907HIGH4-0.24431.0574-0.0754HIGH80.71170.6274 0.5302上表给出标准化变量典型相关变量的系数,第 1对典型变量是v1=-0.0609Dec+0.9780Jan+0.1754Febw1=0.4565hign7-0.2443huigh4+0.7117high8第2 , 3对典型变量学者自己找一找。Canonical StructureCorrelations Bet
28、ween the 'VAR' Variables and Their Canonical VariablesV1V2V3DEC0.3065-0.9501-0.0574JAN0.9857-0.0175-0.1678FEB 0.3136-0.23360.9204以上给出第1组变量与自己典型变量间的相关系数,即冗余分析的0.3065、广0.9501、<_ 0.0574 AGi =0.9857,G2 =-0.0175,G3 =-0.1678(0.3136 ,1-0.2336 ,I 0.9204 ,Correlati ons Betwee n the 'WITH'
29、Variables and Their Canoni cal VariablesW1W2W3HIGH70.55600.0693-0.8283HIGH4-0.57010.8010-0.1825HIGH80.85280.23040.4687以上给出第2组变量与自己典型变量间的相关系数,即冗余分析的0.5560 巾.0693 ''-0.8283、H1 =-0.5701 ,H2 =0.8010,H 3 =-0.18251 0.8528少.23041 0.4687Canoni cal StructureCorrelati ons Betwee n the 'VAR' Va
30、riables and theCanonical Variables of the 'WITH' VariablesW1W2W3DEC0.2432-0.1806-0.0013JAN0.7822-0.0033-0.0038FEB0.2488-0.04440.0209Canoni cal StructureCorrelatio ns Betwee n the 'WITH' Variables and the Canoni cal Variables of the 'VAR' VariablesV1V2V3HIGH70.44120.0132-0.018
31、8HIGH4-0.45240.1522-0.0041HIGH80.67670.04380.0106以上是典型变量与对方变量间的相关系数。Canoni cal Redu ndancy An alysisRaw Varia nee of the 'VAR' VariablesExpla ined byTheir OwnCanoni cal VariablesThe OppositeCanoni cal VariablesCumulative Canoni calCumulativeProporti on Proporti on R-SquaredProporti on Propor
32、ti on10.23500.23500.62970.14800.148020.38380.61880.03610.01390.161830.38121.00000.00050.0002 0.1620以上给出Canoni cal Redu ndancy An alysisRaw Varia nee of the 'WITH' VariablesExpla ined byThe OppositeCanoni cal VariablesTheir OwnCanoni cal VariablesCumulative Canoni calCumulativeProporti on Pro
33、porti on R-SquaredProporti on Proporti on10.50380.50380.62970.31730.317320.18860.69240.03610.00680.324130.30761.00000.00050.00020.3242以上给出Canoni cal Redu ndancy An alysisSta ndardized Varia nee of the 'VAR' VariablesExpla ined byTheir OwnThe OppositeCanoni cal VariablesCanoni cal VariablesCu
34、mulative Canoni calCumulativeProporti on Proporti on R-SquaredProporti on Proporti on10.38790.38790.62970.24430.244320.31920.70710.03610.01150.255830.29291.00000.00050.00020.2560以上给出第1组变量1 , 2, 3个典型变量从标准化的第 1组变量提取的比例 Gi /3分别是0.3879,0.3912 ,0.2929。而 RV"分别是 0.2443,0.2448,0.2560。Canoni cal Redu nd
35、ancy An alysisSta ndardized Varia nee of the 'WITH' VariablesExpla ined byTheir OwnCanoni cal VariablesThe OppositeCanoni cal VariablesCumulative Canoni calCumulativeProporti on Proporti on R-SquaredProporti on Proporti on10.45380.45380.62970.28580.285820.23320.68700.03610.00840.294230.31301.00000.00050.00020.2944以上给出第2组变量1 , 2, 3个典型变量从标准化的第22组变量提取的比例 Hj /3分别是0.4538,0.2332 ,0.3130。而 R 分别是 0.2858,0.2942,0.2944。Canoni cal Redu ndancy An alysisSquared Multiple Correlatio ns Betwee n the 'VAR' Variables andthe First 'M' Ca noni cal Variables of the 'WITH
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 面向大数据场景的字符串数字转换算法改进
- 2024年度国际货物运输与保险合同
- 2024年度物联网项目实施与监理合同
- 林业投资与金融合作的机会与挑战考核试卷
- 乡村建设道路畅通方案
- 2024年度35kv变电站施工用水供应合同
- 2024年建筑企业战略联盟合同
- 2024年度KTV场所装修设计合同
- 2024年庚方环境监测系统建设与运营合同
- 2024年工程项目招标书与合同撰写指南
- 屠宰场食品安全管理制度
- 部编版(2024秋)语文一年级上册 6 .影子课件
- 2024秋期国家开放大学专科《刑事诉讼法学》一平台在线形考(形考任务一至五)试题及答案
- 基于SICAS模型的区域农产品品牌直播营销策略研究
- 病例讨论英文
- 2024秋期国家开放大学专科《液压与气压传动》一平台在线形考(形考任务+实验报告)试题及答案
- 【课件】植物体的结构层次课件-2024-2025学年人教版生物七年级上册
- 24秋国家开放大学《0-3岁婴幼儿的保育与教育》期末大作业参考答案
- 相对湿度计算公式
- 2024版肿瘤患者静脉血栓防治指南解读 课件
- 商业银行开展非法集资风险排查活动情况报告
评论
0/150
提交评论