




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021-11-171 在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的 q个质量指标 和 p 个原材料指标 的相关关系。 当然可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有p p* *q q个简单相关系数,这样又烦琐又不能抓住问题的本质。 如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。),(21pxxx),(21qyyyThe canonical correlation analysis-CCA第1页/共51页2021-11-172 With canonical correlation, we
2、are working with two sets of variable (e.g.,we might have one set of variables measuring the personality characteristics of high school students and another set of variables measuring their vocational interests ). In canonical correlation, we are also trying to re-express and simplify the data. Our
3、goal is to find two linear combinations of the original variables-one combination from the first set variables and one combination from the second (called canonical variables )- that exhibit the largest possible covariance. From James etcAnalyzing Multivariate Data第2页/共51页2021-11-173From James .Anal
4、yzing Multivariate Data In principal components analysis (PCA), we found that a small number of components could account for much of the variance (i.e., information )in the entire data set. With canonical correlation, we will find that a few pairs of canonical variates can account for much of the in
5、terdependence between two sets of variables.第3页/共51页2021-11-174例:家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量: :户户主主受受教教育育程程度度:家家庭庭的的年年收收入入:户户主主的的年年龄龄321yyy :每年外出看电影频率:每年外出看电影频率率率:每年去餐馆就餐的频:每年去餐馆就餐的频21xx分析两组变量之间的关系。The canonical correlation analysis-CCA第4页/共51页2021-11-175X1X2y1y2y3X11.000.800
6、.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵The canonical correlation analysis-CCA第5页/共51页2021-11-176y2y3y1x2x1 33122111112211111ybybybVxaxau 33222211222221122ybybybvxaxau?),(11 vu ?),(22 vu The canonical correlation analysis-CCA第6页/共5
7、1页2021-11-177 典型相关分析的典型相关分析的思想思想: 首先分别在每组变量中找出第一对线性组合,使其具有最大相关性, 1111212111112121ppqqua xa xa xvb yb yb y The canonical correlation analysis-CCA第7页/共51页2021-11-178 然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对线性组合本身具有次大的相关性。 既:u2和v2与u1和v1相互独立,但u2和v2有次大相关性。如此继续下去,直至进行到r步,两组变量的相关性被提取完为止。r min(p,q),可以得到r组变
8、量。212 1222221212222ppqqua xa xa xvb yb yb yThe canonical correlation analysis-CCA第8页/共51页2021-11-17910.2 典型相关的数学描述典型相关的数学描述 考虑两组变量的向量 1212(,)pqx xxyyyZ其协方差阵为pqpq11122122 其中 1111是第一组变量的协方差矩阵; 2222是第二组变量的协方差矩阵; 是X X和Y Y的其协方差矩阵。1221 矩阵的分块The canonical correlation analysis-CCA第9页/共51页2021-11-1710 如果我们记两
9、组变量的第一对线性组合为:11u = a X11v = b Y 其中: 11211(,)paaa1a11211(,)qbbb1b122()1VarVar1111vb(Y)bb b1()11Cov u ,vCov11u ,v11121a(X,Y)ba b 所以,典型相关分析就是求a a1 1和b b1 1,使 uvuv达到最大。1()()1Var uVar111111aX aa a想一想如何求?The canonical correlation analysis-CCA第10页/共51页2021-11-171110.3 10.3 总体总体的典型的典型相关系数相关系数和典型变量和典型变量 在约束条
10、件: :( )1Var u11a a( )1Var v22b b下,求a a1 1和b b1 1,使 uvuv达到最大。令1 211 a1 222 b1 211a1 222b1 1 2111左乘2122左乘The canonical correlation analysis-CCA第11页/共51页2021-11-1712 根据数学分析中条件极值的求法,引入LagrangeLagrange乘数,求极值问题,则可以转化为求11(,)(1)(1)(1)22a b112111111221a ba ab b 的极大值,其中 和 是 LagrangeLagrange乘数。The canonical co
11、rrelation analysis-CCA不含1不含1第12页/共51页2021-11-1713110(2)0a121111211221 b - a a - b(3)121111211221 b - a = 0 a - b = 0将上面的3 3式分别左乘 和 1a1b 1121111112111221a b -a a = 0b a - b b = 0The canonical correlation analysis-CCA( )1Var u11a a注意到( )1Var v22b b 11211211a bb a第13页/共51页2021-11-171411( , )u v 1121a b
12、将 左乘(3 3)的第二式,得-11222 0-1-112222111222221 a - b0-11222211121 a - b 并将第一式代入,得0-121222211111 a - a0-1-121112222111 a - a 的特征根是 ,相应的特征向量为211221211121(3)121111211221 b - a = 0 a - b = 0等于单位阵特征根定义The canonical correlation analysis-CCA第14页/共51页2021-11-1715将 左乘(3 3)的第一式,并将第二式代入,得111120-12111211121 b - a0-1
13、22111121221 b - b10-1-12222111121 b - b 的特征根是 ,相应的特征向量为211111212221回顾特征根定义12111211222112212111BA令mBmll22AThe canonical correlation analysis-CCA第15页/共51页2021-11-1716 结论: 既是A A又是B B的特征根, 和 是相应于A A和B B的特征向量。211 至此,典型相关分析转化为求A A和B B特征根和特征向量的问题。 第一对典型变量提取了原始变量X X与Y Y之间相关的主要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求
14、出第二对典型变量和他们的典型相关系数。The canonical correlation analysis-CCA第16页/共51页2021-11-1717 在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:2u2a x22v = b y在约束条件: 2()1Var u2112a a2()1Var v2222b b12cov( ,)cov()0u u121112a x,a xa a12cov( ,)cov()0v v121112b y,b yb b 求使 达到最大的 和 。22cov(,)u v2122a b2a2b独立性The canonical correlati
15、on analysis-CCA第17页/共51页2021-11-1718例:家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xx分析两组变量之间的关系。The canonical correlation analysis-CCA第18页/共51页2021-11-1719X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.
16、371.000.35y30.340.340.210.351.00变量间的相关系数矩阵The canonical correlation analysis-CCA第19页/共51页2021-11-1720典型相关分析典型相关系数调整典型相关系数近似方差典型相关系数的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919The canonical correlation analysis-CCA第20页/共51页2021-11-1721X X组典型变量的系数U1U2X1( (就餐)0.7689-1.4787X2(电影
17、)0.27211.6443Y Y组典型变量的系数V1V2Y1(年龄)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.29562112721. 07689. 0 xxu2126443. 14787. 1xxu32111900. 08975. 00491. 0yyyv32122956. 05837. 00003. 1yyyv第21页/共51页2021-11-1722典型变量的性质1 1、同一组的典型变量之间互不相关 kuka xkvk= b yikrik;, 2 , 1,cov(,)cov()0kiiu ukik k11a x,a xa aX组的典型变量之
18、间是相互独立的:cov(, )cov(0kiv vkik11ib y,b y) = b b =Y组的典型变量之间是相互独立的:因为特征向量之间是正交的。故注意正交与独立的关系The canonical correlation analysis-CCA第22页/共51页2021-11-17232 2、不同组的典型变量之间相关性 不同组内一对典型变量之间的相关系数为:cov( ,)cov()iju vija x,b ycov()jii12jax,y ba b-1/2-1/2i111222j ,0,iijij),min(, 2 , 121ppi同对则协方差为 i ,不同对则为零。The canoni
19、cal correlation analysis-CCA第23页/共51页2021-11-1724小结 1、典型相关分析关注并解决原始数据中两组变量之间的相关关系问题; 2、典型相关分析最终转化为求A和B的特征根和特征向量问题。 3、第一对典型变量,第二对典型变量; 4、注意构造各”对”典型变量的约束条件; 5、注意典型变量的两个性质。12111211222112212111BAmBmll22AThe canonical correlation analysis-CCA第24页/共51页2021-11-172510.4、样本典型相关系数和典型变量 在实际应用中,总体的协方差矩阵 常常是未知的,
20、类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵R进行估计,然后利用估计得到的协方差或相关系数矩阵再进行典型相关分析。 由于估计中抽样误差的存在,所以估计以后还需要进行有关的假设检验。The canonical correlation analysis-CCA第25页/共51页2021-11-1726 假设有X组和Y组变量,样本容量为n。假设( X1, Y1), ( X2, Y2), ( Xn, Yn),观测值矩阵为:nqnnpnqpqpqpqpyyxxyyxxyyxxyyxxyyxx11441441331231221221111111XThe cano
21、nical correlation analysis-CCA第26页/共51页2021-11-1727 的最大似然估计是 用 代替 并按以上方法计算 和 , 称 为样本典型相关系数,称 为样本的典型变量。 可以证明 分别是总体典型相关系数和典型相关系 数向量的最大似然估计。 m1i(i)()(Xn1X,)(n1其中XXXXiii)(il)(imi),.2 , 1(,1)2()()1()(piXmVXlUiiiii)(il)(imThe canonical correlation analysis-CCA第27页/共51页2021-11-1728 计算时也可以从样本的相关矩阵出发求样本的典型相关
22、系数和典型变量,将相关矩阵剖分为:)(rRRRRRij22211211pjisssrjjiiijij,.,2 , 1,其中:ppsssS.00.0.00.022111111111.00.0.00.02, 21, 12ppppppsssSThe canonical correlation analysis-CCA第28页/共51页2021-11-1729 则有将 带入(7)-(8)式可得:则 分别为矩阵 与 的相应于特征根 的特征向量。从而得到第i对样本的典型变量:及典型相关系数;SRSSRS,SRS2121122222221111110)(0)(S-RRR(R)(221211121122)(1
23、221-12212-111iimSRRRRl122211,)(2)(1,iimSlS2112212111RRRR1211112111RRRR2i)2()()1()(,XmVXlUiiiiiThe canonical correlation analysis-CCA第29页/共51页2021-11-173010.5、典型相关系数的显著性检验典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有误,需要进行检验。(一)整体检验)0:; 0XXCov:(12112210HH),()()(的特征根是其中211
24、22121112i12222210RRRRA)1 ()1).(1)(1 (11piip检验的统计量:Wilkes分布The canonical correlation analysis-CCA第30页/共51页2021-11-1731 按大小次序排列为 当n1时,在 成立下 近似服从 分布 这里 , 因此在给定检验水平 之下,若由样本算出的 临界值,则否定 (不相关被否定,即相关); 即第一对典型变量 具有相关性,其相关系数为 ,即至少可以认为第一个典型相关系数 为显著的。10.5、典型相关系数的显著性检验0.222211p0H200lnmQ) 1(211,2121ppnmppf0H20Q11
25、11V,UThe canonical correlation analysis-CCA第31页/共51页2021-11-173210.5、典型相关系数的显著性检验 第二步:将 除去,再检验其余 个典型相关系数的显著性,这时计算 则统计量 近似服从 个自由度的 分布, 若 ,则认为 被否定,即第二对典型变量 相关。的特征根是其中)(21122121112i22223221RRRRA)1 ()1).(1 (111piip111p1211ln)1(212ppnQ) 1)(1(21pp221Q0H22V,UThe canonical correlation analysis-CCA第32页/共51页2
26、021-11-173310.5、典型相关系数的显著性检验 第三步:以下逐个检验,直到某一个相关系数 检验为不显著为止。这时我们就找到反映两组变量相互关系的k-1对典型变量。 一般,检验第r个(rk)典型相关系数的显著性时,作统计量 它近似服从 个自由度的 分布。 其中 1211ln)1(21rrpprnQ) 1)(1(21rprp2的特征根是其中)(21122121112i222121RRRRA)1 ()1).(1 (111priiprrrThe canonical correlation analysis-CCA第33页/共51页2021-11-1734 注意: 1 1)对两组变量x x和y
27、 y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。 2 2)H H0 0经检验被拒绝,则应进一步作检验。 The canonical correlation analysis-CCA第34页/共51页2021-11-1735 若原假设H H0 0被接受,则认为只有第二对典型变量是有用的;若原假设H H0 0被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设。 (二)部分总体典型相关系数为零的检验The canonical correlation analysis-CCA.r,32i ,H0.H2i1r3
28、20,不等于零中至少:.r43i ,H0.H3i1r430,不等于零中至少:第35页/共51页2021-11-1736如此进行下去.直至对某个k,有The canonical correlation analysis-CCA中至少一个不为零:r2k1k1r2k1k0,.,H0.H第36页/共51页2021-11-1737检验的统计量2111(3)ln2kiki kQnkpq 近似服从自由度为(p-k)(q-k)(p-k)(q-k)的 2 2分布。在给定的显著性水平 下,如果 2 22 2 (p-k)(q-k)(p-k)(q-k),则拒绝原假设,认为至少第k+1k+1对典型变量之间的相关性显著。
29、The canonical correlation analysis-CCAWilkes分布与 2分布rkii121k)1 (第37页/共51页2021-11-173810.6、计算步骤及实例计算步骤:第一步 计算相关系数阵R,并将R剖分为第二步 求典型相关系数及典型变量;首先求则 典型变量:The canonical correlation analysis-CCA22211211RRRRR,RRRRA2i2212212111的特征根;S)(1il特征向量,RRRRB2i1211121122的特征根;S)(2im特征向量)(),()(212)()(111)(iiiimSSmlSSl)2()(
30、p1()()2()2(2)1()2(2)2()1(1)1()1(11111V.,XmXlUXmVXlUXmVXlUppp,)第38页/共51页2021-11-173910.6、计算步骤及实例第三步 典型相关系数的显著性检验。 2 法)0:; 0XXCov:(12112210HH),()()(第39页/共51页2021-11-1740典型相关分析的逻辑框图确定典型相关分析的目的设计典型相关分析检验典型相关分析的基本假设典型函数的估计和识别解释典型函数和变量验证模型The canonical correlation analysis-CCA第40页/共51页2021-11-174110.6 计算实
31、例 例1 对某高中一年级男生38人进行体力测试(共7项指标)及运动能力测试(共五项指标),试对两组指标作典型相关分析。 体力测试指标:X1=反复横向跳(次);X2=纵跳(cm);X3=背力(kg);X4=握力(kg);X5=台阶试验(指数);X6=立定体前屈(cm);X7=俯卧上体后仰(cm); 运动能力测试指标:X8=50米跑(秒);X9=跳远(cm);X10=铅球(m);X11=引体向上(次);X12=耐力跑(秒) 原始数据(略):P226第41页/共51页2021-11-1742第一步,计算相关矩阵 :1212ijrR)(X1X2X3X4X5X6X7X8X9X10X11X12X11.00
32、0.300.16-0.020.240.07-0.160.400.360.410.28-0.47X21.000.380.01-0.100.450.25-0.300.640.500.56-0.24X31.000.31-0.240.19-0.01-0.300.550.550.32-0.48X41.00-0.030.050.20-0.280.37-0.040.24-0.09X51.000.050.32-0.43-0.18-0.010.14-0.01X61.000.28-0.080.260.330.23-0.28X71.00-0.250.150.030.080.19X81.00-0.44-0.26-0.
33、460.07X91.000.490.60-0.46X101.000.35-0.52X111.00-0.42X121.00第42页/共51页2021-11-1743第二步 求 的特征值和相应的特征向量,从而得出典型相关系数和典型变量1211121122RRRRB序序号号典型相关典型相关 系数系数 典型变量典型变量 1 2 3 4 58514. 017284. 026109. 033932. 043246. 051211109817654325113560. 00037. 03696. 02334. 04266. 00138. 00911. 02216. 00614. 05883. 02668.
34、0X4421. 0UXXXXXVXXXXXX121110982765432128101. 02219. 01983. 00403. 182554. 023987. 01748. 07262. 00147. 02 .21. 07021. 0X2087. 0UXXXXXVXXXXXX121110983765432135373. 08850. 02896. 02531. 03704. 0171844353. 07237. 05662. 04638. 09015. 0X4640. 0UXXXXXVXXXXXX121110984765432141858. 09934. 03749. 07669. 065
35、37. 00335. 14725. 04627. 01537. 01331. 055682. 0X55135. 0UXXXXXVXXXXXX121110985765432157480. 00904. 00850. 14791. 01413. 05283. 01839. 03015. 09126. 03773. 01814. 0X2294. 0UXXXXXVXXXXXX第43页/共51页2021-11-1744第三步 典型相关系数的显著性检验 检验 :为此计算611. 0)1)(1)(1)(1)(1 (5524232221017937. 2ln02084.85ln)1(2110210ppnQ分布表得个自由度的查2213557 pp01. 09 .5005. 08 .432,为高度显著故第一个典型相关系数显然120),35(Q结论:第一对典型变量是有价值的第44页/共51页2021-11-174522225. 0)1)(1)(1)(1 (5524232215027. 1ln03307.44ln)1(2111211ppnQ分布表得个自由度的查2212446) 1() 1(pp01. 00 .4305. 04 .362,为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 用人单位与劳务派遣公司合同大全
- 汽车消费贷款合同细则
- 度战略合作保密合同书
- 设备采购安装合同范文
- 三人投资合作协议合同
- 股权融资合同财务顾问条款
- 承发包合同安全责任协议范本
- 冷冻海产品进出口合同范本
- 基础设施建设钢筋供应合同新
- 度广告代理合同
- 高精度卫星定位授时系统
- 第1课+古代亚非【中职专用】《世界历史》(高教版2023基础模块)
- 班组长薪酬体系设计方案
- 关于社会保险经办机构内部控制讲解
- 人教版八年级数学下册《第十六章二次根式》专题复习附带答案
- 2024届武汉武昌区五校联考数学九年级第一学期期末经典试题含解析
- 高考复习概率中的递推数列问题课件
- 生物工程设备课件
- 诈骗控告书模板
- 国内公务接待清单
- 《调整心态迎接中考》主题班会
评论
0/150
提交评论