版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八讲典型相关分析第八讲典型相关分析典型相关分析(Canonical correlation)典型相关分析(Canonical correlation)是研究两组变量之间相关关系的一种多元统计方法,它能够揭示出两组变量之间的内在联系。这一方法是由Hotelling(霍特林,1935)首先提出来的。典型相关分析(Canonical correlation)典两组变量的相关问题我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公式就可以解决的问题(Pearson相关系数、 Kendalls t、 Spearman 秩相关系数)。如果我们有两组变量,如何表明它们之间的关系呢?两组变量的相关问
2、题我们知道如何衡量两个变量之间是否相关的问题典型相关分析(Canonical correlation)在实际问题中,经常遇到要研究一部分变量与另一部分变量之间的相互关系。例如:在工厂,考察原料的主要指标 与产品的主要指标 ;在经济学中,研究商品的价格与销售之间的关系;在教育学中,考察研究生入学考试成绩与本科阶段一些主要课程成绩的相关性,等等。典型相关分析(Canonical correlation)在典型相关分析(Canonical correlation)典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。
3、典型相关分析(Canonical correlation)典一、典型相关分析的基本思想典型相关分析的基本思想和主成分分析非常相似。首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去,直到两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量(canonical variable),它们的相关系数称为典型相关系数(canonical coefficient)。典型系数度量了这两组变量之间联系的强度。一、典型相关分析的基本思想典型相关分析的基本思想和主成分分析例.
4、1例如:业内人士和观众对于一些电视节目的观点有什么样的关系呢?数据是不同的人群对30个电视节目所作的平均评分。观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成第一组变量;而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。人们对这样两组变量之间的关系感到兴趣。例.1例如:业内人士和观众对于一些电视节目的观点有什么样的关典型相关分析(八)课件第一组变量:观众第二组变量:业内人士低学历高学历网络主管发行人艺术家典型相关第一组第二组低高网主发艺典型相关如何进行典型相关如果直接对这六个变量的相关进行两
5、两分析,很难得到关于这两组变量之间关系的一个清楚的印象。希望能够把多个变量与多个变量之间的相关化为两个变量之间的相关。现在的问题是为每一组变量选取一个综合变量作为代表;而一组变量最简单的综合形式就是该组变量的线性组合。如何进行典型相关如果直接对这六个变量的相关进行两两分析,很难如何进行典型相关由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此必须找到既有意义又可以确定的线性组合。典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组合的系数,使得这两个由线性组合生成的变量(和其他线性组合相比)之间的相关系数最大。如何进行典型相关由
6、于一组变量可以有无数种线性组合(线性组合由XV1V2|VdYW1W2|Wdx1x2xiy1y2yjcr1cr2crdd=min(i, j)(V=a0+a1x1+aixi)(W=b0+b1y1+bjyj)XYx1x2xiy1y2yjcr1cr2crdd=min(i典型相关分析(八)课件二、典型相关分析的原理及方法二、典型相关分析的原理及方法二、典型相关分析的原理及方法二、典型相关分析的原理及方法典型相关分析(八)课件典型相关分析(八)课件典型相关分析(八)课件典型相关分析(八)课件典型相关分析(八)课件三、样本的典型相关分析(一)样本典型相关系数的计算在实际分析应用中,总体的协方差矩阵通常是未知
7、的,往往需要从研究的总体中随机抽取一个样本,根据样本估计出总体的协差阵,并在此基础上进行典型相关分析。三、样本的典型相关分析(一)样本典型相关系数的计算三、样本的典型相关分析三、样本的典型相关分析三、样本的典型相关分析三、样本的典型相关分析三、样本的典型相关分析三、样本的典型相关分析建立第一对典型变量(函数)的原则尽量使所建的两个典型变量之间的相关系数最大化,就是在两个变量组各自的总变化中先寻求他们之间最大的一部分共变关系,并用一对典型变量所描述。因而,第一维度上的典型相关系数也随之求的。建立第一对典型变量(函数)的原则尽量使所建的两个典型变量之间建立第二对典型变量(函数)的原则继续在两组变量
8、剩余的变化中寻找第二个最大的共变部分,形成第二对典型变量,并解出第二维度上的典型相关系数。依此类推,直至所有变化部分被剥离完毕。建立第二对典型变量(函数)的原则继续在两组变量剩余的变化中寻典型相关系数这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题。而所得的特征值与V和W的典型相关系数有直接联系。由于特征值问题的特点,实际上找到的是多组典型变量(V1, W1), (V2, W2),,其中V1和W1最相关,而V2和W2次之等等,而且V1, V2, V3,之间及W1, W2, W3,之间互不相关。这样又出现了选择多少组典型变量(V, W)的问题了。实际上,只要选择特征值累积总贡献占主要部分
9、的那些即可。典型相关系数这里所涉及的主要的数学工具还是矩阵的特征值和特征注意严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。注意严格地说,一个典型相关系数描述的只是一对典型变量之间的相四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验四、典型相关系数的显著性检验五、典型相关分析应
10、用中的几个问题(一)典型相关模型的基本假设和数据要求要求两组变量之间为线性关系,即每对典型变量之间为线性关系;每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关系,可先取对数。即log经济水平,log收入水平。五、典型相关分析应用中的几个问题(一)典型相关模型的基本假设五、典型相关分析应用中的几个问题(二)从相关矩阵出发计算典型相关典型相关分析涉及多个变量,不同变量往往具有不同的量纲及不同的数量级别。因此,为了消除量纲和数量级别的影响,必须对数据进行标准化处理,然后再进行典型相关分析。五、典型相关分析应用中的
11、几个问题(二)从相关矩阵出发计算典型五、典型相关分析应用中的几个问题经过标准变换后的协差阵就是相关系数矩阵,因而,也通常应从相关矩阵出发进行典型相关分析。其结果同从协差阵出发得到的特征值相同,因此检验结果也相同。提取第一典型变量,按照类似方法可求得典型变量系数向量,即可得到标准化的第一对典型变量。五、典型相关分析应用中的几个问题经过标准变换后的协差阵就是相五、典型相关分析应用中的几个问题(三)典型载荷分析进行典型载荷分析有助于更好解释分析已提取的对典型变量。所谓的典型载荷分析是指原始变量与典型变量之间相关性分析。五、典型相关分析应用中的几个问题(三)典型载荷分析五、典型相关分析应用中的几个问题
12、(四)典型冗余分析在进行样本典型相关分析时,我们也想了解每组变量提取出的典型变量所能解释的该组样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小。五、典型相关分析应用中的几个问题(四)典型冗余分析六、典型相关分析实例 下面就例1数据进行典型相关分析的说明头两对典型变量(V, W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。 六、典型相关分析实例 下面就例1数据进行典型相关分析的说明头典型相关系数的平方与简单相关系数一样,典型相关系数的实际意义并不十分明确。所以,由经验的研究人员往往更愿意采用典型相关系数的平方(相当于回归分析中的确定系数)。由于相
13、关涉及的两个典型变量都是标准化的,所以双方的方差都等于1 。典型相关系数的平方的实际意义是一对典型变量之间的共享方差在两个典型变量各自方差中的比例。典型相关系数的平方与简单相关系数一样,典型相关系数的实际意义典型相关系数的检验整体检验:典型相关系数的检验整体检验:典型相关系数的检验维度递减检验:仍然是一种多元检验,但可以提供每对典型变量的典型相关是否显著的信息。Dimension Reduction AnalysisRootsWilks L.F HypothDFError DFSig. of F1 to 32 to 33 to 30.000500.054710.59382141.58046 4
14、0.94049 17.78432 9.00 4.00 1.00 58.56 50.00 26.00 0.000 0.000 0.000典型相关系数的检验维度递减检验:仍然是一种多元检验,但可以提典型系数下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1、V2和V3的系数,即典型系数(canonical coefficient)。这些系数以两种方式给出;一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变
15、量的构成给人以更加清楚的印象。典型系数下面表格给出的是第一组变量相应于上面三个特征根的三个典型相关分析(八)课件典型系数可以看出,头一个典型变量V1相应于前面第一个(也是最重要的)特征值,主要代表高学历变量hed;而相应于前面第二个(次要的)特征值的第二个典型变量V2主要代表低学历变量led和部分的网民变量net,但高学历变量在这里起负面作用。 典型系数可以看出,头一个典型变量V1相应于前面第一个(也是最典型系数类似地,也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数: 典型系数类似地,也可以得到被称为协变量(covari
16、ate)典型负载(相关)系数也称为因变量或协变量与典型变量之间的两两相关系数。典型负载(相关)系数也称为因变量或协变量与典型变量之间的两两典型相关分析(八)课件例子结论从这两个表中可以看出,V1主要和变量hed相关,而V2主要和led及net相关;W1主要和变量arti及man相关,而W2主要和com相关;这和它们的典型系数是一致的。由于V1和W1最相关,这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关;而由于V2和W2也相关,这说明V2所代表的低学历(led)及以年轻人为主的网民(net)观众和W2所主要代表的看重经济效益的发行人(com)观点相
17、关,但远远不如V1和W1的相关那么显著(根据特征值的贡献率)。 例子结论从这两个表中可以看出,V1主要和变量hed相关,而V相关分析的冗余分析主要说明典型变量对各组观测变量总方差的代表比例和解释比例。Variance in dependent variables explained by canonical variablesCAN.VARPct Var DECum Pct DEPct Var COCum Pct CO12341.45547.75310.79241.45589.208100.0041.07843.3534.38441.07884.43188.814相关分析的冗余分析主要说明典型
18、变量对各组观测变量总方差的代表相关分析的冗余分析其中:DE因变量组 CO协变量组Variance in covariates variables explained by canonical variablesCAN.VARPct Var DECum Pct DEPct Var COCum Pct CO12371.69122.310 1.24971.69194.00195.25172.34924.575 3.07672.34996.924 100.00相关分析的冗余分析其中:DE因变量组Variance i相关分析的冗余分析解释比例=代表比例典型相关系数的平方对于因变量则有: Var CO=V
19、ar DESq.Cor 41.078=41.4550.991所以典型相关系数高时,并不说明典型变量对观测组变量的解释程度高,代表程度高。相关分析的冗余分析解释比例=代表比例典型相关系数的平方相关分析的冗余分析通过不同观察变量组的代表比例和解释比例相乘,可以得到因变量组总方差与协变量组总方差的共享比例。即:因变量组的Var DE协变量组的Var DE或:因变量组的Var CO协变量组的Var CO 两个变量组的共享方差相关分析的冗余分析通过不同观察变量组的代表比例和解释比例相乘相关分析的冗余分析第一典型相关的共享方差为:0.410780.72349=0.29720=29.720%第二典型相关的共
20、享方差为:0.433530.24575=0.10354=10.654%第三典型相关的共享方差为:0.043840.03076=0.00135=0.135%相关分析的冗余分析第一典型相关的共享方差为:例2 康复训练 例2 康复训练 经计算得 经计算得 典型相关分析(八)课件典型相关分析(八)课件典型相关分析(八)课件以上结果说明生理指标的第一典型变量与体重的相关系数为-0.621,与腰围的相关系数为-0.925,与脉搏的相关系数为0.333。从另一方面说明生理指标的第一对典型变量与体重、腰围呈负相关,而与脉搏成正相关。其中与腰围的相关性最强。第一典型变量主要反映了体型的胖瘦。以上结果说明生理指标
21、的第一典型变量与体重的相关系数为-0.6典型相关分析(八)课件例3(科技经费投入.sav )我国科技市场产出情况与R&D经费支出变量的典型相关分析 “科学技术是第一生产力”,近几年来,我国在科研方面的投入不断增加,国家的研究与试验发展(R&D)经费内部支出到2001年已达到8956.6亿元。那么,科技市场的产出情况是否与经费投入密切相关?各种类型的经费投入对科技市场的发展具体有怎样的影响?通过对R&D各种项目的支出变量与科技市场在某些方面的产出变量做典型相关分析,找出两者之间的联系。 例3(科技经费投入.sav )我国科技市场产出情况与R&D经数据说明 R&D经费投入变量包括三个:基础研究的R
22、&D经费支出、应用研究的R&D经费支出和试验发展的R&D经费支出(协变量)。科技市场产出变量也选择了三个,分别为:新产品产值、专利授予量和科技市场成交额(因变量)。资料来源于2002年统计年鉴。 数据说明 R&D经费投入变量包括三个:基础研究的R&D经费支使用SPSS进行典型相关分析 使用MANOVA进行典型相关分析。程序命令如下(syntax-manova12.2):MANOVA xch zhl chj WITH jch yy shy/DISCRIM ALL ALPHA(1)/PRINT=SIG(EIGEN DIM).使用SPSS进行典型相关分析 使用MANOVA进行典型相关分主要结果的解释
23、 Test Name Value Approx. F Hypoth. DF Error DF Sig. of FPillais 1.86281 11.46653 9.00 63.00 .000Hotellings 13.36726 26.23943 9.00 53.00 .000Wilks .01533 23.53353 9.00 46.39 .000Roys .88531Multivariate Tests of Significance (S = 3, M = -1/2, N = 8 1/2)主要结果的解释 Test Name Value App主要结果的解释Eigenvalues and
24、 Canonical Correlations Root No. Eigenvalue Pct. Cum. Pct. Canon Cor. Sq. Cor 1 7.719 57.746 57.746 .941 .885 2 5.497 41.122 98.868 .920 .846 3 .151 1.132 100.000 .363 .131 主要结果的解释Eigenvalues and Canonic维度递减检验Dimension Reduction AnalysisRootsWilks L.F HypothDFError DFSig. of F1 to 32 to 33 to 30.015
25、330.133690.86858 23.53353 17.34940 3.17735 9.00 4.00 1.00 46.39 40.00 21.00 0.000 0.000 0.089维度递减检验Dimension Reduction AnStandardized canonical coefficients for DEPENDENT variables 可以得到典型变量V 1、V 2和V 3对于标准化的变量xch,zhl,chj的表示式。由前所示,前两对典型变量的累积百分比已达到98.868%,所以我们主要看V 1和V 2的表达式: V 1=0.003xch+0.593zhl+0.566
26、chj V 2=0.261xch0.834zhl-0.948chj Function No. Variable 1 2 3 XCH .003 .261 1.067 ZHL .593 .834 -.709 CHJ .566 -.948 .316 Standardized canonical coefficCorrelations between DEPENDENT and canonical variables 从典型变量与科技投入变量组的相关系数也能看出,V 1主要代表专利授予量和科技市场成交量指标。 Function No. Variable 1 2 3 XCH .325 .468 .822
27、 ZHL .870 .479 -.119 CHJ .855 -.505 .121 Correlations between DEPENDENTStandardized canonical coefficients for COVARIATES variables典型变量W 1 、W 2和W 3对科技投入组各变量的关系式见结果(5)。W 1 0.370jch-0.350yy+1.006shy W 2 0.334jch-1.092yy+1.034shy Function No. Variable 1 2 3 JCH .370 -.334 -3.993 YY -.350 -1.092 4.241 SHY 1.006 1.034 -.358 Standardize
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版高科技产品出口许可与合同履行协议3篇
- 二零二五版国际贸易合同担保法风险管理合同3篇
- 碎石加工设备2025年度保险合同2篇
- 二零二五版企业员工劳务派遣与员工福利保障合同3篇
- 二零二五年度粮食储备与农业产业化合作合同3篇
- 二零二五年度高层综合楼公共收益分配管理合同3篇
- 二零二五年度校车运营服务与儿童座椅安全检测合同3篇
- 二零二五版带储藏室装修包售二手房合同范本3篇
- 二零二五年房地产合作开发与股权让渡综合合同2篇
- 二零二五年度花木种植与生态农业园区建设合同3篇
- 飞行原理(第二版) 课件 第4章 飞机的平衡、稳定性和操纵性
- 暨南大学珠海校区财务办招考财务工作人员易考易错模拟试题(共500题)试卷后附参考答案
- 羊水少治疗护理查房
- 中华人民共和国保守国家秘密法实施条例培训课件
- 管道坡口技术培训
- OQC培训资料教学课件
- 2024年8月CCAA国家注册审核员OHSMS职业健康安全管理体系基础知识考试题目含解析
- 体育赛事组织与实施操作手册
- 2024年浙江省公务员考试结构化面试真题试题试卷答案解析
- 2023年航空公司招聘:机场安检员基础知识试题(附答案)
- 皮肤储存新技术及临床应用
评论
0/150
提交评论