多元统计分析_第1页
多元统计分析_第2页
多元统计分析_第3页
多元统计分析_第4页
多元统计分析_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、典型相关分析 第七讲 典型相关分析典型相关分析 典型相关分析典型相关分析(canonical correlation) 典型相关分析(典型相关分析(canonical correlation) 是研究两组变量之间相关关系的一种多是研究两组变量之间相关关系的一种多 元统计方法,它能够揭示出两组变量之元统计方法,它能够揭示出两组变量之 间的内在联系。间的内在联系。 这一方法是由这一方法是由hotelling(霍特林,(霍特林,1935) 首先提出来的。首先提出来的。 两组变量的相关问题两组变量的相关问题 我们知道如何衡量两个变量之间是我们知道如何衡量两个变量之间是 否相关的问题;这是一个简单的公否

2、相关的问题;这是一个简单的公 式就可以解决的问题(式就可以解决的问题(pearsonpearson相关相关 系数、系数、 kendalls tkendalls t、 spearman spearman 秩相关系数秩相关系数) )。 如果我们有两组变量,如何表明它如果我们有两组变量,如何表明它 们之间的关系呢?们之间的关系呢? 典型相关分析典型相关分析(canonical correlation) 在实际问题中,经常遇到要研究一部分变量与在实际问题中,经常遇到要研究一部分变量与 另一部分变量之间的相互关系。例如:在工厂,另一部分变量之间的相互关系。例如:在工厂, 考察原料的主要指标考察原料的主要

3、指标 与产品的主要指标与产品的主要指标 ;在经济学;在经济学 中,研究商品的价格与销售之间的关系;在教中,研究商品的价格与销售之间的关系;在教 育学中,考察研究生入学考试成绩与本科阶段育学中,考察研究生入学考试成绩与本科阶段 一些主要课程成绩的相关性,等等。一些主要课程成绩的相关性,等等。 ),( 21p xxx ),( 21q yyy 典型相关分析典型相关分析(canonical correlation) 典型相关分析的目的是识别并量化两组典型相关分析的目的是识别并量化两组 变量之间的联系,将两组变量相关关系变量之间的联系,将两组变量相关关系 的分析转化为一组变量的线性组合与另的分析转化为一

4、组变量的线性组合与另 一组变量线性组合之间的相关关系分析。一组变量线性组合之间的相关关系分析。 (一)典型相关分析的基本思想(一)典型相关分析的基本思想 典型相关分析的基本思想和主成分分析非常相似。典型相关分析的基本思想和主成分分析非常相似。 首先在每组变量中找出变量的线性组合,使得两组的线性组合之首先在每组变量中找出变量的线性组合,使得两组的线性组合之 间具有最大的相关系数。间具有最大的相关系数。 然后选取和最初挑选的这对线性组合不相关的线性组合,使其配然后选取和最初挑选的这对线性组合不相关的线性组合,使其配 对,并选取相关系数最大的一对,如此下去,直到两组变量之间对,并选取相关系数最大的一

5、对,如此下去,直到两组变量之间 的相关性被提取完毕为止。的相关性被提取完毕为止。 被选出的线性组合配对称为典型变量(被选出的线性组合配对称为典型变量(canonical variable),它),它 们的相关系数称为典型相关系数(们的相关系数称为典型相关系数(canonical coefficient)。典型)。典型 系数度量了这两组变量之间联系的强度。系数度量了这两组变量之间联系的强度。 例例.1.1 例如:业内人士和观众对于一些电视节目的观点例如:业内人士和观众对于一些电视节目的观点 有什么样的关系呢?有什么样的关系呢?数据是不同的人群对数据是不同的人群对3030个电个电 视节目所作的平均

6、评分。视节目所作的平均评分。 观众评分来自低学历观众评分来自低学历(led)(led)、高学历、高学历(hed(hed) )和网络和网络 (net)(net)调查三种,它们形成调查三种,它们形成第一组变量第一组变量; 而业内人士分评分来自包括演员和导演在内的艺而业内人士分评分来自包括演员和导演在内的艺 术家术家(arti(arti) )、发行、发行(com)(com)与业内各部门主管与业内各部门主管(man)(man) 三种,形成三种,形成第二组变量第二组变量。人们对这样两组变量之。人们对这样两组变量之 间的关系感到兴趣。间的关系感到兴趣。 第一组第一组 变量变量: : 观众观众 第二组第二组

7、 变量变量: : 业内业内 人士人士 低低 学学 历历 高高 学学 历历 网网 络络 主主 管管 发发 行行 人人 艺艺 术术 家家 典型相关典型相关 如何进行典型相关如何进行典型相关 如果直接对这六个变量的相关进行两两如果直接对这六个变量的相关进行两两 分析,很难得到关于这两组变量之间关分析,很难得到关于这两组变量之间关 系的一个清楚的印象。系的一个清楚的印象。 希望能够把多个变量与多个变量之间的希望能够把多个变量与多个变量之间的 相关化为相关化为两个两个变量之间的相关。变量之间的相关。 现在的问题是为每一组变量现在的问题是为每一组变量选取一个综选取一个综 合变量作为代表;合变量作为代表;

8、而一组变量最简单的综合形式就是该组而一组变量最简单的综合形式就是该组 变量的变量的线性组合线性组合。 如何进行典型相关如何进行典型相关 由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合 (线性组合由相应的系数确定),因此(线性组合由相应的系数确定),因此 必须找到必须找到既有意义又可以确定的线性组既有意义又可以确定的线性组 合。合。 典型相关分析典型相关分析(canonical correlation (canonical correlation analysis)analysis)就是要找到这两组变量线性组就是要找到这两组变量线性组 合的系数,使得这两个由线性组合生成合的系数

9、,使得这两个由线性组合生成 的变量(和其他线性组合相比)之间的的变量(和其他线性组合相比)之间的 相关系数最大。相关系数最大。 x v1 v2 | vd y w1 w2 | wd x1 x2 xi y1 y2 yj cr1 cr2 crd d=min(i, j) (v=a0+a1x1+aixi) (w=b0+b1y1+bjyj) (二)典型相关分析的原理及方法二)典型相关分析的原理及方法 (二)典型相关分析的原理及方法二)典型相关分析的原理及方法 建立第一对典型变量建立第一对典型变量(函数函数)的原则的原则 尽量使所建的两个典型变量之间的相关尽量使所建的两个典型变量之间的相关 系数最大化,就是

10、在两个变量组各自的系数最大化,就是在两个变量组各自的 总变化中先寻求他们之间最大的一部分总变化中先寻求他们之间最大的一部分 共变关系,并用一对典型变量所描述。共变关系,并用一对典型变量所描述。 因而,第一维度上的典型相关系数也随因而,第一维度上的典型相关系数也随 之求的。之求的。 建立第二对典型变量建立第二对典型变量(函数函数)的原则的原则 继续在两组变量剩余的变化中寻找第二继续在两组变量剩余的变化中寻找第二 个最大的共变部分,形成第二对典型变个最大的共变部分,形成第二对典型变 量,并解出第二维度上的典型相关系数。量,并解出第二维度上的典型相关系数。 依此类推,直至所有变化部分被剥离完依此类推

11、,直至所有变化部分被剥离完 毕。毕。 典型相关系数典型相关系数 这里所涉及的主要的数学工具还是矩阵的特这里所涉及的主要的数学工具还是矩阵的特 征值和特征向量问题。而所得的特征值与征值和特征向量问题。而所得的特征值与v和和 w的典型相关系数有直接联系。的典型相关系数有直接联系。 由于特征值问题的特点,实际上找到的是多由于特征值问题的特点,实际上找到的是多 组典型变量组典型变量(v1, w1), (v2, w2),,其中,其中v1和和w1 最相关,而最相关,而v2和和w2次之等等,次之等等, 而且而且v1, v2, v3,之间及之间及w1, w2, w3,之间互之间互 不相关。这样又出现了选择多少

12、组典型变量不相关。这样又出现了选择多少组典型变量 (v, w)的问题了。实际上,只要选择特征值累的问题了。实际上,只要选择特征值累 积总贡献占主要部分的那些即可。积总贡献占主要部分的那些即可。 注意注意 严格地说,一个典型相关系数描述的只严格地说,一个典型相关系数描述的只 是一对典型变量之间的相关,而不是两是一对典型变量之间的相关,而不是两 个变量组之间的相关。个变量组之间的相关。 而各对典型变量之间构成的多维典型相而各对典型变量之间构成的多维典型相 关才共同揭示了两个观测变量组之间的关才共同揭示了两个观测变量组之间的 相关形式。相关形式。 典型相关模型的基本假设和数据要求典型相关模型的基本假

13、设和数据要求 要求两组变量之间为线性关系,即每对要求两组变量之间为线性关系,即每对 典型变量之间为线性关系;典型变量之间为线性关系; 每个典型变量与本组所有观测变量的关每个典型变量与本组所有观测变量的关 系也是线性关系。如果不是线性关系,系也是线性关系。如果不是线性关系, 可先线性化:如经济水平和收入水平与可先线性化:如经济水平和收入水平与 其他一些社会发展水之间并不是线性关其他一些社会发展水之间并不是线性关 系,可先取对数。系,可先取对数。 即即log经济水平,经济水平,log收入水平。收入水平。 典型相关模型的基本假设和数据要求典型相关模型的基本假设和数据要求 所有观测变量为定量数据。同时

14、也可将所有观测变量为定量数据。同时也可将 定性数据按照一定形式设为虚拟变量后,定性数据按照一定形式设为虚拟变量后, 再放入典型相关模型中进行分析。再放入典型相关模型中进行分析。 检验假设:检验假设: 0: 210 d crcrcrh 典型相关分析说明典型相关分析说明 下面就例下面就例1 1数据进行典型相关分析的说明数据进行典型相关分析的说明 头两对典型变量头两对典型变量(v, w)的累积特征根已经占了总的累积特征根已经占了总 量的量的99.427%99.427%。它们的典型相关系数也都在。它们的典型相关系数也都在0.950.95 之上。之上。 典型相关系数的平方典型相关系数的平方 与简单相关系

15、数一样,典型相关系数的实际意与简单相关系数一样,典型相关系数的实际意 义并不十分明确。义并不十分明确。 所以,由经验的研究人员往往更愿意采用典型所以,由经验的研究人员往往更愿意采用典型 相关系数的平方(相当于回归分析中的确定系相关系数的平方(相当于回归分析中的确定系 数)。数)。 由于相关涉及的两个典型变量都是标准化的,由于相关涉及的两个典型变量都是标准化的, 所以双方的方差都等于所以双方的方差都等于1 。典型相关系数的平。典型相关系数的平 方的实际意义是一对典型变量之间的共享方差方的实际意义是一对典型变量之间的共享方差 在两个典型变量各自方差中的比例。在两个典型变量各自方差中的比例。 典型相

16、关系数的检验典型相关系数的检验 整体检验:整体检验: 0: 210 d crcrcrh 典型相关系数的检验典型相关系数的检验 维度递减检验:仍然是一种多元检验,维度递减检验:仍然是一种多元检验, 但可以提供每对典型变量的典型相关是但可以提供每对典型变量的典型相关是 否显著的信息。否显著的信息。 dimension reduction analysis rootswilks l. f hypothdf error dfsig. of f 1 to 3 2 to 3 3 to 3 0.00050 0.05471 0.59382 141.58046 40.94049 17.78432 9.00 4.

17、00 1.00 58.56 50.00 26.00 0.000 0.000 0.000 典型系数典型系数 下面表格给出的是第一组变量相应于上面三个下面表格给出的是第一组变量相应于上面三个 特征根的三个典型变量特征根的三个典型变量v v1 1、v v2 2和和v v3 3的系数,即的系数,即 典型系数典型系数(canonical coefficient)(canonical coefficient)。 这些系数以两种方式给出;一种是没有标准化这些系数以两种方式给出;一种是没有标准化 的原始变量的线性组合的典型系数的原始变量的线性组合的典型系数(raw (raw canonical coeffic

18、ient)canonical coefficient),一种是,一种是标准化标准化之后之后 的典型系数的典型系数(standardized canonical (standardized canonical coefficient)coefficient)。标准化的典型系数直观上对典。标准化的典型系数直观上对典 型变量的构成给人以更加清楚的印象。型变量的构成给人以更加清楚的印象。 典型系数典型系数 可以看出,头一个典型变量可以看出,头一个典型变量v v1 1相应相应 于前面第一个(也是最重要的)特于前面第一个(也是最重要的)特 征值,主要代表征值,主要代表高学历变量高学历变量hedhed; 而

19、相应于前面第二个(次要的)特而相应于前面第二个(次要的)特 征值的第二个典型变量征值的第二个典型变量v v2 2主要代表主要代表 低学历变量低学历变量ledled和部分的网民变量和部分的网民变量 netnet,但高学历变量在这里起负面作,但高学历变量在这里起负面作 用。用。 典型系数典型系数 类似地,也可以得到被称为协变量类似地,也可以得到被称为协变量(covariate)(covariate) 的标准化的第二组变量的相应于头三个特征值的标准化的第二组变量的相应于头三个特征值 得三个典型变量得三个典型变量w w1 1、w w2 2和和w w2 2的系数:的系数: 典型负载(相关)系数典型负载(

20、相关)系数 也称为因变量或协变量与典型变量之间也称为因变量或协变量与典型变量之间 的两两相关系数。的两两相关系数。 例子结论例子结论 从这两个表中可以看出从这两个表中可以看出,v v1 1主要和变量主要和变量hedhed相关,相关,而而 v v2 2主要和主要和ledled及及netnet相关相关;w w1 1主要和变量主要和变量artiarti及及manman相相 关,关,而而w w2 2主要和主要和comcom相关;这和它们的典型系数是一相关;这和它们的典型系数是一 致的。致的。 由于由于v v1 1和和w w1 1最相关,这说明最相关,这说明v v1 1所代表的高学历观众所代表的高学历观

21、众 和和w w1 1所主要代表的艺术家所主要代表的艺术家(arti(arti) )及各部门经理及各部门经理(man)(man) 观点相关;观点相关;而由于而由于v v2 2和和w w2 2也相关,这说明也相关,这说明v v2 2所代表所代表 的低学历的低学历(led)(led)及以年轻人为主的网民及以年轻人为主的网民(net)(net)观众和观众和 w w2 2所主要代表的看重经济效益的发行人所主要代表的看重经济效益的发行人(com)(com)观点相观点相 关,关,但远远不如但远远不如v v1 1和和w w1 1的相关那么显著(根据特征的相关那么显著(根据特征 值的贡献率)。值的贡献率)。 相

22、关分析的冗余分析相关分析的冗余分析 主要说明典型变量对各组观测变量总方主要说明典型变量对各组观测变量总方 差的代表比例和解释比例。差的代表比例和解释比例。 variance in dependent variables explained by canonical variables can. var pct var de cum pct de pct var co cum pct co 1 2 3 41.455 47.753 10.792 41.455 89.208 100.00 41.078 43.353 4.384 41.078 84.431 88.814 相关分析的冗余分析相关分析的冗

23、余分析 其中:其中:de因变量组因变量组 co协变量组协变量组 variance in covariates variables explained by canonical variables can. var pct var de cum pct de pct var co cum pct co 1 2 3 71.691 22.310 1.249 71.691 94.001 95.251 72.349 24.575 3.076 72.349 96.924 100.00 相关分析的冗余分析相关分析的冗余分析 解释比例解释比例=代表比例代表比例典型相关系数的平方典型相关系数的平方 对于因变量则

24、有对于因变量则有: var co=var desq.cor 41.078=41.4550.991 所以典型相关系数高时,并不说明典型变所以典型相关系数高时,并不说明典型变 量对观测组变量的解释程度高,代表程度量对观测组变量的解释程度高,代表程度 高。高。 相关分析的冗余分析相关分析的冗余分析 通过不同观察变量组的代表比例和解释通过不同观察变量组的代表比例和解释 比例相乘,可以得到因变量组总方差与比例相乘,可以得到因变量组总方差与 协变量组总方差的共享比例。即:协变量组总方差的共享比例。即: 因变量组的因变量组的var de协变量组的协变量组的var de 或:因变量组的或:因变量组的var c

25、o协变量组的协变量组的 var co 两个变量组的共享方差两个变量组的共享方差 相关分析的冗余分析相关分析的冗余分析 第一典型相关的共享方差为:第一典型相关的共享方差为: 0.410780.72349=0.29720=29.720% 第二典型相关的共享方差为:第二典型相关的共享方差为: 0.433530.24575=0.10354=10.654% 第三典型相关的共享方差为:第三典型相关的共享方差为: 0.043840.03076=0.00135=0.135% 例例12.212.2(科技经费投入科技经费投入.sav.sav ) ) 我国科技市场产出情况与我国科技市场产出情况与r&dr&d经费支出

26、变量的经费支出变量的 典型相关分析典型相关分析 “科学技术是第一生产力科学技术是第一生产力”,近几年来,我国,近几年来,我国 在科研方面的投入不断增加,国家的研究与试在科研方面的投入不断增加,国家的研究与试 验发展(验发展(r&dr&d)经费内部支出到)经费内部支出到20012001年已达到年已达到 8956.68956.6亿元。那么,科技市场的产出情况是否亿元。那么,科技市场的产出情况是否 与经费投入密切相关?各种类型的经费投入对与经费投入密切相关?各种类型的经费投入对 科技市场的发展具体有怎样的影响?通过对科技市场的发展具体有怎样的影响?通过对 r&dr&d各种项目的支出变量与科技市场在某

27、些方各种项目的支出变量与科技市场在某些方 面的产出变量做典型相关分析,找出两者之间面的产出变量做典型相关分析,找出两者之间 的联系。的联系。 数据说明数据说明 r&dr&d经费投入变量包括三个:经费投入变量包括三个:基础研究的基础研究的 r&dr&d经费支出、应用研究的经费支出、应用研究的r&dr&d经费支出经费支出 和试验发展的和试验发展的r&dr&d经费支出经费支出(协变量)。(协变量)。 科技市场产出变量也选择了三个,分别科技市场产出变量也选择了三个,分别 为:为:新产品产值、专利授予量和科技市新产品产值、专利授予量和科技市 场成交额场成交额(因变量)。(因变量)。 资料来源于资料来源于

28、20022002年年统计年鉴统计年鉴。 使用使用spssspss进行典型相关分析进行典型相关分析 使用使用manovamanova进行典型相关分析。程序命进行典型相关分析。程序命 令如下(令如下(syntax-manova12.2syntax-manova12.2):): manova xch zhl chj with jch yy shy /discrim all alpha(1) /print=sig(eigen dim). 主要结果的解释主要结果的解释 test name value approx. f hypoth. df error df sig. of f pillais 1.86

29、281 11.46653 9.00 63.00 .000 hotellings 13.36726 26.23943 9.00 53.00 .000 wilks .01533 23.53353 9.00 46.39 .000 roys .88531 multivariate tests of significance (s = 3, m = -1/2, n = 8 1/2) 主要结果的解释主要结果的解释 eigenvalues and canonical correlations root no. eigenvalue pct. cum. pct. canon cor. sq. cor 1 7.

30、719 57.746 57.746 .941 .885 2 5.497 41.122 98.868 .920 .846 3 .151 1.132 100.000 .363 .131 维度递减检验维度递减检验 dimension reduction analysis rootswilks l. f hypothdf error dfsig. of f 1 to 3 2 to 3 3 to 3 0.01533 0.13369 0.86858 23.53353 17.34940 3.17735 9.00 4.00 1.00 46.39 40.00 21.00 0.000 0.000 0.089 st

31、andardized canonical coefficients for dependent variables 可以得到典型变量可以得到典型变量v v 1 1、 、v v 2 2和 和v v 3 3对于标准化的变量 对于标准化的变量 xchxch,zhlzhl,chjchj的表示式。由前所示,前两对典型变的表示式。由前所示,前两对典型变 量的累积百分比已达到量的累积百分比已达到98.868%,98.868%,所以我们主要看所以我们主要看v v 1 1和 和 v v 2 2的表达式: 的表达式: v v 1 1=0.003xch+0.593zhl+0.566chj =0.003xch+0.5

32、93zhl+0.566chj v v 2 2=0.261xch =0.261xch0.834zhl-0.948chj0.834zhl-0.948chj function no. variable 1 2 3 xch .003 .261 1.067 zhl .593 .834 -.709 chj .566 -.948 .316 correlations between dependent and canonical variables 从典型变量与科技投入变量组的相关系数也从典型变量与科技投入变量组的相关系数也 能看出,能看出,v v 1 1主要代表专利授予量和科技市场 主要代表专利授予量和科技

33、市场 成交量指标。成交量指标。 function no. variable 1 2 3 xch .325 .468 .822 zhl .870 .479 -.119 chj .855 -.505 .121 standardized canonical coefficients for covariates variables 典型变量典型变量w w 1 1 、 、w w 2 2和 和w w 3 3对科技投入组各变量的 对科技投入组各变量的 关系式见结果(关系式见结果(5 5)。)。 w w 1 1 0.370jch-0.350yy+1.006shy0.370jch-0.350yy+1.006shy w w 2 2 0.334jch-1.092yy+1.034s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论