




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.【关键词】典型相关分析,样本典型相关,性质,实际应用ABSTRACTTheCanonicalCorrelationAnalysisisanimportantstudyingtopicoftheMultivariateStatisticalAnalysis.Itisthestatisticalanalysismethodwhichstudiesthecorrelationbetweentwosetsofvariables.Itcanworktorevealthemutuallinedependencerelationavailablybetweentwosetsofvariables.WiththehelpofthethoughtaboutthePrincipalComponents,wecanuseafewcomprehensivevariablestoreflectthelinearrelationshipbetweentwosetsofvariables.NowadaysIthasalreadybeenusedwidelyinthecorrelationanalysisandforecastedanalysis.ThistextdescribesthestatisticalthoughtoftheCanonicalCorrelationAnalysisfirstly,andthendefinesthetotalcanonicalcorrelationvariablesandcanonicalcorrelationcoefficient,andsumuptheirsolutionmethodbriefly.AfteritIgodeepintodiscusssomealgorithmofthesamplecanonicalcorrelationanalysisthoroughly.AccordingtothereasoningoftheCanonicalCorrelationAnalysis,sumupsomeofitsimportantpropertiesandgivetheidentification,followingit,Iinferthesignificancetestingaboutthecanonicalcorrelationcoefficient.Accordingtotheanalysisfromthetheoriesandtheapplication,wecanachievethepossibilityandthesuperiorityfromcanonicalcorrelationanalysisinthereallife.【Keywords】CanonicalCorrelationAnalysis,Samplecanonicalcorrelation,Character,Practicalapplications目录前言 1第1章典型相关分析的数学描述 2第2章典型变量与典型相关系数 32.1总体典型相关 32.2样本典型相关 42.2.1第一对典型相关变量的解法 42.2.2典型相关变量的一般解法 92.2.3从相关矩阵出发计算典型相关 9第3章典型相关变量的性质 12第4章典型相关系数的显著性检验 16第5章典型相关分析的计算步骤及应用实例 195.1典型相关分析的计算步骤 195.2实例分析 20结语 27致谢 28参考文献 29附录 29前言典型相关分析(CanonicalCorrelationAnalysis,CCA)作为多元统计学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位.典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析.典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数.典型相关分析是由Hotelling于1936年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等.第1章典型相关分析的数学描述一般地,假设有一组变量与另一组变量,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述.当1时,就是我们常见的研究两个变量与之间的简单相关关系,其相关系数是最常见的度量,定义为:当(或)时,维随机向量,设,,其中,是第一组变量的协方差阵,是第一组与第二组变量的协方差阵,是第二组变量的协方差阵.则称为与的全相关系数,全相关系数用于度量一个随机变量与另一组随机变量的相关系数.当时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即其中,和为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量之间的相关问题,希望寻求,使,之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析.第2章典型变量与典型相关系数2.1总体典型相关设有两组随机变量,,分别为随机向量,根据典型相关分析的思想,我们用和的线性组合和之间的相关性来研究两组随机变量和之间的相关性.我们希望找到,使得最大.由相关系数的定义易得出对任意常数,均有这说明使得相关系数最大的并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定,于是,我们就有了下面的定义:设有两组随机变量,,维随机向量的均值向量为零,协方差阵(不妨设).如果存在和,使得在约束条件,下,则称是的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前对典型相关变量之后,第对典型相关变量定义为:如果存在和,使得⑴和前面的对典型相关变量都不相关;⑵,;⑶的相关系数最大,则称是的第对(组)典型相关变量,它们之间的相关系数称为第个典型相关系数().2.2样本典型相关以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量和协方差阵通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对进行估计.2.2.1第一对典型相关变量的解法设总体,已知总体的次观测数据为:(),于是样本数据阵为若假定则由参考文献【2】中定理2.5.1知协方差阵的最大似然估计为其中=,样本协方差矩阵为:式中,令,,则样本的相关系数为又因为:所以由于,乘以任意常数并不改变他们之间的相关系数,即不妨限定取标准化的与,即限定及的样本方差为1,故有:(2.2.1)则(2.2.2)于是我们要求的问题就是在(2.2.1)的约束条件下,求,,使得式(2.2.2)达到最大.这是条件极值的问题,由拉格朗日乘子法,此问题等价于求,,使(2.2.3)达到最大.式中,,为拉格朗日乘数因子.对上式分别关于,求偏导并令其为0,得方程组:(2.2.4)分别用,左乘方程(2.2.4)得又所以也就是说,正好等于线性组合与之间的相关系数,于是(2.2.4)式可写为:或(2.2.5)而式(2.2.5)有非零解的充要条件是:(2.2.6)该方程左端是的次多项式,因此有个根.求解的高次方程(2.2.6),把求得的最大的代回方程组(2.2.5),再求得和,从而得出第一对典型相关变量.具体计算时,因的高次方程(2.2.6)不易解,将其代入方程组(2.2.5)后还需求解阶方程组.为了计算上的方便,我们做如下变换:用左乘方程组(2.2.5)的第二式,则有-即=又由(2.2.5)的第一式,得代入上式:(2.2.7)再用左乘式(2.2.7),得(2.2.8)因此,对有个解,设为,对也有个解.类似地,用左乘式(2.2.5)中的第一式,则有(2.2.9)又由(2.2.5)中的第二式,得代入到(2.2.8)式,有再以左乘上式,得(2.2.10)因此对有个解,对也有个解,因此为的特征根,是对应于的特征向量.同时也是的特征根,为相应特征向量.而式(2.2.8)和(2.2.10)有非零解的充分必要条件为:(2.2.11)对于(2.2.11)式的第一式,由于,,所以,,故有:而与有相同的特征根.如果记则=类似的对式(2.2.11)的第二式,可得而与有相同的非零特征根,从而推出(2.2.8)和(2.2.10)的非零特征根是相同的.设已求得的个特征根依次为:则的个特征根中,除了上面的个外,其余的个都为零.故个特征根排列是,,因此,只要取最大的,代入方程组(2.2.5)即可求得相应的,.令=与为第一对典型相关变量,而为第一典型相关系数.可见求典型相关系数及典型相关变量的问题,就等价于求解的最大特征值及相应的特征向量.2.2.2典型相关变量的一般解法从样本典型相关变量的解法中,我们知道求典型相关变量和典型相关系数的问题,就是求解的最大特征值及相应的特征向量.不仅如此,求解第对典型相关变量和典型相关系数,类似的也是求的第大的特征值和相应的特征向量.下面引用参考文献【2】中定理10.1.1来得出样本典型相关的一般求法.设总体的次观测数据为:()不妨设,样本均值为0,协方差矩阵为:记,并设阶方阵的特征值依次为();而为相应的单位正交特征向量.令,则,为第对典型相关变量,为第典型相关系数.由上述分析不难看出,典型相关系数越大说明相应的典型变量之间的关系越密切,因此一般在实际中忽略典型相关系数很小的那些典型变量,按的大小只取前个典型变量及典型相关系数进行分析.2.2.3从相关矩阵出发计算典型相关以上我们从样本协方差阵出发,导出了样本典型相关变量和样本典型相关系数.下面我们从样本相关阵出发来求解样本典型相关变量和样本典型相关系数.设样本相关阵为,其中,为样本协方差阵的行列元素.把相应剖分为有时,的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再做典型相关.记,则,,,对的各分量作标准化变换,即令,现在来求和的典型相关变量,,.于是因为所以式中,有同理:式中,有,由此可见,为的第对典型系数,其第个典型相关系数为,在标准化变换下具有不变性.第3章典型相关变量的性质根据典型相关分析的统计思想及推导,我们归纳总结了典型相关变量的一些重要性质并对总体与样本分别给出证明.性质1同一组的典型变量互不相关ⅰ总体典型相关设的第对典型变量为,,则有证明详见参考文献【5】.ⅱ样本典型相关设的第对典型变量为,,因为,,,,表明由组成的第一组典型变量互不相关,且均有相同的方差1;同样,由组成的第二组典型变量也互不相关,且也有相同的方差1.性质2不同组的典型变量之间的相关性ⅰ总体典型相关证明详见参考文献【5】.ⅱ样本典型相关,表明不同组的任意两个典型变量,当时,相关系数为;当时是彼此不相关的.记,,则上述性质可用矩阵表示为或其中性质3原始变量与典型变量之间的关系求出典型变量后,进一步计算原始变量与典型变量之间的相关系数矩阵,也称为典型结构.下面我们分别对总体与样本进行讨论.ⅰ总体典型相关的原始变量与典型变量的相关性详见参考文献【2】.ⅱ样本典型相关记=则所以利用协方差进一步可以计算原始变量与典型变量之间的相关关系.若假定原始变量均为标准化变量,则通过以上计算所得到的原始变量与典型变量的协方差阵就是相关系数矩阵.,,性质4设分别为随机向量,令,,其中为阶非退化矩阵,为维常数向量,为阶非退化矩阵,维常数向量.则:ⅰ对于总体典型相关有:⑴的典型相关变量为和,其中,();而是的第对典型相关变量的系数.⑵,即线性变换不改变相关性.证明详见参考文献【2】.ⅱ对于样本典型相关有:⑴的典型相关变量为和,其中,();而是的第对典型相关变量的系数.⑵,即线性变换不改变相关性.证明:⑴设的典型相关变量分别为,由于,,所以即有是的第对典型相关变量的系数.⑵由⑴的证明可知由于与都是常数,所以即有线性变换不改变相关性.性质5简单相关、复相关和典型相关之间的关系当,之间的(惟一)典型相关就是它们之间的简单相关;当之间的(惟一)典型相关就是它们的复相关.复相关是典型相关的一个特例,而简单相关又是复相关的一个特例.从第一个典型相关的定义可以看出,第一个典型相关系数至少同的任一分量与的复相关系数一样大,即使所有这些复相关系数都很小,第一个典型相关系数仍可能很大;同样,从复相关的定义也可以看出,当(或)时,之间的复相关系数也不会小于的任一分量之间的相关系数,即使所有这些相关系数都很小,复相关系数仍可能很大.第4章典型相关系数的显著性检验设总体的两组变量,,且,在做两组变量,的典型相关分析之前,首先应该检验两组变量是否相关,如果不相关,则讨论两组变量的典型相关就毫无意义.考虑假设检验问题:::至少有一个不为零其中.若检验接受,则认为讨论两组变量之间的相关性没有意义;若检验拒绝,则认为第一对典型变量是显著的.上式实际上等价于假设检验问题:,:用似然比方法可导出检验的似然比统计量其中阶样本离差阵是的最大似然估计,且=,,分别是,的最大似然估计.该似然比统计量的精确分布已由霍特林(1936),Girshik(1939)和Anderson(1958)给出,但表达方式很复杂,又不易找到该分布的临界值表,下面我们采用的近似分布.利用矩阵行列式及其分块行列式的关系,可得出:=所以其中是的特征值(),按大小次序排列为,当时,在成立下近似服从分布,这里,,因此在给定检验水平之下,若由样本算出的临界值,则否定,也就是说第一对典型变量,具有相关性,其相关系数为,即至少可以认为第一个典型相关系数为显著的.将它除去之后,再检验其余个典型相关系数的显著性,这时用提出的大样本检验计算统计量:则统计量近似地服从()()个自由度的分布,如果,则认为显著,即第二对典型变量,相关,以下逐个进行检验,直到某一个相关系数检验为不显著时截止.这时我们就找出了反映两组变量相互关系的对典型变量.检验:当否定时,表明相关,进而可以得出至少第一个典型相关系数,相应的第一对典型相关变量可能已经提取了两组变量相关关系的绝大部分信息.两组变量余下的部分可认为不相关,这时,故在否定后,有必要再检验,即第个及以后的所有典型相关系数均为.为了减少计算量,下面我们采用二分法来减少检验次数,取检验统计量为它近似服从个自由度的分布.在检验水平下,若,则拒绝,即认为第对典型相关系数在显著性水平下是显著的,否则不显著.从第2个典型相关系数到第个典型相关系数,共个数,所以根据二分法的原理,将它们分为一个区间,然后先检验第个典型相关系数即中位数,当时,即认为第个典型相关系数不相关,否定原假设,接着检验;若当时,则检验.如此划分区间依次检验下去,由数学分析上的区间套定理,一定存在第个数,使得,而.以上的一系列检验实际上是一个序贯检验,检验直到对某个值未被拒绝为止.事实上,检验的总显著性水平已不是了,且难以确定.还有,检验的结果易受样本容量大小的影响.因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为惟一的依据.第5章典型相关分析的计算步骤及应用实例5.1典型相关分析的计算步骤设为取自正态总体的样本(实际上,相当广泛的情况下也对),每个样品测量两组指标,分别记为,,原始资料矩阵为:第一步计算相关矩阵,并将剖分为其中,分别为第一组变量和第二组变量之间的相关系数矩阵,为第一组与第二组变量之间的相关系数.第二步求典型相关系数及典型变量首先求的特征根,特征向量;的特征根,特征向量.,写出样本的典型变量为,,,第三步典型相关系数的显著性检验首先,检验第一对典型变量的相关系数,即:,:它的似然比统计量为则统计量给定显著性水平,查表得,若,则否定,认为第一对典型变量相关,否则不相关.如果相关则依次逐个检验其余典型相关系数,直到某一个相关系数检验为不显著时截止.5.2实例分析例1:某康复俱乐部对20名中年人测量了三个生理指标:体重、腰围()、脉搏()和三个训练指标:引体向上()、起坐次数()、跳跃次数().数据如附录1:解:记,,其中样本容量.附录1中的数据用SPSS统计软件计算得六个变量之间的相关矩阵如下: CorrelationsX1X2X3Y1Y2Y3X1PearsonCorrelation1.870(**)-.366-.390-.493(*)-.226Sig.(2-tailed)..000.113.089.027.337N2X2PearsonCorrelation.870(**)1-.353-.552(*)-.646(**)-.191Sig.(2-tailed).000..127.012.002.419N2X3PearsonCorrelation-.366-.3531.151.225.035Sig.(2-tailed).113.127..526.340.884N2Y1PearsonCorrelation-.390-.552(*).1511.696(**).496(*)Sig.(2-tailed).089.012.526..001.026N2Y2PearsonCorrelation-.493(*)-.646(**).225.696(**)1.669(**)Sig.(2-tailed).027.002.340.001..001N2Y3PearsonCorrelation-.226-.191.035.496(*).669(**)1Sig.(2-tailed).337.419.884.026.001.N2**Correlationissignificantatthe0.01level(2-tailed).*Correlationissignificantatthe0.05level(2-tailed).即样本相关矩阵为:===于是特征方程用求得矩阵的特征值分别为0.6630、0.0402和0.0053,于是,,下面我们进行典型相关系数的显著性检验,先检验第一对典型变量的相关系数,欲检验::,:它的似然比统计量为=查分布表得,,因此在的显著性水平下,,所以拒绝原假设,也即认为第一对典型相关变量是显著相关的.然后检验第二对典型变量的相关系数,即进一步检验::,:它的似然比统计量为所以无法否定原假设,故接受:,即认为第二对典型相关变量不是显著相关的.由以上检验可知只需求第一对典型变量即可.于是求的特征向量,而,解得,,因此,第一对样本典型变量为第一对典型变量的相关系数为,可见两者的相关性较为密切,即可认为生理指标与训练指标之间存在显著相关性.例2:为了研究某企业不同部门人员工作时间的关系,随机选取25个企业进行入户调查,达到25个被访企业业务部门和技术部门经理每月工作时间和员工每月工作时间(单位为小时),具体数据如附表2分析:设业务部门经理和员工每月工作时间为(),技术部门经理和员工每月工作时间为(),利用典型相关分析研究企业业务部门和技术部门人员工作时间的关系.解:样本容量为,,分别为随机变量的维数.⑴标准化随机变量与.根据样本均值与标准差,依照公式,对数据标准化.⑵求解的相关矩阵,并将其分块.将数据输入SPSS软件求得相关系数矩阵如下: CorrelationsX1X2Y1Y2X1PearsonCorrelation1.735(**).711(**).705(**)Sig.(2-tailed)..000.000.000N25252525X2PearsonCorrelation.735(**)1.693(**).705(**)Sig.(2-tailed).000..000.000N25252525Y1PearsonCorrelation.711(**).693(**)1.834(**)Sig.(2-tailed).000.000..000N25252525Y2PearsonCorrelation.705(**).705(**).834(**)1Sig.(2-tailed).000.000.000.N25252525**Correlationissignificantatthe0.01level(2-tailed).所以样本相关矩阵分块后⑶求解的两个非零特征根,解得两个非零特征根为,.⑷进行相关系数的显著性检验,取个显著性检验不为0的特征根.第一对典型变量的相关系数为,第二对典型变量的相关系数为.先检验第一对典型变量的相关系数,假设:(即第一对典型变量不相关),由典型相关系数的值可得计算统计量对于给定的显著性水平所以否定零假设.:,即第一对典型变量是显著相关的.然后检验第二对典型变量的相关系数,假设:(即第二对典型变量不相关),由典型相关系数的值可得计算统计量对于给定的显著性水平所以无法否定假设.:,即第二对典型变量不是显著相关的.由以上检验可知,只需求第一对典型变量即可.⑸求个显著性检验不为0的特征根的特征向量,而,解得,.⑹求出对典型相关变量,, 根据上面求得的特征向量,得第一对典型相关变量为第一对典型变量的相关系数为,可见其相关性较为密切.⑺由于,与业务部门经理和员工每月工作时间都成正比,而且系数差不多,所以可以解释为业务部门人员工作时间.同理可以解释为技术部门人员的工作时间.可见一个企业技术部门和业务部门人员月工作时间存在显著的相关性.结语典型相关分析是一种采用类似主成分分析的做法,在每一组变量中都选择若干个有代表性的综合指标(变量的线性组合),通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系.在实际中,只须着重研究相关关系较大的那几对典型相关变量.本文首先根据典型相关分析的统计理论,初步探讨了总体典型相关变量和典型相关系数,然后重点讨论了样本典型相关分析,以及它们的一系列性质与显著性检验,并做了相应的实例分析.通过实例分析,我们进一步明确了典型相关分析是研究两组变量之间相关性的一种降维技术的统计分析方法.而复相关是典型相关的一个特例,简单相关是复相关的一个特例.第一对典型相关包含有最多的有关两组变量间相关的信息,第二对其次,其他对依次递减.各对典型相关变量所含的信息互不重复.并且经标准化的两组变量之间的典型相关系数与原始的两组变量间的相应典型相关系数是相同的.致谢本文是在我的指导老师吴可法教授的精心指导和悉心关怀下完成的,在我的学习生涯和论文工作中无不倾注着老师的辛勤汗水和殷切关怀.吴老师宽厚的人格、敏捷的思维、严谨的治学态度、渊博的知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年绿色建筑混凝土浇筑环保承包合同
- 二零二五年加油站品牌形象设计与推广合同
- 2025版工地施工质量检验人员劳动合同范本
- 2025年度程海生态环境保护与修复工程合同
- 硫酸运输合同范本(二零二五年度)
- 二零二五年度房地产项目合同档案管理标准
- 二零二五年度:人工智能股票与股权分配合作协议
- 二零二五年度玻璃幕墙工程设计与施工合同
- 《肝衰竭诊治指南(2024年版)》全面解读
- 2026届广西壮族自治区钦州市浦北县中考语文押题卷含解析
- 金蝶云苍开发工程师(初级)认证考试题及答案
- 抽水蓄能电站
- 水喷砂除锈施工方案
- 2024年中国铁路机车用电动刮雨器市场调查研究报告
- 石膏娃娃课件教学课件
- 学校提升改造项目安全管理策划方案
- 2023 年第四届全国邮政行业职业技能竞赛附有答案
- 中国条码技术与应用协会团体标准草案
- 2024-2029年中国运动服装品牌市场分析及投资前景预测报告预测
- 楼顶防水施工安全协议
- 紫外线灯管消毒、检测、注意事项及维护紫
评论
0/150
提交评论