版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、. .典型相关分析法研究摘要:典型相关分析是研究两组变量(或两个随机向量)之间的相关关系的一种统计法。与仅研究二个变量间线性关系的简单相关分析相比,典型相关分析能提醒出两组变量之间的在联系,且两组变量的数目可以改变,这确定了它的重要性。随着计算机技术的开展,典型相关分析在各个行业试验研究中应用日渐广泛。本文主要介绍典型相关分析的根本原理与步骤并举例说明其应用。关键词:典型相关分析;根本原理;步骤;应用Abstract:Canonical correlation analysis is the study of two groups of variables (or two random vec
2、tors) a statistical method the relationship between the. pared with only the simple correlation analysis of linear relationship between two variables and canonical correlation analysis can reveal the internal relations between two sets of variables, and the number of two groups of variables can chan
3、ge, this determines the importance of it. With the development of puter technology, the canonical correlation analysis system has been widely used in various industries in experimental study. This paper mainly introduces the basic principle and procedure of canonical correlation analysis and example
4、s of its application.Key words:Canonical correlation analysis; basic principle; step; application一、引言典型相关分析(Canonical Correlation Analysis 简称CCA)是处理两个随机矢量之间相关性的统计法,在多元统计分析中占有非常重要的地位。典型相关分析可有效反映两组统计数据之间的关系,有着重要的应用背景1。在实际分析问题中,当我们面临两组多变量数据,并希望研究两组变量之间的关系时,就要用到典型相关分析。例如,为了研究扩性财政政策实施以后对宏观经济开展的影响,就需要考察有关
5、财政政策的一系列指标如财政支出总额的增长率、财政赤字增长率、国债发行额的增长率、税率降低率等与经济开展的一系列指标如国生产总值增长率、就业增长率、物价上涨率等两组变量之间的相关程度。二、典型相关分析的国外研究现状典型相关分析及其改进算法已成功的应用到计算机视觉、模式识别、电子通信、生物医学、文本和图像检索和社会统计学等众多学科或领域。很多学者都在从事这面的研究,并取得了良好的效果。权森2等将典型相关分析应用到特征融合中,利用典型相关分析到达了信息冗余的目的。拓3等利用典型相关分析法来抑制主动声呐直达波干扰并取得了很好的效果。磊4将多集典型相关分析用于雷达辐射源指纹识别,与其他的法相比具有更好的
6、识别性能。洁玉5结合广义典型相关分析,提出一种新的仿射不变特征提取法,且在视点变换图形识别中得到很高的识别率。Kim6将量典型相关分析应用于判别特征选择和动作检测,并取得很好的效果。Hwang7将多重集典型相关分析与主分量分析相结合,并将这种新法应用到功能神经影像学中。Raul8提出一种新型正规化CCA法,并将其应用于NCL-60微小核糖核酸癌症数据,取得了更稳定和更正确的结果。Wang9利用典型相关分析进展多元回归的收缩和选择。随着研究的深入,典型相关分析及其改进算法的理论知识越来越完善,应用的领域和学科越来越广。三、典型相关分析的根本思想典型相关分析是研究两组变量间整体线性相关关系的多元统
7、计法,它借助于主成分分析的思想,对于每一组变量分别寻找线性组合,使生成的新综合变量能代表原始变量大局部的信息,同时与另一组变量生成的新的综合变量的相关程度最大,这样的一组新的综合变量称为第一对典型相关变量,同样的法可以找到第二对、第三对,使各对典型相关变量之间不相关,典型相关变量之间的简单相关系数称为典型相关系数10。四、典型相关的数学描述考虑两组变量的向量其协差阵为其中11是第一组变量的协差矩阵11;22是第二组变量的协差矩阵;是X 和Y 的协差矩阵。如果我们记两组变量的第一对线性组合为:其中:所以,典型相关分析就是求a1和b1,使uv到达最大。五、典型相关系数和典型变量1.求法在约束条件:
8、下,求a1和b1,使uv到达最大。根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,那么可以转化为求的极大值,其中和v是 Lagrange乘数12。将上面的3式分别左乘a1和b1 得第一对典型变量提取了原始变量X与Y之间相关的主要局部,如果这局部还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数13。在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:在约束条件求使到达最大的a2和b22.典型变量的性质1同一组变量的典型变量之间互不相关因为特征向量之间是正交的。故X组的典型变量之间是相互独立的:Y组的典型变量之间是相互独
9、立的:(2) 不同组变量的典型变量之间的相关性不同组一对典型变量之间的相关系数为:同对相关系数为i,不同对那么为零。3、 原始变量与典型变量之间的相关系数原始变量相关系数矩阵X典、型变量系数矩阵y典型变量系数矩阵6、 典型相关分析适用性检验和典型相关系数的显著性检验典型相关分析是研究两组变量之间相关关系的一种统计法,但是并非所有的截面数据都适合于典型相关分析。典型相关分析是在原始数据满足一定条件和假设的前提下进展的,这些条件包括原始变量要服从多元正态分布,样本容量至少要大于原始变量个数,这些假设包括两组变量之间要具有相关性,每组原始变量中能够综合出典型变量,即原始变量组要有一定的相关性等14。
10、假设这些条件和假设无法满足,就不能进展典型相关分析。所以,应用典型相关分析时,首先要对其适用性进展检验分析。1.原始变量组相关性检验进展典型相关分析时,既要求原始变量组存在一定相关性,但是又不能存在高度的多重共线性。为此,典型相关分析适用性的检验,首先是从原始变量组相关性检验开场的。具体包括:1原始变量组存在一定相关性的假设检验。检验的法可以借鉴主成分分析适用性的检验法,运用巴特莱特球性检验来进展。巴特莱特球性检验是从原始数据整个相关矩阵出发进展的检验,检验的原假设是相关矩阵为单位矩阵,如果不能拒绝原假设,说明原始变量之间相互独立,不适合进展典型相关分析。事实上,如果原始数据的相关矩阵是一个单
11、位矩阵,各个原始变量之间互不相关,这时进展典型相关分析,那么得到和原始变量个数一样的典型变量,而且典型变量就是各原始变量自身,显然是不适合进展典型相关分析的。2原始变量组变量高度多重共线性的检验。典型相关分析要求原始变量组要存在一定的相关性,但同时又要求原始变量之间不能有高度的多重共线性,否那么也将不能产生典型变量,导致不能进展典型相关分析。检验原始变量组是否存在高度的多重共线性,可以采用如下的检验法:可决系数和差膨胀因子法15。对于每组变量,分别以其中的每个变量为被解释变量(因变量),其他变量为解释变量做回归,用R2j表示任意xj为被解释变量,其他变量为解释变量做线性回归的可决系数,由于R2
12、j度量了xj与其他解释变量的线性相关程度,这种相关程度越强,说明变量间多重共线性越重,反之,xj与其他变量的线性相关程度越弱,说明变量间的多重共线性越弱。病态指数法。根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而当行列式|XX|0时,矩阵XX至少有一个特征根近似于零。反之,可以证明,当矩阵XX至少有一个特征根近似为零时,X必存在多重共线性。多重共线性的程度常常用病态指数来衡量。为特征根的病态指数,其中,这里的Km是XX的最大特征根。病态指数度量了矩阵XX的特征根散布程度,可以用来判断多重共线性是否存在以及多重共线性的重程度。一般认为,0<CI<10时,认为X没有多重共
13、线性;10CI<100时,认为X存在较强的多重共线性;当CI 100时,那么认为存在重的多重共线性。除上述外,还可以根据简单相关系数矩阵来判断原始变量部是否存在重多种共线性。一般而言,如果每两个解释变量的简单相关系数比较高,如大于019,那么可认为存在着较重的多重共线性。2.原始变量组间线性相关性检验典型相关分析中,原始变量总体Z中的两组变量X,Y如果不相关,即COV(X,Y)=212=0,那么有关两组变量典型相关的讨论以及典型相关系数的计算就毫无意义了。原始变量组间相关性检验,即是典型相关分析适用性的检验,同时又是对典型相关系数的整体检验。所谓整体检验是同时检验所有的典型相关
14、系数看是否有一个是显著的。 3.典型相关系数的显著性检验计算典型相关系数是典型相关分析中最重要的环节,但是并不是所有求出的典型相关系数都是显著相关的,这就必须要对典型相关系数的显著性进展检验。典型相关系数的本质上是两组原始变量中所提取的典型变量之间的相关,并不是两组原始变量之间的相关,典型相关系数是有多个维度的。所以典型相关系数检验采取的是维度递减检验,即从第一个典型相关系数的显著性检验开场,然后是第二、第三,一直到所有的各典型相关系数的显著性检验。这种维度递减检验实际是对局部总体典型相关系数为0的假设进展检验,仍然是一种多元检验。检验的原假设是,H(r)0:Kr=0(r=2,3,m,m=mi
15、n(p,q),备择假设H1:至少一个典型相关系数。维度递减检验具体有两种做法:一是采用巴特莱特大样本的V2检验,一是采用近似的F检验16。七、对典型变量代表性的检验分析典型变量是由原始变量进展综合得到的,典型变量的代表性如也关系着典型相关分析的效果好坏,因此还需要对典型变量代表性进展检验分析。典型变量代表性的检验分析是通过典型变量与原始变量的相关程度以及一组典型变量代表另一组原始变量的能力来反映的。即通过计算X、Y变量组由自己的典型变量解释与由对的典型变量解释的差百分比与累计百分比。8、 应用举例在这里我们举例说明典型相关分析法的应用,我们根据调查数据来分析家庭特征与家庭消费之间的关系。为了了
16、解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。变量间的相关系数矩阵如下: X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00典型相关分析如下:典型相关分析 典型相关系数调整典型相关系数近似方差 典型相关系数的平方10.687948480.6878480.0052680.47327220.1868650.1866380.0096510
17、.034919各组变量系数如下:X组典型变量的系数 U1U2X1(就餐0.7689-1.4787 X2(电影)0.27211.6443Y组典型变量的系数 V1V2Y1年龄0.04911.0003 Y2收入0.8975-0.5837 Y3文化0.19000.2956由表可以得出,两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入, u1和 v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很
18、密切的;典型变量的构造相关系数 U1U2X10.9866-0.1632X20.87220.4614 V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的构造相关系数 V1V2X10.6787-0.0305X20.61040.0862 U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.0563第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.8464
19、和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的相关性。9、 典型相关分析法本卷须知因为典型相关分析可以看做是多元线性回归分析的延伸,有很多本卷须知,在使用时应当注意以下几点:(1)对调查者想做出推断的总体来说,样本必需具有代表性。一个简单的随机样本就具有这种性质。如果做不到这一点,调查者至少应确保所选择的样本点包含了总体中能够发生的各种情况。如果人为地限制了样本的取值围,会影响相关系数的估计结果。 (2)计量可靠性低的话,会导致X变量之间和Y变量之间的相关系数估计值偏低。
20、;(3)应该通过绘制变量序对的直图和散点图找出离群点。 (4)调查者应该核对的一点是,典型相关系数要足够大到值得考察这些系数的程度。尤为重要的是,这个相关系数不是只因为一个因变量和一个自变量。应该考察差的比例,如果比例小的话,减少模型中变量的个数可能是合理的。 (5)如果样本量足够大,建议将样本分拆,对拆成两半的两个样本分别做典型相关分析,再把结果进展比较,看看结果是否类似。 (6)如果典型相关系数和典型变量载荷差异相当大(即如果它们符号不同),那么,应该对两者都进展认真考察,以帮助解释结果。与解释第一个典型相关变数相比,第二或第三个典型相关变数的解释
21、更困难。要求以后陆续得出的变量线性组合与已获得的线性组合相独立,这个条件对结果所施加的限制可能难于理解。 (7)关于典型相关的假设检验,是以X变量和Y变量的联合分布是多元正态分布为前提的17。如果要研究需要报告这种检验,就应该检查这个假设。(8)因为典型相关既用到X变量集合,也用到Y变量集合,分析中包含的变量总数可能会相当多。这可能会使因缺失值而没用上很多样本点的问题变得重起来。此时,要么需认真选择变量,要么需要利用推算技术。,来反映典型变量与原始变量的相关程度。参考文献:1 正群,兴华,郭丽等.基于 Fisher准那么的多特征融合J. 计算机工程, 2002, 28(3): 41-
22、42.2 权森,曾生根,平安等.典型相关分析的理论及其在特征融合中的应川 J .计算机学报,2005,28( 9) :1524.1533.3 拓,蔡惠智.采用典型相关分析实现主动声纳直达波干扰抑制叨应用声学,2021,2( 31):130一134.4 磊,史亚,姬红兵.基于多集典型相关分析的雷达辐射源指纹识别 J ,电子科技人学学报,2021( 2):164,171.5 洁玉,强,白小晶等基于广义典型相关分析的仿射不变特征提取法 J 电子与信息学报,2021,31( 10) :246524696 TaeKyun Kim,KwanYee Kenne kenneth WongTensor Canonical Correlation Analysis for Action Classification J puter Vision and Pattern Recognition,2007,33:l -87 Heungsun Hwang,Kwanghee Jung Br J Mam Stat Psychol,2103,66( 2) :308-3218 Raul Cruzcano,Mei -Li ng,Ting LeeFast regularized canonical an
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年文化创意产业项目委托合同
- 2024年企业社会责任广告项目合同
- 2024年建筑施工长期劳务协议
- 保安人员年度工作计划范文(7篇)
- 2024年建设工程资金融通协议样本
- 关于2024年房地产销售目标计划怎么写模板范文15篇
- DB4101T 73-2023 少林武术基本动作要求
- 2024年技术服务协议(含升级)
- 押题07自然灾害类-备战2023年高考地理之考前押大题(原卷版)
- 2024年纸品用胶项目评价分析报告
- 2024年可行性研究报告投资估算及财务分析全套计算表格(含附表-带只更改标红部分-操作简单)
- 最新患者用药情况监测
- 试桩施工方案 (完整版)
- ESTIC-AU40使用说明书(中文100版)(共138页)
- 河北省2012土建定额说明及计算规则(含定额总说明)解读
- 中工商计算公式汇总.doc
- 深圳市建筑装饰工程消耗量标准(第三版)2003
- 《初中英语课堂教学学困生转化个案研究》开题报告
- 钢筋桁架楼承板施工方案
- 恒温箱PLC控制系统毕业设计
- 176033山西《装饰工程预算定额》定额说明及计算规则
评论
0/150
提交评论