ch4主分量分析与主因子综述_第1页
ch4主分量分析与主因子综述_第2页
ch4主分量分析与主因子综述_第3页
ch4主分量分析与主因子综述_第4页
ch4主分量分析与主因子综述_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第四章第四章 主分量分析与主因子分析主分量分析与主因子分析 主分量分析,又称主成分分析,进行空间分析主分量分析,又称主成分分析,进行空间分析时又称经验正交函数展开,该方法及其衍生技术时又称经验正交函数展开,该方法及其衍生技术在气候统计分析与预测中的应用非常广泛。在气候统计分析与预测中的应用非常广泛。 对事物特征的描述因子往往有众多的反映不同对事物特征的描述因子往往有众多的反映不同特征的指标,而由于因子众多,而且因子之间存特征的指标,而由于因子众多,而且因子之间存在相关和重叠,特征描述就比较杂乱,难以表现在相关和重叠,特征描述就比较杂乱,难以表现最主要的规律,主分量分析就是归纳多因子的线最主要

2、的规律,主分量分析就是归纳多因子的线性组合得到综合因子,而这个性组合得到综合因子,而这个综合因子指标概括综合因子指标概括了多个因子变化的主要信息,了多个因子变化的主要信息,从而可以减少表示从而可以减少表示特征的因子数,这个综合指标称为主成分或主分特征的因子数,这个综合指标称为主成分或主分量。量。 打个比方,测量空气中的打个比方,测量空气中的C和和O元素含量的变化,元素含量的变化,在在n个样本中发现,个样本中发现,CO2浓度比较稳定,浓度比较稳定,CO变化变化较大,较大, ,若,若C的含量为的含量为X1,O的含量为的含量为X2,则,则co的含量的含量y=x1+x2 ,就是主,就是主成分,它综合反

3、映成分,它综合反映C和和O的变化,而可不考虑的变化,而可不考虑CO2的变化。的变化。 maxmin,222cocoSS 从某种角度上说,各因子之间的相关性,必然从某种角度上说,各因子之间的相关性,必然存在起支配作用的共同因素,每一主成分代表变存在起支配作用的共同因素,每一主成分代表变量间结合关系的一种作用。量间结合关系的一种作用。 如气象统计中,经常要研究各种气象要素场,如气象统计中,经常要研究各种气象要素场,如环流场,温度场,如果抽取要素场某段时期的如环流场,温度场,如果抽取要素场某段时期的资料,就构成一组以网格点为空间点随时间变化资料,就构成一组以网格点为空间点随时间变化的样本,气象演变规

4、律体现在要素场的结构上,的样本,气象演变规律体现在要素场的结构上,一个空间场特征需众多的变量(空间点)描述,一个空间场特征需众多的变量(空间点)描述,分析复杂,不易反映其主要特征,主分量分析用分析复杂,不易反映其主要特征,主分量分析用多因子组合综合反映一种典型分布(如经向环多因子组合综合反映一种典型分布(如经向环流),即概括多因子变化的主要信息。流),即概括多因子变化的主要信息。 4.1 主分量的概念主分量的概念 例例: 设所分析的对象有两个指标量,记为设所分析的对象有两个指标量,记为x1 、x2,样本容量样本容量n=25,资料,统计得到资料,统计得到, 两者的解释方差分别为两者的解释方差分别

5、为20.3/44.4=46% ,24.1/44.4=54% ,两变量的解释方差基本相,两变量的解释方差基本相当。当。44412432022212221.,.,. xxxxSSSS图 -6 1o1x2xy1y2如果沿样本变化的主轴方向作坐标变换如果沿样本变化的主轴方向作坐标变换则由原变量组合新变量则由原变量组合新变量212211660750750660 xxyxxy. 按上式分别计算按上式分别计算y1、y2的样本值如表,计算方差为的样本值如表,计算方差为 222122212221222144456937yyxxyyyySSSSSSSS .,.,. y1、y2的的 解释方差分别占为解释方差分别占为

6、86%和和14%,y1能够解释绝大能够解释绝大部分的变化特征,部分的变化特征,y1最大限度地反映了最大限度地反映了x1,x2的变化信息。的变化信息。把新变量称为把新变量称为x1和和x2的主成分。客观上可用较少的变量表达的主成分。客观上可用较少的变量表达同样的信息量,故又称降维技术。同样的信息量,故又称降维技术。 构造主分量(主成分)应使其解释方差尽可能的大。构造主分量(主成分)应使其解释方差尽可能的大。4.2 主分量的导出主分量的导出 一、有关基础知识复习一、有关基础知识复习 (附录附录A、C、D)(一)、矩阵和向量的微分定义(一)、矩阵和向量的微分定义设设 pppxfxfxfxfXXfxxX

7、111)(:则则AXXAXAXAaaxfxfXXAXAXXfxaxaXAAXXfaaAppppp )()()()()(,)111111 若若AXXAXXAXXXfppAXXXXxxXXXfp2322221 )()()()()对对称称矩矩阵阵为为设设AYXAYXYXXY )()()54(二)、求函数的条件极值的拉格朗日乘数法(二)、求函数的条件极值的拉格朗日乘数法1 xx)()()()()(1 xxxfxgxfx 0 x 在在的条件下求函数的条件下求函数f f(x x)=x=x A xA x的极值,相当于求的极值,相当于求的极值,即求的极值,即求的解的解,称为拉格朗日乘子。称为拉格朗日乘子。函数

8、函数(三)、矩阵的特征值与特征向量(三)、矩阵的特征值与特征向量 一个一个p p阶方阵阶方阵A A,若存在,若存在p p维列向量维列向量V V和一个非零数和一个非零数,使得,使得 ppppppVVVVaaaaVAV111111 则称则称为矩阵为矩阵A A的特征值或特征根,而的特征值或特征根,而V V称为称为A A对应特征值对应特征值的的特征向量。例特征向量。例 1151132235113223 ,VA二、主分量的导出二、主分量的导出 一般的,如果有一般的,如果有p个变量个变量x1,xp,将它们综合将它们综合组成组成m个综合变量:个综合变量:).(,.ipiimpmpmmppppvvVpmXVx

9、vxvyXVxvxvyXVxvxvy111221212111111 系数向量系数向量Vi , 由由D(yi)=D(ViX)=max导出导出已知原气象资料矩阵已知原气象资料矩阵t对任意对任意i,).().(inipnpnipitiityyxxxxvvXVy111111 max)().()( ntpptiptiintityixxvxxvnyynS1211121211根据要求根据要求: )().()().( tpptiptipptiptixxvxxvxxvxxvn1111111).().( ipitpttppttipivvxxxxxxxxvvn11111111itttiittitVXXXXnVVXX

10、XXVn)()( 11其中其中).()(pptttpptttttxxxxxxxxnXXXXn 111111 tpptppttpptppttttxxxxxxxxxxxxxxxxn)()()()(111111111Ssssspppp 1111样本协方差矩阵样本协方差矩阵因此有因此有max iiyiSVVS2 ntpptiptiintityixxvxxvnyynS1211121211)().()(但如果不对但如果不对).(ipivv1作限定,则极大值无意义作限定,则极大值无意义规定对规定对ViVi作标准化限定作标准化限定,ViVi为单位向量为单位向量, ,,11221 iiipiVVvv,.即即在此

11、条件下,求使在此条件下,求使iiiSVVVf)( 达到极大的向量达到极大的向量ViVi为一个为一个条件极值,即在约束条件条件极值,即在约束条件01 iiiVVVg)( 下的极值。下的极值。根据拉格朗日法则,即为求:根据拉格朗日法则,即为求:)()()()(1 iiiiiiiVVSVVVgVfV 的极值的极值 由矩阵和向量的由矩阵和向量的微分(微分(2)、()、(3)iiiiiiiVSVVSVVSVV 0022可知原要素样本协方差矩阵的特征向量即为极值解。也就是主分可知原要素样本协方差矩阵的特征向量即为极值解。也就是主分量系数的解。量系数的解。 由由0 iiiVISVSV)( 根据线性代数知识,

12、要使根据线性代数知识,要使ViVi有非零解,必须满足条件有非零解,必须满足条件00212222111211 ppppppsssssssssIS(齐次方程组)(齐次方程组), 0 Sp .1pVV.1若若S S为非奇异阵,为非奇异阵,则它有则它有p p个非零特征值个非零特征值和对应的特征向量和对应的特征向量 ,也就有,也就有p p个主分量个主分量y y1 1,y,yp p。由前述由前述 ,iiyiSVVS 2对对iiiVSV ,左乘,左乘Vi有有2yiiiiiiiSVVSVV 主分量主分量yi 的方差等于对应特征向量的特征值的方差等于对应特征向量的特征值。对。对p个特征值个特征值按大小排列按大小

13、排列 ,取最大值,取最大值1 1所对应的特征向所对应的特征向量量 ,构造第一主分量:,构造第一主分量:p .21).(pvvV1111 ppppxxvvxvxvXVy1111111111).(.依次可有依次可有p个主分量个主分量 ,其方差分别为,其方差分别为pyy .1p .21 ppppppppxvxvXVyxvxvXVy.11111111XVxxxvvvvvvvvvyyyYpppppppp 2121222211121121.主分量向量:主分量向量:tpnppnnpppppppnppnntXVxxxxxxxxxvvvvvvvvvyyyyyyyyyY .21222211121121222211

14、1211112222111211样本矩阵:样本矩阵:三、主分量的性质三、主分量的性质1、各主分量的方差分别为原各主分量的方差分别为原p 个变量的协方差个变量的协方差的特征值,不同的主分量彼此是独立的。的特征值,不同的主分量彼此是独立的。 实对称矩阵分解定理:若实对称矩阵分解定理:若A 为为pp是对称阵,则是对称阵,则必存在一个正交矩阵必存在一个正交矩阵V(pp),使得,使得 : AVV p .1其中其中为对角阵,阵中元素为对角阵,阵中元素为为A A的特征值,的特征值,V为由对应的特征向量为列向量组成。为由对应的特征向量为列向量组成。(注:若(注:若1 VVIVVVV,,则称,则称V V为正交阵

15、)为正交阵)证:类似有证:类似有SssssyyyyyyyynYYYYnpppppptttppttttt.).()( 1111111111将将 代入代入 XVY ppppptttttttttOOSssssSVVVXXXXnVXVXVXVXVnYYYYn 11111111.)()(jisssijiyiii :,02 有有性质得证。性质得证。2、各主分量的方差贡献按对应特征值的大小顺序排列。、各主分量的方差贡献按对应特征值的大小顺序排列。 称前称前m个主分量占总方差的百分率为累积方差贡献,或累个主分量占总方差的百分率为累积方差贡献,或累积解释方差。积解释方差。 piimiimG11 )(3、p个主分

16、量的总方差与原个主分量的总方差与原p个变量的总方差相等。个变量的总方差相等。对关系式对关系式 两边取迹得:两边取迹得: SVV piiimiipiipiiismGsTrSTrVSVTrTrSVVTr1111 )()()()()()(即即故累积解释方差可写为故累积解释方差可写为 Lorenz最早把主成分分析应用到气象要素最早把主成分分析应用到气象要素场,他对美国场,他对美国64个测站的气压场作主成分分个测站的气压场作主成分分析,发现析,发现64个中,前个中,前8个主成分已经到达描个主成分已经到达描述总方差的述总方差的91%,说明用前,说明用前8个主成分就可以个主成分就可以代替代替64个变量,大为

17、减少研究变量个数。个变量,大为减少研究变量个数。 当特征值相差越大时,主成分分析越有意当特征值相差越大时,主成分分析越有意义,反之特征值相接近,则主成分分析的价义,反之特征值相接近,则主成分分析的价值就不大。主成分分析并未对总体分布作任值就不大。主成分分析并未对总体分布作任何假定,因此它对各类分别的数据都能分析。何假定,因此它对各类分别的数据都能分析。其目的在于简化结构因子,寻找综合因子,其目的在于简化结构因子,寻找综合因子,分类等,在地球科学各领域研究中均有广泛分类等,在地球科学各领域研究中均有广泛的应用。的应用。 例如沙尘暴的发生是由是诸多因子决定的。如:气温,相对湿例如沙尘暴的发生是由是

18、诸多因子决定的。如:气温,相对湿度,降水量,蒸发量,平均风速,地温等。它们分别从不同的度,降水量,蒸发量,平均风速,地温等。它们分别从不同的方面反映了对沙尘暴的影响程度。这些因子之间相关显著,使方面反映了对沙尘暴的影响程度。这些因子之间相关显著,使得提供的信息发生重叠。对这此数据进行主成分分析,根据主得提供的信息发生重叠。对这此数据进行主成分分析,根据主分量的方差贡献率大小,可以找出前几个主分量,保留住原系分量的方差贡献率大小,可以找出前几个主分量,保留住原系统大部分的信息。第一主分量称为温度因子,温度升高,地表统大部分的信息。第一主分量称为温度因子,温度升高,地表蒸发大,土壤解冻,土质疏松有

19、利于沙尘暴的形成。第二主分蒸发大,土壤解冻,土质疏松有利于沙尘暴的形成。第二主分量称为风因子,大风是沙尘暴形成的主要动力因子之一,即大量称为风因子,大风是沙尘暴形成的主要动力因子之一,即大风多的季节沙尘暴天气也多。第三主分量称为相对湿度因子,风多的季节沙尘暴天气也多。第三主分量称为相对湿度因子,相对湿度越小,土壤干燥,沙化严重,易发生沙尘暴。相对湿度越小,土壤干燥,沙化严重,易发生沙尘暴。 4.3 要素场的经验正交函数分解要素场的经验正交函数分解 又称自然正交展开,简称又称自然正交展开,简称EOF分析,是主分析,是主成分的应用。在气象科研中有极广泛的应用。成分的应用。在气象科研中有极广泛的应用

20、。 气象场的变化有空间的变化特征,也有时气象场的变化有空间的变化特征,也有时间的变化特征,经验正交展开的思路是将气间的变化特征,经验正交展开的思路是将气象场的空间和时间变化分解,分别分析其空象场的空间和时间变化分解,分别分析其空间特征和时间变化特征。间特征和时间变化特征。 气象场经验正交展开或EOF(Empirical Orthogonal Function)分析,它与主成分分析在原理与方法上有相似之处,但是也有区别。近些年来,气象场经验正交展开有许多新的研究和应用。在气象科研中有极为广泛的应用,所以我们单独列一节作较为详细的介绍 对一维空间,空间变化函数对一维空间,空间变化函数F(x)可分解

21、为若干典型正)可分解为若干典型正交空间函数的线性叠加。交空间函数的线性叠加。 kktktkkkkxTctxFkxTcxF)sin(),()sin()( 22经验正交函数展开即根据历史资料寻找典型的正交空间函经验正交函数展开即根据历史资料寻找典型的正交空间函数簇和时间函数。数簇和时间函数。气象要素场的分解气象要素场的分解 一个气象要素场可看成时间和空间的函数。一个气象要素场可看成时间和空间的函数。经验正交函数分解是针对气象要素场进行的,经验正交函数分解是针对气象要素场进行的,其基本原理是把包含个其基本原理是把包含个p空间点空间点(变量变量)的场随的场随时间变化进行分解。设抽取样本容量为时间变化进

22、行分解。设抽取样本容量为n的资的资料。则场中任一空间点料。则场中任一空间点i和任一时间点和任一时间点t的观测的观测值值 可看成由可看成由p个空间函数个空间函数 和时间函数和时间函数 的线性组合。的线性组合。itxitxikvkty对对p个测点的同一要素构成的气象场个测点的同一要素构成的气象场 可看成可看成p维向量。维向量。pxx.1 pnpntptttpxxxxXntxxXxxX.,1111111资料阵:资料阵:每列是对应某时刻的空间场每列是对应某时刻的空间场pptttpptptpttVyVyVyvvvyvvvyvvvyX.221111211222212112111ptiptitipkktik

23、ityvyvyvyvx 22111VYXyyyvvvvvvvvvVYxxxXptttpppppptptttt2121222121211121.亦可写成:亦可写成:pnpnxxxxX.1111 ppppppvvvvvvvvvV212222111211 pnppnnyyyyyyyyyY212222111211 V、Y分别称为空间函数矩阵和时间函数矩分别称为空间函数矩阵和时间函数矩阵。由于它们是根据场的资料矩阵进行分解,阵。由于它们是根据场的资料矩阵进行分解,分解的函数没有固有的函数形式,因而称为分解的函数没有固有的函数形式,因而称为“经验经验”的。但是我们还希望这种分解和其的。但是我们还希望这种分

24、解和其它正交函数类似具有它正交函数类似具有“正交正交”性的特点,即性的特点,即要求:要求: njljkilkpiiliklklkyyYYlkvvVV1100)()(分解方法分解方法VYX VYVYXXVYYnVXXnA )(11A是是pp对称阵,矩阵中元素为变量的交叉积对称阵,矩阵中元素为变量的交叉积 (4.3.a)据实对称阵分解定理有据实对称阵分解定理有V,使得,使得 VVAVAV 其中其中V的列是的列是A的特征向量,的特征向量,为为A A的特征值组成的对角阵的特征值组成的对角阵VYYnVXXnA )(11比较比较 YYn1得得正交性正交性 显然显然V及及Y满足正交性的要求。由此可知空间函数

25、矩阵可从满足正交性的要求。由此可知空间函数矩阵可从A矩阵的特征向量求得,而时间函数则可利用矩阵的特征向量求得,而时间函数则可利用 得到得到,XVY至此,完成资料矩阵至此,完成资料矩阵X的经验正交函数分解的经验正交函数分解。 如果把如果把X看作看作p维空间的向量,它是空间的函数,维空间的向量,它是空间的函数,Vi也看作也看作p维维空间向量,空间向量,X分解为分解为p个空间函数的线性叠加,它们由经验资料个空间函数的线性叠加,它们由经验资料所归纳,故称经验函数,把一个特征向量的空间分布称为一个典所归纳,故称经验函数,把一个特征向量的空间分布称为一个典型场,它表明一种经常出现的空间分布态(模态)。主分

26、量为时型场,它表明一种经常出现的空间分布态(模态)。主分量为时间系数。间系数。 jijinyyjijiVVijiji001 由前述,易证:由前述,易证:即空间函数与时间函数都具备正交性质。称为经验正交函即空间函数与时间函数都具备正交性质。称为经验正交函数展开。由数展开。由 yit=ViXt可知,典型场与实际要素场越相似,时可知,典型场与实际要素场越相似,时间系数越大。间系数越大。 经验正交函数展开的拟合精度经验正交函数展开的拟合精度根据前述第根据前述第t个要素场的第个要素场的第i个测点的值个测点的值ptpitipkktkiityvyvyvx .111mtmitimkktkiityvyvyvx

27、.111取前取前m个典型场拟合作为近似个典型场拟合作为近似可证其误差项:可证其误差项: mkkpkkpintititxxQ11112 )(原要素场的总离差平方和:原要素场的总离差平方和: pkkpintityyxs1112 相对指标误差相对指标误差 pkkmkkyysQ111 /)( mGsQsQsRpkkmkkyyyyyy 1121 而相对拟合精度而相对拟合精度R2与前与前m个典型场的累积解个典型场的累积解释方差是一致的:释方差是一致的:例例;选我国大陆选我国大陆15地面站地面站20年(年(19511970)一月份气温)一月份气温距平值(标准化),进行经验正交分解,下表、图给出前距平值(标准

28、化),进行经验正交分解,下表、图给出前三典型场和时间系数。前五个典型场的累积方差贡献为;三典型场和时间系数。前五个典型场的累积方差贡献为; 900587048103421116683403641452354321.)(,.)(,.)(.,.,., GGGR 可见,前三个典型场累积方差贡献达可见,前三个典型场累积方差贡献达81%,前五个,前五个已达已达90%。 自然正交展开函数应用实例自然正交展开函数应用实例第一典型场,全国范围的气温偏高或偏低。第一典型场,全国范围的气温偏高或偏低。第二典型场,东部偏冷或偏暖的特征。第二典型场,东部偏冷或偏暖的特征。第三典型场,西部偏冷或偏暖的特征。第三典型场,

29、西部偏冷或偏暖的特征。例例2. 1951-2010年中国年降水量距平场年中国年降水量距平场EOF的前四个特征向量的前四个特征向量 第一特征向量的空间分布绝大部分为正值,表明全国范围内降第一特征向量的空间分布绝大部分为正值,表明全国范围内降水变化趋势呈现基本一致的特征,变化最大中心位于我国长江水变化趋势呈现基本一致的特征,变化最大中心位于我国长江中下游地区。第二特征向量的空间分布呈现南北向中下游地区。第二特征向量的空间分布呈现南北向“+-”型,反型,反映出我国全年降水以长江为界的南北反位相变化特征。第三特映出我国全年降水以长江为界的南北反位相变化特征。第三特征向量的空间分布呈现征向量的空间分布呈

30、现“+-+”型,代表江淮流域年降水趋势与型,代表江淮流域年降水趋势与黄河流域、华北、华南地区为反相的分布型,即江淮流域降水黄河流域、华北、华南地区为反相的分布型,即江淮流域降水多、黄河流域及其以北地区和华南地区降水少的分布形式;或多、黄河流域及其以北地区和华南地区降水少的分布形式;或者江淮流域降水少、华北地区和华南地区降水多的分布形式。者江淮流域降水少、华北地区和华南地区降水多的分布形式。第四特征向量的空间分布呈现东西向的第四特征向量的空间分布呈现东西向的“+-”型,反映出我国东型,反映出我国东部地区降水变化与西部地区的反位相变化特征,特别在我国东部地区降水变化与西部地区的反位相变化特征,特别

31、在我国东南、华南地区与云贵、长江中上游地区降水趋势的相反变化特南、华南地区与云贵、长江中上游地区降水趋势的相反变化特点。点。abcd 1951-2010年中国年降水量距平场年中国年降水量距平场EOF前四个特征向量对应的时间系数(前四个特征向量对应的时间系数(a-d) 特征向量所对应的时间系数代表了这一区域特征向量空间分特征向量所对应的时间系数代表了这一区域特征向量空间分布型的时间变化特征。时间系数的绝对值越大,表明这一时刻布型的时间变化特征。时间系数的绝对值越大,表明这一时刻(年、月等时段)这类空间分布型越典型,其变化特征越具有(年、月等时段)这类空间分布型越典型,其变化特征越具有代表性。例如,图中特征向量所对应的时间系数序列代表的是代表性。例如,图中特征向量所对应的时间系数序列代表的是中国年降水年际趋势变化。从图中国年降水年际趋势变化。从图.a中可知:中可知:1954年的时间系数年的时间系数为正值,则反映出图中第一特征向量的空间分布型的降水变化为正值,则反映出图中第一特征向量的空间分布型的降水变化特点,即特点,即1954年全国范围内年降水量偏多,特别在长江中下年全国范围内年降水量偏多,特别在长江中下游地区和华南地区降水量异常增加,洪涝现象出现几率增大。游地区和华南地区降水量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论