第六章-主成分分析法_第1页
第六章-主成分分析法_第2页
第六章-主成分分析法_第3页
第六章-主成分分析法_第4页
第六章-主成分分析法_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。引言主成分分析,也称主分量分析,由皮尔逊(Pearson)于1901年提出,后由霍特林(Hotelling)于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。这时,不需要任何关于概率分布和基本统计模型的假定。这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。当分析结束后,最后要对主成分做出解释。当主成分用于回归或聚类时,就不需要对主成分做出解释。另外,主成分还有简化变量系统的统计数字特征的作用。对于任意p个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有个参数。经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了个。在对变量系统进行简化时,最重要的是当系统变量被有效地降到2维时(即两个主成分),就可以在平面上描绘每个样本点,以获得直接观察样本点间的相关关系以及样本群点的分布特点和结构。所以,主成分分析使高维数据点的可见性成为可能。在数据信息的分析过程中,对直观图像的观察是一种重要手段,它能更好地协助系统分析人员的思维与判断,及时发现大规模复杂数据群重的普遍规律与特殊现象,极大地体高数据信息的分析效率。在当今的决策支持系统理论与方法的研究中,将抽象空间或者高维空间中的信息以及一些更为复杂现象转换为直观的平面图示是一种重要的研究途径,能够提高决策人员的洞察能力。主成分分析法来源于实践。例如,从事数据分析工作的人往往面临一张数据表,即数据矩阵。例如,在分析学生学习情况时,得到一张成绩表,该表的列表示某门课程各学生成绩,行表示一个学生的各科成绩。一般而言,我们可以构造一个数据矩阵,列表示变量或指标,行表示相应变量的测量数据。一个数据矩阵阶数往往非常大,使人眼花缭乱,抓不住重点,找不出规律。主成分分析的主要任务就是以某种最优方法综合一张数据表的信息,以达到简化数据矩阵,降低数据维数,从而揭示其主要结构信息,并提出关于数据矩阵所提供信息的合理解释。尤其是,这方面的一个著名成功应用实例是美国统计学家斯通(Stone)在1947年对美国国民经济的研究。他利用美国1929—1938年各年的数据,得到了17个反映国民收入与支出的变量要素,如雇主补贴、消费资料、生产资料、纯公共支出、净增库、股息、利息、以及外贸平衡等等。在进行主成分分析后,用三个变量就取代了原来的17个变量,并且精度高达97.4%。根据经济学知识,斯通给这三个综合变量分别取名为总收入F1、总收入变化率F2、经济发展或衰退的趋势F3。更有意思的是,这三个新变量其实都是可以直接测量的。主成分分析法的主要降维思想可用如下简单几何观点解释。假设矩阵A是对具有p个变量指标的n个样本所测量的数据矩阵。矩阵A的n行可看作空间Rp中的n个点或向量,表示n个个体,而。主成分分析本质上就是对原坐标系进行平移和旋转变换,使得新坐标的原点与数据群的重心重合,新坐标系的第一个坐标轴与数据变异的最大方向相对应,新坐标系的第二轴与第一轴标准正交,并且对应于数据变异的第二大方向,以此类推。这些新轴分别被称为第一主轴U1,第二主轴U2,…。如果经过舍去少量信息后,主轴能够十分有效地表示原数据的变异情况,则原来的p维空间Rp就被降至m维空间Rm。生成的空间被称为m维主超平面,尤其是当m=2时,就简称为主平面。这样就可以用原样本群点在主超平面上的投影来近似表达原样本群。原样本点在主超平面的第一主轴上的投影称为第一主成分u1,它构成新数据表的第一个分析变量,在主超平面的第二主轴上的投影称为第二主成分u2,它构成新数据表的第二个分析变量,…。记主成分uk均值和方差分别为E(uk)、Var(uk),则主成分的分析结果为数学原理对于给定的一个高维(p维)复杂变量系统(n个样本),现在需要分析此变量系统的信息结构。为此,我们希望对原数据进行简化,但要达到信息损失最小,以期分析数据结构。从数学上讲,就是要对原数据变量降维,以获得新的变量对问题进行解释。要达到这一目的,可从多种途径考察,现简述如下。(1)数据变异方向最大原理如果试图以一个一维向量空间取代原p维向量空间,则应该寻找数据群点分布方差最大的一个方向u1,将其作为新的综合变量方向,再将所有样本点在该方向上投影,就可获得原数据群在一维空间的最佳近似表示。如果要在二维空间中近似地表示原数据群点,则要寻找一个与u1垂直的方向u2,且数据群在此方向u2的分布方差仅次于,是第二大的。如此下去,直到满足最大限度地保持原数据信息为止。(2)最小二乘原理对原p维空间Rp中的样本群,现在要通过一个线性变换,将其变为更低维的空间,使得原数据点在此空间的投影能近似地代替原数据,且信息损失最少。这实际上只需应用最小二乘原理。设原数据点Xk在空间的投影点为,则信息损失最少就是下式成立其中为样本点的权重。(3)数据群相似度改变最小原理假设以距离来衡量样本点之间的相似性,则主成分分析理论证明主超平面可以使数据群的相似性改变最小(此时用m维主超平面近似表达原数据群),此即(4)系统变量综合表现能力最佳原理如果试图用一个综合变量来代替原数据变量,则第一主成分u1就是最好的选择。用统计语言描述就是变量u1与原数据变量的相关系数最大,如果是用两个主成分u1、u2来综合原数据信息,则要求下式成立下面以系统变量综合表现能力最佳原理为出发点,详细讨论主成分分析原理。对于给定的p维随机向量,假定二阶矩存在,记。考虑如下线性变换我们的目的是变换后的y1是的一切线性函数中方差最大的。但由于有所以应该限制变换(6.1)的系数矩阵行向量为单位向量。这样问题变为如下问题的解,此时y1称为第一主成分。设为非负定矩阵V的特征根,为相应的单位特征向量,且两两相互正交。令为正交矩阵,则有由于有特别取有因此,就是所求的第一主成分,其方差具有最大值。如果第一主成分所含信息不够多,不足以代表原始的p个变量,则要考虑第二主成分y2。为了使y2所含信息与y1不重迭,应要求因此,第二主成分就是下列问题的解同样可以求第三主成分,第四主成分等等。一般而言,第k主成分是下列问题的解现在求第二主成分。由(6.3)知于是,从而有当取时,则有所以,就是所求的第二主成分,且具有方差。以此类推,我们可求出第k主成分为或者具体写为具有方差()。性质及算法假设反映研究对象属性的指标有p个,,将这些指标看成p维随机变量,则它的期望记为,二阶矩(协方差矩阵)记为。对于这种对象观察了n个样本,其数据矩阵记为。从上面的分析看出,当把每个指标看成随机变量时,观察的n个对象便是相应样本值。据此计算矩阵V的特征根和相应的单位特征向量,便可构造第k主成分可直接写成。为了统一认识,下面将这种主成分的性质罗列出来以备查用。(1)主成分的均值、协方差、方差记主成分,从前面的讨论知道。写则有对于原始变量与主成分之间的总方差,由于所以也就是说,主成分分析把原始的p个变量的总方差tr(V)分解成了p个不相关变量的方差之和。(2)主成分两两正交,且(3)我们称为对X的主成分变换。此变换是可逆的,且,被称为用主成分的恢复数据变换。(4)原始变量X与主成分Y之间的相关性根据得,此即故有(5)主成分对原始变量的贡献率我们将第k主成分yk占总方差的比例称为主成分yk的贡献率。第一主成分y1的贡献率最大,表明它解释原始变量的能力最强,而的解释能力依次减弱。主成分分析的目的就是为了减少变量的个数,因此一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。前q个主成分的贡献率之和为称为主成分的累计贡献率。它表明解释原始变量的能力。通常取较小的主成分变量维数q,使得累计贡献率达到一个较高的百分比(通常要求80%以上)。这时的主成分可用来代替原始变量,从而达到降低变量维数的目的,同时使得原始信息损失尽量小。在了解了主成分的性质后,我们现在可以讨论主成分的计算步骤。对于给定的p维空间Rp中的n个样本,其数据矩阵记为。主成分的计算过程如下:Step1:计算随机变量 X的协方差矩阵V=V(X),其中Step2:计算矩阵S的前q个特征根使得,其中通常取80%左右,通过(6.6)计算。Step3:计算矩阵S的前q个特征根所对应的单位特征向量Step4:根据(6.4)计算前q个主成分分量Step5:根据(6.9)中原始变量与各主成分之间的系数关系做出解释,必要时给出图示。说明:(1)由于有些问题中各项指标的量纲不一致,从而可能造成协方差矩阵中数据差异较大,为了消除这种差异,可以将协方差矩阵改为相关矩阵,上面的所有讨论结果完全一样,并不影响最终的结果。所以,可用相关矩阵R代替二阶矩V,此时有注意公式(6.10)与(6.8)的差别。(2)如果不知道随机变量X的分布,从而无法计算其期望及二阶矩,则还可以用样本的点估计代替。假设对随机变量X进行了n次观察,其样本矩阵记为,则有如下估计计算,令则有(3)当用协方差矩阵或者计算主成分时,获得的主成分表达式(6.9)要变为此时对应的指标是:应用技术主成分分析法主要是对研究对象的高维指标实施降维,以便简化问题,分析问题。因此,当获得了需要的主成分后,我们首先就是对主成分做出解释,分析主成分表达式(6.9)的系数及其代表的含义。其次,主成分可用于揭示数据的奇异性,达到最终剔除奇异数据的目的。最后,也是主成分应用最重要的一点,就是对研究对象及其系统做出综合评价。一、主成分的解释主成分是对原始变量的综合,然而原始变量都有明确的含义,无论是物理的,还是经济的。于是,自然要问对原始变量综合后的每个主成分又有什么含义呢?这就是主成分的解释。这种解释可以帮助我们更清楚地认识研究系统的系统结构、系统构成、系统特征等。尤其是对时间序列数据进行主成分分析时,主成分分析能够反映系统特征的变化趋势,这种趋势对于系统预测具有非常重要的意义。解释主成分时,主要分析主成分表达式(6.9)的组合系数,并结合实际背景确定主成分及其相关系数含义。对于公式(6.9)右端的系数称为第k主成分在第j个原始变量上的载荷。它度量了对的重要程度。在解释主成分时,我们需要考察载荷以及主成分与原始变量之间的相关性。根据公式(6.6)可知,载荷与相关系数成正比,仅相差一个常数倍。这样,我们可以通过观察主成分(6.9)的组合系数的大小及其符号,对主成分的物理含义做出解释、判断。如果这些系数既有正,又有负,说明该项主成分与一部分原始变量正相关,一部分负相关。正相关时,与的变化趋势同向;负相关时,反向。如果组合系数大,说明与的关系密切。通常可以根据这些分析及其研究问题的背景,给出主成分的名称定义。另外,对于公式(6.4)中最后一个主成分,由于它的贡献率往往非常小,此时可以认为,此即接近于一个常数。虽然,的贡献小而显得不重要,但却可能揭示出变量之间的一个共线性关系。如果最后几个主成分的贡献率都非常小,则可能表示变量之间有几个共线性关系。这方面容易忽略,但对问题的分析确有帮助,应该重视。二、综合评价从前面的讨论知道,第一主成分与原始变量的综合相关度最大。从这个意义上来讲,如果试图应用一个综合变量来代替原始变量,则选择第一主成分是最好的办法。另一方面,第一主成分也是数据变异最大的方向,即是使原数据信息损失最小、精度最高的一维综合变量。所以说,可以将用作系统评估指数。同时,由于在第一主成分方向上,样本点的性质差距最大,也易于对它们进行排序评估。显然,的贡献率可当作评估的精度。但要注意,如果对问题进行排序评价时,则要小心。此时要求第一主成分表达式中的所有载荷都为正,即与所有原始变量都正相关,才能将用作系统排序评价。否则,不能将用作系统评价排序。另外需要注意的是,第一主成分的载荷必须满足,才能将其用作综合评价指标。因为如果某项载荷为零,即,或近似为零,则在评价时,可能会遗漏对应指标的重要信息。一般情况下,如果要将所有主成分都用作评价系统时,有文献建议如下评价公式上式中的为前k个主成分,其系数为权重。这里同样需要注意一个问题,就是所有主成分的载荷都为正时,才能将此公式用作综合评价。否则,由于这种多指标属性的无序(一些正相关,一些负相关),不能这样简单地构造评价公式。应用范例为了说明主成分分析的应用,这里将用两个实例进行分析。问题A:中国城镇居民家庭消费分析[1]为了分析我国城镇居民家庭消费结构,统计了1999年我国31个省、市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据(资料来源:2000年《中国统计年鉴》),单位:元,具体见表6-1。这八个变量分别是:食品交通和通讯衣着娱乐教育文化服务家庭设备用品及服务居住医疗保健杂项商品和服务城镇居民家庭消费性支出数据表6-1地区北京2959.19730.79749.41513.34467.871141.82476.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.90362.37285.32272.95540.58364.91186.63山西1406.33477.77290.15206.57201.50414.72281.84212.10内蒙古1303.97524.29254.83192.17249.81463.09287.87192.96辽宁1730.84553.90246.91279.81239.18445.20330.24163.86吉林1561.86492.42200.49216.36220.69459.62360.48147.76黑龙江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.93527.001034.98720.33462.03江苏2207.58449.37572.40211.92302.09585.23429.77252.54浙江2629.16557.32689.73435.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314.00151.39福建2709.46426.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.90209.70393.99509.39160.12山东1675.75613.32550.71219.79272.59599.43371.62211.84河南1427.65431.79286.55206.14217.00337.76421.31165.32湖北1783.43511.88282.84201.01237.60617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.60226.45广东3055.17353.23564.56356.27811.88873.06106.82420.81广西2033.87300.82336.65157.78329.06621.74587.02216.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重庆2303.29589.99516.21236.55403.92730.05436.41225.80四川1974.28507.76344.79203.21240.24575.10430.36223.40贵州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.70330.95西藏2646.61839.70204.44209.11379.30371.04269.59389.33陕西1472.95390.89447.95259.51230.61490.90469.10191.34甘肃1525.57472.98326.90219.86206.65449.69249.66226.19青海1654.69437.77256.78303.00244.93479.53286.56236.51宁夏1375.46480.89273.84317.32251.08424.75226.73195.93新疆1606.82536.05432.46235.82250.28541.30344.85214.40消费性支出相关矩阵数据表6-21.0000.2471.0000.6980.2581.0000.4680.4230.6211.0000.8280.0860.5850.5311.0000.7690.2550.8560.6840.7081.0000.670-0.2010.5690.3140.8000.6471.0000.8770.3490.6670.6280.7760.7450.5251.000由于各项指标数据差异较大,下面通过相关矩阵进行主成分分析。通过计算,给出的8项指标的相关矩阵列于表6-2。由于相关矩阵的对称性,所以表6-2中仅列出了下三角部分数据。通过计算,相关矩阵前三个特征根、特征向量、贡献率见表6-3。的前三个特征根、特征向量、贡献率表6-3特征向量0.401-0.0770.4150.1320.7490.3320.3750.065-0.4420.3200.345-0.4780.388-0.2320.2790.4060.027-0.3100.326-0.496-0.0340.3960.0960.345特征值5.0981.3520.574贡献率0.6370.1690.072累计贡献率0.6370.8060.878由表6-3可知,取前两个和三个特征根就可获得累计贡献率80.6%和87.8%。于是可构造前三个主成分如下:对于第一主成分,除了在上的载荷稍偏小外,其余都有几乎相等的正载荷,反映了综合性消费支出水平。因此,第一主成分称为综合消费性支出成分。第二主成分在变量上有很高的正载荷,在变量上有中等的正载荷,而在其余变量上有负载荷或很小的正载荷。可以认为这个主成分度量了受地区气候影响的消费性支出(主要是衣着,其次是医疗保健)在所有消费性支出中占的比重(也可理解为一种消费倾向),第二主成分可称为消费倾向成分。第三主成分很难给出明显的解释,因此我们只取前面两个主成分。记,它是消费性总支出。与之间存在着高达r=0.989的正相关性,虽然这两个变量的关系极为密切,且意义相近,但两者还是有一定区别的。中各变量对的作用可以有很大的不同。如的作用就特别大;而是对作标准化变换(是基于对每项消费性支出平等看待的要求)后得到的,依据的表达式,中的每个变量对的作用是大致相同的。此外,的含义是完全明确的,而的含义是在某种意义上的。某地区的值取决于该地区中的每个变量值在所有31介地区中的相对大小,它是这八个变量值相对大小的综合值。主成分分析能够揭示出中所不具有的重要信息(如消费倾向)。按第一主成分排序的31个地区名次表6-4地区地区江西-2.234-1.867新疆-0.6970.647河南-1.947-0.388四川-0.5330.041黑龙江-1.9270.636广西-0.251-2.058吉林-1.8590.151山东-0.1470.983山西-1.8480.404福建0.201-1.337内蒙古-1.8260.509湖南0.219-0.203安

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论