主分量分析1.ppt_第1页
主分量分析1.ppt_第2页
主分量分析1.ppt_第3页
主分量分析1.ppt_第4页
主分量分析1.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析和核主成分分析,第1节主成分分析,第2节核主成分分析,第1节主成分分析,总结了主成分分析的基本原理,主成分分析的计算步骤,主成分分析的主要应用实例,许多系统是具有多元素的复杂系统,经常会遇到多变量问题。变量太多,无疑会增加分析问题的难度和复杂性,而在许多实际问题中,多个变量之间存在一定的相关性。因此,人们自然会想,我们能否在相关性分析的基础上,用较少的新变量代替较多的旧变量,并使这些较少的新变量尽可能地保留原变量所反映的信息?事实上,这一思想是可以实现的,主成分分析是综合处理这一问题的有力工具。主成分分析是一种统计分析方法,它将许多变量分成几个综合指标。从数学角度来看,这是一种降维处

2、理技术。在研究实际问题时,为了全面系统地分析问题,必须考虑许多影响因素。这些因素通常被称为指标,在多元统计分析中它们也被称为变量。由于每个变量都在一定程度上反映了研究问题的一些信息,并且指标之间存在一定的相关性,因此所获得的统计数据所反映的信息在一定程度上存在重叠。当用统计学方法研究多元问题时,过多的变量会增加计算量和分析的复杂性。人们希望在定量分析的过程中,涉及的变量更少,获得的信息更多。主成分分析是解决这类问题的理想工具。主成分的概念最早是由卡尔帕森在1901年提出的,当时只讨论了非随机变量。1933年,霍特林将这个概念扩展到随机变量,并做了进一步的发展。从混合信号中寻找主成分(能量最高的

3、成分)的方法称为主成分分析,而次要成分(主成分)与主成分(主成分)相反,后者被视为不重要或与噪声相关的信号,而确定次要成分的方法称为主成分分析。主成分分析,也称为主成分分析,也称为经验正交函数分解或特征向量分析。分析对象:将网格点作为随时间变化的空间点(多变量)的样本。主成分分析不同于回归分析和差异分析,它是一种分析方法,而不是预测方法。我们希望通过某种线性组合方法可以使一个变量或某些变量的解释方差变大,这些解释方差较大的变量称为主成分。主成分分析是一种经典的统计方法,它通过分析多元统计观测数据的协方差结构来寻找能够简单表达这些数据相关性的主成分。主成分分析是一种特征提取方法,也可以看作是一种

4、数据降维方法。一般来说,主成分分析的实施效果与评价指标之间的相关程度成正比。评价指标之间的相关性越高,主成分分析的效果越好。主成分分析可以用来降低特征空间的维数、确定变量的线性组合、选择最有用的变量、识别变量、识别目标或对异常值进行分组等。主成分子空间在均方误差的意义上提供从高维数据到低维数据的数据压缩,这可以最小化方差。在统计学中,主成分分析是一种简化数据集的技术。这是一个线性变换。这种转换将数据转换到一个新的坐标系中,因此任何数据投影的第一个最大方差在第一个坐标上(称为第一主分量),第二个最大方差在第二个坐标上(称为第二主分量),依此类推。主成分分析常用于降低数据集的维数,同时保持对方差贡

5、献最大的数据集的特征。这是通过保留低阶主成分和忽略来实现的这种低阶组件倾向于保留数据的最重要方面。然而,这是不确定的,取决于具体的应用。主成分分析主要用于数据降维。对于由一组样本的特征组成的多维向量,多维向量中的某些元素是不可区分的。例如,如果一个元素在所有样本中为1,或者离1不远,那么该元素本身是不可区分的。如果把它作为一个特征来区分,它的贡献将非常小。因此,我们的目标是找到那些发生了很大变化的元素,也就是那些变化很大的维度,并去掉那些变化不大的维度,这样特征就留下了最能代表这个元素的“精品”,计算量也就减少了。对于一个K维特征,它意味着它的每一个特征都与其他维度正交(它意味着坐标轴在多维坐

6、标系中是垂直的),所以我们可以改变这些维度的坐标系,使得这个特征在某些维度上的方差较大,而在某些维度上的方差较小。例如,如果根据第一坐标系中的X和Y坐标投影一个45度的倾斜椭圆,这些点的X和Y属性很难用来区分它们,因为X轴和Y轴上坐标变化的方差几乎相同,所以我们不能根据该点的某个X属性来判断哪个点。如果坐标轴旋转,椭圆的长轴作为X轴,椭圆在长轴上的分布相对较长,方差较大。因此,我们的方法是获得一个K维特征的投影矩阵,它可以将特征从高维降低到低维。投影矩阵也可以称为变换矩阵。新的低维特征必须在每个维度上都是正交的,并且特征向量是正交的。通过找到样本矩阵的协方差矩阵,然后找到协方差矩阵的特征向量,

7、这些特征向量可以形成投影矩阵。特征向量的选择取决于协方差矩阵的特征值。举个例子:对于一个有100个样本和10维特征的训练集,它可以建立一个100*10的矩阵作为样本。求出这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,它应该有10个特征值和特征向量。根据特征值的大小,我们取前四个特征值对应的特征向量,形成一个10*4矩阵,这就是我们所需要的特征值矩阵。将100*10的样本矩阵乘以这个10*4的特征值矩阵得到一秒,这是主成分分析的基本原理,假设有n个样本,每个样本总共有p个变量,形成一个np阶数据矩阵,(1.2.1),当p很大时,研究p维空间中的问

8、题是很麻烦的。为了克服这一困难,有必要缩小维度,即用几个综合指标代替原来的可变指标,使这几个综合指标不仅尽可能地反映原来可变指标所反映的信息,而且相互独立。定义:以x1、x2、x P为原始变量指标,z1、z2、z m(mp)为新变量指标,(1.2.2),系数lij的确定原则:z i和ZJ(ij;I,j=1,2,m)彼此独立;z1是x1、x2和xP的所有线性组合中最大的方差,z2是与Z1无关的x1、x2和xP的所有线性组合中最大的方差。Zm是x1、x2和xP的所有线性组合中方差最大的一个,与z1、z2和zm1无关。新的变量指标z1、z2、zm分别称为原始变量指标x1、x2和xP的第一、第二和第三

9、主成分。从以上分析可以看出,主成分分析的实质是确定原始变量xj(j=1,2,p)对主成分zi(i=1,2,m)的负荷lij(i=1,2,m);j=1,2,p ).数学上,可以证明它们是对应于相关矩阵m个较大特征值的特征向量。(1)计算相关系数矩阵rij(i,j=1,2,p)是原始变量xi和xj之间的相关系数,rij=rji,并且其计算公式分别是,(1.3.1)、(1.3.2)、(2),以找到对应于特征值的特征向量,要求=1,即,其中表示了向量的jth分量。计算主成分的贡献率和累计贡献率,累计贡献率一般取累计贡献率为85%的特征值对应的第1、2、m(mp)个主成分。计算主成分负荷的主成分得分、(

10、1.3.3)、(1.5.4)。第三,主成分分析起主要作用。1.主成分分析可以降低研究数据空间的维数。也就是说,M维Y空间的研究取代了P维X空间,而低维Y空间取代了高维X空间,这就损失了很少的信息。也就是说,当只有一个主成分Y1(即m1)时,这个Y1仍然通过使用所有的x变量(p)获得。例如,要计算Y1的平均值,还必须使用所有x的平均值。在所选的前m个主成分中,如果Xi的系数都接近于零,则可以删除这个Xi,这也是删除冗余变量的一种方法。有时,我们可以通过因子负荷aij的结论找出x个变量之间的一些关系。3.多维数据的图形表示方法。我们知道当维数大于3时,我们不能画几何图形,多元统计研究中的大多数问题

11、都是3个以上的变量。用图形表达研究问题是不可能的。然而,在主成分分析之后,我们可以选择前两个主成分或者两个主成分中的一个,并且根据主成分的得分在二维平面上画出N个样本的分布。从图中可以直观地看到每个样本在主成分中的位置,然后可以对样本进行分类,并且可以从图中找到远离大多数样本点的异常值。通过主成分分析构建回归模型。也就是说,在回归分析中,每个主成分都被用作新的自变量,而不是原来的自变量。5.用主成分分析筛选回归变量。回归变量的选择具有现实意义。为了使模型本身易于进行结构分析、控制和预测,最好从由原始变量组成的子集中选择最佳变量,形成最佳变量集。利用主成分分析对变量进行筛选,可以选择计算量较少的

12、变量,达到选择最佳变量子集的效果。第四章。主成分分析的应用实例。其次,根据表3.5.1给出的数据,对农业生态经济系统进行主成分分析。表3.5.1农业生态经济系统各区域单元的相关数据。步骤如下:(1)将表3.5.1中的数据标准化为标准差,然后代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。表3.5.2相关系数矩阵,(2)由相关系数矩阵计算的特征值,以及各主成分的贡献率和累计贡献率(表3.5.3)。从表3.5.3可以看出,第一、第二、第三主成分的累计贡献率已经达到86.596%(大于85%),因此只需要找出第一、第二、第三主成分z1、z2、z3即可。表3.5.3特征值和主成分的贡献率;(3

13、)对于特征值=4.661 0,=2.089 0,=1.0430,分别计算特征向量e1、e2和e3,然后用公式(3.5.5)计算变量x1、x2和x9对主成分z1、z2和z3的负荷,表3.5.4主成分负荷,上述计算过程可借助SPSS或Matlab软件系统实现。(1)第一主成分z1与x1、x5、x6、x7、x9呈强正相关,与x3呈强负相关,这些变量综合反映了生态经济结构,可以认为第一主成分z1是生态经济结构的代表。(2)第二主成分z2与x2、x4、x5呈强正相关,与x1呈强负相关,其中x2、x4、x5均反映人均资源,因此可以认为第二主成分z2代表人均资源分析:显然,用三个主成分z1、z2、z3代替原

14、来的九个变量(x1、x2、x9)来描述农业生态经济系统可以进一步简化和澄清问题。(3)第三主成分z3与x8正相关,其次是x6,与x7负相关,可以认为第三主成分在一定程度上代表了农业经济结构。(4)此外,表3.5.4中的最后一列(方差百分比)在一定程度上反映了三个主成分z1、z2和z3包含原始变量(x1、x2、x9)的信息量。第二部分,核主成分分析,总结了核主成分特征计算的复杂性。首先总结了主成分分析有许多成功的应用,但其前提是只能从服从高斯分布的数据中提取特征,这极大地限制了其应用范围。因为,如果数据是任意分布的,无论如何在原始数据空间中进行正交变换,都不可能找到一组最优的特征方向,而且所找到

15、的所谓“主成分”不能表达数据的特征结构,而后续工作是基于这种“主成分”所代表的新的特征向量,其效果是可以想象的。主成分分析对数据分布有如此严格的要求,主要是因为它是一种线性方法,不能提取数据的非线性结构。显然,无论主成分分析方法在原始空间中如何改进,都不可能摆脱这一前提的限制,从本质上将其转化为一种非线性算法。基于核函数的非线性主成分分析方法,简称KPCA,是由Scholkopf在1998年首次提出的。它主要用于模式识别和信号处理。如果选择了合适的映射函数,输入空间中的线性不可分性问题将转化为特征空间中的线性可分性问题。这个非线性映射函数称为核函数。基于核的主成分分析结合了核函数和一般主成分分

16、析,不仅具有良好的主成分提取性能,而且特别适合处理非线性问题。基于核的主成分分析(KPCA)是KPCA的非线性扩展,它涉及许多重要的思想和技巧。深刻理解这些理论和核技能是核技能的基础。核主成分分析是高维特征空间中常用的线性主成分分析,特征空间是通过输入空间的非线性变换得到的。连续投影在主向量上的轮廓线在输入空间中变得非线性,并且特征向量的原始图像不能在输入空间中绘制。对于核主成分,关键是不需要直接从特征空间计算映射数据。所有的计算都将通过空间中的核函数来实现。核主成分分析(KPCA)是对主成分分析的改进。主成分分析要求处理的数据服从高斯分布,因此其应用受到很大限制。鉴于此,核主成分分析(KPCA)首先利用非线性变换将数据映射到特征空间,使其近似服从高斯分布,然后在特征空间中使用主成分分析。因此,KPCA可以处理更多类型的数据。其次,核主成分算法计算基于核的主成分,也称核主成分,包括以下步骤:(1)计算矩阵;(2)对角化k以求解公式,并通过制作归一化对应于特征向量的系数。(3)提取测试点x的主成分(根据对应的核k),并根据以下公式计算特征向量映射。核主成分的特征,即核主成分,实际上是特征空间中的普通主成分。因此,主成分的所有数学和统计特征都适用于核主成分。仅在特征空间中,一组输

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论