主成分分析法_第1页
主成分分析法_第2页
主成分分析法_第3页
主成分分析法_第4页
主成分分析法_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析法报告人:高丽、武金菊引例

Hotelling(1939)用两个主成分反应学生入学考试成绩:文科能力、数理能力在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。

主成分分析(PrincipalComponentAnalysis,PCA)也称主分量分析或矩阵分析,是统计分析法中的一种重要方法,利用数理统计方法找出系统中的主要因素和个因素之间的相互关系。

主成分分析法是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术,因而可将多变量的高维空间问题化简成低维的综合指标问题,能反应系统信息量最大的综合指标为第一主成分,其次为第二主成分。主成分之间是互不相关的。主成分分析法的原理预备知识:方差为零的变量不能区分总体中的个体成员;可以用一个变量的方差来度量该变量所传递的信息量;设有n个样本,每个样本都可用两个指标表示,n个样本是随机分布的。为了消除几个随机变量不同量纲引起的不可比性,将原始数据进行标准化处理。例如:第k个样本的原始参数为和,经过标准化处理后,其参数为:

其中

主成分分析法的原理标准化以后的参数有以下的性质:

即所有的变量均取其平均值的偏差,且使其方差为1。

主成分分析法的原理对于二维空间(i=1,2),n个标准化后的样本在二维空间的分布大体为椭圆形,如图1所示:

图1样本分布图

预备知识:向量

等方向都是同一个方向

主成分分析法的原理创建使得尽可能大,即寻找一个方向,使得所有点在此方向上的投影的方差尽可能的大主成分分析法的原理创建

使得与不相关,尽可能大,

即寻找另一个方向垂直于,

所有点在上的投影的方差最大。主成分分析法的原理坐标系旋转一个角度,并取椭圆的长轴方向为新坐标系的轴,短轴方向为新坐标系的轴,如图2所示:

图2坐标系旋转角即

其矩阵的表达形式为:式中

坐标旋转变换矩阵,它是正交变换矩阵。

主成分分析法的原理转换后的坐标系是正交的,n个点在轴上的方差较大,在轴上的方差较小。因此,二维空间的样本点用轴表示,损失的信息较小。可将轴作为第一主成分轴,正交,且方差较小,可作为第二主成分轴。如果轴上的方差为0,全部样本均落在轴上,则只用轴就可完全反映所有样本信息。主成分分析法的原理一般来说,每个样本是

维的,略去样本号k后,样本可用

个变量表示

个指标。为进行主成分分析,将坐标变换到个综合变量,这个变量形成新的坐标系,坐标轴相互正交。所以,可得到以下变换关系式:

其矩阵表示形式为:(L为正交变换矩阵)主成分分析法的原理假定X为已标准化的样本数据矩阵,对于n个样本,X的矩阵可表示为主成分的导出样本的相关矩阵R主成分的导出为原变量的相关系数,,其计算公式为:主成分的导出主成分的导出

计算特征值与特征向量(1)解特征方程,求出p个特征值满足以下关系:

式中,

为第j个主成分轴方向的方差。

由于最大,故由反映的综合指标为第一主成分。(2)求出每个特征值所对应的特征向量

主成分的导出确定主成分的个数(1)粗略决定欲保留的方差百分。(2)若某个主成分的方差大于1,就保留它。

累积贡献率:主成分的导出相关矩阵R的特征向量为一个正交矩阵L,即

其中对应于的特征向量为,其余依次类推。经过坐标变换后得到的新变量(或主成分)的表达式为:主成分的导出

因子载荷量和累积贡献率

定义主成分和原变量间的相关系数为,称为因子负荷量,它表示第j个主成分对变量的贡献程度,一般有正有负。如果取q个主成分,则变量的总贡献率为各因子负荷量的平方和,即主成分分析法的计算步骤1、对数据样本进行标准化处理;2、计算样本的相关矩阵;3、求相关矩阵的特征根和特征向量;4、确定主成分的个数;5、确定主成分的线性方程式;6、计算因子负荷量和累计贡献率(或总贡献率);7、根据上述计算结果,对系统进行分析。主成分分析法的应用例:有1000名学生进行课程考试,共有4门课,考试成绩按概率分布,原始数据经标准化处理后,求得的样本相关矩阵R如表2所示。

表2相关矩阵R课程语文外语数学物理语文10.440.290.33外语0.4410.350.32数学0.290.3510.60物理0.330.320.601主成分分析法的应用矩阵R的特征值为,如果要求主成分的方差累积贡献率大于75%,从矩阵R的特征值可以看出,故只需取两个主成分就够了。对应于和的特征向量如表3所示。

表3特征向量表y贡献率0.4600.4760.5230.5370.5430.7020.594-0.582-0.5570.218主成分分析法的应用由此可得主成分的线性方程式:用和表示学生的两类智力水平,使问题简单明了。

主成分分析法的应用因子负荷量和总贡献率如表4所示:表4因子负荷量和总贡献率x0.6780.7020.7700.7910.6550.554-0.543-0.520对的总贡献率0.8890.7980.8880.896主成分分析法的应用由表4可以看出,第一行对应的因子负荷量均为正数,表示各门课程成绩提高都可以使增加,可以认为主成分全面反映了学生智力的整体情况。对应于的所有因子负荷量数值相近,而且最大,这表明不仅能反映学生的全面智能,而且物理课的成绩在智能评价中占有重要位置。第二主成分的因子负荷量有正有负,语文和外语的为正,数学和物理的为负,这样变量被分为两组。有表可以看出个变量间相互关系的强弱,语文和外语反映文科类课程水平,数学和物理反应理工科类的课程水平。1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的x空间所损失的信息很少。即:使只有一个主成分(即

m=1)时,这个

仍是使用全部X变量(p个)得到的。2.有时可通过因子负荷

的结论,弄清X变量间的某些关系。主成分分析法的作用3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论