第十三讲-主成分分析和因子分析_第1页
第十三讲-主成分分析和因子分析_第2页
第十三讲-主成分分析和因子分析_第3页
第十三讲-主成分分析和因子分析_第4页
第十三讲-主成分分析和因子分析_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成分分析和因子分析

PrincipalComponentsAnalysisAndFactoranalysis引言实际工作中,为了全面系统反映问题,往往收集的变量较多,但是经常出现变量间具有较强的相关关系的情况。直接使用这些变量,会出现模型相当复杂而无法得到合理的专业解释的情况,更甚至会出现多重共线性问题而引起较大的误差。因此,引入主成分分析和因子分析。一、主成分分析主成分分析的一般目的:

定义主成分分析:是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法变量的降维主成分的解释1

概述17个变量国民经济指标3个变量雇主补贴纯公共支出股息生产指数利息净增库存消费资料外贸盈余人口总收入F1总收入变化率F2经济发展趋势F3国民经济指标

例子一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。主成分分析1

概述年度指标外贸盈余人口股息利息消费资料…….….1980120100358646343571981155133441524134479198217612014159143634319831231531618319571661984186134281772856582198521115635124337745719861971652915547863951987166135271322935284198815517723187438573719891271355919529895981990123153161834657166年度指标F1F2F319801201003519811551334419821761201419831231531619841861342819852111563519861971652919871661352719881551772319891271355919901231531661.1基本思想数据的降维、数据的解释由于多个变量之间往往存在着一定程度的相关性。通过线性组合的方式将原来众多具有一定相关性的指标,组合成一组新的相互无关的综合指标。从中选取几个较少的综合指标尽可能多的反映原来众多指标的信息。在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量。因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。7X1X2112-2-2-1-120相关变异X1和X2组成的散点分布在一条直线周围,X1、X2间存在线性关系二、数学模型及几何意义8X1X2Z1Z2112-2-2-2-211-1-1-1-12220以该直线为坐标轴Z1,其垂直线Z2为另外一个坐标抽,Z1和Z2互相垂直且彼此线性无关Z1Z2-2-211-1-1220相关变异N个观测的差异主要表现在Z1方向上,可以用Z1代替原始变量X1X2研究观测对象的差异。Z1,Z2可用原始变量X1X2的线性组合表示,即Z1为主成分的话,就反映了原始变量指标的主要信息设有m个原始变量X1……Xm,欲找到新的综合指标,Z1……Zm。从数学上讲,就是寻求一组常数ai1,ai2….aim,使m个指标的线性组合:在m个Zm新变量中可找到a个新变量能解释原始数据的大部分方差所包含的信息。其余的m-a个新变量对方差影响很小。这m个变量为原始变量的主成分。每个新变量均为原始变量的线性组合。11Z=AX12第一主成分在所有Zi中最大13第二主成分……理论上主成分个数最多为m个(指标个数)实际工作中确定的主成分个数总是小于m个在所有Zi中为第2大。无关,互相垂直:数据标准化计算协方差矩阵求协方差矩阵特征值和特征向量求成分的累积贡献率求第n个主成分的表达式主成分分析步骤主成分分析五步走三、主成分的求法及性质15三、主成分的求法及性质16(一)主成分的求法

1.对各原始指标值进行标准化为了方便,仍用Xij表示Xij’。17标准化后的数据矩阵X=182.

求出X1,X2,…,Xm

的相关矩阵RR=Cov(X)

=19Pearson相关系数

标准化后的协方差协方差203.

求出矩阵R的全部特征值(eigenvalue)

i,

第i个主成分的组合系数ai1,ai2,

,aim满足方程组:(r11-

i)ai1+r12ai2+

+r1maim=0

r21ai1+(r22-

i)ai2+

+r2maim=0

rm1

ai1+rm2ai2+

+(rmm-

i)aim=0

21(r11-

i)ai1+r12ai2+

+r1maim=0

r21ai1+(r22-

i)ai2+

+r2maim=0

rm1

ai1+rm2ai2+

+(rmm-

i)aim=0

i为矩阵R的第i个特征值,共有m个非负特征值,由大到小的顺序排列为:

1≥

2≥

m≥0

i=Var(Zi)224.由以上方程组,求出相应于特征值

i的特征向量(eigenvector)(ai1,ai2,

,aim)’23(二)主成分的性质

1.各主成分互不相关

242.主成分的贡献率与累积贡献率

(原始指标值标准化)(指标个数)贡献率累积贡献率253.主成分个数的选取(1)前k个主成分的累积贡献率>70%。(2)主成分Zi的特征值

i≥

1。(3)结合专业知识判断。4.因子载荷:用来了解主成分与原始数值的关系(第i主成分Zi与第j原始指标Xi间相关系数)

265.样品的主成分得分四、SPSS过程以咱们入学时成绩为例,介绍如何利用SPSS软件实现主成分分析。专业政治英语数学专业课总分16559941143321625167127307164656910029816040751222971564377107283..输出结果方差贡献率累积贡献率主成分系数矩阵(因子负荷量)各主成分在变量上的载荷,可得到主成分表达式。但是变量是标准化后的变量只有第一个的特征根大于1,只提取了1个主成分,第1个主成分方差占总方差的77%31五、主成分分析的应用

1.对原始指标进行综合以互不相关的较少个综合指标反应众多原始指标提供的信息。

主成分回归(解决多元共线问题)。

2.进行综合评价

323.进行探索性分析利用因子载荷阵,找出影响各综合指标的主要原始指标。

4.对样品进行分类利用主成分得分对样品进行分类:因子分析部分一、因子分析基本思想从分析多个可观测的原始指标的相关关系入手,找到支配这种相关关系的有限个不可观测的潜在变量。是多元分析中处理降维的一种统计方法。34

specificfactor

commonfactor35Xi:观测指标(标准化数据)Fi:公因子ei:特殊因子aij:因子载荷(计算关键项)36X=AF+e373839三、因子模型的性质

矩阵A的统计意义1.公共度(共性方差)40因子的共性方差412.因子贡献与因子贡献率矩阵A第j列元素反映了第j个公因子Fj对所有原始指标的影响;数据标准化后全部原始指标的总方差为指标个数m。Fj对原始指标的方差贡献率42各因子的贡献433.因子载荷及因子载荷阵A44四、因子载荷阵的求解及计算步骤

1.

收集原始数据并整理为下表452.对各指标进行标准化3.求指标间的相关系数矩阵RX4.求指标间的约相关系数矩阵R*

(1)R*的非对角线元素与相关矩阵RX的非对角线元素相等

(2)R*的对角线元素为共性方差465.求出约关系数矩阵R*所有大于零的特征值及相应的特征向量6.写出因子载荷阵A,得出原始指标X的公因子表达式47要求:1.

保留公因子个数q小于指标个数m,原则:

j≥1

前k个公因子累积贡献率≥70%2.

各共性方差接近于1。3.

各原始指标在同一公因子Fj上的因子载荷之间的差别应尽可能大。483.主成分分析与因子分析间的关系(1)两者的分析重点不一致

Z=AX主成分为原始变量线性组合,重点在综合原始变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论