![主成分分析与因子分析法_第1页](http://file4.renrendoc.com/view/bf22f592eca7f61d23fb0fa9632d9579/bf22f592eca7f61d23fb0fa9632d95791.gif)
![主成分分析与因子分析法_第2页](http://file4.renrendoc.com/view/bf22f592eca7f61d23fb0fa9632d9579/bf22f592eca7f61d23fb0fa9632d95792.gif)
![主成分分析与因子分析法_第3页](http://file4.renrendoc.com/view/bf22f592eca7f61d23fb0fa9632d9579/bf22f592eca7f61d23fb0fa9632d95793.gif)
![主成分分析与因子分析法_第4页](http://file4.renrendoc.com/view/bf22f592eca7f61d23fb0fa9632d9579/bf22f592eca7f61d23fb0fa9632d95794.gif)
![主成分分析与因子分析法_第5页](http://file4.renrendoc.com/view/bf22f592eca7f61d23fb0fa9632d9579/bf22f592eca7f61d23fb0fa9632d95795.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于主成分分析与因子分析法第1页,共37页,2023年,2月20日,星期二主要内容主成分分析法因子分析法附:主成分分析法与因子分析法的区别第2页,共37页,2023年,2月20日,星期二主成分分析法
(PrincipalComponentsAnalysis,PCA)
主成分分析法概述主成分分析的基本原理主成分分析的计算步骤
第3页,共37页,2023年,2月20日,星期二一、主成分分析概述第4页,共37页,2023年,2月20日,星期二假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?
引子第5页,共37页,2023年,2月20日,星期二当然不能。汇报什么?发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。第6页,共37页,2023年,2月20日,星期二主成分分析法(PrincipalComponentsAnalysis)和因子分析法(FactorAnalysis)就是把变量维数降低以便于描述、理解和分析的方法。主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标),而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量,只是几个指标的综合。在引入主成分分析之前,先看下面的例子。什么是主成分分析法?第7页,共37页,2023年,2月20日,星期二成绩数据53个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。第8页,共37页,2023年,2月20日,星期二从本例可能提出的问题能不能把这个数据表中的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?第9页,共37页,2023年,2月20日,星期二事实上,以上问题在平时的研究中,也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。比如对n个样本进行综合评价,可选的描述样本特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对样本影响较大的指标,影响结果的可靠性。第10页,共37页,2023年,2月20日,星期二这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分样本间差异的目的。第11页,共37页,2023年,2月20日,星期二
二、主成分分析的基本原理第12页,共37页,2023年,2月20日,星期二(一)主成分分析的几何解释(二)主成分分析的基本思想第13页,共37页,2023年,2月20日,星期二(一)主成分分析的几何解释
例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。先假定只有二维,即只有两个变量,语文成绩(x1)和数学成绩(x2),分别由横坐标和纵坐标所代表;每个学生都是二维坐标系中的一个点。第14页,共37页,2023年,2月20日,星期二因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化。为了实现样本数据的标准化,应求样本数据的平均和方差。对数据矩阵Y作标准化处理,即对每一个指标分量作标准化变换,变换公式为:第15页,共37页,2023年,2月20日,星期二其中,
样本均值:
样本标准差:
第16页,共37页,2023年,2月20日,星期二原始变量经规格化后变为新变量,其均值为零,方差为1。对二维空间来讲n个标准化后的样本在二维空间的分布大体为一椭圆形,该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少,极端的情况下,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。第17页,共37页,2023年,2月20日,星期二•••••••••••••••••••••••••••••••••••••假定语文成绩(X1)和数学成绩(X2)分别为标准化后的分数,右图为其散点图,椭圆倾斜为45度。第18页,共37页,2023年,2月20日,星期二如果将坐标轴X1
和X2
旋转45º,那么点在新坐标系中的坐标(Y1,Y2)与原坐标(X1,X2)有如下的关系:Y1和Y2均是X1
和X2的线性组合第19页,共37页,2023年,2月20日,星期二•••••••••••••••••••••••••••••••••••••在新坐标系中,可以发现:虽然散点图的形状没有改变,但新的随机变量Y1
和Y2
已经不再相关。而且大部分点沿Y1
轴散开,在Y1轴方向的变异较大(即Y1的方差较大),相对来说,在Y2轴方向的变异较小(即Y2
的方差较小)。第20页,共37页,2023年,2月20日,星期二在上面的例子中Y1
和Y2
就是原变量X1和X2的第一主成分和第二主成分。实际上第一主成分Y1就基本上反映了X1
和X2
的主要信息,因为图中的各点在新坐标系中的Y1
坐标基本上就代表了这些点的分布情况,因此可以选Y1
为一个新的综合变量。当然如果再选Y2也作为综合变量,那么Y1
和Y2
则反映了X1
和X2的全部信息。第21页,共37页,2023年,2月20日,星期二22(二)主成分分析的基本思想
假如对某一问题的研究涉及p个指标,记为X1,X2,…,Xp,由这p个随机变量构成的随机向量为X=(X1,X2,…,Xp),设X的均值向量为,协方差矩阵为。设Y=(Y1,Y2,…,Yp)为对X进行线性变换得到的合成随机向量,即
(1)设i=(i1,i2,…,ip),
A=(1,
2,…,p),则有
(2)第22页,共37页,2023年,2月20日,星期二23且
(3)
由是式(1)(2)能够看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量Y的统计特征显然是不一样的。每个Yi应尽可能多地反映p个原始变量的信息,通常用方差来度量“信息”,Yi的方差越大表示它所包含的信息越多。由式(3)可以看出将系数向量i扩大任意倍数会使Yi的方差无限增大,为了消除这种不确定性,增加约束条件:第23页,共37页,2023年,2月20日,星期二24
为了有效地反映原始变量的信息,Y的不同分量包含的信息不应重叠。综上所述,式(1)的线性变换需要满足下面的约束:(1)即,i=1,2,…,p。(2)Y1在满足约束(1)即的情况下,方差最大;Y2是在满足约束(1),且与Y1不相关的条件下,其方差达到大;……;Yp是在满足约束(1),且与Y1,Y2,…,Yp-1不相关的条件下,在各种线性组合中方差达到最大者。满足上述约束得到的合成变量Y1,Y2,…,Yp分别称为原始变量的第一主成分、第二主成分、…、第p主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。第24页,共37页,2023年,2月20日,星期二三、主成分分析的计算步骤第25页,共37页,2023年,2月20日,星期二(一)计算相关系数矩阵(二)计算特征值与特征向量(三)计算主成分贡献率及累计贡献率(四)计算主成分载荷第26页,共37页,2023年,2月20日,星期二(一)计算相关系数矩阵
rij(i,j=1,2,…,p)为原变量xi与xj标准化后的相关系数,rij=rji,其计算公式为(3.5.3)
(3.5.4)
第27页,共37页,2023年,2月20日,星期二(二)计算特征值与特征向量1、解特征方程,求出特征值,并使其按大小顺序排列
2、分别求出对应于特征值的特征向量,要求=1,即,其中表示向量的第j个分量,也就是说为单位向量。第28页,共37页,2023年,2月20日,星期二29(三)计算主成分贡献率及累计贡献率主成分分析是把p个随机变量的总方差分解为p个不相关随机变量的方差之和1
+2
+…+P,则总方差中属于第i个主成分(被第i个主成分所解释)的比例为
称为第i个主成分的贡献率。定义
称为前m个主成分的累积贡献率,衡量了前m个主成份对原始变量的解释程度。第29页,共37页,2023年,2月20日,星期二
(四)计算主成分载荷
在主成分之间不相关时,主成分载荷就是主成
分zi与变量xj之间的相关系数第30页,共37页,2023年,2月20日,星期二因子分析法
(FactorAnalysis,FA)因子分析法概述因子分析法的模型附:主成分分析与因子分析的区别第31页,共37页,2023年,2月20日,星期二(一)因子分析法概述因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合。而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。因此因子分析法是主成分分析法的发展。第32页,共37页,2023年,2月20日,星期二(二)因子分析法的模型狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构。其步骤为:将原始数据标准化→求标准化数据的相关矩阵→求相关矩阵的特征值和特征向量→计算方差贡献率与累计方差贡献率→确定因子→因子旋转→用原始的线性组合求各因子得分→求综合得分→得分排序第33页,共37页,2023年,2月20日,星期二因子模型的表达式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025标准版个人购房合同书
- 2025合伙买车合同
- 2024-2025学年新教材高中生物 第二章 基因和染色体的关系 微专题四 伴性遗传的解题方法说课稿 新人教版必修第二册
- 预制楼板施工方案
- 肇庆钢板桩支护施工方案
- 别墅电梯出售合同范例
- 2023九年级数学下册 第二十九章 投影与视图29.1 投影第2课时 正投影说课稿 (新版)新人教版001
- 2024年四年级英语上册 Unit 3 Let's Go Lesson 15 In the City说课稿 冀教版(三起)
- 自然补偿管道施工方案
- 2024年四年级英语上册 Unit 1 My classroom The fifth period(第五课时)说课稿 人教PEP
- 陕西省2024年中考语文真题试卷【附答案】
- 河南省郑州市二七区2023-2024学年七年级下学期期末考试语文试题
- 中国历代政治得失-课件
- 燃气经营安全重大隐患判定标准课件
- 课件:森林的基本概念
- JB-T 8532-2023 脉冲喷吹类袋式除尘器
- 安全员继续教育考试题库1000道附参考答案(完整版)
- 专题16.7 二次根式章末八大题型总结(拔尖篇)-八年级数学下册(人教版)(解析版)
- 如何提高调查研究能力
- 电网两票培训课件
- 改革开放教育援藏的创新及其成效
评论
0/150
提交评论