版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析与因子分析 第七章 主成分分析 v7.1 引言 v7.2 总体的主成分 v7.3 样本的主成分 主成分分析与因子分析 7.1 引言 v主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来 被霍特林(Hotelling,1933)发展了。 v主成分分析是一种通过降维技术把多个变量化为少 数几个主成分(即综合变量)的统计分析方法。这些 主成分能够反映原始变量的绝大部分信息,它们通 常表示为原始变量的某种线性组合。 v主成分分析的一般目的是:(1)变量的降维;(2)主成 分的解释。 主成分分析与因子分析 寻
2、找主成分的正交旋转 v旋转公式: 112 212 cossin sincos yxx yxx 主成分分析与因子分析 7.2 总体的主成分 v一、主成分的定义及导出 v二、主成分的性质 v三、从相关阵出发求主成分 主成分分析与因子分析 一、主成分的定义及导出 v设 为一个 维随机向量, , 。考虑如下的线性变换 希望在约束条件 下寻求向量 ,使 得 达到最大, 就称为第一主成分。 v设 为 的特征值, 为相应的单位特征向量,且相互正交。 则可求得第一主成分为 它的方差具有最大值 。 12 ( ,) p x xxxp 111 121211pp ya xa xa x a x 1 1 1a a 1 a
3、 111 V y a a 1 y 12 0 p 12 , iiipi ttt t 1,2,ip 111 121211pp yt xt xt xt x 1 Ex Vx 主成分分析与因子分析 v如果第一主成分所含信息不够多,还不足以代表原 始的 个变量,则需考虑再使用一个综合变 量 ,为使 所含的信息与 不重叠,应要求 我们在此条件和约束条件 下寻求向量 ,使 得 达到最大,所求的 称为第二主成 分。求得的第二主成分为 其方差为 。 v一般来说, 的第 主成分是指:在约束条件 和 下寻求 ,使 得 达到最大。第 主成分为 p 22 y a x 2 y 1 y 12 Cov,0y y 22 1a a
4、 2 a 222 V y a a 2 y 212 122222pp yt xt xtxt x 2 xi 1 ii a a Cov,0,1,2,1 ki yyki i a iii V y a ai 1122 ,1,2, iiipipi yt xt xt xipt x 主成分分析与因子分析 主成分的几何意义 v在几何上, 表明了第 主成分的方向, 是 在 上的投影值(即投影长度), 是这些值的方差, 它反映了在 上投影点的分散程度。 v记 ,则主成分向量 与原始向量 有如下关系: 该正交变换的几何意义是将 中由 构成的 原 维坐标轴作一正交旋转,一组正交单位向 量 表明了 个新坐标轴的方向,这些新
5、坐 标轴彼此仍保持正交(或说垂直)。 i t i i y x i t i i t 12 , p y yy yyx T yx p R 12 , p x xx p p 12 , p t tt 主成分分析与因子分析 二、主成分的性质 v1.主成分向量的协方差矩阵 其中 ,即 , 且 互不相关。 v2.主成分的总方差 由于 故 或 Vy 12 diag, p ,1,2, ii V yip 12 , p y yy trtrtrtr AT TTT 11 pp iii ii 11 pp ii ii V yV x 主成分分析与因子分析 v总方差中属于第 主成分 (或被 所解释)的比例 为 称为主成分 的贡献率
6、。 v第一主成分 的贡献率最大,表明它解释原始变量 的能力最强,而 的解释能力依 次递减。 v主成分分析的目的就是为了减少变量的个数,因而 一般是不会使用所有 个主成分的,忽略一些带有 较小方差的主成分将不会给总方差带来大的影响。 i i y 1 p ii i i y i y 1 y 12 , p x xx 23 , p yyy p 主成分分析与因子分析 v前 个主成分的贡献率之和 称为主成分 的累计贡献率,它表明 解释 的能力。 v通常取(相对于 )较小的 ,使得累计贡献达到一个 较高的百分比(如8090)。此时, 可用来代替 ,从而达到降维的目的,而信 息的损失却不多。 m 11 pm i
7、i ii 12 , m y yy 12 , m y yy 12 , p x xx pm 12 , m y yy 12 , p x xx 主成分分析与因子分析 v3.原始变量 与主成分 之间的相关系数 v在实际应用中,通常我们只对 与 的相关系数感兴趣。 ,1,2, k ikik ii x yti kp (1,2, ) i x ip (1,2,) k y km i x k y 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 三、从相关阵出发求主成分 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 v现比较本例中从 出
8、发和例中从 出发的主成分计 算结果。从 出发的 的贡献率0.705明显小于从 出发的 的贡献率0.938,事实上,原始变量方差之 间的差异越大,这一点也就倾向于越明显,()式 有助于我们理解之。 可用标准化前的原变 量表达如下: R R * 1 y 1 y * 123 ,yyy * 331122 1 112233 0.6270.4970.600 4110 0.1570.4970.060 xxx y xxx 主成分分析与因子分析 v可见, 在原变量 上的载荷相对大小与例中 在 上的载荷相对大小之间有着非常大的差异。 这说明,标准化后的结论完全可能会发生很大的变 化,因此标准化不是无关紧要的。 *
9、 331122 2 112233 0.2410.8560.457 4110 0.0600.8560.046 xxx y xxx * 331122 3 112233 0.7410.1420.656 4110 0.1850.1420.066 xxx y xxx * i y 123 ,x x x i y 123 ,x x x 主成分分析与因子分析 7.3 样本的主成分 v我们可以从协差阵 或相关阵 出发求得主成分。 但在实际问题中, 或 一般都是未知的,需要通 过样本来进行估计。设数据矩阵为 则样本协差阵和样本相关阵分别为 R R 11121 1 21222 2 12 p p nnnp n xxx
10、xxx xxx x x X x 1 1 ()() 1 n iiij i s n Sxx xx , ij ijij iijj s rr ss R 主成分分析与因子分析 7.3 样本的主成分 v一、样本主成分的定义 v二、从 出发求主成分 v三、从 出发求主成分 v四、主成分分析的应用 v五、若干补充及应用中需注意的问题 S R 主成分分析与因子分析 一、样本主成分的定义 v若向量 在约束条件 下,使得的样本方差 达到最大,则称线性组合 为第一样本主成分。 若向量 在约束条件 和 的样本协方差 1 a 1 1 1a a 2 11 1 1111 1 1 1 1 1 n j j n jj j n n
11、a xa x axxxxaa Sa 11 y a x 2 a 22 1a a 1121122212 , nn a x a xa x a xa x a x 主成分分析与因子分析 下,使得 的样本方差 达到最大,则称线性组合 为第二样本主成分。 一般地,若向量 在约束条件 和 的样本协方差 1122 1 1212 1 1 1 1 0 1 n jj j n jj j n n a xa xa xa x axxxx aa Sa 21222 , n a x a xa x 2 2222 1 1 1 n j j n a xa xa Sa 22 y a x i a1 ii a a 1 1 0,1,2,1 1 n
12、 kjkijiki j ki n a xa xa xa xa Sa 1122 , kikiknin a x a xa x a xa x a x 主成分分析与因子分析 下,使得的样本方差 达到最大,则称线性组合 为第 样本主成 分, 。 v需要指出的是,样本主成分是使样本方差而非方差 达到最大,是使样本协方差而非协方差为零。 2 1 1 1 n ijiii j n a xa xa Sa i i y a x i 1,2,ip 主成分分析与因子分析 S 主成分分析与因子分析 主成分得分 v在实际应用中,我们常常让 减去 ,使样本数据 中心化。这不影响样本协差阵 ,在前面的论述中 惟一需要变化的是,将
13、第 主成分改写成中心化的 形式,即 v若将各观测值 代替上式中的观测值向量 ,则第 主成分的值 称之为观测值 的第 主成分得分。所有观测值的 平均主成分得分 j x x S i j x xi j xi ,1,2, ii yiptxx ,1,2, jiij yiptxx 11 11 0,1,2, nn ijiij jj yynip nn txx 主成分分析与因子分析 三、从 出发求主成分 v设样本相关阵 的 个特征值为 , 为相应的正交单位特征向量,则第 样本 主成分 v其中 是各分量经(样本)标准化了的向量,即 R R p * 12 p * 12 , p t tti * ,1,2, ii yi
14、pt x * x *1 xDxx 1122 diag, pp sssD 主成分分析与因子分析 v令 这是 的各分量数据经标准化后的数据向量,将其 代替上述样本主成分公式中的 ,即得观测值 在 第 主成分上的得分 所有观测值的平均主成分得分 *1 jj xDxx j x * x j x i * ,1,2, jiij yipt x * 11 11 0,1,2, nn ijiij jj yyip nn tx 主成分分析与因子分析 四、主成分分析的应用 v在主成分分析中,我们首先应保证所提取的前几个 主成分的累计贡献率达到一个较高的水平(即变量 降维后的信息量须保持在一个较高水平上),其次 对这些被提
15、取的主成分必须都能够给出符合实际背 景和意义的解释(否则主成分将空有信息量而无实 际含义)。 v主成分的解释其含义一般多少带有点模糊性,不像 原始变量的含义那么清楚、确切,这是变量降维过 程中不得不付出的代价。因此,提取的主成分个数 m通常应明显小于原始变量个数p(除非p本身较 小),否则维数降低的“利”可能抵不过主成分含 义不如原始变量清楚的“弊”。 主成分分析与因子分析 v如果原始变量之间具有较高的相关性,则前面少数 几个主成分的累计贡献率通常就能达到一个较高水 平,也就是说,此时的累计贡献率通常较易得到满 足。 v主成分分析的困难之处主要在于要能够给出主成分 的较好解释,所提取的主成分中
16、如有一个主成分解 释不了,整个主成分分析也就失败了。 v主成分分析是变量降维的一种重要、常用的方法, 简单的说,该方法要应用得成功,一是靠原始变量 的合理选取,二是靠“运气”。 主成分分析与因子分析 例 v在制定服装标准的过程中,对128名成年男子的身 材进行了测量,每人测得的指标中含有这样六项: 身高( )、坐高( )、胸围( )、手臂长( )、肋围( ) 和腰围( )。所得样本相关矩阵列于下表。 2 x 1 x 3 x 4 x 5 x 6 x 主成分分析与因子分析 v 经计算,相关阵 的前三个特征值、相应的特征向 量以及贡献率列于下表。 R 主成分分析与因子分析 v前三个主成分分别为 v从
17、上述表中可以看到,前两个主成分的累计贡献率 已达78.2,前三个主成分的累计贡献率达85.9, 因此可以考虑只取前面两个或三个主成分,它们能 够很好地概括原始变量。 v第一主成分 对所有(标准化)原始变量都有近似相等 的正载荷,故称第一主成分为(身材)大小成分。 * 1123456 0.4690.4040.3940.4080.3370.427yxxxxxx * 2123456 0.3650.3970.3970.3650.5690.308yxxxxxx * 3123456 0.0920.6130.2790.7050.1640.119yxxxxxx 1 y 主成分分析与因子分析 v第二主成分 在
18、上有中等程度的正载荷,而 在 上有中等程度的负载荷,称第二主成分为 形状成分(或胖瘦成分)。 v第三主成分 在 上有大的正载荷,在 上有大的 负载荷,而在其余变量上的载荷都较小,可称第三 主成分为臂长成分。 v由于第三主成分的贡献率不高(7.65)且实际意义 也不太重要,因此我们一般可考虑取前两个主成分。 v由于 非常小,所以存在共线性关系: 2 y * 356 ,x x x * 124 ,x x x 3 y * 2 x * 4 x 66 0.126,( 0.786,0.433, 0.125,0.371,0.034,0.179) t 6 * 123456 0.7860.4430.1250.37
19、10.0340.1790 xxxxxx 主成分分析与因子分析 例 v在习题6.5中,如下八项男子径赛运动记录: :100米(秒) :1500米(分) :200米(秒) :5000米(分) :400米(秒) :10000米(分) :800米(秒) :马拉松(分) 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 主成分分析与因子分析 五、若干补充及应用中需注意的问题 v1.关于时间序列数据 v2.主成分用于聚
20、类分析 v3.关于不同时期的主成分分析 v4.对综合得分方法的质疑 主成分分析与因子分析 因子分析因子分析 主成分分析与因子分析 一、前言一、前言 v变量的相关性变量的相关性 公共因子?公共因子? v将多个实测变量转换成少数几个将多个实测变量转换成少数几个 不相关的综合指数不相关的综合指数 主成分分析与因子分析 二、因子分析模型二、因子分析模型 一般地,设一般地,设X=(x1, x2, ,xp)为可观测为可观测 的随机变量,且有的随机变量,且有 vf=(f1,f2,fm)为公共(共性)因子为公共(共性)因子 (common factor),简称因子简称因子(factor) imimiiii e
21、fafafaX 2211 主成分分析与因子分析 ve=(e1,e2,ep)为特殊因子为特殊因子(specific factor) f f和和e e均为不可直接观测的随机变量均为不可直接观测的随机变量 v=(1,2,p)为随机变量为随机变量x x的总体的总体 均值均值 vA=(aij)p*m为因子负荷(载荷为因子负荷(载荷) (factor loading)矩阵矩阵 主成分分析与因子分析 通常先对通常先对x作标准化处理,使标准化得到的新作标准化处理,使标准化得到的新 变量均值为零,方差为这样就有变量均值为零,方差为这样就有 假定()假定()fi的均数为,方差为;的均数为,方差为; ()()e e
22、i i的均数为,方差为的均数为,方差为i i; ()() fi与与e ei i相互独立相互独立 则称则称x x为具有为具有m m个公共因子的因子模型个公共因子的因子模型 imimiii efafafax 2211 主成分分析与因子分析 如果再满足()如果再满足()f fi i与与f fj j相互独立相互独立 (ij),),则称该因子模型为正交因子则称该因子模型为正交因子 模型。模型。 正交因子模型具有如下特性:正交因子模型具有如下特性: vx x的方差可表示为的方差可表示为 设设 iimiii aaaxVar 22 2 2 1 1)( 22 2 2 1 2 imiii aaah 主成分分析与因
23、子分析 ()()hi2是是m个公共因子对第个公共因子对第i i个变量个变量 的贡献,称为第的贡献,称为第i i个共同度个共同度 (communality)或共性方差,公因或共性方差,公因 子方差子方差(common variance) ()()i i称为特殊方差称为特殊方差(specific variance),),是不能由公共因子解释是不能由公共因子解释 的部分的部分 主成分分析与因子分析 v因子载荷(负荷)因子载荷(负荷)a aij ij是随机变量 是随机变量x xi i与与 公共因子公共因子f fj j的相关系数。的相关系数。 v设设 称称g gj j2 2为公共因子为公共因子f fj
24、j对对x x的的“贡献贡献”,是,是 衡量公共因子衡量公共因子f fj j重要性的一个指标。重要性的一个指标。 22 1 1,2,., p jij i ga jm 主成分分析与因子分析 三、因子分析的步骤三、因子分析的步骤 v输入原始数据输入原始数据xn*p,计算样本均值和方,计算样本均值和方 差,进行标准化计算(处理);差,进行标准化计算(处理); v求样本相关系数矩阵求样本相关系数矩阵R=(rij)p*p; v求相关系数矩阵的特征根求相关系数矩阵的特征根i (1,2,p0)和相应的标准正交的特征和相应的标准正交的特征 向量向量li; 主成分分析与因子分析 v确定公共因子数;确定公共因子数;
25、 v计算公共因子的共性方差计算公共因子的共性方差hi2; v对载荷矩阵进行旋转,以求能更好地对载荷矩阵进行旋转,以求能更好地 解释公共因子;解释公共因子; v对公共因子作出专业性的解释。对公共因子作出专业性的解释。 主成分分析与因子分析 四、因子分析提取因子的方法四、因子分析提取因子的方法 v主成分法主成分法(principal component factor) 1,2,.,;1,2,., ijjji al ip jm 主成分分析与因子分析 每一个公共因子的载荷系数之平方和每一个公共因子的载荷系数之平方和 等于对应的特征根,即该公共因子的等于对应的特征根,即该公共因子的 方差。方差。 22
26、1 p jijj i ag 主成分分析与因子分析 v极大似然法极大似然法(maximum likelihood factor) 假定原变量服从正态分布,公共因假定原变量服从正态分布,公共因 子和特殊因子也服从正态分布,构子和特殊因子也服从正态分布,构 造因子负荷和特殊方差的似然函数,造因子负荷和特殊方差的似然函数, 求其极大,得到唯一解。求其极大,得到唯一解。 主成分分析与因子分析 v主因子法主因子法(principal factor) 设原变量的相关矩阵为设原变量的相关矩阵为R=(rij),其其 逆矩阵为逆矩阵为R-1=(rij)。各变量特征方差各变量特征方差 的初始值取为逆相关矩阵对角线元
27、的初始值取为逆相关矩阵对角线元 素的倒数,素的倒数,i=1/rii。则共同度的初则共同度的初 始值为始值为(hi)2=1- i=1-1/rii。 主成分分析与因子分析 以以(hi)2代替相关矩阵中的对角线上的元素,代替相关矩阵中的对角线上的元素, 得到约化相关矩阵。得到约化相关矩阵。 (h1)2 r12 r1p r21 (h2)2 r2p R= . . . . . . rp1 rp2 (hp)2 R的前的前m个特征根及其对应的单位化特征个特征根及其对应的单位化特征 向量就是主因子解。向量就是主因子解。 主成分分析与因子分析 v迭代主因子法迭代主因子法(iterated principal fa
28、ctor) 主因子的解很不稳定。因此,常以估主因子的解很不稳定。因此,常以估 计的共同度为初始值,构造新的约化计的共同度为初始值,构造新的约化 矩阵,再计算其特征根及其特征向量,矩阵,再计算其特征根及其特征向量, 并由此再估计因子负荷及其各变量的并由此再估计因子负荷及其各变量的 共同度和特殊方差,再由此新估计的共同度和特殊方差,再由此新估计的 共同度为初始值继续迭代,直到解稳共同度为初始值继续迭代,直到解稳 定为止。定为止。 主成分分析与因子分析 vHeywood现象现象 v残差矩阵残差矩阵 主成分分析与因子分析 五、因子旋转五、因子旋转 v目的:使因子负荷两极分化,要么目的:使因子负荷两极分化,要么 接近于接近于0,要么接近于,要么接近于1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林艺术学院《素描Ⅰ》2021-2022学年第一学期期末试卷
- 吉林艺术学院《电影剧作构成》2021-2022学年期末试卷
- 2024年公寓租赁消防合同范本
- 2024年大型园林转让合同范本
- 2024年大批油罐车转让协议书模板
- 2022年公务员多省联考《申论》真题(黑龙江省市卷)及答案解析
- 2022年内蒙古省公务员录用考试《行测》真题及答案解析
- 2022年公务员多省联考《申论》真题(宁夏C卷)及答案解析
- 吉林师范大学《世界现代史》2021-2022学年第一学期期末试卷
- 吉林师范大学《国画技法训练》2021-2022学年第一学期期末试卷
- 授权书-手机终端销售
- 古代汉语智慧树知到期末考试答案章节答案2024年内江师范学院
- HYT 116-2008 蒸馏法海水淡化蒸汽喷射装置通 用技术要求(正式版)
- 2024保密知识竞赛题库(完整版)
- 人体常见病智慧树知到期末考试答案章节答案2024年
- 2024年4月自考06962工程造价确定与控制试题
- SYT 7628-2021 油气田及管道工程计算机控制系统设计规范-PDF解密
- 设计项目组织管理方案
- 35kv集电线路监理标准细则
- 幼儿园中班科学《多变的天气》课件
- 贸易安全课件
评论
0/150
提交评论