数模2015主成分分析8989_第1页
数模2015主成分分析8989_第2页
数模2015主成分分析8989_第3页
数模2015主成分分析8989_第4页
数模2015主成分分析8989_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、zfv什么是主成分和主成分分析?什么是主成分和主成分分析?v理解主成分分析的基本思想和几何意义?理解主成分分析的基本思想和几何意义?v理解并掌握基于协方差矩阵或相关系数矩阵求解主成分?理解并掌握基于协方差矩阵或相关系数矩阵求解主成分?v如何确定主成分个数?如何确定主成分个数?v如何解释主成分?如何解释主成分?v掌握运用掌握运用SPSSSPSS软件求解主成分软件求解主成分v对软件输出结果进行正确分析对软件输出结果进行正确分析2022-5-322o 多个指标的问题多个指标的问题: :o 1 1、指标与指标可能存在相关关系、指标与指标可能存在相关关系o 信息重叠,分析偏误信息重叠,分析偏误o 2 2

2、、指标太多,增加问题的复杂性和分析难度、指标太多,增加问题的复杂性和分析难度o o 如何避免?如何避免?2022-5-3335.1 5.1 主成分分析的基本思想主成分分析的基本思想 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F

3、3。v 更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:F1F1F2F2F3F3i ii it tF1F11 1F2F20 01 1F3F30 00 01 1i i0.9950.995-0.041-0.0410.0570.057l li i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l lt t-0.369-0.369-0.282-0.282 -0.836-0.836-0.414-0.414-0.112-0.1121 12022-5-355主成分分析:将原

4、来具有相关关系的多个指标简化为少数几个主成分分析:将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。新的综合指标的多元统计方法。主成分:由原始指标综合形成的几个新指标。依据主成分所含主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。信息量的大小成为第一主成分,第二主成分等等。主成分与原始变量之间的关系:主成分与原始变量之间的关系: (1 1)主成分保留了原始变量绝大多数信息。)主成分保留了原始变量绝大多数信息。 (2 2)主成分的个数大大少于原始变量的数目。)主成分的个数大大少于原始变量的数目。 (3 3)各个主成分之间互不相

5、关。)各个主成分之间互不相关。 (4 4)每个主成分都是原始变量的线性组合。)每个主成分都是原始变量的线性组合。2022-5-3665.2 5.2 数学模型与几何解释数学模型数学模型与几何解释数学模型v 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,Fk(kp),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。v 这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。2022-

6、5-377原始指标的线性组合原始指标的线性组合Fi:满足如下的条件:满足如下的条件:1、每个主成分的系数平方和为、每个主成分的系数平方和为1。即。即2、主成分之间相互独立,即无重叠的信息。即、主成分之间相互独立,即无重叠的信息。即3、主成分的方差依次递减,重要性依次递减、主成分的方差依次递减,重要性依次递减ppppppppppXuXuXuFXuXuXuFXuXuXuF22112222121212121111122221ipiiuuupjijiFFCovji,),(210)()(21pFVarFVarFVar)(Why?AXXXXuuuuuuuuuFPpppppp2121222211121120

7、22-5-388v 假设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。如图所示:5.2 5.2 数学模型与几何解释几何解释数学模型与几何解释几何解释2F1F1x2x平移、旋转坐标轴2022-5-399v 由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。v 如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2

8、。Fl和F2是两个新变量。Fl轴方向上的离散程度最大,即轴方向上的离散程度最大,即Fl的方差最大。说明变量的方差最大。说明变量Fl代表了原代表了原始数据的绝大部分信息,即使不考虑变量始数据的绝大部分信息,即使不考虑变量F2也无损大局。也无损大局。2022-5-310102x1x1F2F平移、旋转坐标轴2022-5-311112x1x1F2F 平移、旋转坐标轴2022-5-31212v 根据旋转变换的公式:根据旋转变换的公式:cossinsincos212211xxyxxyxU2121cossinsincosxxyy正交矩阵,即有为旋转变换矩阵,它是UIUUUU,12022-5-31313v 旋

9、转变换的目的:将原始数据的大部分信息集中到旋转变换的目的:将原始数据的大部分信息集中到FlFl轴上,对轴上,对数据中包含的信息起到了浓缩作用。数据中包含的信息起到了浓缩作用。v 主成分分析的几何意义:主成分分析的过程也就是坐标旋转的主成分分析的几何意义:主成分分析的过程也就是坐标旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,过程,各主成分表达式就是新坐标系与原坐标系的转换关系,新坐标系中各坐标轴的方向就是原始数据方差最大的方向。新坐标系中各坐标轴的方向就是原始数据方差最大的方向。其优点:(其优点:(1)可达到简化数据结构的目的。()可达到简化数据结构的目的。(2)新产生的综合变量

10、)新产生的综合变量Fl,F2具有不相关的性质,从而避免了信息重叠所带来的虚假性。具有不相关的性质,从而避免了信息重叠所带来的虚假性。2022-5-31414 了解了主成分分析的基本思想、数学和几何意义后,问题的关键:1、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。2、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。3、如何解释主成分所包含的经济意义?202

11、2-5-31515v 主成分分析的目标:主成分分析的目标:v 1、从相关的、从相关的X1,X2,Xk,求出相互独立的新综合变量求出相互独立的新综合变量(主成分)(主成分)Y1,Y2Yk。v 2、Y(Y1,Y2Yk)的方差(反映信息的含量无遗漏)的方差(反映信息的含量无遗漏或损失的指标)等于或损失的指标)等于X(X1,X2Xk)的方差)的方差。v X与与Y之间的计算关系是:之间的计算关系是:v AXYXXaaaaYYkkkkkk即1111115.35.35.5 5.5 主成分的求解及其性质主成分的求解及其性质如何求解如何求解主成分?主成分?2022-5-31616矩阵知识回顾:矩阵知识回顾:(1

12、)特征根与特征向量)特征根与特征向量A、若对任意的、若对任意的k阶方阵阶方阵C,有数字,有数字与向量与向量满足:满足:,则称则称为为C的特征根,的特征根,为为C的相应于的相应于的特征向量。的特征向量。B、同时,方阵、同时,方阵C的特征根的特征根是是k阶方程阶方程的根。的根。(2)任一)任一k阶方阵阶方阵C的特征根的特征根的性质:的性质:C0 ICj对角线上的元素之和矩阵CCtrkjj)(12022-5-31717(3)任一)任一k阶的实对称矩阵阶的实对称矩阵C的性质:的性质:A、实对称矩阵、实对称矩阵C的非零特征根的数目的非零特征根的数目C的秩的秩B、k阶的实对称矩阵存在阶的实对称矩阵存在k个

13、实特征根个实特征根C、实对称矩阵的不同特征根的特征向量是正交的、实对称矩阵的不同特征根的特征向量是正交的D、若、若是实对称矩阵是实对称矩阵C的单位特征向量,则的单位特征向量,则若矩阵若矩阵,是由特征向量,是由特征向量所构成的,则有:所构成的,则有:jjjjCjkjjC0012022-5-31818基于协方差矩阵求解主成分基于协方差矩阵求解主成分v 假设有n个样本,每个样本有 p 个观测变量。运用主成分分析构造以下 p 个主成分关于原始变量的线性组合模型:pppppppppxaxaxaFpxaxaxaFxaxaxaF22112222121121211121AXXXXaaaaaaaaaFPpppp

14、pp21212222111211这就是正交旋转变换矩阵这就是正交旋转变换矩阵2022-5-31919v 假设假设p个原始变量的协方差阵为个原始变量的协方差阵为:PPPPPPX212222111211; 0,;,2231132112212211且不全为对角线外的元素的方差分别代表对角线上的元素pppppxxx这是个什这是个什么矩阵?么矩阵? 对角线外的元素不对角线外的元素不为为0 0意味着什么?意味着什么?2022-5-32020 对角线外的元素不全为对角线外的元素不全为0,意味着原始变量,意味着原始变量x1,x2,xp存在相关关系。存在相关关系。 如何运用主成分分析将这些具有相关关系的变量转化

15、为如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量(主成分)呢?没有相关关系的新变量(主成分)呢? 新变量之间没有相关关系,则意味着它的方差协方差阵新变量之间没有相关关系,则意味着它的方差协方差阵为对角矩阵:为对角矩阵:p001如何将如何将x转化转化为为并计算出新变并计算出新变量(主成分)量(主成分)?2022-5-32121v因为因为x为正定对称矩阵,所以依据线性代数的知识可知有正交为正定对称矩阵,所以依据线性代数的知识可知有正交矩阵矩阵A将将x旋转变换为:旋转变换为:pAA001X为协方差阵为协方差阵xx的特征根的特征根A A为协方差阵为协方差阵xx的特征根所对的特征根

16、所对应的特征向量。应的特征向量。如何计算如何计算x的特征的特征根根和特征向量和特征向量A?x的特征根的特征根1,2,p分别代表主成分分别代表主成分F1,F2,FP的方差的方差;且且12p正交变换矩阵正交变换矩阵A是是原始变量协方差阵原始变量协方差阵x的特征根的特征根对应的特征向量,且满足对应的特征向量,且满足AA=1.2022-5-32222基于协方差矩阵求解主成分的步骤基于协方差矩阵求解主成分的步骤1 1、 计算协方差矩阵和其特征根计算协方差矩阵和其特征根2 2、计算协方差矩阵特征根对应的特征向量、计算协方差矩阵特征根对应的特征向量3 3、第一主成分的系数等于协方差矩阵的第一大特征根对应、第

17、一主成分的系数等于协方差矩阵的第一大特征根对应的特征向量的特征向量 第二主成分的系数等于协方差矩阵的第二大特征根对应第二主成分的系数等于协方差矩阵的第二大特征根对应的特征向量,等等的特征向量,等等111aa0Iiiiaa)(21pkkiaF,Xii2022-5-323234、计算累积贡献率,给出恰当的主成分个数。、计算累积贡献率,给出恰当的主成分个数。5、计算所选出的、计算所选出的k个主成分的得分。将原始数据的中心化个主成分的得分。将原始数据的中心化值值:代入前代入前k个主成分的表达式,分别计算出各样本个主成分的表达式,分别计算出各样本k个主个主成分的得分。成分的得分。ppiiixxxxxx,

18、2211*XXXii2022-5-32424v 例1:假设已知 的协方差阵:v 请基于协方差阵求解主成分以及各主成分的方差贡献率、累计方差贡献率。200052021321),(xxxx 2022-5-32525()求协方差矩阵的特征根()求协方差矩阵的特征根依据求解依据求解()求特征根对应的特征向量()求特征根对应的特征向量0)2)(2)(2()2)(5)(1 (200052021I17.083.52312000. 0383. 0924. 0100000. 0924. 0383. 0321uuu0Iiiiuu1iiuu2022-5-32626()主成分:()各主成分的贡献率及累计贡献率:第一主

19、成分贡献率:第二主成分贡献率:第三主成分贡献率:第一和第二主成分的累计贡献率:)(924. 0)(383. 022111xxxxF332xxF)(383.0)(924.022113xxxxF72875. 0)17. 0283. 5/(83. 525. 0)17. 0283. 5/(202125. 0)17. 0283. 5/(17. 097875.0)17.0283.5/()283.5(2022-5-32727v 例2:已知原始变量 的协方差阵为:v v 求解主成分以及各主成分的方差贡献率、累计方差贡献率。321),(xxxx 100130412302162022-5-32828()求协方差矩

20、阵的特征根()求协方差矩阵的特征根()求特征根对应的特征向量()求特征根对应的特征向量010013041230216I4416100223013042303042)100)(1)(16(01076)100)(1)(16(738. 0469. 6793.109321iiiuu1iiuu2022-5-32929设第一特征根对应的特征向量为:则有:1312111uuuu111uu1312111312111312111312111312111793.109793.109793.10910030423021610013041230216uuuuuuuuuuuuuuuu951. 0041. 0305. 0

21、1u依据依据 有:有:1iiuu2022-5-33030o 类似可计算出第二,第三特征根对应的特征向量:o 第一,二,三主成分表达式:0028. 0992. 0127. 03u308. 0120. 0944. 02u)(002.0)(992.0)(127.0)(308.0)(120.0)(944.0)(951.0)(041.0)(305.0332211333221123322111xxxxxxFxxxxxxFxxxxxxF2022-5-33131o 由前面的特征根可计算各主成分的贡献率及累计贡献率:o 第一主成分贡献率o 第二主成分贡献率:938. 0117/973.109)738. 0469

22、. 6793.109/(793.1090553. 0117/469. 6)738. 0469. 6793.109/(469. 62022-5-33232v 1、主成分的协方差阵为对角矩阵;、主成分的协方差阵为对角矩阵;v 2、v 3、v 4、第第j个主成分的方差贡献为个主成分的方差贡献为:v v v ., 2 , 1,21pjpjpiiFVar321),()()()()()(321321xpptrXVarXVarXVarXVar主成分包含主成分包含了原始变量了原始变量的所有信息的所有信息协方差矩阵求解中主成分的性质协方差矩阵求解中主成分的性质该比率为第该比率为第j个主成分方差与原个主成分方差与

23、原始变量的总方差之比。始变量的总方差之比。2022-5-33333 k 个主成分的累积方差贡献率为: 累积方差贡献率越接近1,表示k 个主成分包含原始变量的信息越多。5. 主成分载荷:6. 主成分Fj与原始变量Xi相关系数的平方: (1)可看作为第j 个主成分可解释Xi多少比率的信息 (2)可看作为Xi在第j 个主成分中的相对重要性iijijjiijijjiaaFx),(iijijFxaji2),(2.,2121pkpk见书见书162162页页证明证明2022-5-33434基于相关系数矩阵求解主成分基于相关系数矩阵求解主成分v 假设假设p个原始变量的相关系数矩阵阵为个原始变量的相关系数矩阵阵

24、为:v 注意(注意(1):相关系数矩阵可看作原始变量协方差阵的标准化形相关系数矩阵可看作原始变量协方差阵的标准化形式,即:原始变量标准化的协方差矩阵。式,即:原始变量标准化的协方差矩阵。v 注意(注意(2):运用主成分分析法时,若原始变量量纲不一致时,运用主成分分析法时,若原始变量量纲不一致时,需对变量进行标准化处理基于协方差阵求解主成分;若不标准需对变量进行标准化处理基于协方差阵求解主成分;若不标准化则基于相关系数矩阵求解主成分。化则基于相关系数矩阵求解主成分。11121221112212222111211ppppppppppjjiijixxxxji),cov(),(这是个对称矩阵,这是个对

25、称矩阵,对角线外元素不全对角线外元素不全为为0 0见见5.5.15.5.1例例5 51 1(P168-170)P168-170)2022-5-33535o 量纲对于主成分分析的影响及消除方法量纲对于主成分分析的影响及消除方法对数据进行标准对数据进行标准化处理,以使每一个变量的均值为化处理,以使每一个变量的均值为0,方差为,方差为1。o 数据标准化后数据标准化后,总体的协方差矩阵与总体的相关系数相等。总体的协方差矩阵与总体的相关系数相等。)(*iiiiXDXEXX111),cov()()(),cov()()()(),cov(21212112*ppppjijijiijjijjiijiXXXDXDX

26、XXXEXEXXEXEXX2022-5-33636v计算步骤计算步骤 : :v 1 1、计算相关系数矩阵、计算相关系数矩阵. .v 2 2、 计算相关系数矩阵的特征根计算相关系数矩阵的特征根v 3 3、计算相关系数矩阵特征根对应的特征向量、计算相关系数矩阵特征根对应的特征向量v 4 4、第一主成分的系数等于相关系数矩阵的第一大特征根对应的特征向量、第一主成分的系数等于相关系数矩阵的第一大特征根对应的特征向量 v 第二主成分的系数等于相关系数矩阵的第二大特征根对应的特征向量第二主成分的系数等于相关系数矩阵的第二大特征根对应的特征向量v v 5 5、计算累积贡献率,给出恰当的主成分个数。、计算累积

27、贡献率,给出恰当的主成分个数。v 6 6、计算所选出的、计算所选出的k k个主成分的得分及前个主成分的得分及前k k个主成分的表达式:个主成分的表达式:)()(1*21XEX UXUF2022-5-33737 例题例题1:1:企业经济效益综合分析。用企业经济效益综合分析。用5 5个经济指标个经济指标 进行考核。用相关系数矩阵法进行考核。用相关系数矩阵法求解主成分。其中计算出的相关系数矩阵为:求解主成分。其中计算出的相关系数矩阵为: 499. 04168. 07316. 05621. 013668. 04244. 03475. 014545. 07536. 014532. 01),(54321x

28、xxxxx 2022-5-33838(1)计算其特征值:)计算其特征值:(2)各特征值的累计方差贡献率为:各特征值的累计方差贡献率为:(3)从以上方差贡献率看,)从以上方差贡献率看,k=2时主成分个数较为合适。时主成分个数较为合适。对应的特征向量为:对应的特征向量为:049. 0206. 0331. 0719. 1695. 254321000. 1990. 0949. 0883. 0539. 0/1pjkk21和520. 0074. 0470. 0503. 0501. 01u305. 0744. 0388. 0285. 0348. 02u2022-5-33939(4 4)建立第一和第二主成分:

29、)建立第一和第二主成分:*5*4*3*2*11520. 0074. 0470. 0503. 0501. 0 xxxxxF*5*4*3*2*12305. 0744. 0388. 0285. 0348. 0 xxxxxF2022-5-34040相关系数矩阵求解中主成分的性质相关系数矩阵求解中主成分的性质v1、主成分的协方差矩阵为对角阵、主成分的协方差矩阵为对角阵.v2.v3、v4、第、第k个主成分的方差贡献率为:个主成分的方差贡献率为:v前前k个主成分的累积方差贡献率为:个主成分的累积方差贡献率为:v5、主成分载荷:、主成分载荷:vv6、主成分载荷的平方:、主成分载荷的平方:*),(jijjiaF

30、x*22),(jijFxajipk/)(*1*3*2*1*),(piithenFVarLetpXVarXVarXVarXVarpp)()()()(321*3*2*1pk/*在解释第在解释第j个主个主成分的意义上成分的意义上起着重要作用起着重要作用(1)可看作为第)可看作为第j个主成分可解释个主成分可解释Xi多少比率的信息(或:多少比率的信息(或:Xi的信息有多的信息有多少可被第少可被第j个主成分解释);个主成分解释);(2)可看作为)可看作为Xi在第在第j个主成分中的相对重要性。个主成分中的相对重要性。2022-5-34141主成分个数的确定主成分个数的确定 累积方差贡献率(累积方差贡献率(C

31、umulativevarianceexplainedbycomponents):通常要求累积方差贡献率达到通常要求累积方差贡献率达到85%以上以上来确定主成分个数。来确定主成分个数。 特征根(特征根(eigenvalue):根据特征根来确定):根据特征根来确定;数数据标准化情况下:据标准化情况下: 碎石图(碎石图(Screeplot):依据特征值的变化来确定,即特):依据特征值的变化来确定,即特征值变化趋势图由陡坡变为平坦的转折点即为主成分选征值变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数。择的最佳个数。i111piiip2022-5-34242主成分的解释主成分的解释v 运用主成

32、分载荷解释主成分:运用主成分载荷解释主成分:v 陈耀辉,景睿沪深股市市场收益率成因的主成份分陈耀辉,景睿沪深股市市场收益率成因的主成份分析,南京航空航天大学学报,析,南京航空航天大学学报,20002000年年2 2期。期。v 蒋亮,罗汉我国东西部城市经济实力比较的主成分蒋亮,罗汉我国东西部城市经济实力比较的主成分分析,经济数学,分析,经济数学,20032003年年3 3期。期。v 运用主成分得分系数矩阵解释主成分:运用主成分得分系数矩阵解释主成分:v 王冬我国外汇储备增长因素主成分分析,北京王冬我国外汇储备增长因素主成分分析,北京工商大学学报,工商大学学报,20062006年年4 4期。期。v

33、 田波平等主成分分析在中国上市公司综合评价中的田波平等主成分分析在中国上市公司综合评价中的作用,数学的实践与认识,作用,数学的实践与认识,20042004年年4 4期期2022-5-34343v基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三支股票基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的三支股票(AlliedChemical,duPont,UnionCarbide)和石油产业的)和石油产业的2支股票(支股票(ExxonandTexaco)做了)做了100周的收益率调查(周的收益率调查(1975年年1月月1976年年10月)。月)。vv1)利用相关系数矩阵做主成

34、分分析。)利用相关系数矩阵做主成分分析。v2)决定要保留的主成分个数,并解释意义。)决定要保留的主成分个数,并解释意义。主成分解释的案例分析主成分解释的案例分析2022-5-34444o (1) (1) 相关系数矩阵:相关系数矩阵:10.5770.5090.3870.4620.57710.5990.3890.3220.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231运用主成分分析法进行分析得到以下结果:运用主成分分析法进行分析得到以下结果:p(2 2)相关系数矩阵的特征根:)相关系数矩阵的特征根:p Eigenvalue

35、s of the Eigenvalues of the Correlation MatrixCorrelation Matrixp Eigenvalue Difference Eigenvalue Difference Proportion CumulativeProportion Cumulativep PRIN1 2.85671 2.04755 0.571342 PRIN1 2.85671 2.04755 0.571342 0.571340.57134p PRIN2 0.80916 0.26949 0.161833 PRIN2 0.80916 0.26949 0.161833 0.7331

36、70.73317p PRIN3 0.53968 0.08818 0.107935 PRIN3 0.53968 0.08818 0.107935 0.841110.84111p PRIN4 0.45150 0.10855 0.090300 PRIN4 0.45150 0.10855 0.090300 0.931410.93141p PRIN5 0.34295 . PRIN5 0.34295 . 0.068590 1.000000.068590 1.00000p(3 3)特征根所对应的特征向量:)特征根所对应的特征向量:p Eigenvectors Eigenvectorsp PRIN1 PRIN

37、2 PRIN3 PRIN1 PRIN2 PRIN3 PRIN4 PRIN5PRIN4 PRIN5p X1 0.463605 -.240339 -.611705 X1 0.463605 -.240339 -.611705 0.386635 -.4512620.386635 -.451262p X2 0.457108 -.509305 0.178189 X2 0.457108 -.509305 0.178189 0.206474 0.6762230.206474 0.676223p X3 0.470176 -.260448 0.335056 - X3 0.470176 -.260448 0.335

38、056 -.662445 -.400007.662445 -.400007p X4 0.421459 0.525665 0.540763 X4 0.421459 0.525665 0.540763 0.472006 -.1755990.472006 -.175599p X5 0.421224 0.581970 -.435176 - X5 0.421224 0.581970 -.435176 -.382439 0.385024.382439 0.3850242022-5-34646p(4 4)前两大主成分的累积方差贡献率:)前两大主成分的累积方差贡献率:p(5 5)前两大主成分的表达式:)前两大

39、主成分的表达式:2022-5-34747 p(6 6)碎石图:)碎石图:2022-5-34848v 主成分的解释:主成分的解释:v 1、第一大主成分、第一大主成分PRIN1几乎是几乎是5只股票的等权只股票的等权平均;可将它看做股票收益率的平均;可将它看做股票收益率的“市场影响因素市场影响因素”(marketcomponent)v 2、第二大主成分、第二大主成分PRIN2系数在系数在AC,DP,UC(chemicalstocks)等等3只股票上表现为负,而在只股票上表现为负,而在EX,TE(oilstocks)等两只股票的系数表现为正;等两只股票的系数表现为正;可将可将它看作为股票收益率的它看作

40、为股票收益率的“行业影响因素行业影响因素”(industrycomponent)2022-5-349495.5 5.5 主成分分析求解应注意的问题:主成分分析求解应注意的问题:5.5.1 5.5.1 由协方差矩阵出发求解主成分所得的结果与由相关系数矩阵求由协方差矩阵出发求解主成分所得的结果与由相关系数矩阵求解主成分所得结果有很大不同:所得的主成分的方差贡献率与主成分解主成分所得结果有很大不同:所得的主成分的方差贡献率与主成分表达式均有显著差别。表达式均有显著差别。 (1 1)一般而言,对于度量单位不同的指标或是取值范围彼此差异)一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,

41、不直接由其协方差矩阵进行主成分分析,而应该考虑非常大的指标,不直接由其协方差矩阵进行主成分分析,而应该考虑将数据标准化。(若不标准化,则基于相关系数矩阵进行主成分分析)将数据标准化。(若不标准化,则基于相关系数矩阵进行主成分分析) 例:对上市公司的财务状况进行分析时,常常涉及利润总额、例:对上市公司的财务状况进行分析时,常常涉及利润总额、市盈率、每股净利率等。其中利润总额取值常在几十万到上百万或千市盈率、每股净利率等。其中利润总额取值常在几十万到上百万或千万,市盈率一般取值在五到六七十之间,而每股净利率在万,市盈率一般取值在五到六七十之间,而每股净利率在1 1以下,不以下,不同指标取值范围相差

42、很大,若直接用协方差矩阵进行主成分分析,利同指标取值范围相差很大,若直接用协方差矩阵进行主成分分析,利润总额的作用将起重要支配作用,而其他两个指标的作用很难在主成润总额的作用将起重要支配作用,而其他两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。分中体现出来,此时应该考虑对数据进行标准化处理。 2022-5-35050 (2 2)对同度量或是取值范围在同量级的数据,还是直接)对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。因为:对数据标准化的从协方差矩阵求解主成分为宜。因为:对数据标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,过程实际上

43、也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为标准化后的各变量方差相等均为1 1,而方差是数据信息,而方差是数据信息的重要概括形式。数据标准化后抹杀了一部分重要信息,的重要概括形式。数据标准化后抹杀了一部分重要信息,使得标准化后各变量在对主成分构成中的作用趋于相等。使得标准化后各变量在对主成分构成中的作用趋于相等。对于采用何种方法求解主成分没有定论。在实际研究中,从不同角度求解并研对于采用何种方法求解主成分没有定论。在实际研究中,从不同角度求解并研究其结果的差别以及产生差别的原因,以确定哪种结果更为可信。究其结果的差别以及产生差别的原因,以确定哪种结果更为可信。5.5.2

44、5.5.2 与很多多元统计分析方法不同,主成分分析不要求数据与很多多元统计分析方法不同,主成分分析不要求数据来自于正态总体。来自于正态总体。 实际上,主成分分析就是对矩阵结构的分析,其中主要用实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。5.5.3 5.5.3 主成分是有效剔除了原始变量中的重叠信息,还是按原主成分是有效剔除了原始变量中的重叠信息,还是按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,还值得讨论。

45、出来,还值得讨论。 如果计算所得协方差阵(或相关系数矩阵)的最小特征值如果计算所得协方差阵(或相关系数矩阵)的最小特征值接近于接近于0 0,则意味着中心化以后的原始变量之间存在着多重共,则意味着中心化以后的原始变量之间存在着多重共线性问题,即原始变量存在着不可忽视的重叠信息。此时应注线性问题,即原始变量存在着不可忽视的重叠信息。此时应注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选。意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选。对原始变量存在多重共线性问题,在应用主成分分析时一定要慎重,应考虑所选对原始变量存在多重共线性问题,在应用主成分分析时一定要慎重,应考虑所选初始变量是

46、否合适,是否真实地反映事物的本来面目;初始变量是否合适,是否真实地反映事物的本来面目;主成分分析不能有效地剔除重叠信息,但它至少可发现原始变量是否存在重叠信主成分分析不能有效地剔除重叠信息,但它至少可发现原始变量是否存在重叠信息,这对减少分析中的失误是有帮助的。息,这对减少分析中的失误是有帮助的。?2022-5-352525.65.6主成分分析步骤及框图主成分分析步骤及框图 主成分分析步骤:主成分分析步骤: 1.1.根据研究问题选取初始分析变量;根据研究问题选取初始分析变量; 2.2.根据初始变量特性判断由协方差阵求主成分还根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分;是由相关阵

47、求主成分; 3.3.求协差阵或相关阵的特征根与相应标准特征向求协差阵或相关阵的特征根与相应标准特征向量;量; 4.4.判断是否存在明显的多重共线性,若存在,则判断是否存在明显的多重共线性,若存在,则回到第一步;回到第一步; 5.5.得到主成分的表达式并确定主成分个数,选取得到主成分的表达式并确定主成分个数,选取主成分;主成分; 6.6.结合主成分对研究问题进行分析并深入研究。结合主成分对研究问题进行分析并深入研究。2022-5-35353 主成分分析框图:主成分分析框图:特征值特征值标准正交特征向量标准正交特征向量是否有接近是否有接近0 0的情况的情况是是其他处理其他处理否否主成分主成分对主成

48、分进行分析对主成分进行分析深入分析深入分析选择初始变量选择初始变量 度量或取值度量或取值范围相同?范围相同?是是否否(否)(否)对比对比分析相关阵分析相关阵分析协方差阵分析协方差阵 2022-5-354545.7 5.7 主成分分析的上机实现主成分分析的上机实现SPSS SPSS 操作操作 1、analyze-descriptionstatistic-description-savestandardizedasvariables (若需要数据标准化,则进行该操作,一般在主成分(若需要数据标准化,则进行该操作,一般在主成分分析过程中软件已自动进行了此操作)分析过程中软件已自动进行了此操作) 2、

49、analyze-datareduction-Factor 3、指定参与分析的变量、指定参与分析的变量 4、运行、运行factor过程过程2022-5-35555o Example1:Anindustryanalystwouldliketopredictautomobilesalesfromasetofpredictors.However,manyofthepredictorsarecorrelated,andtheanalystfearsthatthismightadverselyaffectherresults.o Thisinformationiscontainedinthefilecar

50、_sales.sav.UseFactorAnalysiswithprincipalcomponentsextractiontofocustheanalysisonamanageablesubsetofthepredictors2022-5-35656 Torunaprincipalcomponentsfactoranalysis,fromthemenuschoose:AnalyzeDataReductionFactor.SelectVehicletypethroughFuelefficiencyasanalysisvariables.2022-5-35757 ClickDescriptives

51、;thenselectinitialsolutionandcoefficients.Clickcontinue2022-5-358582022-5-35959 2022-5-360602022-5-36161 2022-5-362622022-5-36363 2022-5-364642022-5-36565分析结果:分析结果:1.1.描述性统计描述性统计均值、标准差等的描述均值、标准差等的描述Descriptive Statistics Vehicle type.26.442152Price in thousands27.3318214.418669152Engine size3.0491.0

52、498152Horsepower184.8156.823152Wheelbase107.4147.7178152Width71.0893.4647152Length187.05913.4712152Curb weight3.37618.636593152Fuel capacity17.9593.9376152 MeanStd. DeviationAnalysis NFuel efficiency23.844.3051522022-5-366662.2.相关系数矩阵相关系数矩阵描述原始变量之间是否存描述原始变量之间是否存在相关关系在相关关系Correlation Matrix1.000-.042

53、.269.017.397.260.150.526.599-.577-.0421.000.624.841.108.328.155.527.424-.492.269.6241.000.837.473.692.542.761.667-.737.017.841.8371.000.282.535.385.611.505-.616.397.108.473.2821.000.681.840.651.657-.497.260.328.692.535.6811.000.706.723.663-.602.150.155.542.385.840.7061.000.629.571-.448.526.527.761.6

54、11.651.723.6291.000.865-.820.599.424.667.505.657.663.571.8651.000-.802-.577-.492-.737-.616-.497-.602-.448-.820-.8021.000Vehicle typePrice in thousandsEngine sizeHorsepowerWheelbaseWidthLengthCurb weightFuel capacityFuel efficiencyCorrelationVehicle typePrice inthousandsEngine sizeHorsepowerWheelbase

55、WidthLengthCurb weightFuel capacityFuel efficiencyTheoff-diagonalelementsofthecorrelationmatrixarenotallzero,andmuchofthesearemorethan0.5.whichindicates?CouldthePCAbeused?2022-5-367673.3.共同度检查共同度检查CommunalitiesVehicle type1.000.930Price in thousands1.000.876Engine size1.000.843Horsepower1.000.933Whe

56、elbase1.000.881Width1.000.776Length1.000.919Curb weight1.000.891Fuel capacity1.000.861 InitialExtractionFuel efficiency1.000.860Extraction Method: Principal Component Analysis. Communalitiesindicatetheamountofvarianceineachvariablethatisaccountedfor.Initialcommunalitiesareestimatesofthevarianceineac

57、hvariableaccountedforbyallcomponentsorfactors.Forprincipalcomponentsextraction,thisisalwaysequalto1.0forcorrelationanalyses.Extractioncommunalitiesareestimatesofthevarianceineachvariableaccountedforbythecomponents.Thecommunalitiesinthistableareallhigh,whichindicatesthattheextractedcomponentsrepresen

58、tthevariableswell.Ifanycommunalitiesareverylowinaprincipalcomponentsextraction,youmayneedtoextractanothercomponent.0.930,0.876denoteswhat?iftheExtractioncommunalitiesareverylow,whatcanwedo?Ifweusethecovarianceanalyses,whatwouldhappenoftheinitialcommunalities?2022-5-368684.4.碎石图(陡坡检查)碎石图(陡坡检查)除去坡线平坦部

59、分的主成分(因子)除去坡线平坦部分的主成分(因子)图中第三个因子以后较为平坦,故保留图中第三个因子以后较为平坦,故保留3 3个因子个因子Scree PlotComponent Number10987654321Eigenvalue76543210Thescreeplothelpsyoutodeterminetheoptimalnumberofcomponents.Theeigenvalueofeachcomponentintheinitialsolutionisplotted.Generally,youwanttoextractthecomponentsonthesteepslope.Thec

60、omponentsontheshallowslopecontributelittletothesolution.Thelastbigdropoccursbetweenthethirdandfourthcomponents,sousingthefirstthreecomponentsisaneasychoice.2022-5-369695.方差贡献率检验方差贡献率检验取特征值大于取特征值大于1的因子,共有的因子,共有3个,分别(个,分别(5.994)()(1.654)(1.123);方差贡献率分别为(方差贡献率分别为(59.94%)()(16.54%)()(11.23%)Total varian

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论