多元统计分析主成分分析_第1页
多元统计分析主成分分析_第2页
多元统计分析主成分分析_第3页
多元统计分析主成分分析_第4页
多元统计分析主成分分析_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析主成分分析第一页,共八十三页,编辑于2023年,星期五主成分分析的基本思想主成分的计算主成分的性质主成分分析的应用主成分回归第二页,共八十三页,编辑于2023年,星期五

一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。§1

基本思想第三页,共八十三页,编辑于2023年,星期五

在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:第四页,共八十三页,编辑于2023年,星期五

F1F2F3iitF11

F201

F3001

i0.995-0.0410.057l

i-0.0560.948-0.124-0.102l

t-0.369-0.282-0.836-0.414-0.1121第五页,共八十三页,编辑于2023年,星期五主成分分析的基本思想

主成分分析就是把原有的多个指标转化成少数几个代表性较好的综合指标,这少数几个指标能够反映原来指标大部分的信息(85%以上),并且各个指标之间保持独立,避免出现重叠信息。主成分分析主要起着降维和简化数据结构的作用。第六页,共八十三页,编辑于2023年,星期五

主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。

在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。

第七页,共八十三页,编辑于2023年,星期五

主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。

很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。第八页,共八十三页,编辑于2023年,星期五§2数学模型与几何解释

假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论m个新的指标F1,F2,…,Fm(m<p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。第九页,共八十三页,编辑于2023年,星期五其中第十页,共八十三页,编辑于2023年,星期五

这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。第十一页,共八十三页,编辑于2023年,星期五所以如果不对加以限制,问题就变得无意义。最大因此限制为单位向量。第十二页,共八十三页,编辑于2023年,星期五满足如下的条件:主成分之间相互独立,即无重叠的信息。即主成分的方差依次递减,重要性依次递减,即每个主成分的系数平方和为1。即第十三页,共八十三页,编辑于2023年,星期五•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴第十四页,共八十三页,编辑于2023年,星期五•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•第十五页,共八十三页,编辑于2023年,星期五••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•第十六页,共八十三页,编辑于2023年,星期五

旋转变换的目的是为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。第十七页,共八十三页,编辑于2023年,星期五Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的n个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。第十八页,共八十三页,编辑于2023年,星期五•••••••••••••••••••••••••••••••••••••主成分分析的几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••第十九页,共八十三页,编辑于2023年,星期五§3

主成分的计算先讨论二维情形求主成分F1和F2。第二十页,共八十三页,编辑于2023年,星期五观察图,我们已经把主成分F1和F2

的坐标原点放在平均值所在处,从而使得F1和F2

成为中心化的变量,即F1和F2

的样本均值都为零。第二十一页,共八十三页,编辑于2023年,星期五因此F1可以表示为关键是,寻找合适的单位向量,使F1的方差最大。最大问题的答案是:X的协方差矩阵S的最大特征根所对应的单位特征向量即为。并且就是F1的方差。推导第二十二页,共八十三页,编辑于2023年,星期五同样,F2可以表示为寻找合适的单位向量,使F2与F1独立,且使F2的方差(除F1之外)最大。问题的答案是:X的协方差矩阵S的第二大特征根所对应的单位特征向量即为。并且就是F2的方差。推导第二十三页,共八十三页,编辑于2023年,星期五求解主成分的步骤:1.求样本均值和样本协方差矩阵S;2.求S的特征根求解特征方程,其中I是单位矩阵,解得2个特征根3.求特征根所对应的单位特征向量4.写出主成分的表达式第二十四页,共八十三页,编辑于2023年,星期五例1

下面是8个学生两门课程的成绩表

6585709065455565数学10090707085555545语文对此进行主成分分析。1.求样本均值和样本协方差矩阵第二十五页,共八十三页,编辑于2023年,星期五2.求解特征方程=0

化简得:

解得:

第二十六页,共八十三页,编辑于2023年,星期五3.求特征值所对应的单位特征向量

所对应的单位特征向量,

其中解得()=

所对应的单位特征向量

,其中解得:第二十七页,共八十三页,编辑于2023年,星期五4.得到主成分的表达式

第二主成分:第一主成分:5.主成分的含义通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。第一主成分F1是和的加权和,表示该生成绩的好坏。第二主成分F2表示学生两科成绩的均衡性第二十八页,共八十三页,编辑于2023年,星期五6.

比较主成分重要性

第一主成分F1的方差为第二主成分F2的方差为方差贡献率

方差贡献率为

主成分F1和F2的方差总和为原变量和的方差总和为总方差保持不变第二十九页,共八十三页,编辑于2023年,星期五身高x1(cm)胸围x2(cm)体重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例2下表是10位学生的身高、胸围、体重的数据。对此进行主成分分析。第三十页,共八十三页,编辑于2023年,星期五1.求样本均值和样本协方差矩阵

2.求解协方差矩阵的特征方程

3.解得三个特征值

和对应的单位特征向量:第三十一页,共八十三页,编辑于2023年,星期五4.由此我们可以写出三个主成分的表达式:

5.主成分的含义F1表示学生身材大小。F2反映学生的体形特征第三十二页,共八十三页,编辑于2023年,星期五三个主成分的方差贡献率分别为:前两个主成分的累积方差贡献率为:

第三十三页,共八十三页,编辑于2023年,星期五例3对88个学生5门不同课程的考试成绩进行分析,要求用合适的方法对这5门课程成绩进行平均,以对88个学生的成绩进行评比。这5门课程是:MechanicsVectors(闭),AlgebraAnalysisStatistics(开)。经计算,得到5个主成分的表达式如下:第三十四页,共八十三页,编辑于2023年,星期五这5个主成分的方差分别为679.2,199.8,102.6,83.7和31.8。前两个主成分各自的贡献率和累积贡献率为第三十五页,共八十三页,编辑于2023年,星期五在一般情况下,设有n个样品,每个样品观测p个指标,将原始数据排成如下矩阵:

第三十六页,共八十三页,编辑于2023年,星期五求样本均值和样本协方差矩阵S;2.求解特征方程=0,其中I是单位矩阵,解得p个特征根3.求所对应的单位特征向量

即需求解方程组其中

第三十七页,共八十三页,编辑于2023年,星期五

再加上单位向量的条件解得4.写出主成分的表达式

第三十八页,共八十三页,编辑于2023年,星期五根据累积贡献率的大小取前面m个(m<p)主成分选取原则:

且主成分个数的选取原则第三十九页,共八十三页,编辑于2023年,星期五例4设的协方差矩阵为经计算,的特征值为相应的主成分分别为第一主成分的方差贡献率为:第四十页,共八十三页,编辑于2023年,星期五§4R型分析第四十一页,共八十三页,编辑于2023年,星期五为消除量纲影响,在计算之前先将原始数据标准化。标准化变量的S=R,所以用标准化变量进行主成分分析相当于从原变量的相关矩阵R

出发进行主成分分析。统计学上称这种分析法为R型分析,由协方差矩阵出发的主成分分析为S型分析。

S型分析和R型分析的结果是不同的。在一般情况下,若各变量的量纲不同,通常采用R型分析。R型分析的概念第四十二页,共八十三页,编辑于2023年,星期五§5

主成分的性质一、主成分的相关结构主成分Fk的方差

主成分Fk的方差贡献率为主成分与每个变量之间的相关系数

4.主成分对每个原变量的方差贡献证明因子负荷量(因子载荷)第四十三页,共八十三页,编辑于2023年,星期五第i个分量为1,其余为0第四十四页,共八十三页,编辑于2023年,星期五第一主成分与原变量的相关系数依次是第一主成分与原变量的相关系数依次是

第四十五页,共八十三页,编辑于2023年,星期五同样,我们可以很容易地计算第二主成分与三个原变量之间的相关系数:

第四十六页,共八十三页,编辑于2023年,星期五F1F2F3X1X2X30.8120.5760.0050.906-0.3490.2310.944-0.313-0.089F1F2F3X1X2X30.6590.3320.0000.8210.1220.0530.8910.0980.008横行之和为1,从横行看,有

第四十七页,共八十三页,编辑于2023年,星期五因此从纵向看,有:从纵向来看,反映了65.9%的信息,反映了82.1%的信息,反映了89.1%的信息。

第四十八页,共八十三页,编辑于2023年,星期五F1F2F3F4F5X1X2X3X4X50.7580.609-0.1750.1560.0260.7340.2240.3220.5480.0810.853-0.1360.139-0.003-0.4930.796-0.2880.4090.3210.1090.812-0.451-0.354-0.0940.050

F1F2F3F4F5X1X2X3X4X50.5740.3710.0300.0240.0010.5390.0500.1040.3000.0070.7270.0180.0190.0000.2430.6340.0830.1680.1030.0120.6800.2040.1250.0090.002第四十九页,共八十三页,编辑于2023年,星期五二、主成分的性质主成分的协差阵为对角阵第五十页,共八十三页,编辑于2023年,星期五总方差保持不变与的相关系数若进行R型分析,则

若进行R型分析,则第五十一页,共八十三页,编辑于2023年,星期五

对的方差贡献为

若进行R型分析,则从横行看有从纵向看有第五十二页,共八十三页,编辑于2023年,星期五§6用主成分图解样品和变量

第五十三页,共八十三页,编辑于2023年,星期五

主成分分析后,若能以两个主成分代表原变量大部分的信息,则我们可以在平面上分析每一个样品点。步骤如下:

1、对每个样品分别求第一主成分F1和第二主成分F2的得分。

2、建立以F1和F2

为轴的直角坐标系。以

F1为横坐标,

F2为纵坐标,在坐标系中描出各个样品点(画散点图)。

3、解释坐标系的各个象限。一、图解样品(对样品分类)第五十四页,共八十三页,编辑于2023年,星期五F1F2第五十五页,共八十三页,编辑于2023年,星期五二、图解变量(对变量分类)

主成分分析后,若能以两个主成分代表原变量大部分的信息,则对应每个原变量,只剩下和。以为横轴,为纵轴,建立直角坐标系。然后以为横坐标,以为纵坐标,在坐标系中描出各变量对应的点。

第五十六页,共八十三页,编辑于2023年,星期五X1X2X3X5X4第五十七页,共八十三页,编辑于2023年,星期五§7

主成分分析用于系统评估

第五十八页,共八十三页,编辑于2023年,星期五

第一种方法,通过主成分分析得到综合指标利用

F1作为评估指标,根据F1得分对样本点进行排序比较。但有两个前提条件:

1.

F1与全体原变量都正相关,即(i=1,2,…,p)。

2.

各(i=1,2,…,p)在数值上的分布较为均匀。第五十九页,共八十三页,编辑于2023年,星期五

第二种方法,通过主成分分析,取前面m个主成分,以每个主成分的方差贡献率为权,构造综合评价函数按F值的大小对样品进行排序比较或分类。注意:实际上,这一方法不合理,的含义违背了综合评价的本意。×第六十页,共八十三页,编辑于2023年,星期五主成分回归第六十一页,共八十三页,编辑于2023年,星期五居民消费水平指常住住户对货物和服务的全部最终消费支出,居民消费除了直接以货币形式购买货物和服务的消费之外,还包括以其他方式获得的货币和服务的消费支出。居民消费水平受许多因素的影响,主要有居民收入、消费观念、消费环境、国家政策等等。由于资料的可得性和代表性,选择以下变量。

一、提出问题居民消费水平的多因素分析第六十二页,共八十三页,编辑于2023年,星期五:居民消费水平(元):农村居民家庭人均纯收入(元):城镇居民家庭人均可支配收入(元):国家财政支出总额(亿元):每万人在校大学生人数(人):每万人在校研究生人数(人):人口自然增长率(‰):金融机构个人人民币储蓄存款一年期存款利率(%)

数据见sasuser.vregex01第六十三页,共八十三页,编辑于2023年,星期五影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。由于资料的可得性和代表性,选择以下变量。

国内旅游人数(百万人)农村居民人均纯收入(元)城镇居民人均可支配收入(元)公路线路里程(万公里)数据见sasuser.tourmx例2国内旅游人数模型第六十四页,共八十三页,编辑于2023年,星期五

二、主成分回归方法主成分回归:由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。第六十五页,共八十三页,编辑于2023年,星期五1、经济分析数据

X1

:GDPX2:积累总额

X3:消费总额

Y:进口总额求进口总额与GDP、积累总额和消费总额之间的回归方程。

三、主成分回归的实例数据见sasuser.vregl01第六十六页,共八十三页,编辑于2023年,星期五VariableDFEstimateStandardErrort值Prob>|t|Intercept

x1X2x31111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.736.202.810.00010.48830.00040.0263ParameterEstimatesDependentMean21.89091R-Square0.9919RootMSE0.48887AdjR-Sq0.9884SummaryofFit第六十七页,共八十三页,编辑于2023年,星期五F1F2F3x1X2x30.70630.04350.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR31.99920.99820.00261.00100.99550.66640.33270.00090.66640.99911.0000EigenvaluesoftheCorrelationMatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990x2-0.0258x3第六十八页,共八十三页,编辑于2023年,星期五

SourceDFSumofSquaresMeanSquareF值Prob>FModelErrorTotal28109.88280.117210.00004.94140.0147337.23020.0001AnalysisofVarianceVariableDFEstimateStandardErrort值Prob>|t|F1F2110.69000.19130.02710.038325.48594.99300.00010.0011ParameterEstimates第六十九页,共八十三页,编辑于2023年,星期五标准化后的变量把标准化变量还原,代入得:第七十页,共八十三页,编辑于2023年,星期五影响人们外出旅游的因素有居民收入、交通、闲暇时间、旅游目的地治安状况、旅游目的地的环境卫生以及接待能力等等。由于资料的可得性和代表性,选择以下变量。

国内旅游人数(百万人)农村居民人均纯收入(元)城镇居民人均可支配收入(元)公路线路里程(万公里)

数据见sasuser.tourmx例2国内旅游人数模型第七十一页,共八十三页,编辑于2023年,星期五VariableDFEstimateStandardErrort值Prob>|t|Intercept

IncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.7589-3.66330.00050.08360.00040.0064ParameterEstimatesDependentMean558.1017R-Square0.9920RootMSE19.2003AdjR-Sq0.9890SummaryofFit第七十二页,共八十三页,编辑于2023年,星期五F1F2F3x1X2x30.58100.59180.5588-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifferenceProportionCumulativePCR1PCR2PCR32.80880.18500.00622.62380.17880.93630.06170.00210.93630.99791.0000EigenvaluesoftheCorrelationMatrixF1=0.5810x1+0.5918x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论