浙江数学建模主成分分析经典课件_第1页
浙江数学建模主成分分析经典课件_第2页
浙江数学建模主成分分析经典课件_第3页
浙江数学建模主成分分析经典课件_第4页
浙江数学建模主成分分析经典课件_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1

本章主要内容:§10.1主成分分析的概念§10.2主成分计算§10.3样本主成分§10.4主成分的选取§10.5案例分析§10.6上机实现本章内容重点:主成分分析的概念;主成分的选取;上机实现

1本章主要内容:§10.1主成分分析的概念2在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多项指标,少者四、五项,多则几十项,这些指标之间通常不是相互独立而是相关的。因此,从统计分析或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标,从而使分析简化。案例:一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标。

§10.1主成分的概念2在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每3假设观测指标共有p个,分别用x1,x2,…,xp,表示,将这些指标综合为一个指标的方法显然有很多,但最简单的方法是将这些指标用线性组合的方法将它们组合起来。因此,可设定其综合指标的形式为这些指标的线性组合,即我们希望构造少数几个这样的综合指标,并且这几个综合指标之间是不相关的。其中反映原始观测指标的变动程度最大的综合指标最重要,我们称其为原始观测指标的第一主成分;而反映原始观测指标变动程度次大的综合指标,称为原始观测指标的第二主成分;反映原始观测指标变动程度第三大的综合指标,称为第三主成分;……,3假设观测指标共有p个,分别用x1,x2,…,xp,表示,4§10.2主成分计算设p个指标(随机变量)是p维随机变量,其协方差矩阵为式中,协方差当

求的最大值。实际上,这就是求的的值

4§10.2主成分计算设p个指标(随机变量)是p5根据线性代数的理论,我们知道这就是矩阵的最大特征根,并且就是相应的特征向量。就为随机向量X的第一主成分。X的第二主成分不应该再重复反映第一主成分已经反映的内容,所以求第二主成分时,除了有类似于第一主成分的约束条件外,还必须加上第二主成分与第一主成分不相关这一条件,即

要使也就是要使即第二主成分的特征向量必须于第一主成分的特征向量正交。5根据线性代数的理论,我们知道这就是矩阵的最大特征根6事实上,由于协方差矩阵Σ为非负定矩阵,故有p个非负特征根,从而可求出p个特征向量将每一个特征向量作为一个主成分的系数向量,就可得出p个主成分。若记p个主成分组成的主成分向量为特征向量组成的矩阵为A,即则可写成主成分向量的表达形式为:6事实上,由于协方差矩阵Σ为非负定矩阵,故有p个非负特征根,7我们有即不相关各自的方差为总的方差是我们从中,选出对方差贡献最大的部分指标,就达到了主成分分析的目的。7我们有8案例10.1

假设市场上肉类、鸡蛋、水果3种商品价格的月份资料的协方差矩阵为:试求这3种价格的主成分。解:根据上述协方差矩阵,可写出其特征多项式为令此特征多项式为0,则得特征方程,解此特征方程,从而得Σ的特征值为

8案例10.1假设市场上肉类、鸡蛋、水果3种商品价格的月份9得这些特征根分别代入特征方程,然后求解就可得到相应的各个特征向量,将这些特征向量单位化,就得到相应于上述3个特征根的3个单位特征向量分别为:于是,3种商品价格的3个主成分分别为

9得这些特征根分别代入特征方程,然后求解就可得到相应的各个特10在解决实际问题时,总体的协方差和相关阵往往都是未知的,需要通过样本来进行估计。设样本数据矩阵为则样本协方差矩阵为样本相关矩阵记为§10.3样本主成分10在解决实际问题时,总体的协方差和相关阵往往都是未知的,需11由主成分分析的基本思想和计算过程可以看出,主成分分析是把p个随机变量的总方差tr(Σ)分解为p个不相关的随机变量的方差之和。各个主成分的方差即相应的特征根表明了该主成分的方差,方差的值越大,表明主成分综合原始变量的能力越强。累计贡献率:在研究实际问题时,一般要求累计贡献率不小于85%。§10.4主成分的选取11由主成分分析的基本思想和计算过程可以看出,主成分分析是把12虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但是累计贡献率只是表达了前m个主成分提取了的多少信息,它并没有表达某个变量被提取了多少信息,因此仅仅使用累计贡献率这一准则,并不能保证每个变量都被提取了足够的信息。因此,有时还往往需要另一个辅助的准则。由于,所以显然

是第j个主成分所能说明的第i个原始变量的方差,即第j个主成分从第i个原始变量中所提取的信息。12虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但13原始变量的信息提取率定义为:我们选取主成分时,不仅要使前m个主成分的累计贡献率达到一定的程度,而且还要使每个原始变量的信息提取率也达到一定的程度。13原始变量的信息提取率定义为:14案例:假设某商场运动鞋、凉鞋、皮鞋3种消费量的协方差矩阵为试求各主成分,并对各主成分的贡献率及各个原始观测变量的信息提取率进行讨论。【解】由上述协方差矩阵,写出其特征多项式为14案例:假设某商场运动鞋、凉鞋、皮鞋3种消费量的协方差矩阵15令此特征多项式为0,得特征方程。求解特征方程,得三个特征根分别为将各个特征根代入特征方程,求解相应的齐次线性方程,得到各个特征向量,经过单位化处理,就得到相应的三个单位化特征向量分别为15令此特征多项式为0,得特征方程。求解特征方程,得三个特征16如果我们只取一个主成分,则累计贡献率为效果似乎已经很理想。但是,如果我们进一步计算每个变量的信息提取率,则16如果我们只取一个主成分,则累计贡献率为17需再取第2个主成分,此时累计贡献率为各个变量的信息提取率分别为17需再取第2个主成分,此时累计贡献率为18在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样6项:身高、坐高、胸围、手臂长、肋围和腰围。所得相关矩阵如表10.1所示。§10.5案例分析18在制定服装标准的过程中,对128名成年男子的身材进行了测19前三个主成分分别为19前三个主成分分别为20SPSS软件FACTOR模块提供了主成分分析的功能。下面,我们以SPSS软件包自带的数据Employeedata为例,介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集。数据Employeedata为Midwestern银行在1969—1971年之间雇员情况的数据,共包括474条观测及以下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度)、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间(月))、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少量的变量来描述该地区居民的雇用情况。§10.6主成分分析的上机实现20SPSS软件FACTOR模块提供了主成分分析的功能。下面21进入SPSS软件,打开数据集Employeedata后,依次执行Analyze→DataReduction→Factor命令,系统弹出选择变量和分析内容的主窗口,如图10.1所示。21进入SPSS软件,打开数据集Employeedata后22依次选中变量Educ,Salary,Salbegin,Jobtime,Prevexp并单击向右的箭头按钮,这5个变量变进入了图1中variable窗口。单击右侧的OK按钮,即可得到输出结果1。22依次选中变量Educ,Salary,Salbegin,J23Communalties给出了从每个原始变量提取的信息,比如从CurrentSalary中提取的信息为89.6%.23Communalties给出了从每个原始变量提取的信息,24从上面表格中可以看出前三个主成分集中原始变量信息的90.66%。第一主成份的方差为2.477,第二主成份的方差为1.052。24从上面表格中可以看出前三个主成分集中原始变量信息的90.25ComponentMatrix表中给出了标准化原始变量用3个主成份的线性表示的近似表达式。例如:令F1,F2,F3分别表示标准化的主成分,那么,标准化的CurrentSalary=0.94×F1+0.104×F2+0.029×F325ComponentMatrix表中给出了标准化原始变26由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果,就需要对FactorAnalysis模块中的设置做一些调整,方法如下:进入FactorAnalysis对话框并选择好变量之后,单击对话框下部的Scores按钮进入FactorScores对话框,如图10.3所示。26由SPSS软件默认选项输出的结果,我们还不能得到用原始变27该距阵给出了用原是变量表示出成分的系数信息,例如:标准化第一成分F1=0.342×标准化的X1+0.38×标准化的X2+0.37×标准化的X3+0.027×标准化的X4-0.072×标准化的X5。27该距阵给出了用原是变量表示出成分的系数信息,例如:28

本章主要内容:§10.1主成分分析的概念§10.2主成分计算§10.3样本主成分§10.4主成分的选取§10.5案例分析§10.6上机实现本章内容重点:主成分分析的概念;主成分的选取;上机实现

1本章主要内容:§10.1主成分分析的概念29在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多项指标,少者四、五项,多则几十项,这些指标之间通常不是相互独立而是相关的。因此,从统计分析或推断的角度来说,人们总是希望能把大量的原始指标组合成较少的几个综合指标,从而使分析简化。案例:一个人的身材需要用好多项指标才能完整地描述,诸如身高、臂长、腿长、肩宽、胸围、腰围、臀围等,但人们购买衣服时一般只用长度和肥瘦两个指标就够了,这里长度和肥瘦就是描述人体形状的多项指标组合而成的两个综合指标。

§10.1主成分的概念2在实证数据分析研究中,人们为了尽可能完整地搜集信息,对于每30假设观测指标共有p个,分别用x1,x2,…,xp,表示,将这些指标综合为一个指标的方法显然有很多,但最简单的方法是将这些指标用线性组合的方法将它们组合起来。因此,可设定其综合指标的形式为这些指标的线性组合,即我们希望构造少数几个这样的综合指标,并且这几个综合指标之间是不相关的。其中反映原始观测指标的变动程度最大的综合指标最重要,我们称其为原始观测指标的第一主成分;而反映原始观测指标变动程度次大的综合指标,称为原始观测指标的第二主成分;反映原始观测指标变动程度第三大的综合指标,称为第三主成分;……,3假设观测指标共有p个,分别用x1,x2,…,xp,表示,31§10.2主成分计算设p个指标(随机变量)是p维随机变量,其协方差矩阵为式中,协方差当

求的最大值。实际上,这就是求的的值

4§10.2主成分计算设p个指标(随机变量)是p32根据线性代数的理论,我们知道这就是矩阵的最大特征根,并且就是相应的特征向量。就为随机向量X的第一主成分。X的第二主成分不应该再重复反映第一主成分已经反映的内容,所以求第二主成分时,除了有类似于第一主成分的约束条件外,还必须加上第二主成分与第一主成分不相关这一条件,即

要使也就是要使即第二主成分的特征向量必须于第一主成分的特征向量正交。5根据线性代数的理论,我们知道这就是矩阵的最大特征根33事实上,由于协方差矩阵Σ为非负定矩阵,故有p个非负特征根,从而可求出p个特征向量将每一个特征向量作为一个主成分的系数向量,就可得出p个主成分。若记p个主成分组成的主成分向量为特征向量组成的矩阵为A,即则可写成主成分向量的表达形式为:6事实上,由于协方差矩阵Σ为非负定矩阵,故有p个非负特征根,34我们有即不相关各自的方差为总的方差是我们从中,选出对方差贡献最大的部分指标,就达到了主成分分析的目的。7我们有35案例10.1

假设市场上肉类、鸡蛋、水果3种商品价格的月份资料的协方差矩阵为:试求这3种价格的主成分。解:根据上述协方差矩阵,可写出其特征多项式为令此特征多项式为0,则得特征方程,解此特征方程,从而得Σ的特征值为

8案例10.1假设市场上肉类、鸡蛋、水果3种商品价格的月份36得这些特征根分别代入特征方程,然后求解就可得到相应的各个特征向量,将这些特征向量单位化,就得到相应于上述3个特征根的3个单位特征向量分别为:于是,3种商品价格的3个主成分分别为

9得这些特征根分别代入特征方程,然后求解就可得到相应的各个特37在解决实际问题时,总体的协方差和相关阵往往都是未知的,需要通过样本来进行估计。设样本数据矩阵为则样本协方差矩阵为样本相关矩阵记为§10.3样本主成分10在解决实际问题时,总体的协方差和相关阵往往都是未知的,需38由主成分分析的基本思想和计算过程可以看出,主成分分析是把p个随机变量的总方差tr(Σ)分解为p个不相关的随机变量的方差之和。各个主成分的方差即相应的特征根表明了该主成分的方差,方差的值越大,表明主成分综合原始变量的能力越强。累计贡献率:在研究实际问题时,一般要求累计贡献率不小于85%。§10.4主成分的选取11由主成分分析的基本思想和计算过程可以看出,主成分分析是把39虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但是累计贡献率只是表达了前m个主成分提取了的多少信息,它并没有表达某个变量被提取了多少信息,因此仅仅使用累计贡献率这一准则,并不能保证每个变量都被提取了足够的信息。因此,有时还往往需要另一个辅助的准则。由于,所以显然

是第j个主成分所能说明的第i个原始变量的方差,即第j个主成分从第i个原始变量中所提取的信息。12虽然主成分的贡献率这一指标给出了选取主成分的一个准则,但40原始变量的信息提取率定义为:我们选取主成分时,不仅要使前m个主成分的累计贡献率达到一定的程度,而且还要使每个原始变量的信息提取率也达到一定的程度。13原始变量的信息提取率定义为:41案例:假设某商场运动鞋、凉鞋、皮鞋3种消费量的协方差矩阵为试求各主成分,并对各主成分的贡献率及各个原始观测变量的信息提取率进行讨论。【解】由上述协方差矩阵,写出其特征多项式为14案例:假设某商场运动鞋、凉鞋、皮鞋3种消费量的协方差矩阵42令此特征多项式为0,得特征方程。求解特征方程,得三个特征根分别为将各个特征根代入特征方程,求解相应的齐次线性方程,得到各个特征向量,经过单位化处理,就得到相应的三个单位化特征向量分别为15令此特征多项式为0,得特征方程。求解特征方程,得三个特征43如果我们只取一个主成分,则累计贡献率为效果似乎已经很理想。但是,如果我们进一步计算每个变量的信息提取率,则16如果我们只取一个主成分,则累计贡献率为44需再取第2个主成分,此时累计贡献率为各个变量的信息提取率分别为17需再取第2个主成分,此时累计贡献率为45在制定服装标准的过程中,对128名成年男子的身材进行了测量,每人测得的指标中含有这样6项:身高、坐高、胸围、手臂长、肋围和腰围。所得相关矩阵如表10.1所示。§10.5案例分析18在制定服装标准的过程中,对128名成年男子的身材进行了测46前三个主成分分别为19前三个主成分分别为47SPSS软件FACTOR模块提供了主成分分析的功能。下面,我们以SPSS软件包自带的数据Employeedata为例,介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集。数据Employeedata为Midwestern银行在1969—1971年之间雇员情况的数据,共包括474条观测及以下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度)、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间(月))、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少量的变量来描述该地区居民的雇用情况。§10.6主成分分析的上机实现20SPSS软件FACTOR模块提供了主成分分析的功能。下面48进入SPSS软件,打开数据集Employeedata后,依次执行Analyze→DataReduction→Factor命令,系统弹出选择变量和分析内容的主窗口,如图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论