




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、主成分分析 实际问题中,同一个总体的实际问题中,同一个总体的p个指标之间往往个指标之间往往存在着相关关系。主成份分析的主要目的是存在着相关关系。主成份分析的主要目的是在这在这p个指标中寻找几个相互无关的综合性个指标中寻找几个相互无关的综合性指标,使这几个综合性的指标性能反应出原指标,使这几个综合性的指标性能反应出原来来p个指标的信息。这些综合指标就是主成个指标的信息。这些综合指标就是主成份。份。1 基本思想基本思想2 数学模型与几何解释数学模型与几何解释 假设实际问题中有假设实际问题中有p个指标,我们把这个指标,我们把这p个个指标看作指标看作p个随机变量,记为个随机变量,记为x1,x2,xp,
2、主成分分析就是要把这主成分分析就是要把这p个指标的问题,转变为个指标的问题,转变为讨论讨论p个指标的线性组合的问题,而这些新的指个指标的线性组合的问题,而这些新的指标标y1,y2,yk(kp),),按照保留主要信息量按照保留主要信息量的原则充分反映原指标的信息,并且相互无关。的原则充分反映原指标的信息,并且相互无关。这种由讨论多个指标降为少数几个综合指标的这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做过程在数学上就叫做降维降维。11112121212122221122ppppppppppyu xu xu xyu xu xuxyu xuxux主成分分析通常的做法,是寻求原指标的主成分
3、分析通常的做法,是寻求原指标的线性组合线性组合yi:满足如下的条件:满足如下的条件:0,1,ijCov yyij i jp ( , ) ,12()()pVar yVar yVar y ( )(2) 主成分之间相互无关,即无重叠的信息主成分之间相互无关,即无重叠的信息。即。即(3) 主成分的方差依次递减,重要性依次递减,即主成分的方差依次递减,重要性依次递减,即22211121iipiu uuuu (1) 每个主成分的系数平方和为每个主成分的系数平方和为1(否则其方(否则其方差可能为无穷大),即差可能为无穷大),即2x1x主成分分析的几何解释主成分分析的几何解释平移、旋转坐标轴平移、旋转坐标轴o
4、1F2Fo2x1x1F2F主成分分析的几何解释主成分分析的几何解释平移、旋转坐标轴平移、旋转坐标轴oo2x1x1F2F 主成分分析的几何解释主成分分析的几何解释平移、旋转坐标轴平移、旋转坐标轴oo二维空间中主成分的几何意义:二维空间中主成分的几何意义:设有设有n个样品,每个个样品,每个样品有两个观测变量样品有两个观测变量xl和和x2。在由变量。在由变量xl和和x2 所确定所确定的二维平面中,的二维平面中,n个样本点所散布的情况如椭圆状。个样本点所散布的情况如椭圆状。由图可以看出这由图可以看出这n个样本点无论是沿着个样本点无论是沿着xl 轴方向或轴方向或x2轴方向都具有较大的离散性,其离散的程度
5、可以分别轴方向都具有较大的离散性,其离散的程度可以分别用观测变量用观测变量xl 的方差和的方差和x2 的方差定量地表示。显然,的方差定量地表示。显然,如果只考虑如果只考虑xl和和x2 中的任何一个,那么包含在原始数中的任何一个,那么包含在原始数据中的信息将会有较大的损失。据中的信息将会有较大的损失。 将将xl 轴和轴和x2轴先平移,再同时按逆时针方向旋转轴先平移,再同时按逆时针方向旋转 角角度,得到新坐标轴度,得到新坐标轴Fl和和F2,则,则112112yx cosx sinyx sinx cos 1122yxcossinyxsincosU xU 为为正正交交旋旋转转变变换换矩矩阵阵 旋转变换
6、的目的是为了使得旋转变换的目的是为了使得n个样品点在个样品点在Fl轴方向上的轴方向上的离散程度最大,即离散程度最大,即yl的方差最大。变量的方差最大。变量yl代表了原始数代表了原始数据的大部分信息,在研究某些实际问题时,即使不考据的大部分信息,在研究某些实际问题时,即使不考虑变量虑变量y2也无损大局。也无损大局。经过上述旋转变换原始数据的经过上述旋转变换原始数据的大部分信息集中到大部分信息集中到Fl轴上,对数据中包含的信息起到轴上,对数据中包含的信息起到了浓缩作用。了浓缩作用。 yl,y2除了可以对包含在除了可以对包含在Xl,X2中的信息起着浓中的信息起着浓缩作用之外,还具有缩作用之外,还具有
7、不相关不相关的性质,这就使得在的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的各点的方差大部分都归结在性。二维平面上的各点的方差大部分都归结在Fl轴上,而轴上,而F2轴上的方差很小。轴上的方差很小。yl和和y2称为原始变称为原始变量量x1和和x2的综合变量。的综合变量。F简化了系统结构,抓住了简化了系统结构,抓住了主要矛盾。主要矛盾。3 主成分的推导及性质主成分的推导及性质 一、两个线性代数的结论一、两个线性代数的结论 1 1、若、若A A是是p p阶实对称阵,则一定可以找到正交阵阶实对称阵,则一定可以找到正交阵U U,使,
8、使 p 000000AUU211其中其中 是是A A的特征根。的特征根。pii. 2 . 1, 2 2、若上述矩阵的特征根所对应的单位特征向量若上述矩阵的特征根所对应的单位特征向量为为 11121212221p12U(u ,u )ppppppuuuuuuuuu则则U U是正交矩阵,即有是正交矩阵,即有p1uu,令令IUUUU 二、主成分的推导二、主成分的推导 (一)(一) 第一主成分第一主成分设设x x的协方差阵为的协方差阵为2112122122x212ppppp 由于由于x x为非负定的对称阵,所以存在正交阵为非负定的对称阵,所以存在正交阵U U,使得使得1X0U U0p 其中其中 1 1,
9、 , , p p为为x x的特征根,不妨假设的特征根,不妨假设 1 1 p p。11121212221p12U(u ,u )ppppppuuuuuuuuu 12iiipiuuuu , ,i1,2,iP U是由特征根相对应的特征向量所组成的正交阵:是由特征根相对应的特征向量所组成的正交阵:1211111()UUpD yaaaa 设有设有P P维单位向量维单位向量 111211,paaaa 111121211ppya xa xa xa x 下面证明,由下面证明,由U的第一列元素所构成的原始变量的的第一列元素所构成的原始变量的线性组合有最大的方差。线性组合有最大的方差。1122112p1puuu ,
10、u ,uupaa 11111111111111u uu uUUppiiiiiiiaaaaaaa a y y1 1称为第一主成分。称为第一主成分。如果第一主成分的信息不够,则需要寻找如果第一主成分的信息不够,则需要寻找第二主成分。第二主成分。(二)(二) 第二主成分第二主成分在约束条件在约束条件 下,寻找第二主成分下,寻找第二主成分 12cov(,)0yy 212122ppya xaxa x 因为因为121212112cov(,)cov(,)0yyu x a xuau a 210a u 所以所以 于是,对任意的于是,对任意的p p维向量维向量a2 2,有,有2222212222212222222
11、12222()u u(u )(u )u uUUpiiiippiiiiipiiiV yaaaaaaaaaaa a 21212222ppyu xu xux 所以如果取线性变换:所以如果取线性变换: 则则y y2 2的方差为的方差为2 2次大,并且次大,并且y y1 1和和y y2 2线性无关。线性无关。 类似地,可以得到方差逐步减少的类似地,可以得到方差逐步减少的p p个线性无关个线性无关 的主成分:的主成分: 小结:方差逐步减少的小结:方差逐步减少的p p个线性无关的主成分为个线性无关的主成分为 11112121212122221122ppppppppppyu xu xu xyu xu xuxy
12、u xuxu x 写为矩阵形式:写为矩阵形式:yU x 1112121222112(,)pppppppuuuuuuUuuuuu12(,)pxxxx 1 1、均值、均值y(U x)UEE 2 2、原总体的总方差(或称为总惯量)等于不相、原总体的总方差(或称为总惯量)等于不相关的主成分的方差之和关的主成分的方差之和111()pppiiiiiiiVar x 4 4 主成分的性质主成分的性质4 4、贡献率与累积贡献率、贡献率与累积贡献率1 1)贡献率:)贡献率:第第i个主成分的方差在全部方差中所占比个主成分的方差在全部方差中所占比重重 ,称为第,称为第i个主成分的贡献率个主成分的贡献率 ,反映了第反映
13、了第i个指标提供多大的信息,有多大的综合能力个指标提供多大的信息,有多大的综合能力 。piii1 2 2)累积贡献率:)累积贡献率:前前k个主成分共有多大的综合能力,个主成分共有多大的综合能力,用这用这m个主成分的方差和在全部方差中所占比重个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。来描述,称为累积贡献率。11pmiiii 累积贡献率大小反映累积贡献率大小反映m个主成分提取了个主成分提取了12,px xx的多少信息,但没有表达某个变量被提取了多少的多少信息,但没有表达某个变量被提取了多少信息,为此引人下述概念。信息,为此引人下述概念。例例: : 设设x1, x2, x3的协方差
14、矩阵为的协方差矩阵为 120250002 解得特征根为解得特征根为15.83 22.00 30.17 第一个主成分的贡献率为第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管,尽管第一个主成分的贡献率并不小,但在第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。应该取两个主成分。10.3830.9240.000u 2001u 30.9240.3830.000u 相应的正交特征向量为相应的正交特征向量为在实际问题中,总体的协方差阵通常是未知的,在实际问题中,总体的协方差阵通常是未知的,需要由样本方差阵估计。需要由样本方差阵估计。 记样本观测阵为记样本观测阵为 11112122122212xxxppnnnpnxxxxxxXxxx 5 样本的主成分 11()()1nijliiljjp plp pSsxxxxn 则样本协方差阵则样本协方差阵S和样本相关阵和样本相关阵R分别为分别为 ijijp piiiip psRrss 11,1,2,3nililxxipn 一、样本主成分及其性质一、样本主成分及其性质1. 主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 加强早晚读管理办法
- 旧物资定价管理办法
- 散装水泥车管理办法
- 取水证转让管理办法
- 哈尔滨皮肤管理办法
- 工艺改良将管理办法
- 英语介绍人物的课件
- 城区化粪池管理办法
- 医院充电桩管理办法
- 南阳市垃圾管理办法
- 电力设备安装人员安全教育培训手册
- 怀特海《教育的目的》读书分享
- 教育金保险理念
- 普通货物道路运输安全生产管理制度
- 2025年校长职级考试题及答案
- 2025年广西继续教育公需科目考试试题和答案
- DZ∕T 0289-2015 区域生态地球化学评价规范(正式版)
- 中国思想史 马工程329P
- DB65T 2887-2008林业用保水剂应用通用技术条件
- GB/T 41813.1-2022信息技术智能语音交互测试方法第1部分:语音识别
- SB/T 10569-2010冷藏库门
评论
0/150
提交评论