




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章主成分分析4.1引言
在实际中,往往涉及众多变量,但变量太多不仅增加计算的复杂性,且也给分析和解释问题带来困难。一般来说,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用较少的互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析便是在这种降维的思想下产生的处理高维数据的方法。Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,只保留特征值大于1的成分如果能用不超过3-5个成分就能解释变异的80%,就算是成功主成分分析主成分分析通过对原始变量进行线性组合,得到优化的指标把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标主成分分析的直观几何意义4.2总体主成分4.2.1总体主成分的定义
设X1,X2,…,Xp为某实际问题所涉及的p个随机变量。记X=(X1,X2,…,Xp)T,其协方差矩阵为它是一个p阶非负定矩阵。设li=(li1,li2,…,lip)T(i=1,2,…,p)为p个常数向量,考虑如下线性组合:=(ij)pp=E[(X-E(X))(X-E(X))T]易知有如果我们希望用Y1代替原来p个变量X1,X2,…Xp,这就要求Y1尽可能地反映原
p个变量的信息。这里“信息”用Y1的方差来度量,即要求达到最大。
若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之下,求l1使Var(Y1)达到最大,由此l1所确定的随机变量称为X1,X2,…,Xp的第一主成分。
如果第一主成分Y1还不足以反映原变量的信息,进一步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要求Y1与Y2不相关,即
于是,在约束条件l2Tl2
=1及l1Tl2
=0之下,求l2
使Var(Y2)达到最大,由此l2
所确定的随机变量Y2=l2TX
称为X1,X2,…,Xp的第二主成分。一般地,在约束条件
及下,求li
使Var(Yi)达到最大,由此li所确定的称为X1,X2,…,Xp的第i个主成分。4.2.2总体主成分的求法关于总体主成分有如下结论:
设是X=(X1,X2,…Xp)T
的协方差矩阵,的特征值及相应的正交单位化特征向量分别为1≥2≥...≥p
及e1,e2,…ep,则X的第i
主成分为其中ei=(ei1,ei2,…,eip)T.这时易见:证明从略。
以上结果告诉我们,求X
的各主成分,等价于求它的协方差矩阵的各特征值及相应的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组合系数的X1,X2,…,Xp
的线性组合分别为X
的第一、第二、直至第p
个主成分,而各主成分的方差等于相应的特征值。4.2.3总体主成分的性质1.主成分的协方差矩阵及总方差
记Y=(Y1,Y2,…Yp)T为主成分向量,则Y=PTX
,其中P=(e1,e2,…,ep),且由此立得主成分的总方差为即主成分分析是把p个原变量X1,X2,…,Xp的总方差分解成p个不相关变量Y1,Y2,…,Yp
的方差之和。称为第k
个主成分Yk
的贡献率;称为Y1,Y2,…,Ym的累计贡献率。实际中常取m<p,使前m个主成分的累计贡献率达到较高的比例(如80%到90%)。这样用前m个主成分Y1,Y2,…,Ym代替原始变量X1,X2,…,Xp不但使变量维数降低,而且也不致于损失原始变量中的太多信息。2.主成分Yi与变量Xj的相关系数由于,故,从而定义1
由此可得Yi
与
Xj相关系数(也称为因子负(载)荷量factorloading)为它给出了主成分Yi与原始变量Xj
的关联性的度量。定义2前m个主成分对原变量xj的贡献率(共同度)hj是通过具体例子说明求总体主成分的方法。例4.1
设随机变量X=(X1,X2,X3)T的协方差矩阵为求X的各主成分。解易得的特征值及相应的正交化特征向量分别为因此X的主成分为X3是一个主成分,由可知,X3和X1,X2均不相关。如果只取第一主成分,则贡献率为此时对x1,x2,x3的贡献率分别为()h1=5.830.3832/1=0.855;h2=5.83(-0.924)2/5=0.996;h3=0若取前两个主成分(m=2),则累计贡献率为h1=5.830.3832/1+2.0002/1=0.855;前两个主成分与各原始变量的相关系数的计算:此时对x1,x2,x3的贡献率分别为()h2=5.83(-0.924)2/5+2.0002/5=0.996;h3=5.8302/2+2.0012/2=1;进一步求前两个主成分与各原始变量的相关系数分别为同理,可求得即Y1与X1,X2高度相关而与X3不相关;Y2与X3,以概率1呈完全线性关系.4.2.4标准化变量的主成分实际中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。若用求主成分,则优先照顾了方差较大的变量,有时会造成很不合理的结果。为消除这种影响,常采用变量标准化的方法,即令其中:i和ii分别为Xi的数学期望和方差。这时的协方差矩阵便是X的相关矩阵其中利用X的相关矩阵作主成分分析,有如下结论:X*的第i个主成分为第i个主成分Yi*的贡献率为i*/p,前m个主成分的累计贡献率为例4.2
设X=(X1,X2)T的协方差矩阵为相应的相关矩阵为分别从和
出发,作主成分分析。Yi*与Xj*的相关系数为解如果从出发作主成分分析,易求得其特征值和相应的正交单位化特征向量为X的两个主成分分别为第一主成分的贡献率为Y1与X1,X2的相关系数分别为
如果从出发求主成分,可求得其特征值和相应的正交单位化特征向量为X*的两个主成分分别为由于X2的方差很大,他完全控制了提取信息量占99.2%的第一主成分(X2在Y1中的系数为0.999),淹没了变量X1的作用。此时,第一主成分的贡献率有所下降,为Y1*与X1*,X2*的相关系数分别为
由所求得的第一主成分中,X1和X2的权重系数为0.707和0.0707,第一主成分与标准化变量X*的相关性变为0.838,即X1的相对重要性得到提升。此例也证明,由和所求得的主成分一般是不同的。
在实际运用中,当涉及的变量的变化范围差异较大时,从
出发求主成分比较合理。4.3样本主成分当(或)未知时,通过样本估计。设为X=(X1,…,X2)T
的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为其中分别以
S和R作为
和
的估计,按前面所述方法求得的主成分称为样本成分。具体有如下结论:设S是样本协方差矩阵,其特征值为当依次代入X
的n个观测值xk=(xk1,xk2,…,xkp)T,k=1,…,n相应的正交单位化特征向量为这里则第i个样本主成分为时,便得到第i个样本主成分yi的n个观测值yki(k=1,2,…,n),我们称之为第i个主成分的得分。yi的样本方差yi与yj的样本协方差=0,i≠j
样本总方差第i个样本主成分的贡献率定义为前m个样主成分的累计贡献率定义为为了消除量纲的影响,对样本进行标准化,即令则标准化数据的样本协方差矩阵即为原数据的样本相关矩阵R。由R出发所求得的样本主成分称为标准化样本主成分。只要求出R的特征值及相应的正交化单位特征向量,类似上述结果可求得标准化样本主成分。这时标准化的样本总方差为p。
实际中,将样本原始数据代入各主成分中,可得到各样本主成分的观测值,即主成分得分。见下表。选取前m(m<p)个样本主成分,使其累计贡献率达到一定的要求(如80%到90%),以前m个样本主成分的得分代替原始数据作分析,这样便可以达到降低原始数据维数的目的。原始数据及它的主成分得分序号原变量
x1
x2…xp主成分
y1
y2…yp12…nx11
x12…x1px21
x22…x2p…..xn1
xn2…xnpy11
y12…y1py21
y22…y2p…..yn1
yn2…ynp解用协方差矩阵进行主成分分析。R程序如下:例
对10名男中学生的身高(X1)胸围(X2)和体重(X3)进行测量,得数据如下表所示。对其作主成分分析。序号身高x1(cm)胸围x2(cm)体重x3(kg)12345678910149.569.538.5162.577.055.5162.778.550.8162.287.565.5156.574.549.0156.174.545.5172.076.551.0173.281.559.5159.574.543.5157.779.053.5R程序:x1<-c(149.5,162.5,162.7,162.2,156.5,156.1,172,173.2,159.5,157.7)x2<-c(69.5,77,78.5,87.5,74.5,74.5,76.5,81.5,74.5,79)x3<-c(38.5,55.5,50.8,65.5,49,45.5,51,59.5,43.5,53.5)student<-data.frame(x1,x2,x3)studentstudent.pr<-princomp(student)(orprincomp(~x1+x2+x3,data=student,cor=FALSE))summary(student.pr,loadings=TRUE)R程序输出:summary(student.pr,loadings=TRUE)Importanceofcomponents:Comp.1Comp.2Comp.3Standarddeviation9.9500624.77410011.18795760ProportionofVariance0.8035560.18498970.01145425CumulativeProportion0.8035560.98854581.00000000loadings:Comp.1Comp.2Comp.3x1-0.5590.828x2-0.421-0.333-0.843x3-0.714-0.4510.535前两个主成分的累计贡献率已达98.855%,实际应用中可只取前两个主成分,即loadings:Comp.1Comp.2Comp.3x1-0.5590.828x2-0.421-0.333-0.843x3-0.714-0.4510.535
第一主成分y1是身高值(x1)胸围值(x2)和体重值(x3)的加权和,当一个学生的y1值较大时,可以推断他较高或较胖或又高又胖,反之,当一个学生的身材比较魁梧时,所对应的y1值也较大。故第一主成分是反映学生身材是否魁梧的综合指标,可称为“大小”因子。
第二主成分y2的表达式中,身高(x1)前的系数为正,而胸围(x2)和体重(x3)的系数为负,当一个学生的y2值较大时,说明x1的值较大,而x2,x3相对较小,即该生较高且瘦。可称之为“形状”因子。例4.4
某市为了全面分析机械类各企业的经济效益,选择了8个不同的利润率指标,14家企业关于这8个指标的统计数据如表4.4所示。试进行主成分分析.序号净产资产总产收入成本物耗人均流动资金值x1
x2值x3
x4
x5
x6
x7
x8123456789101112131440.424.77.26.18.38.72.44220.025.012.711.211.012.920.23.5429.113.23.33.94.34.45.50.5783.622.36.75.63.76.07.40.1767.334.311.87.17.18.08.91.72627.535.612.516.416.722.829.33.01726.622.07.89.910.212.617.60.84710.648.413.410.99.910.913.91.77217.840.619.119.819.029.739.62.44935.824.88.09.88.911.916.20.78913.712.59.74.24.24.66.50.8743.91.80.60.70.70.81.10.0561.032.213.99.48.39.813.32.12617.138.59.111.39.512.216.41.32711.6解用相关矩阵求主成分,R程序如下:x1<-c(40.4,25,13.2,22.3,34.3,35.6,22,48.4,40.6,24.8,12.5,1.8,32.2,38.5)x2<-c(24.7,12.7,3.3,6.7,11.8,12.5,7.8,13.4,19.1,8,9.7,0.6,13.9,9.1)x3<-c(7.2,11.2,3.9,5.6,7.1,16.4,9.9,10.9,19.8,9.8,4.2,0.7,9.4,11.3)x4<-c(6.1,11,4.3,3.7,7.1,16.7,10.2,9.9,19,8.9,4.2,0.7,8.3,9.5)x5<-c(8.3,12.9,4.4,6,8,22.8,12.6,10.9,29.7,11.9,4.6,0.8,9.8,12.2)x6<-c(8.7,20.2,5.5,7.4,8.9,29.3,17.6,13.9,39.6,16.2,6.5,1.1,13.3,16.4)x7<-c(2.442,3.542,0.578,0.176,1.726,3.017,0.847,1.772,2.449,0.789,0.874,0.056,2.126,17.1)x8<-c(20,9.1,3.6,7.3,27.5,26.6,10.6,17.8,35.8,13.7,3.9,1,17.1,11.6)d<-data.frame(x1,x2,x3,x4,x5,x6,x7,x8)student.pr<-princomp(d,cor=T)输出结果:summary(student.pr)summary(student.pr,loadings=T)>summary(student.pr)Importanceofcomponents:Comp.1Comp.2Comp.3Comp.4Comp.5Standarddeviation2.37073441.01269130.98737770.47326440.36758698ProportionofVariance0.70254770.12819300.12186430.02799740.01689002CumulativeProportion0.70254770.83074070.95260500.98060240.99749243Comp.6Comp.7Comp.8Standarddeviation0.1235881470.05963625790.0350720235ProportionofVariance0.0019092540.00044456040.0001537559CumulativeProportion0.9994016840.99984624411.0000000000主成分的贡献率和累积贡献率。
由此看到,前2个标准化样本主成分累计贡献率已达到83.07%,故只需取前2个主成分即可。>summary(student.pr,loadings=T)Importanceofcomponents:Comp.1Comp.2Comp.3Comp.4Comp.5Standarddeviation2.37073441.01269130.98737770.47326440.36758698ProportionofVariance0.70254770.12819300.12186430.02799740.01689002CumulativeProportion0.70254770.83074070.95260500.98060240.99749243Comp.6Comp.7Comp.8Standarddeviation0.1235881470.05963625790.0350720235ProportionofVariance0.0019092540.00044456040.0001537559CumulativeProportion0.9994016840.99984624411.0000000000Loadings:Comp.1Comp.2Comp.3Comp.4Comp.5Comp.6Comp.7Comp.8x1-0.3380.372-0.366-0.3960.612-0.174-0.1200.194x2-0.2940.140-0.6280.688-0.147x3-0.4110.1930.2400.546-0.656x4-0.404-0.1430.2210.1610.814-0.2610.104x5-0.402-0.1880.223-0.113-0.462-0.683-0.233x6-0.392-0.2010.2950.196-0.2820.3670.683x7-0.1210.8570.395-0.299x8-0.371-0.305-0.565-0.6460.135为标准化变量。注意:y1近似是8个标准化变量的等权重之和,反映各企业总效益大小的综合指标,y1值越大,则企业的效益越好。由于y1的贡献率高达76.71%,故若用y1的得分值对各企业进行排序,能从整体上反映企业之间的效益差别。(4)
利用第一主成分的得分对14个企业排序(主成分应用:分类;回归)第9家企业的效益最好,第12家企业的效益最差。
predict(student.pr)Comp.1Comp.2C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 园艺师考试模拟试题及答案详解
- 潍坊幼教面试题目及答案
- 2024年辅导员岗位需求试题及答案
- 园艺师管理与运营策略考试试题及答案
- 上小学面试题目及答案
- 培训创新面试题及答案解析
- 福建事业单位考试有效沟通能力试题及答案
- 2024年农业经理人考试实践反馈试题及答案
- 通讯社笔试题目及答案
- 2024年农艺师考试的成功与努力的必然联系分析试题及答案
- 纵隔肿瘤护理查房
- 眼镜店销售培训课件
- 2024年4月自考00150金融理论与实务试题及答案
- 2024年海南发展控股有限公司招聘笔试参考题库含答案解析
- FZ/T 63045-2018芳纶纤维绳索
- 陕旅版四年级英语下册Unit-5-Where-Are-You-Going第2课时课件
- 毕业设计(论文)-巴哈赛车悬架系统设计
- 招银国际投资银行业务介绍课件
- 富余水深与船体下沉量的关系
- 压力罐区球罐安装工程无损检测施工方案
- 幼儿园:中班科学:《会跳舞的小球》
评论
0/150
提交评论