主成分分析讲解_第1页
主成分分析讲解_第2页
主成分分析讲解_第3页
主成分分析讲解_第4页
主成分分析讲解_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学研究的核心问题?没有变异就没有统计学变异VARIATION变异性的度量?方差Variance4/13/20231第一页,共42页。方差是什么?方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息量越小4/13/20232第二页,共42页。4/13/20233第三页,共42页。两组变量:AB4/13/20234第四页,共42页。4/13/20235第五页,共42页。4/13/20236第六页,共42页。4/13/20237第七页,共42页。协方差矩阵样本的方差-协方差矩阵(variance-covariancematrix)如果有p个观测变量,则样本的协方差矩阵记为4/13/20238第八页,共42页。相关矩阵如果有p个观测变量,其相关阵(correlationmatrix)记为4/13/20239第九页,共42页。矩阵的特征值和特征向量对于方阵A,如存在常数λ及非零向量x,使Ax=λx则λ为A的一个特征值,x为与λ对应的矩阵A的特征向量。n介方阵有n对特征值和特征向量4/13/202310第十页,共42页。正交向量(阵)、单位向量正交向量:a=(a1,…,ap)’,b=(b1,…,bp)’

如果a’b=a1b1+…+apbp=0,则称a、b正交单位向量:向量a=(a1,…,ap)’,如果

则称a为单位向量正交阵:n阶方阵A,如果AA’=A’A=I,则称A为n阶正交阵,其中A的列向量(或行向量)为正交向量,A’=A-14/13/202311第十一页,共42页。4/13/202312第十二页,共42页。4/13/202313第十三页,共42页。4/13/202314第十四页,共42页。4/13/202315第十五页,共42页。4/13/202316第十六页,共42页。主成分的概念1设x1,x2,…xp为p维随机变量X1,X2,…,Xp的标准化变换如果其线性组合满足则称C1为第一主成分。4/13/202317第十七页,共42页。主成分的概念2若满足则称C2为第二主成分。类似地,共可得到至多p个主成分。4/13/202318第十八页,共42页。主成分的性质主成分C1,C2,…,Cp具有以下性质:(1)主成分间互不相关Corr(Ci,Cj)=0ij

(2)组合系数(ai1,ai2,…,aip)构成的向量为单位向量(3)各主成分的方差是依次递减的,

即Var(C1)≥Var(C2)≥…≥Var(Cp)(4)总方差不增不减,即Var(C1)+Var(C2)+…+Var(Cp)=Var(x1)+Var(x2)+…+Var(xp)=p

4/13/202319第十九页,共42页。主成分的计算1设R为X1,X2,…,Xp的相关矩阵,则存在1≥2≥…≥p≥0,和正交矩阵A,使其中i为相关矩阵R的第i个特征值(eigenvalue)(ai1ai2…aip)’则是相关矩阵R的第i个特征值对应的特征向量。

i是第i个主成分的方差4/13/202320第二十页,共42页。主成分的计算2记主成分C=(C1C2…Cp)’,则C=A’x即4/13/202321第二十一页,共42页。主成分的计算3因子模型(全分量模型)表达形式x=AC即矩阵A称载荷矩阵,反映各主成分对原始变量x各分量的贡献大小。4/13/202322第二十二页,共42页。主成分的计算4因子模型(全分量模型)表达--主成分标准化变换4/13/202323第二十三页,共42页。x=Lclij是xj和ci的相关系数SPSS输出的系数矩阵是L矩阵4/13/202324第二十四页,共42页。实例

城市男生形态资料

数据来自方积乾《医学统计学与电脑试验》第2版

4/13/202325第二十五页,共42页。实例主成分分析结果—

特征值(方差)及其比例4/13/202326第二十六页,共42页。主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后4/13/202327第二十七页,共42页。主成分分析结果—L矩阵注意L矩阵的下标,是列在前,行在后4/13/202328第二十八页,共42页。主成分和原变量的关系观察L矩阵,由相关系数做出解释主成分未必一定有明确的解释选取有明确解释的主成分做综合指标,主成分得分就是“综合指数”。4/13/202329第二十九页,共42页。实例的标准化第一主成分得分4/13/202330第三十页,共42页。实例的标准化第一、二主成分得分4/13/202331第三十一页,共42页。主成分数目的保留—降维问题保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡。实际上就是看特征值λ的大小保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。4/13/202332第三十二页,共42页。主成分分析的应用综合指标的抽取主成分回归解决自变量严重共线性问题主成分判别解决解释变量的共线性问题变量聚类中计算相似系数因子分析4/13/202333第三十三页,共42页。例--主成分回归22例胎儿受精龄(Y,周)与胎儿外型测量指标:均数标准差身高(X1,cm)33.059.71头围(X2,cm)23.266.86体重(X3,g)936.9690.3试求由X1、X2、X3推算Y的回归方程4/13/202334第三十四页,共42页。例--主成分回归结果1直接做多重回归结果4/13/202335第三十五页,共42页。X1、X2、X3与Y的相关阵X1X2X3YX11X20.9981X30.9440.9471Y0.9520.9430.97014/13/202336第三十六页,共42页。主成分分析结果

(表中上半部的系数矩阵是矩阵A)C1C2C3x10.58-0.420.70x20.58-0.39-0.71x30.570.820.02Var2.930.070.00%97.542.380.08累积%97.5499.921004/13/202337第三十七页,共42页。主成分回归分析结果4/13/202338第三十八页,共42页。主成分回归分析结果附:本例岭回归分析结果4/13/202339第三十九页,共42页。主成分分析应用实例—综合指标选取计算主成分的两种方法

如果各变量具有同等尺度对角化相关阵还是协方差阵?

从协方差阵计算主成分的一个特点:方差大的变量倾向在第一主成分上占有更大的比重(与从相关阵计算比较)。4/13/202340第四十页,共42页。广州市某年空气污染指标的主成分分析结果从相关阵计算从协方差阵计算C1C2C3C1’C2’C3’iNOx0.63-0.17-0.760.93-0.30-0.21iTSP0.51

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论