版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主编:费宇中国人民大学出版社2023/9/11主编:费宇1第6章主成分分析2023/9/11主编:费宇2主成分分析:也称主分量分析,是由Hotelling于1933年提出的一种常用的多元统计方法.基本思想:用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,从而可以简化数据,对原来复杂的数据关系进行简明有效的统计分析.主成分分析的本质就是“降维”,将高维数据有效地转化为低维数据来处理.本章主要内容6.1
主成分分析的基本思想6.2
总体主成分主成分的含义、计算、主要性质;主成分个数的确定.6.3
样本主成分样本主成分的性质和计算;主成分分析的步骤和相关R函数.6.4案例:主成分综合分析2023/9/11主编:费宇36.1
主成分分析的基本思想2023/9/11主编:费宇4实际统计分析中,经常处理多变量、大维数数据分析问题,分析过程较复杂,难度较大.全部变量中可能存在信息的重叠.为去除这些信息重叠,希望用个数较少,但是保留了原始变量的大部分信息几个不相关的综合变量(即主成分)来代替原来较多的变量,达到降维的目的,从而进行简明有效的统计分析.主成分分析中的信息,就是指变量的变异性,常用标准差或方差来表示它.6.2总体主成分
6.2.1
主成分的含义以二维正态分布样本点来直观说明:如图,设有n个样品点大致分布在平面上一个椭圆内:2023/9/11主编:费宇5二维情形主成分的解释样本点之间的差异是由x1和x2的变化引起的,两者变动的相差不大,但如果用新坐标y1和y2来代替,易见,这些样本点的差异主要体现在y1轴上,n个点在y1轴方向上的方差达到最大,即在此方向上包含了有关n个样品的最多的信息.将这些点投影到
y1轴方向能使信息的损失最小,如果y1轴方向的差异占了全部样本点差异的绝大部分,那么将y2忽略是合理的,这样就把两个变量简化为一个,显然这里的y1轴代表了数据变化最大的方向,称之为第一主成分.y2称为第二主成分,并要求已经包含在y1中的信息不出现在y2中,即2023/9/11主编:费宇6二维情形主成分的解释(续)注意两个主成分y1和y2都是x1和x2的线性组合:其中P为旋转变换矩阵,它是正交矩阵.极端情形1:椭圆变成圆,第一主成分y1只体现了约一半的信息,若此时将y2忽略,则将损失约50%的信息,这显然是不可取的.极端情形2:椭圆扁平到了极限,变成y1轴上一条线段,第一主成分y1几乎包含有二维样品点的全部信息,仅用y1代替原始数据几乎不会有任何的信息损失,此时降维效果是非常理想的.2023/9/11主编:费宇7一般,总体的p个主成分为:
第i
个主成分yi的方差为y1
是
X的一切线性组合中方差最大者;y2
是与y1
不相关是
X的一切线性组合中方差最大者;······2023/9/11主编:费宇86.2.2主成分的计算2023/9/11主编:费宇96.2.3主成分的主要性质2023/9/11主编:费宇10X的p个主成分所成向量为:性质1
:性质2:性质3:6.2.4主成分个数的确定2023/9/11主编:费宇11第i
个主成分yi的方差贡献率为:通常取前k(k<p)个主成分,使得的累积贡献率即可.6.3样本主成分主成分分析倾向于反映方差大的变量的信息,为避免“大数吃小数”的现象,均等地对待每一个原始变量,常常将各原始变量作标准化处理标准化后的总体
的协方差矩阵ρ就是原总体X的相关系数矩阵.既可从Σ出发,也可以从ρ出发作主成分分析,考虑到现实经济意义,后者用得更多.2023/9/11主编:费宇126.3样本主成分(续)实际问题中Σ和ρ往往是未知的,需要用样本的协方差矩阵
S和样本的相关系数矩阵
R来估计:2023/9/11主编:费宇136.3.1样本主成分的性质和计算设S的p个特征值为,对应的单位正交特征向量为,则样本的第
i个主成分为性质1
:性质2
:性质3
:性质4:2023/9/11主编:费宇146.3.2主成分分析的步骤实际问题中更常用的是从样本相关系数矩阵R
出发进行主成分分析,方法是用
R
替换
S,其余操作不变,其步骤可归纳为:将原始数据标准化;求样本的相关系数矩阵
R
;求R的特征值,对应的特征向量为按主成分累积贡献率超过80%确定主成分的个数k,并写出主成分表达式为(5)对分析结果做统计意义和实际意义两方面的解释.2023/9/11主编:费宇156.3.2主成分相关的R函数1.princomp函数(这是主成分分析最常用的函数)princomp(x,cor=FALSE,score=TRUE,…)2.summary函数(提取主成分的信息)summary(object,loadings=FALSE,…)3.loadings函数(显示主成分的载荷)loadings(object)4.
predict函数(预测主成分的值)predict(object,newdata,…)5.
screeplot函数(画出主成分的碎石图)screeplot(object,type=c(“barplot”,“lines”,…)2023/9/11主编:费宇16例6.1
六门课程成绩的主成分分析表6.1给出了52名学生的数学(xu12)、物理(x2)、化学(x3)、语文(x4)、历史(x5)和英语(x6)成绩,对其进行主成分分析.#打开数据文件eg6.1.xls,选取A1:F53区域后复制>data6.1<-read.table("clipboard",header=T)#将eg6.1.xls数据读入到data6.1中>R=round(cor(data6.1),3);R#求样本相关系数矩阵并显示,保留三位小数>PCA6.1=princomp(data6.1,cor=T);PCA6.1>summary(PCA6.1,loadings=T)前两个主成分的累积贡献率82.9%.2023/9/11主编:费宇17例6.1(续)
六门课程成绩的主成分分析第一主成分和第二主成分分别为将它们分别理解为课程差异因子和课程均衡因子.>round(predict(PCA6.1),3)#作预测>screeplot(PCA6.1,type="lines")#画碎石图>PCA6.1$scores#可计算主成分得分>load=loadings(PCA6.1)#提取主成分载荷矩阵>plot(load[,1:2],xlim=c(-0.6,0.6),ylim=c(-0.6,0.6))>text(load[,1],load[,2],adj=c(0.5,-0.5))#为散点标号>abline(h=0);abline(v=0)#划分象限2023/9/11主编:费宇186.4案例:主成分综合分析案例6.1(数据文件为case6.1)表6.2给出了某市工业部门13个行业8项重要经济指标数据,其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度模板木方租赁服务合同范本4篇
- 学校的科技成果转化与产业合作
- 美容院员工工作职责与绩效考核合同2025年度版4篇
- 二零二五版智慧城市建设项目合同交底手册3篇
- 2025年度航空航天铝合金表面处理服务合同范本4篇
- 2025年度绿植租赁市场推广合作合同4篇
- 二零二五年度新型城镇化建设借款合同大全4篇
- 2025年度文化产业园承包合同示例4篇
- 河南某年产800万平米气凝胶项目可行性研究报告
- 2025年新能源电动车租赁与绿色出行解决方案合同2篇
- 餐饮行业智慧餐厅管理系统方案
- 2025年度生物医药技术研发与许可协议3篇
- 电厂检修安全培训课件
- 殡葬改革课件
- 2024企业答谢晚宴会务合同3篇
- 双方个人协议书模板
- 车站安全管理研究报告
- 玛米亚RB67中文说明书
- 中华人民共和国文物保护法
- 五年级数学(小数四则混合运算)计算题专项练习及答案
- NB_T 10533-2021 采煤沉陷区治理技术规范_(高清最新)
评论
0/150
提交评论