引言教学课件_第1页
引言教学课件_第2页
引言教学课件_第3页
引言教学课件_第4页
引言教学课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、10.1 引言一. PCA的主要功能 在信息损失最小的前提下,对高维空间进行降维处理。数据类型: 样本点变量(定量变量)10.3 数据的标准化处理(一)“中心化”处理平移变换性质:不改变样本点集合中点与点的相互位置; (二) 标准化处理:中心化压缩 性质: g*=0 (均值为0) sj* =1, j=1,2, p ( 方差等于1 ).对于标准化数据表:(1)变量方差均等于1 (2)相关系数矩阵 = 协方差矩阵10.4 PCA的算法一. PCA对数据系统做“最佳简化”的含意 PCA可在保证信息损失的前提下,经线性变换和舍弃一小部分信息,以少数线性无关的新综合变量取代原始采用的多维相关变量。称:

2、为“主超平面”;称: 为“主平面”;输入输出:(1)平移变换:把原点移到重心:二. PCA算法中的几个要素(2)旋转变换,得到“主轴”:u1,u2,upR p 其中,u1对应数据变异最大的方向,u2与u1 垂直,对应于数据变异第二大方向, 所以u1,,up是标准正交的,即:(3)求样本点ei 在 uh轴上的投影坐标所有样本点在uh 上的投影构成“第h主成分 yh”:在主成分中,Var(y1)max而 y2 y1,且Var(y2)是次大的(4)在 uh主轴上,ei 的投影坐标是yh(i)第h主成分为:yh是原变量x1,xP的线性组合,组合系数为uh(1),uh(p)PAC算法推导:不妨设变量 都

3、是中心化的,求第主成分经过旋转变换得到的,是的线性组合因此 是矩阵 的特征向量, 对应的特征值是 三. PCA的计算方法(一般情况下)(1)数据的标准化 为方便起见,仍记 。(2)计算标准化数据表 的协方差矩阵V。(3)求V的前m个特征值12m0, 以及对应的特征向量: u1, u2, ,um (主轴)它们是标准正交的:(4)在 uh主轴上,ei 的投影坐标是yh(i)第h主成分为:yh是原变量x1,xP的线性组合,组合系数为uh(1),uh(p)四、主成分的统计特征第h主成分yh 的均值为0。 yh的方差等于 h。 yj与yk 的协方差等于0:总结:PCA算法的输入与输出12mVar(y1)

4、,Var(y2),,Var(ym)u1,u2, umRP (主轴)y1,y2, ymRn (主成分)n个样本点,p个变量n个样本点,m个变量总结:经过主成分分析,10.5 PCA的辅助分析技术一. 怎样选取精度合适的主超平面1. m维主超平面的精度测量主成分分析前,Xnp数据中的全部变异信息:主成分分析后保留的数据变差:Var(y1)=1,Var(y2)= 2, , Var(ym)= m标准化形象地看: 方差:注意:所以,定义“累计贡献率”:标准化2. 、如何选取合适精度的u1,um 。根据累计贡献率可以确定所要选取的成分的个数。(2)若希望Qm在80%左右,应选取 3 个主成分。 一些科技问

5、题的累计贡献率要求在90%以上。但对复杂的社会科学、行为科学或经济学中的数据,能达到60%也可以考虑。例.管理期刊评价二. 主成分的命名主成分y1,ym 是原变量x1,,xp 的线性组合。原变量x1,,xp 都有明确的物理含意。问题: y1,ym的物理含意是什么?1. 作用:指出影响系统结构的主要因素和主要特征。例 :分析各阶层人员生活状态发展中国家:y1食品, y2穿着发达国家: y1住宅, y2旅游以此可以划分不同社会阶层的生活档次。(在这个方向,人们的生活水平差距最大)例:中国城市经济分析:1984: y1综合水平, y2工农业投入国家。1988: y1综合水平,y2外贸,科技。 中国改

6、革开放以来,由于开放程度不同,使中国各地区经济水平差距逐渐拉大。所以,加大开放力度,发展高科技产业是城市发展的重要工作方面。2.方法:专业知识 + 数学手段数学手段:研究 yh与 x1,,xp 的相关关系。对于标准化数据可以证明:所以:第一个主轴:由此可见,仅差一个常量倍 : 是 y1与 x1,,xp 的相关系数。因此,可以通过观察来确定y1的含意。例.管理期刊分类评估(2)相关圆图(Component Plot)若 m = 2y1y2xjComponent Plot三. 判断“特异点”(ek)“特异点”:在PCA中,若有ek远离数据分布的平均水平,可以用“点对主成分方差的贡献”来测量。如:

7、则定义“ei 对Var(y1)的贡献”为:一般地,定义“ei 对Var(yh)的贡献”CTRh(i):CTR(i)过大解原因:(1)数据本身的特异性(BJ,SH, GZ, SZ, TJ)(2)数据统计上的错误处理方法:除去这些特异点,可以提高分析精度,图示也更加清楚。四. 主平面图PCA将一个高维变量系统有效的降至 1 维例1:Kendall 英 评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x1)、大麦(x2)、燕麦(x3)、土豆(x4)、菜豆(x5)、马铃薯(x6)、萝卜(x7)、饲料甜菜(x8)、临时牧场干草(x9)、永久牧场干草(x10)。(精度:47.6%)Y1= 0.3

8、9 x1+0.37 x2+0.39 x3+0.27 x4+0.22 x5 +0.30 x6+0.32 x7+0.26 x8+0.24 x9+0.34 x10第一主成分y1与 x1,,x10 均正相关。所以y1称为“水平因子”,可用于评估排序。即:某个样本点在y1上取值很大时,它在x1,,x10取值都会很大。10.6 利用主成分分析构造评估函数1、“主成分”是否等同于“主要因素”?例如:利用主成分分析构造评估函数(1)样本点:n个有关专家(2)变量:p个评估指标问题:用第一主成分构造的评估指标完全不符合人们对实际情 况的认识。原因:第一主成分对应数据方差最大的方向,这是专家意见分歧最大的方向!2

9、、 y2 一般不可以用于评估! 应用中要注意的问题:例如:并不说明:沈阳(SY)的外贸比拉萨(LS)差。10.7 时序立体数据表分析平面数据表主成分分析:时序立体数据表主成分分析:PCA时序立体数据表主成分分析方法 :X1X2XTY1Y2YTPCA0y2y1时序立体数据表分析内容1. 主轴随时间的变化2. 总体水平的运动轨迹3. 类的生成与变化规律4. 类轨迹的比较分析5. 评估排序的比较研究6. 群点运动预测模型19851988,中国城市的国民生产总值平均年增长率为10.7%。1989年国民生产总值比上年增长4%。10.8 因素分析 Varimax旋转0y1y2x1x2x8x5x6x7x4x

10、3学生代码数学物理化学语文历史英语1656172848179277777664705536763496567574806975747463574708084817467884756271647667167526557877715772867198310079416750例10.1这里有100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(只展示了部分,数据在student.sav)。 对学生成绩的数据进行主成分分析,得到下面的SPSS输出: 主成分分析的结果从SPSS的输出,得到用成分 f1和 f2与原来变量的相关系数 因子分析的结果( Varimax旋转后)从SPSS的输出,得到因子

11、f1和 f2与原来变量的相关系数10.9 主成分回归 (讲座一)由于:主成分 f1, , fm 是线性无关的变量做因变量 y 关于f1, , fm 的回归模型:问题:有时主成分 f1, , fm 对 y 的解释性很差原因:关于名称的思维定势建议的PCA回归方法采用OLS中的变量筛选方法,做因变量 y 关于f1, , fp 的回归模型.特点:可在变量严重多重相关的条件下回归建模; 在模型中可以包含原有的所有变量。10.10 偏最小二乘回归(PLS) (讲座二)u1t1求回归模型:分别用 Y1 、X1 取代 Y 、X , 然后求第二个PLS成分。 PLS回归模型的主要特点1、 多因变量对多自变量的

12、回归模型2、可以在变量严重多重相关的条件下进行回归建模;3、可以在样本点个数少于变量的条件下进行回归建模;4、PLS回归模型中将包含原有的所有变量。5、提取的成分一般比PCA少(问题:PCA回归与PLS回归都依然受多重共线性影响)6、 PLS回归实现了预测分析与数据认识性分析的有机结合PLS回归主成分分析(高维空间的降维处理)典型相关分析(两组变量之间的相关关系)回归建模(预测)YXu1 u2ust1 , t2ts应用软件: SIMCA-P免耕法在我国沙尘暴的防治中的作用最新研究表明,我国沙尘暴的沙尘来源并非沙漠。据调查,影响京津地区的沙尘暴,70左右的沙源就来自于内蒙古、山西、河北以及京津周

13、边干旱裸露的农田。因此,为了有效地防治沙尘暴,对农田的风蚀进行研究就显得十分重要。研究人员在我国内蒙古的一些地区,对施行传统耕作、草地条件、沙地和施行免耕法的农田进行实地考察。通过建立偏最小二乘模型,发现关键因素,为防止农田沙化、降低风蚀提供理论依据。北京春天季风北京的海拔低于丰宁丰宁数据:各样农田土壤风蚀量与影响因素序号风蚀量 Y土壤含水量土壤颗粒直径地表覆盖率沙地传统耕作农田退化草地免耕法农田111.67383.62270.650612.41000213.81163.62270.650612.41000315.26003.62270.650612.41000412.15963.62270.

14、650612.4100056.02106.29090.266013.8010068.59806.29090.266013.80100710.39526.29090.266013.8010087.33086.29090.266013.8010093.689010.21000.336645.40010105.338610.21000.336645.40010115.970610.21000.336645.40010124.893410.21000.336645.40010132.76808.88270.338658.50001144.16748.88270.338658.50001154.3572

15、8.88270.338658.50001164.11108.88270.338658.50001土壤含水量 土壤颗粒直径地表覆盖率 沙地传统耕作农田 退化草地 免耕法农田土壤含水量 1土壤颗粒直径-0.71101地表覆盖率 0.84990-0.41601沙地-0.82970.98049-0.58161传统耕作农田 -0.2196-0.5120-0.5412-0.33331退化草地 0.6764-0.23800.37212-0.3333-0.33331免耕法农田0.37294-0.23030.75074-0.3333-0.3333-0.33331自变量的相关系数矩阵PLS回归模型 平面图 风蚀量与土壤颗粒直径高度正相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论