




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十一章 偏最小二乘法第十一章 偏最小二乘法 偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。 偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面: (1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。 (2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。 偏最小二乘回归是一种新型的多元统计数据 在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重共线性。如果采用普通的最小二乘
2、方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。 在普通多元线形回归的应用中,我们常受到 (3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析 (3)偏最小二乘回
3、归之所以被称为第二代回归方法, 由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。 由于偏最小二乘回归在建模的同时实现了数据一、 偏最小二乘回归的建模原理和方法 (一)建模原理 设有 q个因变量 y1, y2, yq和p个自变
4、量 x1, x2, xp。为了讨论两组变量之间的关系,观测了n个样本点。偏最小二乘回归开始与典型相关分析相同,分别在X与Y中提取出主成分。设 t1, t2, tr为 x1, x2, xp的主成分, u1, u2, ur为 y1, y2, yq,其中r=min(p,q)。一、 偏最小二乘回归的建模原理和方法 (一) (1) t1和u1应尽可能大地携带他们各自数据表中的变异信息; (2) t1和u1的相关程度能够达到最大。 这两个要求表明, t1和 u1应尽可能好的代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。 (1) t1和u1应尽可能大地携带他们各自 在第一个成分
5、t1和u1被提取后,偏最小二乘回归分别实施X对t1的回归以及 Y对t1的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被t1解释后的残余信息以及Y 被t1 解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对 X共提取了 m个成分 t1, t2, tr,偏最小二乘将通过实施Y1,Y2, ,Yq对 t1, t2, tr的回归,然后再表达成YK关于原变量X1,X2, ,Xp 的回归方程,其中k=1,2,q 。 在第一个成分t1和u1被提取后,偏最小(二)计算方法推导 首先将数据做标准化处理。设X组变量标准化的观测值矩阵为 设Y组变量标准化的观
6、测值矩阵为 (二)计算方法推导 首先将数据做标准化处理 求X组变量的第一主成分t1,w1为第一主成分的系数向量, w1是一个单位向量。 t1=X0w1 求Y组变量的第一主成分t1,c1为第一主成分的系数向量, c1是一个单位向量。 u1=Y0c1 有Var(t1)=max Var(u1)=max (t1, u1)=max 求X组变量的第一主成分t1,w1为第一主成分 因此综合起来,在偏最小二乘回归中,我们要求与的协方差达到最大,既 因此综合起来,在偏最小二乘回归中,我们要 (1)求w1和c1 对Q分别求关于c1,w2,1,2和的偏导并令之为零,有采用拉格朗日乘数法,讨论有约束条件的极值问题。
7、(1)求w1和c1 对Q分别求关于可以推出则记可以推出则记可得 可见,w1是矩阵的 特征向量,对应的特征值为 。所以w1是对应于矩阵 最大特征值 的单位特征向量。而另一方面, c1是对应于 矩阵最大特征值 的单位特征向量c1。 注意这里t1和u1分别为n维向量,是n个个案在两组变量的主成分的取值。可得 可见,w1是矩阵的 分别求X0和Y0对t1 和u1的两个回归方程 根据最小二乘估计的原理,则 称1为模型效应载荷量。2.建立回归方程 分别求X0和Y0对t1 和u1的两个回归方程 3.用残差代替X0和Y0的进行以上的工作 在第二步工作中,由于第一对主成分并未将相关的信息提取完,所以需要再重复第一
8、步工作,在残差矩阵E0和F0中再提取第二对主成分。3.用残差代替X0和Y0的进行以上的工作 在 分别求E1和F1对t2和u2的两个回归方程,即 根据最小二乘估计的原理,则 进而有 分别求E1和F1对t2和u2的两个回归方程,即 4.设np数据观测矩阵的秩为r=min( n ,p),则存在r个成分t1,t2, tr。使得 将(3)式代入(2)式,并合并同类项 非标准化的偏最小二乘回归方程为 4.设np数据观测矩阵的秩为r=min5.抽取主成分个数l的确定 至于抽取几个主成份进行偏最小二乘模型,需要进行进一步的检验。当然一定小于r。我们首先定义残差平方和 其中i为第i个样本点,j为第j个指标,k为
9、主成分的个数。通常情况下,选择使残差平方和最小的个数l。有四种方法。5.抽取主成分个数l的确定 至于抽取几个主成份进行(1)舍一交叉验证法 依次舍去第i(i=1,2,n)个样本点,用余下的n-1个样本点做偏最小二乘回归模型,并预测相应的 ,k为主成分的个数 。 选择使PRESS(k)最小的主成分的个数。(1)舍一交叉验证法 依次舍去第i(i=1,2,(2)分批交叉验证法 分批交叉验证法是每次留下q个观测作为检验数据,q=1是为“舍一交叉验证方法”。类似按预测残差平方和达到最小的主成分个数。(2)分批交叉验证法 分批交叉验证法是每次留下q个(3)分裂样本交叉验证法 与分批交叉验证法不同的是分裂样本法所扣留的样本不是连续的,而是灯具抽取的。例如第一次抽1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省灵宝实验高级中学2025年高三下学期初考试物理试题含解析
- 河南检察职业学院《创新创业核心素质教育》2023-2024学年第二学期期末试卷
- 心力衰竭重症监测与护理
- 广西安全工程职业技术学院《语言景观社会实践》2023-2024学年第一学期期末试卷
- 教育学生团结
- 家具行业预算管理
- 中青班培训心得分享会
- 幼儿园获奖公开课:中班体育活动《跨跳小健将》课件
- 安全生产十大违章行为警示
- 培训市场部工作总结
- 上海市农村房地一体宅基地确权登记工作实施方案
- 全国第三届职业技能大赛(无人机驾驶(植保)项目)选拔赛理论考试题库(含答案)
- 危险化学品目录(2024版)
- 幼儿园国防教育课件动态PPT模板红色水墨渐变简约卡通
- 北京市土地一级开发项目管理工作流程图
- 安全工器具及设施发放登记台账(共3页)
- 小学生安全教育研究课题结题报告
- 盗墓笔记地图
- 粉色可爱生日快乐邀请函.doc
- 材料分析题库含答案教材
- 小型养猪场猪舍设计
评论
0/150
提交评论