偏最小二乘回归方法PLS

上传人：良*** IP属地：江苏上传时间：2023-03-26 格式：DOC 页数：24 大小：2MB 积分：20 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

实用标准实用标准文案大全文案大全实用标准文案大全偏最小二乘回归方法1偏最小二乘回归方法(PLS)背景介绍在经济管理、教育学、农业、社会科学、工程技术、医学和生物学中，多元线性回归分析是一种普遍应用的统计分析与预测技术。多元线性回归中，一般采用最小二乘方法(OrdinaryLeastSquares:OLS)估计回归系数，以使残差平方和达到最小，但当自变量之间存在多重相关性时，最小二乘估计方法往往失效。而这种变量之间多重相关性问题在多元线性回归分析中危害非常严重，但又普遍存在。为消除这种影响，常采用主成分分析(principalComponentsAnalysis:PCA)的方法，但采用主成分分析提取的主成分，虽然能较好地概括自变量系统中的信息，却带进了许多无用的噪声，从而对因变量缺乏解释能力。最小偏二乘回归方法(PartialLeastSquaresRegression：PLS)就是应这种实际需要而产生和发展的一种有广泛适用性的多元统计分析方法。它于1983年由S.Wold和C.Albano等人首次提出并成功地应用在化学领域。近十年来，偏最小二乘回归方法在理论、方法和应用方面都得到了迅速的发展，己经广泛地应用在许多领域，如生物信息学、机器学习和文本分类等领域。偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模，它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。它不再是直接考虑因变量集合与自变量集合的回归建模，而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分)，然后对它们进行回归建模。偏最小二乘回归可以将建模类型的预测分析方法与非模型式的数据内涵分析方法有机地结合起来，可以同时实现回归建模、数据结构简化(主成分分析)以及两组变量间的相关性分析(典型性关分析)，即集多元线性回归分析、典型相关分析和主成分分析的基本功能为一体。下面将简单地叙述偏最小二乘回归的基本原理。2偏最小二乘法的工作目标2.1偏最小二乘法的工作目标在一般的多元线性回归模型中，如果有一组因变量Y={y,…,y}和一组自变量 1 qX={x,…,x}，当数据总体能够满足高斯—马尔科夫假设条件时，根据最小二乘法，有 1 pY=X（XTX）-1XTYY将是Y的一个很好的估计量。从这个公式容易看出，由于（XTX）必须是可逆矩阵，所以当X中的变量存在严重的多重相关性时，或者在X中的样本点数与变量个数相比显然过少时，这个最小二乘估计都会失效并将引发一系列应用方面的困难。考虑到这个问题，偏最小二乘回归分析提出了采用成分提取的方法。在主成分分析中，对于单张数据表X，为了找到能最好地概括原数据的综合变量，在X中提取了第一主成分F,使得F中所包含的原数据变异信息可达到最大，即1 1Var(F)→max1在典型相关分析中，为了从整体上研究两个数据表之间的相关关系，分别在X和Y中提取了典型成分F和G，它们满足 1 1r(F,G)→max 1 1FTF=1 1 1GTG=1 1 1在能够达到相关度最大的综合变量F和G之间，如果存在明显的相关关系，则可以认1 1为，在两个数据表之间亦存在相关关系。提取成分的做法在数据分析的方法中十分常见，除主成分、典型成分以外，常见到的还有Fisher判别法中的判别成分。实际上，如果F是X数据表的某种成分，则意味着F是X中变量的某一线性组合F=Xa,而F作为一个综合变量，它在X中所综合提取的信息，将满足我们特殊的分析需要。2.2偏最小二乘回归分析的建模方法设有q个因变量{y,…,y}和p个自变量{x,…,x},为了研究因变量与自变量的统计关系， 1 q 1 p观测n个样本点，由此构成了自变量与因变量的数据表X=【x,…,x】和Y=【y,…,y】 1 p n*p 1 q。n*q偏最小二乘法回归分别在X与Y中提取出t和u(也就是说，t是x,…,x的线性组合，u 1 1 1 1 p 1是y,…,y的线性组合)。在提取这两个成分时，为了回归分析的需要，有下列两个要求： 1 qt和u应尽可能大地携带它们各自数据表中的变异信息1t和u的相关程度能达到最大1这两个要求表明，t和u应尽可能好地代表数据表X和Y，同时自变量的成分t对因 1 1 1变量的成分u又有最强的解释能力。1在第一个成分t和u被提取后，偏最小二乘法回归分别实施X对t的回归以及Y对 1 1 1t的回归。如果方程达到了满意的精度，则算法终止；否则，将利用X被t解释后的残余1 1信息以及Y被t解释后的残余信息进行第二轮的成分提取。如此递推，直到能达到一个较1为满意的精度为止。若最终对X共提取了m个成分t,…,t，偏最小二乘法回归将通过实施 1 mY对t,…,t的回归，然后再表达成Y关于原变量x,…,x的回归方程，k=1,…,q。K 1 m K 1 p计算方法推导3.1普遍采用的计算推导过程为了数学推导方便起见，首先将数据做标准化处理。X经标准化处理后的数据矩阵记为E=(E,…,E),Y经过标准化处理后的数据矩阵记为F=(F,…,F)。01 0Pn*p 0 01 0qn*q第一步，记t是E的第一个成分，tEw,w是E的第一个轴，它是一个单位向量，0 1=01 1 0即||w||=1；记u是F的第一个成分，uFc,c是F的第一个轴，它是一个单位向量， 1 1 0 1=01 1 0实用标准文案大全||c||=11 t,u X Y ¡ ¢£⁄¥ƒ11§Var(t)¤max1Var(u)¤max1 '“«‹›fifl–†‡ · t¶u§• ‚„”›»…‰ ¢ 1 1¿t u‰`¥´ˆ•˜ 1 1r(t,u)¤max11 ¯˘˙¨˚¸•˝˛ˇfl — t u«´ˆ• 1 1 Cov(t,u)= (1) (1)(1,1)¤ 11‚max<Ew,FC>0101wTw=13-1 1 1cTc=1 1 1¯˘ ¸||w||=1||c||=1ÆªwTETFc•˜˘1 1001—ŁØŒº æ•‚ 1001 1 1 1 2 1 1¶sfiw c ı łøœ§ 1 1 1 2sßETFc-2w=03-2w 001 1 11sßFTEw-2c=0c001211sß-(wTw-1)=0 1 113-33-4 s=wTETFc-(wTw-1)- cTc-1实用标准s-(cTc-1)=0（3-5） 1 12由（3-2）~（3-5）可以推出2λ=2λ=wTETFc=<Ew,FC> 1 2 1001 0101记ϴ=2λ=2λ=wTETFc,所以ϴ是优化问题的目标函数值。 1 1 2 1001 1把式（3-2）和式（3-3）写成TFc=ϴw（3-6）00111TEw=ϴc （3-7） 001 11 将式（3-7）代入式（3-6），有 ETFFTEw=ϴ2w (3-8)0001 1 1由式（3-8）可知，w是矩阵ETFFTE特征向量，对应的特征值为ϴ2，ϴ是目标0000 1 1函数值，要求取得其最大值，所以w是对应于矩阵ETFFTE最大特征值ϴ2的单位特征 1 0000 1向量。求得轴w和c后，即可得到成分 1 1Ew1=01Fc1=01然后，分别求E和F对t和u的回归方程 0 0 1 1EtPTE,FuQTF*,FtrF 0 11 1 0 11 1 0 11 1其中，P1E0Tt1/t12，Q1F0Tu1/u12，向量r1F0Tt1/t12；E1，F1*，F1为回归方程的残差矩阵。第2成分t的提取，以E取代E,F取代F,用上面的方法求第2个轴W和第2个成分t,有1 0 1 0 2 2ETFW11,tEW2 ETF 2 1111文案大全同样，E,F分别对t做回归,得到 1 1 2tPTE,FtrT2F2 1 22 2 1 2同理可推得第h成分t,h的个数可以用交叉有效性原则进行,h小于X的秩。h如此计算下去，如果X的秩为A，则会有E=tPT+…+tPT 0 11 AA=trT+…+trT+F11 AA A由于t,…,t均可以表示成E,…,E的线性组合，因此，上式可以还原成Y=F关于A 01 0P K 0K=E的回归方程形式J 0J=bX+…+bX+F k=1,..,q K k11 kPP AK3.2一种简洁的计算推导过程3.1中介绍的推导思路是最为常见的，在3.2中将介绍一种更为简洁的计算方法，即直接在E,…,E矩阵中提取成分t,…,t(m<p)。要求t能尽可能多地携带X中的信息，同m-1 1 m h时，t对因变量系统F有最大的解释能力。这时无需在F中提取成分u，并且在迭代算法h0 0h中也无需使用其残差矩阵，而始终直接用F进行计算。这可以使计算过程大为简化，并且0对算法结论的解释也更为方便。下面讨论成分t,…,t(m<=A,A=R(X))的一种新原则。在3.1中推导偏最小二乘法回归m算法时，第一步的思路是在因变量F抽取一个成分uFc，同时在自变量E中抽取一个1=01 0成分tEw,成分的抽取原则是max<Ew,FC>。 1=01 0101在这个原则下得知w，c，u，t的计算方法如下：1 1 1（1）w是矩阵ETFFTE最大特征值的特征向量，成分tEw； 1 0000 1=01（2）c是矩阵FTEETF最大特征值的特征向量，成分uFc； 1 0000 1=01在求得成分u，t以后，分别实施E在t上的回归，并生成残差矩阵E，以及F在 1 1 0 1 1 0t F EF EF¡¢£1 1 1 1 0 0 u,⁄,u¥ƒ§¤ ¡ '“¥«‹›fiƒ 'fl –† 1 m ‡“ ·¶• ‚fl„ t¥”3.1„»…‰ ¿¥`´ˆ2˜ ¯˘F¥ ˙fl ¨0KCov(F,Ew)=˚˚˚(˚˚˚1)r(F,Ew)'“¸˙¶•¥˝tEw˛tˇ— ‹ˇ1=01 1Efl0t1'flF(k=1,⁄,q) ˇ ¯˘Æ ªn-1Ł2 0K 01 0K 010KƒØŒº˝ ˜ q q n-1Ł2 Cov2(F,Ew)= <F,Ew>20K 01 0K 01k1 k1 q q = wTETFFTEw=wTET( FFT)Ew=wTETFFTEw1 00K0K 01 1 0 0K0K 01 1 00001k1 k1 ‡˝w æ ¡˝ 1q s= <F,Ew>2-ı(wTw-1)=wTETFFTEw-ı(wTw-1) 0K 01 1 1 1 1 00001 1 1 1k1s˝˘wıłøœß‡1sETFFTEw-2ıw=03-9Łw 00001 1 11s-(wTw-1)=03-10Ł 1 11¯式3-9Ł‹知ETFFTEw=ıw0001 1 1可见，最优解w应是矩阵ETFFTE的一个特征向量，将它代入目标函数，并且由式0000（3-10）可得q<F,Ew>2=wTETFFTEw=wT（λw）=λ0K 01 1 00001 1 1 1 1k1因此λ矩阵ETFFTE的最大特征根，w则是其相应的特征向量。 1 0000 1由此可见，在新的原则下，w仍然是对应于ETFFTE最大特征值的特征向量，而这 1 0000个新的原则完全没有提取到F成分u提取。也就是说，tEw提取可以不依赖对u的提1 1=01 1取，而这种新的原则又从新的角度说明了t的意义。从这个新的原则出发，对c,u的计算11就可以省略。不过，在偏最小二乘法回归的一些解释技术中，由于u可以较好地概括F中1 0的信息，因此，它常常也是很有用。应用举例下面将通过两个具体的案例分析,以进一步理解偏最小二乘回归的工作过程和它的特点。4.1应用举例一应用举例一将采用Linnerud给出的关于体能训练的数据进行典型相关分析。在这个数据系统中被观测样本点，是某健身俱乐部的20位中年男子。被观测变量分为两组，第一组是身体特征指标X，包括：体重、腰围、脉搏；第二组变量是训练结果指标Y，包括：单杠、弯曲、跳高。原始数据表见表4-1。实用标准实用标准文案大全文案大全实用标准文案大全表4-1原始数据表在简化算法中，对于h=1,2,3时，有 q qλ=<F,Ew>2（n-1）2Cov2(F,t)h0Kh-11=0Kh k1 k1计算可得：λ/(n-1)2=1.2724261λ/(n-1)2=0.0387632λ/(n-1)2=0.0266553而成分t的方差，u的方差以及t与u相关系数的平方r2(t,u)在表4-2中列出。h k h k h k表4-2Var(t),Var(u)和r2(t,u)h k h khhVar(th)Var(uk)r2(th,uk)12.02522.05030.3066220.43811.90710.046430.23551.15050.0983记第h个轴是w，第h个成分t为 k kt=Ew（h=1,2,3） k h-1h其中t亦可以表示成原自变量E的线性组合，即k 0t=Ew*k0h则w*h1（1-wpT）w。表4-3给出w*与w的取值。h= jj h h hj1表4-3w*与w的取值h h自变量自变量w1w2w3w1*w2*w3*X1-0.589890.46879-0.65747-0.589890.36793-0.93459X2-0.77134-0.568010.28706-0.77134-0.699890.80231X30.23888-0.67647-0.696660.23888-0.63562-0.22282在利用E对t进行回归时，有回归系数向量p，h=1,2,3,见表4-4。h-1 h k表4-4回归系数pkpp1P2P3-0.6659-0.0197-0.6574-0.6760-0.35460.28700.3589-1.1942-0.6966成分t=Ew的取值见表4-5。kh-1h表4-5t取值表kNONOt1t2t311-0.6430.591-0.1312-0.7700.1670.1343-0.907-0.5210.04840.688-0.6800.3465-0.4871.133-0.1826-0.229-0.0720.0257-1.404-0.077-0.57280.744-0.211-0.03291.715-0.655-1.557101.1630.1670.333110.3650.7010.201120.7430.6980.002131.187-0.7570.36614-4.390-0.7600.25515-0.8230.974-0.08316-0.749-0.521-0.66717-0.393-0.2030.564181.1990.7830.092191.0480.3730.319201.942-1.1290.568通过交叉验证的方法可得，之取一个成分t时，拟合方程的预测性为最佳，不过为了1后面作图和解释的方便起见，我们取两个成分t，t拟合预测模型。 1 2y=rt+rtk=1,2,3 k 1k1 2k2由于成分t可以写成自变量x的函数，即有h jt=w*x+w*x+w*x h h11 h22 h33由此可得两个成分t，t所建立的偏最小二乘回归模型为 1 2yr（w*x+w*x+w*x）+r（w*x+w*x+w*x）k=1k 111 122 133 2k 211 222 233=（rw*+rw*）x+（rw*+rw*）x+（rw*+rw*）x 1k 11 2k 21 1 1k 12 2k 22 2 1k 13 2k 23 3回归系数的计算结果见表4-6。表4-6回归系数rkKKr1r2r310.34160.33630.477220.41600.29070.455430.14290.0651-0.2125所以，有F=-0.077E-0.499E0.132E01 02- 03F=-0.138E-0.524E0.085E01 02- 03F=-0.060E-0.156E0.007E 01 01 02- 03将标准化变量F(k=1,2,3)和E(j=1,2,3)分别还原成原始变量，y(k=1,2,3)以及ok oj kx(j=1,2,3),则回归方程为：jY*=47.02-0.0166x-0.824x-0.097x1 2 3Y*=612.57-0.351x-10.52x-0.741x1 2 3Y*=183.98-0.125x-2.497x-0.052x1 2 3为了快速直观地观察出各个自变量在解释Y时的作用，可以绘制回归系数图，见图4-1k图4-1回归系数的直方图从回归系数图中可以立刻观察到，腰围变量在解释三个回归方程时起到了极为重要的作用，然而，与单杠及弯曲相比，跳高成绩的回归方程显然不够理想，三个自变量对它的解释能力均很低。因此有必要考虑对自变量做适当的调整。为了考察这三个回归方程的模型精度，我们以（y*,y）为坐标值，对所有的样本点绘制预ikik测图。y*是第k

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

偏最小二乘回归方法PLS

文档简介

温馨提示

最新文档

评论

偏最小二乘回归方法PLS

文档简介

温馨提示

最新文档

评论

相关文档