版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关
2、问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次
3、偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以与观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。一、 偏最小二乘回归的建模策略原理方法1.1建模原理设有 q个因变量和p自变量。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X=和.Y=。偏最小二乘回归分别在X与Y中提取出成分 和 (也就是说, 是 的线形组合, 是 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求
4、:(1) 和应尽可能携带他们各自数据表中的变异信息;(2) 与 的相关程度能够达到最大。这两个要求表明,和 应尽可能好的代表数据表X和Y,同时自变量的成分 对因变量的成分 又有最强的解释能力。在第一个成分和 被提取后,偏最小二乘回归分别实施X 对 的回归以与 Y对 的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被解释后的残余信息以与Y 被 解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对 X共提取了 m个成分,偏最小二乘回归将通过实施 对, 的回归,然后再表达成关于原变量, 的回归方程,k=1,2,q 。1.2计算方法推导为了数学推
5、导方便起见,首先将数据做标准化处理。X 经标准化处理后的数据矩阵记为=(,),经标准化处理后的数据矩阵记为=(,)。第一步 记是的第一个成分,是的第一个轴,它是一个单位向量,既|=1。记是的第一个成分,=。 是的第一个轴,并且|=1。如果要,能分别很好的代表X与Y中的数据变异信息,根据主成分分析原理,应该有Var()maxVar()max另一方面,由于回归建模的需要,又要求对有很大的解释能力,有典型相关分析的思路,与的相关度应达到最大值,既r(,)max因此,综合起来,在偏最小二乘回归中,我们要求与的协方差达到最大,既Cov(,)=r(,)max正规的数学表述应该是求解下列优化问题,既 s.t
6、 因此,将在|=1和|=1的约束条件下,去求()的最大值。如果采用拉格朗日算法,记s= (1) (1)对s分别求关于,和的偏导并令之为零,有= =0 (1 -2)= =0 (1-3)=(1)=0 (1-4)=(1)=0 (1-5)由式(1-2)(1-5),可以推出记,所以,正是优化问题的目标函数值.把式(1-2)和式(1-3)写成 (1-6) (1-7)将式(1-7)代入式(1-6),有 (1-8) 同理,可得 (1-9)可见,是矩阵的特征向量,对应的特征值为.是目标函数值,它要求取最大值,所以,是对应于矩阵最大特征值的单位特征向量.而另一方面,是对应于矩阵最大特征值的单位特征向量.求得轴和后
7、,即可得到成分然后,分别求和对,的三个回归方程 (1-10) (1-11) (1-12)式中,回归系数向量是 (1-13) (1-14) (1-15)而,分别是三个回归方程的残差矩阵.第二步 用残差矩阵和取代和,然后,求第二个轴和以与第二个成分,有=是对应于矩阵最大特征值的特征值,是对应于矩阵最大特征值的特征向量.计算回归系数因此,有回归方程如此计算下去,如果的秩是,则会有 (1-16) (1-17)由于,均可以表示成的线性组合,因此,式(1-17)还可以还原成关于的回归方程形式,即 k=1,2,q是残差距阵的第k列。1.3交叉有效性下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。
8、在许多情形下,偏最小二乘回归方程并不需要选用全部的成分进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分,仅用这m 个后续的成分就可以得到一个预测性较好的模型。事实上,如果后续的成分已经不能为解释提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。在多元回归分析一章中,我们曾在调整复测定系数的容中讨论过这一观点。下面的问题是怎样来确定所应提取的成分个数。在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用。我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量,拟合值以与残差均方和;再用第二部分数据作为实验点
9、,代入刚才所求得的回归方程,由此求出。一般地,若有,则回归方程会有更好的预测效果。若 ,则回归方程不宜用于预测。在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。采用类似于抽样测试法的工作方式,把所有n个样本点分成两部分:第一部分除去某个样本点的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点代入前面拟合的回归方程,得到在样本点上的拟合值。对于每一个=1,2,n,重复上述测试,则可以定义的预测误差平方和为,有 (1-18)定义Y的预测误差平方和为,有 (1
10、-19)显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大的值。另外,再采用所有的样本点,拟合含h 个成分的回归方程。这是,记第个样本点的预测值为,则可以记的误差平方和为,有 (1-20)定义Y的误差平方和为,有 (1-21)一般说来,总是有大于,而则总是小于。下面比较和。是用全部样本点拟合的具有h-1个成分的方程的拟合误差;增加了一个成分,但却含有样本点的扰动误差。如果h个成分的回归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则认为增加一个成分,会使预测结果明显提高。因此我们希望的比值能越小越好。在SIMCA-P软
11、件中,指定即时,增加成分就是有益的;或者反过来说,当时,就认为增加新的成分,对减少方程的预测误差无明显的改善作用.另有一种等价的定义称为交叉有效性。对每一个变量,定义 (1-22)对于全部因变量Y,成分交叉有效性定义为 (1-23)用交叉有效性测量成分对预测模型精度的边际贡献有如下两个尺度。(1) 当时,成分的边际贡献是显著的。显而易见,与是完全等价的决策原则。(2) 对于k=1,2,q,至少有一个k,使得这时增加成分,至少使一个因变量的预测模型得到显著的改善,因此,也可以考虑增加成分是明显有益的。明确了偏最小二乘回归方法的基本原理、方法与算法步骤后,我们将做实证分析。附 录function
12、w=maxdet(A)%求矩阵的最大特征值v,d=eig(A);n,p=size(d);d1=d*ones(p,1);d2=max(d1);i=find(d1=d2);w=v(:,i);%function c,m,v=norm1(C)%对数据进行标准化处理n,s=size(C);for i=1:nfor j=1:s c(i,j)=(C(i,j)-mean(C(:,j)/sqrt(cov(C(:,j); endendm=mean(C);for j=1:s v(1,j)=sqrt(cov(C(:,j);end%function t,q,w,wh,f0,FF=fun717(px,py,C) % px
13、自变量的输入个数 % py输入因变量的个数。 % C输入的自变量和因变量组成的矩阵 % t提取的主成分 % q为回归系数。 % w最大特征值所对应的特征向量。 % wh处理后的特征向量 % f0回归的标准化的方程系数 % FF原始变量的回归方程的系数c=norm1(C); %norm1为标准化函数y=c(:,px+1:px+py); %截取标准化的因变量E0=c(:,1:px);F0=c(:,px+1:px+py);A=E0*F0*F0*E0;w(:,1)=maxdet(A); %求最大特征向量t(:,1)=E0*w(:,1); %提取主成分 E(:,1:px)=E0-t(:,1)*(E0*t
14、(:,1)/(t(:,1)*t(:,1); % 获得回归系数 p(:,1:px)=(E0*t(:,1)/(t(:,1)*t(:,1);for i=0:px-2B(:,px*i+1:px*i+px)=E(:,px*i+1:px*i+px)*F0*F0*E(:,px*i+1:px*i+px); w(:,i+2)=maxdet(B(:,px*i+1:px*i+px); % maxdet为求最大特征值的函数 t(:,i+2)=E(:,px*i+1:px*i+px)*w(:,i+2); p(:,px*i+px+1:px*i+2*px)=(E(:,px*i+1:px*i+px)*t(:,i+2)/(t(:
15、,i+2)*t(:,i+2); E(:,px*i+px+1:px*i+2*px)=E(:,px*i+1:px*i+px)-t(:,i+2)*(E(:,px*i+1:px*i+px)*t(:,i+2)/(t(:,i+2)*t(:,i+2); end for s=1:px q(:,s)=p(1,px*(s-1)+1:px*s); endn,d=size(q); for h=1:px iw=eye(d); for j=1:h-1 iw=iw*(eye(d)-w(:,j)*q(:,j); end wh(:,h)=iw*w(:,h); endfor j=1:py zr(j,:)=(regress1(y(
16、:,j),t); %求回归系数endfor j=1:px fori=1:py %生成标准化变量的方程的系数矩阵 w1=wh(:,1:j); zr1=(zr(i,1:j); f0(i,:,j)=(w1*zr1); end normxy,meanxy,covxy=norm1(C); %normxy标准化后的数据矩阵 %meanxy每一列的均值 %covxy每一列的方差 ccxx=ones(py,1)*meanxy(1,1:px); ccy=(covxy(1,px+1:px+py)*ones(1,px); ccx=ones(py,1)*(covxy(1,1:px); ff=ccy.*f0(:,:,j
17、)./ccx; fff=-(sum(ccy.*ccxx.*f0(:,:,j)./ccx)-meanxy(1,px+1:px+py); FF(:,:,j)=fff,ff; %生成原始变量方程的常数项和系数矩阵 end%function r,Rdyt,RdYt,RdYtt,Rdytt,VIP=fun8y(px,py,c) X=c(:,1:px); Y=c(:,px+1:px+py); x=norm1(X); y=norm1(Y); t,q,w=fun717(px,py,X,Y); r1=corrcoef(y,t); r=r1(py+1:px+py,1:py); Rdyt=r.2; RdYt=mea
18、n(Rdyt) for m=1:px RdYtt(1,m)=sum(RdYt(1,1:m); end for j=1:py for m=1:py Rdytt(j,m)=sum(Rdyt(j,1:m); end end for j=1:px for m=1:px Rd(j,m)=RdYt(1,1:m)*(w(j,1:m).2); end end for j=1:px VIP(j,:)=sqrt(px*ones(1,px)./RdYtt).*Rd(j,:); end%function r,Rdxt,RdXt,RdXtt,Rdxtt=fun8x(px,py,c) X=c(:,1:px); Y=c(:
19、,px+1:px+py); x=norm1(X); y=norm1(Y); t,q,w=fun717(px,py,X,Y); r1=corrcoef(x,t); r=r1(px+1:px+px,1:px); Rdxt=r.2; RdXt=mean(Rdxt); for m=1:px RdXtt(1,m)=sum(RdXt(1,1:m); end for j=1:px for m=1:px Rdxtt(j,m)=sum(Rdxt(j,1:m); end end % for j=1:px % for m=1:px % Rd(j,m)=RdXt(1,1:m)*(w(j,1:m).2); % end
20、% end % for j=1:px % VIP(j,:)=sqrt(px*ones(1,px)./RdYtt).*Rd(j,:); % end%function t,u=TU(px,py,C) %t提取的自变量的主成分 %u 提取的因变量的主成分c=norm1(C);y=c(:,px+1:px+py);E0=c(:,1:px);F0=c(:,px+1:px+py);A=E0*F0*F0*E0;w(:,1)=maxdet(A);t(:,1)=E0*w(:,1);B=F0*E0*E0*F0;cc(:,1)=maxdet(B);u(:,1)=F0*cc(:,1);%function drew(px,py,c) X=c(:,1:px); Y=c(:,px+1:px+py); line,l=size(Y); t,q,w,wh,f0,FF=fun717(px,py,c); YY=X*FF(:,2:px+1,3)+ones(line,1)*FF(:,1,3); subplot(1,1,1,1) bar(f0(:,:,3) title( 直方图) legend(SG,TZBFB,FHL,JK,HPZD,JPZD,TZ,ZG,GPK) grid on plot(YY(:,4),Y(:,4),+); lsline for i=1:py v=mod(i,4); d=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 软件代理合同完整版3篇
- 砖混结构房屋施工合同
- 二零二四年度知识产权许可与技术秘密保密协议
- 2024年度数据处理服务居间合同2篇
- 商业合作协议合同
- 甲方与乙方就2024年度版钢结构厂房项目的质量保修合同2篇
- 疼痛心理治疗
- 青年员工职业规划
- 员工培训制度规划方案
- 2024年度融资租赁设备担保规定合同3篇
- DB11T 2000-2022 建筑工程消防施工质量验收规范
- 人教版数学三年级上册《分数的初步认识》课件 (共7张PPT)
- 2021小学语文《习作例文-风向袋的制作》说课稿及教学反思
- 外科学教学课件:周围神经损伤
- 杆塔分解组立
- JJG 861-2007 酶标分析仪检定规程-(高清现行)
- 13培智二年级语文上册《土木火》教案
- 中医气功学导论期末试卷附答案
- 人类命运共同体视域下小学国际理解教育的实践探索
- 50Hz微电子相敏轨道电路课件
- 中考数学阅读理解型问题复习
评论
0/150
提交评论