第六章化学试验设计法中的回归分析2_第1页
第六章化学试验设计法中的回归分析2_第2页
第六章化学试验设计法中的回归分析2_第3页
第六章化学试验设计法中的回归分析2_第4页
第六章化学试验设计法中的回归分析2_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、164 多元线性回归多元线性回归 一元线性和非线性回归方法对单因素试验很管用,但是一元线性和非线性回归方法对单因素试验很管用,但是我们在试验中经常碰到的是多因素情况。我们在试验中经常碰到的是多因素情况。譬如分析化学中常见的多组分分析问题,如何做?譬如分析化学中常见的多组分分析问题,如何做?传统的方法是采用传统的方法是采用化学掩蔽化学掩蔽或或分离等方法分离等方法,将其转化为,将其转化为单因素进行研究。单因素进行研究。但这样经常费时费力,还得到的不一定是最好的条件。但这样经常费时费力,还得到的不一定是最好的条件。还有如前面提到的均匀设计法的数据分析,要求出多个还有如前面提到的均匀设计法的数据分析,

2、要求出多个因素的最优水平,如何做?因素的最优水平,如何做?在这时就必须采用在这时就必须采用多元回归多元回归。2多元回归有多种,除了多元线性、非线性回归外,其多元回归有多种,除了多元线性、非线性回归外,其他如化学计量学中的主成分分析、偏最小二乘法、聚他如化学计量学中的主成分分析、偏最小二乘法、聚类分析等也是比较常用的回归分析方法。类分析等也是比较常用的回归分析方法。多元线性回归多元线性回归是一种使用非常广泛的校正方法,在是一种使用非常广泛的校正方法,在均均匀设计匀设计中就要用到。中就要用到。3对于一个多因素(对于一个多因素(x1、x2、xn)的试验,试验响应)的试验,试验响应指标为指标为y,如果

3、,如果y与各因素之间为线性关系,则有:与各因素之间为线性关系,则有: (11) nnxbxbxbby .22110这里,这里,b b0 0为常数项,为常数项,b b1 1、b bn n称为多元线性回归的偏称为多元线性回归的偏回归系数。回归系数。和一元线性回归方法类似,用最小二乘法来确定建立和一元线性回归方法类似,用最小二乘法来确定建立模型的系数,从而可以建立起模型的系数,从而可以建立起y对对xi的线性回归方程。的线性回归方程。 4当当xi取不同水平(如取不同水平(如m个水平)时,经过试验可以得个水平)时,经过试验可以得到不同的响应指标值到不同的响应指标值yi: nnxbxbxbby112211

4、101. nnxbxbxbby222221102. mnnmmmxbxbxbby .22110(12) 注意这里注意这里mn1,想一想为什么?,想一想为什么? 方程组(方程组(12)可以用最小二乘法来确定)可以用最小二乘法来确定b0bn的值。的值。5即:即: min.1222110 miinniiixbxbxbbyq(13) 同样的,为了得到极小值,对(同样的,为了得到极小值,对(13)式求导:)式求导: miinniiixbxbxbbybq12211000.2 miimnniiixxbxbxbbybq112211010.2 miininniiinxxbxbxbbybq1221100.2(14

5、) 6方程组(方程组(1414)可变形为:)可变形为: inniiixbxbxbmby.22110 ininiiiiiixxbxxbxbxbyx1212211101. 222110.inniniiniiniinxbxxbxxbxbyx(14)(14) (14)称为正规方程组,其方程数目与未知数数目相称为正规方程组,其方程数目与未知数数目相等。等。 7方程组方程组(14)(14)右边的系数矩阵为:右边的系数矩阵为: x xt tx xm m 1ix 2ix inx 1ix 21ix21iixx inixx 1 inxinixx 1inixx 2 2inx而左边为:而左边为: iyx xt ty

6、yiiyx 1iinyx 8因此因此(14)式的矩阵形式就是:式的矩阵形式就是: xtyxtxb (15) 如果如果xtx的逆矩阵的逆矩阵(xtx)-1存在,则系数矩阵为:存在,则系数矩阵为: b(xtx)-1 xty (16) 如果将(如果将(16)式代入()式代入(12)式,则有:)式,则有: yxbx(xtx)-1xty (17) (17)式表示了实验值式表示了实验值yi与拟和值与拟和值yi的关系,可能很的关系,可能很接近,也可能不相符,甚至相差很大。因而也需要接近,也可能不相符,甚至相差很大。因而也需要对拟和结果进行检验。对拟和结果进行检验。9对于多元回归分析,通常采用对于多元回归分析

7、,通常采用复相关系数复相关系数r来评价拟来评价拟和值和值yi和实验值和实验值yi之间的关系。之间的关系。 根据方差分析的思想,将根据方差分析的思想,将y的总差方和的总差方和sst(total)分)分解为两部分,一部分是由自变量的变化引起的解为两部分,一部分是由自变量的变化引起的y的波的波动,即回归差方和动,即回归差方和ssreg(regression);另一部分是);另一部分是随机误差或其他未知因素引起的波动,即残余差平方随机误差或其他未知因素引起的波动,即残余差平方和和ssres(residual)。)。 10 sgmiiimiimiitssssyyyyyyssrere121212 (18)

8、 sst、ssreg、ssres的自由度分别是的自由度分别是m-1, n, 和和m-n-1。 tstgssssssssrrere1 (19) r越接近越接近1,说明,说明y与自变量的相关性越好。与自变量的相关性越好。 r在回归分析中是非常重要的指标。在回归分析中是非常重要的指标。 但是应注意:但是应注意:r不仅是回归方程中自变量个数不仅是回归方程中自变量个数n的函数,还与的函数,还与观测水平数观测水平数m有关。当有关。当 m相对于相对于n不很大时,常有较大的不很大时,常有较大的r,特,特别是当别是当mn+1时,即使时,即使n个自变量与个自变量与y不相关,也恒有不相关,也恒有r=1 (q= 0)

9、。因而在实际计算中,要注意。因而在实际计算中,要注意m和和n的比例问题。的比例问题。 一般认为,一般认为,m至少为至少为n的的5倍。倍。1165 多元非线性回归多元非线性回归 多元非线性回归是另一个很常用的回归方法,其回多元非线性回归是另一个很常用的回归方法,其回归原理也和一元非线性回归相似。归原理也和一元非线性回归相似。 一般有两种方法:一般有两种方法: (1 1) 变量代换法。变量代换法。 (2 2)非线性最小二乘法,它就是采用最小二乘法)非线性最小二乘法,它就是采用最小二乘法估计非线性模型中的参数,从而建立非线性回归模型估计非线性模型中的参数,从而建立非线性回归模型。 一般的,当我们不知

10、道回归模型时,则多元非线性一般的,当我们不知道回归模型时,则多元非线性回归可转化成回归可转化成多元多次多项式多元多次多项式进行拟合,这是基于进行拟合,这是基于泰勒展开的基础。通过这样的转换即可对其进行多泰勒展开的基础。通过这样的转换即可对其进行多元非线性拟合元非线性拟合 。1266 逐步回归分析法介绍(逐步回归分析法介绍(stepwise regression) 在上一节中讨论了多元回归分析。当我们不知道指在上一节中讨论了多元回归分析。当我们不知道指标(因变量)和多个因素(自变量)之间的关系模型时,标(因变量)和多个因素(自变量)之间的关系模型时,如何进行回归分析?如何进行回归分析? 还有,还

11、有, 在某些实际问题中可能有这样的情况:参加在某些实际问题中可能有这样的情况:参加回归的回归的n个变量个变量x1、x2、 xn 中,单独观察,有些因中,单独观察,有些因素与因变量素与因变量y的相关程度很密切,但当综合观察的相关程度很密切,但当综合观察n个因个因素与素与y的相关性时,这些因素可能显得不太重要。的相关性时,这些因素可能显得不太重要。13若把这些变量保留,不仅增加计算工作量,而且会增加若把这些变量保留,不仅增加计算工作量,而且会增加回归方程的不稳定性,因此希望从回归方程的不稳定性,因此希望从n个变量中选出与个变量中选出与y最密切、最具代表性的变量来描述最密切、最具代表性的变量来描述y

12、变化的情况。即希变化的情况。即希望所得回归方程包含一切对望所得回归方程包含一切对y作用显著的因素,不包含作用显著的因素,不包含对对y不显著的变量。不显著的变量。原因:原因:这些因素与这些因素与n个变量中的其他变量之间本来就个变量中的其他变量之间本来就有相关关系,当做回归时,它们对有相关关系,当做回归时,它们对y的作用被其他因的作用被其他因子替代了。子替代了。这时候就要用到这时候就要用到逐步回归分析法逐步回归分析法。逐步回归分析是在。逐步回归分析是在多元回归基础上派生出来的一种算法技巧。多元回归基础上派生出来的一种算法技巧。14逐步回归方法的基本思想:逐步回归方法的基本思想:对全部的自变量对全部

13、的自变量x1,x2,.,xn,按它们对按它们对y贡献的大小进贡献的大小进行比较,并通过行比较,并通过f检验法,选择偏回归平方和显著的检验法,选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建变量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。立一个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和。如果由于引入新的变逐个检验他们的偏回归平方和。如果由于引入新的变量而使得已进入方程的变量变为不显著时,则及时从量而使得已进入方程的变量变为不显著时,则及时从偏回归方程中剔除。偏回归方程中剔除

14、。上面介绍的是上面介绍的是“逐步引入逐步引入”的方法。的方法。另外还有另外还有“逐步剔除逐步剔除”、“有进有出有进有出”等方法。等方法。15自变量自变量x的显著性如何检验?的显著性如何检验?假定在假定在n个自变量中已经建立了个自变量中已经建立了x1、x2、xl对对y的回归方程,对各变量的贡献进行比较,找出最小的回归方程,对各变量的贡献进行比较,找出最小贡献贡献xj,要检验,要检验xj的显著性,则可由的显著性,则可由xj对对y的方差贡的方差贡献献qj来衡量。来衡量。通常用通常用qj与与x1、x2、xl的整体方差的整体方差q之比之比qj/q来量度。来量度。采用采用f检验:检验:)ln(qqfj1

15、ffa a,说明,说明xj贡献较大,保留;贡献较大,保留;ffa a,则剔除,则剔除xj。16在引入了两个自变量以后,便开始考虑是否有需要剔在引入了两个自变量以后,便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对除的变量。只有当回归方程中的所有自变量对y都有都有显著影响而不需要剔除时,再考虑从未选入方程的自显著影响而不需要剔除时,再考虑从未选入方程的自变量中,挑选对变量中,挑选对y有显著影响的新的变量进入方程。有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不论引入还是剔除一个变量都称为一步。这一过程不断被重复,直至无法剔除已引入的变量,这一过程不断被重复,直至

16、无法剔除已引入的变量,也无法再引入新的自变量时,逐步回归过程结束。也无法再引入新的自变量时,逐步回归过程结束。一般逐步回归分析都需要借助专用软件完成。一般逐步回归分析都需要借助专用软件完成。 17逐步回归分析逻辑结构图逐步回归分析逻辑结构图输入基本参数、读入原始数据输入基本参数、读入原始数据计算各变量均值、离差矩阵、相关矩阵计算各变量均值、离差矩阵、相关矩阵开始逐步计算开始逐步计算是否为前三步?是否为前三步?是是否否引入处理引入处理剔除处理剔除处理是否剔除?是否剔除?是是否否是否引入?是否引入?否否结束处理,打印计算结果结束处理,打印计算结果对相关阵进行变换对相关阵进行变换是否有待预报样品?是

17、否有待预报样品?否否结束结束预报计算预报计算是是18多元线性回归举例。多元线性回归举例。例例14. 已知水泥在凝固过程中放出的热量已知水泥在凝固过程中放出的热量y(j/g)与以与以下四种成分的含量有关:下四种成分的含量有关:x1: 3caosio2; x2: 2caosio2; x3: 3caoal2o3; x4: 4caoal2o3fe2o3;原始数据如下表:原始数据如下表:具体处理见具体处理见excel表。表。19试验号试验号mx1x2x3x4y(j/g)172666078.52129155274.331156820104.34113184787.6575263395.9611559221

18、05.27371176102.78131224472.59254182293.1102147426115.911140233483.8121160912113.3131068812109.42067 回归分析法常用软件介绍回归分析法常用软件介绍 1. excel2. origin3. spss5. matlab4. dabhttp:/ package for the social science)社会科学应用软件包是世界上著名的统计分析软件社会科学应用软件包是世界上著名的统计分析软件之一。它和之一。它和sas(statistical analysis system,统,统计分析系统)、计分析系统)、bmdp(biomedical programs,生物医学程序)并称为国际上最有影响的三大统计生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论