0802 回归分析简介及其在均匀设计中的应用_第1页
0802 回归分析简介及其在均匀设计中的应用_第2页
0802 回归分析简介及其在均匀设计中的应用_第3页
0802 回归分析简介及其在均匀设计中的应用_第4页
0802 回归分析简介及其在均匀设计中的应用_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二节回归分析简介及其在均匀设计中的应用回归分析是数据分析的有力工具,它能揭示变量之间的相互关系,因此在均匀设计的数据分析中成为主要的手段,回归分析方法和理论十分丰富,有关书籍数以百计,这里仅作一梗概介绍,细节可以参看有关书籍,如26,29,30数据处理可使用统计软件包SAS,SPSS,MINITAB,BMDP,S等,国内许多部门如中国均匀设计学会为均匀设计及其数据分析制作了专用统计软件包,使用更为方便。2.1 一元线性回归模型 由于均匀设计的数据分析要利用回归分析,因此需要对回归分析作一扼要介绍。一元线性回归是处理两个变量之间关系的最简单的模型。本章将详细讨论这个模型。一元线性回归虽简单,但

2、从中可以了解回归分析方法的基本思想/方法和应用。 我们首先通过一个例子说明如何建立一元线性回归方程。 例3 为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(X)与当年灌溉面积(Y),得到连续10年的数据。 年序最大积雪深度X(尺)灌溉面积Y(千亩)115.228.6210.419.3321.240.5418.635.6526.448.9623.445.0713.529.2816.734.1924.046.71019.137.4 为了研究这些数据中所蕴含的规律性,我们把各年最大积雪深度作横坐标,相应的灌溉面积作纵坐标,将这些数据点标在平面直角坐标图上,如图9,

3、这个图称为散点图。 从图9看到,数据点大致落在一条直线附近,这告诉我们变量X与Y之间的关系大致可看作是线性关系,从图9还看到,这些点又不都在一条直线上,这表明X与Y的关系并没有确切到给定X就可以唯一地确定Y的程度。事实上,还有许多其他因素对Y产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响Y取什么值的随机因素。如果我们只研究X与Y的关系,可以假定 有如下结构式:Y=+X+ (2.1) 式中, 称为回归系数,X为自变量,Y为因变量,表示随机误差,常常假定遵从正态分布N(0,2),这表示误差为正和负的机会一样多,2 表示误差的大小。式中,2 通常是未知的,它们要通过数据的信息来估计。 设

4、(Xi,Yi),i=1,n为一组数据,若用回归方程(2.1)来拟合,则当X=时的估计值为 (2.2)自然,我们希望求和使与很接近.也就是说,我们要决定一条直线,使其与所有的点都比较接近,最流行求, 估计值的办法是用最小二乘法,令 (2.3)最小二乘法是求和使Q达极小,使Q达极小的和值记为a和b.利用微积分中求极值的办法求得 (2.4)式中 (2.5)利用这些公式到例3,得:于是 b=415.606/230.656=1.802×18.88=2.511从而回归方程为 试将该直线画在图9上,可以看到拟合的效果是不错的,衡量拟合效果的好坏,如下的方法是十分有用的。 (a) 相关系数 相关系数

5、 用于描叙变量X和Y的线性相关的程度,并常用r来表示,r的值介于-1,1之间,它的意义由图10可以知道。r的绝对值越接近于1表示X和Y之间的线性关系越密切;r0,两者呈正比关系,叫正相关;r 0两者呈负相关。r的值接近于0,两者没有线性相关关系。图10中(c)表示X和Y没有任何关系,(d)表示X和Y有非线性相关关系,r的计算公式为 (2.6)式中 (2.7)对例3 =764.861r=415.605/ =0.9894 后者很接近于1,故最大积雪深度与灌溉面积有很密切的线性相关关系,且是正相关.但是,相关系数有一个缺点,就是它接近1的程度与样本的组数n是有关的,当n较小时,相关系数的绝对值容易接

6、近于1,当n较大时,相关系数的绝对值容易偏小。特别当n=2时,因为两点决定一条直线,所以相关系数的绝对值总为1,在许多统计书中29给出相关系数的起码值,当相关系数的绝对值大于表中之值时才可以认为X和Y有线性关系。此例当显著性水平=1%时,表中的起码值为0.765,今计算r=0.9894 0.765,故最大积雪深度与灌溉面积有高度的线性关系。在有些统计软件中,常给出,这时便于区别记为。 (b)方差分析和F检验 因变量的波动可用来表达,这个波动是由两个因素造成的;一个是X的变化引起Y相应的变化,另一个是随机误差。前者造成Y的波动可用回归平方和来表达,后者用残差平方和来度量。它们分别用 和来表示,从

7、数学上可以导出 - (2.8)当X和Y为线性回归模型(2.1)时,它们有如下更方便的计算公式- (2.9) 利用统计量F (2.10)可以来检验回归方程(2.1)是否可信.当方程可信时F ,这里为F表中的临界值,1和n-2为自由度,为显著水平.对例3可以算得=1.802×415.606=748.922=764.961-748.922=16.039 F=8×748.922/16.039=373.55当=1%时。用F值和F表上的临界值相比,若F ,表明Y的变化主要是由X的变化造成的,回归方程(2.1)可信;若F值小于,回归方程不可信。可信的程度也可分成不同等级,在本书中,=5%

8、时可信用“*” 表示,=1%时可信用“*” 表示。上述计算结果常列成方差分析表,如表10所示。表10 方差分析表 方差来源平方和自由度均方F显著性回归748.9221748.922373.550*误差16.03982.005总和764.9619 (c) 残差分析称为残差,它能提供许多有用的信息,表11给出了例3的10个残差,利用残差可以提供如下信息: (i)之估计 (2.11)给出了回归方程的精度,它称为残差标准差,若随机误差遵从正态分布N(0,),则Y的预报落在之内的概率大约为95%,对例3可以算得=1.416,且10个均落于2×1.416之内。 (ii)数据和模型之诊断 由残差之

9、大小,可以发现异常(或叫离群)数据,可以发现模型(2.1)是否合适,是否要用非线性回归模型等,这些已形成一整套理论,称为回归诊断,有兴趣的读者可参见文献31。2.2多元线性回归模型 当影响因变量Y的自变量不止一个时,比如有m个,这时Y和X之间的线性回归方程为 (2.12)其中为回归系数,为随机误差,常假定 。 设为观测值,回归分析的首要任务是利用它们来估计和,它们的最小二乘估计记作求估计值 需要解下面的线性方程组 (2.13)其中 当 求得后,计算 (2.14)回归方程(2.12)建立后,检验其是否可信可用方差分析,这时公式(2.8)依然有效,但方差分析表(参看表10)将成为表12之形式,其中

10、 (2.15) 表12 方差分析表方差来源平方和自由度均方F显著性回归m残差n-m-1总和n-1 它将与F的临界值来比较,其比较的结果和结论请参见上节的讨论,反映回归精度的的估计公式为 (2.16) 类似于一元回归相产系数r,可以定义适用于多元回归的全关系数R,R定义)为和的相关系数,或定义为 (2.17) 例4 试用线性回归模型(2.10)来拟合表9的试验数据。 解:这时n=7,7组观察值为(0.330,1.0,13,1.5),(0.336,1.4,19,3.0), (0.482,3.4,28,3.5),它们的均值和为由于,故它们不必全部列出,将它们代入到方程级(2.13)中可以解得从而&#

11、215;2.2+0.00343 ×19-0.077×2.0 =0.201的估计为.于是回归方程为 (2.18)进一步对它作方差分析,其方差分析表列于表13.表13 方差分析表方差来源自由度平方和均方F回归30.0487700.0162573.29误差30.0148380.004946总和60.063608当 =0.05 时F表的临界值,回归方程(2.18)不可信.这时,是否Y和三个因素之间不可能建立回归关系呢?不是的,我们还应作进一步探讨,在下节我们将继续讨论该例。2.3 二次型回归模型与变量筛选 由于因变量常常有交互作用,回归模型(2.12)不足以反映实际,于是二次型回归

12、模型常常为人们所采用.若有m个因素则二次型回归模型为 (2.19)其中为回归系数,为随机误差.我们看到,这时除了常数项 以外,方程有m(m+3)/2 项,当m=1,2, 时项数为m12345678910项数25914202735445465若使回归系数的估计有可能,必要条件为n>1+m(m+3)/2.当m 较大时,通常不能满足这个必要条件.于是有必要从方程(2.19)中选择贡献显著的项,删除不重要的项。有时,实际问题需要考虑高阶的交互作用,如 等,这时筛选变量的任务就更为重要。在回归分析中,有许多有效的筛选变量的技术,如a) 前进法,b) 后退法,c) 逐步回归法,d) 最优子集法(参看

13、25)。本章仅仅采用逐步回归技术来筛选变量,这并不意味着逐步因归在上述四项技术中最好的。 逐步回归是回归分析中的一种筛选变量的技术。开始它将贡献最大的一个变量选入回归方程,并且预先确定两个阈值 和 ,用于决定变量能否入选或剔除。逐步回归在每一步有三种可能的功能: a) 将一个新变量引进回归模型,这时相应的F统计量必须大于 b) 将一个变量从回归模型中剔除,这时相应的F统计量必须小于 c) 将回归模型内的一个变量和回归模型外的一个变量交换位置。 执行功能a)和b)时要注意如下原则: 设在当前步骤中有s个变量不在回归模型中,有t个变量在回归模型中。今欲从s个变量中挑选一个加入回归模型之中,显然应挑

14、选使回归效果最好的变量。这里回归的效果可用方差分析表(见表10,表13)中F值来衡量,显然我们要从s个变量中挑选一个变量使F值达到极大。类似地,若欲从t 个变量中删除一个变量使其离开回归模型,我们就是要选择删除后使回归效果最好的变量,或选择对当前回归模型贡献最小的变量。如果在某一步中,既能实现a)又能实现b),两者之和就是功能c)。大部分统计软件包均有逐步回归之功能,例如中国均匀设计学会推荐的软件包。 现在我们对例4继续进行讨论。设先用后退法来选变量。所谓后退法,就是开始将所有的变量全部采用,然后逐步剔除对方程没有显著贡献的变量,直到方程中所有的变量都有显著贡献为止。 仍考虑线性模型,开始三个

15、因素全部进入方程,得(2.18)。统计软件包通常还会提供每个变量的t值,t值越大(按绝对值计)表示该因素越重要。对例2有这表明三个因素中以(反应时间)对得率(Y)影响最大,配比次之,吡啶量最小。这些t 值都是随机变量,它们遵从分布。若取=0.05 ,这时n=7,m=3, = 的临界值(0.05)=3.18。t 值大于该值的因素表示对方程有显著贡献,否则表示不显著。今 均小于(0.05)=3.18 ,说明回归方程(2.18)的三个变量至少有一个不起显著作用。于是我们将贡献最小的删去,重新建立Y和及的线性回归方程,得 (2.20),三个t 值分别为这时这三个t值遵从含四个自由度的t 分布,临界值为

16、(0.05)=2.78,从而 应从方程中剔除。然后对Y和建立回归方程 (2.21)相应的。因此,回归方程(2.21)为“最终”的回归模型。这里最终加上引号,表示并非真正的最终模型,而是在线性模型框架下的最终产物。 上述的分析只发现对Y有显著作用,其它两个因素均没有显著作用,该结论与实际经验不吻合,因此,猜想用线性模型不一定符合实际。于是进一步考试二次回归模型(2.19)。这时方程中有9项(不算)。利用逐步回归技术求得回归方程如下: (2.22)其相应的 。显然,回归方程(2.22)的效果优于回归方程(2.21)。方程(2.22)表明,因素和交互作用对Y有显著的影响。值得注意的是,有些人对回归分

17、析没有足够的理解,片面追求大的(或小的),致使选进方程中的项过多,使误差自由度为1或甚至为0,这时有关的结可靠性是很差的。因此,不应片面追求大的,应选择n 稍大的均匀设计表,使得误差有足够的自由度5。2.4 应用实例 均匀设计和正交设计以及其他试验设计方法一样,在工农业生产和科学实验中有广阔的应用前景,本文的文献中列举了部分应用成果,其中有些成果成绩显著。更多的成果有待搜集。均匀设计不但在国内得到广泛应用,在彼得格勒和香港也已开花结果。本节选择香港浸会学院生物系的一项试验,供读者参考。例5 为了研究环境污染对人体的危害,今考核六种金属的含量:镉(Cd),铜(Cu),锌(Zn),镍(Ni),铬(

18、Cr),铅(Pb),每种金属含量分别取了17个水平(百万分之一,ppm):0.01,0.05,0.1,0.2,0.4,0.8,1,2,4,5,8,10,12,14,16,18,20。今欲考虑这些金属含量(包括它们的交互作用)对老鼠寿命的影响,该试验考核老鼠身上某种细胞的死亡率。它们选用表,根据使用表的指示,它们选用了表中1,4,6,10,14,15列来安排六个因素,其试验方案如表14所示。试验的结果为死亡率。为了了解试验误差,提高结论的精度,他们在同一试验条件下将试验重复三次,三次结果()列于表15,三次死亡率的均值为,列于表15的最后一列。我们看到第17号试验的死亡率为最高,因为这时六种金属

19、都是最高含量,表明这些金属对老鼠细胞确有致命作用。 现进一步用回归分析来分析数据。由于每种金属的含量由0.01(ppm)变到20(ppm),最大得出小相差2000倍,于是直接用各因素的水平值作回归不易获得好的结果,通常要对水平值先作变换,用变换后的数据进行回归。最常见的变换是取对数。于是回归分析中的自变量成为logCd,logCu,logZn,logNi,logCr和logPb。根据以往经验,知道六种金属间有交作用,故应选用二次型回归模型,并用逐步回归来筛选变量。用同样的 和 ,对 和分别进行逐步回归,发现四组数据的结果非常吻合,表明试验误差不大,该试验可以获得可靠结论。为节省篇幅,我们仅列出

20、对的回归方程=32.68+5.03LogCd+3.84LogCu+2.03LogNi+0.55(LogCu) -0.63(LogZn)+0.94(LogNi)+0.53(LogCd)(LogCu) -0.70(LogCd)(LogCr)+0.92(LogCu)(LogPb)方程中每一项的t 值分别为(常数项t 值未列)11.5,7.8,4.9,2.6,-3.4,4.1,2.4,-2.8,5.3,它们均遵从 分布,因(0.05)=2.365 小于上述所有t值之绝对值,故方程可信。表15 死亡率17.9517.6518.3317.922.0922.8522.6222.531.7432.7932.8

21、732.439.3740.6537.8739.331.9031.1833.7532.231.1430.6631.1831.039.8139.6140.8040.042.4841.8643.7942.724.9724.6525.0524.850.2951.2250.5450.660.7160.4359.6960.267.0171.9967.1268.732.7730.8633.7032.429.9428.6830.6629.767.8769.2567.0468.055.5655.2856.5255.779.5779.4378.4879.1 由方程我们可以给出如下结论:a)Cd,Cu 和Ni含量过

22、高,对老鼠细胞的死亡率有显著作用,b)金属Cd和Cu,Cd和Cr,Cu和Pb有交互作用,其中Cd和Cu,Cu和Pb对死亡率起正交互作用,而Cd和Cu对死亡率起负交互作用,c)Zn可能会中和其它金属的破坏作用,降低老鼠细胞的死亡率。2.5 寻求最优工艺条件 试验设计的目的通常主要有二个,一是揭示变量(Y)与各因素之间的定性关系,二是寻求最优工艺条件,回归方程的建立可以达到一箭双雕的目的。 现以例2来说明如何寻求最好的工艺条件,表9告诉我们,第7号试验是7次试验中最好工艺条件,即配比3.4,吡啶量28,反应时间3.5 ,这个工艺条件和最优工艺条件常常是很接近的。 在上述讨论中,我们最终建立了回归模

23、型(2.22)。该方程一般仅在试验范围内成立,即配比,吡啶量10-28,反应时间。寻求最优模型等价于在这个范围内求方程(2.22)中的极大值。如果回归方程比较复杂,可以用任何一个优化算法(参见文献33,34)来求最佳工艺条件,许多软件包都含有优化算法。数论方法也可以用来求的极大值,方开泰和王元提出了一个序贯算法SNTO,可以方便地求得的极大值,鉴于篇幅,这里就不详细介绍了,有兴趣的读者可以参看文献16。 对例2来讲,可以用简单的微积分求得极值,由于X在试验范围内恒正,故由(2.22)知X 越大,越高,故X应取试验范围内极大值3.4。将X=3.4 代入(2.22)得令,解得=0,=2.7575,这时的极大值为51.85%。工艺条件=3.4,=2.7575 并未出现在原有试验方案中,故应在这个条件追加试验,由于的最佳条件在试验范围边界,故应扩大试验范围。 对于许多实际工作者,不一定熟悉优化方法,手边没有优化的软件。他们也不一定知道SNTO,也可能不会用微积分去求解极值。下面介绍一种“笨”办法,其计算量较大,但程序好编。这种方法将每个因素的试验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论