生物统计学:第10章 多元线性回归分析及一元非线性回归分析_第1页
生物统计学:第10章 多元线性回归分析及一元非线性回归分析_第2页
生物统计学:第10章 多元线性回归分析及一元非线性回归分析_第3页
生物统计学:第10章 多元线性回归分析及一元非线性回归分析_第4页
生物统计学:第10章 多元线性回归分析及一元非线性回归分析_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章 多元线性回归分析及一元非线性回归,多元线性回归(multiple Linear regression),一、多元线性回归模型 在回归问题中,一个量只受一种因素影响的情况是较少的,往往是很多因素共同影响一个量。 例如,农作物的产量,除受种植密度影响之外,还受施肥量、灌水量和田间管理次数等的影响。 例如,动物体重的增加与饲料中蛋白质含量、饲料总量和每日透料次数等都有关。 特别是当几个自变量之间还存在相关时,只考虑一个自变量与因变量的关系,往往得不到正确的结果。必须同时考虑几个因素的共同作用,才能得到比较正确的结论。这就是我们要讨论的多元回归问题。,一个典型的多元回归资料,可以列成下表。,

2、表 10.1 典型的多元线性回归数据,第p 次观察值为:,其中e1,e2, ,en是相互独立且服从正态分布的随即变量。该式即所谓的多元线性回归模型。,多元线性回归和一元线性回归一样,用最小二乘法求a和bj 的估计值a和bj 。所不同的是,一元回归中,只需求出a和1个b,而多元回归中则需求出a和k个b。用a和b1,b2, ,bk 分别表示a和b1,b2, ,bk 的估计值。根据最小二乘法,回归方程,其中的a和bj应使得全部实际观察值,与回归估计值p的离差平方和达到最小。,将方程组整理 ,可得,正规方程,解上述方程组,可以得到b1,b2,b k。a由(1)式给出,,由实际观察值,计算得到的bj是b

3、j的无偏估计量,a是a的无偏估计量,于是得到多元回归方程:,其中a为常数项;b1,b2, ,bk分别称为Y对X1,X2, ,Xk的偏回归系数(partial regression coefficient)。它表示当其它自变量都固定时,该自变量每变化一个单位而使因变量平均改变的数值。,二、多元回归方程的计算 例10.1 为研究黄牛的体重与体长和胸围的关系。测定了20头鲁西黄牛的体长、胸围和体重,试建立体重对体长和胸围的回归方程。 (教科书中p150),解 将数据按表中的要求整理好,然后计算,于是得出二元回归方程,方程中的3.03和3.80都称为偏回归系数。偏回归系数是指在其它自变量都固定时,其中

4、一个自变量对因变量的影响。,列出正规方程,因为只有b1和b2两个未知数,可解二元联立方程组。常数a可根据各变量的平均值求得。,在上述两个自变量同时影响一个因变量的情况下,只有用二元回归分析,才能得到可靠的结果。若只考虑其中的一个因素,用一元回归分析,另一个因素并不固定,这时所得到的回归系数b,并不能真正表示该变量对因变量贡献的大小。例如,上例中若只考虑体长对体重的影响,回归方程为:,这时体长每变化一个单位,体重平均改变4.608个单位,远远大于二元回归中的b1。若只考虑胸围对体重的影响,回归方程为:,其回归系数亦不同于二元回归中的b2。特别是当两个自变量之间有密切相关时,差异就更大,甚至得出相

5、反的结论。,三、多元线性回归方程的显著性检验 多元线性方程求出后,往往需要做关于模型参数的检验。在多元线性回归模拟中,随机误差是服从正态分布的随即变量。因此,Y亦为独立正态随机变量。在多元线性回归中,关于回归显著性检验的假设是:,拒绝H0意味着至少有一个自变量对因变量是有影响的。,检验的程序与一元的情况基本相同,即用方差分析的方法。将总平方和分解为回归平方和与剩余平方和,,回归平方和由下式计算,,剩余平方和,,总的自由度为n1,回归项的自由度等于自变量的个数k,剩余项的自由度为本nk1。下面对例10.1的回归方程做显著性检验。回归平方和与剩余平方和分别为:,列成方差分析表:,拒绝H0:bj0。

6、结论是Y与Xj之间的回归关系极显著。,四、偏回归系数的显著性检验 如果回归方程显著性检验的结果是显著的,说明回归系数中,至少有一个bj0,但并不能证明所有的bj0。因此,在回归方程中,可能存在非主要因素。在实际应用时,希望能从方程中剔除不重要因素,从而建立一个比较简单的回归方程,以利于对Y做预报。这就需要确定在一个方程中,哪些因素是主要的,哪些因素是次要的。,例10.1 的两个偏回归系数的显著性检验如下:,bj服从正态分布,可以用t检验对bj的显著性做检验。,t17,0.01(双)=2.898 p1=0.00088,p2=9.5310-6,因此,体长和胸围对体重的贡献都是极显著的。,五、复相关

7、系数和偏相关系数 (一)复相关系数(multiple correlation coefficient) 在一元回归中,回归的显著程度可用相关系数来表示。同样在多元回归问题中,可以用复相关系数表示。对于一个多元回归问题,Y与X1,X2, ,Xk 的线性关系密切程度,可以用多元回归平方和与总平方和的比来表示。因此复相关系数由下式给出,,复相关系数R等于实际观察值Y与回归估计值 之间的简单相关系数,,对复相关系数的显著性检验,相当于对整个回归的方差分析。在做过方差分析之后,就不必再检验复相关系数的显著性,也可以不做方差分析。,例10.1的RY1,2为:,从附表(相关系数检验表)中查出,当独立自变量个

8、数k2,剩余自由度为17时的R0.010.647,RY1,2R0.01,因此,Y与Xi之间存在着显著相关。,(二)偏相关系数(partial correlation coefficient) 复相关系数反映了Y与所有自变量之间回归关系密切的程度。 在多元回归中,还经常希望了解Y与各个自变量两两之间的关系,或两个自变量间的关系。在多变量问题中,变量间的关系是很复杂的,每两个变量间都可能存在相关。因此,两变量间的简单相关系数,往往不能反映两变量间的真正关系。为了反映两变量间的真正关系,就要保证在其它变量都保持不变的情况下,计算它们的相关系数,这时的相关系数称为偏相关系数。,六、逐步回归分析 (st

9、epwise regression analysis) 一、最优回归方程的选择 我们应用多元回归方程分析问题时,应当是最优的回归方程。所谓最优回归方程就是指方程中包括全部对Y显著的变量,而不包括对Y不显著的变量。 可以通过以下方法,选择最优回归方程。,1. 从全部变量可能组合的回归方程中,选择最优者。 在例10.1中,全部可能组合的回归方程共有3个,即包括两个一元回归方程和一个二元回归方程。对每个方程的每一个回归系数做显著性检验,并计算每一个方程的剩余平方和及剩余方差,从中选出包含的全部变量均为显著因素且剩余方差又较小的方程,这就是这3个方程中的最优方程。 用这种方法选最优方程,一定能够成功地

10、选择出来。当因素比较少时是可行的,但当因素较多时则行不通。例如,当有5个因素时,可能有25131个方程,计算这么多方程,并对每一回归系数做检验,实际上非常困难。,2从含全部变量的回归方程中,逐次剔除不显著因素。 先建立全变量的多元回归方程,然后按进行回归系数的显著性检验,将不显著的因素逐次剔除,直到方程中剩余的全部是显著因素时为止。当不显著因素较少时,使用这种方法选择最优回归方程是可行的。,3逐步回归方法。 也是从一个自变量开始,按自变量对Y的作用的显著程度,逐个地引入回归方程中。当先引入的变量,由于后引进的变量的影响而变得不显著时,则随时将它们从方程中剔除。从而保证在每引入新的变量之前,回归

11、方程中均为显著变量,直到没有显著变量可引入时为止。,二、逐步回归的计算方法 对于逐步回归的问题,深入了解需较多的线性代数知识,实际应用时,由于计算工作量相当大,多数都是由计算机来完成。在这里只能将逐步回归的最基本原理及计算过程做一简单介绍。,逐步回归的基本做法,在所考虑的全部因素中,按对Y作用显著程度的大小,由大到小逐个引入到回归方程中。 在已引入回归方程的变量中,找出偏回归平方和的最小的一个,在给定F水平下做显著性检验,以决定是否需从方程中剔除 在剔除了所有不显著变量之后,从未纳入到回归方程的变量中,选择在引入回归方程后,使回归平方和增加最多的那个变量,并在给定的F水平下做检验,若是显著的,

12、则引入回归方程中。 引入之后,再对回归方程做检验。并剔除方程中不显著因素。以此类推,直到回归方程中全部变量均不能剔除,又没有新变量可以引入时为止。 逐步回归分析主要过程是求解正规方程和系数矩阵的逆矩阵,并对每一过程做方差分析和F检验。,一元非线性回归,生物学中两个变量间呈曲线的例子很多,如细菌生长的数量与时间的关系,年龄与身高的关系,作物种植密度与产量的关系,辐射强度或药物与致死率的关系等都呈曲线关系。 如何确定两变量间的关系:根据专业知识或散点图。 确定两变量间的函数关系后,如果通过适当变换(transform) ,可将曲线化为直线,再按直线回归处理。 例:培养基上细菌生长的数量(Y)在一定

13、时期内与时间(X)呈指数函数 YaebX关系。 例:生物体的生长,不论是整体还是它们的重量、表面积、高度、细胞数,甚至蛋白质含量的增长与时间都是呈S形曲线关系。,一、曲线回归的线性化及线性化的方法 如果我们从专业知识上,可以确定两变量间所呈函数关系,则可直接将曲线划为直线。,如,许多生物化学反应中反应速率与反应物浓度两变量间呈幂函数 YaX b关系,将等式两边取对数,,令:Ylg Y, alg a, lg ,则方程变为:,如,细菌生长数量(Y)与时间(X)呈指数函数关系YaebX,将等式两边取自然对数(或者取常用对数),,令:Y=ln Y, a=ln a, 则可变为线性回归方程,,至于对数函数 Y=a+lnX,只要令X lnX 即为线性方程:,若经以上三种变换,均不能直线化,则应考虑使用其他的方法做变换。,例 1 (p168) 在凝血实验中,测定15只鸡的维生素K摄入量X与添加血凝剂浓度Y,求Y对X的回归关系。,先在直角坐标系上做散点图,判断X和Y是否存在线性关系。 根据散点图情况选择适当的曲线来配合实验数据,进行数据变换。,由于在对数变换(即logX和logY)的直线化程度最高。因此,令:,则 Y = a+bX,可以按照一元线性回归进行分析。 by

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论