多元回归分析原理及例子_第1页
多元回归分析原理及例子_第2页
多元回归分析原理及例子_第3页
多元回归分析原理及例子_第4页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是:虽然自变量和因变量之间没有严格的、 确定性的函数关系 , 但可以设法找出最能代表它们之间关系的数学表达形式。回归分析主要解决以下几个方面的问题:(1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话 , 找出它们之间合适的数学表达式 ;(2) 根据一个或几个变量的值 , 预测或控制另一个变量的取值 , 并且可以知道这种预测或控制能达到什么样的精确度 ;(3)进行因素分析。例如在对于共同影响一个变量的许多变量(因素 )之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。回归分

2、析有很广泛的应用,例如实验数据的一般处理,经验公式的求得,因素分析 ,产品质量的控制 ,气象及地震预报,自动控制中数学模型的制定等等。多元回归分析是研究多个变量之间关系的回归分析方法,按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析( 简称为 “一对多” 回归分析 ) 及多个因变量对多个自变量的回归分析( 简称为 “多对多” 回归分析 ),按回归模型类型可划分为线性回归分析和非线性回归分析。本“多元回归分析原理”是针对均匀设计3.00 软件的使用而编制的,它不是多元回归分析的全面内容 ,欲了解多元回归分析的其他内容请参阅回归分析方面的书籍。本部分内容分七个部分,§

3、; 1§ 4 介绍“一对多”线性回归分析,包括数学模型、回归系数估计、回归方程及回归系数的显著性检验、逐步回归分析方法。“一对多”线性回归分析是多元回归分析的基础, “多对多” 回归分析的内容与“一对多” 的相应内容类似,§ 5 介绍“多对多”线性回归的数学模型,§6 介绍“多对多”回归的双重筛选逐步回归法。§7 简要介绍非线性回归分析。§ 1 一对多线性回归分析的数学模型§ 2 回归系数的最小二乘估计§ 3 回归方程及回归系数的显著性检验§ 4 逐步回归分析§ 5 多对多线性回归数学模型§ 6

4、 双重筛选逐步回归§ 7 非线性回归模型1 一对多线性回归分析的数学模型§个自变量存在线性关系设随机变量与:, (1.1)式中为回归系数,为随机误差。(1.1)式称为回归方程,的均值的问题,即现在解决用估计,是与 ,且假定无关的待定常数。设有组样本观测数据:在第次的观测值表示,于是有其中 :, (1.2)个相互独立的且服从同一正态分布,个待定参数其中为为的随机变量 , (1.2)式称为多元 ( 元 ) 线性回归的数学模型。(1.2)式亦可写成矩阵形式,设,:则 (1.2)式变为, (1.3)(1.3)式称为多元线性回归模型的矩阵形式。2 回归系数的最小二乘估计§于

5、是的观测值的最小二乘估计值设分别为, (2.1)的估计值 , ,的估计值则有其中为误差称为残差或剩余。令为, (2.2), (2.3),与实际值拟合的最好的偏离程度。与估计值 , (2.3)欲使估计值式表示实际值则应使残差平方和我们可以应用微分求极值原理确定,达到最小 ,为此 ,即解下列方程组, (2.4)即, (2.5)整理并化简则得以下正规方程组:, (2.6)右端常数项矩阵记为, ,式的系数矩阵为则有如果记 (2.6), (2.7), (2.8)因此正规方程(2.6)的矩阵形式为, (2.9)或, (2.10)则存在, ,其中为正规方程中待定的未知实数向量,此如果系数矩阵满秩时有, (2

6、.11)(2.11)式即为多元线性回归模型(1.2)式中参数的最小二乘估计。正规方程组 (2.6)亦可表达为下述另一种形式,如果记,则由 (2.6)式中第一等式可解出, (2.12)再将 (2.12)代入到 (2.6)其它各式中并经化简整理可得, (2.13)又由, ,如果记, (2.14) , (2.15) ,则(2.13) 式可以表示为, (2.16)式中则得,再代入到(2.12)于是得回归(2.16)式称为正规方程组,解此方程组可得,方程, (2.17)(2.17)式称为回归超平面方程。右端常数项向量为, ,则 如果记 (2.16)式的系数矩阵为,且记 ,则正规方程组(2.16)的矩阵形

7、式为, (2.18)(2.18)得解, (2.19)则得到。再代回到 (2.12),以下是一对多线性回归分析的两个例子。与体重 (kg)(cm) 胸围 14 某养猪场估算猪的毛重例数据如表头猪的体长2.1 ,测得(cm) 、 ,及的预测方程。试建立与2.1 表aa序号) 体重 ()() 体长( 胸围412849 145 2395851 3 4162524 447159 5 436262 50746aaaaaaaaaaaaaaaa8 74727 7169aaaa57 51a9a7a 7a6aa89a3aaaaaaaaaaaaaaaaa851190841080aaaa70 66a 1a9a 9a7

8、2a24a6aaaaaaaaaaaaaaaa10395149198 13aaaa8180经计算 :,于是正规方程组为,解此方程组得,又,因此所求预测回归方程为的含义是体长每增加回归方程中系数与每增加 1cm, 则猪体重毛重平均增加1cm, 0.475kg则猪体重毛重平均增加。0.522kg,胸围例 2.2某地区二化螟的第一代成虫发生量与四个因素有关测数据如表2.2,试建立二化螟发生总量的回归方程。:冬季积雪期限( 单位为周 ),这四个因素分别如下,已知原始观1),日为 1 月 2 以(每年化雪日期:二月份平均气温( ),:三月份平均气温( ), :),头二化螟发生总量(:经计算,2.2 表aa

9、 序号34-0.8 3401.714421.416 320.2 42716 0.2 6332.14262.7 7 7 2.727 25 7 81.04.0132.2 173.79 12561110-0.8243.01511-0.516124.984.112 7 162.020131.1 11154.731241.2 1543474.7,于是,又 24 + 0.99742× 11.8462 + 1.62581× 26.6923 + 11.19263× 0.3615 + 16.95291× 3.1692 136.98554,因此所求二化螟发生总量的预测回归方

10、程为。3 回归方程及回归系数的显著性检验§、回归方程的显著性检验(1) 回归平方和与剩余平方和与自变量 ,是否确实存在线性关系回归效果如何呢?因变量建立回归方程以后我们要进一步研究因变量取值的变化规,为此 ,呢?这是需要进行统计检验才能加以肯定或否定每次观测值的变差大小,常的每次取值是有波动的,这种波动常称为变差律。 ,的差 ( 称为离差 ) 来表示 ,而全部用该次观侧值与次观测次观测值的平均值值的总变差可由总的离差平方和,:其中方和与均值之差的平方和, ,( 其自由度为自变量的个数是回归值它反映了自变量称为回归平, )。 的变化所引起的的波动与回归值之差的平方和是实测值称为剩余平方

11、和( 或称残差平方和),的自由度为其自由度。它是由试验误差及其它因素引起的大则小 ,因此 ,是确定的反之即是确定的, ,如果观测值给定,则总的离差平方和显著 ,小则大所以 ,或都可用来衡量回归效果与,。总的离差平方和且回归平方和越大则线性回归效果越如果大 ;则回归超平面过所有观测点,则者说剩余平方和越小回归效果越显著,如果0,线性回归效果不好。(2)复相关系数为检验总的回归效果,人们也常引用无量纲指标, (3.1)或, (3.2)称为复相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”,因此的相关程度。 显因此就是这种贡献在总回归平方和中所占的比例量 因此它可以作为检验总的

12、回归效果的一个指回归效果就越好,表示全部自变量与因变 , 然。复相关系数越接近 ,与回归方程中自变量的个数,常标。但应注意,相对于及观测组数有关,当并不很大时注意至少为一般认为应取与的适当比例宜。(3), ,有较大的的到10 倍为值因此实际计算中应检验,就是要检验假设要检验是否存在线性关系与, (3.3)与检验假设无线性关系,否则认为线性关系显著。当假设成立时,则应用统计量, (3.4)它服从自由度为的分布,即及这是两个方差之比, (3.5)下 ,应有统计量成立用此统计量,可检验回归的总体效果。如果假设则当给定检验水平, (3.6)的置信度由的值分布表可查得,值为如果根据统计量算得的,对于给定

13、个自变量的总体回归效果是显著,即即不能认为全部为O, ,则拒绝假设,否则认为回归效果不显著。的检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于利用。,一个方差分析表中如表3.1方差分析表表3.1aaaaaa平方和 来源aaaaaa自由度 方差aa方差比归回余 剩计总:的以下关系与可以导出,的定义与根据,。,利用这两个关系式可以解决值多大时回归效果才算是显著的问题。因为对给定的检验水平:的临界值由然后由分布表可查出即可求出的临界值, (3.7)则认为回归效果显著。时当,的回归方程进行显著性检验。利用方差分析对例2.1 例 3.1方差分析结果见表3.2 。3.2表aaa

14、aaa平方和源来aa自由度aaaa差 方aa方差比a回a归aa余剩计总, 所以例取检验水平 , 而分布表得 0.05, 查 2.1 的回归方程回归效果是显著的。、回归系数的显著性检验前面讨论了回归方程中全部自变量的总体回归效果,但总体回归效果显著并不说明每个自变量对因变量都是重要的, 即可能有某个自变量对并不起作用或者能被其它的的作用所代替, 因此对这种自变量我们希望从回归方程中剔除, 这样可以建立更简单的回归方程。显然某个自变量如果对作用不显著, 则它的系数就应取值为0, 因此检验每个自变量是否显著,:就要检验假设, (3.8),:(1)检验:,可应用检验假设下在, , (3.9)个元素。的

15、对角线上第为矩阵其中如果有 ,则拒绝假设对应的临界值对给定的检验水平, ,从分布表中可查出与如果有 ; ,对,有重要作用不应剔除即认为与0 有显著差异 ,这说明则接受假设对不起作用,应予剔除。成立即认为,这说明:(2)检验检验假设分布的统计量,亦可用服从自由度分别为1 与的, (3.10)从分布表为矩阵个元素。对于给定的检验水平,其中的主对角线上第中可查得临界则拒绝假设,对认为 , ,如果有有重要作用。如一般一次可以剔除。不起重要作用, ,则接受假设 ,检即认为自变量果对且这个自变量是所有不显著自变量中值最小者,然后再建立回归方程验只剔除一个自变量 , ,并继续进行检验,直到建立的回归方程及各

16、个自变量均显著为止。与实际上是等价的, ,上述对各自变量进行显著性检验采用的两种统计量因为由最后指出,有式及 (3.9)(3.10)式知(3.11)例 3.2对例 2.1 的回归方程各系数进行显著性检验。经计算 :,于是, 0.004577 。由 0.002223,(3.7)式知其中,为,布表得 ,因分查都是显著的。又由对体重的影响更大。,所以两个自变量比胸围说明体长及,分布表有,查又由检验如果应用,及都是显著的,因此 , , 均为重要变因为检验某一自变量是否显著量 ,应保留在回归方程中。 偏回归平方和还可应用偏回归平方和进行检验。(3)个自变量的回归平方和为,如果自个自变量的回归平方和设为,

17、 ,个自变量中去掉并设则剩下的,就表示变量则在回归平方和中的贡献,的偏回归平方和或贡献。可以证明称为, (3.12)或者说对回归方程的作用和影响越大对越大, ,说明在回归方程中越重要偏回归平方和,的贡献越大。 因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小( 贡献大小个指标。和的偏回归平方和分别为,) 的一中例如在例2.1,的作用比 ,大。说明在回归方程中的偏回归平方和分别为及2.2:中又如在例,说明在回归方程中所起的作用, ,的值最小即在回归方程中所起的作用最小,最大最大。4 逐步回归分析 § 、逐步回归分析的主要思路人们总是希望从对因变量有影响的诸多变量中选择一些变量

18、作为自变量 , 应用多元回归分析在实际问题中 ,的方法建立“最优” 回归方程以便对因变量进行预报或控制。所谓“最优”回归方程 , 主要是指希望在回归方程中影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种包含所有对因变量的作用大小 ,显著程度大小或者原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对而对那些对作用不显著的变量可能始终不被引人回归方程。另外, , 说贡献大小 ,由大到小地逐个引入回归方程己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。 引人一个变量或者从每一步都要进行检验 ,以保证在引人新变量前

19、回归方程中只含回归方程中剔除一个变量都称为逐步回归的一步,而不显著的变量已被剔除。 , 有对影响显著的变量然后选一个偏逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和( 即贡献 ),这时, ,如果显著则该变量不必从回归方程中剔除回归平方和最小的变量,在预先给定的水平下进行显著性检验方程中其它的几个变量也都不需要剔除 ( 因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除) 。相检验。将对然后按偏回归平方和由小到大地依次对方程中其它变量进行,则该变量要剔除 , 影反 ,如果不显著响不显著的变量全部剔除 , 保留的都是显著的。 接着再对未引人回归方程中的变量分别

20、计算其偏回归平方和, 并选同样在给定水平下作显著性检验 , 如果显著则将该变量引入回归方程,这一 ,其中偏回归平方和最大的一个变量这时逐步回归过程结束。直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止, 过程一直继续下去 ,、逐步回归分析的主要计算步骤检验值确定 (1)在进行逐步回归计算前要确定检验每个变量是否显若的以作为引人或剔除变量的标准。检验水检验水平, 水平不宜取得过高为使最终的回归方程中包含较多的变量, , 即显平要根据具体问题的实际情况来定。一般地水平还与自由度有关 , 因为在逐步回归过程中不宜太小。,回归方程中所含的变量的个数不断在变化,著水平为方便起见常按为估计因此方

21、差分析中的剩余自由度也总在变化计算自由度。为原始数据观测组数, ,可能选人回归方程的变量个数。 例如 ,估计可能有 23 个变量选入回归方程 , 因此取自由度为 15-3-111,自由度取 , 并且在引入变量时 , 查分布表 ,当 0.1, ,自由度 ,临界值 ,时在剔除变量时自由度取 , , ,检验的临界值记 ,并检验的临界值记实际应用中常取 ,要求。逐步计算 (2): ,步的计算为 0),包含则第且回归方程中已引入个变量如果已计算步 (。计算全部自变量的贡献( 偏回归平方和 )(检查是否有需要剔除的不显著变量。这就要在已引入的变量中选取具有最小, )在已引入的自变量中 ( 值的一个如),计

22、算转至。,并计算其则不需要剔值 ( 如果 ,表示该变量不显著 ,应将其从回归方程中剔除,则表示该变量显著这时则考虑从未引入的变量中选出具有最大值值的一个并计算 , ,如果除变量 , 表示已无变量可选入方程 , 则逐步计算阶段结束 , 应将其引人回归方程 , 计算转至 () 。如果计算转人 。(3)再进行下步计 )( 相关系数矩阵进行消去变换剔除或引人一个变量后(), ,第 )( 步计算结束。其后重复算。由上所述 ,逐步计算的每一步总是先考虑剔除变量,仅当无剔除时才考虑引入变量。实际计算时,开头几步可能都是引人变量 ,其后的某几步也可能相继地剔除几个变量。当方程中已无变量可剔除,且又无变量可引入

23、方程时 ,这时转入第三阶段。第二阶段逐步计算即告结束,主要是计算回归方程入选变量的系数、复相关系数及残差等统计量。其他计算, (3)个变量时仅要求与前面己选的-1 逐步回归选取变量是逐渐增加的。个变量配合起来有最小的残差平方选取第这,个个和 , ,因此最终选出的但大量实际问题计算结果表明个重要变量有时可能不是使残差平方和最小的特别当不太大时更是如此 ,个变量的组合中具有最小残差平方和的那一个组合,这表明逐步变量常常就是所有回归是比较有效的方法。与与各变量贡献的显著性检验中所规定的的取值大小有引人回归方程的变量的个数检验的临界值即减小的值 ,特别地 , ,则应适当增大检验水平值,当关。如果希望多

24、选一些变量进人回归方程时,则全部变量都将被选入 ,这时逐步回归就变为一般的多元线性回归。相反,如果取得比较小,即当观测数据样本容量较小在实际问题中,则入选的变量个数就要减少。 此外 ,还要注意 ,与取得比较大时 ,否则被确定的系数 , 入选变量个数时 ,的精度将较差。不宜选得过大。中的逐步回归法计算的例子和结果逐步回归分析的例子请参见多元回归分析经典例子的计算多元回归分析经典例子的计算均匀设计的数据处理多采用回归分析方法,以下是均匀设计版本3.00 的“数据建模分析”模块对部分回归分析经典例子的计算结果,这些计算采用与经典例子相同的回归分析方法,所得结果与经典例子中给出的结果是相同的。均匀设计

25、版本3.00 提供的四种回归分析方法和计算的例子如下:回归分析方法例子和计算结果例 (RegSample1.udc)、例 全回归法(RegSample2.udc)例(RegSample3.udc)后退法 例 (RegSample4.udc)逐步回归法例 (RegSample5.udc)双重筛选逐步回归法全回归法计算的例子和结果例 高磷钢的效率() 与高磷钢的出钢量() 及高磷钢中的含量() 有关 ,所测数据如表,请用线性回归模型拟合上述数据。表a试验序号) 效率 ()( 出钢量 ) 含量(82.087.913.2184.0101.413.52aaaaaa4 3 aaaaaaaaa14.293.

26、020.0109.8aaaa88.6 80.0a5a8a 1a 8aaa861a.045aaaaaaaa76aaaaaaaaaaaaa73.0 83.5a8a 1 aa 1a 8aa038a3.004aaaaaa109aaaaaaaaaaaaa81.091.4a 1a9a 1a 7a1a648a.560aaaaaa1312 aaaaaaaaaaaa83.486.5注 :本例子引自学工业出版社, 1989秦建候年邓勃王小芹编著 ,分析测试数据统计处理中计算机的应用,化本软件给出的回归分析有关的结果如下( 与回归分析无关的内容未列出):指标名称:因素名称因素名称效率:出钢量: FeO 含量单位:?

27、单位:?单位:?-多元回归分析-回归分析采用全回归法,显著性水平0.10拟建立回归方程: = b(0) + b(1)* (1) + b(2)* (2)回归系数b(i):b(0) 74.6b(1) 0.213b(2) -0.790标准回归系数B(i):B(1) 0.678B(2) -0.340复相关系数 0.6770决定系数 2 0.4583修正的决定系数 2a 0.4090回归方程显著性检验:变量分析表aaaaaaa归 回变异来源 129 和方 平aaaaaaaaaaaaaaaaaaa /2 aaaaaaaaaa64.5方均度由 自aaaaaaaa4.230比方均a a a剩 a 余aa aa

28、1a53aa 10aa /a(aa )1aa 5a.3aa总 和282 12样本容量 13,显著性水平 0.10,检验值 t 4.230,临界值 (0.10,2,10) 2.924,t (0.10,2,10),回归方程显著。剩余标准差 3.91回归系数检验值:检验值 (df 10): (1) 2.818 (2) -1.412检验值 (df1 1, df2 10): (1) 7.940 (2) 1.993偏回归平方和U(i):U(1) 121U(2) 30.4偏相关系数 (i): 1,2 0.6653 2,1 -0.4077各方程项对回归的贡献( 按偏回归平方和降序排列U(1) 121, U(1

29、)/U 93.9%U(2) 30.4, U(2)/U 23.6%):第方程项 (2)对回归的贡献最小,对其进行显著性检验检验值 (2) 1.993,临界值 (0.10,1,10) 3.285,: (2) (0.10,1,10),此因素 ( 方程项 ) 不显著。残差分析:aaaaaaaaaaa82.0 值测 观残差分析表82.9值 归回 aaaaaaaaaaaaaaaaaaa1.10观测值× 100(%)/ 回归值观测值 ( 观测值回归值aaa-8aa8aa -aa1a0a a4a51a .a.790559000aa 8aa8aa -aa2aaa0a22a .a.702250aaaaa

30、88.6 82.8aaaaaaaa5.80 -6.55aaaaaaaaaaa75.088.080.4aaaaaaaaaaaaa73.083.581.5aaaaaaaaa2.745.39 1.10-1.35aaa-4.50aaa-2.00aaaaaaaaaa86.41.60a88.0-1.82aa9aa8aa7 aa - aa a a1a4a .7a.0.44066aaaaa81.0 1081.5aaaaaaaa-0.500 0.617aaaaaaaaaaa1383.482.286.183.6aaaaaaaaaaaaa1286.51178.0aaaaaaaaa1.20 -1.440.400-0.

31、462-5.607.18aaaaaa-回归分析结束 -,在显著性水平0.10 上是显著的,全回归法建立的回归方程为第(上不显著。在显著性水平0.10) 二因素现得如表 ,及某反应物的浓度有关()()与反应温度( 、反应时间)()例 某种产品的得率回和归方程,与和试建立、之间成线性关系所示的试验结果并判断三因素的主次。,设 ,与、之间的三元线性表试验号 得率 ()()反应温度 ()反应时间 ( 反应物浓度 70 10 1 1 7.610.3 10 70 2 33037018.911.2 70 4 30 38.419051011.1 90 3 10 690179.83012.6890330注 :

32、本例子引自李云雁胡传荣 编著 , 试验设计与数据处理 ,化学工业出版社, 2005 年本软件给出的回归分析有关的结果如下( 与回归分析无关的内容未列出):指标 名称:得率单位:%因素名称 :反应温度单位 :因素名称 :反应时间单位 : h因素名称 :反应物浓度单位:%-多元 回 归 分 析 -回归分析采用全回归法,显著性水平0.01拟建立回归方程: = b(0) + b(1)* (1) + b(2)* (2) + b(3)* (3)回归系数b(i):b(0) 2.19b(1) 4.88e-2b(2) 6.38e-2b(3) 1.31标准回归系数B(i):0.316B(1) B(2) 0.413B(3) 0.850复相关系数 0.9965决定系数 2 0.9929修正的决定系数 2a 0.9901回归方程显著性检验 :变量分析表aaaaaaa归 回变异来源18.9 和 方 平 aaaaaaaaaaaaaaaaaaa6.31 3/a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论