多元回归分析原理及例子_第1页
多元回归分析原理及例子_第2页
多元回归分析原理及例子_第3页
多元回归分析原理及例子_第4页
多元回归分析原理及例子_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。回归分析主要解决以下几个方面的问题: (1) 确定几个特定的变量之间是否存在相关关系, 如果存在的话, 找出它们之间合适的数学表达式; (2) 根据一个或几个变量的值, 预测或控制另一个变量的取值, 并且可以知道这种预测或控制能达到什么样的精确度; (3) 进行因素分析。例如在对于共同影响一个变量的许多变量( 因素 ) 之间 , 找出哪些是重要因素, 哪些是次要因素, 这些因素之间又有什么关系等等

2、。回归分析有很广泛的应用, 例如实验数据的一般处理, 经验公式的求得, 因素分析 , 产品质量的控制 , 气象及地震预报, 自动控制中数学模型的制定等等。多元回归分析是研究多个变量之间关系的回归分析方法, 按因变量和自变量的数量对应关系可划分为一个因变量对多个自变量的回归分析(简称为“一对多”回归分析)及多个因变量对多个自变量的回归分析( 简称为“多对多”回归分析), 按回归模型类型可划分为线性回归分析和非线性回归分析。本“多元回归分析原理”是针对均匀设计3.00 软件的使用而编制的, 它不是多元回归分析的全面内容 , 欲了解多元回归分析的其他内容请参阅回归分析方面的书籍。本部分内容分七个部分

3、 , 14介绍“一对多”线性回归分析, 包括数学模型、回归系数估计、回归方程及回归系数的显著性检验、逐步回归分析方法。“一对多”线性回归分析是多元回归分析的基础 , “多对多”回归分析的内容与“一对多”的相应内容类似, 5介绍“多对多”线性回归的数学模型 , 6 介绍“多对多”回归的双重筛选逐步回归法。7简要介绍非线性回归分析。1 一对多线性回归分析的数学模型2 回归系数的最小二乘估计3 回归方程及回归系数的显著性检验4 逐步回归分析5 多对多线性回归数学模型6 双重筛选逐步回归7 非线性回归模型1 一对多线性回归分析的数学模型设随机变量与个自变量存在线性关系: , (1.1) (1.1)式称

4、为回归方程, 式中为回归系数 , 为随机误差。现在解决用估计的均值的问题 , 即, 且假定, , 是与无关的待定常数。设有组样本观测数据: 其中表示在第次的观测值 , 于是有 : , (1.2) 其中为个待定参数 , 为个相互独立的且服从同一正态分布的随机变量 , (1.2)式称为多元 (元) 线性回归的数学模型。(1.2) 式亦可写成矩阵形式, 设, , , , 则(1.2) 式变为 : , (1.3) (1.3)式称为多元线性回归模型的矩阵形式。2 回归系数的最小二乘估计设分别为的最小二乘估计值, 于是的观测值, , (2.1) 其中为误差的估计值 , 称为残差或剩余。令为的估计值 , 则

5、有, (2.2) , , (2.3) (2.3)式表示实际值与估计值的偏离程度。 欲使估计值与实际值拟合的最好 , 则应使残差平方和达到最小 , 为此 , 我们可以应用微分求极值原理确定, 即解下列方程组, (2.4)即, (2.5)整理并化简则得以下正规方程组: , (2.6)如果记 (2.6)式的系数矩阵为, 右端常数项矩阵记为, 则有, (2.7), (2.8)因此正规方程(2.6) 的矩阵形式为, (2.9)或, (2.10)其中为正规方程中待定的未知实数向量, 如果系数矩阵满秩 , 则存在 , 此时有, (2.11)(2.11) 式即为多元线性回归模型(1.2) 式中参数的最小二乘估

6、计。正规方程组 (2.6)亦可表达为下述另一种形式, 如果记, , , 则由 (2.6) 式中第一等式可解出, (2.12)再将 (2.12) 代入到 (2.6)其它各式中并经化简整理可得, (2.13)又由, , , , 如果记, , (2.14), , (2.15)则(2.13) 式可以表示为, (2.16)(2.16) 式称为正规方程组, 解此方程组可得, 再代入到 (2.12) 式中则得, 于是得回归方程, (2.17)(2.17) 式称为回归超平面方程。如果记 (2.16) 式的系数矩阵为, 右端常数项向量为, 则, , 且记, 则正规方程组(2.16) 的矩阵形式为, (2.18)

7、 解(2.18) 得, (2.19)再代回到 (2.12), 则得到。以下是一对多线性回归分析的两个例子。例 2.1某养猪场估算猪的毛重, 测得 14 头猪的体长(cm) 、胸围(cm) 与体重(kg) 数据如表 , 试建立与及的预测方程。表 2.1序号体长 ()胸围 ()体重 () 1 414928 2 455839 3 516241 4 527144 5 596243 6 627450 7 697151 8 727457 9 78796310 80846611 90857012 92947613 989180141039581经计算 : , , , , , , , , , 于是正规方程组为

8、, 解此方程组得, , 又, 因此所求预测回归方程为回归方程中系数与的含义是体长每增加 1cm, 则猪体重毛重平均增加0.522kg, 胸围每增加 1cm, 则猪体重毛重平均增加0.475kg 。例 2.2某地区二化螟的第一代成虫发生量与四个因素有关, 这四个因素分别如下, 已知原始观测数据如表2.2, 试建立二化螟发生总量的回归方程。: 冬季积雪期限( 单位为周 ), : 每年化雪日期( 以 2 月 1 日为 1), : 二月份平均气温 ( ), : 三月份平均气温 ( ), : 二化螟发生总量( 头), 经计算 : , , 表 2.2序号 11026 0.23.6 9 21226-1.44

9、.417 31440-0.81.734 41632 0.21.442 51951-1.40.940 61633 0.22.127 7 726 2.72.7 4 8 725 1.04.027 91217 2.23.713101124-0.83.056111216-0.54.91512 716 2.04.1 8131115 1.14.720154347 4.741.231211.846226.6923 0.3615 3.169224, 于是, 又24 + 0.99742 11.8462 + 1.62581 26.6923 + 11.19263 0.3615 + 16.95291 3.1692 13

10、6.98554, 因此所求二化螟发生总量的预测回归方程为。3 回归方程及回归系数的显著性检验、回归方程的显著性检验(1) 回归平方和与剩余平方和建立回归方程以后, 回归效果如何呢?因变量与自变量是否确实存在线性关系呢?这是需要进行统计检验才能加以肯定或否定, 为此 , 我们要进一步研究因变量取值的变化规律。的每次取值是有波动的 , 这种波动常称为变差, 每次观测值的变差大小 , 常用该次观侧值与次观测值的平均值的差( 称为离差 ) 来表示 , 而全部次观测值的总变差可由总的离差平方和, 其中 : 称为回归平方和, 是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动 , 其自由度(

11、为自变量的个数) 。称为剩余平方和( 或称残差平方和), 是实测值与回归值之差的平方和 , 它是由试验误差及其它因素引起的, 其自由度。总的离差平方和的自由度为。如果观测值给定, 则总的离差平方和是确定的 , 即是确定的 , 因此大则小, 反之 , 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。(2) 复相关系数为检验总的回归效果, 人们也常引用无量纲指标, (3.1) 或, (3.2) 称为复相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方

12、差贡献”, 因此就是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。显然。复相关系数越接近, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意, 与回归方程中自变量的个数及观测组数有关 , 当相对于并不很大时 , 常有较大的值 , 因此实际计算中应注意与的适当比例 , 一般认为应取至少为的到 10 倍为宜。(3) 检验要检验与是否存在线性关系, 就是要检验假设, (3.3) 当假设成立时 , 则与无线性关系 , 否则认为线性关系显著。检验假设应用统计量, (3.4) 这是两个方差之比, 它服从自由度为及的分布 , 即, (3.5) 用此统计量可检

13、验回归的总体效果。如果假设成立 , 则当给定检验水平 下, 统计量应有, (3.6) 对于给定的置信度, 由分布表可查得的值 , 如果根据统计量算得的值为, 则拒绝假设, 即不能认为全部为 o, 即个自变量的总体回归效果是显著的, 否则认为回归效果不显著。利用检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中, 如表 3.1 。表 3.1 方差分析表来 源平方和自由度方 差方差比回 归剩 余总 计根据与的定义 , 可以导出与的以下关系 : , 。利用这两个关系式可以解决值多大时回归效果才算是显著的问题。因为对给定的检验水平, 由分布表可查出的临界值,

14、然后由即可求出的临界值: , (3.7) 当时, 则认为回归效果显著。例 3.1利用方差分析对例2.1 的回归方程进行显著性检验。方差分析结果见表3.2 。表 3.2 来 源平方和自由度方 差方差比回 归剩 余总 计取检验水平0.05, 查分布表得, 而, 所以例2.1 的回归方程回归效果是显著的。、回归系数的显著性检验前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量对因变量都是重要的 , 即可能有某个自变量对并不起作用或者能被其它的的作用所代替 , 因此对这种自变量我们希望从回归方程中剔除, 这样可以建立更简单的回归方程。显然某个自变量如果对作用不显著 ,

15、 则它的系数就应取值为0, 因此检验每个自变量是否显著 , 就要检验假设: , , (3.8) (1) 检验 : 在假设下 , 可应用检验 : , , (3.9) 其中为矩阵的对角线上第个元素。对给定的检验水平 , 从分布表中可查出与 对应的临界值, 如果有, 则拒绝假设, 即认为与 0有显著差异 , 这说明对有重要作用不应剔除; 如果有则接受假设, 即认为成立 , 这说明对不起作用 , 应予剔除。(2) 检验 : 检验假设, 亦可用服从自由度分别为1 与的分布的统计量, (3.10) 其中为矩阵的主对角线上第个元素。对于给定的检验水平, 从分布表中可查得临界, 如果有, 则拒绝假设, 认为对

16、有重要作用。如果, 则接受假设, 即认为自变量对不起重要作用, 可以剔除。 一般一次检验只剔除一个自变量, 且这个自变量是所有不显著自变量中值最小者 , 然后再建立回归方程, 并继续进行检验, 直到建立的回归方程及各个自变量均显著为止。最后指出 , 上述对各自变量进行显著性检验采用的两种统计量与实际上是等价的, 因为由(3.9)式及 (3.10) 式知 , 有 (3.11) 例 3.2对例 2.1 的回归方程各系数进行显著性检验。经计算 : , 于是, 其中0.002223, 0.004577 。由 (3.7)式知, , 查分布表得, , 因为, , 所以两个自变量及都是显著的。又由, 说明体

17、长比胸围对体重的影响更大。如果应用检验 , 查分布表有, 又由, , 因为, , 因此及都是显著的, 均为重要变量, 应保留在回归方程中。(3) 偏回归平方和检验某一自变量是否显著, 还可应用偏回归平方和进行检验。个自变量的回归平方和为, 如果自个自变量中去掉, 则剩下的个自变量的回归平方和设为, 并设, 则就表示变量在回归平方和中的贡献 , 称为的偏回归平方和或贡献。可以证明, (3.12) 偏回归平方和越大 , 说明在回归方程中越重要, 对的作用和影响越大, 或者说对回归方程的贡献越大。因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小( 贡献大小 ) 的一个指标。例如在例2.1

18、中, 和的偏回归平方和分别为, , , 说明在回归方程中的作用比大。又如在例2.2 中及的偏回归平方和分别为: , , , , 的值最小 , 即在回归方程中所起的作用最小, 最大 , 说明在回归方程中所起的作用最大。4 逐步回归分析、逐步回归分析的主要思路在实际问题中 , 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在

19、考虑的全部自变量中按其对的作用大小 , 显著程度大小或者说贡献大小 , 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行检验, 以保证在引人新变量前回归方程中只含有对影响显著的变量 , 而不显著的变量已被剔除。逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和( 即贡献 ), 然后选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著性检验, 如果显著则该变量不必从

20、回归方程中剔除, 这时方程中其它的几个变量也都不需要剔除( 因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除) 。相反, 如果不显著 , 则该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。、逐步回归分析的主要计算步骤(1) 确定检验值在进行逐步

21、回归计算前要确定检验每个变量是否显若的检验水平 , 以作为引人或剔除变量的标准。检验水平要根据具体问题的实际情况来定。一般地, 为使最终的回归方程中包含较多的变量, 水平不宜取得过高, 即显著水平 不宜太小。水平还与自由度有关, 因为在逐步回归过程中, 回归方程中所含的变量的个数不断在变化, 因此方差分析中的剩余自由度也总在变化, 为方便起见常按计算自由度。为原始数据观测组数, 为估计可能选人回归方程的变量个数。例如, 估计可能有23 个变量选入回归方程, 因此取自由度为15-3-1 11, 查分布表 , 当 0.1, 自由度, 时, 临界值, 并且在引入变量时, 自由度取, , 检验的临界值

22、记, 在剔除变量时自由度取, , 检验的临界值记, 并要求, 实际应用中常取。(2) 逐步计算如果已计算步( 包含0), 且回归方程中已引入个变量 , 则第步的计算为 : () 计算全部自变量的贡献( 偏回归平方和 ) 。() 在已引入的自变量中, 检查是否有需要剔除的不显著变量。这就要在已引入的变量中选取具有最小值的一个并计算其值, 如果, 表示该变量不显著, 应将其从回归方程中剔除, 计算转至 () 。如则不需要剔除变量 , 这时则考虑从未引入的变量中选出具有最大值的一个并计算值, 如果, 则表示该变量显著, 应将其引人回归方程, 计算转至 () 。如果, 表示已无变量可选入方程, 则逐步

23、计算阶段结束, 计算转人(3) 。() 剔除或引人一个变量后, 相关系数矩阵进行消去变换, 第步计算结束。其后重复() () 再进行下步计算。由上所述 , 逐步计算的每一步总是先考虑剔除变量, 仅当无剔除时才考虑引入变量。实际计算时, 开头几步可能都是引人变量, 其后的某几步也可能相继地剔除几个变量。当方程中已无变量可剔除, 且又无变量可引入方程时, 第二阶段逐步计算即告结束, 这时转入第三阶段。(3) 其他计算 , 主要是计算回归方程入选变量的系数、复相关系数及残差等统计量。逐步回归选取变量是逐渐增加的。选取第个变量时仅要求与前面己选的-1 个变量配合起来有最小的残差平方和, 因此最终选出的

24、个重要变量有时可能不是使残差平方和最小的个, 但大量实际问题计算结果表明, 这个变量常常就是所有个变量的组合中具有最小残差平方和的那一个组合, 特别当不太大时更是如此, 这表明逐步回归是比较有效的方法。引人回归方程的变量的个数与各变量贡献的显著性检验中所规定的检验的临界值与的取值大小有关。如果希望多选一些变量进人回归方程, 则应适当增大检验水平 值, 即减小的值 , 特别地 , 当时, 则全部变量都将被选入, 这时逐步回归就变为一般的多元线性回归。相反 , 如果 取得比较小 , 即与取得比较大时 , 则入选的变量个数就要减少。此外 , 还要注意 , 在实际问题中 , 当观测数据样本容量较小时,

25、 入选变量个数不宜选得过大 , 否则被确定的系数的精度将较差。逐步回归分析的例子请参见多元回归分析经典例子的计算中的 逐步回归法计算的例子和结果。多元回归分析经典例子的计算均匀设计的数据处理多采用回归分析方法, 以下是均匀设计版本3.00 的“数据建模分析”模块对部分回归分析经典例子的计算结果, 这些计算采用与经典例子相同的回归分析方法, 所得结果与经典例子中给出的结果是相同的。均匀设计版本3.00 提供的四种回归分析方法和计算的例子如下: 回归分析方法例子和计算结果全回归法例 (regsample1.udc) 、例 (regsample2.udc)后退法例 (regsample3.udc)逐

26、步回归法例 (regsample4.udc)双重筛选逐步回归法例 (regsample5.udc)全回归法计算的例子和结果例 高磷钢的效率 () 与高磷钢的出钢量() 及高磷钢中的含量 () 有关 , 所测数据如表, 请用线性回归模型拟合上述数据。表试验序号出钢量 ()含量 ()效率 () 1 87.913.282.0 2101.413.584.0 3109.820.080.0 4 93.014.288.6 5 88.016.481.5 6115.314.283.5 7 56.914.973.0 8103.413.088.0 9101.014.991.410 80.312.981.011 96

27、.514.678.012110.615.386.513102.918.283.4注: 本例子引自秦建候邓勃王小芹编著 ,分析测试数据统计处理中计算机的应用, 化学工业出版社 , 1989年本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出): 指标名称 : 效率单位 : ? 因素名称 : 出钢量单位 : ? 因素名称 : feo 含量单位 : ? - 多 元 回 归 分 析 - 回归分析采用全回归法, 显著性水平 0.10 拟建立回归方程: = b(0) + b(1)*(1) + b(2)*(2) 回归系数 b(i): b(0) 74.6 b(1) 0.213 b(2) -0.79

28、0 标准回归系数 b(i): b(1) 0.678 b(2) -0.340 复相关系数 0.6770 决定系数20.4583 修正的决定系数 2a0.4090 回归方程显著性检验: 变 量 分 析 表变异来源平 方 和自 由 度均方均 方 比回归 129 2/ 64.5 4.230剩余 153 10/( ) 15.3总和 282 12样本容量13, 显著性水平0.10, 检验值 t 4.230, 临界值 (0.10,2,10)2.924, t (0.10,2,10), 回归方程显著。剩余标准差 3.91 回归系数检验值: 检验值 (df 10): (1) 2.818 (2) -1.412 检验

29、值 (df1 1, df210): (1) 7.940 (2) 1.993 偏回归平方和 u(i): u(1) 121 u(2) 30.4 偏相关系数(i): 1,2 0.6653 2,1 -0.4077 各方程项对回归的贡献( 按偏回归平方和降序排列): u(1) 121, u(1)/u93.9% u(2) 30.4, u(2)/u23.6% 第方程项 (2) 对回归的贡献最小, 对其进行显著性检验: 检验值 (2) 1.993, 临界值 (0.10,1,10)3.285, (2) (0.10,1,10), 此因素 ( 方程项 ) 不显著。残差分析 : 残 差 分 析 表观 测 值回 归 值

30、观测值回归值( 回归值观测值)/ 观测值 100(%) 82.0 82.9-0.900 1.10 84.0 85.5-1.50 1.79 80.0 82.2-2.20 2.75 88.6 82.8 5.80-6.55 81.5 80.4 1.10-1.35 83.5 88.0-4.50 5.39 73.0 75.0-2.00 2.74 88.0 86.4 1.60-1.82 91.4 84.4 7.00-7.6610 81.0 81.5-0.500 0.61711 78.0 83.6-5.60 7.1812 86.5 86.1 0.400-0.46213 83.4 82.2 1.20-1.44

31、- 回 归 分 析 结 束 -全回归法建立的回归方程为, 在显著性水平0.10 上是显著的 , 第二因素 () 在显著性水平0.10 上不显著。例 某种产品的得率() 与反应温度 () 、反应时间 () 及某反应物的浓度() 有关 , 现得如表所示的试验结果, 设与、和之间成线性关系, 试建立与、和之间的三元线性回归方程 , 并判断三因素的主次。表试验号反应温度 () 反应时间 () 反应物浓度 () 得率 () 1 70 10 1 7.6 2 70 10 3 10.3 3 70 30 1 8.9 4 70 30 3 11.2 5 90 10 1 8.4 6 90 10 3 11.1 7 90

32、 30 1 9.8 8 90 30 3 12.6 注: 本例子引自李云雁胡传荣编著 , 试验设计与数据处理, 化学工业出版社, 2005年本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出): 指标名称 : 得率单位 : % 因素名称 : 反应温度单位: 因素名称 : 反应时间单位 : h 因素名称 : 反应物浓度单位 : % - 多 元 回 归 分 析 - 回归分析采用全回归法, 显著性水平 0.01 拟建立回归方程: = b(0) + b(1)*(1) + b(2)*(2) + b(3)* (3) 回归系数 b(i): b(0) 2.19 b(1) 4.88e-2 b(2) 6

33、.38e-2 b(3) 1.31 标准回归系数 b(i): b(1) 0.316 b(2) 0.413 b(3) 0.850 复相关系数 0.9965 决定系数20.9929 修正的决定系数 2a0.9901 回归方程显著性检验: 变 量 分 析 表变异来源平 方 和自 由 度均方均 方 比回归 18.9 3/ 6.31 187.0剩余 0.135 4/( ) 3.38e-2总和 19.1 7样本容量, 显著性水平0.01, 检验值 t 187.0, 临界值 (0.01,3,4)16.69, t (0.01,3,4), 回归方程显著。剩余标准差 0.184 回归系数检验值: 检验值 (df 4

34、): (1) 7.506 (2) 9.815 (3) 20.21 检验值 (df1 1, df24): (1) 56.33 (2) 96.33 (3) 408.3 偏回归平方和 u(i): u(1) 1.90 u(2) 3.25 u(3) 13.8 偏相关系数(i): 1,23 0.9663 2,13 0.9799 3,12 0.9951 各方程项对回归的贡献( 按偏回归平方和降序排列): u(3) 13.8, u(3)/u72.8% u(2) 3.25, u(2)/u17.2% u(1) 1.90, u(1)/u10.0% 第方程项 (1) 对回归的贡献最小, 对其进行显著性检验: 检验值

35、(1) 56.33, 临界值 (0.01,1,4)21.20, (1) (0.01,1,4), 此方程项显著。残差分析 : 残 差 分 析 表观 测 值回 归 值观测值回归值( 回归值观测值)/ 观测值 100(%) 7.60 7.55 5.00e-2-0.658 10.3 10.2 0.100-0.971 8.90 8.83 7.00e-2-0.787 11.2 11.5-0.300 2.68 8.40 8.53-0.130 1.55 11.1 11.2-0.100 0.901 9.80 9.80 0.00 0.00 12.6 12.4 0.200-1.59- 回 归 分 析 结 束 -得率

36、 () 与反应温度 () 、反应时间 () 及某反应物的浓度() 之间具有非常显著的线性相关关系 ( 在显著性水平0.01 上显著 ) 。 由偏回归平方和的大小得知三因素的主次顺序为。后退法计算的例子和结果例研究同一地区土壤中所含植物可给态磷的情况, 得到表所示的18 组数据。其中为土壤中所含无机磷浓度, 为土壤中溶于溶液并被溴化物水解的有机磷, 为土壤中溶于但不溶于溴化物的有机磷, 为栽在 20土壤中的玉米内的可给态磷, 请建立它们的相关关系。表采样号 1 0.453158 64 2 0.423163 60 3 3.119 37 71 4 0.634157 61 5 4.724 59 54

37、6 1.765123 77 7 9.444 46 81 810.131117 93 911.629173 931012.658112 511110.937111 761223.146114 961323.150134 771421.644 73 931523.156168 9516 1.936143 541726.8582021681829.951124 99注: 本例子引自秦建候邓勃王小芹编著 ,分析测试数据统计处理中计算机的应用, 化学工业出版社 , 1989年本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出): 指标名称 : 可给态磷单位 : ppm 因素名称 : 无机磷浓

38、度单位 : ppm 因素名称 : k2co3+br 单位 : ppm 因素名称 : k2co3-br 单位 : ppm - 多 元 回 归 分 析 - 回归分析采用后退法, 显著性水平 0.05 拟建立回归方程: = b(0) + b(1)*(1) + b(2)*(2) + b(3)* (3) 回归系数 b(i): b(0) 43.7 b(1) 1.78 b(2) -8.34e-2 b(3) 0.161 标准回归系数 b(i): b(1) 0.671 b(2) -4.21e-2 b(3) 0.273 复相关系数 0.7412 决定系数20.5493 修正的决定系数 2a0.4893 回归方程显

39、著性检验:变 量 分 析 表变异来源平 方 和自 由 度均方均 方 比回归 6.81e+3 3/ 2.27e+3 5.689剩余 5.58e+3 14/( ) 399总和 1.24e+4 17样本容量18, 显著性水平0.05, 检验值 t 5.689, 临界值 (0.05,3,14)3.344, t (0.05,3,14), 回归方程显著。剩余标准差 20.0 回归系数检验值: 检验值 (df 14): (1) 3.319 (2) -0.1997 (3) 1.443 检验值 (df1 1, df214): (1) 11.02 (2) 3.986e-2 (3) 2.082 偏回归平方和 u(i

40、): u(1) 4.39e+3 u(2) 15.9 u(3) 830 偏相关系数(i): 1,23 0.6636 2,13 -5.328e-2 3,12 0.3598 各方程项对回归的贡献( 按偏回归平方和降序排列): u(1) 4.39e+3, u(1)/u64.6% u(3) 830, u(3)/u12.2% u(2) 15.9, u(2)/u0.234% 第方程项 (2) 对回归的贡献最小, 对其进行显著性检验: 检验值 (2) 3.986e-2, 临界值 (0.05,1,14)4.600, (2) (0.05,1,14), 此方程项不显著, 需要剔除。第次剔除不显著方程项, 新建回归方

41、程继续计算: 回归方程 : = b(0) + b(1)*(1) + b(2)*(3) 回归系数 b(i): b(0) 41.5 b(1) 1.74 b(2) 0.155 标准回归系数 b(i): b(1) 0.654 b(2) 0.262 复相关系数 0.7403 决定系数20.5481 修正的决定系数 2a0.5198 回归方程显著性检验: 变 量 分 析 表变异来源平 方 和自 由 度均方均 方 比回归 6.79e+3 2/ 3.40e+3 9.095剩余 5.60e+3 15/( ) 373总和 1.24e+4 17样本容量18, 显著性水平0.05, 检验值 t 9.095, 临界值

42、(0.05,2,15)3.682, t (0.05,2,15), 回归方程显著。剩余标准差 19.3 回归系数检验值: 检验值 (df 15): (1) 3.721 (2) 1.494 检验值 (df1 1, df215): (1) 13.85 (2) 2.232 偏回归平方和 u(i): u(1) 5.17e+3 u(2) 833 偏相关系数(i): 1,2 0.6928 2,1 0.3599 各方程项对回归的贡献( 按偏回归平方和降序排列): u(1) 5.17e+3, u(1)/u76.1% u(2) 833, u(2)/u12.3% 第方程项 (3) 对回归的贡献最小, 对其进行显著性

43、检验: 检验值 (2) 2.232, 临界值 (0.05,1,15)4.543, (2) (0.05,1,15), 此方程项不显著, 需要剔除。第次剔除不显著方程项, 新建回归方程继续计算: 回归方程 : = b(0) + b(1)*(1) 回归系数 b(i): b(0) 59.3 b(1) 1.84 标准回归系数 b(i): b(1) 0.693 复相关系数 0.6934 决定系数20.4808 修正的决定系数 2a0.4808 回归方程显著性检验: 变 量 分 析 表变异来源平 方 和自 由 度均方均 方 比回归 5.96e+3 1/ 5.96e+3 14.82剩余 6.43e+3 16/

44、( ) 402总和 1.24e+4 17样本容量18, 显著性水平0.05, 检验值 t 14.82, 临界值 (0.05,1,16)4.494, t (0.05,1,16), 回归方程显著。剩余标准差 20.1 回归系数检验值: 检验值 (df 16): (1) 3.849 检验值 (df1 1, df216): (1) 14.82 偏回归平方和 u(i): u(1) 5.96e+3 偏相关系数(i): 1, 0.6934 各方程项对回归的贡献( 按偏回归平方和降序排列): u(1) 5.96e+3, u(1)/u100% 对第方程项 (1)进行显著性检验: 检验值 (1) 14.82, 临

45、界值 (0.05,1,16)4.494, (1) (0.05,1,16), 此方程项显著。残差分析 : 残 差 分 析 表观 测 值回 归 值观测值回归值( 回归值观测值)/ 观测值 100(%) 64.0 60.0 4.00-6.25 60.0 60.0 0.00 0.00 71.0 65.0 6.00-8.45 61.0 60.4 0.600-0.984 54.0 67.9-13.9 25.7 77.0 62.4 14.6-19.0 81.0 76.6 4.40-5.43 93.0 77.9 15.1-16.2 93.0 80.6 12.4-13.310 51.0 82.5-31.5 61

46、.811 76.0 79.4-3.40 4.4712 96.0 102-6.00 6.2513 77.0 102-25.0 32.514 93.0 99.1-6.10 6.5615 95.0 102-7.00 7.3716 54.0 62.8-8.80 16.317 168 109 59.0-35.118 99.0 114-15.0 15.2- 回 归 分 析 结 束 -后退归法所建立的回归方程为, 在显著性水平0.05 上是显著的 , 然后经过逐次剔除不显著的因素, 最后得到的只包含显著因素的优化的回归方程为。逐步回归法计算的例子和结果例 某种水泥在凝固时放出的热量( 卡/ 克) 与水泥中下

47、列四种化学成分有关: : 的成分 (%), : 的成分 (%), : 的成分 (%), : 的成分 (%)。所测定数据如表所示, 试建立与、及的线性回归模型。表试验序号 1 726 660 78.5 2 1291552 74.3 31156 820104.3 41131 847 87.6 5 752 633 95.9 61155 922109.2 7 37117 6102.7 8 1312244 72.5 9 2541822 93.1102147 426115.911 1402334 83.8121166 912113.3131068 812109.4注: 本例子引自中国科学院数学研究室数理统

48、计组编, 回归分析方法, 科学出版社 , 1974年本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出): 指标名称 : 热量单位 : 卡/ 克因素名称 : 3cao.al2o3含量单位 : % 因素名称 : 3cao.sio2含量单位 : % 因素名称 : 4cao.al2o3.fe2o3含量单位 : % 因素名称 : 2cao.sio2含量单位 : % - 多 元 回 归 分 析 - 回归分析采用逐步回归法, 显著性水平0.10 引入变量的临界值a3.280 剔除变量的临界值e3.280 拟建立回归方程: = b(0) + b(1)*(1) + b(2)*(2) + b(3)*

49、 (3) + b(4)*(4) 第步 , 引入变量 : 各项的判别值( 升序排列 ): x(3) 0.286 x(1) 0.534 x(2) 0.666 x(4) 0.675 未引入项中 , 第项 (4) x 值( 0)的绝对值最大, 引入检验值a(4) 22.80, 引入临界值a3.280, a(4) a, 引入第项 , 已引入项数。第步 , 引入变量 : 各项的判别值( 升序排列 ): x(4) -0.675 x(2) 5.52e-3 x(3) 0.261 x(1) 0.298 未引入项中 , 第项 (1) x 值( 0)的绝对值最大, 引入检验值a(1) 108.2, 引入临界值a3.2

50、80, a(1) a, 引入第项 , 已引入项数。第步 , 引入变量 : 各项的判别值( 升序排列 ): x(4) -0.439 x(1) -0.298 x(3) 8.81e-3 x(2) 9.86e-3 未引入项中 , 第项 (2) x 值( 0)的绝对值最大, 引入检验值a(2) 5.026, 引入临界值a3.280, a(2) a, 引入第项 , 已引入项数。第步 , 剔除或引入变量: 各项的判别值( 升序排列 ): x(1) -0.302 x(2) -9.86e-3 x(4) -3.66e-3 x(3) 4.02e-5 已引入项中 , 第项 (4) x 值( 0)的绝对值最小, 未引入

51、项中 , 第项 (3) x 值( 0)的绝对值最大, 剔除检验值e(4) 1.863, 剔除临界值e3.280, e(4) e, 剔除第项 , 已引入项数。第步 , 剔除或引入变量: 各项的判别值( 升序排列 ): x(2) -0.445 x(1) -0.312 x(3) 3.61e-3 x(4) 3.66e-3 已引入项中 , 第项 (1) x 值( 0)的绝对值最小, 未引入项中 , 第项 (4) x 值( 0)的绝对值最大, 剔除检验值e(1) 146.5, 剔除临界值e3.280, e(1) e, 不能剔除第项。引入检验值a(4) 1.863, 引入临界值a3.280, a(4) a,

52、 不能引入第项, 已引入项数。变量筛选结果: 检验项数, 预期引入项数, 实际引入项数, 实际引入项数预期引入项数回归方程 : = b(0) + b(1)*(1) + b(2)*(2) 回归系数 b(i): b(0) 52.6 b(1) 1.47 b(2) 0.662 标准回归系数 b(i): b(1) 0.574 b(2) 0.685 复相关系数 0.9893 决定系数20.9787 修正的决定系数 2a0.9767 变量分析 : 变 量 分 析 表变异来源平 方 和自 由 度均方均 方 比回归 2.66e+3 2/ 1.33e+3 229.5剩余 57.9 10/( ) 5.79总和 2.

53、72e+3 12样本容量13, 显著性水平0.10, 检验值 t 229.5, 临界值 (0.10,2,10)2.924 剩余标准差 2.41 回归系数检验值: 检验值 (df 10): (1) 12.10 (2) 14.44 检验值 (df1 1, df210): (1) 146.5 (2) 208.6 偏回归平方和 u(i): u(1) 848 u(2) 1.21e+3 偏相关系数(i): 1,2 0.9675 2,1 0.9769 各方程项对回归的贡献( 按偏回归平方和降序排列): u(2) 1.21e+3, u(2)/u45.4% u(1) 848, u(1)/u31.9% 残差分析

54、: 残 差 分 析 表观 测 值回 归 值观测值回归值( 回归值观测值)/ 观测值 10 0(%) 78.5 80.1-1.60 2.04 74.3 73.3 1.00-1.35 104 106-2.00 1.92 87.6 89.3-1.70 1.94 95.9 97.3-1.40 1.46 109 105 4.00-3.67 103 104-1.00 0.971 72.5 74.6-2.10 2.90 93.1 91.3 1.80-1.9310 116 115 1.00-0.86211 83.8 80.5 3.30-3.9412 113 112 1.00-0.88513 109 112-3

55、.00 2.75- 回 归 分 析 结 束 -逐步回归法计算得到的优化的回归方程为, 在显著性水平为0.10上显著。双重筛选逐步回归法计算的例子和结果例 为了分析某地区自然经济条件对森林覆盖面积消长的影响而抽取12 个村作为样本, 共测了 12个因子 , 各因子数据列于表。表序号 174.3 91.0 5.761.31086617.451.2 9.515.3912.61 270.4157.0 8.042.21266817.252.524.210.84 8.40 378.7 77.0 7.942.01146317.062.922.813.57 9.80 478.9 67.0 6.861.5110

56、5517.064.325.134.5714.03 549.1 91.0 4.921.5 924916.539.310.7 7.41 5.62 657.6219.0 5.562.5 914816.837.337.3 9.12 2.80 753.1221.0 7.423.9 904516.830.027.0 8.64 2.84 870.1123.0 5.383.11235917.047.834.681.6411.25 986.6 45.012.541.21055714.869.037.323.9511.201082.2 81.013.241.61316115.962.316.533.6016.80

57、1176.8 90.010.701.51316915.867.622.2 8.93 9.801288.9 83.0 1.981.81076514.579.342.158.97 3.50其中 : : 山地比例 (%); : 人口密度 ( 人/); : 人均收入增长率( 元/ 年); : 公路密度 (100m/ha); : 前汛期降水量(cm/ 年); : 后汛期降水量(cm/ 年); : 月平均最低温度 ( );: 森林覆盖率 (%); : 针叶林比例 (%); : 造林面积 ( 千亩 / 年); : 年采伐面积 ( 千亩 / 年); : 火灾频数 ( 次/ 年 ) 。注: 本例子引自裴鑫德编著

58、 , 多元统计分析及其应用, 北京农业大学出版社, 1990年本软件给出的回归分析有关的结果如下(与回归分析无关的内容未列出): 指标名称 : 森林覆盖率单位 : % 指标名称 : 针叶林比例单位 : % 指标名称 : 造林面积单位 : 万亩 / 年指标名称 : 年采伐面积单位 : 千亩 / 年指标名称 : 火灾频数单位 : 次/ 年因素名称 : 山地比例单位 : % 因素名称 : 人口密度单位 : 人/ 平方公里因素名称 : 人均收入增长率单位 : 元/ 年因素名称 : 公路密度单位 : 100米/ 公顷因素名称 : 前汛期降水量单位 : 厘米 / 年因素名称 : 后汛期降水量单位 : 厘米

59、 / 年因素名称 : 月平均最低温度单位: 回归分析采用双重筛选逐步回归法, 显著性水平0.05 自变量引入、剔除的临界值x2.000 因变量引入、剔除的临界值y2.500 对指标 15 拟建立回归方程分别为: 1 = b(0) + b(1)*(1) + b(2)*(2) + b(3)*(3) + b(4)*(4) + b(5)*(5) + b(6)*(6) + b(7)*(7) 2 = b(0) + b(1)*(1) + b(2)*(2) + b(3)*(3) + b(4)*(4) + b(5)*(5) + b(6)*(6) + b(7)*(7) 3 = b(0) + b(1)*(1) +

60、b(2)*(2) + b(3)*(3) + b(4)*(4) + b(5)*(5) + b(6)*(6) + b(7)*(7) 4 = b(0) + b(1)*(1) + b(2)*(2) + b(3)*(3) + b(4)*(4) + b(5)*(5) + b(6)*(6) + b(7)*(7) 5 = b(0) + b(1)*(1) + b(2)*(2) + b(3)*(3) + b(4)*(4) + b(5)*(5) + b(6)*(6) + b(7)*(7) - 计算第组回归方程 - 第步 , 引入方程项 : 1 已引入因变量的序号: 已引入自变量的序号: 第步 , 自变量引入或剔除判

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论