回归分析(3)多元逐步回归[青苗教育]_第1页
回归分析(3)多元逐步回归[青苗教育]_第2页
回归分析(3)多元逐步回归[青苗教育]_第3页
回归分析(3)多元逐步回归[青苗教育]_第4页
回归分析(3)多元逐步回归[青苗教育]_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 2.5 2.5 多元逐步回归算法原理多元逐步回归算法原理 多元回归模型首先将实际问题所提取的全部变量引多元回归模型首先将实际问题所提取的全部变量引 入方程,然后再根据变量的显著性检验把方程中不重入方程,然后再根据变量的显著性检验把方程中不重 要的变量逐一剔除,建立新方程。要的变量逐一剔除,建立新方程。 缺点:(缺点:(1)首先在实际问题中,要提取合)首先在实际问题中,要提取合 适的变量来建立回归方程本身不是一件很容易适的变量来建立回归方程本身不是一件很容易 的事情,变量间可能存在高度的相互依赖性会的事情,变量间可能存在高度的相互依赖性会 给回归系数的估计带来不合理的解释;给回归系数的估计带来

2、不合理的解释; (2)其次变量的一次性引入方程,易导致计)其次变量的一次性引入方程,易导致计 算量增大,运算效率降低,精度不够等问题。算量增大,运算效率降低,精度不够等问题。 1中小学 为了得到一个稳健的、可靠的回归模为了得到一个稳健的、可靠的回归模 型,这就需要给出一种方法,使得能从型,这就需要给出一种方法,使得能从 影响影响 的因素中自动根据某种准则将的因素中自动根据某种准则将 对对 贡献大的变量贡献大的变量 (或者说对(或者说对 重要的变重要的变 量量 )引入方程,不重要的变量从方程)引入方程,不重要的变量从方程 中剔除。最终在观测数据基础上建立最中剔除。最终在观测数据基础上建立最 优的

3、回归方程。优的回归方程。 y y y i x i x 2.5 2.5 多元逐步回归算法原理多元逐步回归算法原理 2中小学 2.5.1 2.5.1 逐步回归算法的形成思路逐步回归算法的形成思路 逐步回归算法基本思路逐步回归算法基本思路 根据各自变量的重要性,每一步选一个重要根据各自变量的重要性,每一步选一个重要 的变量进入回归方程。的变量进入回归方程。 第一步是在所有可供挑选的变量中选出一个变量,第一步是在所有可供挑选的变量中选出一个变量, 使它组成的一元回归方程比其他变量有更大的回归平方使它组成的一元回归方程比其他变量有更大的回归平方 和。第二步是在剩下的自变量中选这样一个变量,它与和。第二步

4、是在剩下的自变量中选这样一个变量,它与 已选入方程的那个变量所组成的二元回归方程,比其他已选入方程的那个变量所组成的二元回归方程,比其他 任一变量与已先选入方程的变量所组成的二元回归方程,任一变量与已先选入方程的变量所组成的二元回归方程, 有更大有更大的回归平方和。的回归平方和。 l 3中小学 如此继续下去,假设已经进行到如此继续下去,假设已经进行到 步,那第步,那第 步步 是在未选的变量中选出这样一个变量,它与已选入回是在未选的变量中选出这样一个变量,它与已选入回 归方程的变量组成归方程的变量组成 元回归方程,比其他余下的任何元回归方程,比其他余下的任何 一个变量组成的一个变量组成的 元回归

5、方程,有更大的回归平方和。元回归方程,有更大的回归平方和。 逐步回归不仅考虑到按贡献大小逐一挑选重要变量,逐步回归不仅考虑到按贡献大小逐一挑选重要变量, 而且还考虑到较早选入回归方程的某些变量,有可能而且还考虑到较早选入回归方程的某些变量,有可能 随着其后一些变量的选入而失去原有的重要性,这样随着其后一些变量的选入而失去原有的重要性,这样 的变量也应当及时从回归方程中剔除,使回归方程中的变量也应当及时从回归方程中剔除,使回归方程中 始终只保留重要的变量。始终只保留重要的变量。 1 l l l 2.5.1 2.5.1 逐步回归算法的形成思路逐步回归算法的形成思路 4中小学 如如 引入方程后,再引

6、入引入方程后,再引入 ,也许由,也许由 的引的引 入而入而 的重要性反而变得不重要,应及时剔除。的重要性反而变得不重要,应及时剔除。 假设已有假设已有 个自变量引入回归方程,即已知回个自变量引入回归方程,即已知回 归方程是:归方程是: 此时该方程相应的总离差平方和记为此时该方程相应的总离差平方和记为 21, x x 5 x 5 x 1 x l ll xbxbxbby 22110 ),(),( 2121ll xxxQxxxUSSS 剩剩回回总总 (2.14) 2.5.1 2.5.1 逐步回归算法的形成思路逐步回归算法的形成思路 5中小学 2.5.2 2.5.2 引入自变量的依据引入自变量的依据

7、现在在已有的现在在已有的 个自变量所组成的回归方程中再个自变量所组成的回归方程中再 引入一个自变量,不妨记为引入一个自变量,不妨记为 ,于,于 是引入了一个自变量是引入了一个自变量 的回归方程可表示为的回归方程可表示为 现在用式(现在用式(2.15)减去式()减去式(2.14),并注意到),并注意到 式(式(2.14)与式()与式(2.15)总离差平方和不变,)总离差平方和不变, 可得可得 l ), 2, 1(mllixi i x ),(),( 2121ilil xxxxQxxxxUS 总总(2.15) ),(),( ),(),( 2121 2121 ill lil xxxxQxxxQ xxx

8、UxxxxU 6中小学 令令 于是称于是称 为自变量为自变量 对因变量对因变量 的的方方 差贡献差贡献。也就是,如果。也就是,如果 越大,则越大,则 对对 的影响就越大,的影响就越大, 对回归方程就越显重要,对回归方程就越显重要, 应该引入。但是应该引入。但是 应大到什么程度,自应大到什么程度,自 变量变量 才可被引入方程呢?这就需要给出才可被引入方程呢?这就需要给出 的引入标准(或称引入门坎值)。的引入标准(或称引入门坎值)。 ),(),(),( 212121lilli xxxUxxxxUxxxV ),( 21li xxxV ),( 21li xxxV i x y y i x ),( 21l

9、i xxxV i x i x 7中小学 统计理论表明,用统计量统计理论表明,用统计量 可以检验自变量可以检验自变量 是否可以引入方程。式中,是否可以引入方程。式中, 是样本容量,是样本容量, 是已进入方程的自变量个数。是已进入方程的自变量个数。 对于给定水平对于给定水平 ,查,查 分布表,可得临界分布表,可得临界 值值 。如果。如果 ,则表明,则表明 可引入方程;可引入方程; )2, 1( )2/(),( 1/ ),( 21 21 1 lnF lnxxxxQ xxxV F il li i i x n l mlli, 2, 1 F 进进 FF 进进 FF i 1 i x 8中小学 如果如果 ,则

10、说明自变量,则说明自变量 不重要,不重要, 不能引不能引 入方程。需要说明的是,实际问题可能入方程。需要说明的是,实际问题可能 有有 多个,由于每次只能引入一个变量进入方程,因多个,由于每次只能引入一个变量进入方程,因 此在算法上,我们是选最大的此在算法上,我们是选最大的 值所对应的变量值所对应的变量 考虑引入,即,先求考虑引入,即,先求 然后将它与然后将它与 比较,如比较,如 ,相应的自变量,相应的自变量 入选;如入选;如 ,引入变量的步骤就到此为,引入变量的步骤就到此为 止。止。 进进 FF i 1 i x i x 进进 FF i 1 i F1 )(max )(1 milFF iki 记记

11、 进进 F 进进 FF ik )( )(ik x 进进 FF ik )( 9中小学 2.5.3 2.5.3 剔除自变量的依据剔除自变量的依据 设已有设已有 个自变量引入回归方程,即已知回归方个自变量引入回归方程,即已知回归方 程为程为 此时该方程的总离差平方和可表示为此时该方程的总离差平方和可表示为 现在已有的现在已有的 个自变量中剔除一个自变量,不妨个自变量中剔除一个自变量,不妨 剔除剔除 ,于是可得剔除自变量,于是可得剔除自变量 后的后的 回归方程,记为回归方程,记为 l tt xbxbxbby 22110 ),(),( 2121ll xxxQxxxUSSS 剩剩回回总总 l lixi,

12、2 , 1, i x lliiii xbxbxbxbby 1111110 (2.17) (2.16) 10中小学 ), ,(),( 11 211121 lii lii xxx xxQxxxxxUS 总总 ),(),(),( 111121liilli xxxxUxxUxxxV i V i x y 该方程的总离差平方和记该方程的总离差平方和记 为由式(为由式(2.16)与式()与式(2.17)可得)可得 这里仍然称这里仍然称 为为 对对 的方差贡献。的方差贡献。 11中小学 越大说明越大说明 对对 的影响越大,即的影响越大,即 对对 越重要,越重要, 当然当然 在方程中就不能被剔除,反之亦然。然而

13、在方程中就不能被剔除,反之亦然。然而 应小到什么程度,自变量应小到什么程度,自变量 才考虑从方程中被剔才考虑从方程中被剔 除呢?这就需要给出除呢?这就需要给出 的剔除标准(或称剔除门的剔除标准(或称剔除门 坎值)。和前面所介绍的引入标准一样,可用统坎值)。和前面所介绍的引入标准一样,可用统 计量计量 来检验方程中哪个自变量来检验方程中哪个自变量 可被考虑剔除出方程。可被考虑剔除出方程。 i Vi xy i x y i x i V i x i x )1, 1( )1/(),( 1/ ),( 1 21 2 lnF lnxxQ xxxV F l li i i x li, 2 , 1 12中小学 对于

14、给定的水平对于给定的水平 ,查,查 分布表得临界分布表得临界 值值 。 n如果如果 ,则,则 应从方程中剔除;应从方程中剔除; n如果如果 ,则,则 不应从方程中剔除。不应从方程中剔除。 n同样需要说明的是,实际问题可能有多个同样需要说明的是,实际问题可能有多个 ,由于每次只能从方程中剔除一个变,由于每次只能从方程中剔除一个变 量,因此在算法上,我们选最小的量,因此在算法上,我们选最小的 值所对应值所对应 的变量考虑剔除,即先求的变量考虑剔除,即先求 F 出出 FF i 2 i x i x 出出 FF i 2 出出 FlnF )1, 1( 出出 FF i 2 i F2 13中小学 然后将然后将

15、 与与 比较,如比较,如 时,就应从回归时,就应从回归 方程中剔除变量方程中剔除变量 ;如;如 ,则方程中没,则方程中没 有变量被剔除,转入是否可以引入新变量的讨论。有变量被剔除,转入是否可以引入新变量的讨论。 )(2 1 min iki li FF 记记 )(ik F 出出 F 出出 FF ik )( )(ik x 出出 FF ik )( 14中小学 2.6 2.6 逐步回归的计算步骤逐步回归的计算步骤 n前面已经讲过,前面已经讲过,“引入引入”或或“剔除剔除”变量的依变量的依 据是据是 根据自变量根据自变量 对因变量对因变量 的方差贡献的大小决定的方差贡献的大小决定 。当开始进行逐步回归时

16、,第一步、第二步只考。当开始进行逐步回归时,第一步、第二步只考 虑虑“引入引入”。至于以后各步,则应首先考虑能否。至于以后各步,则应首先考虑能否 剔剔 除,如果已断定不能剔除时,再考虑除,如果已断定不能剔除时,再考虑“引入引入”。 当当 既不能引入又不能剔除时,则逐步回归的变量挑既不能引入又不能剔除时,则逐步回归的变量挑 选即告结束。在下面的介绍中,我们只给出逐步选即告结束。在下面的介绍中,我们只给出逐步 回归的计算方法而不去讨论它的数学原理。回归的计算方法而不去讨论它的数学原理。 i xy 15中小学 2.6.1 2.6.1 数据准备数据准备 回归分析的原始数据包括两部分,一部分是自回归分析

17、的原始数据包括两部分,一部分是自 变量变量 及因变量及因变量 的观测值。我们称为的观测值。我们称为 模型数据值。另一部分是只有自变量的观测值,模型数据值。另一部分是只有自变量的观测值, 因变量因变量 的取值未知,称预测数据部分。的取值未知,称预测数据部分。 模型数据用来求回归方程的参数,在模型显著模型数据用来求回归方程的参数,在模型显著 时,再用以对预测部分作时,再用以对预测部分作 的预测计算。的预测计算。 m xxx, 21 y y y 16中小学 1 1输入模型原始数据输入模型原始数据 nnmnn m m yxxx yxxx yxxx X 21 222221 111211 其中,其中, 为

18、样品个数,为样品个数, 为自变量个数。为自变量个数。 n m 17中小学 该变换使变换后的数据各变量均值为该变换使变换后的数据各变量均值为0,离差,离差 平方和为平方和为l。 2作如下预处理变换作如下预处理变换 (1) 求各变量均值求各变量均值 (2) 求求 ( (3) 作变换作变换 n i ijj mjx n x 1 )1, 2 , 1( 1 )1, 2 , 1()( 1 2 mjxxl n i jijj )1, 2 , 1;, 2 , 1(* mjnj l xx x j jij ij 18中小学 这一步与多元回归中叙述的内容相同。为了使这一步与多元回归中叙述的内容相同。为了使 计算有更好的

19、效果,可把正规方程组式(计算有更好的效果,可把正规方程组式(2.10) ,改为,改为 mymmmmm ymm ymm rbrbrbr rbrbrbr rbrbrbr 2211 22222121 11212111 (2.18) 19中小学 2.6.2 2.6.2 建立正规方程组建立正规方程组 式(式(2.18)中,)中, 是相关系数,即是相关系数,即 ij r n k jjk n k iik n k jjkiik jjii ij xxxx xxxx SS S r 1 2 1 2 1 )()( )( ymji, 2 , 1, (2.19) 新方程组新方程组 与式(与式(2.10)中)中 有如下关有

20、如下关 系:系: i b i b ), 2 , 1(/miSSbb iiyyii 20中小学 方程组式(方程组式(2.18)中左端的系数项定为矩阵)中左端的系数项定为矩阵 , 即零步矩阵。在计算技巧上为了方便,把即零步矩阵。在计算技巧上为了方便,把 扩充扩充 为为 )0( R )0( R yyymyy mymmmm ym ym rrrr rrrr rrrr rrrr R 21 21 222221 111211 )0( (2.20) 21中小学 2.6.3 2.6.3 逐步计算逐步计算 假设已计算了假设已计算了 步(包括步(包括 步),在回归方程步),在回归方程 中已引入了中已引入了 个变量,这

21、时初始的个变量,这时初始的 阵已经变换阵已经变换 为为 l0 l l )0( R )()()( 2 )( 1 )()()( 2 )( 1 )( 2 )( 2 )( 22 )( 21 )( 1 )( 1 )( 12 )( 11 )( l yy l ym l y l y l my l mm l m l m l y l m ll l y l m ll l rrrr rrrr rrrr rrrr R 22中小学 )1( l i V1 li V (2.21) ), 2 , 1(lkixi )( 2)( )1( )( l ii l iyl i r r V 1首先对已引入方程变量首先对已引入方程变量 计计

22、算方差贡献算方差贡献 ,即,即 步的步的 从从 中选出最小的中选出最小的 ,记为,记为 ,计,计 算算 )1( l i V )1( l i V )1( min, l i V 1 2 l F )( )1( min,)1( 2 )1( l yy l il r lnV F (2.22) 23中小学 如果如果 乃事先规定的变量剔除门坎值),乃事先规定的变量剔除门坎值), 则将贡献最小的变量则将贡献最小的变量 从回归方程中剔除。从回归方程中剔除。 2对作消去变换,消去运行公式为对作消去变换,消去运行公式为 * 2 * 2 )1( 2 (FFF l k x ),(/ ),(/1 ),(/ ),(/ )()( )( )()()()( )()( )1( kjkirr kjkir kjkirrrr kjkirr r l kk l ik l kk l kk l kj l ik l ij l kk l kj l ij (2.23) 如果不存在应被剔除的变量,则进行引入变量如果不存在应被剔除的变量,则进行引入变量 的计算,转入下一的计算,转入下一 步。步。 24中小学 3对未引入方程的变量计算其方差贡献对未引入方程的变量计算其方差贡献 , 从中选出最大的,即从中选出最大的,即 ,计算,计算 如果如果 为事先规定引入变量的门坎为事先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论