自变量选择与逐步回归课件_第1页
自变量选择与逐步回归课件_第2页
自变量选择与逐步回归课件_第3页
自变量选择与逐步回归课件_第4页
自变量选择与逐步回归课件_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章第七章自变量选择与逐步回归 多元线性回归方程中所包含的自变量是根据专多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。意义的自变量是回归分析的第一步。 选择自变量的基本思路是:尽可能将回归效果选择自变量的基本思路是:

2、尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。别是与自变量有密切线性关系的自变量排除在外。 第七章 第一节第一节机动 目录 上页 下页 返回 结束 自变量选择对估计和预测的影响在多元线性回归模型中,自变量的选择实质上就是模型的选择。), 0(2nnINXY其中:Y是nx1的观测值,X是nxm结构矩阵,并假定X的秩为m。 现设一切可供选择的变量是t个 ,它们组成的回归模型称为全模型(记m=t+1)是mx1未知参数向量,qp,qpXXX下面的回归模型称为选模型:下面的回归模型称为选模型:), 0(

3、2nppINXYtxxx,21txxx,211 tp现从现从这这t个变量中选个变量中选t变量,不妨设变量,不妨设矩阵矩阵X可作如下的分块(记:可作如下的分块(记:) ,那么对全模型中的参数,那么对全模型中的参数 和结构和结构自变量的选择问题可以看成是这样二个问题自变量的选择问题可以看成是这样二个问题: 究竟应用全模型还是用选模型;究竟应用全模型还是用选模型; 若用选模型,则究竟应包含多少变量最适合。如若用选模型,则究竟应包含多少变量最适合。如果全模型为真,而我们用了选模型,这就表示在果全模型为真,而我们用了选模型,这就表示在方程中丢掉了部分有用变量,相反,如果选模型方程中丢掉了部分有用变量,相

4、反,如果选模型为真,而我们选用了全模型,这就表示在方程中为真,而我们选用了全模型,这就表示在方程中引入了一些无用变量,下面从参数估计和预测两引入了一些无用变量,下面从参数估计和预测两个角度来看一看由于模型选择不当带来的后果。个角度来看一看由于模型选择不当带来的后果。为了讨论方便起见,先引入几个记号: 2,全模型中参数 的估计: 1()X XX Y211()()Y IX X XX YnR X其中:R(X)为矩阵X的秩。 2,在选模型中参数在选模型中参数 的估计:的估计:121()1()()ppppppppppXXX YYIXXXXYnR X),(),()(11tppqpxxxxxxx在在 上的预

5、测值上的预测值pppxy分块矩阵求逆公式: DCCBA1111111111111111111111111)()(CBCDBCDCDBBCCDBBCDBCDDBCDCDBCCDBDCCBA均方误差的概念 对无偏估计常用 来衡量估计量的好坏,而对有偏估计则相应采用均方误差 Var)(EMSE注注:由上述定理说明,若全模型为真的而误用选模型 ppx作为y值的预测的话,所得的估计是有偏的. 但预测方差会有所下降。 而对有偏的估计,一般可用均方差去表明估计的好坏,在均方误差的意义下,预测的均方误差也是会下降。所以删去一些影响不大,但回归系数方差过大的变量(用 为非负定矩阵来()qqqD 表示),对预测精

6、度的提高是有利的. 综合以上所述,一般我们尽可能使模型的变量少而精,要引入对y有显著影响的变量,而对y并不很显著的变量要删除,这样不仅对估计而且对预测也有利. 第七章 第二节第二节机动 目录 上页 下页 返回 结束 自变量选择方法自变量选择准则自变量选择准则若一个多元回归的问题中有若一个多元回归的问题中有t可供选择的自变量,那可供选择的自变量,那么所有可能的回归方程有么所有可能的回归方程有 2t-1个,下面给出一些自个,下面给出一些自变量选择的准则,希望能从变量选择的准则,希望能从 2t-1个回归方程中选择个回归方程中选择一个最合理的方程一个最合理的方程. 对全模型,记:对全模型,记:SSTS

7、SERXXXXHYHIYSSE1,)(,)(21对选模型,记:对选模型,记:SSTSSERXXXXHYHIYSSEppppppppp1,)(,)(21准则准则1 平均残差平方和达到最小. pnSSEPp2准则准则3 预测偏差预测偏差 的方差的方差 2)(pppnJJ准则准则4 平均预测均方误差平均预测均方误差Sp达到最小。达到最小。 211pppnS准则准则5 Cp统计量统计量22sSSEnpCpp其中三其中三s2是全模型中是全模型中 2的无偏估计的无偏估计. 准则准则7 AIC准则准则 AIC准则的定义:AIC=-2(模型的对数似然估计函数的极大值)+2(模型中独立参数的个数) 第七章 第三

8、节第三节机动 目录 上页 下页 返回 结束 逐步回归一、全局选择法一、全局选择法对自变量各种不同的组合所建立的回归方程进行比对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个较,从全部组合中挑出一个“最优最优”的回归方程。的回归方程。 uR2可用来评价回归方程优劣。可用来评价回归方程优劣。u随着自变量增加,随着自变量增加,R2不断增大,对两个不不断增大,对两个不 同个数自变量回归方程比较,须考虑方程同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对包含自变量个数影响,应对R2进行校正。进行校正。u所谓所谓“最优最优”回归方程指回归方程指 最大者。最大者。2cR总总

9、残残)(MSMS11pn1nR11R 22c 2cR1.1.校正决定系数校正决定系数 选择法选择法2. 2. 选择法选择法pCP为方程中自变量个数。为方程中自变量个数。最优方程的最优方程的Cp期望值是期望值是p+1。应选择应选择Cp最接近最接近P+1的回归方程为最优。的回归方程为最优。 mp 1p2nMSSSC mpp )()(残残残残 是由是由 个自变量作回归的误差个自变量作回归的误差平方和,平方和, 是从全部是从全部m个自变量的回归模个自变量的回归模型中得到的残差均方。型中得到的残差均方。pSS )(残)(mppmMS )(残总胆固醇 甘油三脂 胰岛素 糖化血 血糖 (mmol/L) (m

10、mol/L) (U/ml) 红蛋白(%) (mmol/L) 序号 i X1 X2 X3 X4 Y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.1 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6

11、.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20 6.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96

12、8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4 27名糖尿病人的血糖及有关变量的测量结果 如果自变量个数为4,则所有的回归模型有241 15个;当自变量数个数为10时,所有可能的回归为 2101 1023个;当自变量数个数为50时,所有可能的回归为25011015个。二、逐步选择法二、逐步选择法

13、全局选择计算量很大:全局选择计算量很大: 6个变量,计算个变量,计算26-1=63个方程;个方程; 10个变量,计算个变量,计算210-1=1023个方程。个方程。按选入变量顺序不同分按选入变量顺序不同分前进法、后退法与逐步回前进法、后退法与逐步回归法归法,共同特点是每一步只引,共同特点是每一步只引 入或剔除一个自变入或剔除一个自变量量Xj。n对对Xj的取舍要进行的取舍要进行F检验:检验: )()(残残回回1pn/SS1/XSSF ljlj 计算进行到第计算进行到第l步时:步时:p :方程中自变量个数方程中自变量个数SS回:回:Xj的偏回归平方和的偏回归平方和SS残:残:残差平方和残差平方和缺

14、点:缺点:后续变量的引入可能使先前引入的变量变的后续变量的引入可能使先前引入的变量变的 不重要。不重要。入入入入 P FF )1pn, 1(jXj入选入选1.前进法前进法(只选不剔)(只选不剔)自变量从无到有、从少到多自变量从无到有、从少到多 Y对每一个自变量作直线回归,对对每一个自变量作直线回归,对回归平方和回归平方和最大最大的自变量作的自变量作F检验,有意义(检验,有意义(P小)则引入。小)则引入。在此基础上,计算其它自变量的在此基础上,计算其它自变量的偏回归平方和偏回归平方和,选,选取偏回归平方和取偏回归平方和最大者最大者作作F检验,检验, 2.后退法(后退法(只剔不选)只剔不选)开始方

15、程中包含全部自变量开始方程中包含全部自变量,然后从方程中选取,然后从方程中选取偏回归平方和最小的自变量作偏回归平方和最小的自变量作F检验以决定是否从检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为方程中剔除,直至无自变量可以从方程中剔除为止。止。缺点:缺点:当某些自变量高度相关时,可能得不出正确当某些自变量高度相关时,可能得不出正确 结果。结果。出出出出 P FF )1pn, 1(jXj剔除剔除 3.逐步回归法(先选后剔,双向筛选)逐步回归法(先选后剔,双向筛选)p开始方程中无自变量,从方程外选取偏回归平方开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作和最大的自变量作F检

16、验以决定是否选入方程;检验以决定是否选入方程;p每引一个自变量进入方程后,从方程中选取偏回每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作归平方和最小的自变量作F检验以决定是否从方程检验以决定是否从方程中剔除;中剔除;p直至方程外无自变量可引入,方程内无自变量可直至方程外无自变量可引入,方程内无自变量可剔除为止。剔除为止。 出出出出 P FF )1pn, 1(jXj剔除剔除内剔内剔入入入入 P FF )1pn, 1(jXj入选入选外引外引入入值定的越小选取自变量标准越严,被选值定的越小选取自变量标准越严,被选 入方程内入方程内自变量数越少。自变量数越少。 入入值越大则反之。值越

17、大则反之。小样本:小样本:入入=0.05,出出=0.10。 大样本:大样本:入入=0.10,出出=0.15。 入入出出,以免以免Xj上一步剔除后下一步又被选入上一步剔除后下一步又被选入逐步回归法流程图逐步回归法流程图 例例 222.5519 84.5570 142.4347- 89.8025 67.6962 84.5570 86.4407 57.3863- 26.7286 31.3687 142.4347- 57.3863- 350.3106 9.4929- 53.9523-89.8025 26.7286 9.4929- 172.3648 67.3608 67.6962 31.3687 53.

18、9523- 67.3608 0103.66 l ij84.5570 b86.4407b 57.3863-b26.7286b31.3687 142.4347- b57.3863-b350.3106b9.4929-b53.9523-89.8025b26.7286b9.4929-b172.3648 b67.360867.6962 b31.3687 b53.9523- b67.3608 b0103.664321432143214321 6382. 0b 2706. 0b 3515. 0b 1424. 0b4321 1. 全回归全回归 9259.11Y1185. 9X 1467. 6X 8407. 2X

19、 8126. 5X6382. 0b 2706. 0b 3515. 0b 1424. 0b43214321 9433. 5XbXbXbYbmm22110 )(4321X6382. 0X2706. 0X3515. 0X1424. 09433. 5Y 6008. 05519.2227107.133SSSSR2 总总回回2.决定系数决定系数R2血糖含量变异的血糖含量变异的60%可由总胆固醇、甘油三酯、可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。胰岛素和糖化血红蛋白的变异解释。 选选X4前先建立前先建立4个直线回归方程;个直线回归方程;选选X1前先建立前先建立1个含个含3个自变量、个自变量、

20、 3个含个含2个个 自变量的多元线性回归方程。自变量的多元线性回归方程。 0.10P 92. 2FF788.14)1127/(837.139714.821pn/SS1/XSSF0.10(1,25)141 )()(残残回回)第第一一步步(选选:4X 0.10P 93. 2FF244. 5) 1227/(762.114076.251pn/SS1/XSSF0.10(1,24)212 )()(残残回回)第第二二步步(剔剔:无无,选选:1X 0.10P 94. 2FF185. 3)1327/(804.100958.131pn/SS1/XSSF0.10(1,23)333 )()(残残回回)第第三三步步(剔

21、剔:无无,选选:3X 0.10P 95. 2FF962. 2) 1427/(841.88963.111pn/SS1/XSSF0.10(1,22)424 )()(残残回回)第第四四步步(剔剔:无无,选选:2X 0.15P 92. 2FF0.15(1,22) 152. 0) 1427/(841.88613. 01pn/SS1/XSSF515 )()(残残回回)第第五五步步(剔剔:1X 逐逐步步回回归归方方程程的的方方差差分分析析表表 变变异异来来源源 自自由由度度 SS MS F P 总总变变异异 26 222.5519 回回 归归 3 133.0980 44.366 11.41 0.0001 残

22、残 差差 23 89.4540 3.889 432X6632. 0X2871. 0X4023. 04996. 6Y 逐步回归法流程图逐步回归法流程图在自变量很多时,其中有的因素可能对应变量的影响不是很大,而且x之间可能不完全相互独立的,可能有种种互作关系。在这种情况下可用逐步回归分析,进行x因子的筛选,这样建立的多元回归模型预测效果会更较好。 逐步回归分析,首先要建立因变量y与自变量x之间的总回归方程,再对总的方程及每个自变量进行假设检验。当总的方程不显著时,表明该多元回归方程线性关系不成立;而当某个自变量对y影响不显著时,应该把它剔除,重新建立不包含该因子的多元回归方程。筛选出有显著影响的因

23、子作为自变量,并建立“最优”回归方程。 回归方程包含的自变量越多,回归平方和越大,剩余的平方和越小,剩余均方也随之较小,预测值的误差也愈小,模拟的效果愈好。但是方程中的变量过多,预报工作量就会越大,其中有些相关性不显著的预报因子会影响预测的效果。因此在多元回归模型中,选择适宜的变量数目尤为重要。 例例变量说明如下: X1X1粮粮 食食X11X11烟草类烟草类X2X2淀粉及薯类淀粉及薯类X12X12酒和饮料酒和饮料X3X3干豆类及豆制品干豆类及豆制品X13X13干鲜瓜果类干鲜瓜果类X4X4油脂类油脂类X14X14糕点类糕点类X5X5肉禽及制品肉禽及制品X15X15奶及奶制品奶及奶制品X6X6蛋蛋

24、 类类X16X16其他食品其他食品X7X7水产品类水产品类X17X17在外用餐在外用餐X8X8菜菜 类类X18X18食品加工服务费食品加工服务费X9X9调味品调味品Y Y消费性支出消费性支出X10X10 糖糖 类类1)准备分析数据 在SPSS数据编辑窗口中,用“Data”命令2)启动线性回归过程 单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项3) 设置分析变量 设置因变量:将左边变量列表中的“y”变量,选入到“Dependent”因变量显示栏里。 设置自变量:将左边变量列表中的“x1”“x21”变量,全部选移到“Independent(S)”自变量栏里。

25、 设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。 选择标签变量: 选择“DIST”为标签变量。 选择加权变量: 本例子没有加权变量,因此不作任何设置。 4)回归方式 在“Method”分析方法框中选中“Stepwise”逐步分析方法。该方法是根据“Options”选择对话框中显著性检验(F)的设置,在方程中进入或剔除单个变量,直到所建立的方程中不再含有可加入或可剔除的变量为止。5) 设置变量检验水平 “Options” “Stepping Method Criteria”框里的设置用于逐步回归分析的选择标准。 其中“Use probability of F”选项,提供设置显著性F

26、检验的概率。如果一个变量的F检验概率小于或等于进入“Entry”栏里设置的值,那么这个变量将被选入回归方程中;当回归方程中变量的F值检验概率大于剔除“Removal”栏里设置的值,则该变量将从回归方程中被剔除。由此可见,设置F检验概率时,应使进入值小于剔除值。 “Ues F value” 选项,提供设置显著性F检验的分布值。如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当回归方程中变量的F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置F分布值时,应该使进入值大于剔除值。 本例子使用显著性F检验的概率,在进入“Entry”栏里

27、设置为“0.15”,在剔除“Removal”栏里设置为“0.20”(剔除的概率值应比进入的值大),如图2-89所示。 6)设置输出统计量“Statistics” “Regression Coefficients”回归系数选项: “Estimates”输出回归系数和相关统计量。 “Residuals”残差选项: 其它输入选项 “Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。 7)绘图选项“Plots” 8) 保存分析数据的选项“Save” “Predicted Values”预测值栏选项: 本例选中“Unstandardized”非标准化预测值。 “Dist

28、ances”距离栏选项: “Prediction Intervals”预测区间选项: “Save to New File”保存为新文件: “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。 “Residuals” 保存残差选项: “Influence Statistics” 统计量的影响。 9)提交执行 在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中10) 结果分析 主要结果: 逐步回归每一步进入或剔除回归模型中的变量情况逐步回归每一步的回归模型的统计量:R 是相关系数;R Square 相关系数的平方,

29、又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。 Model SummaryModel Summarym m.902a.813.807*.933b.871.861*.948c.899.888*.963d.928.917*.968e.938.925*.971f.944.930*.974g.949.934*.980h.960.946*.979i.959.946*.983j.967.955*.983k.966.956*.987l.974.9

30、64*Model123456789101112RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), X17a. Predictors: (Constant), X17, X13b. Predictors: (Constant), X17, X13, X7c. Predictors: (Constant), X17, X13, X7, X15d. Predictors: (Constant), X17, X13, X7, X15, X3e. Predictors: (Constant), X17, X1

31、3, X7, X15, X3, X12f. Predictors: (Constant), X17, X13, X7, X15, X3, X12, X18g. Predictors: (Constant), X17, X13, X7, X15, X3, X12, X18,X8h. Predictors: (Constant), X17, X7, X15, X3, X12, X18, X8i. Predictors: (Constant), X17, X7, X15, X3, X12, X18, X8,X1j. Predictors: (Constant), X17, X7, X3, X12,

32、X18, X8, X1k. Predictors: (Constant), X17, X7, X3, X12, X18, X8, X1, X4l. Dependent Variable: Ym. 逐步回归每一步的回归模型的方差分析2E+0081216546904.1126.48549649000291712034.4973E+008302E+0082115868436.094.15034459032281230679.7303E+008302E+008379763264.9780.0422690611027996522.5773E+008302E+008461761649.6683.85719

33、14930626736511.7633E+008302E+008549925519.4775.3331656830725662732.2853E+008303E+008641868164.3767.0481498691824624454.9283E+008303E+008736102883.1561.6191347572223585900.9753E+008303E+008831945523.2766.1041063171822483259.9223E+008303E+008736466125.2176.7141093302823475349.0443E+008303E+00883217668

34、1.5080.602878245222399202.3853E+008303E+008736738028.8393.577902970323392595.7673E+008303E+008832401220.77102.034698613822317551.7423E+00830RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123456789101112Sum ofSquare

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论