




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 自变量的选择与逐步回归自变量选择与逐步回归 从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。1 自变量选择对估计和预测的影响 一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共有m个,回归模型为:y=0+1x1+2x2+mxm+ (1)称为全回归模型。 如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,,xp,构成的回归模型为
2、:y=0p+1px1+2px2+ppxp+p (2) 称模型(2)式为选模型。所有子集回归 一、所有子集的数目 有m个可供选择的变量x1,x2,,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个。 从另一个角度看 所有子集回归 二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还可以用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为: 所有子集回归 准则1 自由度调整复相关系数达到最大 所有子集回归 准则1 自由度调整复相关系数达到最大 从另外一个角度考虑回
3、归的拟合效果,回归误差项方差2的无偏估计为:此无偏估计式中也加入了惩罚因子n-p-1所有子集回归 准则1 自由度调整复相关系数达到最大所有子集回归 准则2 赤池信息量AIC达到最小 AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则 (Akaike Information Criterion,简记为AIC)。AIC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。所有子集回归 准则2 赤池信息量AIC达到最小 设回
4、归模型的似然函数为L(,x), 的维数为p,x为样本,在回归分析中样本为y=(y1,y2,yn),则AIC定义为:所有子集回归 准则2 赤池信息量AIC达到最小 假定回归模型的随机误差项遵从正态分布,即 N(0,2)对数似然函数为所有子集回归 准则2 赤池信息量AIC达到最小 带入公式中 这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为AIC=nln(SSE)+2p 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型所有子集回归 准则4 Cp统计量达到最小 1964年马勒斯 (Colon Lingwood Mallows)从预测的角度提
5、出一个可以用来选择自变量的统计量Cp统计量。即使全模型正确,但仍有可能选模型有更小的预测误差。Cp正是根据这一原理提出来的。所有子集回归 准则4 Cp统计量尽可能小,并且越接近p+1为最优 考虑在n个样本点上,用选模型(2)式作回报预测时,预测值与期望值的相对偏差平方和为:所有子集回归 可以证明,Jp的期望值是略去无关的常数2,据此构造出Cp统计量为准则4 Cp统计量尽可能小,并且越接近p+1为最优 所有子集回归 准则4 Cp统计量尽可能小,并且越接近p+1为最优 Cp 图 所有子集回归 例1 y表示某种消费品的销售额,x1表示居民可支配收入,x2表示该类消费品的价格指数,x3表示其他消费品平
6、均价格指数。表1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。所有子集回归 序号x1(元)x2(%)x3(%)(百万元)181.285.087.07.8282.992.094.08.4383.291.595.08.7485.992.995.59.0588.093.096.09.6699.996.097.010.37102.095.097.510.68105.395.697.010.99117.798.998.011.310126.4101.5101.212.311131.2102.0102.513.512148.0105.0104.014.213153.0106
7、.0105.914.914161.0109.0109.515.915170.0112.0111.018.516174.0112.5112.019.517185.0113.0112.319.918189.0114.0113.020.5表1所有子集回归 这个例子中,n=18,m=3,所有的自变量子集有2m-1=7个,即有7个回归子集。自变量子集R2AICCpx10.97280.971140.064.134x20.95660.953948.4816.151x30.95080.947750.7420.452x1,x20.97470.971440.764.734x1,x30.97840.975537.9
8、32.005x2,x30.95760.951950.0917.461x1,x2,x30.98110.977137.522.000所有子集回归 由表的3项指标均可看到x1, x2, x3是“次优”子集,x1, x3是“最优”子集。回归方程分别为逐步回归 一、问题的提出及逐步回归的思想 自变量的所有可能子集构成2m-1个回归方程,当可供选择的自变量不太多时,用前边的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,人们提出了一些较为简便、实用、快速的选择“最优”方程的方法。人们所给出的方法各有优缺点,至今还
9、没有绝对最优的方法,目前常用的方法有“前进法”、“后退法”、“逐步回归法”,而逐步回归法最受推崇。逐步回归 一、问题的提出及逐步回归的思想 在后边的讨论中,无论我们从回归方程中剔除某个自变量,还是给回归方程增加某个自变量都要利用偏F检验,这个偏F检验与的t检验是等价的,F检验的定义式的统计意义更为明了,并且容易推广到对多个自变量的显著性检验,因而采用F检验。逐步回归 一、前进法 逐步回归 一、问题的提出及逐步回归的思想逐步回归 一、问题的提出及逐步回归的思想 依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于F(1,n-p-1)时为止。这时,得到的回归方程就是最终确定的方程。 每步
10、检验中的临界值F(1,n-p-1)与自变量数目p有关,在用软件计算时,我们实际使用的是显著性P值(或记为sig)做检验。香港恒生指数 一、逐步回归实例分析 例2 为了研究香港股市的变化规律,此例以恒生指数为例,建立回归方程,分析影响股票价格趋势变动的因素。这里我们选了6个影响股票价格指数的经济变量: x1(百万$) 成交额, x2九九金价($/两), x3港汇指数, x4人均生产总值(现价$), x5建筑业总开支(现价百万$), x6房地产买卖金额(百万$), x7优惠利率(最低%)。 y为恒生指数。 逐步回归 年份yx1x2x3x4x5x6x71974172.911246681105.910
11、18341101124291975352.9410335791107.4104143996126936.51976447.6713156607114.41313446891668161977404.026127714110.8150336876221314.751978409.512741991199.4173898636313534.751979619.7125633123191.42171512339435289.519801121.1795684276090.82707516623707521019811506.94105987265186.33182719937125989161982
12、1105.79462302105125.335393247879946810.51983933.03371653030107.438823251128247810.519841008.54487872810106.64607924414549368.519851567.56758082649115.7478712297087135619861960.061231283031110.154372244031298846.519872884.883714063644105.86560230531153044519882556.721985693690101.674917378612150335.2
13、5逐步回归 YX1X2X3X4X5X6X7Y1.00000.91710.8841-0.04250.93820.87860.9372-0.0955X10.91711.00000.7375-0.12930.78420.69730.7817-0.1732X20.88410.73751.0000-0.10830.91950.94770.87470.1517X3-0.0425-0.1293-0.10831.00000.07250.0469-0.0952-0.4164X40.93820.78420.91950.07251.00000.96010.9137-0.1409X50.87860.69730.947
14、70.04690.96011.00000.91670.0666X60.93720.78170.8747-0.09520.91370.91671.00000.0617X7-0.0955-0.17320.1517-0.4164-0.14090.06660.06171.0000逐步回归 逐步回归 逐步回归 例(数据文件为eg2.1)33主编:费宇表 抽样调查得到的36个人的数据资料2022/7/18yx1x2x3x4x5yx1x2x3x4x579220 14010 9811515女71120 11460 83758女79670 13260 98268男91520 22260 81316男186320
15、 81240 9619919男76220 12510 81012女161945 46260 9612019男74420 12510 811312女68420 11460 857212女121320 23010 651916男75320 14010 855915女77570 17010 646912男模型的参数估计和检验34#打开数据文件eg2.1.xls,选取A1:F37区域,然后复制data2.1-read.table(clipboard,header=T) #将eg2.1.xls数据读入到data2.1中lm.salary|t|) (Intercept) 48386.0620 11237.
16、2882 4.306 0.000155 *x1 1.6831 0.1302 12.929 5.01e-14 *x2 -34.5520 130.2602 -0.265 0.792570 x3 -13.0004 13.7882 -0.943 0.353043 x4 808.3223 547.8017 1.476 0.150144 例 (数据文件为eg2.1)2022/7/1836回归分析结果为-Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 7858 on 31 degrees of freedomMu
17、ltiple R-squared: 0.919, Adjusted R-squared: 0.9086 F-statistic: 87.95 on 4 and 31 DF, p-value: 2.2e-16例 (数据文件为eg2.1)2022/7/18回归方程的F值为87.95,相应的p值为2.210-16,说明回归方程是显著的;但t检验对应的p值则显示:常数项和x1是显著的,而x2、x3和x4不显著.#假设eg2.1.xls中的数据已经读入到data2.1中,lm.salary-lm(yx1+x2+x3+x4,data=data2.1) #建立全变量回归方程lm.step-step(lm.s
18、alary,direction=both) #用“一切子集回归法”来进行逐步回归 direction是确定逐步搜索的方向:both是“一切子集回归法”, forward是“向前法”,backward是“向后法”,默认值是both.所以这个回归过程可以简写为lm.step-step(lm.salary)2022/7/18逐步回归程序Start: AIC=650.41y x1 + x2 + x3 + x4 Df Sum of Sq RSS AIC- x2 1 4.3448e+06 1.9186e+09 648.49- x3 1 5.4896e+07 1.9692e+09 649.43 1.9143
19、e+09 650.41- x4 1 1.3445e+08 2.0487e+09 650.85- x1 1 1.0323e+10 1.2237e+10 715.19Step: AIC=648.49y x1 + x3 + x4 Df Sum of Sq RSS AIC- x3 1 6.2078e+07 1.9807e+09 647.64变量选择回归结果 1.9186e+09 648.49- x4 1 1.3011e+08 2.0487e+09 648.85+ x2 1 4.3448e+06 1.9143e+09 650.41- x1 1 1.0341e+10 1.2259e+10 713.26St
20、ep: AIC=647.64y x1 + x4 Df Sum of Sq RSS AIC 1.9807e+09 647.64+ x3 1 6.2078e+07 1.9186e+09 648.49+ x2 1 1.1527e+07 1.9692e+09 649.43- x4 1 2.9640e+08 2.2771e+09 650.66- x1 1 1.1654e+10 1.3635e+10 715.092.2 变量选择Call:lm(formula = y x1 + x4, data = data2.1)Residuals: Min 1Q Median 3Q Max -13632 -4759 -
21、615 1761 25076 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) 42097.165 5265.218 7.995 3.18e-09 *x1 1.631 0.117 13.934 2.22e-15 *x4 1039.260 467.671 2.222 0.0332 * -Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 7747 on 33 degrees of freedomMultiple R-squared:
22、 0.9162, Adjusted R-squared: 0.9111 F-statistic: 180.4 on 2 and 33 DF, p-value: 2.2e-16回归模型汇总信息:summary(lm.step)#假设已经得到逐步回归模型lm.steplm.step_new-update(lm.step,log(.).) #对模型进行对数变换y.rst-rstandard(lm.step_new) #计算新回归模型lm.step_new的标准化残差y.fit-predict(lm.step_new) #计算回归模型lm.step_new的预测值plot(y.rst y.fit) #
23、绘制以标准化残差为纵坐标,预测值为横坐标的残差散点图采用对数变换来解决方差非齐问题对数变换后:只有第35号是异常点2022/7/1843图2.2 例2.3中的标准化残差图lm.salary-lm(log(y)x1+x2+x3+x4,data= data2.1-c(4,35),) #去掉第4号和35号观测值再建立全变量回归方程lm.step-step(lm.salary,direction=both) #用“一切子集回归法”来进行逐步回归y.rst-rstandard(lm.step) #计算回归模型lm.step的学生化残差y.fit-predict(lm.step) #计算回归模型lm.step的预测值plot(y.rst y.fit) #绘制以学生化残差为纵坐标,预测值为横坐标的残差散点图去掉4和35号观测值再回归2022/7/1844第3,4和35号观测值可能是异常点和强影响点.Influence measures of lm(formula = log(y) x1 + x4, data = data2.1) : dfb.1_ dfb.x1 dfb.x4 dffit cov.r cook.d hat inf1 0.027388 0.05593 -0.057229 -0.08411 1.161 2.42e-03 0.06462 0.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位橱柜采购合同范例
- 劳务派遣合同范例合同解除
- 原料售出合同范例
- 买车车位合同范例
- 叉车包合同范例
- 劳动纠纷解除合同范例
- 一承包农田合同范例
- 医院被服采购合同范例
- 供沙子水泥合同范例
- 印刷公司购销合同范例
- 学生心理危机识别与干预(家长教师版)
- GB/T 31914-2015电子文件管理系统建设指南
- 广西建设工程质量检测和建筑材料试验收费项目及标准指导性意见(新)2023.10.11
- 象征手法 (2)课件
- 《过零丁洋》公开课件
- 黄精栽培技术PPT
- 广州市三年级下册英语单词
- 08S305-小型潜水泵选用及安装图集
- 《专利纠纷与处理》PPT课件
- 农业技术推广知识课程教学大纲
- 员工技能等级评定方案汇编
评论
0/150
提交评论