版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、线性回归变量的筛选1多重回归程序模式DATA A;input X1-X4 Y ;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.2 114 7.4 8 21 3.7 113 11
2、.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4;RUN;2多重回归 The SAS System 14:40 Friday, April 30, 2008 1 The REG Procedure CorrelationVariable X1 X2 X3 X4 YX1 1.0000 -0.1357 0.5007 -0.0939 0.8973X2 -0.1357 1.0000 -0.1489 0.1234 0.0462X3 0.5007 -0.1489 1.0000 -0.0358 0.6890X4 -0.0939 0.1234 -0.0358 1
3、.0000 -0.0065Y 0.8973 0.0462 0.6890 -0.0065 1.0000 The SAS System 14:40 Friday, April 30, 2008 2 The REG Procedure Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 4 221.47175 55.36794 30.06 |t| Intercept 1 -51.90207 13.35182 -3.89 0.00
4、30 X1 1 2.02618 0.27204 7.45 .0001 X2 1 0.65400 0.30270 2.16 0.0561 X3 1 7.79694 2.33281 3.34 0.0075 X4 1 0.04970 0.08300 0.60 0.56264 逐步回归的思想是变数被逐个引入到模型中,而且对引入的变数,其F统计量必须是在选择的水平上显著的。引入一个变数之后,逐步法还要测验所有已经包含在模型中的变数,并删除在选择的水平上不显著的一切变数。仅当经过测验并把所有不显著的变数删除后,再考虑是否引入新变数。当在模型外的所有变数在选择的水平上都不显著,而且在模型内的任一个变数的F统
5、计量在选择的水平上都是显著时,逐步回归过程才停止。此外,若刚被删除的变数又被引入时,逐步过程也停止。 SLENTRY值(简记为SLE值)是逐步回归方法规定选入这个模型里的显著性水平。当缺省时,其值为0.15。 第一节 逐步回归5逐步回归SAS过程 语法格式Proc reg(或GLM) DATA=选项;MODEL 响应变量名=自变量名列/SELECTION=F或B或S;VAR 变量名列;FREQ 变量名列;WEGHT 变量名列;BY 变量名列;OUTPUT ;PLOT /选项;6变量筛选语法选项 (MODEL语句选项)SELECTION=method,规定变量筛选的方法,method可以是以下几
6、种选项FORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型 BACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量 STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量 NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型7变量筛选MODEL语句选项SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是
7、0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件指数,来判断自变量之间有无多重共线性。 8变量筛选MODEL语句选项SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件指数,来判断自变量之间有无多重共线性。 9逐步(前进,后退)法回归程序
8、模式 data b;input id y x1 x2 x3 x4; cards;proc reg data=b;model y=x1 x2 x3 x4 /stb;model y=x1 x2 x3 x4 / selection= FORWARD stb;model y=x1 x2 x3 X4 / selection= BACKWARD stb;model y=x1 x2 x3 x4 / selection=stepwise stb;run;10前进,后退法回归程序模式DATA A;input X1-X4 Y ;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5
9、10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4/SELECTION=FORWARD SLE=0.05 STB;RUN
10、;11 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 1 193.15219 193.15219 53.73 F Intercept -8.06429 3.11354 24.11809 6.71 0.0224 X1 2.39762 0.32711 193.15219 53.73 F Model 2 211.54256 105.77128 44.78 F Intercept -30.01290 8.26129 31.17756 13.20 0.0034 X1 1.96965 0.30632
11、 97.66880 41.35 F Model 3 220.81143 73.60381 42.44 F Intercept -46.96636 10.19262 36.82480 21.23 0.0008 X1 2.01314 0.26314 101.50782 58.53 F 1 X1 1 0.8052 0.8052 14.3764 53.73 F Model 3 220.81143 73.60381 42.44 |t| Estimate Intercept 1 -46.96636 10.19262 -4.61 0.0008 0 X1 1 2.01314 0.26314 7.65 F Mo
12、del 4 221.47175 55.36794 30.06 F Intercept -51.90207 13.35182 27.83051 15.11 0.0030 X1 2.02618 0.27204 102.16813 55.47 F Model 3 220.81143 73.60381 42.44 F Intercept -46.96636 10.19262 36.82480 21.23 0.0008 X1 2.01314 0.26314 101.50782 58.53 F 1 X4 3 0.0028 0.9205 3.3585 0.36 0.5626 The SAS System 1
13、4:40 Friday, April 30, 2008 14 The REG Procedure Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 220.81143 73.60381 42.44 |t| Estimate Intercept 1 -46.96636 10.19262 -4.61 0.0008 0 X1 1 2.01314 0.26314 7.65 F Model 1 193.15219 193.15
14、219 53.73 F Intercept -8.06429 3.11354 24.11809 6.71 0.0224 X1 2.39762 0.32711 193.15219 53.73 F Model 2 211.54256 105.77128 44.78 F Intercept -30.01290 8.26129 31.17756 13.20 0.0034 X1 1.96965 0.30632 97.66880 41.35 F Model 3 220.81143 73.60381 42.44 F Intercept -46.96636 10.19262 36.82480 21.23 0.
15、0008 X1 2.01314 0.26314 101.50782 58.53 F Model 3 220.81143 73.60381 42.44 |t| Estimate Intercept 1 -46.96636 10.19262 -4.61 0.0008 0 X1 1 2.01314 0.26314 7.65 |t| Tolerance Inflation (容限) (方差膨胀因子) x1 1 -0.05194 0.07034 -0.74 0.4842 0.00535 186.74170 x2 1 0.58666 0.09459 6.20 0.0004 0.98068 1.01970
16、x3 1 0.28768 0.10234 2.81 0.0261 0.00535 186.85657Collinearity DiagnosticsNumber Eigenvalue Index Intercept x1 x2 x3 特征值 条件指数2 0.14838 5.08607 0.00530 0.00007017 0.93769 0.000061663 0.01318 17.06863 0.76950 0.00150 0.03308 0.001064 0.00005428 265.92678 0.22422 0.99843 0.01831 0.998871 3.83839 1.0000
17、0 0.00098088 0.00000757 0.01092 0.00000696Condition -Proportion of Variation-(方差比例) Intercept 1 -10.13740 1.21480 -8.34 0.5的变量构成相关变量集合tol1=1-R1.0表明X1与其他变量有很强的相关性47data fitness;input x1 x2 x3 y ;datalines; 149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 1
18、32.1 18.8 190.7 2.2 137.7 20.4 202.1 2.1 146.0 22.7 212.4 5.6 154.1 26.5 226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3;proc reg data=fitness outest=est;model y= x1 x2 x3/ selection=rsquare mse jp gmsep cp aic bic sbc b best=2; 因子选择proc print data=est;run;第三节 从全子集筛选最优子集回归法48Number in
19、 Estimated MSE Model R-Square C(p) AIC BIC of Prediction J(p) MSE(因子个数)(决定系数)(CP统计量) (AIC BIC信息准则) (均方误差) 1 0.9445 40.9850 4.4430 2.1718 1.5616 1.5038 1.27245 1 0.9317 52.1069 6.7360 4.1556 1.9236 1.8524 1.56737 - 2 0.9913 2.5454 -13.9065 -9.5787 0.3157 0.2865 0.22510 2 0.9828 9.9016 -6.4206 -6.1287
20、 0.6235 0.5658 0.44455 - 3 0.9919 4.0000 -12.7318 -6.8134 0.3905 0.3254 0.23866模型选择比较与估计信息 Number in -Parameter Estimates- Model R-Square SBC Intercept x1 x2 x3 1 0.9445 5.23879 -8.01325 . . 0.21400 1 0.9317 7.53184 -6.54108 0.14612 . . - 2 0.9913 -12.71284 -9.74274 . 0.59605 0.21230 2 0.9828 -5.226
21、93 -8.42607 0.14524 0.62299 . - 3 0.9919 -11.14019 -10.13740 -0.05194 0.58666 0.2876849模型信息_TYPE_PARMS:最小二乘法回归模型_DEPVAR_因变量名字_RMSE_均方根误差估计Intercept x1 x2 x3 对应的各种估计_IN_-不含截距回归估计量参数个数_P_-含截距回归估计量参数个数Y=-1-作为回归估计的参数为1Obs _MODEL_ _TYPE_ _DEPVAR_ _RMSE_ Intercept x1 x2 x3 y _IN_ _P_ 1 MODEL1 PARMS y 1.12
22、803 -8.0132 . . 0.21400 -1 1 22 MODEL1 PARMS y 1.25195 -6.5411 0.14612 . . -1 1 23 MODEL1 PARMS y 0.47444 -9.7427 . 0.59605 0.21230 -1 2 34 MODEL1 PARMS y 0.66675 -8.4261 0.14524 0.62299 . -1 2 3MODEL1 PARMS y 0.48853 -10.1374 -0.05194 0.58666 0.28768 -1 3 4Obs _EDF_ _MSE_ _RSQ_ _CP_ _JP_ _GMSEP_ _A
23、IC_ _BIC_ _SBC_ 1 9 1.27245 0.94453 40.9850 1.50380 1.56164 4.4430 2.17180 5.2388 2 9 1.56737 0.93167 52.1069 1.85235 1.92360 6.7360 4.15560 7.5318 3 8 0.22510 0.99128 2.5454 0.28649 0.31572 -13.9065 -9.57868 -12.7128 4 8 0.44455 0.98277 9.9016 0.56579 0.62352 -6.4206 -6.12867 -5.2269 5 7 0.23866 0.
24、99191 4.0000 0.32544 0.39053 -12.7318 -6.81341 -11.140250/* 岭回归 RIDGE leverage plots */proc reg data=fitness OUTEST=RIDGE1; model y= x1 x2 x3 /outstb outvif RIDGE=0.0 to 0.1 by 0.01 0.2 0.3; plot/ridgeplot; OUTPUT;run;PROC PRINT DATA=RIDGE1;RUN;51第四节病态回归的改进岭回归 LS估计 岭回归 岭回归的方法主要是在病态的S中沿主对角线人为加进正数,使其特
25、征值大一些,接近0的程度小一些。它仍为系数的线性估计(K为常数),且对LP估计有所改善,具体的说,是希望找到某个K0,使系数估计值的均方误差小,但具体操作时K与方程的方差有关,较难做到均方误差小。52岭迹分析与岭参数选择 当K趋于0时,岭迹反应系数当不稳定性,当K增大,会使岭迹趋于稳定,一般可选取进入稳定最小的K作为岭参数。岭估计是K的函数它与所有的K值构成一条曲线,称岭迹 岭参数确定的办法不唯一,常常以其估计的均方误差增加不大且方差的膨胀系数小作为选取原则。53 第二节病态回归的改进根据岭迹图选择k值的原则(1)回归系数的岭估计基本稳定(2)改变最小二乘估计回归系数的符号不合理现象(3)回归
26、系数不出现不合理的绝对值(4)残差平方和增加不大54 岭回归的SAS过程 已知某国每年的进口总额为Y,国内总产值为X1,存储量为X2,总消费量为X3分析进口总额为Y与其它三个自变量间的关系。表1 外贸数据 年 份国内总产值x1存 储 量x2总消费量x3进口总额y1949149.94.2108.115.91950161.24.1114.816.41951171.53.1123.219.01952175.53.1126.919.11953180.81.1132.118.81954190.72.2137.720.41955202.12.1146.022.71956212.45.6154.126.51957226.15.0162.328.11958231.95.1164.327.61959239.00.7167.626.355SAS程序 data fitness;input x1 x2 x3 y ;CARDS; 149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4 202.1 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版城市基础设施建设委托合同范例大全3篇
- 2025年树林资源综合利用与循环经济承包合同范本3篇
- 2025年食堂食品安全风险评估承包合同3篇
- 2025年山东货运从业资格证500道题目及答案
- 2025版停薪留职合同模板:民营企业员工休整计划书3篇
- 二零二五年度城市绿化工程项目采购安装合同3篇
- 二零二五年度地质勘探临时驾驶员用工合同4篇
- 2025年度物流园区个人运输承包服务协议2篇
- 2025年度模板木方项目合作协议范本大全3篇
- 2025年度个人对个人个人应急借款合同模板4篇
- 土地买卖合同参考模板
- 新能源行业市场分析报告
- 2025年天津市政建设集团招聘笔试参考题库含答案解析
- 房地产运营管理:提升项目品质
- 自愿断绝父子关系协议书电子版
- 你划我猜游戏【共159张课件】
- 专升本英语阅读理解50篇
- 中餐烹饪技法大全
- 新型电力系统研究
- 滋补类用药的培训
- 北师大版高三数学选修4-6初等数论初步全册课件【完整版】
评论
0/150
提交评论