




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、线性回归变量的筛选1多重回归程序模式DATA A;input X1-X4 Y ;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5 10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.2 114 7.4 8 21 3.7 113 11
2、.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4;RUN;2多重回归 The SAS System 14:40 Friday, April 30, 2008 1 The REG Procedure CorrelationVariable X1 X2 X3 X4 YX1 1.0000 -0.1357 0.5007 -0.0939 0.8973X2 -0.1357 1.0000 -0.1489 0.1234 0.0462X3 0.5007 -0.1489 1.0000 -0.0358 0.6890X4 -0.0939 0.1234 -0.0358 1
3、.0000 -0.0065Y 0.8973 0.0462 0.6890 -0.0065 1.0000 The SAS System 14:40 Friday, April 30, 2008 2 The REG Procedure Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 4 221.47175 55.36794 30.06 |t| Intercept 1 -51.90207 13.35182 -3.89 0.00
4、30 X1 1 2.02618 0.27204 7.45 .0001 X2 1 0.65400 0.30270 2.16 0.0561 X3 1 7.79694 2.33281 3.34 0.0075 X4 1 0.04970 0.08300 0.60 0.56264 逐步回归的思想是变数被逐个引入到模型中,而且对引入的变数,其F统计量必须是在选择的水平上显著的。引入一个变数之后,逐步法还要测验所有已经包含在模型中的变数,并删除在选择的水平上不显著的一切变数。仅当经过测验并把所有不显著的变数删除后,再考虑是否引入新变数。当在模型外的所有变数在选择的水平上都不显著,而且在模型内的任一个变数的F统
5、计量在选择的水平上都是显著时,逐步回归过程才停止。此外,若刚被删除的变数又被引入时,逐步过程也停止。 SLENTRY值(简记为SLE值)是逐步回归方法规定选入这个模型里的显著性水平。当缺省时,其值为0.15。 第一节 逐步回归5逐步回归SAS过程 语法格式Proc reg(或GLM) DATA=选项;MODEL 响应变量名=自变量名列/SELECTION=F或B或S;VAR 变量名列;FREQ 变量名列;WEGHT 变量名列;BY 变量名列;OUTPUT ;PLOT /选项;6变量筛选语法选项 (MODEL语句选项)SELECTION=method,规定变量筛选的方法,method可以是以下几
6、种选项FORWARD(或F),前进法,按照SLE规定的P值从无到有依次选一个变量进入模型 BACKWARD(或B),后退法,按照SLS规定的P值从含有全部变量的模型开始,依次剔除一个变量 STEPWISE(或S),逐步法,按照SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准剔除不显著的变量 NONE,即不选择任何选项,不作任何变量筛选,此时使用的是含有全部自变量的全回归模型7变量筛选MODEL语句选项SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是
7、0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件指数,来判断自变量之间有无多重共线性。 8变量筛选MODEL语句选项SLE=概率值,入选标准,规定变量入选模型的显著性水平,前进法的默认是0.5,逐步法是0.15 SLS=概率值,剔除标准,指定变量保留在模型的显著水平,后退法默认为0.10,逐步法是0.15 标准化偏回归系数 STB 可用来比较各个自变量作用的大小 COLLIN 要求详细分析自变量之间的共线性,给出信息矩阵的特征根和条件指数,来判断自变量之间有无多重共线性。 9逐步(前进,后退)法回归程序
8、模式 data b;input id y x1 x2 x3 x4; cards;proc reg data=b;model y=x1 x2 x3 x4 /stb;model y=x1 x2 x3 x4 / selection= FORWARD stb;model y=x1 x2 x3 X4 / selection= BACKWARD stb;model y=x1 x2 x3 x4 / selection=stepwise stb;run;10前进,后退法回归程序模式DATA A;input X1-X4 Y ;cards;10 23 3.6 113 15.7 9 20 3.6 106 14.5
9、10 22 3.7 111 17.5 13 21 3.7 109 22.5 10 22 3.6 110 15.5 10 23 3.5 103 16.9 8 23 3.3 100 8.6 10 24 3.4 114 17.0 10 20 3.4 104 13.710 21 3.4 110 13.4 10 23 3.9 104 20.3 8 21 3.5 109 10.26 23 3.2 114 7.4 8 21 3.7 113 11.6 9 22 3.6 105 12.3;PROC REG CORR;MODEL Y=X1-X4/SELECTION=FORWARD SLE=0.05 STB;RUN
10、;11 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 1 193.15219 193.15219 53.73 F Intercept -8.06429 3.11354 24.11809 6.71 0.0224 X1 2.39762 0.32711 193.15219 53.73 F Model 2 211.54256 105.77128 44.78 F Intercept -30.01290 8.26129 31.17756 13.20 0.0034 X1 1.96965 0.30632
11、 97.66880 41.35 F Model 3 220.81143 73.60381 42.44 F Intercept -46.96636 10.19262 36.82480 21.23 0.0008 X1 2.01314 0.26314 101.50782 58.53 F 1 X1 1 0.8052 0.8052 14.3764 53.73 F Model 3 220.81143 73.60381 42.44 |t| Estimate Intercept 1 -46.96636 10.19262 -4.61 0.0008 0 X1 1 2.01314 0.26314 7.65 F Mo
12、del 4 221.47175 55.36794 30.06 F Intercept -51.90207 13.35182 27.83051 15.11 0.0030 X1 2.02618 0.27204 102.16813 55.47 F Model 3 220.81143 73.60381 42.44 F Intercept -46.96636 10.19262 36.82480 21.23 0.0008 X1 2.01314 0.26314 101.50782 58.53 F 1 X4 3 0.0028 0.9205 3.3585 0.36 0.5626 The SAS System 1
13、4:40 Friday, April 30, 2008 14 The REG Procedure Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 3 220.81143 73.60381 42.44 |t| Estimate Intercept 1 -46.96636 10.19262 -4.61 0.0008 0 X1 1 2.01314 0.26314 7.65 F Model 1 193.15219 193.15
14、219 53.73 F Intercept -8.06429 3.11354 24.11809 6.71 0.0224 X1 2.39762 0.32711 193.15219 53.73 F Model 2 211.54256 105.77128 44.78 F Intercept -30.01290 8.26129 31.17756 13.20 0.0034 X1 1.96965 0.30632 97.66880 41.35 F Model 3 220.81143 73.60381 42.44 F Intercept -46.96636 10.19262 36.82480 21.23 0.
15、0008 X1 2.01314 0.26314 101.50782 58.53 F Model 3 220.81143 73.60381 42.44 |t| Estimate Intercept 1 -46.96636 10.19262 -4.61 0.0008 0 X1 1 2.01314 0.26314 7.65 |t| Tolerance Inflation (容限) (方差膨胀因子) x1 1 -0.05194 0.07034 -0.74 0.4842 0.00535 186.74170 x2 1 0.58666 0.09459 6.20 0.0004 0.98068 1.01970
16、x3 1 0.28768 0.10234 2.81 0.0261 0.00535 186.85657Collinearity DiagnosticsNumber Eigenvalue Index Intercept x1 x2 x3 特征值 条件指数2 0.14838 5.08607 0.00530 0.00007017 0.93769 0.000061663 0.01318 17.06863 0.76950 0.00150 0.03308 0.001064 0.00005428 265.92678 0.22422 0.99843 0.01831 0.998871 3.83839 1.0000
17、0 0.00098088 0.00000757 0.01092 0.00000696Condition -Proportion of Variation-(方差比例) Intercept 1 -10.13740 1.21480 -8.34 0.5的变量构成相关变量集合tol1=1-R1.0表明X1与其他变量有很强的相关性47data fitness;input x1 x2 x3 y ;datalines; 149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 1
18、32.1 18.8 190.7 2.2 137.7 20.4 202.1 2.1 146.0 22.7 212.4 5.6 154.1 26.5 226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3;proc reg data=fitness outest=est;model y= x1 x2 x3/ selection=rsquare mse jp gmsep cp aic bic sbc b best=2; 因子选择proc print data=est;run;第三节 从全子集筛选最优子集回归法48Number in
19、 Estimated MSE Model R-Square C(p) AIC BIC of Prediction J(p) MSE(因子个数)(决定系数)(CP统计量) (AIC BIC信息准则) (均方误差) 1 0.9445 40.9850 4.4430 2.1718 1.5616 1.5038 1.27245 1 0.9317 52.1069 6.7360 4.1556 1.9236 1.8524 1.56737 - 2 0.9913 2.5454 -13.9065 -9.5787 0.3157 0.2865 0.22510 2 0.9828 9.9016 -6.4206 -6.1287
20、 0.6235 0.5658 0.44455 - 3 0.9919 4.0000 -12.7318 -6.8134 0.3905 0.3254 0.23866模型选择比较与估计信息 Number in -Parameter Estimates- Model R-Square SBC Intercept x1 x2 x3 1 0.9445 5.23879 -8.01325 . . 0.21400 1 0.9317 7.53184 -6.54108 0.14612 . . - 2 0.9913 -12.71284 -9.74274 . 0.59605 0.21230 2 0.9828 -5.226
21、93 -8.42607 0.14524 0.62299 . - 3 0.9919 -11.14019 -10.13740 -0.05194 0.58666 0.2876849模型信息_TYPE_PARMS:最小二乘法回归模型_DEPVAR_因变量名字_RMSE_均方根误差估计Intercept x1 x2 x3 对应的各种估计_IN_-不含截距回归估计量参数个数_P_-含截距回归估计量参数个数Y=-1-作为回归估计的参数为1Obs _MODEL_ _TYPE_ _DEPVAR_ _RMSE_ Intercept x1 x2 x3 y _IN_ _P_ 1 MODEL1 PARMS y 1.12
22、803 -8.0132 . . 0.21400 -1 1 22 MODEL1 PARMS y 1.25195 -6.5411 0.14612 . . -1 1 23 MODEL1 PARMS y 0.47444 -9.7427 . 0.59605 0.21230 -1 2 34 MODEL1 PARMS y 0.66675 -8.4261 0.14524 0.62299 . -1 2 3MODEL1 PARMS y 0.48853 -10.1374 -0.05194 0.58666 0.28768 -1 3 4Obs _EDF_ _MSE_ _RSQ_ _CP_ _JP_ _GMSEP_ _A
23、IC_ _BIC_ _SBC_ 1 9 1.27245 0.94453 40.9850 1.50380 1.56164 4.4430 2.17180 5.2388 2 9 1.56737 0.93167 52.1069 1.85235 1.92360 6.7360 4.15560 7.5318 3 8 0.22510 0.99128 2.5454 0.28649 0.31572 -13.9065 -9.57868 -12.7128 4 8 0.44455 0.98277 9.9016 0.56579 0.62352 -6.4206 -6.12867 -5.2269 5 7 0.23866 0.
24、99191 4.0000 0.32544 0.39053 -12.7318 -6.81341 -11.140250/* 岭回归 RIDGE leverage plots */proc reg data=fitness OUTEST=RIDGE1; model y= x1 x2 x3 /outstb outvif RIDGE=0.0 to 0.1 by 0.01 0.2 0.3; plot/ridgeplot; OUTPUT;run;PROC PRINT DATA=RIDGE1;RUN;51第四节病态回归的改进岭回归 LS估计 岭回归 岭回归的方法主要是在病态的S中沿主对角线人为加进正数,使其特
25、征值大一些,接近0的程度小一些。它仍为系数的线性估计(K为常数),且对LP估计有所改善,具体的说,是希望找到某个K0,使系数估计值的均方误差小,但具体操作时K与方程的方差有关,较难做到均方误差小。52岭迹分析与岭参数选择 当K趋于0时,岭迹反应系数当不稳定性,当K增大,会使岭迹趋于稳定,一般可选取进入稳定最小的K作为岭参数。岭估计是K的函数它与所有的K值构成一条曲线,称岭迹 岭参数确定的办法不唯一,常常以其估计的均方误差增加不大且方差的膨胀系数小作为选取原则。53 第二节病态回归的改进根据岭迹图选择k值的原则(1)回归系数的岭估计基本稳定(2)改变最小二乘估计回归系数的符号不合理现象(3)回归
26、系数不出现不合理的绝对值(4)残差平方和增加不大54 岭回归的SAS过程 已知某国每年的进口总额为Y,国内总产值为X1,存储量为X2,总消费量为X3分析进口总额为Y与其它三个自变量间的关系。表1 外贸数据 年 份国内总产值x1存 储 量x2总消费量x3进口总额y1949149.94.2108.115.91950161.24.1114.816.41951171.53.1123.219.01952175.53.1126.919.11953180.81.1132.118.81954190.72.2137.720.41955202.12.1146.022.71956212.45.6154.126.51957226.15.0162.328.11958231.95.1164.327.61959239.00.7167.626.355SAS程序 data fitness;input x1 x2 x3 y ;CARDS; 149.2 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4 202.1 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 16840-13:2021/Amd 1:2025 EN Wheelchair seating - Part 13: Determination of the lateral stability property of a seat cushion - Amendment 1
- 储气瓶施工方案
- 桥加宽施工方案
- 河道防水混凝土施工方案
- 新房硬装施工方案
- TSHJNXH 0015-2024 绿色低碳压缩空气站评价导则
- 2025年度模具开模与模具租赁服务合同模板
- 二零二五年度文化演出居间代理协议
- 二零二五年度奶制品企业社会责任履行协议
- 二零二五年度足浴养生品牌授权及经营管理权转让合同
- 第四单元《纸的前世今生》第一课时(说课稿)-2023-2024学年五年级下册综合实践活动粤教版
- 四川省绵阳市2025届高三第二次诊断性考试英语试题(含答案无听力原文及音频)
- 医学实验室风险评估报告-临床实验室风险评估-可复制
- 2022年教资笔试科目三高中数学讲义
- 八大员-劳务员模考试题与答案
- 2024危重症患儿管饲喂养护理-中华护理学会团体标准课件
- 《《中央企业合规管理办法》解读》课件
- 脱硫自动化控制-洞察分析
- 医务人员医德医风培训
- 人教版初中历史八上-第2课 第二次鸦片战争
- 2025年中考语文专题复习:写作技巧 课件
评论
0/150
提交评论