SAS讲义第四章回归与回归诊断_第1页
SAS讲义第四章回归与回归诊断_第2页
SAS讲义第四章回归与回归诊断_第3页
SAS讲义第四章回归与回归诊断_第4页
SAS讲义第四章回归与回归诊断_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 回归与回归诊断教学目标:回归分析是基于观测数据建立变量间的依赖关系,并可用于预报、控制等问题。不仅要熟练掌握线性回归模型的建模理论与方法,而且要能够利用回归分析的SAS过程解决有关实际应用问题。为学生将来从事科研和应用打下坚实的基础。重难点:各种回归模型的建模理论与方法,参数估计、模型与参数的检验;利用回归分析的SAS过程解决有关实际应用问题。第一节 多元线性回归一多元线性回归模型假设是一个可观测的随机变量,非随机因素和随机误差对有影响,并且它们之间具有线性关系 (1)其中是均值为零、方差为的误差项,它表示除了之外其它因素对的影响以及试验或测量误差,是未知参数.本章假定。该模型称为线性

2、回归模型,且称为因变量,为自变量。假定我们有了因变量和自变量的组独立的观测值,它们满足(1)式,即 (2)其中误差项相互独立,且服从分布。二参数估计方法最小二乘准则获得参数向量的估计的一个最重要方法是最小二乘法,该法是找的估计,使得偏差向量的长度之平方和达到最小,即其中。分别对的每一分量求偏导数,并令其为零,可以得到方程组它称为正规方程这个线性方程组有唯一解的充要条件是的秩为等价地,的秩为以后在线性回归模型的讨论中,我们总假定这个条件满足于是我们得到的最小二乘估计为根据微积分的极值理论,只是函数的一个驻点可以证明确实使达到最小记并将其代入(1),去掉误差项,得到回归方程在线性回归模型(1)中还

3、有一个重要参数,它是模型误差项的方差,因而有时简称为误差方差. 反映了模型误差以及观察误差的大小,在回归分析中起着重要作用.现在我们讨论的估计问题.误差向量是一个不可观测的随机向量,用最小二乘估计代替其中的,得到称为残差向量,其中为对称幂等矩阵。称数为残差平方和,它的大小反映了实际数据与理论模型(1)的偏离程度或者说拟合程度.可以证明为的无偏估计。三假设检验问题1. 回归方程的显著性检验和之间是否存在显著的线性关系,还需要对回归方程进行检验。(1)方差分析表方差来源自由度平方和均方比回归误差总和(2)线性回归关系的显著性检验检验假设:构造统计量。可以证明当为真时,。当不真时,又偏大的趋势。如观

4、测值,则接受;否则拒绝。(3)检验的值在SAS及其他一些数据分析软件中,对显著性检验问题,其输出结果通常是检验的值。在上述线性回归关系的显著性检验问题,其检验的值为,对于给定的显著水平,任何检验准则均为。2. 回归系数的显著性检验回归关系显著并不意味着每个自变量对因变量的影响都显著,可能其中的某个或某些对的影响不显著。希望从回归方程中剔除那些对的影响不显著得自变量,从而建立一个简单有效的回归方程,以便于实际应用。检验的影响是否显著等价于检验假设:由于的一个估计为。可以证明其中为的主对角线上的第个元素的平方根。由此得到检验准则为对上述统计量,其值为,于是若,则接受,反之就拒绝。四使用REG过程进

5、行多元线性回归计算PROC REG过程PROC REG过程是SAS系统中回归分析的一种,它可拟合线性回归模型,可提供多种选取最优模型的方法及模型诊断检查方法,其基本语句形式为:PROC REG options(数据集);Model dependent(因变量)=regressors(自变量)/options;Output Out=SAS data set keyword=name ;例 建立用电量KWH与空调每天使用的小时数AC和烘干器每天使用的次数DRYER的经验公式。解 data kilowatt;input kwh ac dryer;cards;35 1.5 163 4.5 266 5.

6、0 217 2.0 094 8.5 379 6.0 393 13.5 166 8.0 194 12.5 182 7.5 278 6.5 365 8.0 177 7.5 275 8.0 262 7.5 185 12.0 143 6.0 057 2.5 333 5.0 065 7.5 133 6.0 0;proc plot data=kilowatt;plot kwh*ac=*;run;proc reg data=kilowatt;model kwh=ac dryer;run;print cli; %计算的预测值和95%置信限run; Plot of kwh*ac. Symbol used is

7、*. kwh 95 * * 93 * 91 89 87 85 * 83 * 81 79 * * 77 * 75 * 73 71 69 67 * * 65 * * 63 * * 61 59 57 * 55 53 51 49 47 45 43 * 41 39 37 35 * 33 * * 31 29 27 25 23 21 19 17 * 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 ac Dependent Variable: kwh Analysis of Variance (方差分析) Source DF Sum of Squ

8、ares Mean Square F Value Pr F Model 2 9299.80154 4649.90077 300.24 |t值| Intercept 1 8.10539 2.48085 3.27 0.0043 ac 1 5.46590 0.28076 19.47 .0001 dryer 1 13.21660 0.85622 15.44 F Model 2 53845 26922 5679.47 |t| Intercept 1 3.45261 2.43065 1.42 0.1809 x1 1 0.49600 0.00605 81.92 .0001 x2 1 0.00920 0.00

9、096811 9.50 .0001分析:各参数的估计分别为;各参数估计可得标准差分别为;检验假设()的统计量的观测值分别为1.42、81.92、9.50,相应的检验值分别为0.1809、0.00010.05、0.0001 F Model 2 2285.64535 1142.82268 749.84 |t| Intercept 1 -17.66377 5.43598 -3.25 0.0038 speed 1 5.53776 0.64485 8.59 F Model 1 1831.89616 1831.89616 22.80 0.0006 Error 11 883.86692 80.35154 C

10、orrected Total 12 2715.76308 Variable Parameter Estimate Standard Error Type II SS F Value Pr F Intercept 117.56793 5.26221 40108 499.16 F Model 2 2641.00096 1320.50048 176.63 F Intercept 103.09738 2.12398 17615 2356.10 .0001 x1 1.43996 0.13842 809.10480 108.22 .0001 x4 -0.61395 0.04864 1190.92464 1

11、59.30 F Model 3 2667.79035 889.26345 166.83 F Intercept 71.64831 14.14239 136.81003 25.67 0.0007 x1 1.45194 0.11700 820.90740 154.01 F Model 2 2657.85859 1328.92930 229.50 F Intercept 52.57735 2.28617 3062.60416 528.91 .0001 x1 1.46831 0.12130 848.43186 146.52 .0001 x2 0.66225 0.04585 1207.78227 208

12、.58 F 1 x4 1 0.6745 0.6745 138.731 22.80 0.0006 2 x1 2 0.2979 0.9725 5.4959 108.22 |t| Intercept 1 -621.59755 64.80043 -9.59 .0001 x1 1 33.16383 7.01727 4.73 .0001 x2 1 4.27186 0.56338 7.58 .0001 x3 1 4.12574 0.51116 8.07 |t| Intercept 1 0.48874 0.05024 9.73 .0001 x1 1 0.06853 0.00544 12.60 .0001 x2

13、 1 0.00925 0.00043679 21.19 .0001 x3 1 0.00947 0.00039630 23.91 F x1 1.000000 0.1200 7.09 0.0103 x2 1.000000 0.3515 28.19 .0001 x3 1.000000 0.4424 41.25 .0001 x4 1.000000 0.5274 58.02 F Model 1 2.09508 2.09508 58.02 F Intercept 1.69639 0.07174 20.18819 559.10 .0001 x4 0.18575 0.02439 2.09508 58.02 F

14、 x1 0.747578 0.5278 0.05 0.8256 x2 0.863820 0.6496 17.79 0.0001 x3 0.826591 0.6865 25.89 F Intercept 1.38881 0.08447 6.60107 270.31 .0001 x3 0.00565 0.00111 0.63221 25.89 .0001 x4 0.13902 0.02206 0.96995 39.72 F Intercept 1.38881 0.08447 6.60107 270.31 .0001 x3 0.00565 0.00111 0.63221 25.89 .0001 x4

15、 0.13902 0.02206 0.96995 39.72 F x3 0.1591 0.5274 25.89 .0001 x4 0.2442 0.4424 39.72 F x1 0.591788 0.7192 5.82 0.0196 x2 0.825800 0.8829 83.83 F Intercept 0.94229 0.07140 1.62097 174.18 .0001 x2 0.00790 0.00086269 0.78014 83.83 .0001 x3 0.00700 0.00070135 0.92684 99.60 .0001 x4 0.08185 0.01498 0.277

16、80 29.85 F x2 0.1964 0.6865 83.83 .0001 x3 0.2333 0.6496 99.60 .0001 x4 0.0699 0.8129 29.85 F x1 0.555861 0.9724 158.65 FIntercept 0.48874 0.05024 0.21206 94.64 .0001x1 0.06853 0.00544 0.35550 158.65 .0001x2 0.00925 0.00043679 1.00587 448.90 .0001x3 0.00947 0.00039630 1.28071 571.55 F Intercept 0.48

17、362 0.04263 0.28280 128.68 .0001 x1 0.06923 0.00408 0.63322 288.13 .0001 x2 0.00929 0.00038255 1.29734 590.31 .0001 x3 0.00952 0.00030644 2.12247 965.76 F x1 0.1594 0.8129 288.13 .0001 x2 0.3266 0.6458 590.31 .0001 x3 0.5343 0.4381 965.76 F x4 0.391339 0.9724 0.04 0.8442 All variables left in the mo

18、del are significant at the 0.0500 level. No other variable met the 0.0500 significance level for entry into the model. Summary of Stepwise Selection Variable Variable Number Partial ModelStep Entered Removed Vars In R-Square R-Square C(p) F Value Pr F 1 x4 1 0.5274 0.5274 787.947 58.02 .0001 2 x3 2

19、0.1591 0.6865 507.807 25.89 .0001 3 x2 3 0.1964 0.8829 161.652 83.83 .0001 4 x1 4 0.0895 0.9724 5.0000 158.65 F,回归方程显著 Model 4 2667.89944 666.97486 111.48 |t|,所有自变量对因变量的影响均不显著 Variance Inflation方差膨胀因子VIF Intercept 1 62.40537 70.07096 0.89 0.3991 0 x1 1 1.55110 0.74477 2.08 0.0708 38.49621 x2 1 0.510

20、17 0.72379 0.70 0.5009 254.42317 x3 1 0.10191 0.75471 0.14 0.8959 46.86839 x4 1 -0.14406 0.70905 -0.20 0.8441 282.51286结果分析:4个自变量的方差膨胀因子VIF均大于10,表明变量之间存在共线性;由于,故所有自变量对因变量的影响均不显著;由于,故回归方程是显著的。 Collinearity Diagnostics (intercept adjusted) Condition -Proportion of Variation-Number Eigenvalue Index x1

21、x2 x3 x4 1 2.23570 1.00000 0.00263 0.00055897 0.00148 0.00047533 2 1.57607 1.19102 0.00427 0.00042729 0.00495 0.00045729 3 0.18661 3.46134 0.06352 0.00208 0.04650 0.000724404 0.00162 37.10634 0.92958 0.99693 0.94707 0.99834结果分析:最大的条件数37.130,说明4个自变量之间存在中等相关关系;与最大条件数在同一行的4个自变量的方差比例均大于0.5,这说明这4个变量就是一个具

22、有中等相关的变量集。proc reg data=D431;model y=x1-x4/selection=rsquare选择法 best=2对每种变量个数输出两个最优的回归子集 cp aic对每个选择的模型计算Akaike的信息准则。公式为 rmse adjrsq输出这些统计量的值;run;输出结果如下: R-Square Selection MethodNumber in Adjusted RootModel R-Square R-Square C(p) AIC MSE Variables in Model 1 0.6745 0.6450 138.7308 58.8516 8.96390 x

23、4 1 0.6663 0.6359 142.4864 59.1780 9.07713 x2 - 2 0.9787 0.9744 2.6782 25.4200 2.40634 x1 x2 2 0.9725 0.9670 5.4959 28.7417 2.73427 x1 x4- 3 0.9823 0.9764 3.0182 24.9739 2.30874 x1 x2 x4 3 0.9823 0.9764 3.0413 25.0112 2.31206 x1 x2 x3 - 4 0.9824 0.9736 5.0000 26.9443 2.44601 x1 x2 x3 x4二、岭回归方法参数的岭估计

24、为。参数的确定是岭回归分析中的关键问题。在实际应用中,通常有以下几种方法:岭迹法。选择使得各自变量的岭迹趋于稳定;方差膨胀因子法。选择使得岭回归估计的VIF |t| Inflation Intercept 1 -10.12799 1.21216 -8.36 .0001 0 x1 1 -0.05140 0.07028 -0.73 0.4883 185.99747方差膨胀因子VIF大于10 x2 1 0.58695 0.09462 6.20 0.0004 1.01891 x3 1 0.28685 0.10221 2.81 0.0263 186.11002方差膨胀因子VIF大于10 Collinea

25、rity Diagnostics Condition -Proportion of Variation-Number Eigenvalue Index Intercept x1 x2 x3 1 3.83840 1.00000 0.00098654 0.00000759 0.01092 0.00000698 2 0.14837 5.08625 0.00533 0.00007034 0.93849 0.00006193 3 0.01317 17.07319 0.77435 0.00150 0.03304 0.00107 4 0.00005447 265.46126条件数大于100,说明存在强相关性

26、 0.21933 0.99842 0.01755 0.99886(2)用岭估计来建立回归模型。proc reg data=D452 outest=O452 graphics outvif岭回归估计的方差膨胀因子送到输出集中;model y=x1-x3 / ridge=岭参数的取值0.0 to 0.1 by 0.01 0.2 0.3 0.4 0.5;plot /ridgeplot绘制岭迹图;run;proc print data=O452;run;部分输出结果如下:输出 岭迹图当时,岭迹曲线趋于稳定,因此取。输出 经济分析数据的输出数据集Obs MODEL TYPE DEPVAR RIDGE P

27、COMIT RMSE Intercept x1 x2 x3 y 1 MODEL1 PARMS 普通最小二乘 y . . 0.48887 -10.1280 -0.051 0.58695 0.287 -1 2 MODEL1 RIDGEVIF y 0.00 . . . 185.997 1.01891 186.110 -1 3 MODEL1 RIDGE y 0.00 . 0.48887 -10.1280 -0.051 0.58695 0.287 -1 4 MODEL1 RIDGEVIF y 0.01 . . . 8.599 0.98192 8.604 -1 5 MODEL1 这个模型也可 RIDGE

28、y 0.01 . 0.55323 -9.1805 0.046 0.59886 0.144 -1 6 MODEL1 RIDGEVIF y 0.02 . . . 2.858 0.96219 2.859方差膨胀因子均小于10 -1 7 MODEL1 RIDGE y 0.02 . 0.57016 -8.9277 0.057 0.59542 0.127回归系数与实际意义相符 -1 8 MODEL1 RIDGEVIF y 0.03 . . . 1.502 0.94345 1.502 -1 9 MODEL1 RIDGE y 0.03 . 0.57959 -8.7337 0.061 0.59080 0.120

29、 -110 MODEL1 RIDGEVIF y 0.04 . . . 0.979 0.92532 0.979 -111 MODEL1 RIDGE y 0.04 . 0.58745 -8.5583 0.064 0.58591 0.116 -112 MODEL1 RIDGEVIF y 0.05 . . . 0.723 0.90773 0.723 -113 MODEL1 RIDGE y 0.05 . 0.59520 -8.3919 0.065 0.58095 0.113 -114 MODEL1 RIDGEVIF y 0.06 . . . 0.579 0.89065 0.578 -115 MODEL1

30、 RIDGE y 0.06 . 0.60337 -8.2309 0.065 0.57600 0.111 -116 MODEL1 RIDGEVIF y 0.07 . . . 0.489 0.87405 0.488 -117 MODEL1 RIDGE y 0.07 . 0.61214 -8.0737 0.066 0.57109 0.109 -118 MODEL1 RIDGEVIF y 0.08 . . . 0.429 0.85792 0.428 -119 MODEL1 RIDGE y 0.08 . 0.62159 -7.9195 0.066 0.56624 0.108 -120 MODEL1 RI

31、DGEVIF y 0.09 . . . 0.386 0.84222 0.386 -121 MODEL1 RIDGE y 0.09 . 0.63173 -7.7678 0.066 0.56146 0.107 -122 MODEL1 RIDGEVIF y 0.10 . . . 0.355 0.82696 0.355 -123 MODEL1 RIDGE y 0.10 . 0.64252 -7.6184 0.066 0.55675 0.106 -124 MODEL1 RIDGEVIF y 0.20 . . . 0.240 0.69474 0.240 -125 MODEL1 RIDGE y 0.20 .

32、 0.77787 -6.2170 0.065 0.51351 0.099 -126 MODEL1 RIDGEVIF y 0.30 . . . 0.204 0.59187 0.204 -127 MODEL1 RIDGE y 0.30 . 0.93770 -4.9520 0.062 0.47655 0.094 -128 MODEL1 RIDGEVIF y 0.40 . . . 0.182 0.51027 0.182 -129 MODEL1 RIDGE y 0.40 . 1.10125 -3.7995 0.060 0.44465 0.090 -130 MODEL1 RIDGEVIF y 0.50 .

33、 . . 0.166 0.44446 0.165 -131 MODEL1 RIDGE y 0.50 . 1.26021 -2.7441 0.058 0.41683 0.086 -1三、主分量回归法主分量回归首先找出主分量,然后建立因变量与主分量的回归关系式,最后还原为原自变量的回归方程。例 经济分析数据的主分量回归分析。解 proc reg data=D452 outest=O453;model y=x1-x3/pcomit=1,2要求删除最后面的1或2个主分量,利用剩余的主变量进行回归 outvif;run;proc print data=O453;run;输出 经济分析数据主分量回归的结果

34、Obs _MODEL_ _TYPE_ _DEPVAR_ RIDGE _PCOMIT_ RMSE_ Intercept x1 x2 x3 y 1 MODEL1 PARMS y . . 0.48887 -10.1280 -0.05140 0.58695 0.28685 -1 2 MODEL1 IPCVIF y . 1 . . 0.25083 1.00085 0.25038 -1 3 MODEL1 IPC y . 1 0.55001 -9.1301 0.07278 0.60922 0.10626 -1 4 MODEL1 IPCVIF y . 2 . . 0.24956 0.00095 0.24971 -1 5 MODEL1 IPC y . 2 1.05206 -7.7458 0.07381 0.08269 0.10735 -1四、偏最小二乘回归法首先在自变量集中提取第一潜因子,同时在因变量集中提取第一潜因子,要求他们的相关程度达最大。然后建立与的回归方程,如果回归方程达到满意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论