版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、经济计量学的几种检验王志刚2003.6多重共线性 .Multicollinearity arises because we have put in too many variables that measure the same thing.As the degree of multicollinearity increases, the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly inflat
2、ed. Measure :vif, tol=1/vif,condition index;etc.多重共线性的后果1.存在完全多重共线性时,参数的估计值无法确定,而且估计值的方差变为无穷大.2.存在不完全多重共线性时,可以估计参数值,但是数值不稳定,而且方差很大.3.多重共线性会降低预测的精度,甚至失效,增大零假设接受的可能性(t值变小).多重共线性的检测方法(1)样本可决系数法如果样本的可决系数R-square 比较大,且回归系数几乎没有统计上的显著性,则可认为存在多重共线性。Theil 提出了一个指标:多重共线性效应系数Theil test resultsSas 结果:结果表明有多重共线性。
3、多重共线性检测方法(2)辅助回归检验法若存在多重共线性,则至少有一个解释变量可精确或近似地表示为其余皆是变量的线性组合。相应的检验统计量为:辅助回归检验结果Sas 结果:Klein经验法则:若存在一个i,使得R(i)-squareR-square,则认为多重共线性严重;本例中x1,x3有多重共线性。多重共线性检验方法(3)样本相关系数检验法FG test resultsfg=20.488013401 p=0.0001344625;拒绝零假设,认为存在多重共线性。具体那些变量之间存在多重共线性,除了上面提到的辅助回归的方法外,还有以下提到的条件数检验和方差膨胀因子法。多重共线性检验方法:(4)特
4、征值分析法所用的检验统计指标 ; 为第k各自变量和其余自变量回归的可决系数. VIF10,有多重共线性;TOL=1/VIF;条件指数: 条件数: ;C20,共线性严重.多重共线性的检验和补救例一:进口总额和三个自变量之间回归;Sas 结果如下:Pearson Correlation Coefficients, N = 11 Prob |r| under H0: Rho=0 x1 x2 x3x1 1.00000 0.02585 0.99726GDP 0.9399 .0001x2 0.02585 1.00000 0.03567存蓄量 0.9399 0.9171x3 0.99726 0.03567
5、1.00000总消费 |t| InflationIntercept 1 -10.12799 1.21216 -8.36 .0001 0 x1 1 -0.05140 0.07028 -0.73 0.4883 185.99747x2 1 0.58695 0.09462 6.20 0.0004 1.01891x3 1 0.28685 0.10221 2.81 0.0263 186.11002发现x1的系数为负,和现实经济意义不符,出现原因就是x1 和x3之间的线性相关.补救措施增加样本;岭回归或主分量回归;至少去掉一个具有多重共线性的变量;对具有多重共线性的变量进行变换.对所有变量做滞后差分变换(一
6、般是一阶差分),问题是损失观测值,可能有自相关.采用人均形式的变量(例如在生产函数估计中)在缺乏有效信息时,对系数关系进行限制,变为有约束回归(Klein,Goldberger,1955),可以降低样本方差和估计系数的标准差,但不一定是无偏的(除非这种限制是正确的).对具有多重共线性的变量,设法找出其因果关系,并建立模型和原方程构成联立方程组.岭回归岭回归估计: K=0, b(k)=b即为OLSE;K的选取: 即使b(k)的均方误差比b的均方误差小.岭迹图岭回归结果Obs _MODEL_ _TYPE_ _DEPVAR_ _RIDGE_k _PCOMIT_ _RMSE_ Intercept x1
7、 x2 x3 y 1 MODEL1 PARMS y 0.48887 -10.1280 -0.051 0.58695 0.287 -1 2 MODEL1 RIDGEVIF y 0.00 方差膨胀因子 185.997 1.01891 186.110 1 3 MODEL1 RIDGE y 0.00 0.48887 -10.1280 -0.051 0.58695 0.287 1 4 MODEL1 RIDGEVIF y 0.01 8.599 0.98192 8.604 -1 5 MODEL1 RIDGE y 0.01 0.55323 -9.1805 0.046 0.59886 0.144 1 6 MOD
8、EL1 RIDGEVIF y 0.02 2.858 0.96219 2.859 -1 7 MODEL1 RIDGE y 0.02 0.57016 -8.9277 0.057 0.59542 0.127 -1 8 MODEL1 RIDGEVIF y 0.03 1.502 0.94345 1.502 -1 9 MODEL1 RIDGE y 0.03 0.57959 -8.7337 0.061 0.59080 0.120 -1 10 MODEL1 RIDGEVIF y 0.04 0.979 0.92532 0.979 -1 11 MODEL1 RIDGE y 0.04 0.58745 -8.5583
9、 0.064 0.58591 0.116 -1 主分量回归主分量回归是将具有多重相关的变量集综合得出少数几个互不相关的主分量.两步:(1)找出自变量集的主分量,建立y与互不相关的前几个主分量的回归式.(2)将回归式还原为原自变量结果.详见,方开泰;主分量回归结果Obs _MODEL_ _TYPE_ _DEPVAR_ _PCOMIT_ _RMSE_ Intercept x1 x2 x3 y 1 MODEL1 PARMS y 0.48887 -10.1280 -0.05140 0.58695 0.28685 1 2 MODEL1 IPCVIF y 1 0.25083 1.00085 0.25038
10、 1 3 MODEL1 IPC y 1 0.55001 -9.1301 0.07278 0.60922 0.10626 14 MODEL1 IPCVIF y 2 0.24956 0.00095 0.24971 -15 MODEL1 IPC y 2 1.05206 -7.7458 0.07381 0.08269 0.10735 -1主分量回归结果由输出结果看到在删去第三个主分量(pcomit=1)后的主分量回归方程:Y=-9.1301+0.07278x1+0.60922x2+0.10626x3;该方程的系数都有意义,且回归系数的方差膨胀因子均小于1.1;主分量回归方程的均方根误差(_RMSE=0
11、.55) 比普通OLS方程的均方根误差(_RMSE=0.48887) 有所增大但不多。Sas 程序data ex01;input x1 x2 x3 y;label x1=国内生产总值;label x2=存储量;label x3=消费量;label y=进口总额;cards;149.3 4.2 108.1 15.9161.2 4.1 114.8 16.4171.5 3.1 123.2 19.0175.5 3.1 126.9 19.1180.8 1.1 132.1 18.8190.7 2.2 137.7 20.4202.1 2.1 146 22.7212.4 5.6 154.1 26.5226.1
12、 5.0 162.3 28.1231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3;run;proc corr data=ex01;var x1-x3;run;*岭回归*;proc reg data=ex01 outest=ex012 graphics outvif;model y=x1-x3/ridge=0.0 to 0.1 by 0.01;plot/ridgeplot;run;proc print data=ex012;run;*主分量回归法*;proc reg data=ex01 outest=ex103;model y=x1-x3/pcomit=1,2 o
13、utvif;*pcomit表示删去最后面的1或2个主分量,用前面m-1或 m-2各主分量进行回归*;run;proc print data=ex103;run;Sas 程序/*theil test*/;proc reg data=ex01;equation3:model y=x1 x2;equation2:model y=x1 x3;equation1:model y=x2 x3;run;/*r-.9473;r3s=0.9828*/;data theil;rsq=0.9919;r1s=0.9913;r2s=0.9473;r3s=0.9828;theil=rsq-(3*rsq-(r1s+r2s+
14、r3s);put theil=;run;/*辅助回归检验法*/;proc reg data=ex01;equation3:model x3=x1 x2;equation2:model x2=x1 x3;equation1:model x1=x2 x3;run;/*FG test*/;proc corr data=ex01 outp=corr nosimple;var x1-x3;run;proc print data=corr;run;title 计算相关矩阵的行列式;proc iml;R=1.000 0.026 0.997,0.026 1 0.036,0.9152 0.6306 1;d=de
15、t(R);print d;run;/*d=0.081371*/;title 计算检验统计量及其p值;data fg;n=11;p=3;d=0.081371;fg=-(n-1-1/6*(2*p+5)*log(d);df=p(p-1)/2;p=1-probchi(fg,df);put fg= p=;run;/*fg=20.488013401 p=0.0001344625,拒绝零假设*/;异方差的检验和补救 OLSE unbiased,inefficient;t, F test invalid; forecast accuracy decreased.If the model is well-fit
16、ted, there should be no pattern to the residuals plotted against the fitted values. If the variance of the residuals is non-constant, then the residual variance is said to be heteroscedastic. 异方差的检测There are graphical and non-graphical methods for detecting heteroscedasticity. A commonly used graphi
17、cal method is to plot the residuals versus fitted (predicted) values. Example :grade:educated years;potexp:working years;exp2=potexp2;union:dummy variable.收入方程回归的结果 Dependent Variable: LNWAGE Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr F Model 4 12.42236 3.10559 14.06 |t| In
18、tercept 1 0.59511 0.28349 2.10 0.0384 GRADE 1 0.08354 0.02009 4.16 F Model 12 1.18881 0.09907 0.88 0.5731 Error 87 9.83078 0.11300Corrected Total 99 11.01958 Root MSE 0.33615 R-Square 0.1079 Dependent Mean 0.20989 Adj R-Sq -0.0152 Coeff Var 160.15281 Parameter Standard Variable DF Estimate Error t V
19、alue Pr |t| Intercept 1 -0.07767 0.98580 -0.08 0.9374 GRADE 1 -0.01220 0.12502 -0.10 0.9225 POTEXP 1 0.07784 0.07188 1.08 0.2819 EXP2 1 -0.00399 0.00409 -0.97 0.3325 UNION 1 0.64879 0.86160 0.75 0.4535 grade2 1 0.00220 0.00425 0.52 0.6065 exp4 1 -3.34378E-7 0.00000151 -0.22 0.8256 exp3 1 0.00006170
20、0.00014192 0.43 0.6648 gx2 1 0.00011683 0.00011102 1.05 0.2955 gp 1 -0.00375 0.00494 -0.76 0.4498 gu 1 -0.05137 0.04430 -1.16 0.2494 pu 1 0.00193 0.06061 0.03 0.9746 eu 1 -0.00022185 0.00126 -0.18 0.8605残差项平方对所有一阶,二阶及交叉项回归.1.由左边的结果可知:故同方差的假设未被拒绝.2.Proc reg data=aa;Model y=x/spec;Run;可得到相同的结果。布罗施-帕甘/
21、戈弗雷检验怀特检验的特例(1)OLS残差额et和一个估计的干扰误差 (2)用OLS将 对选中的解释变量进行回归,并计算解释平方和(ESS);(3)在零假设下,有 (4)一个更简单且渐进等价的做法是直接利用残差平方对选中的解释变量进行回归.在零假设(同方差)下, Dependent Variable: rsq Sum of MeanSource DF Squares Square F Value PrFModel 12 1.18881 0.09907 0.88 0.5731Error 87 9.83078 0.11300Corrected Total 99 11.01958 Root MSE 0
22、.33615 R-Square 0.1079Dependent Mean 0.20989 Adj R-Sq -0.0152BPG test results(1)BPG test results(2)Dependent Variable: rsqadjustAnalysis of Variance Sum of Mean Source DF Squares Square F Value Pr FModel 3 10.70415 3.56805 1.43 0.2386Error 96 239.41116 2.49387 Corrected Total 99 250.11531 Root MSE 1
23、.57920 R-Square 0.0428 Dependent Mean 0.99997 Adj R-Sq 0.0129Coeff Var 157.92443ESS=10.70415BPG test results(3)*ESS=5.35 FModel 3 0.47160 0.15720 1.43 0.2386Error 96 10.54798 0.10987Root MSE 0.33147 R-Square 0.0428戈德菲尔德-匡特(Goldfeld-Quandt)检验按potexp的值将数据从小到大进行排列.取前后个35个观测值分别回归.c=30;回归的主要结果:RSS1=6.395
24、73;RSS2=7.2517;RSS2/RSS1=1.13; 而 ;该比值不显著,不能拒绝同方差的原假设;去掉的中间观测值的个数要适中,否则会降低功效,一般取观测值个数的1/3.补救措施-已知方差的形式1.广义最小二乘法(GLS);请参考讲义中的例子;2.模型变换法,适用于函数型异方差;已知方差的函数形式;3.加权最小二乘法(WLS);实质上是一种模型变换法;具体参见讲义中的例子; 采用面板数据,增加信息量.未知方差的形式Furnival(1961)提出了一种拟合指数进行不断的修正,最后找出最佳的权重(使得该指数值最小).处理盲点-robust regression1.迭代加权最小二乘法(IR
25、LS),Neter提出了2中加权函数, Huber and Bisquare,但是不易操作.SAS v8中常使用Proc NLIN迭代.2.非参数回归.Proc Loess.3.SAS v9.0中有一个过程Proc robustregStata 中有一个比较好的命令:rreg直接进行鲁棒回归(robust),采用迭代过程.序列相关性(serial correlation) OLSE unbiased,but inefficient and its standard error estimators are invalid;BLUE of the Gauss-Markov Theorem no
26、longer holds. The variance formulas for the least squares estimators are incorrect.AR,MA,or ARMA forms of serial correlation.Take the AR(1) for instance:Dw 检验需要注意的地方假定了残差是服从正态分布,而且是同方差;自变量是外生的,如果包含了内生滞后变量,就需要用修正的dh检验(proc autoreg).只适用于一阶自相关,对高阶或非线性自相关不适用.样本容量至少为15.自相关检验的标准德宾和沃森根据显著水平,n,k,确定了二个临界值du(
27、上界),dl(下界);然后进行比较;(1)ddu,不拒绝零假设;(3)dlddu,无结论;直观: ;d2,负自相关;d=2,无自相关;Eg:Ice cream demand(Hildreth,Lu(1960)Cons:consumption of ice cream per head(pints);Income:average family income per week($);Price :price of ice cream(per pint);Temp: average temperature(in Fahrenheit);Data:30 four-weekly obs from Mar
28、ch 1951 to 11 July 1953;残差的散点图回归结果 Parameter Estimates Parameter StandardVariable DF Estimate Error t Value Pr |t|Intercept 1 0.19732 0.27022 0.73 0.4718price 1 -1.04441 0.83436 -1.25 0.2218income 1 0.00331 0.00117 2.82 0.0090temp 1 0.00346 0.00044555 7.76 .0001 Durbin-Watson D 1.021 Number of Obser
29、vations 30 1st Order Autocorrelation 0.3301.DW test查表可得:在0.05的显著水平上,dl=1.21(N=30,k=3);du=1.65;直接在回归的语句中加上一个dw选项;Dw=1.021 ;因此拒绝零假设,认为有自相关;且显著一阶正相关; Parameter Estimates Parameter StandardVariable DF Estimate Error t Value Pr |t|resid 1 0.38454 0.17029 2.26 0.0319补救方法1.已知rho时,采用广义差分变换.2.未知rho时,先求相关系数,然
30、后进行广义差分.求相关系数的方法有:(1)Cochrane-Orcutt迭代方法;(2)Hildreth-Lu.(3)Durbin 2 step.对严格外生回归元的序列相关的校正AR(1)模型-可行的广义最小二乘法(FGLS)采用估计的相关系数值回归方程:FGLS步骤:1. .yt对做xt1,xt2,xtk回归,得到残差t. 2. t = t-1+et,求出相关系数的估计值3.对上面的方程进行回归.常见的标准误,t统计量和F统计量都是渐进正确的.采用相关系数估计值的代价是FGLS有限样本性质较差,可能不是无偏的(数据弱相关时),但仍然是一致的.尽管FGLS不是无偏的,不是BLUE,但是当序列相
31、关的AR(1)模型成立时,比OLS更渐进有效区分科克伦-奥克特(Cochrane-Orcutt)和普莱斯-温斯登(Paris-Winsten)估计Co 估计省略了第一次的观测值,使用的是t = t-1+et 滞后项系数估计值,而Pw估计方法使用了第一次的观测值,见上面的回归式.大体来说是否使用第一次的估计值并不会带来很大的差别,但是时间序列的样本很小,实际中还是有很大差别.注意下面的估计结果中没有还原到原方程,还原时要写正确.高阶序列相关的校正,类似于一阶的修正,广义的差分方法.Sas 程序data ice;input cons income price temp time;cards;.;p
32、roc reg data=ice;model cons=price income temp/dw;output out=ice1 p=consp r=resid;run;symbol1 i=none v=dot c=blue h=.5;proc gplot data=ice1;plot resid*time=1/vref=0;run;/*BG test*/data tt1;set ice1;resid1=lag(resid);run;proc reg data=tt1;model resid=resid1/noint;run;/*rh0=0.40063,R-square=0.1541*/;da
33、ta bgt;bg=29*0.1541;chisq=cinv(0.95,1);if bgchisq then t=1;else t=0;put t=;run;/*t=0*/;Sas 程序高阶的BG检验:/*高阶BG test p=3*/;data tt2;set ice1;resid1=lag(resid);resid2=lag(resid1);resid3=lag(resid2);run;proc reg data=tt2;model resid=resid1 resid2 resid3/noint;run;/*R-square=0.1792*/;data bgt2;bg=(29-3)*0.
34、1792;chisq=cinv(0.95,3);if bgchisq then t=1;else t=0;put t= chisq= bg=;run;/*t=0,无高阶自相关*/;Sas 程序/*yule-walker estimates*/;proc autoreg data=ice;model cons=price income temp/nlag=1 method=yw ;run;* COCHRANE-ORCUTT;proc reg data=ice;model cons=price income temp/dw;output out=tt p=chat r=res;run;proc p
35、rint data=tt;run;data tt; set tt;relag=Lag(res);run;proc print data=tt;run;proc reg data=tt outest=b1;model res=relag/noint;run;/*可算出rh0=0.40063*/;data pp;set tt;c1=lag(cons);t1=lag(temp);i1=lag(income);p1=lag(price);run;proc print data=pp;run;data pp1;set pp;if _n_=1 then delete;c2=cons-0.40063*c1;
36、t2=temp-0.40063*t1;i2=income-0.40063*i1;p2=price-0.40063*p1;run;proc print data=pp1;run;proc reg data=pp1;MODEL c2=t2 i2 p2/dw;run;/*dw=1.541.65,因此不拒绝平稳性假设*/;Sas 程序上页的科克伦-奥科特迭代只用了1次;对小样本情况,迭代多次的仍然很难收敛,我做了三次迭代发现仍然不收敛;所以说多次迭代效果和一次的效果相差不大.从理论上来说两者的渐进性一样.大样本情况只需几步就可收敛;/*下面采用fgls进行估计校正*/;data fgls;set tt
37、1;if _n_=1 then int=sqrt(1-0.40063*0.40063);else int=1-0.40063;if _n_=1 then cons1=cons*sqrt(1-0.40063*0.40063);else cons1=cons-0.40063*cons;if _n_=1 then price1=price*sqrt(1-0.40063*0.40063);else price1=price-0.40063*price;if _n_=1 then income1=income*sqrt(1-0.40063*0.40063);else income1=income-0.4
38、0063*income;if _n_=1 then temp1=temp*sqrt(1-0.40063*0.40063);else temp1=temp-0.40063*temp;run;proc reg data=fgls;model cons1=int price1 income1 temp1/noint;run;Sas 程序proc autoreg data=ice;model cons=price income temp/nlag=1 dwprob archtest;run;估计方法缺省为yule-walker估计;又称为两步完全变换法;已知自回归参数下的GLS估计;其他方法:在mod
39、el /method=ML;ULS;ITYW;分别为极大似然估计,无条件最小二乘估计,以及迭代yule-walker估计;自回归参数较大时ml方法uls(又称NLS)方法较好.详见SAS/ETS中的autoreg过程.Yuler-walker estimateThe AUTOREG Procedure Dependent Variable cons Ordinary Least Squares Estimates SSE 0.03527284 DFE 26 MSE 0.00136 Root MSE 0.03683 SBC -103.63408 AIC -109.23887 Regress R-
40、Square 0.7190 Total R-Square 0.7190 Durbin-Watson 1.0212 Pr DW 0.9997NOTE: PrDW is the p-value for testing negative autocorrelation Standard Approx Variable DF Estimate Error t Value Pr |t| Intercept 1 0.1973 0.2702 0.73 0.4718 price 1 -1.0444 0.8344 -1.25 0.2218 income 1 0.003308 0.001171 2.82 0.00
41、90 temp 1 0.003458 0.000446 7.76 F Model 3 0.04707 0.01569 15.41 |t| Intercept 1 0.09409 0.17358 0.54 0.5926 t2 1 0.00356 0.00055454 6.42 F Model 4 1.44032 0.36008 836.01 |t| int 1 0.03411 0.26299 0.13 0.8978 price1 1 -0.66901 0.78886 -0.85 0.4044 income1 1 0.00388 0.00113 3.43 0.0021 temp1 1 0.0036
42、5 0.00042686 8.56 Q LM Pr LM 1 0.4425 0.5059 0.1797 0.6716 2 0.8322 0.6596 1.2446 0.5367 3 1.2725 0.7357 1.6346 0.6516 4 3.5292 0.4735 4.3974 0.3549 5 3.7247 0.5897 4.4229 0.4903 6 3.9320 0.6859 4.4893 0.6108 7 4.2288 0.7531 4.5093 0.7196 8 5.8344 0.6658 9.4542 0.3054 9 6.7441 0.6637 10.3272 0.3246 10 7.7561 0.6526 10.5957 0.3899 11 7.8443 0.7272 10.9131 0.4506 12 7.9322 0.7904 12.4910 0.4071从上面的p-value 可以看出不存在条件异方差;其他有关时间序列的过程分布滞后模型Proc Pdlreg.向量自回归Proc varmax;时间序列建模Proc Arima时间序列预测Proc forecast.Stata中的命令rreg(鲁棒回归);reg,robust给出来稳健的t值;newey和newey2给出来不同条件下的(包括面板
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 严格质量承诺服务环保设施
- 村庄土地确权合同范例
- 护栏正规合同范例
- 成都商业用地租赁合同范例
- 提供定制餐桌合同范例
- 无担保借款合同范例
- 滑雪小镇道路施工合同
- 检测项目合同范例
- 常州地铁保洁合同范例
- 2024年湖北客运驾驶员从业资格考试系统
- 历年全国高中数学联赛试题及答案
- 矿山安全培训操作规程
- 红色故事《小英雄雨来》演讲稿
- 血液透析患者饮食宣教
- 已使用牙膏原料目录
- 直线与平面、平面与平面相对位置课件
- MOOC 数据挖掘与python实践-中央财经大学 中国大学慕课答案
- 湖州市第七届“期望杯”小学数学竞赛试题(六年级)附参考答案
- 初中英语八年级上册期末复习(题型专练):选词填空
- MOOC 基础英语语法-西安电子科技大学 中国大学慕课答案
- 《客舱安全与应急处置》-课件:释压的类型和迹象
评论
0/150
提交评论