




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九讲第九讲 模型设定和数据问题模型设定和数据问题一、函数形式误设一、函数形式误设二、代理变量二、代理变量三、测量误差三、测量误差四、数据缺失、非随机样本和异常观测四、数据缺失、非随机样本和异常观测第一节第一节 函数形式误设函数形式误设一、函数形式误设的情形一、函数形式误设的情形 如果如果多元回归模型没有正确地刻画因变量与所观测多元回归模型没有正确地刻画因变量与所观测的解释变量之间的关系,那它就存在函数形式误设问题的解释变量之间的关系,那它就存在函数形式误设问题1.遗漏变量遗漏变量 并非所有的遗漏变量都属于函数形式误设的情形,只有当被并非所有的遗漏变量都属于函数形式误设的情形,只有当被遗漏的变
2、量是某一解释变量的函数时,我们才称这种对变量的遗遗漏的变量是某一解释变量的函数时,我们才称这种对变量的遗漏为函数形式误设。漏为函数形式误设。 如果模型中遗漏的变量与已有的解释变量之间存在函数关系,如果模型中遗漏的变量与已有的解释变量之间存在函数关系,那么误差项一定不满足那么误差项一定不满足MLR.4(零条件均值的假定)。因此,在(零条件均值的假定)。因此,在这种情况下,这种情况下,OLS估计量一定是有偏的。估计量一定是有偏的。假定真实模型为:假定真实模型为:uxxy22110但我们估计的是:但我们估计的是:uxy110则有:则有: 1211E 其中,其中, 为变量为变量x2对变量对变量x1回归
3、时的斜率估计值,在回归时的斜率估计值,在x2与与x1之间存在函数关系时,之间存在函数关系时, ,而作为原模型中应该有,而作为原模型中应该有的变量,的变量, ,因此,在这种情况下,因此,在这种情况下, OLS估计量一定估计量一定是有偏的。是有偏的。10102例例1.遗漏了解释变量的平方项遗漏了解释变量的平方项工资方程中,正确的方程为:工资方程中,正确的方程为:实际估计时漏掉了实际估计时漏掉了 exper2 ,所以实际估计的方程为:,所以实际估计的方程为: 这种遗漏所造成的函数形式误设通常会导致这种遗漏所造成的函数形式误设通常会导致OLS估计量有偏,估计量有偏,即使即使educ的参数估计量无偏,也
4、会错误地估计工作经历对工资的的参数估计量无偏,也会错误地估计工作经历对工资的影响,因为工作经历的实际回报率为影响,因为工作经历的实际回报率为 ,但在误设的模型中,只计算了但在误设的模型中,只计算了 。uerereducwage23210expexp)log(uereducwageexp)log(210erexp2322例例9.1 犯罪的经济模型(犯罪的经济模型(P294)被解释变量:被解释变量:Narr86(1986年被捕次数)年被捕次数)解释变量:解释变量: pcnv 以前被定罪比例以前被定罪比例 avgsen 平均判刑期限,平均判刑期限, 单位:月单位:月 tottime 18岁以来的服刑
5、时间,岁以来的服刑时间, 单位:月单位:月 ptime86 1986年的服刑时间,年的服刑时间, 单位:月单位:月 qemp86 1986年被雇佣季度数年被雇佣季度数 inc86 1986年合法收入,年合法收入, 单位:百美元单位:百美元 black 如果是黑人,如果是黑人,black=1 hispan 如果是西班牙裔,如果是西班牙裔,hispan=1 _cons . .5 56 68 86 68 85 55 5 . .0 03 36 60 04 46 61 1 1 15 5. .7 78 8 0 0. .0 00 00 0 . .4 49 98 80 00 04 48 8 . .6 63 3
6、9 93 36 66 61 1 hispan . .1 19 93 39 91 14 44 4 . .0 03 39 97 71 11 13 3 4 4. .8 88 8 0 0. .0 00 00 0 . .1 11 16 60 04 46 69 9 . .2 27 71 17 78 81 18 8 black . .3 32 26 65 50 03 35 5 . .0 04 45 54 41 15 56 6 7 7. .1 19 9 0 0. .0 00 00 0 . .2 23 37 74 45 50 08 8 . .4 41 15 55 55 56 61 1 inc86 - -. .0
7、 00 01 14 48 88 87 7 . .0 00 00 03 34 40 06 6 - -4 4. .3 37 7 0 0. .0 00 00 0 - -. .0 00 02 21 15 56 66 6 - -. .0 00 00 08 82 20 07 7 qemp86 - -. .0 05 50 05 53 39 98 8 . .0 01 14 44 43 39 97 7 - -3 3. .5 50 0 0 0. .0 00 00 0 - -. .0 07 78 88 85 53 38 8 - -. .0 02 22 22 22 25 58 8 ptime86 - -. .0 04
8、 40 08 84 41 17 7 . .0 00 08 88 81 12 2 - -4 4. .6 63 3 0 0. .0 00 00 0 - -. .0 05 58 81 12 20 06 6 - -. .0 02 23 35 56 62 27 7 tottime . .0 01 12 20 02 22 24 4 . .0 00 09 94 43 35 52 2 1 1. .2 27 7 0 0. .2 20 03 3 - -. .0 00 06 64 47 78 85 5 . .0 03 30 05 52 23 33 3 avgsen - -. .0 01 11 13 31 17 77
9、 7 . .0 01 12 22 24 40 01 1 - -0 0. .9 92 2 0 0. .3 35 55 5 - -. .0 03 35 53 31 18 85 5 . .0 01 12 26 68 83 31 1 pcnv - -. .1 13 33 32 23 34 44 4 . .0 04 40 03 35 50 02 2 - -3 3. .3 30 0 0 0. .0 00 01 1 - -. .2 21 12 23 35 54 46 6 - -. .0 05 54 41 11 14 41 1 narr86 Coef. Std. Err. t P|t| 95% Conf. I
10、nterval Total 2 20 01 10 0. .3 34 47 71 16 6 2 27 72 24 4 . .7 73 38 80 01 12 29 90 06 6 Root MSE = . .8 82 28 86 65 5 Adj R-squared = 0 0. .0 06 69 96 6 Residual 1 18 86 64 4. .9 95 57 70 05 5 2 27 71 16 6 . .6 68 86 66 65 55 57 76 63 3 R-squared = 0 0. .0 07 72 23 3 Model 1 14 45 5. .3 39 90 01 10
11、 04 4 8 8 1 18 8. .1 17 73 37 76 63 3 Prob F = 0 0. .0 00 00 00 0 F( 8, 2716) = 2 26 6. .4 47 7 Source SS df MS Number of obs = 2 27 72 25 5首先我们将被解释变量向解释变量回归,不包含任何平方项。首先我们将被解释变量向解释变量回归,不包含任何平方项。回归的结果如下:回归的结果如下: 回归的结果表明,除平均判刑期限(回归的结果表明,除平均判刑期限(avgsen)和)和18岁以来的岁以来的服刑时间(服刑时间(tottime)之外,其他解释变量均在)之外,其他解释
12、变量均在1%的水平上显著,的水平上显著,但一些变量的系数符号似乎有些不合常理。如但一些变量的系数符号似乎有些不合常理。如pcnv,ptime86。 从常理理解,以前被定罪比例(从常理理解,以前被定罪比例(pcnv)越高,说明这一样本)越高,说明这一样本观测点犯罪倾向也就越高,那么其在观测点犯罪倾向也就越高,那么其在1986年被捕的次数也就会越年被捕的次数也就会越多,按照这一假设和推理,以前被定罪比例(多,按照这一假设和推理,以前被定罪比例(pcnv)的系数应该)的系数应该为正,但不含平方项的回归结果表明这一系数为负。为正,但不含平方项的回归结果表明这一系数为负。 同样,一般情况下,若某样本观测
13、点在同样,一般情况下,若某样本观测点在1986年的服刑时间年的服刑时间(ptime86)越高,他在)越高,他在1986年被捕的次数也就会越多,按照这一年被捕的次数也就会越多,按照这一假设和推理,假设和推理, 1986年的服刑时间(年的服刑时间(ptime86)的系数也应该为正,)的系数也应该为正,但不含平方项的回归结果表明这一系数为负。但不含平方项的回归结果表明这一系数为负。 而这些不合常理的系数却都高度显著,因此,我们对这些解而这些不合常理的系数却都高度显著,因此,我们对这些解释变量对被解释变量的影响方式必须要进一步核准,从而确定他释变量对被解释变量的影响方式必须要进一步核准,从而确定他们对
14、被解释变量有意义的解释。们对被解释变量有意义的解释。 _cons . .5 50 04 46 60 06 65 5 . .0 03 36 68 83 35 53 3 1 13 3. .7 70 0 0 0. .0 00 00 0 . .4 43 32 23 37 78 84 4 . .5 57 76 68 83 34 47 7 hispan . .1 16 63 36 61 17 75 5 . .0 03 39 94 45 50 07 7 4 4. .1 15 5 0 0. .0 00 00 0 . .0 08 86 62 26 60 09 9 . .2 24 40 09 97 74 4 bl
15、ack . .2 29 92 22 29 96 6 . .0 04 44 48 83 3 6 6. .5 52 2 0 0. .0 00 00 0 . .2 20 04 43 39 91 16 6 . .3 38 80 02 20 00 04 4 inc86sq 7 7. .1 19 9e e- -0 06 6 2 2. .5 56 6e e- -0 06 6 2 2. .8 81 1 0 0. .0 00 05 5 2 2. .1 17 7e e- -0 06 6 . .0 00 00 00 01 12 22 2 inc86 - -. .0 00 03 34 41 15 52 2 . .0
16、00 00 08 80 03 37 7 - -4 4. .2 25 5 0 0. .0 00 00 0 - -. .0 00 04 49 99 91 12 2 - -. .0 00 01 18 83 39 92 2 qemp86 - -. .0 01 14 40 09 94 41 1 . .0 01 17 73 36 61 12 2 - -0 0. .8 81 1 0 0. .4 41 17 7 - -. .0 04 48 81 13 36 66 6 . .0 01 19 99 94 48 85 5 pt86sq - -. .0 02 29 96 60 07 76 6 . .0 00 03 3
17、8 86 63 34 4 - -7 7. .6 66 6 0 0. .0 00 00 0 - -. .0 03 37 71 18 83 3 - -. .0 02 22 20 03 32 21 1 ptime86 . .2 28 87 74 43 33 34 4 . .0 04 44 42 25 58 82 2 6 6. .4 49 9 0 0. .0 00 00 0 . .2 20 00 06 65 50 01 1 . .3 37 74 42 21 16 66 6 tottime . .0 01 11 19 95 54 4 . .0 00 09 92 28 82 25 5 1 1. .2 29
18、 9 0 0. .1 19 98 8 - -. .0 00 06 62 24 47 74 4 . .0 03 30 01 15 55 54 4 avgsen - -. .0 01 17 70 02 21 16 6 . .0 01 12 20 05 53 39 9 - -1 1. .4 41 1 0 0. .1 15 58 8 - -. .0 04 40 06 65 57 74 4 . .0 00 06 66 61 14 42 2 pcnvsq - -. .7 73 30 02 21 11 19 9 . .1 15 56 61 11 17 77 7 - -4 4. .6 68 8 0 0. .0
19、 00 00 0 - -1 1. .0 03 36 63 33 34 4 - -. .4 42 24 40 09 90 03 3 pcnv . .5 55 52 25 52 23 36 6 . .1 15 54 42 23 37 72 2 3 3. .5 58 8 0 0. .0 00 00 0 . .2 25 50 00 08 89 92 2 . .8 85 54 49 95 58 8 narr86 Coef. Std. Err. t P|t| 95% Conf. Interval Total 2 20 01 10 0. .3 34 47 71 16 6 2 27 72 24 4 . .7
20、73 38 80 01 12 29 90 06 6 Root MSE = . .8 81 15 50 07 7 Adj R-squared = 0 0. .0 09 99 98 8 Residual 1 18 80 02 2. .3 36 68 81 15 5 2 27 71 13 3 . .6 66 64 43 34 45 50 06 6 R-squared = 0 0. .1 10 03 35 5 Model 2 20 07 7. .9 97 79 90 00 08 8 1 11 1 1 18 8. .9 90 07 71 18 82 26 6 Prob F = 0 0. .0 00 00
21、 00 0 F( 11, 2713) = 2 28 8. .4 46 6 Source SS df MS Number of obs = 2 27 72 25 5加入重要变量的平方项之后,回归结果如下:加入重要变量的平方项之后,回归结果如下: 加入平方项之后,除加入平方项之后,除1986年被雇佣季度数(年被雇佣季度数( qemp86 )之外,)之外,各变量的显著性并没有太大的影响,而且所有的平方项都是显著各变量的显著性并没有太大的影响,而且所有的平方项都是显著的,这就意味着不加平方项的模型的确存在误设的可能,而且加的,这就意味着不加平方项的模型的确存在误设的可能,而且加入平方项之后,相关变量的
22、系数也更有意义了。见教材入平方项之后,相关变量的系数也更有意义了。见教材P295注意:注意:u如果原模型满足假定如果原模型满足假定MLR.4,那么在方程中添加自变量的非线,那么在方程中添加自变量的非线性关系应该是不显著的;性关系应该是不显著的;u在例在例9.1中添加了显著的二次项,检验出函数形式误设定;中添加了显著的二次项,检验出函数形式误设定;u如果原模型中有许多解释变量,使用掉大量自由度缺失;如果原模型中有许多解释变量,使用掉大量自由度缺失;u添加二次项也不能得到被忽视的某种特定非线性关系;添加二次项也不能得到被忽视的某种特定非线性关系;例例2.遗漏了解释变量的交互项遗漏了解释变量的交互项
23、工资方程中,正确的方程为:工资方程中,正确的方程为:实际估计时漏掉了实际估计时漏掉了 femaleeduc,所以实际估计的方程为:,所以实际估计的方程为:ueducfemalefemaleerereducwage5423210expexp)log(ufemaleerereducwage423210expexp)log( 在原始模型中,教育的回报率会因性别的不同而有所不同,在原始模型中,教育的回报率会因性别的不同而有所不同,但这一性质在遗漏了交互项的模型中无法得到体现,从而造成但这一性质在遗漏了交互项的模型中无法得到体现,从而造成OLS估计值产生偏误。估计值产生偏误。2.变量形式误设变量形式误设
24、 当模型中一些变量原本应该采用对数形式,而在实际回归过当模型中一些变量原本应该采用对数形式,而在实际回归过程中却错误地采用了水平形式时,也会导致模型误设,从而造成程中却错误地采用了水平形式时,也会导致模型误设,从而造成OLS估计值产生偏误。估计值产生偏误。二、函数形式误设的一般检验(二、函数形式误设的一般检验(RESET)1.基本思想基本思想 如果原模型满足如果原模型满足MLR.4,那么在回归方程中添加解释变量的,那么在回归方程中添加解释变量的非线性关系应该不显著。当解释变量较多时,这么做会产生更多非线性关系应该不显著。当解释变量较多时,这么做会产生更多的解释变量,从而损失很大一部分自由度,因
25、此可以考虑在模型的解释变量,从而损失很大一部分自由度,因此可以考虑在模型中添加被解释变量拟合值的平方项或立方项。中添加被解释变量拟合值的平方项或立方项。估计:估计: y = 0 + 1x1 + + kxk + 12 + 23 +u检验:检验: H0: 1=0, 2 =0用用F统计量或统计量或LM统计量进行检验,一个显著的统计量进行检验,一个显著的F统计量或者统计量或者LM统计量说明函数形式可能存在问题统计量说明函数形式可能存在问题2.使用使用RESET对模型误设检验时应该注意的问题:对模型误设检验时应该注意的问题:uRESET在探测在探测非线性形式非线性形式的函数误设时很好用,而不是一般的的函
26、数误设时很好用,而不是一般的遗漏变量;遗漏变量;uWooldridge在在1995年证明:当被遗漏变量的期望值是所包含自年证明:当被遗漏变量的期望值是所包含自变量的变量的线性函数线性函数时,时,RESET无法探测出遗漏变量问题;无法探测出遗漏变量问题;u如果正确设定了模型形式,如果正确设定了模型形式, RESET对检验异方差无能为力;对检验异方差无能为力;u尽管如此,如果被遗漏变量的期望是自变量的非线性形式时,尽管如此,如果被遗漏变量的期望是自变量的非线性形式时,一个显著的一个显著的RESET可以指出遗漏变量问题;可以指出遗漏变量问题;u也要注意到,也要注意到,RESET检验的一个缺陷是,当零
27、假设被拒绝后,检验的一个缺陷是,当零假设被拒绝后,它并不能建议我们下一步怎么做。它并不能建议我们下一步怎么做。例例9.2:住房价格方程(:住房价格方程(P296)相关变量为水平值时的待估方程:相关变量为水平值时的待估方程:相关变量用对数形式时的待估方程为:相关变量用对数形式时的待估方程为:ubdrmssqrftlotsizeprice3210ubdrmslsqrftllotsizelprice3210uprice (房价,(房价, 单位:千美元)单位:千美元)ulotsize (土地的面积,单位:平方英尺)(土地的面积,单位:平方英尺)usqrft (房屋的面积,单位:平方英尺)(房屋的面积,
28、单位:平方英尺)ubdrms (卧室数)(卧室数). reg price lotsize sqrft bdrms. predict y, xb. gen y2 = y 2. gen y3 = y * y2. reg price lotsize sqrft bdrms y2 y3. test y2 y3 ( 1) y2 = 0 ( 2) y3 = 0 F( 2, 82) = 4.67 Prob F = 0.0120检验结果表明:用水平值回归的模型存在函数形式误设定的问题检验结果表明:用水平值回归的模型存在函数形式误设定的问题u用相关变量的水平值时进行估计检验的结果:用相关变量的水平值时进行估计检
29、验的结果:u用相关变量的对数值时进行估计检验的结果:用相关变量的对数值时进行估计检验的结果:. reg lprice llotsize lsqrft bdrms . predict yy, xb. gen yy2 = yy 2. gen yy3 = yy * yy2. reg lprice llotsize lsqrft bdrms yy2 yy3. test yy2 yy3 ( 1) yy2 = 0 ( 2) yy3 = 0 F( 2, 82) = 2.57 Prob F = 0.0831结果表明:在结果表明:在5%的水平上无法拒绝原假设,即采用对数形式的回的水平上无法拒绝原假设,即采用对数
30、形式的回归可能不存在函数形式误设的问题。归可能不存在函数形式误设的问题。3.对非嵌套模型的检验对非嵌套模型的检验当要检验两个非嵌套模型:当要检验两个非嵌套模型:到底哪一个才是正确的时候,有一下两种方法:到底哪一个才是正确的时候,有一下两种方法:uxxyuxxy2211022110)log()log(1)构造一个综合模型:)构造一个综合模型:uxxxxy)log()log(241322110u我们可以检验我们可以检验H0: , 作为对水平值模型的检验;作为对水平值模型的检验;0,043u我们可以检验我们可以检验H0: , 作为对对数模型的检验;作为对对数模型的检验;0,0212)Davidson
31、-Mackinnon检验:检验: 如果水平值模型是正确的,则从对数模型中得到的拟合值在如果水平值模型是正确的,则从对数模型中得到的拟合值在水平值模型中应该是不显著的。水平值模型中应该是不显著的。因此,基于方程:因此,基于方程: (其中,(其中, 为从对数模型中得到的拟合值)为从对数模型中得到的拟合值)中中 的的t统计量是否显著,就可以决定是否拒绝水平值模型;统计量是否显著,就可以决定是否拒绝水平值模型;反过来,也可以按照这种方法检验对数模型正确与否。反过来,也可以按照这种方法检验对数模型正确与否。uyxxy122110y 13)非嵌套检验的注意问题:)非嵌套检验的注意问题: 不一定会出现一个明
32、显好的模型。两个模型可能都被拒绝,不一定会出现一个明显好的模型。两个模型可能都被拒绝,也可能没有一个被拒绝;也可能没有一个被拒绝; 如果用如果用DM检验拒绝了水平值模型,这并不意味着对数模型检验拒绝了水平值模型,这并不意味着对数模型就是正确的模型,显著性的结论可能来自于其他形式的函数就是正确的模型,显著性的结论可能来自于其他形式的函数形式误设。形式误设。u若两个模型都无法被拒绝:我们可以用调整若两个模型都无法被拒绝:我们可以用调整R2来对模型进来对模型进行取舍;行取舍;u若两个模型都被拒绝:检验的结果并不能告诉我们下一步若两个模型都被拒绝:检验的结果并不能告诉我们下一步该怎么做,而如果关键自变
33、量在经济意义上对因变量的影响该怎么做,而如果关键自变量在经济意义上对因变量的影响并不显著,则使用哪个模型实际上无关紧要并不显著,则使用哪个模型实际上无关紧要第二节第二节 代理变量代理变量一、使用代理变量的原因一、使用代理变量的原因 在实际回归的过程中,常常会遇到有些关键变量我们无法观在实际回归的过程中,常常会遇到有些关键变量我们无法观测到的情况,但这些无法观测到的变量对于回归来说又是非常必测到的情况,但这些无法观测到的变量对于回归来说又是非常必要的,如果将其放到误差项里面,就会导致其他参数的估计有偏要的,如果将其放到误差项里面,就会导致其他参数的估计有偏和不一致和不一致。 在这种情况下,如果能
34、够在这种情况下,如果能够找到一个可以间接度量这一变量的找到一个可以间接度量这一变量的代理变量进行回归,就可以保证其他变量的参数回归是无偏的。代理变量进行回归,就可以保证其他变量的参数回归是无偏的。 代理变量就是与我们在分析中试图控制而又观测不到的变量代理变量就是与我们在分析中试图控制而又观测不到的变量相关的、能够代替这一变量进行回归的变量。相关的、能够代替这一变量进行回归的变量。 个人能力个人能力abil肯定会对工资水平肯定会对工资水平log(wage)产生影响,但个人产生影响,但个人能力能力abil常常难以测度,或者根本无法获得。如果个人能力常常难以测度,或者根本无法获得。如果个人能力abi
35、l与与其受教育水平其受教育水平educ相关,那么,因为相关,那么,因为abil无法测度而将其放入随无法测度而将其放入随机误差项,必然导致参数估计有偏。机误差项,必然导致参数估计有偏。 如果能够找到一个大致反映能力高低又方便测度的变量来代如果能够找到一个大致反映能力高低又方便测度的变量来代替个人能力替个人能力abil参与回归,就能够解决参数估计有偏的问题。参与回归,就能够解决参数估计有偏的问题。 具体就工资方程而言,常见的个人能力具体就工资方程而言,常见的个人能力abil的替代变量为的替代变量为IQ,我们并不要求我们并不要求IQ能够准确无误地反应一个人的能力水平,只要其能够准确无误地反应一个人的
36、能力水平,只要其与个人能力相关就可以了。与个人能力相关就可以了。例如,在工资方程中:例如,在工资方程中:uabilereducwage3210exp)log(二、引入代理变量的具体方法二、引入代理变量的具体方法例如,要回归的模型为:例如,要回归的模型为:uxxxy*3322110但其中变量但其中变量x3*的数据观测不到,但该变量对模型至关重要,如果的数据观测不到,但该变量对模型至关重要,如果在模型中舍去这一变量,将会引起回归的结果有偏。在模型中舍去这一变量,将会引起回归的结果有偏。如果可观测的变量如果可观测的变量x3与之间存在相关关系:与之间存在相关关系:3330*3vxx其中其中 v3是变量
37、是变量x3与变量与变量x3*并非完全相关所导致的误差,参数并非完全相关所导致的误差,参数3度度量了变量量了变量x3与变量与变量x3*之间的关系。之间的关系。通常情况下,我们会认为变量通常情况下,我们会认为变量x3与变量与变量x3*正相关,所以正相关,所以 3 0;但如果但如果 3 =0 ,则意味着则意味着x3并不是并不是x3*合适的代理变量。合适的代理变量。 选择代理变量之后,将变量选择代理变量之后,将变量x3当做变量当做变量x3*带入模型进行回带入模型进行回归估计,这种处理无法观测解释变量的方法称为遗漏变量问题的归估计,这种处理无法观测解释变量的方法称为遗漏变量问题的植入解植入解(plug-
38、in solution to the omitted variables problem)。 这种方法虽然解决了因为某一解释变量无法观测而可能造这种方法虽然解决了因为某一解释变量无法观测而可能造成的遗漏变量的问题,但代理变量毕竟不同于原始变量,要想通成的遗漏变量的问题,但代理变量毕竟不同于原始变量,要想通过采用代理变量的方法获得一致的估计量,还需如下假设:过采用代理变量的方法获得一致的估计量,还需如下假设:3303*3321*3*321,0,xxxExxxxExxxuEu当这两个假设不满足时,我们不能得到一致的估计量当这两个假设不满足时,我们不能得到一致的估计量比如比如x3* = 0 + 1x
39、1 + 2x2 + d3x3 + v3实际上,我们可以估计:实际上,我们可以估计:y = ( 0 3 3 0 0) + ( 1 1 3 3 1 1) x1+ ( 2 2 3 3 2 2) x2 + 3 3 3 3x3 + (u + 3 3v3)偏误方向将依赖于偏误方向将依赖于 3 3 和和 j的符号的符号u当这两个假设被满足,我们作回归:当这两个假设被满足,我们作回归:y = ( 0 + 3 0) + 1x1+ 2x2 + 3 3x3 + (u + 3v3) 只要重新定义截距项,误差项和只要重新定义截距项,误差项和x3系数,即可得到一致的估计量系数,即可得到一致的估计量例例9.3 IQ作为能力
40、的代理变量(作为能力的代理变量(P300)三、用滞后变量作为代理变量三、用滞后变量作为代理变量 在实际研究中,有时即使知道随机误差项中包含某个观测不在实际研究中,有时即使知道随机误差项中包含某个观测不到的变量与一个或多个解释变量相关,从而导致参数估计有偏,到的变量与一个或多个解释变量相关,从而导致参数估计有偏,但是对于怎样选取一个合适的代理变量却无从下手但是对于怎样选取一个合适的代理变量却无从下手 此时,用过去的因变量(或称滞后因变量)作为代理变量,此时,用过去的因变量(或称滞后因变量)作为代理变量,在许多应用中可以得到很好的效果在许多应用中可以得到很好的效果例例9.4 城市犯罪率(城市犯罪率
41、(P303)第三节第三节 测量误差测量误差一、出现测量误差的原因一、出现测量误差的原因 当我们不能精确度量一个回归模型中的经济变量,就可能存当我们不能精确度量一个回归模型中的经济变量,就可能存在测量误差问题。在测量误差问题。 比如,我们调查得到的收入或支出数据是人们报告的,但每比如,我们调查得到的收入或支出数据是人们报告的,但每个人都不可能完全地知道自己的真实收入和支出;即使知道也可个人都不可能完全地知道自己的真实收入和支出;即使知道也可能会隐瞒能会隐瞒二、测量误差与不可观测变量的异同之处二、测量误差与不可观测变量的异同之处u第一,在观测不到的变量情形中,我们无法准确地度量它,第一,在观测不到
42、的变量情形中,我们无法准确地度量它,而只能找到与它存在某些相关的代理变量;而测量误差情形而只能找到与它存在某些相关的代理变量;而测量误差情形中,变量具有完好的定量含义,只是我们对它测量的记录可中,变量具有完好的定量含义,只是我们对它测量的记录可能包含了误差能包含了误差u第二,在测量误差问题中,被误测的自变量是我们关注的第二,在测量误差问题中,被误测的自变量是我们关注的焦点;在代理变量情形中,被遗漏变量的偏效应本身很少成焦点;在代理变量情形中,被遗漏变量的偏效应本身很少成为我们关注的核心,我们关注的是其他自变量的影响为我们关注的核心,我们关注的是其他自变量的影响三、因变量存在测量误差的情形三、因
43、变量存在测量误差的情形假定我们要回归的模型:假定我们要回归的模型:uxxxykk22110*满足高斯满足高斯-马尔科夫假定,但因为存在测量误差,因变量马尔科夫假定,但因为存在测量误差,因变量y*和它的和它的观测值观测值y之间存在测量误差之间存在测量误差e0 = y y* 因此,我们实际估计的模型为:因此,我们实际估计的模型为:022110euxxxykk由于原模型满足高斯由于原模型满足高斯-马尔科夫假定,对原模型的马尔科夫假定,对原模型的OLS估计将是估计将是无偏的,但在实际估计的过程中,我们只能观测到无偏的,但在实际估计的过程中,我们只能观测到y,而不是真,而不是真实的实的y*,误差的存在使
44、得我们不得不考虑:这样一种替代是否能,误差的存在使得我们不得不考虑:这样一种替代是否能够得到一致的估计量。够得到一致的估计量。1.因变量为水平值形式因变量为水平值形式 在实际估计的模型中,误差项在实际估计的模型中,误差项u+e0如果也满足零条件均值的如果也满足零条件均值的假定,假定,OLS估计量将和原模型的性质一样好,因为原模型中的误估计量将和原模型的性质一样好,因为原模型中的误差项差项u满足令条件均值假定。因此,如果测量误差满足令条件均值假定。因此,如果测量误差e0也满足零条件也满足零条件均值的假定,那么实际估计模型中的误差项均值的假定,那么实际估计模型中的误差项u+e0就满足零条件均就满足
45、零条件均值的假定。从而,从实际模型中得到的值的假定。从而,从实际模型中得到的OLS估计量就是无偏和一估计量就是无偏和一致的,相应的统计推断也都是有效的。致的,相应的统计推断也都是有效的。 在这种情况下,实际估计模型中的误差项方差:在这种情况下,实际估计模型中的误差项方差: 如果测量误差如果测量误差e0不满足零条件均值的假定,那么只有截距项不满足零条件均值的假定,那么只有截距项会是一个有偏的估计量,通常情况下,这一偏误并不会对我们的会是一个有偏的估计量,通常情况下,这一偏误并不会对我们的解释产生太大的影响。解释产生太大的影响。2220)(ueueuVar也就是说,虽然估计量无偏,但我们面临着更大
46、的估计量方差。也就是说,虽然估计量无偏,但我们面临着更大的估计量方差。2.因变量为对数值形式因变量为对数值形式在因变量为对数值形式时,假定我们要回归的模型:在因变量为对数值形式时,假定我们要回归的模型: uxxxykk22110*log在存在测量误差的情况下,实际回归的模型:在存在测量误差的情况下,实际回归的模型: 022110logeuxxxykk测量误差为测量误差为倍乘测量误差(倍乘测量误差(multiplicative measurement error))log(, 0,0000*aeaayy其中,只要这样一个测量误差与解释变量不相关,只要这样一个测量误差与解释变量不相关,OLS估计量
47、同样是估计量同样是无偏和一致的。无偏和一致的。四、自变量存在测量误差的情形四、自变量存在测量误差的情形假定我们要回归的模型:假定我们要回归的模型:uxy*110至少满足至少满足MLR.1-MLR.4,但因为存在测量误差,自变量,但因为存在测量误差,自变量x1*和它和它的观测值的观测值x1之间存在测量误差之间存在测量误差e1 = x1 x1* ,假定总体中平均的测,假定总体中平均的测量误差为零,也就是量误差为零,也就是E(e1 )=0。1.简单回归模型条件下简单回归模型条件下而且,我们还假定,而且,我们还假定,原模型中的误差项原模型中的误差项u不仅与变量不仅与变量x1*不相关,不相关,与其观测值
48、与其观测值x1也不相关,此时,也不相关,此时, x1可以取代可以取代x1*放入原模型进行放入原模型进行OLS估计,实际估计方程为:估计,实际估计方程为:11110euxy 虽然我们前面假定过虽然我们前面假定过原模型中的误差项原模型中的误差项u不仅与变量不仅与变量x1*不相不相关,与其观测值关,与其观测值x1也不相关,但新的误差项中包含了测量误差也不相关,但新的误差项中包含了测量误差e1 ,因此,实际估计方程中因此,实际估计方程中OLS估计量的性质依赖于我们对估计量的性质依赖于我们对e1和和x1相关相关性的假设:性的假设:11eu111011 111 122221 11(1)cov(,)0()0
49、,cov(,)0,cov()ueux eE uex ueue 时,可以得到和的无偏和一致估计, 因为且 但方差的误差变大了,+在实际估计的模型中,误差项为:在实际估计的模型中,误差项为:11111222111111 11111 1211 1111111(2),cov(,)()()()0,=cov(,)=lim()eeexexxex eE x eE x eE euexuex eOLSp ,经典的含误差变量(CEV)假定:cov()=0 自变量与测量误差肯定相关,因此自变量与合成误差也必然 相关 cov( ,),co 此时估计量是有偏而又不一致的 11111111111 1122211111222
50、2221111var()(1)()0,eexeeexxxxuexOLS v( ,) 此时估计量比更加接近于我们称这一偏误为衰减偏误。 若为正,倾向于低估。 测量误差测量误差e1与变量的实际观测值与变量的实际观测值x1无关,就意味着无关,就意味着OLS估计量估计量具备全部优良性质。更多的情况下,测量误差具备全部优良性质。更多的情况下,测量误差e1虽然与变量虽然与变量x1*无无关,但与实际观测值关,但与实际观测值x1有关,这将会使实际回归模型不满足零条有关,这将会使实际回归模型不满足零条件均值的假定,件均值的假定, OLS估计量会产生偏误。估计量会产生偏误。2.多元回归模型条件下多元回归模型条件下
51、考虑三个解释变量的回归模型:考虑三个解释变量的回归模型:uxxxy3322*110自变量自变量x1*和它的观测值和它的观测值x1之间存在测量误差之间存在测量误差e1 = x1 x1* 因此,实际估计方程为:因此,实际估计方程为:113322110euxxxyu当测量误差当测量误差e1与实际观测值与实际观测值x1无关时,无关时,OLS估计同样是无偏的。估计同样是无偏的。u当测量误差当测量误差e1与实际观测值与实际观测值x1相关时,相关时,OLS估计有偏:估计有偏: 22211*1*1limerrp其中:其中:r1*为方程:为方程:x1*=0+2x2+3x3+ r1*中的总体偏误中的总体偏误当当x
52、1*与与x2和和x3不相关时,不相关时, 和和 是一致的,但这种情况极少是一致的,但这种情况极少出现,一般情况下,所有参数的估计值都是有偏和不一致的。出现,一般情况下,所有参数的估计值都是有偏和不一致的。23第四节第四节 数据缺失、非随机样本和异常观测数据缺失、非随机样本和异常观测一、数据缺失一、数据缺失u如果一个样本缺失了其因变量或自变量中的部分数据,那么这如果一个样本缺失了其因变量或自变量中的部分数据,那么这个样本就不能用到回归分析中。实际上个样本就不能用到回归分析中。实际上stata会直接把缺失数据的会直接把缺失数据的样本观测点直接忽略掉,然后进行回归。样本观测点直接忽略掉,然后进行回归
53、。u如果数据缺失是随机的,那么仅仅相当于相当于减小了样本容如果数据缺失是随机的,那么仅仅相当于相当于减小了样本容量,可能因为样本容量减小而使得估计量的准确度下降,但并不量,可能因为样本容量减小而使得估计量的准确度下降,但并不会影响估计量的无偏性;会影响估计量的无偏性;u但如果数据的缺失并不是随机的,就会使得回归中使用的样本但如果数据的缺失并不是随机的,就会使得回归中使用的样本不满足不满足随机抽样随机抽样的假定,从而造成估计的偏误。的假定,从而造成估计的偏误。二、非随机样本二、非随机样本 一般情况下,因为数据缺失而导致样本非随机,或者因为样一般情况下,因为数据缺失而导致样本非随机,或者因为样本本
54、身就存在非随机现象,都会使得回归不满足本本身就存在非随机现象,都会使得回归不满足MLR.2非随机抽非随机抽样的假定时,样的假定时,OLS估计会存在偏误。但在某些特定情况下,非随估计会存在偏误。但在某些特定情况下,非随机样本即便是不满足非随机抽样的假定,也不会导致机样本即便是不满足非随机抽样的假定,也不会导致OLS估计出估计出现偏误和不一致的情况。现偏误和不一致的情况。1.外生样本选择不会导致外生样本选择不会导致OLS估计出现偏误估计出现偏误u基于自变量的样本选择(例如储蓄函数和基于自变量的样本选择(例如储蓄函数和IQ的例子的例子P313););u决定样本选择的因素独立于总体方程中的误差项。决定
55、样本选择的因素独立于总体方程中的误差项。 2.内生样本选择会导致内生样本选择会导致OLS估计出现偏误和不一致(估计出现偏误和不一致(P313-314)u基于因变量的样本选择:基于因变量某个特定范围选择样本;基于因变量的样本选择:基于因变量某个特定范围选择样本;u故意得到总体的非随机样本,如分层抽样中分层是内生时。故意得到总体的非随机样本,如分层抽样中分层是内生时。 三、异常观测三、异常观测u如果如果OLS估计受一个或几个观测值的影响,就称存在异常数据。估计受一个或几个观测值的影响,就称存在异常数据。u如果将某一个或几个观测点从回归分析中去掉后,如果将某一个或几个观测点从回归分析中去掉后,OLS
56、估计发估计发生较为明显的变化,这一个或几个观测点就是异常数据。生较为明显的变化,这一个或几个观测点就是异常数据。1.异常观测的定义及判断方法异常观测的定义及判断方法2.异常观测出现的原因主要有两个:异常观测出现的原因主要有两个:u数据录入有误;数据录入有误;u总体较小,且总体中一个或几个元素与其他元素差异很大。总体较小,且总体中一个或几个元素与其他元素差异很大。3.异常观测的影响及处理异常观测的影响及处理u异常观测可能带来参数估计的偏误,也可能因为增强了解释异常观测可能带来参数估计的偏误,也可能因为增强了解释变量的变异而提供重要信息,因而决定异常观测的去留是一个变量的变异而提供重要信息,因而决
57、定异常观测的去留是一个复杂的问题复杂的问题;u当一个或几个数据点会显著改变结论时,应同时报告包括和当一个或几个数据点会显著改变结论时,应同时报告包括和不包括这些异常观测的不包括这些异常观测的OLS结果。如果根据直觉可以判断潜在的结果。如果根据直觉可以判断潜在的异常观测值,就能决定是否去掉这个观测值异常观测值,就能决定是否去掉这个观测值。例例9.8 R&D的强度与企业规模(的强度与企业规模(P315)被解释变量:被解释变量:rdintens: R&D支出占销售额的百分比支出占销售额的百分比解释变量:解释变量: sales: 企业销售额(百万美元)企业销售额(百万美元) profmarg: 利润占销售的百分比利润占销售的百分比 _cons 2 2. .6 62 25 52 26 61 1 . .5 58 85 55 53 32 28 8 4 4. .4 48 8 0 0. .0 00 00 0 1 1. .4 42 27 77 71 12 2 3 3. .8 82 22 28 81 1 profmarg . .0 04 44 46 61 16 66 6 . .0 04 46 61 18 80 05 5 0 0. .9 97 7 0 0. .3 34 42 2 - -. .0 04 49 9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国工商银行四川资阳支行春季校招笔试题带答案
- 2024年中国工商银行江苏泰州支行春季校招笔试题带答案
- 2024年中国工商银行广东湛江支行春季校招笔试题带答案
- 2024年中国工商银行安徽宜城支行春季校招笔试题带答案
- 新生儿医源性皮肤损伤的评估及护理试题
- 2025外籍人员劳务合同
- 2025物业委托管理合同模板
- 化工过程安全管理讲座
- 版二手房购买合同
- 2025机械设备购销合同范本3
- 港航实务 皮丹丹 教材精讲班课件 51-第2章-2.5.2-铺面基层施工
- 桥门式起重机拆卸、搬迁、安装施工方案
- Unit 3 Sports and Fitness Reading for Writing 词汇与写作 教学设计-2023-2024学年高一上学期英语人教版(2019)必修第一册
- 灌注桩后注浆施工技术规程1
- 《大数据导论(第2版)》全套教学课件
- 职业病防护设施与个体防护用品的使用和维护
- 新疆能源(集团)有限责任公司招聘笔试题库2024
- AECOPD合并呼吸衰竭护理查房
- 2024年全国高中数学联赛北京赛区预赛一试试题(解析版)
- 2025届新高考化学热点精准复习 高三化学复习备考的方法与策略
- 新高考II卷01(含听力)2024年高考英语一轮复习测试卷(考试版)
评论
0/150
提交评论