第十二讲_面板数据_第1页
第十二讲_面板数据_第2页
第十二讲_面板数据_第3页
第十二讲_面板数据_第4页
第十二讲_面板数据_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、面板数据回归面板数据回归面板数据是同时在时间和截面上取得的面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(二维数据。所以,面板数据(panel data)也称时间序列截面数据()也称时间序列截面数据(time series and cross section data)或混)或混合数据(合数据(pool data)。)。 面板数据用双下标变量表示。例如面板数据用双下标变量表示。例如 Yit, i = 1, 2, , N; t = 1, 2, , TN表示面板数据中含有表示面板数据中含有N个个体。个个体。T表示时表示时间序列的最大长度间序列的最大长度。 对于样本点来说:对于样本点来说

2、:Stata中面板数据的表示中面板数据的表示companycompanyyearyearinvestinvestmvaluemvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9在在stata中,首先使用中,首先使用xtset命令指定命令指定个个体特征体特征和和

3、时间特征时间特征,然后可以用,然后可以用xtdes命命令显示面板数据的结构。令显示面板数据的结构。use grunfeld,clearxtset company yearxtdes 面板数据的建模方法主要有三种:面板数据的建模方法主要有三种:固定效应回归模型固定效应回归模型随机效应回归模型随机效应回归模型混合回归模型混合回归模型固定效应模型固定效应模型对于特定的个体对于特定的个体i而言,而言,ai 表示那些不随时间表示那些不随时间改变的影响因素,如个人的消费习惯、国家改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称的社会制度、地区的特征、性别等,一般称其为其为“个体

4、效应个体效应” (individual effects)。如果把如果把“个体效应个体效应”当作不随时间改变的固当作不随时间改变的固定性因素,定性因素, 相应的模型称为相应的模型称为“固定效应固定效应”模模型。型。固定效应模型固定效应模型对于固定效应模型,可采用虚拟变量法。对于固定效应模型,可采用虚拟变量法。基本思想:固定效应模型实质上就是在传统基本思想:固定效应模型实质上就是在传统的线性回归模型中加入的线性回归模型中加入 N-1 个虚拟变量,使个虚拟变量,使得每个截面都有自己的截距项。由于固定效得每个截面都有自己的截距项。由于固定效应模型假设存在着应模型假设存在着“个体效应个体效应”,每个个体

5、,每个个体都有其单独的截距项。这就相当于在原方程都有其单独的截距项。这就相当于在原方程中引入中引入n1个虚拟变量(如果省略常数项,个虚拟变量(如果省略常数项,则引入则引入n个虚拟变量)来代表不同的个体,获个虚拟变量)来代表不同的个体,获得每个个体的截据项。得每个个体的截据项。例如:共有例如:共有7个州,方程可以写成:个州,方程可以写成:01112233445566ititiYXDDDDDDu7个州的回归线斜率相同,但截距不同。个州的回归线斜率相同,但截距不同。第第1个州的截距是:个州的截距是:第第2个州的截距是:个州的截距是:第第3个州的截距是:个州的截距是:第第4个州的截距是:个州的截距是:

6、10201302403如何理解个体效应、个体截距项的不同以及如何理解个体效应、个体截距项的不同以及虚拟变量的引入?虚拟变量的引入?我们用一份模拟的数据来分析:我们用一份模拟的数据来分析: use example,clear xtset company year xtdes 1。 画出散点图和拟合线,并建立画出散点图和拟合线,并建立OLS回归回归方程。方程。2。加入虚拟变量,并重新画出建立。加入虚拟变量,并重新画出建立OLS回回归方程。归方程。010203040-2-1012xyFitted valuesreg y x010203040-2-1012xyFitted valuesFitted v

7、aluesFitted valuesFitted valuesgen d1=0gen d2=0replace d1=1 if id=2replace d2=1 if id=3reg y x d1 d2固定效应模型的估计算法固定效应模型的估计算法“个休中心化个休中心化”OLS算法或者组内离差估计法算法或者组内离差估计法假设原方程为:假设原方程为:(式式1)给定第给定第i 个个体,将个个体,将(式式1)两边对时间取平均可得,两边对时间取平均可得,(式式2)(式式1) (式式2),得:,得:可以用可以用OLS方法一致地估计方法一致地估计 ,称为,称为“固定效应估计固定效应估计量量”(Fixed Ef

8、fects Estimator),记为),记为FE由于由于 主要使用了每个个体的组内离差信息,故主要使用了每个个体的组内离差信息,故也称为也称为“组内估计量组内估计量”(within estimator)。)。FE固定效应模型的优势和劣势固定效应模型的优势和劣势面板固定效应模型的面板固定效应模型的优势优势是:即使个体是:即使个体特征特征ui与解释变量与解释变量Xit相关,只要使用组相关,只要使用组内估计量,就可以得到一致估计,即即内估计量,就可以得到一致估计,即即使存在不随时间改变的遗漏变量,也可使存在不随时间改变的遗漏变量,也可得到无偏一致的估计。得到无偏一致的估计。面板固定效应模型的面板固

9、定效应模型的劣势劣势是:模型无法是:模型无法估计不随时间而变的变量之影响,这需估计不随时间而变的变量之影响,这需要用我们后面要讲到的随机效应模型。要用我们后面要讲到的随机效应模型。在交通事故死亡人数中的应用在交通事故死亡人数中的应用由于由于(10. 8)式中的式中的“差分差分”回归只用了回归只用了1982年和年和1988年的数据年的数据(具体讲就是这两年的差额具体讲就是这两年的差额),而,而(10. 15)式中的固定效应回归用式中的固定效应回归用到了所有到了所有7年的数据,因此这两个回归是不同的。由于利用了年的数据,因此这两个回归是不同的。由于利用了更多的数据,因此更多的数据,因此(10. 1

10、5)式中的标准误差小于式中的标准误差小于(10. 8)式中的标式中的标准误差。准误差。固定效应模型的固定效应模型的stata实现实现 use grunfeld,clear xtset company year xtdes xtline invest固定效应模型:固定效应模型:xtreg invest mvalue kstock ,fe回归结果解读回归结果解读1。三个。三个R2哪个重要?哪个重要? 2。固定效应为什么有两个。固定效应为什么有两个F检验?检验?F的的自由度如何得出?自由度如何得出?3。corr(u_i, Xb) 的含义。的含义。4。 sigma_u、sigma_e、rho的含义。的

11、含义。1。因为固定效应模型是组内估计量(离差),。因为固定效应模型是组内估计量(离差),因此,只有因此,只有within是一个真正意义上的是一个真正意义上的R2,其他两个是组间相关系数的平方。其他两个是组间相关系数的平方。2。右侧的。右侧的F统计量表示除常数项外其他解释统计量表示除常数项外其他解释变量的联合显著性。最后一个变量的联合显著性。最后一个F检验,原假设检验,原假设所有所有U_i=0,即不存在个体效应,此时证明,即不存在个体效应,此时证明pooled ols (混合回归)更有效。(混合回归)更有效。首先注意:结果中的首先注意:结果中的u_i不表示残差,而是表示不表示残差,而是表示个体效

12、应。个体效应。3。corr(u_i, Xb) 个体效应与解释变量的相关系数,个体效应与解释变量的相关系数,相关系数为相关系数为0或者接近于或者接近于0,可以使用随机效应模型;,可以使用随机效应模型;相关系数不为相关系数不为0,需要使用固定效应模型。,需要使用固定效应模型。4。sigma_u:表示个体效应的标准差:表示个体效应的标准差sigma_e:表示干扰项的标准差:表示干扰项的标准差rho:rho = sigma_u2 / (sigma_u2 + sigma_e2) 表示个体效应的波动占整个波动的比例。表示个体效应的波动占整个波动的比例。拿到一份面板数据,现在我们有四种方法进拿到一份面板数据

13、,现在我们有四种方法进行估计:行估计:1。当作一份截面数据直接估计,这称为混。当作一份截面数据直接估计,这称为混合合OLS(pooled ols )。2。利用组内离差法进行估计,这被默认为。利用组内离差法进行估计,这被默认为固定效应模型的一般估计方法。固定效应模型的一般估计方法。3。假设有。假设有i个个体,加入个个体,加入i-1个虚拟变量。个虚拟变量。4。为了得到每个个体具体的截距项,加入。为了得到每个个体具体的截距项,加入i个虚拟变量,同时省略常数项。个虚拟变量,同时省略常数项。我们用这四种方法进行估计并比较结果。我们用这四种方法进行估计并比较结果。use invest, clearxtse

14、t company year方法方法1:reg invest mvalue kstockest store ols方法方法2:xtreg invest mvalue kstock,feest store panel_1方法方法3: tab company , gen(d)reg invest mvalue kstock d2 d3 d4 d5 est store panel_2方法方法4:reg invest mvalue kstock d1 d2 d3 d4 d5, nocons est store panel_3est table *, b(%6.3f) star(0.1 0.05 0.0

15、1) 方法方法3还可以用如下简单等价的命令实现:还可以用如下简单等价的命令实现: xi:reg invest mvalue kstock pany 即即LSDV方法或者添加虚拟变量法。方法或者添加虚拟变量法。面板数据格式不符合要求的处理。面板数据格式不符合要求的处理。例如如下表格格式该如何处理?例如如下表格格式该如何处理?处理方法:处理方法:扁平数据变长条数据的命令:扁平数据变长条数据的命令:reshape use invest2,clear edit reshape long invest kstock, i(company) j(year)companycompanyinvest2002i

16、nvest2002invest2003invest2003invest2004invest2004kstock2002kstock2002kstock2003kstock2003kstock2004kstock20041 118.918.919.119.119.619.619.619.616.816.816.716.72 217.417.418.418.418.818.818.118.117.417.417173 3191919.619.620.120.120.220.2171717.117.14 4202020.420.420.320.320.420.417.517.517.317.35 5

17、18.118.118.318.318.418.418.518.516.416.416.116.16 619.719.7202019.919.917.217.216.316.316.316.3时间固定效应回归时间固定效应回归其中其中St是只随时间改变,不随个体改变的变量。是只随时间改变,不随个体改变的变量。 和个体固定效应能控制不随时问变化但个体间不同的变量和个体固定效应能控制不随时问变化但个体间不同的变量一样,时间固定效应能控制个体间相同但随时间变化的变量。一样,时间固定效应能控制个体间相同但随时间变化的变量。 由于新车安全性能的提高是发生在全国范围内的。因此它由于新车安全性能的提高是发生在全

18、国范围内的。因此它们能够减少所有州的交通死亡事故。故把汽车安全性能视为随们能够减少所有州的交通死亡事故。故把汽车安全性能视为随时间变化但对所有州都相同的遗漏变量是合理的。于是加入用时间变化但对所有州都相同的遗漏变量是合理的。于是加入用St表示的汽车安全性能的效应后,得:表示的汽车安全性能的效应后,得:只有时间效应只有时间效应我们暂时假设我们暂时假设Zi不出现,方程变为:不出现,方程变为:013itittitYXSu我们的目的是在控制我们的目的是在控制St条件下估计条件下估计1在上述例子中加入时间固定效应。在上述例子中加入时间固定效应。实际上添加了实际上添加了t-1个时间虚拟变量。主要反映个时间

19、虚拟变量。主要反映随着时间变化的一些特征。随着时间变化的一些特征。 tab year,gen(yr) edit drop yr1 xtreg invest mvalue kstock yr*,fe大部分时间虚拟变量显著,说明随着时间的大部分时间虚拟变量显著,说明随着时间的变动,变动,invest有不断变动的趋势。有不断变动的趋势。个体和时间固定效应(双向固定个体和时间固定效应(双向固定效应模型)效应模型)如果某些遗漏变量不随时间变化但随州变如果某些遗漏变量不随时间变化但随州变化化(如对酒后驾车的文化接受度如对酒后驾车的文化接受度),而其他,而其他遗漏变量不随州变化但随时间变化遗漏变量不随州变化

20、但随时间变化(如国家如国家安全标准安全标准),则在模型中同时加入个体,则在模型中同时加入个体(州州)和时间效应更为恰当,我们称为双向固定和时间效应更为恰当,我们称为双向固定效应模型。效应模型。固定效应模型:固定效应模型: Yit=ai+Xit 1 1+it双向固定效应模型:双向固定效应模型:Yit=ai+t+Xit 1 1+it双向固定效应模型的估计双向固定效应模型的估计双向固定效应模型可以通过加入双向固定效应模型可以通过加入n-1个个体二元变量个个体二元变量和和T-1个时间二元变量进行个时间二元变量进行OLS估计,但这会使解释估计,但这会使解释变量的数目变得极为庞大!变量的数目变得极为庞大!

21、所以一般我们还是采用组内离差法进行估计。所以一般我们还是采用组内离差法进行估计。 方法一方法一:可以通过先从:可以通过先从Y和和X中减去个体和时间平均中减去个体和时间平均值,然后估计被减后的值,然后估计被减后的Y关于被减后的关于被减后的X的多元回归的多元回归方程的方法来估计方程的方法来估计X的系数。这种方法可以避免二元的系数。这种方法可以避免二元变量的出现。变量的出现。 方法二方法二:从:从Y, X和时间指示变量中减去个体和时间指示变量中减去个体(不是时不是时间间)均值然后估计,被减后的均值然后估计,被减后的Y对被减后的对被减后的X和被减后和被减后的时间指示变量的多元回归中的的时间指示变量的多

22、元回归中的k+T个系数。个系数。在交通死亡人数中的应用在交通死亡人数中的应用 上述形式中包含了啤洒税,上述形式中包含了啤洒税,47个州二元变量个州二元变量(州固州固定效应定效应),6个年二元变量个年二元变量(时间固定效应时间固定效应)和截距项,和截距项,所以这个模型的解释变量个数多达所以这个模型的解释变量个数多达55个,这将带来大个,这将带来大量的自由度的损失。因为时间和州二元变量和截距项量的自由度的损失。因为时间和州二元变量和截距项的系数不是我们主要感兴趣的,所以我们在这里没有的系数不是我们主要感兴趣的,所以我们在这里没有列出。列出。 比较参数发现加入时间效应后啤酒税的系数由比较参数发现加入

23、时间效应后啤酒税的系数由-0.66变为变为-0.64,可见加入时间效应对结果影响不大。,可见加入时间效应对结果影响不大。固定效应回归假设和固定效应回固定效应回归假设和固定效应回归的标准误差归的标准误差本章给出的标准误差是利用一般异方差稳健公本章给出的标准误差是利用一般异方差稳健公式计算得到的。当式计算得到的。当T中等大小或较大时,在称中等大小或较大时,在称为固定效应回归假设的五个假设条件下面板数为固定效应回归假设的五个假设条件下面板数据中的这些异方差稳健标准误差都是正确的。据中的这些异方差稳健标准误差都是正确的。固定效应回归假设固定效应回归假设固定效应回归的标准误差固定效应回归的标准误差 如果

24、重要概念如果重要概念10.3中的假设中的假设5成立,则给定回成立,则给定回归变量条件下,误差归变量条件下,误差u在时间上不相关,在这种情况在时间上不相关,在这种情况下如果下如果T中等大小或较大时,则常用中等大小或较大时,则常用(异方差稳健异方差稳健)标标准误差是正确的。准误差是正确的。 如果误差自相关,则常用标准误差公式不正确。如果误差自相关,则常用标准误差公式不正确。理解这一点的一种方法是同异方差做类比。在截面理解这一点的一种方法是同异方差做类比。在截面数据回归中,如果误差异方差,则由于同方差适用数据回归中,如果误差异方差,则由于同方差适用的标准误差是在同方差的错误假设下导出的,因此的标准误

25、差是在同方差的错误假设下导出的,因此是不正确的。类似地,如果面板数据中的误差自相是不正确的。类似地,如果面板数据中的误差自相关,则由于常用标准误差是在它们没有自相关的错关,则由于常用标准误差是在它们没有自相关的错误假设下导出的,因此也是不正确的。误假设下导出的,因此也是不正确的。由于面板数据具有潜在异方差且在给定个休由于面板数据具有潜在异方差且在给定个休的不同时间上潜在相关时,正确的标准误差的不同时间上潜在相关时,正确的标准误差称为称为异方差和自相关一致的标准误差异方差和自相关一致的标准误差(HAC)。这种标准误差由称为这种标准误差由称为群标准误差群标准误差。在时间序列中使用的命令是在时间序列

26、中使用的命令是newey在面板数据中使用的命令是在面板数据中使用的命令是xtgls有关酒后驾车的法律规定和交通有关酒后驾车的法律规定和交通事故死亡人数事故死亡人数酒精税只是抑制酒后驾车的一种方法,如果某酒精税只是抑制酒后驾车的一种方法,如果某州想要打击酒后驾车,可以通过增加税收和严州想要打击酒后驾车,可以通过增加税收和严酷的法律来做到这一点。因此,即使在包含州酷的法律来做到这一点。因此,即使在包含州和时间固定效应的模型中遗漏这些有关酒后驾和时间固定效应的模型中遗漏这些有关酒后驾车的法律也会导致啤酒税对交通死亡事故效应车的法律也会导致啤酒税对交通死亡事故效应的的OLS估计量中存在遗漏变量偏差。此

27、外,是估计量中存在遗漏变量偏差。此外,是否开车也部分取决于司机是否有工作,同时,否开车也部分取决于司机是否有工作,同时,税收变化也反映了经济状况税收变化也反映了经济状况(如州预算赤字会如州预算赤字会增加税收增加税收)。所以遗漏州的经济状况也会导致。所以遗漏州的经济状况也会导致遗漏变量偏差。遗漏变量偏差。本节中我们将前面的分析推广到保持经济状况不变本节中我们将前面的分析推广到保持经济状况不变条件下有关酒后驾车的法律规定条件下有关酒后驾车的法律规定(包括啤酒税包括啤酒税)对交对交通死亡事故效应的研究。为此,我们需要估计包含通死亡事故效应的研究。为此,我们需要估计包含其他酒后驾车法律和州经济状况的回

28、归变量的面板其他酒后驾车法律和州经济状况的回归变量的面板数据回归。数据回归。这些结果刻画了一幅抑制酒后驾车和交通死亡事故这些结果刻画了一幅抑制酒后驾车和交通死亡事故措施引发争议的画面。这些估计值表明严厉的处罚措施引发争议的画面。这些估计值表明严厉的处罚和提高最低法定喝酒年龄对死亡率都不会产生重要和提高最低法定喝酒年龄对死亡率都不会产生重要作用。相反,有证据表明提高类似啤酒税这样的酒作用。相反,有证据表明提高类似啤酒税这样的酒精税会减少交通死亡率。但这个效应的估计仍是不精税会减少交通死亡率。但这个效应的估计仍是不精确的。精确的。随机效应模型随机效应模型对于面板数据而言,除了我们前面讲的混合回对于

29、面板数据而言,除了我们前面讲的混合回归和固定效应模型以外,还存在另外一种模型归和固定效应模型以外,还存在另外一种模型形式:随机效应模型。形式:随机效应模型。为了区别固定效应模型和随机效应模型,我们为了区别固定效应模型和随机效应模型,我们把两个模型的方程分别写成:把两个模型的方程分别写成:1itiititYXu固定效应模型固定效应模型1ititiitYXu随机效应模型随机效应模型两个模型看似一样,但模型形式截然不同:两个模型看似一样,但模型形式截然不同:在固定效应模型中:在固定效应模型中: 作为一个随机变量(解释变作为一个随机变量(解释变量),标示模型的个体效应。量),标示模型的个体效应。而在随

30、机效应模型中:随机误差项分成两部分,一而在随机效应模型中:随机误差项分成两部分,一部分是不随时间变化的误差项部分是不随时间变化的误差项 ,另一部分是随时,另一部分是随时间变化的误差项间变化的误差项 ,即,即其中其中i1itititYXiituitiitu关于随机效应模型:关于随机效应模型:1。随机效应模型将固定效应模型的个体效应。随机效应模型将固定效应模型的个体效应归入到随机误差项中,因此更加灵活。归入到随机误差项中,因此更加灵活。2。固定效应模型通过组内离差的方法消除掉。固定效应模型通过组内离差的方法消除掉不随时间改变的变量,这一方面保证了模型不随时间改变的变量,这一方面保证了模型的无偏性,

31、另一方面模型无法估计不随时间的无偏性,另一方面模型无法估计不随时间改变的变量之影响,这在随机效应模型中可改变的变量之影响,这在随机效应模型中可以实现。以实现。3。回归的结果是随机效应模型的所有的个体。回归的结果是随机效应模型的所有的个体具有相同的截距项,个体的差异主要反应在具有相同的截距项,个体的差异主要反应在随机干扰项的设定上。随机干扰项的设定上。4。由于上述特性,随机效应模型比固定。由于上述特性,随机效应模型比固定效应模型结果更加有效,同时,条件更效应模型结果更加有效,同时,条件更加苛刻。加苛刻。随机效应模型必须满足下列条件:随机效应模型必须满足下列条件:(,)0iitCovX一般在固定效应模型中一般在固定效应模型中(,)0iitCovX随机效应模型:随机效应模型:xtreg invest mvalue kstock ,re

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论