版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章 面板数据模型1第一节 面板数据和面板数据模型 混合数据(pooled data)是将横截面数据和时间序列数据结合在一起的数据。 我们在第一章中曾介绍,横截面数据模型使用同一时点不同个体(entity)的观测值,数据可来自不同地区、公司、人员或其它个体;时间序列数据则是跨越不同时期的同一地区、同一公司、同一个人或其它同一个体的数据。 横截面时间序列混合数据则包含不同横截面个体不同时期的数据,或者说,混合数据包含既跨越时间又跨越空间的数据。2 如果混合数据包含的观测值来自同一批地区、公司、人员或其它横截面个体的不同时期数据,则此类混合数据称为面板数据(panel data)。 面板数据通常
2、比非面板混合数据更有用,这是因为面板数据中的地区、公司、人员等横截面个体在各时期中一直保持不变,这使得我们更易于对随着时间的推移所发生的变动进行比较。 我们将基于面板数据的回归模型称为面板数据模型(panel data model)。面板数据模型正在得到日益广泛的应用,文献也很多。限于篇幅,我们在这里只能做一个入门性的介绍。需要深入研究的读者,请参阅有关参考文献。3Baltagi, B. H.(2001),Econometric Analysis of Panel data, (Wiley: Chichester)Hsiao C. (2003), Analysis of Panel Data,
3、 2nd Edition, (Cambridge University Press)影印版由北京大学出版社出版,20054 本章中,我们将用一个贯穿始终的例子来说明估计面板数据模型的各种方法。我们的数据来自以下4个产业: 产业1:钢铁; 产业2:橡胶、塑料; 产业3:石制品、陶瓷制品和玻璃制品; 产业4:纺织模型中用到的变量是: Yit = i产业第t年出口额,单位:百万美元,不变价 EMPit = i产业第t年就业人数,单位:千人 OTMit = i产业第t年平均每周加班小时数5 我们收集了上述4个产业这3个变量19802000各年的数据。事实上,对于这3个变量中的每一个,都有84个观测值(
4、4个产业乘以21年)。由于在每个时期(每一年)都是这4个产业,因此这些混合数据是面板数据,如表91所示。 我们可以通过分别运行4个回归来分析这些数据,每个产业一个回归:6 使用表91的数据估计(9.1)(9.4),由于每个产业有21年的数据,因此每个回归中观测值个数都是21。 这种分别对4个产业进行回归的缺点在于可能错失包含在混合数据集中的那种一个产业影响另一个产业的信息。换句话说,一个产业的数据中可能包含有对于估计其它某个产业的回归系数有价值的信息,而这种分别估计每个产业方程的做法无法利用这些信息,这意味着估计值不够准确。 如果我们能够将4个产业的数据结合在一起,我们的样本规模就会增大,从而
5、可以使用所有可获得的信息估计系数。7 因此,我们需要讨论那些允许我们使用混合数据的全部信息的估计技术,将跨时间跨空间的数据结合在一起,而不是分别进行时间序列和横截面数据的回归。 要做到这一点,最简单的方法是,假定截距和斜率对于所有产业和所有时期都是一样的,进行下面的回归:8 这里每个变量的观测值个数都是84。我们用表91中全部数据估计此方程,结果如下:9 这种方法的致命缺陷是,估计出来的系数只有在我们前面关于截距和斜率对于所有产业和所有时期都是同样的值的假设成立的情况下才有用,实际情况当然不是如此,比如说,很难想象每个时期中每个产业的就业人数与其出口额之间的关系都相同,增加1000名工人对不同
6、产业出口额的影响应当是不同的。 因此,采用模型(9.5)是不合适的,我们下面讨论可用于面板数据模型的其它估计方法。10*第二节 表面不相关回归 泽尔纳(Zellner)提出的表面不相关回归(Seemingly unrelated regression,SUR)是一种可供选择的分析面板数据的方法。 表面不相关回归是一组似乎不相关但实际上相关的回归方程。表面不相关回归方程看上去不相关是因为它们类似于方程(9.1) (9.4)。在前面说到可以分别对它们运行四个回归时,我们事实上有一个冒失而错误的假设:各产业互不相干,因而我们可以分别估计每一个回归方程。 回到方程(9.1) (9.4):11 在表面不
7、相关回归中,各个回归之间实际上确实有关联。表面不相关回归容许各个回归方程的扰动项之间存在跨方程相关,如上面四个方程中的诸u在任何一个时期中不必相互独立,即不同方程的扰动项之间可以存在同期相关。这样,SUR估计程序就可以使用扰动项的相关来改善估计值。12 各个回归之间任何的相关都是有价值的信息,它可能是告诉我们某时期中发生了某些不止影响一个产业的变化或事件,这一变化并没有被任何一个自变量捕捉到,而只能反映在扰动项中。SUR程序用此信息来改善系数估计值。事实上,GLS法被应用来利用这种扰动项中跨横截面个体的相关。 具体来说,在SUR模型中,各个方程的扰动项在时间上是独立的,但在横截面个体间相关,即
8、13 大多数计量经济分析软件都有运行SUR的命令,表面不相关回归步骤如下:1用OLS法分别估计每个方程,计算和保存回归中得到的残差;2用这些残差来估计扰动项方差和不同回归方程扰动项之间的协方差;3上一步估计的扰动项方差和协方差被用于执行广义最小二乘法,得到各方程系数的估计值。 表面不相关回归得到的估计值是一致估计值。 用SUR方法和表91中的数据估计方程(9.1) (9.4),结果如下: 14 初看上去,这些结果似乎是分别回归的结果,但它们不是。跨产业扰动项协方差的估计值被SUR程序用来改善估计值,如前面所说的那样,这是为什么说表面不相关回归实际上是由相关的回归组成。在我们的例子中,SUR结果
9、与四个方程的OLS结果差不多。然而,在很多情况下,表面不相关回归显著改善用最小二乘法得到得估计值。15第三节 固定影响模型 固定影响模型(Fixed effects model)将横截面个体之间的差异解释为截距不同,而斜率系数相同。它处理地区、公司、人员或其它横截面个体之间差异的思路是允许截距变动,不同的横截面个体(如我们例子中的不同产业)的截距是不同的,但每个产业的截距在各个时期则保持不变。 在固定影响模型的假定下,面板数据中所有横截面数据和时间序列数据都可用于同一个回归。固定影响模型类似于上一节中所有数据简单结合在一起的混合模型(9.5)式,不同的是,这里横截面中每一个体有它自己的截距:1
10、6 固定影响模型通过使用虚拟变量的方法来解决截距变动问题。对于我们的例子,有4个产业部门,我们应当设3个虚拟变量,因为设3个就可以区分4个产业的截距,并且,如果设4个虚拟变量的话,我们会掉进所谓“虚拟变量陷阱”,而造成完全的多重共线性。 在固定影响模型中,我们有另一种避开虚拟变量陷阱的方法,就是在模型中去掉常数项 ,然后为每个产业设一个虚拟变量: D11 观测值来自产业1;0 其它产业 D21 观测值来自产业2;0 其它产业 D31 观测值来自产业3;0 其它产业 D41 观测值来自产业4;0 其它产业17 可写出本章例子的固定影响模型如下: 4个产业的截距项分别为 产业1:3 产业2:4 产
11、业3:5 产业4:6 回归结果如下:18 从结果中看到R2很高,对于固定影响模型来说,通常如此。这是因为各截距项虚拟变量捕捉了横截面个体之间的差异。固定影响模型的高R2会造成一种虚假的表象,但实际并不象R2的值所展示的那么好。回归结果中没有给出各虚拟变量系数的t值或标准误差,这是因为EViews软件不报告固定影响模型中虚拟变量的t值或标准误差。19 我们可以利用回归结果来检验4个产业的截距是否相同,原假设和备择假设是: 检验的具体做法与我们在第四章中介绍的涉及多个系数的联合假设检验类似,即首先进行约束回归和无约束回归,然后用得到的两个残差平方和计算F检验量,进行检验。 20 本例中约束回归就是
12、回归(9.5)式: (9.5)式中只有一个截距项,这与本例原假设(各产业截距相等)是一样的。 而无约束回归就是固定影响模型(9.6)式:因为它允许不同产业的截距取不同值。21 约束回归和无约束回归的残差平方和可从(9.5)式和(9.6)式的回归结果中查出,分别为2,675,700,466和790,590,705。 约束的数目为3而不是4,这是因为在原假设中,任何一个虚拟变量的系数,如 ,可取任意值,但其它3个则必须取和 相同的值,这表明有3个约束。 无约束回归的残差平方和的自由度并非n-k-1,而是n-k,这是因为无约束回归模型中没有常数项。本例中F检验量计算如下:22查表,5显著性水平下,F
13、(3,78) =2.77,因为F61.99 Fc2.77,故拒绝原假设H0。 结论:4个产业的截距不全相等。23 由于使用虚拟变量,固定影响模型(9.6)式亦称为最小二乘虚拟变量模型(LSDV模型)。 固定影响模型可通过再加上斜率虚拟变量的办法推广到一般情形。然而,既包含截距虚拟变量又包含斜率虚拟变量的模型几乎等同于各产业分别回归的方法。二者的区别是,加上斜率虚拟变量的固定影响模型中,扰动项方差对于整个样本必须是相同的,因为是一个回归方程。而分别回归,则每个回归的扰动项方差可以不同,即每个产业或每个横截面个体的扰动项方差可以不同。24第四节 随机影响模型 随机影响模型(random effec
14、ts model)像固定影响模型一样,通过允许截距变动来处理横截面个体之间的差异,但变动的数量是随机的。如果横截面个体是随机地被选择出来以代表一个较大的总体,则采用随机影响模型比较合适。不同的横截面个体的不同截距被认为是从一个正态分布总体中随机抽取的。25 固定影响模型假定不同产业截距间的差异是确定的,而不是随机的,它假定截距的不同是因为各产业有一些不同的特性。 随机影响模型则假定我们例子中的每一个产业是从一个总体中抽取的,截距之间的差异是因为随机变差引起的。随机影响模型通常用于诸横截面个体是某个总体的一个样本的情况,例如,家计调查得到的面板数据。 随机影响模型将所有数据放在一起回归,初看上去
15、很像常规的OLS回归:26 这里没有截距虚拟变量,这使得它的自由度要大于固定影响模型。应注意的是,上式中截距项 与OLS回归中的截距项不同,这里 代表的是截距的均值,真实的截距随产业或其它横截面个体而变,产业间截距的差异反映在扰动项u中。 扰动项u有两个分量,其中一个满足OLS关于扰动项的假设条件,另一个分量代表每个产业的截距与截距均值 之间的差异,这个分量不随时间而变,但对于每个产业都不同。由于扰动项的这个分量不随时间而变,因此随机影响模型中的扰动项u将不满足OLS关于各期扰动项互不相关的假设条件,这意味着OLS不能使用。27 很多计量经济软件让你能够方便地运行随机影响模型,步骤如下:对整个横截面时间序列混合样本执行OLS回归;用第一步得到的残差估计扰动项的方差和协方差;用第二步得到的方差协方差估计值执行GLS回归,给出随机影响模型的GLS估计值;某些软件使用第三步的结果,估计每个横截面个体的截距与截距均值的差异。28 将随机影响方法应用于我们的产业模型,回归模型为:此式看上去像是(5)式中OLS回归,所有产业的截距都相同。可是,这里各产业都有自己的截距,截距的均值和真值间的差异包含在扰动项u中。正如上面所说,这意味着扰动项u不满足OLS假设。按前述四步回归,结果如下:29 将随机影响和固定影响的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版节能环保设施运营管理合同范本3篇
- 二零二五年汽车租赁公司兼职司机合同3篇
- 二零二五版家居用品寄售代理合同范本3篇
- 二零二五版草原生态补偿机制承包合同3篇
- 二零二五版插画师合作合同范本-漫画创作合作与版权归属协议3篇
- 二零二五版建筑工程施工企业施工许可证注销合同3篇
- 二零二五版安徽农民工就业跟踪服务合同范本3篇
- 2025版块石石材矿山投资合作合同3篇
- 基于2025年度行业标准的招投标实习合同3篇
- 二零二五年金融创新抵押借款合同范本分享3篇
- 蒋诗萌小品《谁杀死了周日》台词完整版
- TB 10010-2008 铁路给水排水设计规范
- 黑色素的合成与美白产品的研究进展
- 建筑史智慧树知到期末考试答案2024年
- 金蓉颗粒-临床用药解读
- 社区健康服务与管理教案
- 2023-2024年家政服务员职业技能培训考试题库(含答案)
- 2023年(中级)电工职业技能鉴定考试题库(必刷500题)
- 藏历新年文化活动的工作方案
- 果酒酿造完整
- 第4章-理想气体的热力过程
评论
0/150
提交评论