第7章 面板数据模型_第1页
第7章 面板数据模型_第2页
第7章 面板数据模型_第3页
第7章 面板数据模型_第4页
第7章 面板数据模型_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 面板数据模型的分析面板数据模型的分析第一节 面板数据模型简介第二节 固定效应模型及其估计方法第三节 随机效应模型及其估计方法第四节 模型设定的检验第五节 面板数据模型应用实例 第一节第一节 面板数据模型简介面板数据模型简介一、面板数据和模型概述一、面板数据和模型概述 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。简单地讲,面板

2、数据因同时含有时间序列数据和截面数据,所以其统计性质既带有时间序列的性质,又包含一定的横截面特点。因而,以往采用的计量模型和估计方法就需要有所调整。 例1 表1 中展示的数据就是一个面板数据的例子。 表表 1 华华东东地地区区各各省省市市 GDP 历历史史数数据据 单位:亿元 1995 1996 1997 1998 1999 上海 2462.57 2902.20 3360.21 3688.20 4034.96 江苏 5155.25 6004.21 6680.34 7199.95 7697.82 浙江 3524.79 4146.06 4638.24 4987.50 5364.89 安徽 2003

3、.66 2339.25 2669.95 2805.45 2908.59 福建 2191.27 2583.83 3000.36 3286.56 3550.24 江西 1244.04 1517.26 1715.18 1851.98 1962.98 山东 4996.87 5960.42 6650.02 7162.20 7662.10 数据来源:中国统计年鉴1996-2000。 其他类似的例子还有:历次人口普查中有关不同年龄段的受教育状况;同行业不同公司在不同时间节点上的产值等。 这里, 不同的年龄段和公司代表不同的截面,而不同时间节点数据反映了数据的时间序列性。 研究和分析面板数据的模型被称为面板数

4、据模型(panel data model) 。 它的变量取值都带有时间序列和横截面的两重性。一般的线性模型只单独处理横截面数据或时间序列数据,而不能同时分析和对比它们。面板数据模型,相对于一般的线性回归模型,其长处在于它既考虑到了横截面数据存在的共性,又能分析模型中横截面因素的个体特殊效应。当然,我们也可以将横截面数据简单地堆积起来用回归模型来处理,但这样做就丧失了分析个体特殊效应的机会。 面板数据通常分为两类面板数据通常分为两类: 由个体调查数据得到的面板数据通常被称为微观面板(micro panels)。 微观面板数据的特点是个体数N 较大(通常是几百或几千个),而时期数T 较短(最少是2

5、 年,最长不超过10 年或20 年)。 由一段时期内不同国家的数据得到的面板数据通常被称为宏观面板(macro panels)。 这类数据一般具有适度规模的个体N(从7 到100 或200 不等,如七国集团,OECD,欧盟,发达国家或发展中国家),时期数T 一般在20 年到60 年之间。 对于宏观面板,当时间序列较长时需要考虑数据的非平稳问题,如单位根、结构突变以及协整等;而微观面板不需要处理非平稳问题,特别是每个家庭或个体的时期数T 较短时。面板数据的优点()可以控制个体异质性 可以克服未观测到的异质性(unobserved heterogeneity)这种遗漏变量问题。这个异质性是指在面板

6、数据样本期间内取值恒定的某些遗漏变量。(2)面板数据模型容易避免多重共线性问题 面板数据具有更多的信息; 面板数据具有更大的变异; 面板数据的变量间更弱的共线性; 面板数据模型具有更大的自由度以及更高的效率。(3)与纯横截面数据或时间序列数据相比,面板数据模型允许构建并检验更复杂的行为模型。二、一般面板数据模型介绍 用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。 混合(pool)估计模型。 如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。二、一般面板数据

7、模型介绍二、一般面板数据模型介绍 符号介绍:ity因变量在横截面 i 和时间 t 上的数值; jitx第 j 个解释变量在横截面 i 和时间 t 上的数值; 假设:有 K 个解释变量,即Kj, 2 , 1; 有 N 个横截面,即Ni, 2 , 1; 时间指标Tt, 2 , 1。 记第 i 个横截面的数据为 iTiiiyyyy21; KiTiTiTKiiiKiiiixxxxxxxxxX212221212111;iTiii 21 其中对应的i 是横截面 i 和时间 t 时随机误差项。再记 Nyyyy21; NXXXX21; N 21; K 21 这样,y 是一个1TN的向量;X 是一个KTN的矩阵

8、;而是一个1TN的向量。针对这样的数据, 有以下以矩阵形式表达的面板数据模型: Xy (1) 方程(1)代表一个最基本的面板数据模型。基于对系数和随机误差项的不同假设,从这个基本模型可以衍生出各种不同的面板数据模型。最简单的模型就是忽略数据中每个横截面个体所可能有的特殊效应,如假设), 0(2 iid,而简单地将模型视为横截面数据堆积的模型。 几点说明 未观测到的异质性可能不会随着样本的变化而变化,也可能随着样本的变化而发生随机的变化。 不同截距的数据生成过程就是这未观测到的差别不随样本而变化的数据生成过程。 误差成份(error components)数据生成过程就是这未观测到的差别随样本而

9、随机变化的数据生成过程。 在不同截距的数据生成过程中,各自不同的截距都是参数。误差成份模型有两种情况,一是随机的个体效应与解释变量无关,一种是随机的个体效应与解释变量相关。 所谓双因素效应模型,就是在模型中既考虑了不可观测非时变的(个体)异质效应,又考虑了不可观测时变(个体)同质效应的模型。 类似地,双因素效应模型也有固定效应和随机效应之分,如果设定个体效应i 和时间效应t 是确定的,就是双因素固定效应模型;如果设定个体效应i 和时间效应t 是随机的,就是双因素随机效应模型。在实际应用时,模型的正确设定必须进行相关的统计检验。第二节第二节 固定效应模型及其估计方法固定效应模型及其估计方法进一步

10、定义: iiidddDN00000021 id为1TN向量,是一个虚拟变量(dummy variable) 。模型可以再写为: xDy 其中 D 是一个有虚拟变量组成的矩阵。 因此固定效应模型也被称为最小二乘虚拟变量模型(least squares dummy variable(LSDV) model) ,或简单称为虚拟变量模型。 第二步,估计参数。由于已经得到了的估计值,所以的估计就变得比较简单。 )()(1wXYDDD 其实就是用自变量和解释变量的个体均值和w 按下列模型计算出的误差项: wiiiXy 估计量w 和 的方差估计: 122)(XPXsDw iiXXTswi 22 其中2s是对

11、误差项方差的估计量: KNNTxysitwitiit22)( 注注意意:在对误差项方差的估计量中,分母(NT-N-K)反映了整个模型的自由度。有了这些方差的估计量,就可以用传统的 t-统计量对估计系数的显著性进行检验。 同时, 还可以运用下列 F-统计量对jiji, 的原假设进行检验: )/()1 () 1/()(), 1(222KNNTRNRRKNNTNFURU 其中2UR代表无约束回归模型2R, 而2RR为有约束回归模型的2R,约束条件即为原假设。 第三节第三节 随机效应模型及其估计方法随机效应模型及其估计方法一一、随随机机效效应应模模型型的的形形式式 类似固定效应模型,随机效应模型也假定

12、: itiit 但与固定效应模型不同的是,随机效应模型假定i 与it 同为随机变量 随机效应模型可以表达如下: iiiiiXy (18) 其中iy和i 均为1T向量;iX是KT 矩阵;i 是一个随机变量,代表个体的随机效应。 由于模型的误差项为二种随机误差之和, 所以也称该模型为误差构成模型(error component model) 。还假定: (1)i 和itx不相关; (2)0)()(iitEE ; (3)tjiEjit, 0)( ; (4)stjiEjsit或, 0)( ; (5)jiEji , 0)( (6)tiEit,),(22 ; (7)iEi),(22 。 给定这些假设,随机

13、效应面板数据模型也可同样写为: y=X+ 其中 )(iIn,的向量形式与以前相同。是Kronecker乘法符号。 例2 Kronecker乘法: 121212200iiiI 例3 前面的矩阵D也可用Kronecker乘法表示:1TNiID 在这些假设的情况下,简单OLS 估计量仍然是无偏和一致的,但不是有效的。因为: i iIVarTi22)( (19) NNNTIi iIIVar22)( (20) 同一个个体、不同时间节点上的随机误差项之间存在一定的相关性,而 OLS 没有利用方差矩阵中含有的这些信息,因而不再是最有效的估计量。因此有必要采用GLS。 二二、随随机机效效应应模模型型的的估估计

14、计 1.2 和2 已知时直接采用GLS 定义下列符号: TTNTTTTNiiTIiiiiIP1)(1 (21) PIQNT (22) 在以上这些符号的意义下,可以算出-1的计算公式: )(1221PQ (23) 其中2222 T 对的估计直接采用 GLS 方法: yXXXGLS111)( (26) 或 NiiiNiiiGLSyXXX11111 (27) 上述两式是等同的,它们还等同于:在方程(18)两边乘以-1/2,再进行 OLS 估计,即 iiiiiXy 2/12/12/1 (28) 另外,在前面七个假定下,GLS 的协方差矩阵为: 11)()( XXVarGLS (29) 注:GLS 是无

15、偏和有效估计量。 2.2 和2 未知时采用可行的广义最小二乘(FGLS)方法 如果没有2 和2 的信息,就必须要首先运用数据对它们进行估计。因为我们的目的是得到的一致估计值,然后进行 FGLS,所以需要对2 和2 的一致估计。在这种情况下,GLS 估计量是一致的和渐进有效的(asymptotically efficient) 。 一致估计量要求:当样本量趋近无穷大时,估计量同时趋近真实值。在面板数据模型中这就要求N和T分别趋向无穷大,这有时有问题,如例1中,N是固定的,华东六省一市是不能改变的,因此当样本的N和T都比较小时,可以直接采用固定效应模型。第四节第四节 模型设定的检验模型设定的检验一

16、、协方差分析检验二、固定效应和随机效应的检验三、面板单位根和协整检验 模型模型(1)常用的有如下三种情形:常用的有如下三种情形: 对于情形对于情形1,在横截面上无个体影响、无结构变化,则,在横截面上无个体影响、无结构变化,则普通最小二乘法估计给出了普通最小二乘法估计给出了 和和 的一致有效估计。相当于的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。将多个时期的截面数据放在一起作为样本数据。 对于情形对于情形2,称为变截距模型,在横截面上个体影响不,称为变截距模型,在横截面上个体影响不同,个体影响表现为模型中被忽略的反映个体差异的变量的同,个体影响表现为模型中被忽略的反映个体差异

17、的变量的影响,又分为固定影响和随机影响两种情况。影响,又分为固定影响和随机影响两种情况。 对于情形对于情形3,称为变系数模型,除了存在个体影响外,称为变系数模型,除了存在个体影响外,在横截面上还存在变化的经济结构,因而结构参数在不同横在横截面上还存在变化的经济结构,因而结构参数在不同横截面上是不同的。截面上是不同的。jiji ,jiji ,jiji , 经常使用的检验是协方差分析检验,主要检验如下两经常使用的检验是协方差分析检验,主要检验如下两个假设:个假设: H1: H2: 可见如果接受假设可见如果接受假设 H2 则可以认为样本数据符合情形则可以认为样本数据符合情形1,即模型为即模型为,无需

18、进行进一步的检验。,无需进行进一步的检验。 如果拒绝假设如果拒绝假设H2,则需检验假设则需检验假设H1。如果接受如果接受H1,则则认为样本数据符合情形认为样本数据符合情形2,即模型为,即模型为,反之拒绝,反之拒绝H1 ,则认为样本数据符合情形,则认为样本数据符合情形3,即模型为,即模型为。N21N21N21 下面介绍假设检验的下面介绍假设检验的 F 统计量的计算方法。首先计算情统计量的计算方法。首先计算情形形3()的残差平方和,记为的残差平方和,记为 S1 1 ;情形情形2()的残差平方和记为的残差平方和记为 S2 2 ;情形情形1()的残差平方和的残差平方和记为记为 S3 3 。计算计算 F

19、2 统计量统计量 (10.2.7) 在假设在假设 H2 下检验统计量下检验统计量 F2 服从相应自由度下的服从相应自由度下的F分布。分布。若计算所得到的统计量若计算所得到的统计量 F2 的值不小于给定置信度下的相应临的值不小于给定置信度下的相应临界值,则拒绝假设界值,则拒绝假设 H2,继续检验假设,继续检验假设 H1。反之,接受。反之,接受 H2则则认为样本数据符合模型情形认为样本数据符合模型情形1 ,即,即。)1(),1)(1()1()1)(1/()(1132kTNkNFkNNTSkNSSF 在假设在假设H1下检验统计量下检验统计量F1也服从相应自由度下的也服从相应自由度下的F分布,分布,即

20、即 (10.2.8) 若计算所得到的统计量若计算所得到的统计量F1的值不小于给定置信度下的相的值不小于给定置信度下的相应临界值,则拒绝假设应临界值,则拒绝假设H1。 如果接受如果接受H1,则认为样本数据符合情形则认为样本数据符合情形2,即模型为,即模型为,反之拒绝,反之拒绝H1 ,则认为样本数据符合情形,则认为样本数据符合情形3,即模,即模型为型为。)1(,) 1()1() 1/()(1121kTNkNFkNNTSkNSSF Hausman(1978)等学者认为应该总是把个体影响处理)等学者认为应该总是把个体影响处理为随机的,即随机影响模型优于固定影响模型,其主要原因为随机的,即随机影响模型优

21、于固定影响模型,其主要原因为:固定影响模型将个体影响设定为跨截面变化的常数使得为:固定影响模型将个体影响设定为跨截面变化的常数使得分析过于简单,并且从实践的角度看,在估计固定影响模型分析过于简单,并且从实践的角度看,在估计固定影响模型时将损失较多的自由度,特别是对时将损失较多的自由度,特别是对“宽而短宽而短”的面板数据。的面板数据。但相对于固定影响模型,随机影响模型也存在明显的不足:但相对于固定影响模型,随机影响模型也存在明显的不足:在随机影响模型中是假设随机变化的个体影响与模型中的解在随机影响模型中是假设随机变化的个体影响与模型中的解释变量不相关,而在实际建模过程中这一假设很有可能由于释变量

22、不相关,而在实际建模过程中这一假设很有可能由于模型中省略了一些变量而不满足,从而导致估计结果出现不模型中省略了一些变量而不满足,从而导致估计结果出现不一致性。一致性。注注意意:这里的 与前面提到的有所不同,这里 表示的两种估计量协方差矩阵之差(Hausman 的一个基本结论就是有效估计量和其与非有效估计量之差(即:)(GLSw )的协方差等于 0,所以GLSwGLSw varvar)var() , 即: GLSw varvar (36) Hausman 统计量即 Wald 统计量渐进服从自由度为 K 的2 分布: )(2KWd (37) 几点说明 原假设成立时,则随机效应比固定效应更有效。 如

23、果正确的模型是第一个或第二个误差成份数据生成过程,那么Hausman检验能很好地将二者区别开来。 但存在一种可能,解释变量中存在测量误差,这时固定效应和随机效应估计量都是不一致的,但二者导致的偏误有所不同。通常固定效应估计量的测量误差偏误会更大。这时要谨慎对待检验结果。 此时工具变量估计量是更好的选择。在不存在一个好的工具变量情况下,使用随机效应估计量好于固定效应估计量。小结 面板数据是我们有机会避免一种特殊的遗漏变量偏误,如果对同一个个体,被遗漏变量在不同时期保持不变,面板数据集的时间维度就可以控制这种未观测到的异质性。 个体误差成份与解释变量不相关的误差成份DGP的有效估计量,就是成为随机效应估计量的一个可行GLS估计量。它在对观测赋予权重时很好地解释了个人干扰之间的相关性。如果个体误差成份与解释变量相关,那么随机效应就不是一致估计量,此时固定效应再次成为有效的估计量。 到底是设定一个不同截距的DGP还是设定一个误差成份的DGP,主要取决于抽样背景。 建立一个研究建立一个研究10家企业投资需求状况的家企业投资需求状况的Panel Data模型:模型: t =1 , 2 , , 20其中:企

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论