面板数据模型入门讲解_第1页
面板数据模型入门讲解_第2页
面板数据模型入门讲解_第3页
面板数据模型入门讲解_第4页
面板数据模型入门讲解_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十四章面板数据模型在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(PanelData)。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual)。例如城镇居民是一个观测个体,农村居民是另一个观测个体。如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。§14.1面板数据模型一、两个例子居民消费行为的面板数据分析让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型5.1.1)的凯恩斯消费函数就可以表述为:C=。+。Y+£(14.1.1)it01itit£=P+*+u(14.1.2)ititit其中:Cit和Yit分别表示第i个观测个体在第t期的消费和收入。i=1、2分别表示城镇居民和农村居民两个观测个体,t=1980、…、2008表示不同年度。气为经典误差项。在(14.1.2)中,R随观测个体的变化,而不随时间变化,它反映个体之间不随时间变i化的差异性,被称为个体效应。七反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差异是由城镇居民和农村居民的身份或地域差异决定的,它不随时间变化,这种差异性就由R1和P2来反映。同时,对同一种居民,在收入不变的情况下,消费支出还可能随时间的变化而变化,这种变化的来源在于除随机扰动以外经济环境的一些系统性变化,如经济体制的变迁,这种变化是所有居民共同面对的,所导致的居民消费在时间上的差异性就由时间效应人1980、人1981、…、气。。8来反映。实际上,模型(14.1.1)还隐含了一个假定,既假定城乡居民的边际消费倾向相同并且不随时间变化。尽管这一假定不一定成立,但作为熟悉面板数据模型基础知识的例子,我们还是暂且保留这一假定。农村居民收入分析为了考察中国农民收入与农村要素投入结构之间的关系,同样地,我们既可以采用全国的时间序列总量数据进行分析,也可以采用各省市自治区的横截面数据进行分析。但是,如果能够综合各省市自治区的时间序列数据,从而基于面板数据进行分析,一个显而易见的好处就是,我们将会有更多更具体的信息,估计和检验统计量都会有更大的自由度,从而获得更可靠的分析结论。简单而言,由于农村剩余劳动力的存在,影响农村居民收入的要素配置因素可以分为以下几个方面:资本拥有量、投资主体结构、劳动的配置状态等。所以,基于省际面板数据,有研究者建立了如下的面板数据模型:ln(PIC)=P+Pln(CSC)+PRLT+PRCI+s(14.1.3)it01it2it3itit£=p+人+u。itititi=1,2,•••N,t=1,2,•••T其中:picit为地区i在第t期的农村人均纯收入,各年份的现值均按本地区农村消费者价格指数折算为1995年不变价。RLTit为地区i在第t期乡村劳动力中非农产业从业人数与农林牧渔等传统产业从业人数之比。RCIit为地区i在第t期农村集体投资与个人投资的比率。CSCit为估算的地区i在第t期农村人均资本存量。巴和七分别为个体效应和时间效应。巴反映除劳动力分配比例、投资比例、资本存量的影响以外,各省人均纯收入受本省内在因素(如地理位置,经济发展基础等)所导致的不随时间变化的差异性。而时间效应反映除解释变量的影响以外,所有省份农村人均纯收入面对共同的经济环境的变化而形成的时间上的差异性。显然,面板模型与我们以前所学的模型之间的区别,就在于存在个体效应和时间效应。简而言之,剔除了解释变量的影响以后,由个体内部不变的因素所导致的个体之间的差异性,就是个体效应;由所有个体所面对的共同因素所导致的时间上的变化,就是时间效应。二、面板数据的特征及优势基于前面两个例子,我们发现,面板数据既可以看作多个个体时间序列数据的合并,也可以看作多个时点横截面数据的合并。所以,面板数据的基本特征就是其数据结构的二维性(图14.1.1)。或者说,面板数据是一个数据平面,这也正是其被以“面板”命名的原因。图14.1.1变量X的面板数据结构那么,有读者会说,我们可以基于全国的总量数据(城镇居民和农村居民数据加总)来分析中国居民的消费行为,为什么要使用面板数据呢?实际上,使用面板数据会为我们的计量经济学分析带来很多的好处。(1)扩大信息量,增加估计和检验统计量的自由度。显然,与时间序列数据和横截面数据不同,面板数据是二维数据。它既包含观测同一个体随时间的变化,也包含同一时间不同个体之间的差异。这显著扩大了样本的信息量和样本容量,有助于提高参数估计的精度和检验结论的可靠性。对模型(14.1.1)而言,如果我们基于居民的时间序列数据进行分析,样本容量为29。而基于城镇和农村的面板数据,样本容量则为58,如果基于省市区的面板数据,样本容量将更大,模型估计量和检验统计量的自由度显著增加。更重要的是,基于总量数据进行分析,无法反映两种居民之间的差异性,其数据信息对于两种居民都有显著的偏差。(2)有助于提供动态分析的可靠性。基于单个个体的时间序列数据进行动态分析,一方面会受到采样区间的限制,另一方面其研究结论也缺乏普适性。而基于面板数据,则可以在较短的采样区间内反映多个个体共同的动态变化特征,从而弱化样本区间的制约得到更为可靠的分析结论。当我们在模型(14.1.1)中引入预期因素时,其回归模型被表述为:C=P+。Y+。C+&。(14.1.4)it01it2i,t-1it如果使用总量数据,我们只能根据不同年度消费额的变化信息来估计消费的动态性质,而使用面板数据,我们有两种居民消费的变化信息可供利用。(3)有助于反映经济结构、经济制度的渐进性变化。对于所考察的经济体系而言,经济结构和经济制度的变化通常是渐进性的,我们很难找到一个量化的指标来反映这种渐进性变化。幸运的是,使用面板数据时,时间效应是被解释变量中不随个体变化而只随时间变化的部分,它反映了所有个体所面对的共同因素的影响。所以,时间效应是对经济结构和经济制度渐变效应的一个很好的度量指标。(4)面板数据有助于反映经济体的结构性特征。与总量数据相比,面板数据提供了更具微观层次的信息。对很多经济问题的分析而言,某些变量涉及不同观测个体之间的相互关系,例如资本和劳动在区域和产业之间的流动,技术的溢出,通胀的相互影响等。使用面板数据使得这些结构性变化信息的分析成为可能。三、面板数据模型的混合估计既然面板数据有诸多优势,那么,面板数据模型的分析与时间序列或横截面数据模型有什么不同呢?在(14.1.1)和(14.1.3)中,如果假定个体效应和时间效应为0,那么,这些模型与我们前面所熟悉的单方程模型没有任何本质上的差异。所以,我们可以直接基于OLS对其进行估计。也就是说,我们没有考虑面板数据的结构特殊性,而直接把各时间序列或各横截面数据混合起来进行估计,这种估计方法我们称之为面板混合OLS估计。对于模型(14.1.3),如果假定个体效应和时间效应为0,则模型可以表述为:ln(PIC)=P0+P1ln(CSC)+P2RLT+P3RCI+u(14.1.5)其中:PIC=(PIC”…PIC1T…PIC…PICN1…PICNT)',PICit为地区i在第t期的农村人均纯收入。也就是说,我们将各个地区的数据堆积起来,看成是对同一个对象的观测数据。其他变量的向量表述也是类似的。如果u为经典误差项,这一模型与第五章所讲的多元线性回归模型没有任何本质区别,其OLS估计量是线性无偏最优估计量。基于中国28个省市自治区(不包括重庆、海南、西藏)1995〜2005年的面板数据,其面板混合OLS估计的结果为:ln(PIC.)=7.8158+0.35911ln(CSC)+02523RLT-0.0104RCI(14.1.6)t统计值202.273017.25205.7464-3.1736p值0.00000.00000.00000.0017R2=0.8409R2=0.8393。但是,对面板数据而言,把个体效应和时间效应假定为0一般是不符合经济现实的,尤其是个体效应。我们很难想象各地区农村居民的消费特征不存在差异性。当我们考虑个体效应与时间效应时,我们会发现,面板数据在为我们带来更多信息和便利的同时,也带来了一些新的问题。§14.2固定效应与随机效应面板数据模型的一般形式可以表述为:Y=P+PX+PX+&(14.2.1)it011itKKitit£=p+人+u。itititi=1,2,…,Nt=1,2,…,T。其中:u为经典误差项。E3)=0,E(人)=0,E(pu)=0,E(人u)=0。ititiittit我们已经知道,与时间序列数据或横截面数据的单方程模型相比,面板数据模型唯一的不同之处就是存在个体效应p和时间效应人。根据p和人与模型解释变量是否相关,面板数itit据的个体效应和时间效应又分为两种情形:固定效应和随机效应。如果个体效应p.与模型中的解释变量是相关的,我们就称这种个体效应是固定效应(FixedEffect)o反之,如果个体效应P.与模型中的解释变量不相关,我们称之为随机效应(RandomEffect)。同样地,如果时间效应人与模型中的解释变量是相关的,我们就称这种时间效应是固t定效应。反之,则为随机效应。例如:在模型(14.1.1)中,如果个体效应P与收入Y相关,时间效应人与收入Y不iittit相关,那么,该模型的个体效应是固定效应,时间效应是随机效应。如何理解固定效应和随机效应的含义呢?当个体效应与解释变量相关时,因为解释变量反映观测个体的个性化特征,所以,此时的个体效应反映了观测个体的个性化特征。或者说,此时个体效应的差异与观测个体的特征有内在的联系,所以,我们可以称这种效应是“固定”的。相反,如果个体效应与解释变量不相关,则说明个体效应的差异与观测个体的特征没有显著的内在联系,在某种程度上,这种个体差异有可能是“随机”产生的。同样,时间效应的固定效应是指时间效应在时间上的差异是与特定观测时间的经济背景有内在联系,而其随机效应则是指时间效应在时间上的差异是“随机”产生的。§14.3静态面板数据模型的估计对于面板数据模型(14.2.1),我们首先考虑解释变量中不含被解释变量滞后项的情形,这样的模型我们称之为静态面板数据模型。当个体效应已和时间效应七是固定效应和随机效应时,模型所面对的计量经济学问题是不同的,其估计方法也不同。一、静态面板数据模型的固定效应估计如果个体效应P,和时间效应七满足固定效应假定,显然此时模型的随机误差项£讶与解释变量相关,它违背了高斯一马尔可夫定理对“解释变量与误差项不相关”的假定,根据我们在模型设定和联立方程中所学的知识,此时模型中参数的OLS估计量是有偏的。显然,固定效应面板数据模型的本质问题是解释变量的内生性问题,其后果是OLS估计量不再是无偏的估计量。既然OLS估计量是有偏的,我们就需要新的无偏估计量。对于固定效应的静态面板数据模型,其线性最优无偏的估计方法是最小二乘虚拟变量法(LSDV方法)。1.LSDV估计方法为了表述简便,我们以后不考虑时间效应,而只考虑个体效应。我们基于如下的一元静态面板数据模型来说明LSDV估计的基本思路:七=00+P1Xt+七(14.3.1)&.=p.+u。i=1,2,…,Nt=1,2,…,T。(1)为每一个个体设定一个虚拟变量D〔,i=1,2,…,N。其中:D=1表示第i个观测个体,D=0表示不是第i个观测个体。(2)在模型中引入虚拟变量,通过虚拟变量使个体效应显性化(参数化),则模型(14.3.1)可表述为:Y=P+pD+—pD+。X+u(14.3.2)it011NN1itit为了解决虚拟变量的完全多重多重共线性,我们可以直接估计模型:Y=p*D+—+p*D+PX+u(14.3.3)it11NN1itit或Y=0+pD+—pD+pX+u(14.3.4)it022NN1itit此时,模型的误差项是经典误差项气七,所以,我们可以直接对(14.3.3)或(14.3.4)进行OLS估计。读者应该可以理解,(14.3.3)和(14.3.4)是等价的,尽管个体效应的估计值不相等。实际上,鉴于个体效应只是反映个体之间的差异性,其数值本身的大小是没有经济意义的,我们所关心的只是数值的差异。最后,让我们总结一下LSDV估计的基本思想:通过虚拟变量把误差项中与解释变量相关的个体效应和时间效应参数化,把个体效应和时间效应从误差项中分离出来,使误差项与解释变量不相关,以便进行OLS估计。这正是其被称为最小二乘虚拟变量法的原因。回到中国农民纯收入的例子。基于中国的省际面板数据,对模型(14.1.3)进行LSDV估计,为简便起见,我们在此仅考虑个体效应,其具体估计结果为:ln(PIC.)=7.9488+0.41781ln(CSC)+0.0681RLT;+0.0009RCI(14.3.5)t统计值310.558235.08072.11780.6352p值0.00000.00000.03510.5258显然。LSDV估计结果(14.3.5)不同于混合OLS估计结果(14.1.6),尤其是RCI.系数的估计结果由显著的负值变为不显著的正值。估计结果的显著不同本在我们的意料之中,因为混合OLS估计的实际上是受约束模型,即P.=气=0约束下模型。细心的读者可能已经注意到,在(14.3.5)的估计结果中,我们没有报告模型的判定系数R2。原因在于,对于考虑了个体效应或时间效应的面板数据模型而言,R2不能反映解释变量对被解释变量变化的解释能力。因为,此时的模型包含了个体效应和时间效应对被解释变量变化的解释,其判定系数也包含了个体效应和时间效应的贡献,而不只是解释变量的贡献。2.LSDV估计方法的直观含义根据我们在第五章中对多元回归方程估计思想的解释,对模型(14.3.3)我们还有一种等价的估计方法。这种等价方法的步骤是:(1)分别估计方程:Y=\D+…+人D+&(14.3.6)it11NNitXt=y1D]+…+YnDn+Ct(14.3.7)一人r得到残差&.和匚。itit(2)估计方程:亍c/E=BC+u(14.3.8)it1itit此时,(14.3.8)对P]的估计与(14.3.3)的LSDV估计是等价的。我们注意到,在步骤(1)中,对每一个个体i而言,只有Dj=1,其他虚拟变量都等于0,既D函=0。以i=1为例,回归方程(14.3.6)可以写成:Y=X+E1该方程的残差就是被解释变量的离差。所以,七二Y1t-TXY,它是在第1个个体内部t=1'•求变量Y的离差。同样的,匚t是在第1个个体内部求变量X的离差。由此,我们发现,(14.3.8)实际上是变量Y的个体内离差对变量X的个体内离差进行回归。所以,LSDV估计方法的直观含义是,将被解释变量和解释变量在个体内取离差,以被解释变量的个体内离差对解释变量的个体内离差进行回归,并进行OLS估计。在分析农民纯收入的例子,如果我们将所有变量ln(PIC)、ln(CSC"、RLT\、RCI的样本数据都转换为省内离差的形式,那么,我们对模型直接进行OLS估计,其斜率系数的估计结果与(14.3.5)的结果是相同的。二、静态面板数据模型的随机效应估计如果个体效应七和时间效应七满足随机效应假定,显然此时模型的随机误差项七与解释变量不相关,此时模型中参数的OLS估计量仍是无偏的。但是,由于个体效应巴的存在,同一观测个体的误差项都包含不随挤时间变化的巴,从而导致同一时间序列样本数据存在自相关。同样地,由于时间效应七的存在,同一横截面的误差项都包含不随个体变化的七,从而导致同一横截面样本数据存在自相关。我们知道,此时尽管OLS估计量是无偏的,但却不是最优的,OLS估计量有较大的方差。显然,随机效应面板数据模型的本质问题是误差项的自相关问题,其后果是OLS估计量有较大的方差。既然随即效应问题的本质是自相关,在自相关一章中,我们已经知道,修正自相关的影响需要采用GLS估计。所以,对于随机效应的静态面板数据模型,其线性无偏最优的估计方法是广义最小二乘估计法(GLS)。再次回到中国农民纯收入的例子。基于中国的省际面板数据,在仅考虑个体效应的情况下,我们对模型(14.1.3)进行GLS估计,其具体估计结果为:ln(PIC)=7.9436+0.41601ln(CSC)+0.0750RLT+0.0007RCI(14.3.9)ititititt统计值202.129735.31932.42890.4921p值0.00000.00000.01570.6230就本例而言,(14.3.9)和(14.3.5)的估计结果比较接近,但还是有些许差异。既然固定效应模型应该使用LSDV估计,而随机效应模型应该采取GLS估计,那么,当我们面对一个面板数据模型时,到底是用LSDV方法呢?还是选用GLS方法呢?一方面,我们可以基于固定效应和随机效应的含义,结合回归模型所要研究的经济问题,从问题的经济背景来进行判定。另一方面,我们可以根据样本数据,通过具体的检验统计量来进行检验。三、豪斯曼检验要想固定效应和随机效应作出判定,我们首先要明确两种估计量在不同情形下的性质。如果模型中的个体效应或时间效应是固定效应,那么,LSDV估计量是无偏的估计量,而GLS估计量则是有偏的。反之,如果模型中是随机效应,那么,LSDV估计量和GLS估计量都是无偏的,但LSDV估计量有较大的方差。鉴于两种估计量的上述特征,我们发现,如果是随机效应模型,LSDV估计量和GLS估计量的估计结果就比较接近,反之,如果是固定效应模型,两种估计量的结果就有较大的差异。豪斯曼检验正是基于这种思想来检验随机效应和固定效应的。豪斯曼检验的待检验假设为:原假设(H0):随机效应备选假设(Ha):固定效应其检验统计量为:h二(6—B)变)-1(6—B)(14.3.10)FRFREFR其中:6为回归系数的LSDV估计向量,&为回归系数GLS估计向量,寸为LSDV估FRF计系数的协方差矩阵估计量,£为GLS估计系数的协方差矩阵估计量。R在原假设(随机效应)为真时,豪斯曼检验统计量服从X2分布。即:H~x2(K)(14.3.11)自由度K为模型中解释变量(不包括截距项)的个数。还是回到中国农民纯收入的例子。在仅考虑个体效应的情况下,我们对模型(14.1.3)进行豪斯曼检验,检验结果为:H=4.1777p值=0.2429。显然,根据检验结果,我们无法拒绝随机效应的原假设。所以,从豪斯曼检验结果来看,中国农村居民收入模型中的个体效应很可能是随机效应。§14.4动态面板数据模型简介如果面板数据模型的解释变量中包含被解释变量的滞后项,我们则称其为动态面板模型。仅包含被解释变量一阶滞后时,动态面板模型的一般表述形式为:Y=6+6X++6X+pY+8。(14.4.1)it011itKKiti,t-1it随着滞后被解释变量作为解释变量出现在模型中,由于个体效应的存在,模型解释变量无法满足严格外生性的条件,从而导致LSDV估计和GLS估计都是有偏的。在§14.1的消费函数例子中,考虑了预期因素的模型(14.1.4)就是一个典型的动态面板数据模型。首先,我们暂不考虑外生的解释变量和截距项,鉴于动态面板数据模型特有的估计问题仅与个体效应有关,为了使表述简化清晰,在后面的分析中,我们将仅考虑个体效应,而不再考虑时间效应。即模型(14.4.1)的误差项被设定为:yit=py,t—1+8it(14.4.2)8『+U其中:u为经典误差项。E3)=0,E(pu)=0。itiiit一、动态面板数据模型的内生性问题在动态面板数据模型中,无论个体效应是固定效应还是随机效应,固定效应的LSDV和随机效应的GLS估计都是有偏的并且非一致的①其原因在于,动态面板数据模型存在固有的内生性问题。GLS估计的有偏和非一致性对于GLS估计,模型(14.4.2)的内生性问题是显而易见的。因为解释变量K与误i,t-1差项e都包含个体效应R。即使进行差分变换,△Y=Y-Y与曷=u-u,itii,t-1i,t-1i,t-2ititi,t-1都包含共同因素",我们也还是无法消除解释变量的内生性问题。理解这一问题,需要i,t-1注意".是Y的构成部分。i,t-1i,t-1LSDV估计的有偏和非一致性对于LSDV估计,模型(14.4.2)可以表示为:Y=日DI++日DI+pY+u(14.4.3)it11NNi,t-1it它等价于模型:Y*=pY.t「+8^(14.4.4)其中,符号“*”表示变量的样本数据相对于对本观测个体时间序列均值的离差。即:Y*=Y-—Y,8*=8-—8。i,t-1i,t-1Ti,tititTit显然,七、和七*是相关的,二者都包含误差七一,七一在七、中的权重是(1—1/T),在8*中的权重是1/T。所以,LSDV估计方法也无法消除动态面板模型的内生性问题。it由于动态面板模型固有的内生性问题,一般而言,我们通常有三种方法估计动态面板数据模型:GMM方法、偏误直接修正方法、变换的似然方法。目前应用最多的估计方法则是GMM方法。二、动态面板模型的广义矩估计方法(GMM)对于一阶自回归的动态面板数据模型(14.4.2):yit=py.七-1+8it(14.4.2)@ChengHsiao,AnalysisofPanelData,北京大学出版社,2005,pp70-85.其中:u为经典误差项。E3)=0,E(日u)=0o我们已经知道,动态面板模型的yitiiiti,t—1和七是相关的,而且LS其中:u为经典误差项。E3)=0,E(日u)=0o我们已经知道,动态面板模型的yitiiiti,t—1和七是相关的,而且LS估计(无论是LSDV还是GLS)都是有偏并且非一致的。如果要想得到P的一致估计量,我们需要为y.,t-1寻找适当的工具变量。根据工具变量的选择的两个条件,我们要找的工具变量必须与匕不相关而与y,t-1相关。基于给定的样本信息,我们所能够找到的与y高度相关的变量只有yi,t—1i,t—1的滞后项。但是,由于个体效应的存在,y,.1的滞后项即y「J。、…、J-也与£相关,它们不it能作为工具变量使用。为了能够找到适当的工具变量,我们对模型(14.4.2)取一阶差分:Aj.=pAj.+Aeo(14.4.5)显然,y、y、…、y与Ae不相关。因为Aei1i2i,t—2it—u,t—1已经剔除了个体效应口i,同时,对于七和u.,t—1,"y2、…、y,t—2都是前定变量。所以,"y2、…、y,t—2都与&.t不相关,都可以作为模型(14.4.5)中与的工具变量。i,t—1如果我们只选择%—2作为少i,t—1的工具变量,由y,t—2与&•,之间正交的约束条件:E(yt—2Ae)=0,it(14.4.6)1zzNTyA£i,t—2it(14.4.7)就可以得到P的估计量。。这就是我们前面所学过的工具变量估计量(IV估计量)。我们知道,工具变量不但要求与模型的误差项不相关,而且,要尽可能地反映原内生解释变量的信息。显然,y.,,—之很难反映X,,—1太多的信息,^估计量会有较大的估计方差。所以,我们通常会选择y,1、y2、…、y,t—2作为模型(1445)中华一】的工具变量。我们把Ay的工具变量集定义为Jt-2=(y,y,,y)',则其满足如下的正交,t—1i1i2i,t—2条件:E(”As)=0。(14.4.8)it基于上述正交条件,我们就可以建立P的广义矩(GMM)估计量②因为我们首先对模型进行了一阶差分变换,所以,该估计量有时也被称为差分GMM估计量。在此,我们简要地介绍GMM估计的基本思想。先回头看一下工具变量估计量,我们基于(14.4.7)这一个约束方程估计一个参数P,所以,我们可以通过(14.4.7)的求解计算出P。当我们为解释变量A选取了多个工具变量时,(14.4.8)所表示的是多个约束方程,i,t-1在此,我们并不具体地讨论(14.4.8)的约束形式,但至少我们已经注意到yt-2是一个向量。所以说,基于(14.4.8)的估计,我们实际上就等于是基于多个方程估计一个参数P。这样的情况被称为过度识别。对总体而言,(14.4.8)的所有约束方程都是成立的。g(P)三y-2Ait被称为总体矩,我们称(14.4.8)为总体矩条件。针对一个给定的样本,因为存在多个约束方程,我们通常不可能用一个估计值P保证所有的约束方程都成立。也就是说,E(yt-2A)所对应的样本矩通常不为0。我们只能选it择一个P,使所有样本矩尽可能地接近0。对每一个工具变量,或者说每一个总体矩条件,我们都可以计算出对应的样本矩的值。所有样本矩的值可以表示为一个向量g(P)。那么,我们的估计思想就很明确了,我们要基于一个样本,寻找一个估计值P,使所有样本矩尽可能接近0,以满足总体矩的约束条件。对应于所有的矩约束条件而言,我们的目标就是:最小化所有样本矩的平方和。即:(14.4.9)minG=lg(P)Wg(P)]AP其中:函数G被称为GMM目标函数。W是一个对称、正定的加权矩阵。所以,GMM目标函数实际上是所有样本矩的加权平方和。(14.4.9)是否引入加权矩阵W并不影响GMM估计量的一致性。但会影响到有限样本下的估计精度。其最优的选择是使用总体矩协方差逆矩阵Q-1=E(g(P)'g(P))L的一致估计量。显然,引入这样的加权矩阵是为了修正样本矩之间相关性和异方差的影响。②Arellano,M.andBond,S.R.,1991,SomeTestsofSpecificationforPanelData:MonteCarloEvidenceandanapplicationtoemploymentequations,ReviewofEconomicStudies,58,277-297.简而言之,GMM估计的基本思想就是:加权以后样本矩的平方和最小化,即GMM目标函数G最小化。三、工具变量的选择及其有效性的检验关于GMM工具变量选择的两点说明(1)在为动态面板模型的GMM估计选择工具变量时,我们需要在估计量的偏误和方差之间进行权衡。随着矩条件或者说工具变量个数的增多,估计量的方差减小而偏误增大,反之,方差增大而偏误减小,二者之间存在此消彼涨的权衡关系。所以,在GMM估计的实际应用中,我们通常会选择七,、…、七一2作为△匕_]的工具变量,1<s<t-2。也就是说,我们只选取相邻较近的滞后变量作为工具变量,而不再用更早期的那些滞后项。(2)另一个需要说明的问题是,如果模型中包含了外生解释变量,例如X.,那么我们所要分析的模型为:七二py.t1+aX.t+£t(14.4.10)8『+U其差分形式为:Ay.t=pAy.「1+aAX.t+Ae讶(14.4.11)此时,gmm工具变量如何选择呢?Ay.t1的工具变量选择如前所述,外生变量AXt、X^显然都可以作为AX的工具变量。it工具变量有效性检验当我们为一个解释变量选择了多个工具变量时,那么工具变量的个数就会超过待估参数的个数,也就是说矩约束条件的个数超过了待估参数的个数,导致模型的过度识别。那么,过度识别的矩约束条件是否是有效的呢?也就是说,这些工具变量是否与误差项不相关,从而是否保证矩约束条件(14.4.8)成立呢?对此,我们可以用J检验进行判定。实际上,J检验统计量就是根据参数估计值得到的GMM目标函数值。在原假设一一“过度识别的矩条件是有效的”成立的情况下,J检验统计量的极限分布是X2分布。即:Tzr?x・wzr?xzfxJ=mg(P)Wg(P)〜X2(m-k),(14.4.12)a

其中:m为工具变量或者矩条件个数业为待估计参数的个数。W为mxm的加权矩阵,g(P)为根据参数向量估计值G得到的样本矩的均值。对模型(14.4.11)而言,6=(P&)'。当J统计值大于给定显著性水平下的临界值时,我们就倾向于拒绝过度识别的矩条件有效的原假设。回到农村居民收入的例子,考虑到一个地区农村居民收入会表现出一定的动态惯性特征,我们有必要在模型(14.1.2)中引入被解释变量的滞后项,即:(14.4.13)log(PIC)=Zpylog(PIC)iti=1li,t-l+6log(CSC)+6RLT+6RCI+6+£1it2it3it0it其差分GMM估计的具体结果为:(14.4.13)log(PIC)=0.4865log(PIC))+0.1472log(CSC)+0.1674RLT+0.0015RCI+P0(14.4.14)t值p值就这一估计结果来看,在中国农村居民的收入分析中,动态影响是显著的。显然,无论24.66560.000013.9010log(PIC)=0.4865log(PICt值p值就这一估计结果来看,在中国农村居民的收入分析中,动态影响是显著的。显然,无论24.66560.000013.90100.0000012.29352.02190.00000.0443在理论上还是就统计推断而言,在模型(14.1.2)中引入动态效应的分析都是恰当的。而且,考虑到动态效应的估计结果与静态模型有显著差异,尤其是投资主体结构变量RCI讶的系数估计值变为了显著的正值。那么,本模型过度识别的矩约束条件是否是有效的呢?在本例中,解释变量的工具变量集为(log(PIC)、log(PIC)、…、log(PIC),log(CSC),RLT,RCI),工z1i2i,t-2ititit具变量矩阵的秩(全部工具变量个数)为28。因为基于一阶差分进行估计,没有估计截距项和个体效应的值,所以待估计参数个数为4。如果过度识别的矩约束条件是有效的,那么,模型的J检验统计量应该服从自由度为28-4=24的X2分布。根据式(14.4.14)计算的J检验统计值为:J=25.2211,根据X2(24)分布计算的p值为0.3938。统计推断,为0.3938。统计推断,四、例子:新凯恩斯混合四、例子:新凯恩斯混合Phillips曲线的估计让我们重新回到第四章一开始所介绍的新凯恩斯混合Phillips曲线的例子。基于面板数据,新凯恩斯混合Phillips曲线的回归方程可以表述为:兀=a+y兀+YE兀+ymc+£(14.4.15)it0bi,t-1fti,t+1yitit其中:对第i个经济个体,*表示第t期的通货膨胀率,EF心是第t期对t+1期的通胀率预期。mc^是厂商真实边际成本相对于其最优状态的偏离程度,目前文献通常选取劳动份额指标作为真实边际成本的替代变量。在此,我们使用1992〜2007年中国大陆29个省市区(不包括海南、重庆)的统计数据对模型(14.4.15)进行估计。其中:基于CPI计算通货膨胀率,并使用第t+1的实际通胀率作为第t期的通胀率理性预期气兀国。由于中国经济具有非常明显的二元经济结构特征,在模型中可以同时选择了第一产业和第二、三产业的劳动份额指标的自然对数(LLS1和LLS23)作为真实边际成本的反映指标。基于差分GMM方法对模型(14.4.15)进行估计,具体估计结果为:71=&+0.5562丸+0.5626E丸+2.3529LLS1+2.9418LLS2it0i,t—1ti,t+1itit(14.4.16it0i,t—1ti,t+1itit(14.4.16)七值=186.8387109.681219.796012.8279?值=0.00000.00000.00000.0000仅就这一估计结果而言,在中国通货膨胀的动态变化中,适应性预期和理性预期共存,二者的影响大致相当。经济的短期波动对通胀具有显著影响。可能有的读者会问,为什么没有兀讶的更高阶滞后项出现在方程中呢?事实上,我们确实可以将兀乃至更高的滞后项引入回归方程,不过,对本样本而言,当在模型中引入i,t-2兀.时,其系数估计值为负,所以,我们所需估计的模型应该只包含兀.。i,t—2i,t—1根据估计结果,兀很—1和E兀诅+1的系数估计值分别为0.5562和0.5626,二者之和为1.1188。可能读者会认为:中国的新凯恩斯混合Phillips曲线可能满足凸组合假设,即气,—1和E兀诅+1之和为1。但是,F检验统计量的值为322.0894,相对于分布F(1,373),其p值为0.0000,所以,F检验的结果是:拒绝其满足凸组合的原假设。在本例中,解释变量的工具变量集为(兀、兀、…、兀,E兀,LLS1,LLS23),i1i2i,t—2tit+1ltlt工具变量矩阵的秩(全部工具变量个数)为29。因为基于一阶差分进行估计,没有估计截距项和个体效应的值,所以待估计参数个数为4。显然,模型存在过多的矩约束条件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论