面板数据相关资料_第1页
面板数据相关资料_第2页
面板数据相关资料_第3页
面板数据相关资料_第4页
面板数据相关资料_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面板数据I一一变截距模型

1.1PooledCrossSection数据

Pooledcrosssection数据是指不同时点(可能)不同截面的数据。而面板数据是指不同时

点相同截面的数据。在面板数据中,同一截面不同时点的观测值不会是独立的。因为,这些

数值可能受到共同因素的影响。Paneldata也叫做longitudinaldata。

混合数据增加了样本容量,因此提高了估计的精度和检验功效。同时,混合数据也被用

于考察变量分布随着时间的变化,或者变量之间的关系随着时间的变化规律。考察的方法是

加入时间虚拟变量。

例:NationalOpinionResearchCenter*sGeneralSocialSurvey搜集了1972~1984年妇女就业、

家庭等相关数据。利用数据分析家庭小孩个数的变化规律。控制变量包括:教育程度、年龄、

种族、地区、生活环境(农村、城镇、小城市等)。(数据文件:fertill.raw)

kids=<feo+至ieduc+2age+品3age2+<#b4race+ibsfarm+淤6town

+挺7D74+的8D76+第9D78+,为ioD80+911D82)的或D84+Ut

例:接受教育程度对工资的影响以及工资的性别差异(File:cps.wfl;datafile:cps78_85.raw)

模型设定:

log(wage)=(R>o+9i)/85+淤zeduc+品3y85/educ+至4exper+懿5union

+<«>6female+艇7y85female+ut

模型估计:

结论分析:

例:废物焚化厂对周边房屋价格的影响(File:kielmc.wfl;datafile:kielmc.raw)

KielandMcGain(1995)研究了废物焚化厂对周边(NorthAndover,Massachusetts)房屋价格的

影响。1978年有消息流传要在NorthAndover建立废物焚化厂,1981年正式动工(1985年正式

运营)。利用1978年、1981年的房屋价格数据检验:废物焚化厂周边的房屋价格低于远处的

房屋价格。房屋价格为实际价格(排除物价指数的影响)。

要分析废物焚化厂对周边房屋价格的影响,不能简单回归如下模型:

rprice=(^)o+<^inearinc+u,

比如利用1981年的数据进行回归,那么胡1体现了81年近处价格与远处价格的差异,但都1没

有体现焚化厂对近处房屋价格的影响。因此,要分析焚化厂对近处房屋价格的影响,应该观

察近处与远处的房屋价格在1981的差异年是否比1978年的差异有了明显的变化。方程设定如

下:

rprice=<%o+加+^inearinc+<«>3(y8/Inearinc)+u,

其中,为0-1虚拟变量。

y81=0,nearinc=0,rprice=(#feo+因此,蛇o体现了1978年远处的房屋平均价格。

y81=0,nearinc=\,rprice=<^o+<*>2+因此,(加o+品2)体现了1978年近处的房屋价格,

品2体现了1978年近处房屋价格与远处房屋价格的差异。

y81-\,nearinc=0,rprice=<«>o+<«;i+«o(<«>o+*体现了1981年远处的房屋价格,的i

体现了远处房屋价格在81年与78年的差异。

y81=l,nearinc=1,rprice=<#t>o+<#ti+<#b2+^3+(外o+懿1+的2+朋3)体现了1981年近

处的房屋价格,(死2+皿3)体现了1981年近处与远处的房屋价格差异。

这样可以清晰地看出,品3体现了近处与远处的房屋价格在1981的差异年是否比1978

年的差异。问题就归结于检验晶3的显著性。

练习题:

1.回归方程,进行检验并解释其含义。

Log(rprice)=晟。+9:ij8/+<$b2nearinc+<sk3(y^81Inearinc)+u

2.加入其它控制变量(房龄、距市中心距离、卧室数目等)重新回归方程进行检验。

1.2面板数据定义

时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;

截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所

以,面板数据(paneldata)也称时间序列截面数据(timeseriesandcrosssectiondata)或混

合数据(pooldata)。面板数据示意图见图1。面板数据从横截面(crosssection)上看,是由

若干个体(entity,unit,individual)在某一时期构成的截面观测值,从纵剖面.(longitudinal

section)上看每个个体都是一个时间序列。

面板数据用双下标变量表示。例如

yit,/=1,2,N;t=l,2,T

N表示面板数据中含有N个个体。7表示时间序列的最大长度。若固定t不变,/,.,(/=1,2,…,

M是横截面上的N个随机变量;若固定,不变,口,化=1,2,…,乃是纵剖面上的f时间序列

(个体)。

例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业

总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一

个时间序列。面板数据由30个个体组成。共有330个观测值。

对于面板数据yit,i=1,2,…,N;t=l,2,T,如果从横截面上看,每个变量都有观测值,

从纵剖面上看,每一期都有观测值,或者每个个体的观测值个数是相同的,则称此面板数据

为平衡面板数据(balancedpaneldata)。若在面板数据中缺失若干个观测值,则称此面板数

据为非平衡面板数据(unbalancedpaneldata)。

例1:1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)

和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值.

人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的

面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散

点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语

拼音字母顺序排序的。

表11999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格)

地区人均消费1996199719981999200020012002

CP-AH(安徽)3282.4663646.1503777.4103989.5814203.5554495.1744784.364

CP-BJ(北京)5133.9786203.0486807.4517453.7578206.2718654.43310473.12

CP-FJ(福建)4011.7754853.4415197.0415314.5215522.7626094.3366665.005

CP-HB(河北)3197.3393868.3193896.7784104.2814361.5554457.4635120.485

CP-HU(黑龙江)2904.6873077.9893289.9903596.8393890.5804159.0874493.535

CP-JL(吉林)2833.3213286.4323477.5603736.4084077.9614281.5604998.874

CP-JS(江苏)3712.2604457.7884918.9445076.9105317.8625488.8296091.331

CP-JX(江西)2714.1243136.8733234.4653531.7753612.7223914.0804544.775

CP-LN(辽宁)3237.2753608.0603918.1674046.5824360.4204654.4205402.063

CP-NMG(内蒙古)2572.3422901.7223127.6333475.9423877.3454170.5964850.180

CP-SD(山东)3440.6843930.5744168.9744546.8785011.9765159.5385635.770

CP-SH(上海)6193.3336634.1836866.4108125.8038651.8939336.10010411.94

CP-SX(山西)2813.3363131.6293314.0973507.0083793.9084131.2734787.561

CP-TJ(天津)4293.2205047.6725498.5035916.6136145.6226904.3687220.843

CP-ZJ(浙江)5342.2346002.0826236.6406600.7496950.7137968.3278792.210

资料来源:《中国统计年鉴》1997-2003.,

表21999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格)

地区人均收入1996199719981999200020012002

IP-AH(安徽)4106.2514540.2474770.4705178.5285256.7535640.5976093.333

IP-BJ(北京)6569.9017419.9058273.4189127.9929999.70011229.6612692.38

IP-FJ(福建)4884.7316040.9446505.1456922.1097279.3938422.5739235.538

IP-HB(河北)4148.2824790.9865167.3175468.9405678.1955955.0456747.152

IP-HU(黑龙江)3518.49739183144251.4944747.0454997.8435382.8086143.565

IP-JL(吉林)3549.9354041.0614240.5654571.4394878.2965271.9256291.618

IP-JS(江苏)4744.5475668.8306054.1756624.3166793.4377316.5678243.589

IP-JX(江西)3487.2693991.4904209.3274787.6065088.3155533.6886329.311

IP-LN(辽宁)3899.1944382.2504649.7894968.1645363.1535797.0106597.088

IP-NMG(内蒙古)3189.4143774.8044383.7064780.0905063.2285502.8736038.922

IP-SD(山东)4461.9345049.4075412.5555849.9096477.0166975.5217668.036

IP-SH(上海)7489.4518209.0378773.10010770.0911432.2012883.4613183.88

IP-SX(山西)3431.5943869.9524156.9274360.0504546.7855401.8546335.732

IP-TJ(天津)5474.9636409.6907146.2717734.9148173.1938852.4709375.060

IP-ZJ(浙江)6446.5157158.2887860.3418530.3149187.28710485.6411822.00

资料来源:《中国统计年鉴》1997-2003o

。CPAH—CPJLCPSD。IPAH—IPJL一一IPSD

CPBJ—CPJSCPSHIPBJ-IPJS—9—IPSH

—CPFJ—CPJX—一CPSX・IPFJ—o—IPJX-O--IPSX

CPHB—CPLN―一CPTJ—IPHB—IPLN——IPTJ

-M—CPHLJCPNMG—CPZJ—H-IPHLJ—IPNMG——IPZJ

图215个省级地区的人均消费序列(纵剖面)图315个省级地区的人均收入序列

——CP1996—CP1999—CP2002——IP1996*-IP1999IP2002

CP1997——CP2000—IP1997—IP2000

——CP1998---CP2001IP1998--——IP2001

图415个地区的人均消费散点图(7个时期)图515个地区的人均收入散点图(7个时期)

(每条连线表示同一年度15个地区的消费值)(每条连线表示同一年度15个地区的收入值)

用CP表示消费,IP表示收入。AH,BJ,FJ,HB,HU,JL,JS,JX,LN,NMG,SD,SH,SX,TJ,ZJ分别

表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内

蒙古自治区、山东省、上海市、山西省、天津市、浙江省。

15个地区7年人均消费对收入的面板数据散点图见图6和图7o图6中每一种符号代表

一个省级地区的7个观测点组成的时间序列,相当于观察15个截面上两个变量的时间序列

数据的散点图。图7中每一种符号代表一个年度的截面散点图(共7个时期),相当于观察7

个时期上两个变量的截面数据的散点图。

oCPAH

•CP0J

®CPFJ

*CPHB

xCPHLJ

+CPJL

■CPJS

□CPJX

▲CPLN

色CPNMG

,CPSD

VCPSH

oCPSX

•CPTJ

©CPZJ

图6人均消费对收入的面板数据(15个时间序列叠加)

图7人均消费对收入的面板数据(7个时期叠加)

为了观察得更清楚一些,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图

中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收

入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费

对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。

11000

10000

9000

8000

7000

6000

5000

4000

3000

2000

0400080001200016000

图91996和2002年15个地区的消费对收入散点图

EViews文件说明(dataeviews->panel_cons.wfl)

income_*:名义收入:consume/:名义消费:ip_*:实际收入;cp_*:实际消费;p_*:价格指数。

操作方法:

建立工作文件(File)

建立面板(Object)

">定义截面标示符(Define)

好定义变量名称(Sheet)

3拷贝数据(或通过Import导入数据)

练习题:

1.利用Consume.xls建立Eviews工作文件

2.观察不同截面的cp(ip)的时间趋势图;

(如果是建立pool,需要将Stacked文件按照时间将原文件拆分,即新文件的结构是截面数据)

3.观察不同截面的cp和ip的散点图:

(需要建立stack文件,将不同时期的横轴变量罗列成一个变量:将不同时期的纵轴变量拆分成T个变量,

然后用scatter观察:即第一个变量对所有其他变量的散点图)

4.观察不同时期上cp(ip)的截面图;

(如果是建立pool,需要将Stacked文件按照截面将原文件拆分,即新文件的结构是时间序列数据)

5.观察不同时期上cp和ip的散点图:

(需要建立stack文件,将不同截面的横轴变量罗列成一个变量;将不同截面的纵轴变量拆分成N个变量,

然后用scatter观察:即第一个变量对所有其他变量的散点图)

PanelData的EViews操作

1.建立Panel的方法

(1)直接在File->Newworkfile中完成

(2)如果数据是以叠加的形式存放的,如下表所示

注意:数据文件中必须存有截面变量和时间变量。

可以采用第二种方法。

Stepl:建立undated的工作文件

Step2:导入数据

Step3:Proc/Structurecurrentpage

1.3混合估计模型

用面板数据建立的模型通常有三种,即混合估计模型、固定效应模型和随机效应模型。

所谓混合估计模型是指斜率和截距双固定的模型。如果从时间上看,不同个体之间不存

在显著性差异。从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数

据混合在一起用普通最小二乘法(OLS)估计参数。比如,在例1中,在每一年,不同省份

的消费与消费的关系均相同;对每一个省份来说,每年的消费与收入的关系也相同。在这种

情况下,就可以使用混合估计模型。

如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则

建立如下模型,

%=必+Xz/P+uit,/=1,2,N;t=l,2,T

,和B不随。t变化。称模型⑴为混合估计模型。

对混合估计模型可以通过三种。LS方法进行估计。

(1)组内估计量

个体的均值为

及=〃+3.P+可.,i=1,2,N1

IT_|T।T

其中,见=亍2为"先•=亍工为"为"亍"j2,…,N)。

J=1J=1J=1

模型的离差形式为:

yit~%.-(X"-Xj.)0+(uit-M/.)2

OLS估计量为:

即=健「.)

S黑=IX1(X〃—3.)(X"-%.)',=Z=1(X"-无)

8卬称为组内估计量(Withingroupestimator)。

(2)组间估计量

变量的总均值为

兀=〃+*-0+吃

个体的均值离差形式为:

%-亢=(为.-1那+(瓯-石)

OLS估计量为:

即=传)阳)

S鼠=Z3(先.--)%—1)',Siy=“i(焉.-肛)(%-兀)

6B称为组内估计量(Withingroupestimator)。又被称为LSDV估计量(Leastsquares

dummyvariables)或协方差估计量(covarianceestimator)o

(3)OLS估计量

个体的均值离差形式为:

W-%=(X"-丸)0+(叼-匕)

OLS估计量为:

6*=(sj(s:J

SI=ZL(X"一工)(X„-X..)1,=Z:(X"—X.)(y,.,-文)

可以证明,=S^.+st,s'=SX+st,«因此,OLS估计量又可以写作

%s=(S;,+S:J(S:+S\)

=(s:+S疗s;(s;fs;+(s二+s3Ts\然「s*

=WwS;;+WQ\

因此,OLS估计量为组内估计量与组间估计量的加权和。截距项的估计量为:

«,=yf-x,P

以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:

A

CPit=129.6313+0.7587仅

2

(2.0)(79.7)R=0.98,SSEr=4824588,to.os(io3)=1.99

15个省(市)的平均边际消费倾向为0.76。

1.4固定效应模型

1.4.1个体固定效应模型

在面板数据中,如果不同的截面或不同的时期对应的截距项不同,那么称之为变截距模

型。变截距模型可以分为固定效应和随机效应模型两种。首先来看固定效应模型。

1.个体固定效应模型的设定

模型设定为:

/=1,2,N;t=l,2,T

=〃+aj+X“0+%

其中,一为不随时间变化的不可观测的随机变量,用于反映个体之间的差异。如果一与X

相关,则称为固定效应模型(entityfixedeffectsregressionmodel)«即:

y\t=//+«i+xkp+wk

=A+«2+X2zP+»2z,「下

1,f=1,2,…,T

JM=M+&N+XMD+uNt

将(2)式中每个方程写成矩阵形式,

yi=e(〃+a[)+Xzp+u;4

其中,

xKi\'

"力-■fxhlx2il一*ui\

1XU2x2i2xKiTPlui2

%=,e=,Xj=»P=>u,=i=l,2,...N

_yiT_1_XUTx2iTxKiT__PK._uiT_

5

将(4)式进一步表示为:

yio«i

丫2o的

=lNT/J+

y=(IN0e7)(//+a)+xp+u

2.个体固定效应模型组内估计

2

假定:E(u,)=O,E(uiui')=alllT,E(uzuy')=O

由于一与X相关,因此不能直接用LS方法估计,LS估计量不具有一致性。由于一不随

着时间而变化,因此可以通过离差的形式将其消除。

模型两边取均值,可得:

%.=4+%.P+g+用.

其离差形式为:

yu-yi.-(x〃一X/,)p+Ujt-Uj,

离差形式将一消除掉了,不存在误差项与X相关导致的不一致问题。

组内估计的一大优点是,不论一与X是否相关,由于一不随时间变化,因此组内离差

会将“消除掉。因此,组内估计量是无偏的、一致的。但组内估计的一大缺点是,凡是不随

时间变化的变量,比如性别、种族、地理位置等,都会在组内离差转换时被消除掉。因此,

组内估计无法估计这种变量的影响。

组内估计的矩阵表述

y,=e//+X,F+(eaj+%)两端乘以矩阵Q,

Qf-Lee

注意,Q为对称塞等矩阵,且Qe=O。可以得到:

Qy,=Qe%+QX,p+Qu,=QX,p+Qu,

应用OLS方法得到0的OLS估计量:

B=gx/QXi

6是无偏的,当N随能或7■密电时,6是一致的。其协方差矩阵为:

V"(B)=%£x「QXi

3.个体固定效应模型LSDV估计

在固定效应中,传统的观点将一视作与0一样的未知参数,用于反映不同方程的不同截

距项。这可以通过加入截面虚拟变量的方式进行估计。这可以通过重新表述如下矩阵来体现。

yie00%Xi叫

0e0X

Y2+2«2

=+・•・♦♦•••.p+

00eaNXNUN

对于N个截面,需要加入N-1个截面虚拟变量。因此其估计量称为LSDV(LeastSquares

DummyVariables)估计量。当N较大时,这种估计方法损失了大量的自由度。因此,这种方

法适用于当N较小的情况。对于B来讲,LSDV估计量与组内估计量完全相同。LSDV还可以估计

出一。而且采用LSDV估计可以更直观地计算估计量的自由度。

6是无偏的,当N密第或7■密而时,6是一致的。。•也是无偏的,但仅当了豳磅时,由才

具有一致性。当「固定,而N羯口时,一的LSDV估计量不具有一致性。因为,每增加一个

截面,一也增加一个未知参数。

4.个体固定效应模型的设定检验

LSDV的另一个好处是可以通过「统计量对个体效应的显著性进行检验。

原假设Ho:不同个体的模型截距项相同(建立混合估计模型)。

备择假设%:不同个体的模型截距项不同(建立个体固定效应模型)。

F统计量定义为:

F_(SSE,-SSE/代NT—-NT-N-k)J_(SSE.-SSE“)/(N-1)

SSEU/(NT-N-k)SSEU/(NT-N-k)

其中k表示解释变量的个数(不包括常数项),SSEr,SSE”分别表示约束模型(混合估计模型)

和非约束模型(个体固定效应模型)的残差平方和。非约束模型比约束模型多了N-1个被估

参数。(混合估计模型给出公共截距项。)

用上例计算,已知SS&=4824588,5SE==2270386,

F=(SS-—SSEa)/(N-1)=(4824588—2270386)/(15-1)=182443=7”

-SSEU/(NT-N-k)~-2270386/(105-15-1)--25510-,

fo.O5(14,89)=1-81

因为F=7.15>Fo.o5(i4,89)=L81,所以,拒绝原假设。结论是应该建立个体固定效应模型。

1.4.2时期固定效应模型

模型设定为:

yit=Yt++u

it,/=1,2,...,N;t=l,2,...J

其中,Vt为不随个体变化的不可观测的随机变量,用于反映不同时期的差异。如果也与X相

关,则称为时期固定效应模型(timefixedeffectsregressionmodel)(>

即:

Hi=〃+%++

为2=4++X/2P+ui2

12

”7=//++X/70+10T

将上式中每个方程写成矩阵形式,

y,^p+X+X/p+u,13

或者表示为力=eN(〃+4)+X#+u,

其中,

15

即:

y=@N位lT)M+Xp+(eNOI/'A+u16

1.时期固定效应模型的组内估计

由于V,与X相关,因此不能直接用LS方法估计,LS估计量不具有一致性。由于也不随

着个体而变化,因此可以通过离差的形式将其消除。

模型两边取均值,可得:

叉f=M+、“P+%+0

其离差形式为:

yu-y.t-(x〃-X”)p+u.t

离差形式将"消除掉了,不存在误差项与X相关导致的不一致问题。

与个体固定效应相类似,时期固定效应模型的组内估计优点是,不论"与X是否相关,

由于"不随个体变化,因此组内离差会将"消除掉。因此,组内估计量是无偏的、一致的。

但组内估计的一大缺点是,凡是不随个体变化的变量,比如政策、气候等,都会在组内离差

转换时被消除掉。因此,组内估计无法估计这种变量的影响。

2.组内转换的矩阵表述

利用相似的方法定义矩阵Q,

、=1广旷%即17

注意,Q为对称基等矩阵,且QeM=0。y,=eN4+X/+叫两边同时乘以Q可以得到:

Qy,=QeNAj+QX,p+Qu,=QX,p+Qu,18

应用OLS方法得到fJ的OLS估计量:

蚱fX,'QX,£x'Qy,

z19

_r=l」U=\

6是无偏的,当N噩磅或T豳由时,8是一致的;其协方差矩阵为:

T

2

V«r(p)=<TuZX/QX,20

%也是无偏的,但仅当N豳备时,区才具有一致性。

3.时期固定效应的LSDV估计

如果将"视作与B一样的未知参数,用于反映不同方程的不同截距项。这可以通过加入

时期虚拟变量的方式进行估计。这可以通过重新表述如下矩阵来体现。

为了避免多重共线性,对于7•个截面,需要加入厂1个截面虚拟变量。因此其估计量称为

LSDV(LeastSquaresDummyVariables)估计量。当了较大时,这种估计方法损失了大量的自由

度。因此,这种方法适用于当檄小的情况。对于B来讲,LSDV估计量与组内估计量完全相同。

LSDV还可以估计出Y,。而且采用LSDV估计可以更直观地计算估计量的自由度。

6是无偏的,当Nm面或「随面时,8都是一■致的。£也是无偏的,但仅当N旗鲍时,、

才具有一致性。当N固定,而下1口时,片的LSDV估计量不具有一一致性。因为,每增加一个

时期,Vt也增加一个未知参数。

4.时期固定效应的LSDV估计

如果采用LSDV估计,可以通过F统计量对时期固定效应的显著性进行检验。

对于不同横截面模型截距项相同(建立混合估计模型)。

H0:

出:对于不同横截面模型的截距项不同(建立时期固定效应模型)。

F统计量定义为:

(SSE-SSEGMNT-1-&)-(NT-T-k)](SSE-SSE)/(T-1)

F-rrU21

SSEu/(NT-T-k)SSEu/(NT-T-k)

其中SS&,SSE”分别表示约束模型(混合估计模型的)和非约束模型(时期固定效应模型的)

的残差平方和。非约束模型比约束模型多了丁-k个被估参数。

用上例计算,已知产

SSE4824588,SSEU=4028843,

尸=(SSEr-SSE“)/(T-D_(4824588-4028843)/(7-1)=132624=319

-SSE„/(AT-T-1)~~4028843/(105-7-1)~~41534--

FO.O5(6,87)=2.2

因为F=3.19>[0.05(14,89)=2.2,拒绝原假设,结论是应该建立时期固定效应模型。

1.4.3双因素固定效应模型

模型设定为:

yit=ai+rt+^+uit,鹏2…ME,2…7

y"=M+aj+%+X〃p+"〃

其中,一为不随时间变化的不可观测的随机变量,用于反映个体之间的差异;"为不随个体

变化的不可观测的随机变量,用于反映不同时期的差异。如果一、"与X相关,则称为时期

个体固定效应模型(timeandentityfixedeffectsregressionmodel)。

矩阵表示为

yi

丫2

=(I^y0e?)a+(e^③I7)A.+

y=(I^r®e?)a+(e^@ly)九+X0+u

1.双因素固定效应的组内估计

由于一、"与X相关,因此不能直接用LS方法估计,LS估计量不具有一致性。但可以

通过离差的形式将其消除。

对模型)方=〃+X“0+aj+"〃在不同时期和不同个体上分别求均值,

yi.=〃+%+《+7+%.

y.t=ju+\tp+a+yt+u.t

又.=〃+*邛+"+7+三

得到离差形式,

(%-%-%+%)=(X”-X,.-X,+X.)P+(囹一酝-u,t+uj

组内转换后的方程已经不包含八、Vt,可以直接利用OLS方法进行估计。

2.组内估计的矩阵表述

仍然采用WallaceandHussain(1969)的组内转换方法。令

Q=I_0e?.e7.'--^eiVe.v'0I7.+急J

其中,I表示单位矩阵,e表示所有元素为1的列向量,J表示所有元素为1的(NTxNT)矩阵,

1昕=】N®17,J=e3®CpCyo

注意观察矩阵Q的特点,Q为幕等对称矩阵。

Qy=([NT_%N®ereT'~^eNeN'⑥+七“y

=丫一%于“-%%.+工

y=(IN®er)a+(eyv®Ir)X+Xp+u两边同时乘以Q,可得:

Qy=QX0+Qu

B=XQX「Qy

3.双因素固定效应的LSDV估计

可以采用加入虚拟变量的方法来估计-但是对于个体效应和时期效应必须加入

[(N-1)+(T-1)]个虚拟变量。这会丧失大量自由度,并容易引起多重共线性问题。。的LSDV估计

量与组内估计量完全相同。▼、+的估计量分别为:

自=(%一比)-6(焉.一文・)

A=(y./-y.)-P(x.,-xj

如果满足上述模型假定条件,对模型(12)进行OLS估计,全部参数估计量都是无偏的

和一致的。

4.双因素固定效应的设定检验

如果将▼、+视作未知参数,可以通过F统计量对时期、个体固定效应的显著性进行检

验。

Ho:%=%==%M=。,4=&==4-i=0。即对于不同横截面,不同序列,模

型截距项都相同(建立混合估计模型)。

H1:%存在明显差异或4.存在明显差异,即不同横截面,不同序列,模型截距项不相同

(建立时期个体固定效应模型)。

F统计量定义为:

「一(SSE,-SSE”)/l(NT--(NT-N-T-&+1)]_(SSE,-SSE“)/(N+T-2)

'SSEu/(NT-N-T-k+1)-SSEJ(NT-N-T-k+1)

其中SSEr,S5E”分别表示约束模型(混合估计模型的)和非约束模型(时期个体固定效应模

型的)的残差平方和。非约束模型比约束模型多了N+r-2个被估参数。

用上例计算,已知ISSE产4824588,SSEU=2045670,

F_(SSEr-SSEJ/iN+T-2)_(4824588-2045670)/(15+7-2)_138946_

-SSE“/(NT—N-T-k+l)~2045670/(105-15-7)-24647-'

5).05(20,81)=1.64

因为F=5.6>FO.O5(14,89)=1.64,拒绝原假设,结论是应该建立时期个体固定效应模型。

给定时间效应,可以检验个体效应的显著性。

Ho:at=a2==aN_y=0,给定4K0,t=1,2,,7-1。

此时无约束模型仍然为混合估计模型,而受约束模型则为仅带有时间虚拟变量的模型。

构建F统计量

(SSE,-SSE“)/(N-1)%

SSEu/[(TV-1)(7-1)-AT](N-WN-W-M-K°

类似地,给定个体效应,可以检验时间效应的显著性。

Ho:4=4==%_]=0,给定a产0,i=l,2,,N—1。

此时无约束模型仍然为混合估计模型,而受约束模型则为仅带有个体虚拟变量的模型。

构建F统计量

r(SSEr-SSEu)/(T-l)

-SSE„/[(^-l)(T-l)-7C](T-IMW-IKT-D-K

1.4.4组间估计

实践中另外一种被经常引用的估计量是组间估计量。与组内估计不同,组间估计是利用

均值方程进行估计。不论把4.和乙视作随机变量还是待估参数,个体固定效应或时期固定效

应的组间估计方程都是一样的。在个体固定效应模型中,组间估计是估计如下方程:

%=4+帮+卬+瓯

在时期固定效应模型中,组间估计是估计如下方程:

y.t=^+X.,p+//+i7.r

在双因素固定效应模型中,组间估计可以通过两种方式进行。如果把火和4视作随机变

量,估计方程为:

%.=〃+XZ.P+%+>+丽

y.t=M+&.fP+"+%+".r

如果把弓和2,视作待估参数,则估计方程为:

%.=〃+%平+田+用.

%=〃+x.,p+%+心

显然,如果和乙与X相关,那么组间估计量是不一致的。

1.5随机效应模型

在模型

)'”=〃+生+4+X"0+Ujt,i=1,2,...,N;t=l,2,T

如果©和乙为随机变量,则称为随机效应模型。其中,称为个体随机效应,儿称为时间

随机效应。

基本假定:

£(«,)=)=E(M;,)=0,E(a内)=)=E(AjU,r)=O

如果

£(卬勺)=i=j

0如果iwj

如果r=s

E(W=A

0如果f/s

2

如果i=j,t=s

其它

E(X"")=E(X〃4)=E(X;7=0

令%=4.+4+坳,则根据上述假定,var(%)三cr;=cr]+cr,+6\因此,随机效应

模型又被称作误差成份模型(errorcomponent)或方差成分模型(variancecomponent)..

1.5.1单因素随机效应模型

当模型中仅存在个体随机效应,

%=〃+OCj+X„p+M(Z,i=1,2,...,N;t=l,2,T

则称为个体随机效应模型。将其写作

切+

%=〃+X,7P+%・+%=X„P+vit,i=1,2,...,N;t=l,2,T

I,..222

其中'

%=%+,(Ty=Oa+(7^

每个个体所对应方程的矩阵表达式为:

yz.=er//+era;.+X/p+v,.=er//+Xzp+v,,\=1,2,N

其中,vz=e^-+uzo

所有N个方程的矩阵表达式为:

y=eAT//+(IN0e7.)a+xp+u=eAT/7+Xp+v

其中,¥=(1^0er)a+uo其中,

。=(的,。2,x=(X];X2;・,XN,u=(U|',U2*,,u^yo

”的协方差矩阵为:

v=E(V,Y')=£[(e.;a,.+u,.)(ey.a,.+u,.)']=片1+cr:ee'

其逆矩阵为:

在上述假定下,v的协方差矩阵为:

'V00、

0V0

E(vv')==Ir0V

、00V,

1.组内估计(协方差估计)

在随机效应模型中,仍然可以采用Q矩阵,

Qy,=Qe”+QX#+Q(era/+u,)=QX,p+Qu,

TN

Wxx=X,QX,=Z(x”—X,)(X(7-X,,)',Wxx=X

t=\1=11

OLS估计可以得到B的协方差估计量

N

6wW"”=WxxTWxy=ZXJQXjZX('Qyz

\_i=\7=1

在随机效应模型中,不论A/玲8或7■玲8,8均是无偏和一致的,但不再是有效的。因为

同一个个体在不同时期上的观测值存在相关。这时,需要利用GLS估计方法。

2.组间估计

Pyz=+PXzp+P(er^=Per//+PX,p+Pv,

^Between~0X^Xy

NN

Byy=XjPXi=>XjX-Bxx=£BX,X

XjXjii一人,♦

t=\i=l

NN

;,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论