版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(优选)第九讲面板数据回归当前第1页\共有62页\编于星期四\9点时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(paneldata)也称时间序列截面数据(timeseriesandcrosssectiondata)或混合数据(pooldata)。当前第2页\共有62页\编于星期四\9点面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等)连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来,由于面板数据资料的获得变得相对容易,使其应用范围也不断扩大。当前第3页\共有62页\编于星期四\9点1996-2002年中国15个省级地区的居民家庭人均消费数据(不变价格)
(例一)地区人均消费1996199719981999200020012002CP-AH(安徽)3282.4663646.1503777.4103989.5814203.5554495.1744784.364CP-BJ(北京)5133.9786203.0486807.4517453.7578206.2718654.43310473.12CP-FJ(福建)4011.7754853.4415197.0415314.5215522.7626094.3366665.005CP-HB(河北)3197.3393868.3193896.7784104.2814361.5554457.4635120.485CP-HLJ(黑龙江)2904.6873077.9893289.9903596.8393890.5804159.0874493.535CP-JL(吉林)2833.3213286.4323477.5603736.4084077.9614281.5604998.874CP-JS(江苏)3712.2604457.7884918.9445076.9105317.8625488.8296091.331CP-JX(江西)2714.1243136.8733234.4653531.7753612.7223914.0804544.775CP-LN(辽宁)3237.2753608.0603918.1674046.5824360.4204654.4205402.063CP-NMG(内蒙古)2572.3422901.7223127.6333475.9423877.3454170.5964850.180CP-SD(山东)3440.6843930.5744168.9744546.8785011.9765159.5385635.770CP-SH(上海)6193.3336634.1836866.4108125.8038651.8939336.10010411.94CP-SX(山西)2813.3363131.6293314.0973507.0083793.9084131.2734787.561CP-TJ(天津)4293.2205047.6725498.5035916.6136145.6226904.3687220.843CP-ZJ(浙江)5342.2346002.0826236.6406600.7496950.7137968.3278792.210当前第4页\共有62页\编于星期四\9点面板数据的格式(例二)companyyearinvestmvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9当前第5页\共有62页\编于星期四\9点当描述截面数据时,我们用下标表示个体,如Yi表示第i个个体的变量Y。当描述面板数据时,我们需要其他符号来同时表示个体和时期。为此我们采用双下标而不是单下标,其中第一个下标i表示个体,第二个下标t表示观测时间。于是Yit表示n个个体中第i个个体在T期中的第t个时期内变量Y的观测值。当前第6页\共有62页\编于星期四\9点面板数据用双下标变量表示。例如
Yit,i=1,2,…,N;t=1,2,…,TN表示面板数据中含有N个个体。T表示时间序列的最大长度。
对于样本点来说:当前第7页\共有62页\编于星期四\9点Stata中面板数据的表示companyyearinvestmvalue11951755.9483311952891.24924.9119531304.46241.7119541486.75593.621951588.22289.521952645.52159.4219536412031.321954459.32115.531951135.21819.431952157.32079.731953179.52371.631954189.62759.9当前第8页\共有62页\编于星期四\9点在stata中,首先使用xtset命令指定个体特征和时间特征,然后可以用xtdes命令显示面板数据的结构。
usefatality,clearxtsetstateyearxtdes当前第9页\共有62页\编于星期四\9点短面板和长面板如果面板数据T较小,而n较大,这种面板数据被称为“短面板”(shortpanel)。(大n小T)如fatality.dta
反之,如果T较大,而n较小,则被称为“长面板”(longpanel)。(大T小n)如Grunfeld.dta
当前第10页\共有62页\编于星期四\9点面板数据的优势(1)可以解决遗漏变量问题:遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决,但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或“异质性”(heterogeneity)所造成,如果这种个体差异“不随时间而改变”(timeinvariant),则面板数据提供了解决遗漏变量问题的又一利器。(2)提供更多个体动态行为的信息:由于面板数据同时有截面与时间两个维度,有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。当前第11页\共有62页\编于星期四\9点比如,如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中,由于没有时间维度,故无法观测到技术进步。然而,对于单个企业的时间序列数据来说,我们无法区分其生产效率的提高究竟有多少是由于规模扩大,有多少是由于技术进步。(3)样本容量较大:由于同时有截面维度与时间维度,通常面板数据的样本容量更大,可以提高估计的精确度。当前第12页\共有62页\编于星期四\9点面板数据的建模方法主要有三种:固定效应回归模型随机效应回归模型混合回归模型当前第13页\共有62页\编于星期四\9点实例:交通事故死亡人数和酒精税当前第14页\共有62页\编于星期四\9点当前第15页\共有62页\编于星期四\9点由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗?不一定,这是因为这些回归中可能存在着巨大的遗漏变量偏差。当前第16页\共有62页\编于星期四\9点影响死亡率的因素有很多,包括:1。州内驾驶的汽车质量;2。高速公路的维修情况是否良好;3。大部分驾驶的路程是在乡下还是市内;4。路上的汽车密度;5。社会文化能否接受酒后驾车等。这些因素都有可能与酒精税有关。若相关,则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据,并把它们加入到上式中。不幸的是,我们很难或不可能度量诸如酒后驾车的文化接受度等变量。当前第17页\共有62页\编于星期四\9点解决方法:固定效应OLS回归具有两个时期的面板数据:“前后”比较特别注意:Zi不随时间变化当前第18页\共有62页\编于星期四\9点结论:两期的变化(差分)表示的回归消除了随时间不变的不可观测变量Zi的效应。换言之,分析Y和X的变化可以控制随时间不变的变量,于是就消除了这种产生遗漏变量偏差的来源。当前第19页\共有62页\编于星期四\9点当前第20页\共有62页\编于星期四\9点当数据是在两个不同年份里观测得到的时候,这种“前后”分析很有效。但我们的数据集中包含7个不同年份里的观测值,即当T>2时不能直接应用这种“前后”比较方法。为了分析该面板数据集中的所有观测值,我们使用固定效应回归方法。当前第21页\共有62页\编于星期四\9点固定效应模型对于特定的个体i而言,ai
表示那些不随时间改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称其为“个体效应”
(individualeffects)。如果把“个体效应”当作不随时间改变的固定性因素,相应的模型称为“固定效应”模型。当前第22页\共有62页\编于星期四\9点当前第23页\共有62页\编于星期四\9点当前第24页\共有62页\编于星期四\9点对于固定效应模型,可采用虚拟变量法。基本思想:固定效应模型实质上就是在传统的线性回归模型中加入N-1个虚拟变量,使得每个截面都有自己的截距项。由于固定效应模型假设存在着“个体效应”,每个个体都有其单独的截距项。这就相当于在原方程中引入n−1个虚拟变量(如果省略常数项,则引入n个虚拟变量)来代表不同的个体,获得每个个体的截据项。当前第25页\共有62页\编于星期四\9点当前第26页\共有62页\编于星期四\9点如何理解个体效应、个体截距项的不同以及虚拟变量的引入?我们用一份模拟的数据来分析:
useexample,clearxtsetcompanyyearxtdes1。画出散点图和拟合线,并建立OLS回归方程。2。加入虚拟变量,并重新画出建立OLS回归方程。当前第27页\共有62页\编于星期四\9点regyx当前第28页\共有62页\编于星期四\9点当前第29页\共有62页\编于星期四\9点gend1=0gend2=0gend3=0replaced1=1ifid==1replaced2=1ifid==2replaced3=1ifid==3regyxd1d2当前第30页\共有62页\编于星期四\9点固定效应模型的估计算法“个休中心化”OLS算法或者组内离差估计法假设原方程为:(式1)给定第i个个体,将(式1)两边对时间取平均可得,(式2)当前第31页\共有62页\编于星期四\9点(式1)–(式2),得:可以用OLS方法一致地估计β,称为“固定效应估计量”(FixedEffectsEstimator),记为由于主要使用了每个个体的组内离差信息,故也称为“组内估计量”(withinestimator)。当前第32页\共有62页\编于星期四\9点固定效应模型的优势和劣势面板固定效应模型的优势是:即使个体特征ui与解释变量Xit相关,只要使用组内估计量,就可以得到一致估计,即即使存在不随时间改变的遗漏变量,也可得到无偏一致的估计。面板固定效应模型的劣势是:模型无法估计不随时间而变的变量之影响,这需要用随机效应模型。当前第33页\共有62页\编于星期四\9点在交通事故死亡人数中的应用由于(10.8)式中的“差分”回归只用了1982年和1988年的数据(具体讲就是这两年的差额),而(10.15)式中的固定效应回归用到了所有7年的数据,因此这两个回归是不同的。由于利用了更多的数据,因此(10.15)式中的标准误差小于(10.8)式中的标准误差。当前第34页\共有62页\编于星期四\9点固定效应模型的stata实现
usefatality,clearxtsetstateyearxtdesxtlineFatalityRate固定效应模型:
xtregFatalityRatebeertax,fe当前第35页\共有62页\编于星期四\9点回归结果解读1。三个R2哪个重要?2。固定效应为什么有两个F检验?3。corr(u_i,Xb)的含义。4。sigma_u、sigma_e、rho的含义。当前第36页\共有62页\编于星期四\9点1。因为固定效应模型是组内估计量(离差),因此,只有within是一个真正意义上的R2,其他两个是组间相关系数的平方。2。右侧的F统计量表示除常数项外其他解释变量的联合显著性。最后一个F检验,原假设所有U_i=0,即不存在个体效应,不必使用固定效应模型。首先注意:结果中的u_i不表示残差,而是表示个体效应。当前第37页\共有62页\编于星期四\9点3。corr(u_i,Xb)个体效应与解释变量的相关系数,相关系数为0或者接近于0,可以使用随机效应模型;相关系数不为0,需要使用固定效应模型。4。sigma_u:表示个体效应的标准差sigma_e:表示干扰项的标准差rho:rho=sigma_u^2/(sigma_u^2+sigma_e^2)
个体效应的波动占整个波动的比例。当前第38页\共有62页\编于星期四\9点
显示每个个体截距的方法:
tabstate,gen(dum)dropdum1regFatalityRatebeertaxdum*当前第39页\共有62页\编于星期四\9点例二
usegrunfeld,clearxtsetcompanyyearxtdesxtlineinvest固定效应模型:xtreginvestmvaluekstock,fe当前第40页\共有62页\编于星期四\9点显示每个个体截距的方法:
tabcompany,gen(dum)reginvestmvaluekstockdum*,noconsdropdum1reginvestmvaluekstockdum*
分析每个公司的截距当前第41页\共有62页\编于星期四\9点时间固定效应回归其中St是只随时间改变,不随个体改变的变量。
和个体固定效应能控制不随时问变化但个体间不同的变量一样,时间固定效应能控制个体间相同但随时间变化的变量。由于新车安全性能的提高是发生在全国范围内的。因此它们能够减少所有州的交通死亡事故。故把汽车安全性能视为随时间变化但对所有州都相同的遗漏变量是合理的。于是加入用St表示的汽车安全性能的效应后,得:当前第42页\共有62页\编于星期四\9点只有时间效应我们暂时假设Zi不出现,方程变为:我们的目的是在控制St条件下估计ß1当前第43页\共有62页\编于星期四\9点当前第44页\共有62页\编于星期四\9点在上述例子中加入时间固定效应。实际上添加了t-1个时间虚拟变量。主要反映随着时间变化的一些特征。usefatality,cleartabyear,gen(yr)editdropyr1regFatalityRatebeertaxyr*几乎所有时间虚拟变量均不显著,说明FatalityRate不随时间的变动呈现变动的趋势。当前第45页\共有62页\编于星期四\9点个体和时间固定效应(双向固定效应模型)如果某些遗漏变量不随时间变化但随州变化(如对酒后驾车的文化接受度),而其他遗漏变量不随州变化但随时间变化(如国家安全标准),则在模型中同时加入个体(州)和时间效应更为恰当,我们称为双向固定效应模型。固定效应模型:Yit=ai+Xitß1+εit双向固定效应模型:Yit=ai+λt+Xitß1+εit当前第46页\共有62页\编于星期四\9点当前第47页\共有62页\编于星期四\9点双向固定效应模型的估计双向固定效应模型可以通过加入n-1个个体二元变量和T-1个时间二元变量进行OLS估计,但这会使解释变量的数目变得极为庞大!所以一般我们还是采用组内离差法进行估计。
方法一:可以通过先从Y和X中减去个体和时间平均值,然后估计被减后的Y关于被减后的X的多元回归方程的方法来估计X的系数。这种方法可以避免二元变量的出现。
方法二:从Y,X和时间指示变量中减去个体(不是时间)均值然后估计,被减后的Y对被减后的X和被减后的时间指示变量的多元回归中的k+T个系数。当前第48页\共有62页\编于星期四\9点在交通死亡人数中的应用
上述形式中包含了啤洒税,47个州二元变量(州固定效应),6个年二元变量(时间固定效应)和截距项,所以这个模型的解释变量个数多达55个,这将带来大量的自由度的损失。因为时间和州二元变量和截距项的系数不是我们主要感兴趣的,所以我们在这里没有列出。比较参数发现加入时间效应后啤酒税的系数由-0.66变为-0.64,可见加入时间效应对结果影响不大。当前第49页\共有62页\编于星期四\9点固定效应回归假设和固定效应回归的标准误差本章给出的标准误差是利用一般异方差稳健公式计算得到的。当T中等大小或较大时,在称为固定效应回归假设的五个假设条件下面板数据中的这些异方差稳健标准误差都是正确的。当前第50页\共有62页\编于星期四\9点固定效应回归假设当前第51页\共有62页\编于星期四\9点自相关(序列相关)(如果违反,则出现自相关)当前第52页\共有62页\编于星期四\9点固定效应回归的标准误差
如果重要概念10.3中的假设5成立,则给定回归变量条件下,误差u在时间上不相关,在这种情况下如果T中等大小或较大时,则常用(异方差稳健)标准误差是正确的。如果误差自相关,则常用标准误差公式不正确。理解这一点的一种方法是同异方差做类比。在截面数据回归中,如果误差异方差,则由于同方差适用的标准误差是在同方差的错误假设下导出的,因此是不正确的。类似地,如果面板数据中的误差自相关,则由于常用标准误差是在它们没有自相关的错误假设下导出的,因此也是不正确的。当前第53页\共有62页\编于星期四\9点由于面板数据具有潜在异方差且在给定个休的不同时间上潜在相关时,正确的标准误差称为异方差和自相关一致的标准误差(HAC)。这种标准误差由称为群标准误差。在时间序列中使用的命令是newey在面板数据中使用的命令是xtgls当前第54页\共有62页\编于星期四\9点有关酒后驾车的法律规定和交通事故死亡人数酒精税只是抑制酒后驾车的一种方法,如果某州想要打击酒后驾车,可以通过增加税收和严酷的法律来做到这一点。因此,即使在包含州和时间固定效应的模型中遗漏这些有关酒后驾车的法律也会导致啤酒税对交通死亡事故效应的OLS估计量中存在遗漏变量偏差。此外,是否开车也部分取决于司机是否有工作,同时,税收变化也反映了经济状况(如州预算赤字会增加税收)。所以遗漏州的经济状况也会导致遗漏变量偏差。当前第55页\共有62页\编于星期四\9点本节中我们将前面的分析推广到保持经济状况不变条件下有关酒后驾车的法律规定(包括啤酒税)对交通死亡事故效应的研究。为此,我们需要估计包含其他酒后驾车法律和州经济状况的回归变量的面板数据回归。这些结果刻画了一幅抑制酒后驾车和交通死亡事故措施引发争议的画面。这些估计值表明严厉的处罚和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025安徽建筑安全员-B证考试题库附答案
- 贵州财经职业学院《材料与施工工艺》2023-2024学年第一学期期末试卷
- 贵阳幼儿师范高等专科学校《管理学概论》2023-2024学年第一学期期末试卷
- 2025年上海市建筑安全员考试题库及答案
- 2025年河南省建筑安全员考试题库附答案
- 贵阳信息科技学院《薪酬与福利》2023-2024学年第一学期期末试卷
- 硅湖职业技术学院《食品试验设计》2023-2024学年第一学期期末试卷
- 贵阳学院《物理污染控制工程》2023-2024学年第一学期期末试卷
- 2025云南省建筑安全员C证考试题库
- 广州新华学院《音乐剧演唱(2)》2023-2024学年第一学期期末试卷
- 应急灭火疏散预案(范本)
- 《第六课 从传统到现代课件》高中美术湘美版美术鉴赏
- 英语四六级讲座课件
- Unit 3 On the move Understanding ideas(Running into a better life)课件- 高一上学期英语外研版(2019)必修第二册
- 白假丝酵母菌课件
- SCA自动涂胶系统培训讲义课件
- 折纸艺术欣赏及步骤课件
- 立法学讲义教案
- 施工现场临时建筑验收表
- iPad使用手册简体中文版1章-10章
- 皓月集团市场营销策略研究
评论
0/150
提交评论