




已阅读5页,还剩80页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面板数据分析方法,Baltagi,Baltagi著 白仲林主译,第一节 面板数据的基本问题 第二节 面板数据的模型形式 第三节 面板数据模型的估计方法,第一节 面板数据的基本问题,一、面板数据的定义 二、面板数据的分类 三、面板数据的特点,一、面板数据的定义,面板数据(panel data)是指由变量y关于N个不同对象的T个观测期所得到的二维结构数据,记为yit,其中,i表示N个不同对象(如国家、地区、行业、企业或消费者等,一般称之为第i个个体),t表示T个观测期。,面板数据是二维结构数据,时间序列数据或截面数据都是一维数据。时间序列数据是变量按时间得到的数据;截面数据是变量在固定时点的一组数据。面板数据是同时在时间和截面上取得的二维数据。所以 ,面板数据(panel data)也称作时间序列与截面混合数据(pooled time series and cross section data)。面板数据是截面上个体在不同时点的重复观测数据。,面板数据是二维结构数据,Panel原指对一组固定调查对象的多次观测,近年来panel data已经成为专业术语。 面板数据从横截面看(cross section),是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。,数据结构的二维性,时间序列数据,横截面数据,变量X的面板数据结构,面板数据是二维结构数据,第一节 面板数据的基本问题,一、面板数据的定义 二、面板数据的分类 三、面板数据的特点,二、面板数据的分类,1.短面板与长面板 短面板(short panel):时间T较小,而个体数N较大。 长面板(long panel):时间T较大,而个体数N较小。,二、面板数据的分类,2.微观面板数据与宏观面板数据 微观面板数据一般指一段时期内不同个体或者家庭的调查数据,其数据中往往个体单位较多,即N较大(通常均为几百或上千)而时期数T较短(最短为两个时期,最长一般不超过20个时期)。,二、面板数据的分类,2.微观面板数据与宏观面板数据 宏观面板数据通常为一段时间内不同国家或地区的数据集合,其个体单位数量N不大(一般为7-200)而时期数T较长(一般为20-60年)。,二、面板数据的分类,3.动态面板与静态面板 在面板模型中,如果解释变量包含被解释变量的滞后值,则称为“动态面板”(dynamic panel);反之,则称为“静态面板”(static panel)。,二、面板数据的分类,4.平衡面板数据与非平衡面板数据 如果在面板数据中,每个时期在样本中的个体完全一样,则称为“平衡面板数据”(balanced panel);然而,有时某些个体的数据可能缺失,或者新的个体后来才加入到调查中来,在这种情况下,每个时期观测到的个体不完全相同,则称为“非平衡面板数据”(unbalanced panel)。,第一节 面板数据的基本问题,一、面板数据的定义 二、面板数据的分类 三、面板数据的特点,三、面板数据的特点,1.由于观测值的增多,可以增加估计量的抽样精度。 由于同时有截面维度与时间维度,通常面板数据的样本容量更大,从而可以提高估计的精确度。 面板数据提供“更加有信息价值的数据,变量增加变异性,变量之间的共线性削弱了,并且提高了自由度和有效性。,三、面板数据的特点,2.提供更多个体动态行为的信息。 由于面板数据同时有横截面与时间两个维度,有时可以解决单独的截面数据或时间序列数据所不能解决的问题,对面板数据进行回归既可以像回归分析截面数据一样捕获个体间的差异变化,又可以研究个体随时间的变化情况。,三、面板数据的特点,2.提供更多个体动态行为的信息。 案例:考虑如何区分规模效应与技术进步对企业生产效率的影响。对于截面数据来说,由于没有时间维度,故无法观测到技术进步。然而,对于单个企业的时间序列数据来说,我们无法区分其生产效率的提高究竟有多少是由于规模扩大,有多少是由于技术进步。,三、面板数据的特点,3.可以解决遗漏变量问题。 遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决,但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或“异质性”造成的,如果这种个体差异“不随时间而改变”,则面板数据提供了解决遗漏变量问题的又一利器。,三、面板数据的特点,4.带来一些问题。 (1)由于综合了两种数据类型,面板数据分析方法相对更加复杂。 (2)由于同一个体不同时期的数据一般存在自相关,样本数据通常不满足独立同分布的假定。 (3)面板数据的收集成本通常较高,不易获得。,图6 图7,File:5panel02a,用原变量建模还是用对数变量建模?,人均消费对收入的面板数据散点图 对数的人均消费对收入的面板数据散点图,本例用对数数据研究更合理,图8 图9,尽管两个地区的水平值差异很大,但消费结构并没有太大的变化。,第一节 面板数据的基本问题 第二节 面板数据的模型形式 第三节 面板数据模型的估计方法,其中: 和 分别表示居民的消费与收入。 反映不随时间变化的个体上的差异性(个体效应) 反映不随个体变化的时间上的差异性(时间效应),例1:居民消费行为与收入的关系,例2. 农村居民收入分析,(14.1.3),面板数据:多个观测对象的时间序列数据所组成的样本数据。,反映不随个体变化的时间上的差异性, 被称为时间效应。,反映不随时间变化的个体上的差异性, 被称为个体效应,第二节 面板数据的模型形式,一、个体效应模型 二、固定效应模型 三、随机效应模型 四、双向效应模型,其中: 为 的矩阵, 为k个解释变量的第i个个体在 第t时期的观测值,为 的矩阵。zi为不随时间 而变的个体特征,即 。扰动项由 两部分构成,被称为“复合扰动项”。,个体效应模型(individual-specific effects model)假定 样本中每个个体的回归方程斜率相同,但截距项不同。,一、个体效应模型,复合扰动项: 不可观测的随机变量 是代表个体异质性的截距项。 为随个体与时间而变的扰动项。 假定 为独立同分布的,且与 不相关。,个体效应模型,1.它表示不可观测的个体特殊效应、潜在变量、不可观测 的异质性等。考虑到个人或者任一家庭、企业都具有很 难被调查者观察到的独有的特征,这种特殊效应在整个 时间范围内 是保持不变的。 2.某些场合下将其视为常数,但这也是随机变量的特例, 即退化的随机变量。,对于个体效应 :,取对数后,模型变为: 在这里, 代表着企业不随时间变化并且不可观测到的 特殊效应,它表示一个企业的管理才能、员工素质等。,例:一个企业的柯布-道格拉斯生产函数,1.如果 与所有解释变量 均不相关,则进一步称之 为“随机效应模型”(Random Effects Model,RE)。 2.如果 与某个解释变量相关,则进一步称之为“固定效 应模型(Fixed Effects Model,FE)。,个体效应 与解释变量 的相关性:,第二节 面板数据的模型形式,一、个体效应模型 二、固定效应模型 三、随机效应模型 四、双向效应模型,固定效应模型形式同样与个体效应模型相同,但是在 固定效应模型中假定 为需要估计的固定参数,它可以 与解释变量之间存在相关性。 固定效应模型意味着存在内生解释变量。在 随 时间变化的情况下,固定效应模型所得到的第j个解释 变量的边际效应估计量同样是一致的。然而,同随机效 应模型相比,固定效应 模型中存在参数过多和自由度损 失过多等问题。,二、固定效应模型,第二节 面板数据的模型形式,一、个体效应模型 二、固定效应模型 三、随机效应模型 四、双向效应模型,对于随机效应模型,一般采用可行的广义最小二乘法 (FGLS)对其进行估计,由于 被假定为随机的,无须估 计, 因此使用随机效应模型可以一次得到所有系数的估 计值从而进行边际分析。但是,如果随机效应模型选取 不恰当所得到的参数估计值将是不一致的。,随机效应模型形式与个体效应模型相同,在随机效应 模型中假定 是完全随机的,即 与解释变量无关。,三、随机效应模型,第二节 面板数据的模型形式,一、个体效应模型 二、固定效应模型 三、随机效应模型 四、双向效应模型,双向效应模型(two-way-effects model)也可称为双因 素误差模型,它将未观测到的个体效应和时间效应引入 模型,是个体效应模型的标准延伸。 这里t仅随时间变化而不随个体变化,表示所有未包 含在回归模型中的发生在特定时期的影响,如地震对某 一时期企业生产的影响。,四、双向效应模型,双向固定效应模型(Two-way FE),对于短面板数据,通常将时间效应看做固定效应,如果个 体效应模型中含有时间趋势项或包含时间虚拟变量,则称 之为双向固定效应模型。 (1)在固定效应模型中引入时间趋势项t,它仅依时间而变化,而不依个体而变。 (2)对每个时期定义一个虚拟变量,然后把(T-1)个时间虚拟变量包括在回归方程中(未包括的时间虚拟变量即为基期)。,第一节 面板数据的基本问题 第二节 面板数据的模型形式 第三节 面板数据模型的估计方法,第三节 面板数据模型的估计方法,一、混合最小二乘估计 二、固定效应模型的估计方法 三、随机效应模型的估计方法,一、混合最小二乘估计(Pooled OLS),假定所有个体都拥有完全一样的回归方程: 其中,xit不包括常数项,这样,就可以直接把所有数据 放在一起,像对待横截面数据那样进行OLS回归,故被 称为“混合回归”(pooled OLS)。,人均消费对人均可支配收入的弹性系数是0.9694。,人均消费对人均可支配收入的边际系数是0.9694 CPit /IPit,对案例1人均消费CP与收入IP的面板数据进行混合估计:,注意:,1.由于面板数据的特点,虽然通常可以假设不同个体之 间的扰动项相互独立,但同一个体在不同时期的扰动项 之间往往存在自相关。此时,对标准差的估计应该使用 聚类稳健的标准差(cluster-robust standard error),而所 谓聚类就是由每个个体不同时期的所有观测值所组成。 同一聚类(个体)的观测值允许存在相关性,而不同聚 类(个体)的观测值则不相关。,注意:,2.混合回归的基本假设是不存在个体效应。对于这个假 设必须进行统计检验。由于个体效应以两种不同的形态 存在(即随机效应与固定效应),因此需要分别对其进 行检验。,第三节 面板数据模型的估计方法,一、混合最小二乘估计 二、固定效应模型的估计方法 三、随机效应模型的估计方法,二、固定效应模型的估计方法,对于固定效应模型: 由于 被假定为需要估计的固定参数并允许与解释变 量相关,因此,估计固定效应模型中的系数 时便可以 考虑通过变换模型形式从而消除这一不可观测到的个体 效应。,二、固定效应模型的估计方法,(一)组内估计 对于固定效应模型,给定第i个个体,将方程 两边对时间取平均可得 用原模型减去平均后的方程,可得其离差形式:,二、固定效应模型的估计方法,定义 则 由于上式中已将 消去,故只要 与 不相关,则可 以用OLS一致地估计 ,称为“固定效应估计量” (Fixed Effects Estimator),记为 。由于其主要使用了 每个个体的组内离差信息,故也称为“组内估计量” (within estimator)。,注意:,即使个体特征 与解释变量 相关,只要使用组 内估计量,就可以得到一致估计,但在作离差转换的过 程中, 也被消掉了,故无法估计 。即 无法估计 不随时间而变的变量的影响。,注意:,另外,为了保证 与 不相关,则要 求第i个观测值满足严格外生性,即 , 因为 中包含了所有 的信息。换言之,扰 动项必须与各期的解释变量均不相关(而不仅仅是当期 的解释变量),这是一个比较强的假定。,二、固定效应模型的估计方法,(二)最小二乘虚拟变量模型(LSDV) 对于固定效应模型: 在方程中引入(n-1)个虚拟变量(如果没有截距项,则 引入n个虚拟变量)来代表不同的个体,则可以得到与 上述离差模型同样的结果,称为“最小二乘虚拟变量模 型”(Least Square Dummy Variable Model)。,虚拟变量回归的特点,使用LSDV方法所给出的估计值,与我们用组内估计方法得到的估计值恰好一样,而且标准误和其他主要统计量也是一样。因此,固定效应估计量可以从虚拟变量回归得到。 从LSDV方法算出的可决系数的值通常都比较高,这是因为我们对每一横截面单位都包含了一个虚拟变量,以致能解释数据中的变异的大部分。,从结果看,北京、上海、浙江是自发消费(消费函数截距)最大的3个地区。,注意:,使用LSDV方法虽然可以得到对个体异质性 的 估计,但是会损失很大的自由度,并在估计(n-1)个额外 的参数时,大量的虚拟变量会加剧回归方程的多重共线 性问题,也不能估计非时变(time-constant)变量效应。 此外,LSDV方法也不能解决内生性问题。,LSDV的估计效果,Islam(2000)运用蒙特卡罗模拟研究了一些关于经济增长收敛方面的面板数据估计。研究发现,如果以小样本偏差和预测误差的标准方差来判断的话,LSDV估计在小样本上的估计结果最好,其估计效果甚至比GMM估计和工具变量(IV)估计都更好。,Islam (2000)对此提供的一种理论解释是,GMM和IV估计在小样本上估计效果不好的原因是因为,这两种方法的优点都依赖于回归估计中所能选择到的最优权重矩阵,而这一权重在回归中可能会收到数据噪声。,LSDV的估计效果,二、固定效应模型的估计方法,(三)一阶差分法 对于固定效应模型,给定第i个个体,将方程 两边进行一阶差分,以消去个体效应,得 对上述差分形式的方程使用OLS就可以得到“一阶差分 估计量”,记为 。,组内估计量与一阶差分估计量,由于 不再出现在差分方程中,只要扰动项的一阶差分 与解释变量的一阶差分 不相关,则 是一致的。此一致性条件比保证 一致的严格外生 性假定更弱,这是 的主要优点。,组内估计量与一阶差分估计量,组内估计和一阶差分都假设不可观测的个体效应与 解释变量相关,两种估计方法在T=2时产生相同的估计 量和推断。当总体时期T2时,在 序列不相关,独立 同分布的情况下,组内估计量 比一阶差分估计量 更有效率。因此,在实践上,主要使用 ,而较少用,第三节 面板数据模型的估计方法,一、混合最小二乘估计 二、固定效应模型的估计方法 三、随机效应模型的估计方法,三、随机效应模型的估计方法,对于回归方程: 随机效应模型假定 与解释变量 均不相关,故 OLS是一致的。然而,由于扰动项由 组成,不是 球型扰动项(同方差、无自相关),因此,OLS不是最 有效率的。,由于 的存在,同一个体不同时期的扰动项之间存在自 相关,,具体来说,用OLS来估计以下“广义离差” (quasi-demeaned) 模型,,组间估计(Between Estimator),究竟该用固定效应还是随机效应模型?,当我们在日常研究中选取模型形式时,不能确定未观测到的个体效应是否与解释变量相关,因而不能恰当地在固定效应模型和随机效应模型之间进行选取。错误选取模型类型,将影响我们的参数估计量等从而影响对具体问题的分析。在处理面板数据时,究竟该使用固定效应模型还是随机效应模型是一个根本问题。,Hausman检验,原假设H0: 与 不相关(模型应设定为随机效应) 备择假设H1: 与 相关(模型设定为固定效应) Hausman检验统计量:,固定效应模型与随机效应模型哪个更好一些?,随机效应模型的好处是节省自由度。对于从时间和截面两方面看都存在较大变化的数据,随机效应模型能明确地描述出误差来源的特征。 固定效应模型的好处是,很容易分析任意截面数据所对应的应变量与全部截面数据对应的因变量均值的差异程度。,Wooldridge(2000),在实际应用时,是选择固定效应模型还是选择随机效应模型?一般的经验的做法是,如果研究者预期建立面板数据模型推断样本空间的经济关系,则模型设定为固定效应模型会更合理一些。否则,如果研究样本是从总体随机抽样得到的,并且预期利用模型解释或推断总体的统计性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏凤凰集团新华书店考试试题
- 2025年04月国家自然资源部第一海洋研究所公开招聘31人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年04月临海市自然资源和规划局下属事业单位选聘2人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 农资返利合同样本
- 冷库货车出售合同标准文本
- 出租结婚服装合同样本
- 专线司机合同样本
- 养老机构销售合同样本
- 出售债权合同样本
- 2025年03月福州市仓山区自然资源和规划局编外人员公开招聘笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 药理学考研历年真题汇总(重点题)
- DB32T 3904-2020 电动自行车停放充电场所消防技术规范
- 云南省文山壮族苗族自治州各县区乡镇行政村村庄村名居民村民委员会明细
- 施工组织设计-拟投入的主要施工机械设备表
- 质量目标管理表
- DBJ41T 074-2013 高压细水雾灭火系统设计、施工及验收规范
- Q∕SY 05262-2019 机械清管器技术条件
- 《出纳员登记日记账》 课件
- DB32∕T 2518-2013 农田径流氮磷生态拦截沟渠塘构建技术规范
- 拳击单招考试评分标准
- DBJ51 014-2021 四川省建筑地基基础检测技术规程
评论
0/150
提交评论