




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、10 自相关:误差项相关autocorrelation what happens if error terms are correlated? 本章考虑放松clrm另一假设总体回归函数(prf)的扰动项ui无序列相关(serial correlation)或自相关(autocorrelation)。本章讨论问题 本章将深入讨论以下问题: (1) 自相关有什么性质? (2) 自相关的理论与实际结果是什么? (3) 由於非自相关假设与不可观察的扰动项ui有关,那么,如何判断在给定情况下存在自相关?简言之,在实际中,如何诊断自相关? (4) 如果發现自相关的後果比较严重,如何採取措施加以补救? 本章
2、对自相关的讨论在许多方面与上一章的异方差问题相类似。在存在异方差和自相关的情况下,普通最小二乘法估计量,尽管是线性的和无偏的,但却不是有效的。也即,它们都不是最优线性无偏估计量blue。自相关是模型设定的一种错误 如果模型设定正確,残差一定是一个随机的序列除了均值、方差的特征,还有顺序上的特征,好模型的残差不应该在顺序上表现出“模式” 过度拟合的模型可能也不会有自相关现象 残差可能表现出的“不正確”模式:异方差(主要是空间上的不平稳);自相关(主要是时间上的不平稳)10.1 自相关的性质在时间(如在时间序列数据中)或者空间(如在横截面数据中)按顺序所列观察值序列的观察值之间存在着相关,两个不同
3、误差项ui和uj的乘积的期望为零。即,经典模式假定任一观察值的扰动项不受其他观察值的扰动项的影响。如,在讨论产出对劳动和资本投入回归(也即生产函数)的季度时间序列数据时,譬如说,某一季度工人罢工影响了产出,但却没有理由设想这一“中断”会持续到下一个季度。换言之,如果本季度产出降低,但并不意味着下一季度产出也下降。类似地,在分析家庭消费支出与家庭收入的横截面数据时,一个家庭收入增加对其消费支出的影响并不会影响另一个家庭的消费支出。但是如果存在这種依赖关係,便产生了自相关问题。自相关图示一例 此图中,观察残差与前一期残差之间的关係 如果不存在时间上的相关,实际值序列会在顺序上随机地分佈在趋势线两侧
4、 此图中,明显存在非随机情形连续出现在趋势线下侧连续出现在趋势线上侧产生自相关的原因1:惯性 大多数经济时间序列的一个显著特徵就是惯性(inertia)或者说是迟缓性(sluggishness)。 时间序列,例如国民生产总值、就业、货币供给、价格指数等等,都呈现周期或循环(在经济活动中重複發生或者自我维持波动)。当经济恢復开始时,由萧条的底部开始,大多数的经济序列向上移动。在向上移动的过程中,序列某一时点的值会大於其前期值。这裏有一種“动力”存在,继续向上,直到某些事件發生(例如税收的增加或者利率的提高或者两者同时增加)才使序列移动减慢下来。 在涉及时间系列数据的回归方程中,连续的观察值之间很
5、可能是相关的。 实际中,许多经济变量都会产生滞後影响,如物价指数、基建投资、国民收入、消费、货币发行量等都有一定的滞後性。如前期消费额对後期消费额一般会有明显的影响。消费支出对收入的回归分析中,经常会发现当期的消费支出除了依赖于其他变量外,还依赖于前期的消费支出,用模型表示为: 。 出现这种现象的原因是由于心理、技術及制度上等等的原因,消费者不轻易改变他们的消费习惯。这个模型中就出现了序列相关。1231ttttyxyu较长时段看“惯性” 事物的节奏不一定以季节为律,如经济现象的周期性。中国经历的三次经济周期1st上升 1981-1988。1988下到1989上,经济周期到顶峰,经济过热,物价两
6、位数的通货膨胀。 http:/ 1989-1991转向市场体制後的第一个下降周期和第一个生产过剩危机。并非如此单纯的原因2nd上升 1992-1994。上升特别迅猛,因为背後有很强的政治性。到1994上,经济过热,当时的利率提高到了接近14%。下降1995-1999。利率上升,国内需求下降;汇率贬值,海外市场被打开,1994是整个世界消化了中国国内的经济危机。内需企业减员增效;外需企业开足马力,利润丰厚。2000上经济经济回升但下半年起又开始下滑。3rd上升2002-2007。20022007年大部分产业供过于求,价格下滑。房地产相关产业价格迅速上升。2003後出现了一冷一热,凡是汽车、手机、
7、彩电、空调、服装这一类产业价格在一路下跌,而房地产、钢铁、水泥、原油这一类产业价格在一路上升。下降2008。随着大宗商品石油钢铁煤价格暴跌,重工业企业亏损严重,外需市场萎靡。经济下滑刺激政府的四万亿,大搞基建又会导致部分重工业产能过剩。内需消费市场远没有打开。中国人口週期波动 1949後,由于社会稳定、生活条件和卫生条件改善,人口快速增长,形成第一个高峰期;50年代末到60年代初,由于天灾人祸,1960年人口出现负增长,形成第一个低谷期;60年代前期到70年代中期持续了10多年的高强度生育,形成第二个高峰期;70年代中期开始,国家推行计划生育政策,使人口出生率下降,形成第二个低谷期,到90年代
8、,由于人口惯性,第二个高峰期内出生的人口逐步进入婚育年龄,又形成第三个高峰期。产生自相关的原因2:模型设定误差形如图10-1a到d的自相关的發生并非因为连续观察值之间相关,而是由於回归模型未“正確”设定。模型的不恰当设定意味着或是由於本应包括在模型中的重要变量未包括进模型中(这是过低设定的情形),或是模型选择了错误的函数形式本应该使用对数线性模型但却用了线性变量模型(liv)。如果發生这样的模型设定误差(model specification errors),则从不正確的模型中得到的残差将会呈现系统模式。一个简单的检验方法是将略去的变量包括到模型中,判定残差是否仍然呈现系统模式。如果它们并不存
9、在着显著模式,那么系列相关可能是由於模型设定的错误。菜贱伤农 低需求弹性,高供给弹性 产量波动 蛛网现象的原因,政府倡导因素加重了波动 自然波动,即气候的影响,可能存在政府限价的问题 菜贵伤城的原因在于流通环节,与农业无关产生自相关的原因3:蛛网现象the cobweb phenomenon许多农产品供给呈现蛛网现象,即供给对价格的反应滞後了一个时期,因为供给决策的实现需要一定的时间。因此,农民本年度的计划受上一年价格影响,供给函数: 供给t=b1+b2pt-1+ut假设在t期末,价格pt竟然低於pt-1,於是,在(t+1)末时期,农户们决定比t时期少生产一些。显然,在这種情形下,扰动项ut并
10、不设想它是随机的,因为,如果农民在第t年生产多了,则他们很可能会在第(t+1)年少生产一些,这样下去,就会形成蛛网模式。产生自相关的原因4:数据处理data manipulation 在实证分析中,通常原始数据是要经过加工的。例如,在季度数据的时间序列回归中,数据通常是通过月度数据推导而来的,即将3个月的数据简单加总并除以3。这样平均的结果,消除了月度数据的波动性,而这種“平滑”过程本身就可能导致扰动项的系统模式,从而引入自相关。 需要指出的是:虽然大多数经济时间序列都因在一个时期内或者上升或者下降而表现出正的自相关,而不像图10-2b那样表现为一上一下的恒常运动。 自相关可能是负的,也可能是
11、正的。 图10-2中二散点图,横轴是前一期的误差项,纵轴是本期的误差项10.2自相关的後果(1) 最小二乘估计量仍然是线性的和无偏的。(2) 但却不是有效的。ols估计量并不是 blue。(3)ols估计量的方差是有偏的。有时候,用来计算方差和ols估计量标准差的公式会严重低估真实的方差和标准差,从而导致t值变大。这会使得从表面上看某个系数显著不为零,但是事实却并非如此。(4) 因此,通常所用的t检验和f检验一般来说是不可靠的。(5) 计算得到的误差方差=rss/d.f.(残差平方和/自由度),是真实方差的有偏估计量,在有些情形下,它很可能是低估了真实的方差。(6) 因此,通常计算的r2不能测
12、度真实r2。(7) 通常计算的预测的方差和标准差可能也是无效的。自相关产生的後果与异方差产生的後果很相似,也是严重的。10.3 自相关的诊断 并不知道误差的s2的真实值,因为真实的ui无法观察 不但不知道真实的ui是什么,而且如果它们是相关的,我们也不知道其产生机制:仅仅有它们的替代物ei 与异方差情形一样,不得不根据从标准ols法中得到的ei 来“瞭解”自相关存在与否10.3.1图示检验法 把给定的回归模型直接用ols估计参数,求出残差项et ,再描绘et的散点图,根据散点图判断et 的相关性。残差et的散点图通常有两种绘制方式 。etet-1et与与et-1的关系的关系用(et-1 ,et
13、)(t = 1,2,n)作散点图,如果大部分点落在第、象限,表明随机误差项ut存在着正的序列相关。 et-1 ,et的散点图 如果大部分点落在第如果大部分点落在第、象限,那么象限,那么随机误差项随机误差项ut 存在着负自相关存在着负自相关et-1etet与与et-1的关系的关系按时序绘制回归残差项et的图形 如果et(t=1,2,n)随着t 的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,就可断言et 存在相关,表明存在着序列相关;如果et 随着t的变化逐次变化并不断地改变符号,那么随机误差项ut 存在负的序列相关t te et tet的分布的分布 如果et 随着t 的变化逐次变化并不频繁
14、地改变符号,而是幾个正的et 後面跟着幾个负的,则表明随机误差项存在ut 正的序列相关et的分布的分布t te et t10.3.1 图形法表10-2的解读 et=yt-yt是按时间顺序排列的,它应该随机分佈,但在本例中,出现了“模式” 模式:整体上表现出来的规律,一般不会是随机的。或者说,随机现象本身不会有什么规律可言,既然有规律,就不是随机 如果是随机分佈,d一列的每个数值也是随机出现的 图10-4中,et和et-1的组合构成点,每个点的坐标是本期的残差与上一期的残差,如果模型符合clrm假设,这些点的分佈应该体现出随机特徵,但图10-4中体现出的是明显的正相关dw检验 dw检验是j. d
15、urbin(杜宾)和g. s. watson(沃特森)于1951年提出的一种适用于小样本的检验方法。dw检验只能用于检验随机误差项具有一阶自回归形式的序列相关问题。这种检验方法是建立经济计量模型中最常用的方法,一般的计算机软件都可以计算出dw值。10.3.2 dw检验 注意分子、分母的加总範围 逐次残差差的平方和对残差平方和的比值 如果et和et-1都是独立的标准正态随机变量,则根据方差的性质:var(x+y)=var(x)+var(y)乱上加乱等于更乱 如果计算平均值,d的分子为2,分母仍然为1,d=2 如果et和et-1具有相关性,即它们之间存在线性关系(并非严格的线性关系),正相关时,d
16、变小,负正相关时,d变大。 神来之笔!(数据演示参见“精要10例题”)nttnttteeed12221)(d公式中的相关程度et和et-1之间的相关程度越高,则(et-et-1)2越接近0(正相关时),或者接近4 (负相关时) 如果et和et-1之间的相关程度降低,则(et-et-1)2会逐渐远离0或4 。 因此,自相关系数可以按照“积矩法”计算,公式为10.9协方差除以二变量各自的标准差乘积,而et和et-1同为标准正态分布的随机变量,分母可以改为et2d 统计量的假设 1. 回归模型包括一个截距项。因此,d统计量无法用来判定那些通过原点的回归模型的自相关问题。 2. 变量x是非随机变量,即
17、在重複取样中是固定的。 3. 扰动项ut的产生机制是: ut= ut1+vt -11 这表明在t时期内的扰动项或者说误差项依赖於它的第(t-1)期的值以及一个纯粹的随机项(vt),依赖过去值的程度是由来测度 4.解释变量中不包含因变量的滞後值马尔可夫链 在给定当前知识或信息的情况下,只有当前的状态用来预测将来, 过去(即当前以前的歷史状态)对於预测将来(即当前以後的未来状态)是无关的。p(xh|xs,st)=p(xh|xt), ht 一只青蛙在荷叶上跳来跳去,目的是吃虫子,它下一次跳向哪片叶子与它以前所停留过的叶子没有什么关係,而只与它目前的位置有关,因为虫子的出现是随机的 以人名命名一種现象
18、:帕累托,贝叶斯,有时是用人名命名一種方法d-w检验的步骤 (1) 进行ols回归并獲得残差ei。 (2) 根据方程(10-5)计算d值 (3) 给定样本容量及解释变量的个数,从d-w表中查到临界的dl和du。 (4) 按照表10-3中的规则进行判定dw 检验决策规则dw检验的缺点和局限性 有两个不能確定的区域,一旦dw值落在这两个区域,就无法判断。这时,只有增大样本容量或选取其他方法。 dw统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正確的诊断。 dw检验不适应随机误差项具有高阶序列相关的检验。 只适用于有常数项的回归模型并且解释变量中不能含滞後
19、的被解释变量。10.4补救措施:广义差分方程generalized difference equation ut= ut1+vt 则ut ut1 =vt 如果知道相邻两个残差是怎样相依为命的,即值,即可消除之 由于可以取-1到1之间的任何值,故称“广义”, “差分”则指相邻两个数据的差tttttvxxbbyy)()1 (1211小气的prais-winston变换 舍不得第一项之缺失,就外推一个 如果样本量很大,何患此区区? 爬行的科学,不放过任何一点可能的进步10.5 如何估计 经常直接使用=1 从d统计量估计 从ols残差估计本课程思想与方法概要 寻找经济现象的数量规律,对经济学理论进行计
20、量 基于clrm假定,由ols测得二元或多元模型 对模型的可靠性进行检验 clrm假定被突破的若干情形与对策如何寻找可靠模型? 最简单的二元模型 总体规律及其随机设定,u的性质 总体不可知,只能以样本推测,使用ols 多元模型更常用,有类似的假设,但稍多为什么有那么多假设? 从理想模型出發,逆推其理想的初试状态 一个理想的模型,能够解释的因素与形式都应包含在模型中,只能剩下纯粹的随机因素,即残差不能存在任何模式。比如,残差与x的变化无关,本期(或本地)的残差与其他时期(或地区)的残差无关,自变量之间不能互相解释模型是否可靠?各参数 来自样本的模型是不是偶然的? 必然性隐藏在偶然性背後。“路遥知
21、马力”,幾遥先至知?偶然性的度量方法是个体现象与总体现象的平均偏离程度se 估计量的性质,blue是clrm理想假设下的理想估计量 给定95的可靠程度,运用se为材料,可以算出一个临界值,进行置信区间法的假设检验,检验自变量x对因变量y是不是有影响。 也可以运用se,根据基本规律,计算“可靠程度”模型是否可靠?整个模型 判定系数:可由模型解释的y差异在y的总差异中所占的比重=ess/tss=ess/(ess+rss) 各自变量合在一起对y是否有影响,须使用f检验。原理:如果可解释的差异如果比不可解释的差异大很多,模型整体就是有效的。f统计量的分布,查概率可以判断是否拒绝零假设回归模型的函数形式 针对特定的经济现象,可以对模型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康管理师模拟考试试题及答案
- 2025年江汉艺术职业学院高职单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析
- 2025年乡村执业医师考试真题回顾试题及答案
- 2025年永城职业学院高职单招(数学)历年真题考点含答案解析
- 2025年黑龙江林业职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025年青岛飞洋职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年陕西航空职业技术学院高职单招语文2019-2024历年真题考点试卷含答案解析
- 安全知识培训教材
- 2025年长沙民政职业技术学院高职单招(数学)历年真题考点含答案解析
- 2025年长江职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 第二节欧洲西部24
- 小学五年级下册体育教案_(全册)
- 平行四边形的应用动点问题
- 多媒体课件制作流程图
- 关于调整城市下水道工人和环卫工人津贴的文件
- MT_T 695-1997 煤矿用高倍数泡沫灭火剂通用技术条件_(高清版)
- 纺织品装饰用织物
- 深静脉置管术护理及肝素钠封管的意义
- 万科房地产集团公司全套管理制度及流程图
- 《商业发票》word版
- 《教案封面设计》word版
评论
0/150
提交评论