版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章违背经典假定的回归模型
在前面几章里我们讨论的回归模型中都有一些基本的假定。只有当一个回归模型满足经典假定条件时,才能得到一个较好的估计。然而,在研究实际的社会经济等问题时,经常会遇到一些违背经典假定的情况。在这些情况下,如果直接用普通最小二乘法建立模型,会得到很不理想的结果。因此,如何处理这些问题,就是我们需要面对的问题。在这一章里我们将重点讨论模型中出现了违背经典假定的几种情况时的诊断及解决办法。异方差序列相关多重共线性
第一节异方差性一、异方差性的概念和产生的原因(一)异方差性的概念在回归模型的基本假设中,假定随机误差项u1,u2,…,un
具有相同的方差,独立或不相关,即对于所有样本点,有:但是在建立实际问题的回归模型时,经常存在与此假设相违背的情况,一种是经济计量建模中常说的方差非齐性或异方差性,即:异方差问题多存在于横截面数据中。
异方差性:
在线性模型的基本假定中,关于方差不变的假定不成立,其他假定不变的情形称为异方差性。4-1异方差的图示
(二)异方差产生的原因实际问题是非常错综复杂的,因而在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差。通过下面的几个例子,我们可以了解产生异方差性的背景和原因。【例4.1】按照差错—学习模式,当人们学习时,动作上出现的差错随时间的增加而逐渐减少。如在某一时期内测验打字差错数(Y)与打字实习小时数(X)之间的关系。随着打字实习小时数的增加,打字差错平均字数及它们的方差不是不变的,而是随之减少的。这个模型中就出现了异方差。【例4.2】在研究城镇居民收入与消费的关系时,我们知道居民收入与消费水平有着密切的关系。用Xi
表示第i户的收入,Yi
表示第i
户的消费额,那么反映收入与消费之间的模型为:在模型中,因为各户的收入不同,消费观念和习惯的差异,导致消费的差异非常大,模型中存在明显的异方差性。一般情况下,低收入的家庭购买差异性较小,大都购买生活必需品;但是高收入的家庭购买行为差异就很大,高档消费品很多,房子、汽车的规格选择余地也很大,这样购买金额的差异就很大;导致消费模型的随机误差项具有不同的方差。【例4.3】利用某行业的不同企业的截面样本数据估计C-D生产函数:由于这里的u表示了包括不同企业的工艺、地理条件、工人素质、管理水平上的差异以及其他因素。对于不同企业,这些因素对产出的影响程度不同,引起ui
偏离0均值的程度不同,出现了异方差。引起异方差的原因还有很多,如模型中省略了重要的解释变量,模型的函数形式设定不准确等都容易产生异方差。
通常认为,截面数据较时间序列数据更容易产生异方差。这是因为同一时点不同对象的差异,一般说来会大于同一对象不同时间的差异。不过,在时间序列数据发生较大变化的情况下,也可能出现比截面数据更严重的异方差。二、异方差的表现异方差通常有三种表现形式:(1)递增型,(2)递减型,(3)条件自回归型。4-2递增型异方差情形4-2递减型异方差情形4-3条件自回归型异方差情形
(2)经济时间序列中的异方差常为递增型异方差。金融时间序列中的异方差常表现为自回归条件异方差。(1)时间序列数据和截面数据中都有可能存在异方差,一般情况下样本数据为截面数据时容易产生异方差性。
三、异方差产生的后果当一个回归模型中的随机误差项存在异方差时,是否可以继续使用普通的最小二乘法?倘若我们仍然使用,将会产生什么样的后果?(一)异方差对参数估计的影响以一元线性回归模型为例:1.回归参数估计量仍具有无偏性和一致性。的无偏性只利用了E(ui)=0的假定。令2.回归参数估计量不再具有有效性(方差最小性)。有效性是依赖于同方差和无序列相关假定的。当模型中存在异方差时,参数的方差将大于在同方差条件下的方差。如果用普通最小二乘法估计参数(用同方差的情形),将出现低估参数的真实方差的情况。进一步将导致回归系数的检验值高估,可能造成本来不显著的某些回归系数变成显著。从而导致参数的显著性检验失效。这将给回归方程的应用效果带来一些影响。(二)异方差对参数显著性检验的影响(三)异方差对模型预测的影响异方差将导致回归方程的应用效果极不理想,或者说模型的预测失效。一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差。所以,当模型出现异方差性时,它的预测功能失效。
四、异方差性的检验对于异方差性的检验,人们进行了大量的研究,提出的诊断方法已有10多种,但没有一个公认的最优方法,下面介绍几种常见的方法。残差图分析法是一种直观、方便的分析方法。它以残差为纵坐标,以其他适宜的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值为横坐标;(2)以为横坐标;(3)以观测时间或序号为横坐标(一)残差图分析法X4-4递减型异方差X4-5递增型异方差在EViews软件包中,直接给出了以ei
为纵坐标,以观测时间或序号为横坐标的残差图。如果回归模型适合于样本数据,那么残差ei
应反映ui
所假定的性质,因此可以根据ei
来判断回归模型ui
是否具有某些性质。一般情况下,当回归模型满足所有假定时,以ei
为纵坐标的残差图上的n
个点散布应是随机的、无任何规律。
(二)等级相关系数法等级相关系数法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既适用于大样本,也适用于小样本。思路:将异方差性与扰动项u和某个解释变量X之间的相关程度挂钩(即与Xt
的大小有关),从而将对异方差性的研究转化为对ut
与Xt
的相关程度的研究。由于扰动项无法观测,因而用残差代替之,转化为对et与Xt
的相关程度的研究,若et与Xt
高度相关,则可推断异方差性存在。
问题是,在此无法用常规相关系数来检验,因为et与Xt
的相关系数恒等于0:
因而改用Xt
和的等级相关系数检验et和Xt的相关程度。进行等级相关系数检验通常有三个步骤:第一步,作Y
关于X
的普通最小二乘估计,求出ui
的估计值,即ei
的值。第二步,取ei
的绝对值,即,把和按递增或递减的次序划分等级。按下式计算出等级相关系数其中,n为样本容量,di
为对应于Xi
和的等级的差数。【例】等级相关系数的计算:假设我们有Xi和ei
如下:Xi:
25,40,52,58,65
ei
:
1.6,-2.9,-10.7,–14.8,5.7则:1.6,2.9,10.7,14.8,5.7Xi的等级ei
的等级级差di123451245300-1-12第三步,做等级相关系数的显著性检验。在n>8的情况下,用下式对样本等级相关系数rs
进行t
检验。检验的统计量为:如果,则可以认为模型中不存在异方差性;如果,说明
Xi
和之间存在系统关系,则说明模型中存在异方差。在多元的情况下,需对每一个解释变量做等级相关系数检验。只有当每个解释变量检验都不存在异方差时模型中才不存在异方差。否则,模型中存在异方差。
(三)戈德菲尔德-匡特检验(样本分段比检验)(Goldfeld-Quandt检验H0:ui
具有同方差,H1:ui
具有递增型异方差。①把原样本分成两个子样本。具体方法是把成对(组)的观测值按解释变量值从小到大排序,略去m个处于中心位置的观测值(通常n
30时,取m
n/4,余下的n-m个观测值自然分成容量相等,(n-m)/2,的两个子样本。)②用两个子样本分别估计回归直线,并计算残差平方和。两段的样本容量分别为n1
和n2,模型参数个数为k,两段样本回归残差分别为e1i和e2i,则两段的残差平方和分别为和,从而可计算出各段模型的随机误差项的方差估计量分别为和。③F统计量是:在H0成立条件下,④判别规则如下:若F
F
(n2-k,n1-k),接受H0
(ui
具有同方差)若F
>
F
(n2-k,n1-k),拒绝H0
(递增型异方差)戈德菲尔德-匡特检验检验的特点:1.要求大样本;2.异方差的表现既可为递增型,也可为递减型;3.检验结果与选择数据删除的个数m
的大小有关;4.只能判断异方差是否存在,在多个解释变量的情下,对哪一个变量引起异方差的判断存在局限。(四)戈里瑟(Glejser)检验用残差绝对值对每个解释变量建立各种回归模型,例如等等,并检验回归系数是否为0。应用t检验判断,如果,则有异方差。Glejser检验的特点是:①既可检验递增型异方差,也可检验递减型异方差。②一旦发现异方差,同时也就发现了异方差的具体表现形式。③计算量相对较大。④当原模型含有多个解释变量值时,可以把拟合成多变量回归形式。
(五)怀特检验White检验由H.White1980年提出。戈德菲尔德-匡特检验(Goldfeld-Quandt
检验)必须先把数据按解释变量的值从小到大排序。
戈里瑟检验(Glejser检验)通常要试拟合多个回归式。
White检验不需要对观测值排序,也不依赖于随机误差项服从正态分布,它是通过一个辅助回归式构造2
统计量进行异方差检验。White检验的具体步骤如下。以二元回归模型为例:第一步,使用普通最小二乘法估计模型以上并计算出残差ei
。第二步,做如下的辅助回归注意,上式中要保留常数项。求这个辅助回归的判定系数R2
。
第三步,White检验的零假设和备择假设是:
H0:模型中的ui
不存在异方差;
H1:模型中的ui
存在异方差。在无异方差的原假设下,可以证明,辅助回归的R2
乘以样本容量n,渐近地服从自由度为辅助回归中解释变量个数r(不包括常数项)的x2分布,即此处,辅助回归有5个解释变量,因此r=5。第四步判别规则是:
若,接受H0(ui
具有同方差)若,拒绝H0(ui
具有异方差)在EViews软件中,给出了怀特检验程序,可以直接输入相应条件,即可获得怀特检验的结果。①建立回归模型:LSYCX②检验异方差性:在方程窗口中依次点击ViewResidualDiagnostics—HeteroskedastcityTests—WhiteWhite检验的特点:不仅能够检验异方差的存在性,同时在多变量的情况下,还能判断出是哪一个变量引起的异方差,通常用于截面数据的情形。此方法不需要异方差的先验信息,但要求观测值为大样本。
五、异方差性的修正办法当我们所研究的问题存在异方差性时,就违背了线性回归模型的经典假定。此时,就不能用普通最小二乘法进行参数估计。此时必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足同方差性假定,然后进行模型参数的估计,就可得到理想的回归模型。消除异方差的通常方法是:加权最小二乘法(WLS)我们考虑一元线性回归模型(一)已知时如果每个观察值的误差项方差是已知的,使用为权数,对模型作如下变换:由于通过加权变换使误差项变成同方差了。记则仍然记,取,则所以称该方法为加权最小二乘法。其基本思想是:对不同的赋予不同的权数,较大的赋予较小的权数,较小的赋予较大的权数,从而更好地反映对残差平方和的影响。根据加权最小二乘法,求得的参数估计为:其中:如果加权变换后模型的其他假定条件都满足,则该模型就变成满足经典假定的回归模型了,就可利用普通最小二乘法估计参数,得到的估计量是最佳线性无偏估计量。通过加权变换使原模型中的异方差误差项转换为同方差误差项,使加权变换后的模型满足最小二乘法的假定,从而使用普通最小二乘法估计参数,这种方法称为加权最小二乘法。(二)未知时如果是未知的,一般情况下,我们可根据误差与解释变量或被解释变量的关系来确定变换的权数。一般我们先采用戈里瑟检验方法确定ei
与Xi
之间的关系。1.如与之间为线性关系,则可认为这时,选择为权数,即对原模型两边同时乘以,将异方差模型变为同方差模型。变换后的模型为:容易看出该模型为同方差模型。可用普通最小二乘法估计该模型中的参数,得到最佳线性无偏估计量。
【注意】
该模型是无截距模型,要用过原点回归去估计参数,EViews软件包提供了这种功能。2.如与之间为线性关系,则可认为这时,选择为权数,即对原模型两边同时乘以,将异方差模型变为同方差模型。变换后的模型为:容易看出该模型为同方差模型。可用普通最小二乘法估计该模型中的参数,得到最佳线性无偏估计量。注意,在变换后的模型中,斜率项是原模型的距截项,截距项是原模型的斜率项。3.一般情况,如果,则可认为这时,选择为权数,即对原模型两边同时乘以,将异方差模型变为同方差模型。变换后的模型为:此模型即为同方差模型。(三)加权最小二乘法的矩阵表达对于多元回归模型,其矩阵形式为:若异方差的情形是:令用矩阵P
将原模型变换为:注意到:所以变换后的模型为具有同方差的模型。【例】设消费函数为:式中:Y为消费支出,X2为个人可支配收入,X3为个人的流动资产,u为随机误差项,且满足:(1)选出适当的变换修正异方差;(2)写出修正异方差后的参数估计量的表达式。【解】(1)取,用W2i乘以模型两端得:则即修正后的模型为同方差回归模型。(2)根据加权最小二乘法,可得修正异方差后的参数估计式为:其中,(1)利用原始数据和OLS法计算ei;(2)生成权数变量wi
;(3)使用加权最小二乘法估计模型:【命令方式】LS(W=权数变量)YCX【菜单方式】①新建权函数“Object”—“GenerateSeries”—输入权函数(w);②利用OLS估计出原模型;注意:中间不能有空格(四)、WLS的EViews软件实现③求出异方差修正结果:“Quick”—“EstimateEquation”在弹出的对话框输入“YCX”,然后单击右侧的“Option”,弹出新对话框。在新对话框“Coefficientcovariancematrix”选中“White”,在“Weights”中的“Type”一项选择“Inversestd.dev.”,在“Weightsseries”中输入“w”然后单击确定。④对加权模型进行异方差检验。“View”—
“ResidualDiagnostics”—“HeteroskedasticityTests”—“White”减小异方差的另一种方法:对模型作对数变换:考虑一元线性回归模型作对数变换变换后的模型通常可以减小异方差的影响。(1)变换后使变量测定值尺度变小;(2)变换后的模型的残差表示的是相对误差,相对误差往往比绝对误差有较小的差异。对于模型:其残差为:注意:对数变换后模型参数的经济意义会有所不同。
五、实际案例现有2001年北京市规模最大的35个百货零售商店的商品销售收入和利税总额资料如表4.1所示商店名称销售收入X利税总额Y北京百盛轻工发展有限公司9710812803北京北辰购物中心1150108802北京华联商厦有限公司8779212087城乡贸易中心股份有限公司8296413424赛特购物中心7865210487王府井百货大楼1100509960北京双安商场993336701北京庄胜崇光百货商场865623580北京燕莎友谊商城9547210161西单商场股份有限公司1380309333表4.1北京市35家最大百货商店销售资料单位:万元商店名称销售收入X利税总额Y北京物美商城有限责任公司1187703490菜市口百货有限责任公司454659516北京翠微集团1028035792北京中友百货有限责任公司518762459西单赛特商城有限责任公司233541774北京市复兴商业城406442562北京蓝岛大厦1027773196北京东安集团公司长安商场665592914北京锐步体育用品中心139441943北京城乡华懋商厦有限公司165661218续表商店名称销售收入X利税总额Y华远西单购物中心股份公司152851787北京燕莎望京购物中心463051016北京中旭三利百货公司19695823北京创益佳商场43599581北京世都百货有限责任公司22041979北京兴城商厦27070696百盛购物中心百盛商场12402956北京小白羊超市59112716北京市大明眼镜公司88402093亿客隆商业股份有限公司43814999北京友谊商店股份有限公司163091390方庄购物中心股份有限公司12005795北京市顺义国泰商业大厦13652537北京西单商场顺义联营大楼13684514北京市朝阳商业大楼10925411(4.1)利用普通最小二乘法,根据表4.1中的数据,我们可以估计出该回归方程为:EViews
:lsycx(1)图示检验法异方差检验生成残差平方和序列:在Workfile中单击“Genr”按钮,在对话框中输入“e2=resid^2”作散点图:将销售收入Xi
作为横坐标,残差平方和为纵坐标,画出散点图。“Quick”—“Graph”在对话框输入“xe2”,单击OK“Graphtype”中选择“Scatter”单击OK图4-6散点图(2)Goldfeld-Quandt检验法将样本观测值按解释变量X顺序排序:打开序列X,弹出Series:X的窗口。在窗口中单击“Sort”在“Sortkey”中选择“X”“Ascending”求第一个样本残差的平方和:求第二样本残差的平方和:计算F统计量:RSS1=3965412RSS2=1.42E+08F=RSS2/RSS1=35.81(4.2)(3)戈里瑟检验(4.3)EViews
:lsabs
(e)csqr(x)EViews
:lsabs
(e)cx很明显,对这二个残差回归方程的回归系数的显著性检验,均拒绝同方差假设,表明存在异方差性。式(6.19)中的判定系数较大。因此,认为有线性关系,,应选择为权数对原模型(6.11)进行变换。(4.4)对变换后的模型使用普通最小二乘法得到如下结果:EViews
:ls
Y/sqr(x)1/sqr(x)sqr(x)EViews
:ls
Y*@inv(sqr(x))@inv(sqr(x))sqr(x)对比加权最小二乘估计式(4.4)与普通最小二乘估计式(4.1),我们发现斜率系数相差很小,但加权最小二乘估计的标准误(0.0117)要小于普通最小二乘估计的准误(0.0128),说明在有异方差的情形下,普通最小二乘估计高估了估计量的标准误。最后,我们得到的最佳估计值应为28.516和0.075,最终模型应为:(4)White检验Y对X作回归,出现Equation窗口,在该窗口单击“View”—
“ResidualDiagnostics”—“HeteroskedasticityTests”—“White”(1)生成权重序列;W1=1/sqr(x)W1=@inv(sqr(x))WLS的EViews软件实现(2)选择EquationEstimation在Equationspecification中输入YCX;(3)在Options中选择Coefficiencovariancemarix中选择:White,在Weights中选择:Inversestd.dev.,在Weightsseries中输入:w1点击OK,采用WLS方法估计模型。(4)对估计后的模型的残差,再使用White检验判断是否消除了异方差性。【例】设回归模型为且满足:问当满足什么条件时,以下统计量是的最佳线性无偏估计量。(1)(2)(3)【解】(1)是模型满足古典线性回归假设条件是的线性无偏估计量。所以,(2)注意到:
所以,是模型:满足古典线性回归假设条件是的线性无偏估计量所以,(3)是模型满足古典线性回归假设条件是的线性无偏估计量所以,第二节自相关(序列相关)(一)序列相关的概念
一、序列相关的概念和产生的原因在进行回归分析时,我们总假定其随机误差项是不相关的,即上式表示不同时点的误差项之间不相关。如果一个回归模型不满足上式,即则我们称随机误差项之间存在着序列相关现象,也称为自相关。(二)自相关的表现形式1.一阶自回归形式:自相关按形式可分为两类:其中,满足经典假设。例如,计量经济模型中自相关的最常见形式是:2.高阶自回归形式:例如,m阶自回归形式为:在回归分析的建模过程中,如果忽略了一个或几个重要的解释变量,而这些遗漏的重要变量随着时间的推移而呈现出相关的趋势,回归模型中的误差项就会具有明显的相关趋势,这是因为误差项包含了遗漏的变量。
1.遗漏了重要的解释变量(三)序列相关产生的背景和原因例如,模型应该用两个解释变量,即:而建立模型时,模型设定为:则对的影响便归入随机误差项中,由于在不同观测点上是相关的,这就造成了在不同观测点是相关的。即是自相关的。所以,当回归模型中略去了带有自相关的重要解释变量时,那么它的影响必然归并到误差项ut中,从而使误差项呈现自相关。但是如果略去多个带有自相关的解释变量,也许因互相抵消并不使误差项呈现自相关性。2.经济变量的滞后性在实际问题的研究中,许多经济变量都会产生滞后影响,例如物价指数、基建投资、国民收入、消费、货币发行量等都有一定的滞后性。如前期消费额对后期消费额一般会有明显的影响。3.经济系统的惯性自相关现象大多出现在时间序列数据中,而经济系统的经济行为都具有时间上的惯性。如GDP、价格、就业等经济指标都会随经济系统的周期而波动。例如,在经济高涨时期,较高的经济增长率会持续一段时间,而在经济衰退期,较高的失业率也会持续一段时间,这种现象就会表现为经济指标的自相关现象。4.回归函数形式的设定错误也可能引起序列相关例如,假定某实际问题的正确回归函数应由二次多项式来表示。但是,研究者误用线性回归模型来表示。这时,误差项就会表现为序列相关。5.蛛网现象(CobwebPhenomenon)。蛛网现象是微观经济学中的一个概念。它表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性,即呈蛛网状收敛或发散于供需的均衡点。由于规律性的作用,使得所用回归模型的误差项不再是纯随机的了,而产生了某种自相关。其中,St=t时期农产品供给量;Pt-1=t-1时期农产品的价格。例如,许多农产品的当期供给受前一期的价格的影响。这样,今年某种农产品的生产和供给计划取决于上一年的价格。因此,农产品的供给函数可表示为:假设在t
时期末,价格Pt
低于Pt-1,于是在t+1期初,农民决定比t时期少生产一些,则t+1期的产量会低于t期。这样下去,就会形成蛛网现象。6.对原始数据加工整理。在回归分析建模中,我们经常要对原始数据进行一些修整和内插处理,如在具有季节性时序资料的建模中,我们常常要消除季节性,对数据作修匀处理。但如果采用了不恰当的差分变换,也会带来序列相关。
序列相关问题不仅在时序资料的建模中会经常碰到,而且在截面样本中有时也会存在。大多数经济时间序列由于受经济波动规律的作用,一般随着时间的推移有一种向下或向上变动的趋势。所以,随机误差项ut
一般会出现序列相关的情形。二、序列相关性带来的后果当一个线性回归模型的随机误差项存在序列相关时,就违背了线性回归方程的经典假定,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下序列相关产生的后果与异方差类似。1.参数的估计量是无偏的,但不是有效的。2.可能严重低估参数估计量的方差,也会低估注意参数估计量的无偏性只依赖于解释变量与误差项不相关和误差项的零均值性。参数估计量的有效性依赖于误差项的同方差性及序列不相关性。误差项的方差。3.常用的F检验和t检验失效低估回归参数估计量的方差,等于高估了统计量t的值,从而把不重要的解释变量保留在模型里,使显著性检验失去意义。使用普通最小二乘法估计参数可能导致回归参数统计检验为显著,但实际上并不显著的严重错误结论。无偏被低估被高估4.由于参数的估计量不具有最小方差性,如果不加处理地运用普通最小二乘法估计模型参数,回归参数的置信区间和利用回归模型进行预测的结果会存在较大的误差。三、序列相关的检验
当随机误差项存在序列相关时会给普通最小二乘法的应用带来非常严重的后果。因此,如何诊断随机误差项是否存在序列相关就成为一个极其重要的问题。下面介绍几种主要的诊断方法。图示检验法
DW检验法
序列相关的检验
自相关系数法
(一)图示检验法图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项et
,et作为ut
随机项的真实估计值,再描绘et
的散点图,根据散点图来判断et的相关性。残差et的散点图通常有两种绘制方式。尽管误差项
ut
观测不到,但可以通过et的变化判断ut
是否存在自相关。etet-14-7et与et-1不相关1.绘制(et-1
,et
)的散点图etet-1图4-8et与et-1正相关注意,这里实际上是判断一阶自相关性,当序列存在高阶自相关性时,一般也存在一阶自相关性,除非序列具有季节或周期性特征。绘制et-1
,et
的散点图。用(et-1
,et)(t=1,2,…n)作为散布点绘图,如果大部分点落在第Ⅰ、Ⅲ象限,表明随机误差项ut
存在着正的序列相关,如图4-8所示。
et-1et图4-9et与et-1负相关如果大部分点落在第Ⅱ、Ⅳ象限,那么随机误差项ut
存在着负自相关,如图4-9所示。tet图4-10et负相关
按照时间顺序绘制回归残差项的et图形。如果et(t=1,2,…,n)随着t的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,就可断言et存在相关,表明存在着序列相关;如果et随着t的变化逐次变化并不断地改变符号,那么随机误差项ut
存在负的序列相关;如图4-10所示。2.绘制et
的时序图图4-11et正相关tet
如果et随着t的变化逐次变化并不频繁地改变符号,而是几个正的et后面跟着几个负的,则表明随机误差项存ut在正的序列相关,如图4-11所示。
a.正相关序列b.正相关
c.负相关序列d.负相关
e.非自相关序列f非自相关经济变量由于存在惯性,不可能表现出震荡式变化。所以经济变量的变化常表现为正自相关。(二)自相关系数法随机误差项的自相关系数定义为若,则在实际应用中,由于误差序列是不可观测的,需要用其估计值代替,得自相关系数的估计值为:作为自相关系数的估计值。当时,表明误差序列存在正相关,当时,表明误差序列存在负相关。(三)DW检验
DW检验是J.Durbin(杜宾)(于1950
年)和G.S.Watson(沃特森)(于1951年)提出的一种统计检验方法。这种检验方法是建立经济计量模型中最常用的方法,一般的计算机软件都可以计算出DW值。DW检验应满足如下条件:(1)误差项ut
的自相关为一阶自回归形式。即(2)因变量的滞后值yt-1不能在回归模型中作解释变量。(4)样本容量应充分大(n
15)。(3)回归模型中应包含常数项。随机误差项的一阶自回归形式为DW检验步骤如下,给出假设(ut
不存在自相关)(ut
存在一阶自相关)注意到:为了检验上述假设,为了构造DW统计量,首先要求出回归估计式的残差et。当时,有注意:此条件实际上是要求回归方程中应包含常数项。定义DW统计量为:下面我们推导出DW值的取值范围。将上式展开,当样本充分大时,有则注意到:因此,因为的取值范围是[-1,1],所以DW统计量的取值范围是[0,4]。
与DW值的对应关系见下表。DW
ut
的表现
=0DW=2ut
非自相关
=1DW=0ut
完全正自相关
=-1DW=4ut
完全负自相关0<
<10<DW<2ut
有某种程度的正自相关-1<<02<DW<4ut
有某种程度的负自相关与DW值的对应关系及意义实际中DW=0,2,4的情形是很少见的。当DW取值在(0,2),(2,4)之间时,怎样判别误差项ut
是否存在自相关呢?推导统计量DW的精确抽样分布是困难的,Durbin-Watson根据样本容量和被估参数个数,在给定的显著性水平下,给出了检验用的上、下两个临界值dU
和dL
。判别规则如下:根据样本容量n和原回归模型中的解释变量的数目k′(不包括常数项)查DW分布表,得临界值dL
和dU
,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态。误差项u1,u2,…,un间存在负相关4-dL≤DW≤4不能判定是否有自相关4-dU≤DW<4-dL误差项u1,u2,…,un间无自相关
dU<DW<4-dU不能判定是否有自相关
dL<DW≤dU误差项u1,u2,…,un间存在正相关
0≤DW≤dL表4-2DW检验决策规则f(DW)不能确定正自相关无自相关不能确定负自相关DW44-dL4-
dU2dUdL图4-12DW检验示意图
用坐标图更加直观地表示出来:
当DW值落在“不确定”区域时,有两种处理方法。①加大样本容量或重新选取样本,重作DW检验。有时DW值会离开不确定区。②选用其它检验方法。需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性。①DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时,只有增大样本容量或选取其他方法。②DW统计量的上、下界表要求n≥15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断。③DW检验不适应随机误差项具有高阶序列相关的检验。(因为高阶自回归模型解释变量前的系数并非变量之间的偏相关系数。)④只适用于有常数项的回归模型(因为经典回归模型中要求有常数项)并且解释变量中不能含滞后的被解释变量(这也是经典回归的要求)(因为DW统计量是以解释变量非随机为条件得出的,所以当有滞后的内生变量作解释变量时,DW检验无效)。
(四)LM检验(拉格朗日乘数检验)(亦称BG检验)--高阶自相关检验DW统计量只适用于一阶自相关检验,而对于高阶自相关检验并不适用。利用BG统计量可建立一个适用性更强的自相关检验方法,既可检验一阶自相关,也可检验高阶自相关。BG检验由布劳殊(Breusch)和戈弗雷(Godfrey)提出。由于该方法源自拉格朗日乘数原理,因此通常被称为拉格朗日乘数法(LM法)。对于多元回归模型(模型中可包含滞后因变量)考虑误差项为p阶自回归形式其中vt
为随机项,符合经典假定条件。原假设为(ut
不存在p阶自相关)检验步骤:第一步,用OLS估计回归方程得到残差。第二步,作辅助回归并计算该辅助回归的判定系数R2。第三步,构造LM统计量在大样本情况下,在原假设成立条件下,LM统计量渐近服从2(p)分布。p
为误差项自回归阶数。
第四步,判别规则若LM=nR2
2(p),接受H0;若LM=nR2>2(p),拒绝H0。
LM
检验的缺点是:滞后长度p
不能先验地确定,需要反复尝试,可以考虑用赤池和施瓦茨信息准则来选择滞后长度。四、消除自相关的方法(补救措施)当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的解释变量,则应增加该解释变量;如果以上两种方法都不能消除序列相关,则需采用其它方法处理。本书在此介绍几种常用的方法。(一)差分法差分法是一类克服序列相关的有效的方法,被广泛地采用。差分法是将原模型变换为差分模型,差分法分为一阶差分法和广义差分法。1.一阶差分法一阶差分法是将原模型变换为其中,如果原模型存在完全一阶正自相关,即:其中,为满足经典假设的误差项。则原模型的一阶差分模型为:则一阶差分模型应满足应用普通最小二乘法的经典假定,用普通最小二乘法估计该差分模型,得到的参数估计量即为原模型参数的无偏、有效的估计量。实际问题中,完全一阶正自相关的情况并不多见,所以人们不是经常直接使用差分模型。对于非完全一阶正自相关的情况,只要存在一定程度的一阶正自相关,差分模型就可以有效地加以克服。通常人们采用下面的广义差分法,但估计的过程将变得较为复杂。设原模型的随机误差项满足:2.广义差分法广义差分法可以克服所有类型的序列相关带来的问题,一阶差分法是它的一个特例。其中,为满足经典假设的误差项。将原模型变换为下式(*)令则变换后的模型可表示为:上述变换称作广义差分变换。上式中的误差项vt
是非自相关的,满足经典假定条件,所以可对上式应用最小二乘法估计回归参数。所得估计量具有最佳线性无偏性。式中的2…k
就是原模型中的2…k,而1*
与原模型中的1
有如下关系:随机误差项相关系数的估计应用广义差分法,必须已知不同样本点之间随机误差项的相关系数。实际上,人们并不知道它们的具体数值,所以必须首先对它们进行估计。于是发展了许多估计方法,诸如迭代法、杜宾两步法等。
(1)用DW统计量值估计
当原模型的随机误差项是一阶自相关时,由于在大样本的情况下有,所以首先利用残差
ei
求出DW统计量的值,然后利用上式求出自相关系数的估计值。(2)杜宾两步法以采用普通最小二乘法估计原模型得到的随机误差项的“近似估计值”et。用残差直接自回归的方法估计,即采用普通最小二乘法估计模型得到的参数估计作为随机误差项的相关系数的第一步估计值。将的第一步估计值替换变换后的方程的右边的得到方程再采用最小二乘法估计该方程,目的不是为了得到原模型参数的估计量,而是为了得到的第二步估计值。将第二步估计值用于模型(*)的样本观测值的计算中,然后再采用普通最小二乘法估计该方程,得到原模型参数的估计值。广义差分法的EViews软件实现:(1)LS Y C X(2)IDENT RESID(3)利用广义差分法估计模型,命令为
LSYCXAR(1)LSYCXAR(1)AR(2)……AR(k)(4)迭代估计过程的控制
EViews软件按照默认的迭代次数(100次)和误差精度(0.001)来控制迭代估计程序,也可以修改。(二)广义最小二乘法(GLS)广义最小二乘法,顾名思义,是最具有普遍意义的最小二乘法。其中普通最小二乘法和加权最小二乘法是它的特例。设回归模型为若模型存在自相关,同时存在异方差,则由于是正定矩阵(特征值均大于0),所以存在正交矩阵Q,使得则存在可逆矩阵P,使得于是,,利用矩阵P做变换令则原模型变为,此模型满足经典假设。事实上,利用OLS法,可得到参数的最小二乘估计量:五、实际案例表4-3是北京市1978-1996年城镇居民家庭人均收入与人均支出的数据。以人均实际支出为被解释变量,以人均实际收入为解释变量可建立消费函数.年份人均收入(元)人均生活消费支出(元)商品零售物价指数(%)人均实际收入(元)人均实际支出(元)残差1978450.18359.86100.00450.18359.86-30.911979491.54408.66101.50484.28402.62-11.701980599.40490.44108.60551.93451.60-9.431981619.57511.43110.20562.22464.09-4.051982668.06534.82112.30594.89476.24-14.451983716.60574.06113.00634.16508.02-9.791984837.65666.75115.40725.87577.77-3.3619851158.84923.32136.80847.11674.9410.0919861317.331067.38145.90902.90731.5828.21
表4-3北京市城镇居民家庭收入与支出数据表
(单位:元)年份人均收入(元)人均生活消费支出(元)商品零售物价指数(%)人均实际收入(元)人均实际支出(元)残差19871413.241147.60158.60891.07723.5828.3819881767.671455.55193.30914.47753.0041.6419891899.571520.41229.10829.14663.6411.2019902067.331646.05238.50866.81690.1711.7219912359.881860.17258.80911.85718.779.2219922813.102134.65280.301003.60761.56-11.3419933935.392939.60327.701200.91897.04-12.1019945585.884134.12386.401445.621069.91-8.2019956748.685019.76435.101551.061153.702.7819967945.785729.45466.901701.821227.13-27.89续表(1)采用普通最小二乘法,估计参数采用普通最小二乘法,估计出回归方程为残差图(2)序列相关性检验Lagrange乘数检验在eq1单击“View”—“ResidualDiagnostics”—“SerialCorrelationLMTest”在弹出的对话框中,在“Lagstoinclude”输入栏输入1,然后点击ok。由输出结果可知:
LM=nR2=7.353>3.841=2(1
),拒绝H0。模型中,DW=0.575,取查DW上下界表dL=1.18,dU=1.40,DW<1.18说明误差项存在正自相关。DW检验从回归模型的残差可以明显地看出残差序列存在着某种模式的变动,该残差的前7项均为负值,中间连续7项均为正值,然后又连续多项为负值,且这些残差值由小逐渐增大然后又逐渐减小,这表明该残差序列存在着较强的正自相关,预示着回归模型的随机误差项可能存在着一阶自回归变动模式。(3)序列相关性修正设原模型的误差项为u,序列相关的形式为一阶自相关。即其中,vt
为满足经典假设的误差项。(1)使用普通最小二乘法估计的估计值得,t检验表明是高度显著的,显然误差项ut
有一阶正自相关。广义差分法使用进行广义差分变换,变换后的模型形式为:令再使用普通最小二乘法估计上述模型的参数,得(*)在模型中,DW=1.830,已知 因此,在广义差分模型中已无序列相关性。又,可得因此,原回归模型应为(2)使用DW统计量估计的估计得
=0.613使用进行广义差分变换在进行广义差分时,解释变量X与被解释变量Y均以差分形式出现,因而样本容量由n减少为n-1,即丢失了第一个观测值。如果样本容量较大,减少一个观测值对估计结果影响不大。但是,如果样本容量较小,则对估计精度产生较大的影响。此时,可采用普莱斯—温斯滕(Prais-Winsten)变换,将第一个样本观测值补充到差分序列中。第一个观测值变换为
此时,样本容量依然为n。
本例中,采用普莱斯—温斯滕变换后的普通最小二乘估计结果为:(**)对比(*)式和(**)式,两者差异较小。因为本例中n=19,是一个不算小的样本。EViews命令为:LSYCXAR(1)引例
中国粮食生产函数第三节多重共线性Y—粮食产量(万吨)X1-化肥施用量(万千克)X2-粮食播种面积(千公顷)X3-成灾面积(公顷)X4-农业机械总动力(万千瓦)X5-农业劳动力(万人)设粮食生产函数为(样本期为1983-2000年)回归模型为:农业机械总
动力(万千瓦)农业劳动力(万人)(一)多重共线性的概念一、多重共线性的概念及产生的原因在经典假设中,我们要求解释变量之间不存在多重共线性。经济计量学中的所谓多重共线性不仅包括完全的多重共线性,还包括解释变量之间的近似的多重共线性。“多重共线性”一词由R.Frisch1934年提出,它原指模型的解释变量间存在线性关系。就模型中解释变量的关系而言,有三种可能。(2)
rXi
Xj
=1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。(1)rXi
Xj=0,解释变量间非线性相关,变量间相互正交。这时已不需要多重回归,每个参数j都可以通过Y对Xj
的一元回归来估计。(3)0<
rXi
Xj
<1,解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。1.完全多重共线性
对于多元线性回归模型如果存在不全为0的数,使得则称解释变量之间存在完全多重共性线。(此时,)(*)对于多元线性回归模型的矩阵表示其中完全多重共线性是指:,即矩阵X的列向量组是线性相关的(至少有一列可以表示为其余各列线性组合)。
若多元线性回归模型不含截距项,即如果存在不全为0的数,使得则称解释变量之间存在完全多重共性线。在实际问题中,完全的多重共线性并不多见,常见的是(*)式近似成立的情形,即存在不全为0的数,使得称解释变量之间存在近似多重共性线。2.近似多重共线性解释变量之间存在的多重共线性,也称为复共线性。即解释变量中的某一变量可被其余变量线性表示。在实际经济问题的多元回归分析中,多重共线性的情形很多。注意,多重共线性是指解释变量之间存在线性关系。模型无多重共线性,是指解释变量之间不存在线性关系,但解释变量之间可以存在非线性关系。(二)多重共线性产生的背景和原因在现实的生活当中,解释变量之间完全不相关的情形是非常少见的,尤其是研究某个经济问题时,涉及的解释变量较多,我们很难找到一组解释变量,它们之间互不相关,而且它们又都对被解释变量有显著影响。客观地说,某一经济现象,涉及到多个影响因素时,这些影响因素之间大都有一定的相关性。
(1)经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。多重共线性产生的原因主要有:(2)解释变量与其滞后变量同作解释变量。通常经济变量Xt
与其滞后变量常常呈现高度相关性,从而导致模型出现多重共线性问题。
(3)样本资料的限制。抽样限制导致数据差异不大,也可能导致多重共线性问题。
(4)利用截面数据建立模型也有可能出现多重共线性问题。例如,生产函数中,资本投入与劳动力投入往往出现高度相关情况。实际上,经济变量之间的内在联系是产生多重共线性的根本原因。二、多重共线性的后果(一)完全多重共线性产生的后果1.参数的估计值不确定当模型出现多重共线性时,X为降秩矩阵,则不存在,不可计算。从偏回归系数意义看:在X2和X3完全共线性时,无法保持X3不变,去单独考虑X2对Y的影响(X2
和X3的影响不可区分).2.参数估计值的方差无限大。即(二)近似多重共线性产生的后果完全多重共线性只不过是一种极端情况,在实际问题的研究中,经常见到的是近似共线性的情形,如果模型中存在近似多重共线性,可以得到参数的估计值,并且参数的估计量仍具有无偏性。但是对计量经济分析可能会产生一系列的影响。此时,设计矩阵X的秩rank(X)=k成立,解释变量间无完全的多重共线性,满足经典假定,普通最小二乘估计量是的最佳线性无偏估计量。就是说最小二乘估计量是所有线性无偏估计量中方差最小的,但这并不意味着最小二乘估计量的方差一定是很小的。严重多重共线性情形的后果1.
多重共线性不改变参数估计量的无偏性。事实上,对于严重多重共线性,参数估计量仍为最优的估计。2.
多重共线性使参数的最小二乘估计的方差很大,即估计值的精度很低。例如,在二元回归模型:
中,可以证明
的方差为:其中,是X2对X3(含截距)进行一元回归所得到的R2。当
X2
与X3完全不共线时,,此时当
X2
与X3完全共线时,,此时当
X2
与X3近似共线时,,此时当时,是时的2.78倍。当时,是时的10.26倍。3.
参数的置信区间变大。从而导致对各个回归系数的估计精度降低。4.严重多重共线性时,对参数的假设检验容易做出错误的判断。有时可能造成回归方程高度显著的情况下,有些回归系数不能通过显著性检验,甚至可能出现符号错误的现象。严重多重共线性会使参数的置信区间变大,从而也会使得范第二类错误(纳伪)的概率增大。即接受了本应否定的原假设。三、多重共线性的检验(一)方差扩大因子法(判定系数检验法)由第三章第二节可知,对于多元回归模型在满足经典假定的条件下,偏斜率系数估计量的方差为:式中,为Xj
的总样本变异;j=2,3,…,k;为将Xj
对所有其它解释变量(包括一个截距项)进行回归所得到的判定系数R2。当解释变量Xj
与其它解释变量无线性关系时,辅助回归的判定系数。此时,的方差为度量了由于Xj
与其它解释变量之间的线性关联程度对估计量的方差的影响。称其为方差扩大因子,定义为显然有由于度量了解释变量与其余k-1个解释变量(包括常数项)的线性相关程度,这种相关程度越强,说明解释变量之间的多重共线性越严重,也就越接近于1,也就越大。反之,Xj
与其余k-1个解释变量的线性相关程度越弱,解释变量之间的多重共线性也就越弱,也就越接近于0, 也就越接近于1。由此可见,的大小反映了解释变量之间是否存在多重共线性,因此可由它来度量多重共线性的严重程度。经验表明,当≥10时,就说明解释变量Xj
与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。也可以用个k解释变量所对应的方差扩大因子的平均数来度量多重共线性。当远远大于10时就表示存在严重的多重共线性问题。(二)辅助回归模型检验当模型的解释变量个数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 竹子主题课程设计模板
- 职业沟通-评价课程设计
- 《围术期的容量治疗》课件
- 瞬变电磁法课程设计
- 2024中级(四)汽车修理工理论学问试题
- 简单电路课程设计
- 网络流量监测课程设计
- 舞蹈早上好课程设计
- 互联网服务行业营业员工作总结
- 同心树共筑和谐初一班主任第一学期工作总结
- DB23T 1727-2016 地理标志产品 克东天然苏打水
- 水电站施工合同水电站施工合同(2024版)
- 渭南市白水县2021-2022学年七年级上学期期末考试数学试卷【带答案】
- 2024时事政治必考试题库附答案(满分必刷)
- DZ∕T 0289-2015 区域生态地球化学评价规范(正式版)
- 公司年会小品《老同学显摆大会》台词剧本手稿
- 护士条例课件
- 工程造价毕业设计总结报告
- 结肠镜检查前肠道准备
- 2023-2024学年统编版高中语文选择性必修中册《屈原列传》检测卷(含答案)
- 创业基础知识竞赛题库及答案
评论
0/150
提交评论