版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第四章:违背基本假设的问题2违背基本假定的各种情形:(1)随机误差项序列存在异方差性(heteroskedasticity);(2)随机误差项序列存在自相关性(autocorrelation);(3)解释变量之间存在多重共线性(MultiCollinearity);(4)解释变量为随机变量;
回顾:经典线性回归模型的基本假定条件。3OLS法是否还适用?所得参数的OLS估计量是否还具有优良的统计性质?变量显著性t检验和方程显著性F检验还有效吗?如果OLS法失效,有哪些补救措施?如何检验模型是否违背基本假定条件?建立违背基本假定回归模型存在的基本问题:
本章主要讨论不满足基本假定中的某一条,而其余假定条件均成立时,多元线性回归模型参数的有效估计和检验问题。
4[内容]共分4节:
§4.1多重共线性
§4.2异方差性
§4.3自相关性
§4.4随机解释变量模型[目的]
讨论违背基本假定的多元线性回归模型的建模问题(参数的估计、统计检验)。5[要求]1、理解多重共线性、异方差性、自相关性、随机解释变量的基本概念;
2、理解违背基本假定的各种情形产生的原因及(利用OLS法估计的)后果;
3、掌握估计各种违背基本假定的多元线性回归模型的常用估计方法;
4、掌握检验模型是否违背基本假定的常用检验方法。[教学安排]
共12学时(每讲3学时)第一讲§4.1
第二讲§4.2
第三讲§4.3
第四讲§4.4和本章小结6§4.1多重共线性基本内容:一、多重共线性的概念二、多重共的后果三、多重共线性的诊断四、多重共线性的处理7
在计量经济学中所谓的多重共线性,包括完全的多重共线性和不完全的多重共线性对于线性回归模型一、多重共线性的概念
即8
完全的多重共线性:解释变量之间存在完全的多重共线性是指,它意味着X的各列是线性相关的,即存在不全为0的数,使得
显然,解释变量之间的完全多重共线性也意味着存在某一解释变量的样本数据能由其余解释变量的样本数据线性表示。若两个解释变量的序列线性相关,则解释变量之间存在完全的多重线性。9
不完全的多重共线性:解释变量之间存在不完全的多重共线性,是指X的各列是近似线性相关的,即存在不全为0的数,使得
显然,解释变量之间存在不完全的多重共线性意味着存在某一解释变量的样本数据能由其余解释变量的样本数据近似地线性表示。
多重共线性:解释变量之间的完全多重共线性和不完全多重共线性的统称,其本质是解释变量的样本数据之间存在完全的或近似的线性相关性。10
一个基本结论:
当解释变量中有两个变量的样本数据之间高度相关时,模型就存在较严重的多重共线性;但当解释变量两两之间的相关程度都很低时,所有解释变量之间仍可能存在较严重的多重共线性。
问题:在多元线性回归模型中,解释变量之间存在多重共线性就是指解释变量两两共线或高度相关,对否?
特例:不可识别的情形。11用矩阵表示:在矩阵表示的线性回归模型
Y=X+
中,完全共线性指:秩(X)<k+1,从而k+1阶方阵X’X是不可逆的。即中,至少有一列向量可由其他列向量(不包括第一列)线性表出。
如:X2=X1,则X2对Y的作用可由X1代替。12
注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。——完全多重共线性和近似多重共线性统称多重共线性。能够进行OLS估计吗?完全多重共线性意味着13实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。14(2)样本数据自身的原因
抽样中仅仅限于总体中解释变量取值的一个有限范围,使得变量的变异不大;或者由于总体受限,多个解释变量的样本数据之间存在相关性15
(3)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。
例如,消费=f(当期收入,前期收入)用GDP表示显然,两期收入间有较强的线性相关性。16
注意:由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。在多元线性回归模型中我们关心的不是多重共线性是否存在的问题,而是其多重共线性程度的问题。因为在现实的经济问题中变量之间完全不相关的现象很少见,大多数变量之间或多或少都有一些相关性。
一般经验:时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据样本:问题不那么严重,但多重共线性仍然是存在的。17二、多重共线性的后果
多重共线性的后果,是指当模型存在多重共线性时,利用OLS法估计参数,可能会出现的后果。分如下两种情形讨论:1、完全多重共线性的情形参数的OLS估计量无法确定。
r
XiXj
=1,X为降秩矩阵,|X’X|=0,则(X’X)-1不存在,
(X‘X)-1X'Y不可计算。182、不完全多重共线性的情形
(1)严重的多重共线性会使模型的估计结果对数据的微小变化非常敏感,可能出现参数的估计值具有不合理的大小,甚至“错误的”符号,使回归结果不能通过经济意义检验。
rXiXj
1,但rXiXj
1,|X’X|0,仍具有无偏性。
E()=E[(X'X)-1X'Y]=E[(X'X)-1X'(X
+U)]=
+(X’X)-1X’E(U)=Var()=
2(X’X)-1中元素很大,参数标准差的估计值很大,置信区间很大,参数估计的效率降低。19
以二元线性模型
y=1x1+2x2+为例:
恰为X1与X2的线性相关系数的平方r2由于r2
1,故1/(1-r2)1。20多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(VarianceInflationFactor,VIF)当完全不共线时,r2
=0
当近似共线时,0<
r2
<1当完全共线时,r2=1,21对于模型:r232的95%置信区间0.000.500.990.999变大的方差容易使区间预测的“区间”变大,使预测失去意义。
(2)对于一定的置信度,由于参数估计量方差的增加,导致样本回归函数不稳定,进而可能使得对被解释变量进行预测的精度下降。22(3)对回归系数估计参数的显著性检验(t检验)失去意义回归参数估计量的方差()变大X’X接近降秩矩阵,即
X’X
0存在高度的多重共线性使得t
统计量的值()变小接受H0:β=0(回归系数不显著)的概率增大
重要的解释变量被舍去,检验失去意义23
多重共线性检验的任务是:
(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法有:如综合分析法、相关系数检验法、辅助回归检验法、条件指数检验法等。三、多重共线性的诊断24
当模型的拟合优度(R2)很高,F值很高,但每个回归参数估计值的方差Var(j)又非常大(即t值很低)时,说明解释变量间可能存在多重共线性。例如:中国电信业务总量变化的影响因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。
y=24.94+2.16x1–3.03x2+33.7x3+1.29x4-2.03x5+e(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)
R2=0.99,F=106.3,DW=3.41.综合分析法(常用)25
计算解释变量之间的简单相关系数rXiXj
;或通过作两解释变量之间的散点图来考察两变量之间是否存在显著的线性关系。
2.相关系数检验X1X2X3X4X5X1
1.000000
0.989519
0.970025
0.962777
0.970291X2
0.989519
1.000000
0.988234
0.987184
0.988805X3
0.970025
0.988234
1.000000
0.967789
0.965389X4
0.962777
0.987184
0.967789
1.000000
0.998610X5
0.970291
0.988805
0.965389
0.998610
1.000000263.辅助回归法(方差膨胀因子大于5或者10存在严重的多重共线性)Rj2是下面多元辅助回归模型的可决系数:
Xji=0+1X1i+…+j-1Xj-1i+j+1Xj+1i+…kXki+wi
对于2,辅助回归模型的可决系数R2=0.9955,方差膨胀因子为:27
**max、min分别表示矩阵A的最大和最小特征值。由于特征根的值受A中各列尺度的影响,实际应用中经常将其各列长度规范化为1。这就是书中将X’X转换为S(X’X)S的原因。4.条件指数
为判定|X’X|是否接近于零,通常计算其条件指数CI:28
注意:
rank(X’X)=rank(X)。当CI很大时就意味着X’X接近非满秩,从而X的各列存在严重的共线性。实际经验表明CI>20可认为存在严重的多重共线性。29四、多重共线性的处理
当模型存在较严重的多重共线性时的处理方法:1、不做处理;2、采用某些补救措施以减弱多重共线性对估计结果的影响。1、不做处理
当模型的估计结果能够通过经济意义检验,并且变量的显著性检验结果也合理时,多重共线性并不是一个严重的问题,可以不做任何处理,或者说,“无为而治”。30
另外,如果研究目的仅在于预测被解释变量Y的值,而且各个解释变量之间多重共线性关系的性质在预测期将继续保持,这时可决系数R2越高,预测就越准确,对多重共线性问题也可以不做处理。
分析:31
若多重共线性导致模型的估计出现了严重的后果,则应该采取必要的措施减弱多重共线性引起的不良影响。这里介绍几类常用的做法:2、补救措施
第一类做法:经验做法
(1)剔除相对不重要的变量
(2)补充新样本数据(3)利用先验信息(4)截面数据和时间序列数据并用(5)变换模型的形式32
时间序列数据、线性模型:将原模型变换为差分模型:将式(1)-式(2)得到
Yi=1X1i+2X2i++kXki+i可以有效地消除原模型中的多重共线性。
一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。这里t可以是任何一个时点,因此对于t-1时点也会有:式(1)式(2)33第二类做法:逐步回归法
逐步回归法也称为Frisch修正法,是处理多重共线性问题的一种常用方法,其基本步骤是:(1)用被解释变量分别对每一个解释变量进行线性回归,依据对解释变量的重要性、变量的显著性和的综合分析,从中选择一个最合适的回归模型作为基础模型。(2)依据变量的重要性,在基础模型中逐个增加其他解释变量,每增加一个解释变量都重新进行线性回归,并按以下规则决定舍弃还是保留新增加的解释变量,直至考虑完所有的解释变量为止。34逐步回归法添加解释变量的一般规则:①若样本回归函数不能通过经济意义检验,或者明显地影响了其他变量显著性检验的结果,则说明该解释变量与其他变量之间具有较严重的多重共线性,应该舍弃。②若样本回归函数通过了经济意义检验,对其他变量的显著性t检验未带来什么影响,但未能明显改进或新增加的解释变量是不显著的,则认为该变量是多余的,应该舍弃;
逐步回归法的缺陷:逐步回归法在取舍变量上缺乏理论依据,它实际上仍属于一种经验做法。③除①、②之外,则保留新增加的解释变量。
35案例1:关于中国电信业务总量的计量经济模型(file:coline2)经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型.363738Lny=24.94+2.16x1–3.03x2+33.7x3+1.29x4-2.03x5(0.7)(1.6)(-0.8)(1.0)(1.5)(-1.2)R2=0.9944,F=106.3,DW=3.4,T=9,(1991-1999),t0.05(3)=3.18,R2=0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。3940下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R
2=0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。Ln(y)X1X2X3X4X5Ln(y)1.0000x10.98331.0000x20.99380.98951.0000x30.98750.97000.98821.0000x40.98200.96280.98720.96781.0000x50.98150.97030.98880.96540.99861.000041
用逐步回归法筛选解释变量。(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。
Lny=-0.39+2.06x1
(-2.1)(14.3)R2=0.9668,F=204,T=9
Lny=-33.26+2.91x2
(-22.2)(23.6)R2=0.9875,F=555,T=9
Lny=-18.46+70.75x3
(-14.9)(16.6)R2=0.9752,F=275.5,T=9
Lny=-0.49+0.56x4(-2.5)(13.8)R2=0.9644,F=189.7,T=9
Lny=-0.42+1.16x5
(-2.2)(13.5)R2=0.9633,F=183.5,T=942解释变量的重要程度依次为x2,x3,x1,x4,x5
。(2)以Lny=-33.26-291x2为基础,依次引入x3,x1,x4,x5
。首先把x3引入模型,Lny=-29.9+2.24x2+16.76x3(-6.9)(2.7)(0.8)
R2=0.988,F=265.5,T=9因为x3的引入使各回归系数的t值下降,同时x3的系数也未通过t检验,所以应剔除x3。接着把x1引入模型,Lny=-33.37+2.92x2–0.007x1(-3.2)(3.2)(-0.01)R2=0.9875,F=237.9,T=943同理剔除x1引入x4Lny=-31.94+2.79x2+0.022x4(-3.4)(3.3)(0.14)
R2=0.9876,F=238.7,T=9同理剔除x4引入x5Lny=-34.97+3.06x2-0.062x5(-3.4)(3.4)(-0.17)R2=0.9876,F=238.7,T=9同理剔除x5,最后确定的模型是
Lny=-33.26+2.91x2(-22.2)(23.6)
R2=0.9875,F=555,T=944例题4.1454647第三类做法:改变参数的估计方法以减小参数估计量的方差
多重共线性造成的主要后果是参数估计量具有较大的方差。为了解决这一问题,计量经济学家们提出了一些以引入偏误为代价来提高参数估计量的稳定性的参数估计方法,如岭回归法(ridgeregression)、主成分回归法(principalcomponentsregression)等。48
岭回归估计法是借助于OLS估计量的表达式,机械地设定一种具有较小方差的参数估计量以解决多重共线性问题的方法。该方法的吸引力在于用较小的偏误换来方差的改善。具体做法是令估计量为其中D为主对角线上的元素构成的对角矩阵,r为大于0的常数。该方法的缺陷:在如何确定r值上缺乏令人信服的理论依据,而且对参数的统计推断也相当复杂。因此,这种方法在实际中并不常用。49
如果回归的目的在于预测,则多重共线性不是一个严重的问题,因为R2越高预测越准确,但是如果回归的目的不在于预测,而在于参数的可靠性估计,严重的多重共线性将成为问题,因为我们看到它会导致估计量的大标准误。50§4.2异方差性基本内容一、异方差性的概念二、异方差性的类型三、异方差性的来源四、异方差性的后果五、异方差性的检验六、异方差性的修正51(1)同方差的概念:对于模型如果一、异方差性的概念
因为方差是度量被解释变量Y的观测值围绕回归线的分散程度,因此同方差性指的是所有观测值的分散程度相同。表示为同方差如果表示为异方差52
对于不同的样本点,随机误差项的方差不再是常数,而互不相同,则认为出现了异方差性(Heteroskedasticity)。进一步,把异方差看成是由于某个解释变量的变化而引起的,则53图形表示:
异方差同方差XXYY密度密度54二、方差性的类型同方差:i2=常数,与解释变量观测值Xi无关;异方差:i2=f(Xi),与解释变量观测值Xi有关。异方差一般可归结为三种类型:单调递增型:i2随X的增大而增大单调递减型:i2随X的增大而减小复杂型:i2与X的变化呈复杂形式55同方差递增型异方差递减型异方差复杂型异方差561.模型中省略了某些重要的解释变量
假设正确的计量模型是:但由于总体模型是未知的,建立模型时遗漏了X2i,而采用此时,ui*=ui+2X2i
当被略去的X2i与X1i有呈同方向或反方向变化的趋势时,X2i随X1i的有规律变化会体现在ui*中。三、异方差性的来源
在模型中忽略了或为减弱多重共线性人为去掉了某些变量,这些变量就归入了随机误差项中,如果它们本身存在异方差性,就可能会导致随机误差项出现异方差性。572.模型的设定误差模型的设定主要包括变量的选择和模型数学形式的确定。模型中略去了重要解释变量常常导致异方差,实际就是模型设定问题。除此而外,模型的函数形式不正确,如把变量间本来为非线性的关系设定为线性,也可能导致异方差。3.数据的测量误差样本数据观测误差的波动性有可能随研究范围的扩大而增加,也可能随着观测技术的提高和数据处理方法的改进而逐步减小,因此当观测误差构成了随机误差项的一个主要成分时,随机误差项就可能出现异方差性。58
例:截面资料下研究居民家庭的储蓄行为:Yi=0+1Xi+iYi:第i个家庭的储蓄额Xi:第i个家庭的可支配收入高收入家庭:储蓄的差异较大低收入家庭:储蓄则更有规律性,差异较小i的方差呈现单调递增型变化4.截面数据中各单位的差异通常认为,截面数据较时间序列数据更容易产生异方差。这是因为同一时点不同对象的差异,一般说来会大于同一对象不同时间的差异。不过,在时间序列数据发生较大变化的情况下,也可能出现比截面数据更严重的异方差。59
例:以绝对收入假设为理论假设、以截面数据为样本建立居民消费函数:
Ci=0+1Yi+I
将居民按照收入等距离分成n组,取组平均数为样本观测值。
一般情况下,居民收入服从正态分布:中等收入组人数多,两端收入组人数少。而人数多的组平均数的误差小,人数少的组平均数的误差大。
所以样本观测值的观测误差随着解释变量观测值的不同而不同,往往引起异方差性。60例:以某一行业的企业为样本建立企业生产函数模型
Yi=Ai1
Ki2
Li3ei
被解释变量:产出量Y
解释变量:资本K、劳动L、技术A,
那么:每个企业所处的外部环境对产出量的影响被包含在随机误差项中。每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。61四、异方差性的后果1、OLS估计量仍具有线性性、无偏性和一致性622、参数估计量不具有有效性(不再具有最小方差性)
可以证明,在所有线性无偏估计量中,回归系数OLS估计量的方差不再是最小的。此表明模型的异方差性使回归系数的OLS估计量的稳定性或估计的精度下降,此时也称OLS估计量是非有效的。63β的加权最小二乘估计量是最佳线性无偏的(见后文)举例说明:对于模型64因为,只有当Xi2是和i无关的常数时等式才能成立,因此653、通常的变量的显著性检验失效4、预测精度下降且通常的预测区间不可靠
该分布不成立,这里原因:(1)OLS估计量不再是有效的;t检验失效原因:(2)通常建立预测区间依据的分布和不再成立。66五、异方差性的检验检验思路:
由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。
那么:检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。671.定性分析异方差2.Goldfeld-Quandt检验3.White检验4.Glejser检验68用1998年四川省各地市州农村居民家庭消费支出与家庭纯收入的数据,绘制出消费支出对纯收入的散点图,其中用表示农村家庭消费支出,表示家庭纯收入。1.定性分析异方差(1)利用散点图做初步判断。69(2)利用残差图做初步判断。e2Xi0e2Xi0e2Xie2Xie2Xi000702.戈德菲而德-夸特(Goldfeld-Quandt)检验该检验常用于检验递增型的异方差,且在大样本容量的前提下使用。(1)将观测值按递增的方差排列,根据假设,对于递增的异方差,可以从按解释变量X的值按升序排列;(2)略去中间c个值(约为n/4),余下的n-c个分为两组并分别拟合出回归方程;
{X1,X2,…,Xi-1,Xi,Xi+1,…,Xn-1,Xn}(n-c)/2c
=n/4
(n-c)/271(3)计算两个回归方差的残差平方和RSS1和RSS2;
自由度
v1=v2=[(n-c)/2]-k-1(4)构造统计量:72(5)给定显著性水平α,查找临界值Fα.
若:F>Fα
,则拒绝H0,认为存在递增型的异方差。F<Fα
,不能拒绝H0,认为随机误差项是同方差分布的。样本a样本b73注:⑴该检验的功效取决于c值,c值越大,则大小方差的差异越大,检验功效越好;但是c值太大会使自由度减小,又会降低检验的功效,一般经验n=30,c=4;n=60,c=10。⑵两个回归所用的观测值的个数是否相等并不重要,因为可以通过改变自由度和统计量的计算公式来调整。⑶该检验多用于递增型的异方差,依赖于观测值是否正确排序。⑷当模型中包含多个解释变量时,应对每一个解释变量都进行检验。74销售量和R&D支出(研究了18个行业):{X1,X2,…,X8,X9,X10,X11,…,X17,X18}
(18-4)/2=7c
=18/44(18-4)/2=7如果中间除去c=3个,如何进行检验(假定前面有8个,后面有7个)?v1=v2=7-2=5R&Di=0+1Salesi+uiv2=5,v1=6753、怀特(White)检验怀特检验是怀特在1980年提出的一种异方差性检验方法。在原来残差与解释变量线性关系的基础上再加上解释变量的平方项与交叉项;因此我们就可以得到辅助回归模型:通过对这个模型的参数的显著性检验来判断是否具有异方差性,不存在异方差至少有一个不为0,存在异方差76检验步骤:(1)首先对上式进行OLS回归,求残差ei(2)做如下辅助回归(注意包括常数项,计算可决系数R2):H0:上式ui不存在异方差H1:上式ui存在异方差以二元回归线性回归模型为例:77(4)根据临界值进行判断若,则不能拒绝H0(ui具有同方差)若,则拒绝H0(ui具有异方差):(3)在原假设下(不存在异方差)计算统计量:2的自由度为K,K是辅助回归方程中解释变量的个数(不包括截距项)78
执行怀特检验需要注意以下事项:(1)如果模型中含有虚拟变量,即取值为0、1的人工变量(见第1章),必须舍弃辅助回归中相同的变量,否则会产生完全多重共线性问题。(2)当解释变量个数较多时,辅助回归模型中的解释变量会相当多,造成辅助回归估计精度较差,甚至无法进行估计,此时一种处理办法是去掉辅助回归中的交叉乘积项。(3)怀特检验是基于统计量的渐近分布,因此该检验要求样本为大样本。794.戈里瑟(Glejser)检验
检验是否与解释变量Xt存在函数关系。若有,则说明存在异方差;若无,则说明不存在异方差。基本思想:假设残差与解释变量直接存在某种幂函数的关系。
步骤:(1)首先用OLS估计经济计量模型的回归系数,求出随机误差项ut的估计值et。80(2)用|ei|与解释变量Xi的不同幂次进行回归(|ei|为被解释变量,Xi为解释变量)。常用形式有:ei=a0+a1
Xiei=a0+a1Xi2ei=a0+a1,ei=a0+a11/Xi,
….
利用样本可决系数R2,t统计量进行显著性检验,若有通过检验的模型,则说明原计量模型存在该种形式的异方差。81特点:(1)既可以检验递增型的异方差,也可以检验递减型的异方差;(2)一旦发现异方差,同时也发行了异方差的具体表现形式;(3)该检验是探测性的,如果试验模型选择的不好,则不易检测出是否存在异方差;(4)比较繁琐,需要对各种可能的形式做试验。821.方差2已知时,加权最小二乘法(WLS)(1)误差项方差已知的加权最小二乘法(2)误差项方差随一个自变量变化时的加权最小二乘法2.方差2未知时,异方差的修正(1)可行的加权最小二乘法(2)异方差——稳健性估计程序六、异方差的修正831.方差已知的加权最小二乘法(WLS)对于多元回归模型:为修正异方差,可做一下变换:变换后的模型为(注意没有截距项):j=1,2,…,k令:(1)方差已知的加权最小二乘法84现在我们来看对加权模型的最小二乘估计(OLS)的残差平方和——加权残差平方和
从这里可以看出,变化后的残差平方和给原来的残差进行了加权,权数为随机误差项方差的倒数,来自较大方差的观测值得到了较小的加权,而来自较小方差的观测值得到了较大的加权。即:85(2)误差项方差随一个自变量变化时的加权最小二乘法
有一种可能性是回归模型误差项的方差与一个解释变量取值直接存在某种关系,特别地,假设:其中,hi是多元线性模型中某个解释变量的函数:
我们将模型两侧同时除以:
86变换后的模型为(注意没有截距项):j=1,2,…,k令:可以看出,变换后的误差项具有相同的方差,因为:87原来的常数项变成了偏回归系数,而变量X2的斜率变成了新的常数项。变换后的模型具有相同的方差,OLS估计量是一个BLUE。注意,最终给出估计模型,并对这些参数进行经济解释时,要将这些参数的值代入原始的模型之中。例如,2所反映的依然是,其他条件不变的情况下,变量X2对被解释变量Y的边际影响。考虑两种特殊情况:即:(1)88
变换后的模型增加了一个解释变量,但没有常数项,因而,利用Eviews进行回归时,注意,不要输入代表常数项的c。(2)89XeXe90销售量和R&D支出(研究了18个行业):R&Di=-235.61+0.036Salesi+eis.e=(383.63)(0.007)
R2=0.3549D.W.=2.89估计结果为:模型写作:-8000-6000-4000-200002000400060008000050000100000200000300000Sales912、方差2未知时,异方差的修正
在实际应用中,中的通常是未知的,含有未知的参数,不能直接应用WLS法估计模型。对于这种情形,通常采用可行的加权最小二乘法(FWLS:feasibleweightedleastsquares),92
可行的加权最小二乘估计量的性质:在一定的基本假定条件下,可行的加权最小二乘估计量服从渐近正态分布,并且是一致且渐近有效的。估计过程:首先,依据样本数据得到中参数的一致估计量,进而得到的估计值;其次,以为权序列进行WLS法的估计过程,得到原模型中参数的估计量和样本回归函数。由可行的加权最小二乘法得到的估计量称为可行的加权最小二乘估计量。(1)可行的加权最小二乘法93
方法之二:利用OLS法回归原模型得到残差序列,直接令
方法之一:依据异方差性检验中提供的信息将设定为含有未知参数的解释变量的函数形式,然后通过建立回归模型得到。
关于权序列的估计:94
注意:
(1)基于适当的权序列(如基于正确设定的的函数表达式得到的)的可行的加权最小二乘估计量具有良好的大样本性质,通常进行的统计推断也是可靠的;与之相反,基于一个糟糕的权序列,尽管仍能得到参数的一致估计量,但其有效性可能会比OLS估计量还要差。(2)可行的加权最小二乘法适合于大样本的情形,当样本容量较小时,其与OLS法相比哪一个更有效是未知的。95(2)基于OLS法的怀特异方差-稳健性估计程序
利用OLS法估计存在异方差性的模型,所得参数估计量仍具有无偏性和一致性,但通常的t检验是失效的,造成这一后果的根本原因是,构造t统计量所依据的参数估计量标准差的估计量是不合适的。为此,在未知异方差性表现形式的情形下,怀特(1980)提出了的一致估计量(称之为的异方差-稳健性方差-协方差估计量):96其中为利用OLS法回归原模型得到的第i个观测点上的残差,.矩阵主对角线上的第j+1个元素即为的一致估计量,记为
异方差-稳健性t统计量:
在大样本的情形下,利用异方差-稳健性t统计量便可以对进行假设检验。97
关于异方差性模型估计的几点说明:
(1)引进参数的异方差-稳健性方差估计量的目的是纠正在参数统计推断上存在的问题,但其参数的估计量仍是非有效的OLS估计量。因此,尽管这种估计程序不要求知道随机误差项的异方差性,具有广泛的实用性,但它不能替代(可行的)加权最小二乘法,因为当异方差性已知或其中的参数可以一致的估计时,(可行的)加权最小二乘估计量是(渐近)有效的估计量。98
(2)无论是可行的加权最小二乘估法还是基于OLS法的异方差-稳健性估计程序,都是适用于大样本的情形。对于小样本的情形,这些处理异方差性的方法与OLS法相比,哪一个更有效并没有一般的结论。但参考异方差-稳健性方差的估计量,可以帮助我们判断是否有些结论对所使用的方差估计量有敏感的反应。
99
(3)对于大样本的情形,由于异方差-稳健性方差的估计量是对OLS估计量的方差的渐近估计,而利用一个合适的权序列所得到的可行的加权最小二乘估计量是渐近有效的,因此它的方差通常应该小于异方差-稳健性方差的估计量。由此可以通过比较异方差-稳健性方差的估计量与可行的加权最小二乘法的方差估计量,为权序列的选择提供基本依据。100案例--中国农村居民人均消费函数
例:中国农村居民人均消费支出主要由人均纯收入来决定。农村人均纯收入包括(1)从事农业经营的收入,(2)包括从事其他产业的经营性收入(3)工资性收入、(4)财产收入(4)转移支付收入。考察从事农业经营的收入(X1)和其他收入(X2)对中国农村居民消费支出(Y)增长的影响:101102普通最小二乘法的估计结果:异方差检验103进一步的统计检验(1)G-Q检验
将原始数据按X2排成升序,去掉中间的7个数据,得两个容量为12的子样本。对两个子样本分别作OLS回归,求各自的残差平方和RSS1和RSS2:子样本1:(3.18)(4.13)(0.94)R2=0.7068,RSS1=0.0648子样本2:(0.43)(0.73)(6.53)R2=0.8339,RSS2=0.2729104计算F统计量:
F=RSS2/RSS1=0.2792/0.0648=4.31
查表给定=5%,查得临界值F0.05(9,9)=2.97
判断
F>F0.05(9,9)
否定两组子样方差相同的假设,从而该总体随机项存在递增异方差性。105(2)怀特检验作辅助回归:
(-0.04)(0.10)(0.21)(-0.12)(1.47) R2=0.4638似乎没有哪个参数的t检验是显著的。但
nR2
=31*0.4638=14.38=5%下,临界值20.05(5)=11.07,拒绝同方差性
(-1.11)106去掉交叉项后的辅助回归结果
(1.36)(-0.64)(064)(-2.76)(2.90)R2=0.4374X2项与X2的平方项的参数的t检验是显著的,且
nR2
=310.4374=13.56=5%下,临界值20.05(4)=9.49
拒绝同方差的原假设
107
原模型的加权最小二乘回归
对原模型进行OLS估计,得到随机误差项的近似估计量ěi,以此构成权矩阵2W的估计量;再以1/|
ěi|为权重进行WLS估计,得各项统计检验指标全面改善108习题:以每天抽烟支数(cigs)为因变量,主要关注的影响因素包括收入(income)、香烟价格(cigpric)、教育水平(educ)和年龄(age),建立香烟的日需求函数模型:cigs=b0+b1ln(income)+b2ln(cigpric)+b3educ+b4agec+b5age2+u利用807个调查数据,对模型进行OLS估计,结果如下:请回答以下问题(显著水平为5%,t0.05()=1.65,t0.025()=1.96):(1)解释模型中ln(cigpric)系数的经济含义。(2)大约到多大岁数,抽烟数量开始随着年龄增长有所下降?(3)利用White检验考察u的异方差性,辅助回归的可决系数为0.0519,Eviews输出结果如下:109
给出图中空格处的数值,并检验模型扰动项是否存在异方差。(4)假定u的方差随着educ的变化而变化,具体形式为:
Var(u)=2educ
如何修正异方差?给出简要步骤,并说明修正后的模型满足同方差假定(5)为修正异方差,对模型进行WLS估计,结果如下:
分别利用模型(1)和模型(2)的估计结果检验log(income)的统计显著性。你认为收入对香烟需求有显著影响吗?给出你的理由。(6)检验香烟价格影响的显著性,结论与你的预期相符吗?给出你的理由。(括号内为对应系数的标准差)
110§4-3:自相关基本内容一、自相关性的概念二、自相关性的来源三、自相关性后果四、自相关性检验五、自相关性的补救方法六、自相关系数的估计111无自相关假设——回归模型的假定条件之一:即误差项ut的取值在时间或空间上是相互无关的,误差项ut非序列相关(不存在自相关)如果则称误差项ut存在自相关。概念:总体回归模型的随机误差项之间存在相关关系。一、自相关性的概念
自相关的概念112
其中:被称为自协方差系数(coefficientofautocovariance)或自相关系数(first-ordercoefficientofautocorrelation)
ωi是满足以下标准的OLS假定的随机干扰项:
自相关往往可写成如下形式:
由于自相关性经常出现在以时间序列为样本的模型中,因此,本节将用下标t代表i。113
一阶自回归误差项线性一阶自回归形式:可以证明:
=
即:一阶自回归形式的自回归系数=ut和ut-1的自相关系数。φ的取值范围是[-1,1]当φ0时,称ut
存在正自相关;当φ0时,称ut存在负自相关;当φ=0时,称ut不存在自相关。114p阶自回归
当误差项ut的本期值不仅与其前一期值有关,而且与其前若干期的值都有关系时,即:
ut=f(ut–1,ut–2,…),则称ut具有高阶自相关。通常假定误差项的自相关是线性的。因计量经济模型中自相关的最常见形式是一阶自回归形式,所以下面重点讨论误差项的线性一阶自回归形式。115二、自相关性的来源自相关产生的原因1、经济系统的惯性2、设定偏误3、数据处理造成的相关4、蛛网现象
116
如GDP、价格、就业、生产等经济指标都会随经济系统的周期而波动。例如,在经济高涨时期,较高的经济增长率会持续一段时间,而在经济衰退期,较高的失业率和较低的经济增长也会持续一段时间,也就是相继的观测值很可能是相依赖的。这种现象就会表现为经济指标的自相关现象。原因1-经济系统的惯性
自相关现象大多出现在时间序列数据中,而经济系统的经济行为都具有时间上的惯性。117原因2-设定偏误例如,应该用两个解释变量解释Y,即:
如果模型中省略了某些重要的解释变量或者模型函数形式不正确,都会产生系统误差,这种误差存在于随机误差项中,从而带来了自相关。由于该现象是由于设定失误造成的自相关,因此,也称其为虚假自相关。118而建立模型时,模型设定为:
则X3t对Yt的影响在上式中便归入随机误差项ut中,由于X3t在不同观测点上是相关的,这就造成了ut在不同观测点是相关的,呈现出系统模式,此时ut是自相关的。119
因为某些原因对数据进行了修整和内插处理,在这样的数据序列中就会有自相关。
例如,将月度数据调整为季度数据,由于采用了加合处理,修匀了月度数据的波动,使季度数据具有平滑性,这种平滑性产生自相关。对缺失的历史资料,采用特定统计方法进行内插处理,使得数据前后期相关,产生了自相关。原因3-数据处理造成的相关120
许多农产品的供给呈现为蛛网现象
蛛网现象是微观经济学中的一个概念。它表示某种商品的供给量受前一期价格影响而表现出来的某种规律性。原因4-蛛网现象供给t=β1+β2Pt-1+ut121注意:模型形式设定偏误也会导致自相关现象。如将“U”形成本曲线设定为线性成本曲线,则必定会导致自相关。由设定偏误产生的自相关是一种虚假自相关,可通过改变模型设定予以消除。自相关关系主要存在于时间序列数据中,但是在横截面数据中,也可能会出现自相关,通常称其为空间自相关(Spatialautocorrelation)。122
设随机误差项具有零均值、同方差,且与独立,但存在序列相关性。在普通最小二乘法下计算得到三、自相关性的后果
在模型存在自相关性的情形下,回归系数的OLS估计量为仍然具有线性性、无偏性和一致性。尽管如此,采用OLS法估计存在自相关性的模型会产生以下后果:1、参数估计值仍然是无偏的以一元线性回归模型为例,其模型为123
1242、OLS估计量不再具有最小方差性
可以证明,在所有线性无偏估计量中,回归系数OLS估计量的方差不再是最小的。此表明模型的自相关性使回归系数OLS估计量的稳定性或精确性下降,此时也称OLS估计量是非有效的。举例说明:设模型为β的OLS估计量为125利用广义最小二乘法得到的β的最佳线性无偏估计量为比较结果:126回归参数不再具有最小方差()可能低估随机误差项的方差σ2随机误差项ut存在自相关t
统计量值,F统计量值不可靠变量或者方程的显著性检验失去意义3、通常的变量和方程的显著性检验失效
1274、预测精度下降且通常的预测区间不可靠,
当模型存在自相关性时,
回归系数估计的有效性下降,导致对Y的基于样本回归函数的预测精度下降。
不再成立,从而基于此所建立的预测区间将不再可靠。和128
四、自相关的检验1.图示法……2.杜宾-瓦德森检验(DW检验)……3.LM检验……129图示检验法
图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项et,et作为ut随机项的真实估计值,再描绘et的散点图,根据散点图来判断et的相关性。残差et的散点图通常有两种绘制方式。130图1et与et-1的关系绘制et-1
,et
的散点图。用(et-1
,et
)(t=1,2,…n)作为散布点绘图,如果大部分点落在第Ⅰ、Ⅲ象限,表明随机误差项ut存在着正自相关,如图1所示。的散点图1.绘制etet-1131
如果大部分点落在第Ⅱ、Ⅳ象限,那么随机误差项ut存在着负自相关,如图2所示。图2et与et-1的关系etet-1
132
如果观测点随意落在各个象限,没有固定的规则,那么随机误差项ut不存在自相关,如图3所示。图3et与et-1的关系et-1et133图4et的分布按照时间顺序绘制回归残差项et
的图形。如果et(t=1,2,…,n)随着t的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,就可断言et存在相关,表明存在着自相关;如果et随着t的变化逐次变化并不断地改变符号,那么随机误差项ut存在负自相关;如图4所示。2.按时间顺序绘制残差图
134图5et的分布如果et随着t的变化逐次变化并不频繁地改变符号,而是几个正的et后面跟着几个负的,则表明随机误差项存ut
在正自相关,如图5所示。135图6et的分布如果et随着t的变化无系统性变化模样,符合经典线性回归模型的无相关性假定。如图6所示。136DW检验法DW检验是J.Durbin(杜宾)和G.S.Watson(沃特森)于1951年提出的一种检验方法。DW检验只能用于检验随机误差项具有一阶自回归形式的自相关问题。这种检验方法是建立经济计量模型中最常用的方法,一般的计算机软件都可以计算出DW值。137
(1)(2)(3)随机误差项的一阶自回归形式为:为了检验序列的相关性,构造的原假设和备择假设是:
为了检验上述假设,构造DW统计量首先要求出回归估计式的残差et
定义DW统计量为:(无自相关性)(存在自相关性)138DW值的取值范围
在认为:
则:(4)(5)
其中一阶自回归中ψ=ρ所以:DW=2(1-ρ)139因此,。所以,DW值与的对应关系如表1所示。
4(2,4)2(0,2)0-1(-1,0)0(0,1)1DW由上述讨论可知DW的取值范围为:0≤DW≤4
根据样本容量n和解释变量的数目k′(不包括常数项)查DW分布表,得临界值
dL
和dU,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态。140误差项u1,u2,…,un间存在负相关
4-dL≤DW≤4不能判定是否有自相关
4-dU≤DW<4-dL误差项u1,u2,…,un间无自相关
dU<DW<4-dU不能判定是否有自相关
dL<DW≤dU误差项u1,u2,…,un间存在正相关
0≤DW≤dLDW检验决策规则141不能确定正自相关无自相关不能确定负自相关DW44-dL4-
dU2dUdLDW检验示意图可以用坐标图更加直观地表示出来:0f(DW)142
需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性。DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时,只有增大样本容量或选取其他方法;DW统计量的上、下界表要求n≥15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断;DW检验不适应随机误差项具有高阶序列相关的检验;143只适用于有常数项的回归模型并且解释变量中不能含滞后的被解释变量。解释变量X非随机【残差中包含了X的组合,X随机会使统计量的分布复杂化】回归含有截距项【保证残差均值为0】144例题:真实工资和劳动生产率(1959-2002,美国)
wt=29.57+0.70pt+et
s.e=(1.46)(0.02)R2=0.9755F=1674.30 DW=0.21查表得(5%的显著水平):
dL=1.475dU=1.566DW=0.21<1.474,在5%的显著水平下,拒绝零假设,即存在正的自相关。145LM(BG)检验
该检验由布劳殊和格弗雷(Breusch-Godfrey)提出,适用于任何阶数的自相关。考虑回归模型及其随机误差项的p阶自回归形式:
146过程:
(1)提出原假设和备择假设:
H0:1
=2=…=p=0
H1:至少一个j不等于0,j=1,2,…,n(2)用给定样本估计模型并计算残差et,并对残差序列et
,(t=1,2,…,n)建立p阶自回归模型
(3)估计上式,并确定回归样本可决系数R2。构造LM统计量。LM=nR2~2(p)147(4)根据临界值进行判断:若LM=nR2
2(p),不能拒绝H0,认为随机误差项不存在自相关;若LM=nR2>
2(p),拒绝H0,认为随机误差项存在自相关;148例题:真实工资和劳动生产率(1959-2002,美国)
wt=29.57+0.70pt+et
s.e=(1.46)(0.02)R2=0.9755F=1674.30 DW=0.21
检验一阶自相关,H0:1=0;H1:1
0 LM=44*0.71=31.432(1)
检验二阶自相关,H0:1=2=0;
H1:1
0或20 LM=44*0.72=31.512(2)1491.广义最小二乘法
对于模型
Y=X+u
如果存在序列相关,或者存在异方差,即有是一对称正定矩阵,存在一可逆矩阵P,使得
=PP’五、自相关的补救方法150变换原模型:即(*)式的OLS估计:
该模型具有同方差性和随机误差项互相独立性:151
这就是原模型的广义最小二乘估计量(GLSestimators),是无偏的、有效的估计量。
首先,得到的一致估计量,然后,应用替换GLS法估计过程中的
,进而得到参数的估计量。GLS估计量的性质:在一定的基本假定条件下,可行的GLS估计量是一致且渐近有效的。
当未知时,可行的GLS法:1522.广义差分法
对于自相关的结构已知的情形可采用广义差分法解决。
由于随机误差项ut是不可观测的,通常我们假定ut为一阶自回归形式,即ut
=ρut-1+vt其中,|ρ|<1,vt为经典误差项。
当自相关系数为已知时,使用广义差分法,自相关问题就可彻底解决。我们以一元线性回归模型为例说明广义差分法的应用。 153对于一元线性回归模型(1)将模型(1)滞后一期可得(2)用ρ
乘式(2)两边,得(3)154用式(1)减去式(3)可得(4)模型,随机误差项无序列相关。式(10)中,ut-ρut-1=vt
是经典误差项。因此,模型(4)已经是经典线性回归令
155则式(4)可表示为:(5)
对模型(5)使用普通最小二乘估计就会得到参数估计的最佳线性无偏估计量。
式(4)称为广义差分方程,因为被解释变量与解释变量均为现期值减去前期值的一部分,由此而得名。156补充到差分序列中,再使用普通最小二乘法估计参数。
在进行广义差分时,解释变量X与被解释变量Y均以差分形式出现,因而样本容量由n减少为n-1,即丢失了第一个观测值。如果样本容量较大,减少一个观测值对估计结果影响不大。但是,如果样本容量较小,则对估计精度产生较大的影响。此时,可采用普莱斯-温斯滕(Prais-Winsten)变换,将第一个观测值变换为157六、自相关系数的估计1、杜宾两步法
进行广义差分变换的前提是已知ρ的值。但是随机误差项的自相关系数,μt的值是不可以观测的,使得ρ的值也是未知的。所以利用广义差分法处理序列相关性时,首先需要估计出ρ的值。这可以用杜宾(Durbin)两步估计法。158如果随机误差项μt存在h阶自回归形式的序列相关,即当时,便可利用杜宾两步法对μt的相关系数ρ进行估计。(6)我们以一元线性回归模型为例,对于模型159第一步,对(6)式进行差分变换,可得整理,可得(7)(8)160第二步:应用普通最小二乘法对包含被解释变量及解释变量的滞后变量在内的模型(8)式进行估计,求出随机误差项μt的自相关系数ρi的估计值。再将ρi的估计值,代入(7)式,可得(9)对(9)式回归,得到βi的估计值。1612、用DW的值计算ρ的值由(6)式可得:
首先利用残差求出DW的值,然后利用上式进行变化可得:3、从残差中估计ρ的值以一元线性回归模型为例,对于模型ut
=ρut-1+vt若为一阶自回归AR(1),直接做如下回归即:得到ρ的估计值162年份全年人均纯收入(现价)
全年人均消费性支出(现价)消费价格指数(1985=100)人均实际纯收入(1985可比价)人均实际消费性支出(1985可比价)1985397.60317.42100.0397.60317.401986423.80357.00106.1399.43336.481987462.60398.30112.7410.47353.421988544.90476.70132.4411.56360.051989601.50535.40157.9380.94339.081990686.30584.63165.1415.69354.111991708.60619.80168.9419.54366.961992784.00659.80176.8443.44373.191993921.60769.70201.0458.51382.94表1985-2003年农村居民人均收入和消费单位:元
163
年份全年人均纯收入(现价)全年人均消费性支出(现价)消费价格指数(1985=100)人均实际纯收入(1985可比价)人均实际消费性支出(19
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版建筑行业材料供应施工一体化协议版
- 劳务派遣劳务费用协议书(2篇)
- 2024年车牌租赁体育赛事赞助合同
- 加盟物流合同(2篇)
- 2024年电商平台跨界合作合同
- 二零二五年度2025版环保产业合伙人合作协议范本2篇
- 2024年鄂钢外委工程安全环保监管协议3篇
- 2024年版融资租赁合同详细描述
- 2024版建筑工程项目合同登记台账
- 二零二五年度农业科技园区租赁及技术服务合同3篇
- 学生宿舍消防安全制度模版(3篇)
- GB/T 44990-2024激光熔覆修复层界面结合强度试验方法
- 四川省成都市2023-2024学年高二上学期期末调研考试语文试题(解析版)
- ps经典课程-海报设计(第六讲)
- 江苏省泰州市2023-2024学年高一上学期期末语文试题及答案
- 【MOOC】工程制图解读-西安交通大学 中国大学慕课MOOC答案
- 期末复习(试题)-2024-2025学年三年级上册数学苏教版
- 浙江省杭州市西湖区2023-2024学年九年级上学期期末语文试题(解析版)
- 人员车辆物品进出管理考核试卷
- 内镜中心年终总结和计划
- 周五学习制度
评论
0/150
提交评论