《回归分析》 课件 第4章 回归诊断_第1页
《回归分析》 课件 第4章 回归诊断_第2页
《回归分析》 课件 第4章 回归诊断_第3页
《回归分析》 课件 第4章 回归诊断_第4页
《回归分析》 课件 第4章 回归诊断_第5页
已阅读5页,还剩105页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归分析之绪论应用

归分析李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院1

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX目录归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院2

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX高斯-马尔可夫李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院3

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX最小二乘法是一种使误差平方和达到最小以寻求估计值的方法,最常见于线性模型。用最小二乘法得到的估计,叫做最小二乘估计。1805年,法国数学家勒让德在他的著作《计算彗星轨道的新 方法》的附录中第一次公开提出了最小二乘法。德国数学家高斯对最小二乘理论的贡献除了著名的正态误差 理论之外,还有高斯-马尔可夫定理。他声称从1799年起就 开始使用最小二乘法,导致了当时两大数学家关于最小二乘 法发明优先权之争,类似于牛顿和莱布尼茨关于微积分发明 权的争论,至今都没有定论。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院4

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX高斯-马尔可夫定理是最小二乘理论中最重要的理论结果,它 从统计学的角度肯定了最小二乘法的合法性,在此之前,最 小二乘估计只是看上去合理且计算简便的一种算法。但是实际数据有很多情况不满足高斯-马尔可夫定理的条件,这一点在二十世纪中期得到了学者的广泛关注。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院5

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX高斯-马尔可夫条件李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院6

/

110

异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理例1.居民收入和消费的关系运用截面数据研究消费和居民收入的关系。用Yi

表示第i

户的消费额,用Xi

表示第i

户的收入,一个简单的消费模型为Yi

=

β0

+

β1Xi

+

εi

,

i

=

1,

...,

n.将家庭以收入数据按照一定方式进行划分会发现:低收入组家庭用于购买生活必需品的比例相对较大,且购买差异性较小。高收入组家庭购买行为差异很大,自由支配的收入更多意味着更多的购买选择,消费的分散程度很大。反映在消费模型上则为εi

对回归直线即均值的偏离程度存在差异,从而出现异方差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院7

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX例2.经济模型经济变量的滞后性会给序列带来自相关性。许多经济变量都会产生滞后影响,

例如物价指数、基建投 资、国民收入、消费、货币发行量等都有一定的滞后性,例 如前期消费额对后期消费额一般会有明显的影响。经济变量的滞后有时表现出一种不规则的循环波动,当经济 处于衰退的低谷时,经济扩张期随之开始,这时大多数经济 时间序列上升得快一些。在经济扩张期,经济时间序列内部 有一种内在的冲力,序列一直上升到循环的顶点,在顶点时 刻经济收缩随之开始。因此在这样的时间序列中,序列观测值之间的相关现象是很自然的。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院8

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院9

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX残差分析在利用最小二乘估计得到参数估计值βˆ0和βˆ1后,可以通过下式得到残差ei

=

Yi

βˆ0

βˆ1Xi

.由于高斯—马尔可夫条件都是关于误差项的,所以研究者自 然地可以从分析误差项的“估计量”——残差的角度来考察数 据是否满足假设。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院10

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX考虑线性

归模型Y

=

+

ε,(1)•⊤1⊤n若用X

,...,X

表示X

的n个行向量,定义第i

次观测的残差⊤i

i

iˆe

=

Y

X

β,

i

=

1,

...,

n将残差ei

看作误差εi

的一次观测值,如果模型(1)正确,ei

应具有εi

的一些特征。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院11

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COXi记Yˆ

=X

βˆ,

称Yˆ

为拟合值向量,

称其第i

个分量Yˆi

=X

⊤βˆ为第i

个拟合值,则Yˆ

可以写成Yˆ

=

X

(X

⊤X

)−1X

⊤Y

=

HY

,其中H

=X

(X

⊤X

)−1X

⊤,文献中通常称之为帽子矩阵。容易验证,帽子矩阵H满足H⊤

=

H,

H2

=

H,即帽子矩阵是一个对称幂等阵。利用帽子矩阵H,残差向量e可表示为e

=

Y

=

(I

H)Y

=

(I

H)ε.(2)李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院12

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX定理考虑线性

归模型(1),则由(2)式所定义的残差向量具有如下性质:E

(e)

=

0,

Cov

(e)

=

σ2(I

H);若进一步假设误差服从正态分布,即ε

∼N(0,σ2I

),则e

N(0,

σ2(I

H)).李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院13

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院14

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX根据正态分布的性质,若随机变量U

∼N(µ,

σ2),则P(µ

<

U

<

µ

+

2σ)

=

95.4%.因此学生化残差具有如下性质:当µ

=0,σ

=1时,大约应有95.4%的ri

落在区间[−2,2]中。拟合值向量Yˆ

与残差e相互独立,因而与学生化残差r1,...,rn也独立。如果以拟合值yˆi

为横轴,ri

为纵轴,那么平面上的点(yˆi

,ri

),i

= 1,...,n大致应落在宽度为4的水平带|ri|≤2区域内,且不呈 现任何趋势。这种以残差为纵轴,以拟合值或其它量为横轴的图称为残差图,这是回归诊断的一个重要工具。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院15

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX残差示意图李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院16

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院17

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX本章介绍了

归模型随机误差项违背基本假设的诊断与修正方法,以及异常值的识别和处理。随机误差序列方差不同或存在相关,分别对应了违背基本假设的异方差性和自相关现象。残差图分析是诊断两者最直观的方式,但比较粗糙。更准确的诊断方法包括:借助等级相关系数检验或其他方法 来诊断是否具有异方差性;通过自相关系数或DW检验等方 法考察序列相关是否存在。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院18

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX当根据某种检验方法认为存在异方差时,可以用自变量的幂函数作为权函数,作加权最小二乘

归。但是加权最小二乘估计并不能消除异方差,只是能够消除或减弱异方差的不良影响;研究者们还常常考虑对因变量进行方差稳定变换,使得对变换过后的数据,误差方差能够近似相等,即方差比较稳定;要注意的是方差稳定变换在改变误差项方差的同时,也会改变误差项的分布和

归函数的形式。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院19

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COXDW检验是检验随机误差项自相关性最常用的一种方法,但DW检验有一些局限性。不仅因其不适合随机项具有高阶序列相关的检验,还因为DW检验有两个不能确定结果的区域。当模型存在序列相关时,常通过迭代法和差分法消除自相关性。要注意的是用迭代法处理序列相关并不总是有效。一阶差分法是自相关系数ρ

=1时的迭代法,因此只有当ρ

=1或者接近1时,差分法的效果才会好。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院20

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异常值的识别和处理是优化

归方程的必要部分。通过散点图可以简单直观地对某些点进行甄别。更准确地方法,则是通过计算删除学生化残差、杠杆值、Cook统计量等对异常值进行判断。识别出异常值后,需要对异常值产生的原因进行诊断,不能简单地剔除异常值。有时异常值是正确的观测,出现的原因可能是由于模型遗漏 了关键的自变量,或模型设定错误,这时将为模型的修正带 来启发。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院21

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院22

/

110编号

Y

(亿元)X

(万亩)

编号

Y

(亿元)

X

(万亩)农作物产值播种面积农作物产值播种面积116.31907.516183.6517729.2217.14873.217146.7911061.53125.2413159.218129.6311304.7442.245928.119154.289166.2540.286834.42061.246821.7684.475495.521206.517779.6770.76055.22244.374701.38101.6712694.62351.796036.1916.831018.5243.53316.510211.5112770.92559.457016.5111016542.72637.295252.512155.8712244.3276.33761.71349.723601.52810.071235.21469.78158.12944.784275.115255.9216564.5异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理农作物种植业产值与播种面积关系表

1:1986

29

个省市自治区农作物种植业产值和农作物播种面积数据李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院23

/

110归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理

异常值和强影响点BOX-COX1986年29个省市自治区农作物种植业产值和农作物播种面积数据如表所示,以农作物种植业产值作为因变量Y

,以农作物播种面积作为自变量X

,建立一元线性

归模型。首先利用普通的最小二乘估计得到经验

归模型Yˆ

=

−5.661

+

0.012X

.其次做残差与自变量农作物播种面积的散点图如下所示,可以发现有明显的异方差问题。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院24

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异方差性产生的原因模型设定错误常导致异方差,模型设定主要包括变量的选择。模型遗漏关键解释变量常导致异方差,此时随机误差项、异方差的产生与解释变量密切相关。设正确模型的形式为Yi

=β0

+β1Xi1

+β2Xi2

+β3Xi3

+εi

,但实际采用的是Yi

=

β0

+

β1Xi1

+

β2Xi2

+

ui

,即略去了解释变量X3。当X3与X1,X2之间存在相关性或某种函数关系时,其影响将体现在误差项中。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院25

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院26

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异方差性的影响当

归模型出现异方差时,如果仍用OLS估计来估计未知参数,将引起不良后果。参数的OLS估计仍是无偏的,但不再是最小方差线性无偏估计(BLUE)。普通最小二乘估计的无偏性仅依赖于解释变量非随机与随机 误差项均值为0的假定,而其为BLUE则需要高斯—马尔可夫 条件均满足。本章广义最小二乘估计这一节将介绍当异方差存在时,比OLS更 有效的线性无偏估计。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院27

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

将不再服从t分布,并且即使扩大样本量也不能解决这个问题。类似地,F

统计量不再服从F

分布。因此,异方差的存在使高 斯-马尔可夫假定下进行的假设检验不再有效,检验结果不再 值得信任。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院28

/

110归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX•归方程的预测效果不理想。尽管参数的普通最小二乘估计的无偏性使得预测也是无偏的,但参数的OLS估计不再是有效估计。参数的OLS估计不是有效估计导致对被解释变量的预测也不 再是有效的,

而基于估计量方差的Y

的区间预测将产生困 难。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院29

/

110异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理异方差性的检验——残差图法

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院30

/

110异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理异方差性的检验——残差图法等级相关系数法又称Spearman检验,是一种应用较广泛的异方差检验方法,其检验步骤为:作Y

关于X

的普通最小二乘

归,求出εi

的估计值ei

;取ei

的绝对值,将xi

和|ei|按递增或递减的次序排列后给出各自的次序等级,按下式计算等级相关系数

服从自由度为n−2的t分布。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪中国人民大学统计学院31

/

110

异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理异方差性的检验——Goldfeld-Quanadt检验Goldfeld-Quanadt检验可用于递增型或递减型异方差的检验,

其检验步骤为:将样本观测值按自变量xi

的大小排序;剔除排在中间的m(样本量的1/5

∼1/4)个观测,并将剩余的观测值等分为两个样本分别进行

归分析;进行假设检验。提出假设:

H0:两部分观测的方差相等

v.s.H1:两部分观测的方差不相等。•

分样本的残差平方和进行假设检验。在原假设成立条件下,检验统计量李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院32

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异方差性的处理常假定异方差σ2具有如下形式:i2

⊤0

=

g

+

α

Z

).其中g(·)是一个未知的函数。当Z

i

=(Zi

1,...,Ziq

)⊤是Xj,j

=1,...,p的函数时,异方差可表i

i示为σ2

=σ2f

(Xi

1,...,Xip

),其中σ2表示第i

个观测值误差项的方差,

σ2为常数,f

(Xi

1,...,Xip

)为自变量

X1,...,Xp

的某种函数。以一元线性

归模型为例,Yi

=

β0

+

β1Xi

+

εi

,模型具有异方差且随机误差项与自变量有关,则异方差性可表示为Var

(εi

)=

σ2f

(Xi

).李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院33

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX•2当模型存在异方差时,σ

的不同意味着对模型估计的不同作i用,在进行估计时需要对残差赋予不同的权重,从而使残差平方和能够更好地反映σ2的真实情况。i处理异方差问题的一个经典的方法是加权最小二乘法,该方法在平方和中加入适当的权数ωi

,以调整各项在平方和中的作用。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院34

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX加权最小二乘法同样以一元线性

归为例:一元线性

归的加权最小二乘的离差平方和为

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院35

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX为消除异方差的影响,要使(3)中各项的地位相同,则观测值的权数应取观测值误差项方差的倒数,即•2i然而,

在实际问题中误差项方差σ

往往是未知的。但若已

代入(3)求解,即可得到该模型的加权最小二乘估计。在一些社会学、经济学研究中,误差项方差与自变量的幂函数成比例,可根据相应的函数形式求解。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院36

/

110

序号yxxi

等级残差ei|ei

||ei

|等级did

2i12648,

7771169.02169.0216-1522521059,

2102-26.6426.643-113909,

9543-104.63104.637-416413110,

5084-110.54110.548-416512210,

9795-159.41159.4115-10100610711,

9126-253.41253.4123

7477-25.1025.102525850313,

49988.238.231749943114,

2699-128.96128.969001058815,

52210-78.0578.0546361189816,

73011129.68129.6810111295017,

66312102.69102.6966361377918,

57513-145.53145.5314-111481919,

63514-195.27195.2719-525151,

22221,

1631578.3678.36510100归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX居民收入与储蓄额设某地区的居民收入与储蓄额的历史统计数据如下表所示(只展示前15行):表

2:居民收入与储蓄额李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院37

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX(1)用普通最小二乘法建立储蓄额Y

与居民收入X

的并画出残差散点图:归方程,系数估计标准误差t

值p值截距项-648.124118.163-5.4900.000x0.0850.00517.3400.000从残差图来看,残差随X

的增加呈现出增加的趋势,说明误差项具有异方差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院38

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX(2)计算xi

与|ei|等级相关系数得rs

=0.686,且p值接近于0,表明误差项存在异方差。其次对模型进行Goldfeld-Quanadt检验,p值为0.007<0.05,拒绝原假设,即认为模型存在异方差。(3)采用加权最小二乘法处理异方差问题。2i因为误差项的方差σ

未知,这里假设误差项方差与x

的幂函i

xmi数xm

成比例,即权函数为ω

=

1

,m待定。幂函数通常需要经过多次测试才能确定,一般按照−2,−1.5,−1,−0行测试,选择对应最大对数似然函数值的幂指数,求出相应的加权最小二乘

归模型。经过测试得到,当m

=1.5时在上述幂指数值中对应最大的对数似然函数值,故取m

=1.5进行加权最小二乘

归。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院39

/

110归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX图

1:改进模型的残差图(左)和改进模型与原始模型的残差对比图(右)由左右两图可以看出,本例中加权最小二乘法对残差的改造 是细微的。加权模型的等级相关系数rωs

=0.683,说明异方 差仍然存在。造成这一点的原因可能是误设了误差项和自变量的幂函数关系,因此找到合适的函数关系十分重要,同时也较为困难。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院40

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院41

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX表

3:1985-2011年农村居民人均收入和消费

单位:元年份人均实际纯收入人均实际消费性支出年份人均实际纯收入人均实际消费1985397.60317.421999703.26501.881986399.40336.432000717.64531.881987410.43353.412001747.68550.111988411.59360.022002785.41581.951989380.94339.062003818.93606.901990415.69354.112004882.63656.681991419.51366.962005961.07754.531992443.43372.7420061,

043.47822.971993458.52382.9120071,

149.28894.891994492.33410.0020081,

247.83959.521995541.43449.6820091,

360.251,

054.141996612.62500.0320101,

512.481,

119.6819971998648.50677.52501.75498.3820111,

691.571,

265.80李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院42

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX以人均实际纯收入为自变量,人均实际消费性支出为因变量建立农村居民消费的线性

归模型。使用普通的最小二乘估计求解

归方程并作出残差图如下:残差图显示,残差的变动有系统模式,连续为正和连续为负,这表明残差项可能存在一阶正自相关。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院43

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

(4)

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院44

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX随机误差序列产生自相关的原因具体有:模型设定偏误。和模型设定偏误将导致异方差一样,有两种 情形将产生系统误差,而该误差存在于随机误差项中,从而 导致序列产生自相关。模型遗漏关键自变量;模型函数形式错误。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院45

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX经济系统的惯性。经济行为具有时间上的惯性,如GDP、物价、就业等经济指标随经济系统的周期而波动;经济高速增长时期,较高的经济增长率会持续一段时间,经 济衰退时,较高的失业率将持续一段时间,也因此经济时间 序列数据常出现自相关。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院46

/

110归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX经济行为的滞后效应。滞后效应指一个变量对另一个变量的影响不仅限于当期,而且会延续若干期,由此带来变量的自相关。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院47

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX蛛网现象。蛛网理论是一种引入时间因素考察价格和产量均衡状态变动 过程的理论。将其均衡的变动过程反映在二维座标图上,其 形如蛛网。许多农产品的供给呈现为蛛网现象,

供给对价格的反应要 滞后一段时间,因为供给需要经过一定的时间才能实现。如 果时期t的价格Pt

低于上一期的价格Pt−1,农民就会减少时 期t

+1的生产量,如此则形成蛛网现象。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院48

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX数据处理造成的自相关。构建模型前期,需要对原始数据进行一些处理,处理后的数据可能产生自相关。为消除季节性,对数据进行修匀,可能因此导致数据前后期出现自相关。对缺失数据采用某些统计方法填补时可能导致自相关。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院49

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX自相关现象的影响当线性

归模型的随机误差项存在序列相关时,

就违背了线性归方程的基本假设,若仍然直接用普通最小二乘法估计未知参数,将会造成严重后果:参数的OLS估计仍是无偏的,但不再是最小方差线性无偏估计。均方误差可能严重低估误差项的方差。对方差的低估将导致t值的高估,从而更倾向于拒绝原假设,这时F

检验和t

检验失效。如果直接使用参数的最小二乘估计进行预测和分析,将会带来较大的方差甚至错误的解释。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院50

/

110BOX-COX

设x

和y

已经过中心化处理。当基本假定都满足时,β1的普通最小二乘估计记Var

(ε)=σ2,则βˆ1的方差为现在假设随机误差项存在一阶自相关εt

=

ρεt−1

+

ut,式中,εt

为当期随机误差,εt−1为前期随机误差,ρ为自相关系数,

ut

则是满足古典假定的误差项。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院51

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX此时,参数的普通最小二乘估计仍然是无偏的,因为OLS估计的无偏性仅需要满足E

(ε)=0的假定;虽然参数的OLS估计仍然是无偏的,但其不再是有效的,例如β

的方差ˆ

ˆ1

1

下面推导当存在自相关问题时参数OLS估计的方差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院52

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院53

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX根据推导结果可知:

在实际中含有经济变量的模型常常表现为正的自相关,即ρ>0,同时X

序列自身也呈正相关。此时上式表示的估计量方

β

的方差,将会低估参数估计值的真实方差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院54

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX再来看看σ2估计量σˆ2

=(y

−X

βˆ)⊤(y

−X

βˆ),这里p

=1。当n−p−1归模型所有的基本假定都满足时,σˆ2是σ2的无偏估计。而当随机误差项存在一阶自相关时,类似可以证明(5)若随机误差项和自变量X

存在正的一阶自相关,

式(5)将小于(n−2)σ2。•2这时若仍用σˆ=⊤ˆ

ˆ(y

−X

β)

(y

−X

β)n−p−1估计σ2,将会低估真实的σ2,且又将使参数最小二乘估计值的方差进一步低估。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院55

/

110

异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理自相关的诊断-图示检验法图示检验法是一种直观的诊断方法,残差et

的散点图通常有两种绘制形式。第一种是以(et−1,et

),t

=2,3,...,n作为散布点绘图:●●●●●●●●●●●●●●●●●●

●ei

1eiOIIIIIIIV(a)●●●●●●●●●●●●●●●●●●●ei

1ei●OIIIIIIIV李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院56

/

110(b)异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理第二种是按时间顺序绘制

归残差et

的散点图:●●●●●●●●●●●tet(a)●●●●●●●●●●●tet(b)•

t如果e

,t

=1,2,...,n随着t

的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,表明εt

存在自相关性。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院57

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX自相关的诊断-DW检验

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院58

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院59

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

-1

4(-1,0)

(2,4)0

2(0,1)

(0,2)完全负自相关负自相关无自相关正自相关

1

0

完全正自相关

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院60

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX根据样本量n和解释变量的数目k

(包括常数项)查DW分布表,得到临界值dL和dU

,然后依下列准则考察计算得到的DW值,以决定模型的自相关状态:表3.3

DW检验0

DW

dL误差项ε1,·

·

·

,εn间存在正自相关dL

DW

dU不能判定是否存在自相关dU

DW

4

dU误差项ε1,·

·

·

,εn间无自相关4

dU

DW

4

dL不能判定是否存在自相关4

dL

DW

4误差项ε1,·

·

·

,εn间存在负自相关李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院61

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限:DW检验有两个不能确定的区域,

一旦DW值落在这两个区域,就无法判断,这时,只有增大样本量或选取其它检验方法;DW统计量的上下界表要求n

>15,这是因为样本量如果再小,

利用残差就很难对自相关的存在性作出比较正确的诊断;DW检验不适合随机误差项具有高阶自相关的检验。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院62

/

110异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理自相关现象的改进-迭代法以一元线性

归模型为例,设一元线性阶自相关归模型的误差项存在一

(6)

(7)(8)式(7)表明误差项εt

存在一阶自相关,

式(8)表明ut

满足

归模型关于随机误差项的基本假定。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院63

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX

(9)

于是(10)就转化为

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院64

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX由由于自相关系数ρ是未知的,需要用DW值对其进行估计。12ρˆ

≈1

−DW

,计算出ρ的估计值ρˆ。′

′将ρˆ代入模型,计算出变换后的因变量Yt

和自变量Xt

,然后对模型(11)进行最小二乘

归。如果误差项确实是(6)的一阶自相关形式,那么经过以上变换,模型(11)已经消除自相关,迭代结束。在实际问题中,有时误差项并不是简单的一阶自相关,而是 更复杂的自相关形式,模型(11)的误差项

ut

可能仍然存在自 相关。这就需要进一步对(11)的误差项ut做DW检验,以判断ut

是否存在自相关。如果检验表明误差项ut

存在自相关,那么对

归模型(11)重 复运用迭代法,直至最终消除误差项的自相关性。这种通过 迭代消除自相关的过程正是迭代法名称的由来。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院65

/

110异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理自相关现象的改进-差分法差分法就是用增量数据代替原来的样本数据,将原来的

归模型变为差分形式的模型。一阶差分法通常适用于原模型存在较高程度的一阶自相关的情况。在前面迭代方程(10)中,当ρ

=1时,得Yt

Yt−1

=

β1(Xt

Xt−1)

+

(εt

εt−1).令∆Yt

=Yt

−Yt−1,∆Xt

=Xt

−Xt−1,则∆Yt

=

β1∆Xt

+

ut.

(12)观察(12)式,其不存在序列的自相关,它是以差分数据∆Yt

和∆Xt样本的

归方程。对(12)式进行最小二乘估计,求得βˆ1,代入(6)式,还原初始归方程。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院66

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX农村居民收入和消费到本节最开始的农村居民收入和消费实例,以人均实际纯收入为自变量,人均实际消费性支出为因变量建立农村居民消费的线性

归模型。诊断该模型是否存在自相关。前文通过图示检验法发现模型具有自相关现象,残差存在一阶正自相关。计算模型的DW值等于0.530,查询DW统计量表,对样本量 为27,含一个自变量的模型,5%显著性水平下的dL

=1.316,

dU

=1.469,则模型的DW值小于dL,表明该消费模型存在自 相关。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院67

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX采用适当的方法处理自相关问题。采用迭代法解决自相关问题。由

归方程可以得到残差序列et

,并求出自相关系数的估计ρˆ,原模型转化为:Yt

ρˆYt−1

=

β1(1

ρˆ)

+

β2(Xt

ρˆXt−1)

+

vt.求得

归方程为Yˆ∗

=13.678

+

0.716X

∗.t

tˆ∗式中Y

=

Y

ρˆY

,∗t

t

t−1

t

t

t−1X

=X

−ρˆX

。此时模型的DW值为1.779。而由DW统计量表,样本量为26, 含一个自变量的模型,5%显著性水平下的dL

=1.302,dU

= 1.461,则有dU

<DW

<4

−dU

。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院68

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX新的残差序列图如下所示,也呈现出无序的状态,这都表明在5%的显著性水平下,广义差分模型已无自相关。

李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院69

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX变换广义最小二乘估计小结与评注李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院70

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX影响分析在归分析中,因变量Y

的取值yi

具有随机性,而自变量X1,...,Xp取值x

i

=(xi

1,...,xip

)⊤,i

=1,...,n也只是许多可能取到的值中的n组。•⊤ii研究者希望每组数据(X

,Y

)对未知参数的估计有一定的影•响,但这种影响不能过大,这样得到的经验

归方程就具有一定的稳健性。归诊断所要研究的另一个重要问题,是探查对参数估计或预测有异常大的影响的数据,其中包括异常值与强影响点,这部分内容在

归诊断中被称为影响分析。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院71

/

110归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX杠杆点024

68100

5

1015

20XY02

4

68100

5

1015

20XYA点A虽远离样本其它部分的X

空间,但它几乎位于通过其它样本点的

归直线上,这是一个杠杆点的例子。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院72

/

110归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX强影响点012345051015XY012345051015XYB所标注的B点的横坐标虽然没有异常,但其纵坐标是异常的。 这是一个强影响点,

它会将

归模型“拽”

向它自身的方 向,该点将对

归系数有显著影响。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院73

/

110归模型的诊断异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX异常值的类型:关于因变量Y

的异常值关于自变量X

的异常值李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院74

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX关于因变量Y

的异常值由于普通残差的方差不相等,不具有可比性。因此引入标准化残差的定义:标准化残差使残差具有可比性,但是没有解决方差不等的问题。学生化残差则进一步解决了方差不等的问题,

比标准化残 差又有所改进。但是当观测数据中存在关于Y

的异常观测值 时,普通残差、标准化残差、学生化残差这三种残差都不再 适用。这是由于异常值把

归线拉向自身,使异常值本身的残差减 少,而其余观测值的残差增大,这时

归标准差σˆ也会增大, 因而用“3σ”准则不能正确分辨出异常值。解决这个问题的 方法是改用删除残差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院75

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX在计算第i

个观测值的残差时,用除去第i

个观测值的其余n−1个观测值拟合

归方程,计算出第i

个观测值的删除拟合值Yˆi

,这个删除拟合值与第i

个值无关,不受第i

个值是否为异常值的影响。由此定义第i

个观测值的删除残差为ˆ(i

)

i

(i

)e

=

Y

Y

.李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院76

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX删除残差e(i

)较普通残差更能如实反映第i

个观测值的异常性。可以证明进一步,可以给出第i

个观测值的删除学生化残差,记为r(i).删(i

)ir

=

r

(n

p

1

r2i除学生化残差r(i

)的表达式为

n

p

2

12)

.李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院77

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX模拟数据分析到最初强影响点的例子,从图中可见B点的Y

值是异常的012345051015XY012345051015XYB李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院78

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX在利用最小二乘法得到经验

归的一元线性

归模型后,首 先计算学生化残差如表4前两行所示。但是当观测数据中存 在关于Y

的异常观测值时,学生化残差不再适用。其次计算删除学生化残差,结果如表4后两行所示。B点的删 除学生化残差为-7.099,其绝对值大于3,因此可以判定B点 为异常值点。表

4:学生化残差和删除学生化残差编号12345678910学生化残差-0.665-0.057-0.0870.4261.5110.517-0.6710.547-0.754-0.404编号12131415161718192021学生化残差0.446-0.336-0.5431.988-0.0751.252-0.4690.0820.389-3.742编号12345678910删除学生化残差-0.655-0.056-0.0840.4171.5680.507-0.6610.537-0.745-0.395编号12131415161718192021删除学生化残差0.437-0.328-0.5332.175-0.0731.272-0.4590.0800.380-7.099李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院79

/

110异常值和强影响点BOX-COX归模型的诊断

异方差的诊断及其处理

自相关的诊断及其处理关于自变量X

的异常值对

归的影响在归分析中,每个观测x

i

=(xi

1,...,xip

)⊤在自变量空间中的位置影响

归系数的确定,较远的点可能对模型参数的估计值、标准误差以及预测值等产生不成比例的影响。由Var

(yˆ)=σ2H且Var

(e)=σ2(I

−H),所以H确定了因变量和误差项的方差以及二者的协方差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院80

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院81

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX如下图所示,并不是所有的杠杆点都将影响归系数。024

6810024

6810XX0

5

1015

20Y0

5

1015

20YA换言之,帽子矩阵对角线元素仅考察自变量空间中观测值的位置。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院82

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX为此,研究者们引入Cook统计量。Di

=(i

)(βˆ

βˆ

)⊤X

⊤X

(βˆ

βˆ

)pσˆ2(i

)

,

i

=

1,

...,

n,2ˆ2这里σˆ =

||y

X

β||

/(n

p),

而ˆ(i

表示剔除第i

行求得的β的最小二乘估计。于是,对一组观测数据,可以通过一个数量Di

来刻画它对归系数估计影响的大小。然而,Di,i

=1,...,n的计算很不方(1)

(n)便,它需要分别计算βˆ,

βˆ

,

...,

βˆ

,涉及n

+1次

归,计算量太大。下面的定理提供了计算Di

的简便公式,它只需要计算完全数据的线性

归模型。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院83

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX定理对于线性

归模型(1),Cook统计量可由下式计算这里hii

是帽子矩阵H

=X

(X

⊤X

)−1X

⊤的第i

个对角元,ri

是学生化残差。李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院84

/

110

归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院85

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX到最初杠杆点的例子,从图中可见A点的X

值远离其他的点,但是没有影响

归系数。024

6810024

6810XX0

5

1015

20Y0

5

1015

20YA李扬/林存洁/王菲菲/孙韬/廖军归分析之绪论中国人民大学统计学院86

/

110归模型的诊断

异方差的诊断及其处理自相关的诊断及其处理异常值和强影响点BOX-COX在利用最小二乘法得到经验

归的一元线性

归模型后,首 先计算各个自变量的杠杆值hii,i

=1,·

·

·

,n如表5前两行所 示,发现A点的杠杆值大于2倍的h¯,可以认为A点是杠杆值 点。其次计算各个自变量的库克距离如表5后两行所示,发现所 有点的库克距离均小于1,A点的库克距离为0.634,所以A点 是杠杆点但不是异常值。表

5:杠杆值和库克距离编号1234567891011杠杆值0.0480.0630.0480.0630.0610.0480.0510.0500.058

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论