多元回归分析课件_第1页
多元回归分析课件_第2页
多元回归分析课件_第3页
多元回归分析课件_第4页
多元回归分析课件_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、复习多元回归分析大样本性质模型的函数形式虚拟变量异方差数据问题时间序列模型基本模型平稳、弱相关和高度持久序列相关工具变量和联立方程受限制因变量模型1小样本和大样本性质小样本性质:估计量在样本大小为有限的情况下表现出来的性质。例如:无偏估计; t、F检验 。大样本性质:估计量在样本大小为无限的情况下表现出来的性质。例如:大数定律;一致估计;LM检验2一致性 “一致”指的是当n 时,估计量的分布收敛于系数的真实值在MLR1-MLR5假设下, OLS估计值是一致的(也是无偏的)在无偏性的证明中,我们假设了条件均值为零: E(u|x1, x2,xk) = 0证明一致性,我们只要相对较弱的假设,均值为零

2、: E(u) = 0; 不相关: Cov(xj,u) = 0, j = 1, 2, , k 没有这个假设,OLS就是有偏和不一致的3当n 时样本(估计)的分布b1n1n2n3n1 n2 1或F115拟合程度重要的是不要过于关注调整的R2 而忽略了理论和经济常识本身如果经济理论清楚地预计某个变量应当被包括进来,那么就加入这个变量不要加入影响对所关注的变量进行合理解释的变量;切记多元回归含意之一是控制了其它因素16函数形式我们已经知道一个线性的回归可以用来拟合一些非线性的关系可以用因变量或 自变量的对数形式或者同时用两者的对数形式可以用x的平方可以用x的交叉项但是我们如何知道我们是否在模型设定中采

3、用了正确的函数形式呢?17函数形式(续)首先,要靠经济理论来指导模型的设定考虑如何对模型进行解释究竟是变量x的绝对变化还是百分比的变化(用对数形式)对因变量y产生影响更加合理?因变量对x1的偏导随x1 (平方项)还是随x2 (交叉项)改变,或者是固定不变?18RESET检验RESET 采用的办法和White检验的特殊形式类似我们采用加入的函数的办法来检验,而不是直接加入x的函数因此,要估计方程 y = b0 + b1x1 + + bkxk + d12 + d13 +error 来进行检验H0: d1 = 0, d2 = 0 根据 FF2,n-k-3 或者 LM2219虚拟变量虚拟变量就是取 1

4、 或者 0 的变量例:male (= 1 若为男性, 0 其它情况), south (= 1 若在南方, 0 其它情况), 等.虚拟变量也叫二元变量20一个独立的虚拟变量考虑一个包括一个连续变量(x)和一个虚拟变量(d)的模型y = b0 + d0d + b1x + u这可以解释成截距项的变化若 d = 0, 那么 y = b0 + b1x + u若 d = 1, 那么 y = (b0 + d0) + b1x + ud = 0 的样本是参照组21d0 0 的例子xyd0b0y = (b0 + d0) + b1xy = b0 + b1xslope = b1d = 0d = 122其它变量与虚拟变

5、量的交叉项也可以考虑虚拟变量 d 和连续变量 x 之间的交叉项 y = b0 + d1d + b1x + d2d*x + u若 d = 0, 那么 y = b0 + b1x + u若 d = 1, 那么 y = (b0 + d1) + (b1+ d2) x + u这里的两种情况可以看成是斜率的变化23yxy = b0 + b1xy = (b0 + d0) + (b1 + d1) xd0 0 且 d1 0的例子d = 1d = 024检验不同组之间的差异为了检验一个回归方程对不同的组是否应该取不同的参数,我们可以检验表示组的虚拟变量及其和所有其他x变量的交叉项的显著性因此可以估计有所有交叉项和没

6、有交叉项两种情况下的模型,然后构造F 统计量, 但这种方法不容易把握25Chow 检验也可以仅仅做没有交叉项的回归来构造适当的F统计量如果我们对第一组样本做没有交叉项的回归,得到SSR1, 然后再对第二组样本做同样的回归,得到 SSR2再同样对所有样本做没有交叉项的回归,得到 SSR, 那么26什么是异方差前面的同方差的假设,隐含着扰动项u的方差条件于解释变量是常数如果这个假设不成立,即对于x的不同的值u的方差不同,那么扰动项就是异方差例如: 估计教育的回报率时,能力是不可观察的因素,因此可能的情况是能力的方差随教育程度不同而不同27.x x1x2yf(y|x)异方差的例子x3.E(y|x)

7、= b0 + b1x28异方差有什么影响?OLS 估计在没有同方差假设的情况下仍然是无偏和一致的但是在异方差的情况下标准差的估计是有偏的如果标准差的估计有偏我们就不能利用t 统计量或F 统计量或LM 统计量来做检验推论29 稳健的标准差稳健的标准差只有在大样本的情况下才适用, 在小样本的情况下用稳健的标准差构造出来的t 统计量的分布与t 分布相差较远,用来做检验是不对的在 Stata 软件中, 稳健的标准差可以通过在回归命令中加入“robust”得到30异方差检验实际上我们需要检验 H0: Var(u|x1, x2, xk) = s2, 也就是H0: E(u2|x1, x2, xk) = E(

8、u2) = s2如果假设u2和xj之间是线性关系,我们可以把零假设当成一个线性条件来检验 因此对于 u2 = d0 + d1x1 + dk xk + v ;也就是检验 H0: d1 = d2 = = dk = 031Breusch-Pagan 检验虽然我们观察不到扰动项,但是我们可以用OLS回归把残差估计出来用得到的残差的平方项对所有的x回归之后,就可以用R2构造F统计量或者LM统计量来进行检验其中F统计量就是软件中报告出来的检验整个回归的显著性的统计量, F = R2/k/(1 R2)/(n k 1), 该统计量呈Fk, n k - 1分布其中的LM统计量可由LM = nR2得到,该统计量服

9、从c2k分布32White 检验Breusch-Pagan检验能检验出任何线性形式的异方差而White检验则能够通过加入所有解释变量的平方项和交叉项来检验非线性形式的异方差检验的方法仍然是利用F统计量和LM统计量来检验xj, xj2和xjxh的联合显著性33White检验的其它形式假设OLS回归的拟合值是所有解释变量x的方程因此2是解释变量的平方项和交叉项的函数, 和2可以用作xj, xj2和xjxh的代理变量因此,用残差项对和2做回归,然后用回归结果中的R2来构造F或者LM统计量34加权的最小二乘法虽然我们能够得到OLS估计的稳健的标准差,但是如果我们知道其中异方差的具体形式,就能够得到比O

10、LS更有效的估计基本的思想是将存在异方差的模型转换成同方差的模型,这称为加权的最小二乘法35WLS 小结对WLS使用F检验时, 先从不受限制的模型得到权重,然后用这些权重分别对不受限制的模型和受限制的模型作WLS。WLS更有效,但OLS仍然是无偏和一致的。但WLS与OLS的估计由于抽样误差会不一样,但如果两者的差距很大,很有可能是假设MLR1-MLR5不成立。36代理变量如果模型设定的问题是由于某个重要的解释变量没有可用的数据,怎么办?这种情况下,避免遗漏变量偏差的一个办法是用代理变量代理变量必须是和不可观察的变量相关的,如:x3* = d0 + d3x3 + v3, 其中“*”表不可观察 现

11、在假设我们就用x3代替x3*37滞后变量如果存在遗漏变量又找不到合适的代理变量,怎么办?如果遗漏变量对从前的和现在的y都有影响,那么可能的解决办法是加入一个滞后的被解释变量,来表示遗漏变量的影响。当然,采用这种办法的前提是你认为过去的y和现在的y是有关系的。38被解释变量的测量误差定义测量误差为:e0 = y y*因此实际估计的方程为: y = b0 + b1x1 + + bkxk + u + e0什么条件下OLS会得到无偏的估计结果?当e0与xj, u不相关时估计结果是无偏的当E(e0) 0时,常数项b0的估计是有偏的虽然在以上条件下,估计是无偏的,但是估计的结果的方差比没有测量误差时要大3

12、9解释变量的测量误差定义测量误差为: e1 = x1 x1*假设 E(e1) = 0 , E(y| x1*, x1) = E(y| x1*)实际估计的方程为: y = b0 + b1x1 + (u b1e1)测量误差对估计结果的影响决定于我们所做的e1与x1的相关性假设 Cov(x1, e1) = 0OLS 的估计结果仍然是无偏的,但方差变大40解释变量的测量误差(续)假设Cov(x1*, e1) = 0 ,即所谓的经典的测量误差假设,那么Cov(x1, e1) = E(x1e1) = E(x1*e1) + E(e12) = 0 + se2X1 与测量误差相关,因此估计是有偏的41解释变量的测

13、量误差(续)注意到估计的偏差是多乘了一个Var(x1*)/Var(x1)因为Var(x1*)/Var(x1) 1, 估计的偏差的方向为趋于零的方向,该偏差称为减弱偏差多元回归的情况会更加复杂,但大致的结果仍然是经典的度量误差导致减弱偏差42时间序列与横截面时间序列数据有一个时间上的顺序,而横截面数据则没有由于我们面对不再是个人的随机样本,我们须要对原有假设做出一些更改我们的数据变成了一个随机过程的一个实现值43无偏性所需的假设仍然假设一个线性(对参数)模型: yt = b0 + b1xt1 + . . .+ bkxtk + ut 仍然假设条件均值为零: E(ut|X) = 0, t = 1,

14、2, , n注,这隐含着任何一期的扰动项与所有期的解释变量都不相关44无偏性所需的假设(续)条件均值为零的假设隐含着所有的解释变量x都是外生的(严格外生)一个与横截面中情形更一致的假设是E(ut|xt) = 0这个假设说明所有解释变量在当期都是外生变量(同期外生)同期外生性只有在大样本的情况下才足于保证模型一致。小样本的无偏性需要严格外生的假设45无偏性所需的假设(续)还需要假设没有x可以为常数,且不存在完全的线性相关注意,我们没有假设样本是随机抽取的随机抽样的主要结果是每一个ui都是独立的前面的严格外生的假设包含了每一个ui都是独立的46OLS 的无偏性根据以上三个假设条件,在使用时间序列数

15、据时, OLS估计是无偏的因此正如在横截面数据中一样,在适当的假设条件下OLS估计是无偏的遗漏变量偏差可以用与横截面相同的方法来进行分析47OLS估计的方差正如横截面的情况中,计算方差需要同方差的假设我们假设Var(ut|X) = Var(ut) = s2从而扰动项的方差独立于所有的解释变量x , 且方差为常数随时间不变我们还需要无自相关的假设: Corr(ut,us| X)=0 对于 t s48OLS估计的方差(续)在以上5个假设条件下,OLS回归的方差在时间序列与在横截面数据的情况中是相同的。此外对方差s2的估计也是相同的OLS 估计仍然是最优线性无偏估计( BLUE )如果再加上扰动项的

16、正态分布的假设,检验的方法也是相同49时间序列的趋势经济中的时间序列常有一个趋势当两个序列同时都有相同的趋势时,我们不能认为两者之间的关系就是因果关系 常有的情况是两个序列的趋势是由其它不可观察的因素引起的 虽然那些因素是不可观察的,我们应通过直接控制趋势的办法来控制这些因素50时间序列的趋势(续)一种可能性是一个线性的趋势,可以用模型表示为:yt = a0 + a1t + et, t = 1, 2, 还可能是指数型的趋势,可以用模型表示为:log(yt) = a0 + a1t + et, t = 1, 2, 或者是二次型,可以表示为:yt = a0 + a1t + a2t2 + et, t

17、= 1, 2, 51剔除趋势在回归方程中加入一个线性的趋势项就相当于用去除了趋势的数据做回归去除序列的趋势可以用模型中的每一个变量对t做回归回归的残差就是去除趋势后的序列简单的说,就是趋势在偏回归中被剔除掉了52季节性因素时间序列的数据常表现出一些周期性,称为季节性例如:零售业的季度数据往往会在第四季度跳高可以通过加入季节的虚拟变量来处理季节性因素的影响如前处理趋势一样,我们可以先剔除数据中的季节性因素后在进行回归53平稳的随机过程如果对所有的时间指标1 t1 157一个AR(1)(一阶自回归)过程一个一阶自回归过程可以表示为yt = ryt-1 + et , t = 1, 2, ,其中et为

18、独立同分布序列,且其均值为0方差为se2若该过程为弱相关过程,则一定有|r| 1 Corr(yt ,yt+h) = Cov(yt ,yt+h)/(sysy) = r1h 当h增大时逐渐减小58一致性所需要的假设参数是线性的和数据是弱相关一个较弱的条件均值为零的假设:E(ut|xt) = 0, 对任意 t。比较: E(ut|X) = 0没有完全线性相关因此,得到一致性所需要的外生性假设要弱于得到无偏性所需的相应假设59大样本下的检验较弱的同方差假设:Var (ut|xt) = s2, 对所有 t。比较:Var(ut|X) = Var(ut) = s2 较弱的序列不相关的假设:E(utus| xt

19、, xs) = 0 , t s。比较:Corr(ut,us| X)=0, t s在以上假设的基础上,我们就可以得到渐进正态分布和通常标准差,以及正确的t ,F和LM统计量60高度持久的时间序列高度持久的时间序列也叫强相关时间序列与弱相关时间序列相对应在经济学上,想知道一个时间序列是不是强相关,例如:想知道一项经济政策是否会有持久的影响61高度持久序列的变换为了用高度持久的时间序列数据来进行有意义的估计和正确的检验,我们必须首先把它转换成一个弱相关的随机过程我们称一个弱相关的过程为零阶积整 “integrated of order zero”, I(0)一个随机游走的随机过程为一阶积整“inte

20、grated of order one”, I(1), 意思是对其做一阶差分可得到 I(0)62高度持久序列的变换(续)yt = yt-1 + etyt = yt - yt-1 = et如果et是iid, yt也是iid如果et是弱相关, yt也是弱相关63序列相关与异方差序列相关(自相关):协方差不为0异方差:方差不为常数64序列相关(自相关)的影响仍然是无偏和一致的不再是最有效的但标准差的估计是有偏的不能利用t 统计量或F 统计量或LM 统计量来做检验推论65对一阶自回归 AR(1)中序列相关的检验我们希望能够检验扰动项是否序列相关即希望检验以下零假设:ut = rut-1 + et 中

21、r = 0 ,其中 t =2, n, ut 为模型的扰动项, et 服从 iid 对于严格外生的解释变量这个检验很简单:只要用残差项对其滞后项做回归,再用t检验即可66对一阶自回归 AR(1)中序列相关的检验(续)此外,我们可以用Durbin-Watson (DW) 统计量,该统计量在很多软件中都可以计算DW统计量如果DW统计量约等于2,那么我们可以拒绝序列相关的假设,但如果其显著小于2,我们就不能拒绝序列相关的假设67对一阶自回归 AR(1)中序列相关的检验(续)DW是小样本检验,即DW分布的形式为已知临界值与自变量的大小、样本的大小、自变量的数目有关,较难计算,因此不如t检验简单易行DW统

22、计量两个临界值(DL,DU),三个区域 拒绝DL不能确定 DU不能拒绝68检验高阶的序列相关我们可以用与一阶自回归AR(1)中相同的办法来检验q阶自回归过程AR(q)中的序列相关假设我们只要对残差的q阶滞后项做回归,然后检验其联合显著性即可可以用F检验或者LM检验。其中LM检验也叫做Breusch-Godfrey检验,只要用残差回归中的R2计算(n-q)R2即可还可以检验季节性形式69对序列相关的纠正我们从严格外生的解释变量的假设开始,采用除无序列相关以外的所有假设假设扰动项服从一阶自回归AR(1)过程,ut = rut-1 + et, t =2, nVar(ut) = s2e/(1-r2)我

23、们须要将方程进行变换以使扰动项没有序列相关70对序列相关的纠正(续)yt r yt-1 = (1 r)b0 + b1(xt r xt-1) + et , 其中 et = ut r ut-1 这个部分差分得到的模型中就不存在序列相关的问题可行的广义最小二乘(GLS)71异方差后果同截面数据在时间序列模型中,序列相关更重要检验同截面数据但要先检验有无序列相关,只有在无序列相关时才适用u2t = d0 + d1xt1 + dk xtk + vt, vt必须是恒方差和无序列相关72为什么要用工具变量采用工具变量(IV)估计法是由于模型中存在内生的解释变量也就是说存在:Cov(x,u) 0 因此,工具变

24、量可以用来处理遗漏变量偏差的问题此外,工具变量还可以用来处理经典的度量误差的问题73什么是工具变量做为一个正确的工具变量,其必须满足以下条件工具变量必须是外生的也就是说, Cov(z,u) = 0同时,工具变量必须和内生变量x相关即, Cov(z,x) 074关于正确的工具变量的其它问题我们必须根据常识和经济理论来判断假设,Cov(z,u) = 0,是否合理我们能够检验Cov(z,x) 0是否成立方法是检验H0: 在x = p0 + p1z + v中p1 = 0 我们常把以上回归称作第一阶段回归75简单回归中的工具变量估计法由 y = b0 + b1x + u, 和我们的假设条件有Cov(z,

25、y) = b1Cov(z,x) + Cov(z,u), 所以b1 = Cov(z,y) / Cov(z,x)那么使用工具变量法,b1的估计值为:76工具变量法中的假设检验这里同方差假设应该是:E(u2|z) = s2 = Var(u)如同在最小二乘法(OLS)的情况中一样,根据渐进方差,我们可以估计标准差:77工具变量与最小二乘法工具变量估计法中的标准差与最小二乘法中标准差的不同之处在于用x对z回归的R2 因为R2 1 ,所以工具变量估计法中的系数的标准差更大然而,在Cov(x,u) 0的情况中,工具变量法的估计是一致的,但最小二乘法的估计是不一致的 z和x之间的相关性越强,工具变量法估计的系

26、数方差就越小78多元回归中的工具变量法工具变量法也可以用到多元回归中去假设我们对估计结构式模型感兴趣我们面对的问题是一个或几个变量是内生的我们需要给每一个内生变量找一个工具变量79两阶段最小二乘法( 2SLS )模型: y1 = b0 + b1y2 + b2z1 + u1 ,其中y2 y2 = p0 + p1z1 + p2z2 + v2, 其中 p2 0假设了z2和z3都是正确的工具变量,它们不在结构式模型中且与结构式模型中的扰动项u1不相关我们可以用y2对z1, z2和z3进行回归来估计y2* ,该回归被称为第一阶段回归如果我们用2替代结构式模型中的y2 ,得到的系数的估计与工具变量法相同8

27、0内生性检验如果y2是内生的,那么v2 (简化模型(reduced form)中的)和结构模型中的u1就会是相关的根据这一点就可以检验内生性81内生性检验(续)保存第一阶段回归的残差将以上残差加入到结构式方程中去(结构式方程中当然包括y2 )如果回归发现残差的系数显著的不等于零,那么就拒绝外生性的零假设如果有几个可能存在内生性的变量,就需要检验几个相应一阶段残差在结构式中的联合显著性82联立方程模型模型联立性( Simultaneity ),它是由于解释变量和被解释变量同时决定导致的如同其它类型的内生性问题一样,联立性导致的内生性问题也可以用工具变量法来解决y1 = a1y2 + b1z1 +

28、 u1y2 = a2y1 + b2z2 + u283劳动需求方程的识别whDS (z=z1)S (z=z2)S (z=z3)84一般联立方程模型(The General SEM)假设我们想估计结构式方程:y1 = a1y2 + b1z1 + u1 其中: y2 = a2y1 + b2z2 + u2则进一步有y2 = a2(a1y2 + b1z1 + u1) + b2z2 + u2因此:(1 a2a1)y2 = a2 b1z1 + b2z2 + a2 u1 + u2, 该方程可以改写为: y2 = p1z1 + p2z2 + v285一般联立方程模型(续)把以上y2的简化式方程代入y1的结构式方程,我们可以看出y2是u1的线性方程, 即y2与扰动项相关,这就导致a1的估计有偏,我们称其为联立偏差联立偏差的方向比较复杂,但是我们可以从简单回归中总结出一些经验在简单回归中,偏差的符号和a2/(1 a2a1)相同86一般联立方程模型的识别假设z1是第一个方程中所有的外生变量, z2是第二个方程中的所有外生变量z1和z2中可以存在相同的变量要识别方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论