计量经济学6多元线性回归_第1页
计量经济学6多元线性回归_第2页
计量经济学6多元线性回归_第3页
计量经济学6多元线性回归_第4页
计量经济学6多元线性回归_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、56 Chapter6IntroductiontoMultipleRegression多元线性回归rnmichirtiontnEcotiotiietriesLSlockXluik.IVuisr*ii问题的提出在加利佛尼亚数据集中,尽管较低学生/教师比的学区往往具有较高的测试成绩,但小班学区的学生在标准测试中取得好成绩可能源于其他因素。是因为没有考虑到其他因素才得出令人误解的结论吗?如果是这样的话,该怎么办?56 #56 #主要内容遗漏变量偏差因果效应和回归分析多元回归的OLS估计量多元回归的拟合优度多元回归中OLS估计量的分布多重共线性corstrel_pct(obs=420)|strel_p

2、ct+str|1.0000el_pct|0.18761.0000如果学生/教师比与英语学习者百分率之间的相关系数为0,则忽略测试成绩对学生/教师比回归中忽略英语的熟练程度是“安全”的。然而,学生/教师比与英语学习者百分率之间的相关系数为0.19,表明英语学习者越多,则学生/教师比越高,即班级规模越大。意味着,测试成绩对学生/教师比回归的系数中可能包含了这一影响。56 #56 遗漏变量对OLS估计量的影响如果对Y有影响的因素没有被加入到回归模型中去,这时误差u会增加。没有放入在模型中的变量就是所谓的遗漏变量。遗漏变量的影响是不可忽视的,它会致使OLS估计量有偏。例如,在加利佛尼亚数据的分析中,影

3、响学生测试成绩的因素可能包括学校特征、学生特征等。遗漏变量要满足的条件回归中存在遗漏变量会导致遗漏变量偏差问题。假设Z为遗漏变量,要同时满足以下条件:遗漏变量是因变量的一个决定因素(i.e.Zispartofu)。遗漏变量与回归中的回归变量相关(i.e.corr(Z,X)工0)。1112 测试时间测试时间会影响测试成绩;测试时间与班级规模无关。教师停车场面积教师停车场面积与测试成绩无关;教师停车场面积与班级规模有关。遗漏英语学习者百分率(Z)是否存在遗漏变量偏差?在关于测试成绩的例子中:英语语言能力是否影响测试成绩?对移民家庭而言,英语是学生的第二语言,这从经验上看对学生测试成绩是有影响的,即

4、Z是Y的一个影响因素。移民家庭较多的社区往往并不是十分富裕,这导致这些2.学区的教育预算较少,也就是说这些学校的STR较高,即Z与STR相关。所以遗漏英语学习者百分率存在遗漏变量偏差。1112 #1112 遗漏变量偏差与第一个最小二乘假设遗漏变量偏差意味着第一个最小二乘假设E(ulx)=0不成立。ii一元线性回归中的误差项u表示除X外所有决定Y的因素。iii若其中某个因素与X相关,则误差项与X相关。ii因此,给定X时,u的均值不为零。ii这一相关性违反了最小二乘的第一个假设,造成了严重的后果,即OLS估计量是有偏的,这个偏差即使在大样本下也不会消失,因此OLS估计量是非一致的。遗漏变量偏差公式

5、由(4.30),工(X-X)u0厂Pi=(XX)2ii=1其中v.=(兀-X)ui沁(Xi-X)ui则1区vni如果满足OLS第一个假设,E(X.-UX)uJ=cov(X.,u.)=0.但是如果假设一不满足,贝fE(X厂也=COV(Xi,Ui)=.H010遗漏变量偏差公式回顾假设1:丄瓦(XX)”P1-P1=存r乙(X-X)2i遗漏变量偏差公式p142P与P1+11oJXuX如果Z同时满足以下条件:ni=1Z是Y的影响因素之一;Z与X相关。,马冬”分子分母同时:乘以PX”,则PXu工0,OLS估计量0是有偏和非一致的。(1)若存在遗漏变量,无论样本容量多大,遗漏变量偏差都会存在;(2)这一偏差

6、的大小取决于回归变量与误差项之间相关系数大小;pX越大,则偏差越大。其中PXu=corr(X,u).如果假设1成立的话,则PXu=0,但是,如果假设1不成立:则(3)偏差的方向取决于X和u是正相关还是负相关。1718 遗漏误差偏差的方向?TJULEt.1DAvrwmmIniESconEhfraQJJiikiSckodi立khvriiiLc*crvAFfigk虫adEK*lmk.4#rhe-tfcewgirftngMLwmEHihkl0存在一个向下的偏差。如果小于0kibar*i*lUJHAN-ifrnthlivaKl.4UCHvnmli|hnincf*:.Kh.MJji-ilUiiMMillF

7、MtTu44INfwXnt1*1haitlrflwnlahat4h4.*dhE英语学习者比例较少的学区平均意义上测试成交较高。英语学习者比例较低的学区班级规模较小。英语学习者比例接近的学区,班级规模对测试成绩影响较小。比较下,不对英语学习者比例分组,班级规模总体上对测试成绩的影响的差异为7.4分。这如何解释?1718 #英语学习者比例最多的学区具有比其他学区更低的测试成绩和更高的学生/教师比。1718 #1718 #13141718 #1718 #莫扎特效应1993年,加利福尼亚大学欧文分校的戈登肖教授进行了一项实验。他们让大学生在听完莫扎特的双钢琴奏鸣曲后马上进行空间推理的测验,结果发现大学

8、生们的空间推理能力发生了明显的提高。他们将这种现象称作莫扎特效应。解决遗漏变量偏差的办法进行随机对照试验(原理?)数据分组处理遗漏变量偏差(原理?)进行多元回归(原理?)1718 #1718 #1615多元回归模型1718 #1718 假设只有两个自变量X和X:12Yi=00+01X1i+02X2i+:i,:=JY是因变量;,X2是回归变量或控制变量。00为截距01表示在保持X2不变或控制X2时,X变化1个单位对Y的效应。02表示在保持X不变或控制X时,X2变化1个单位对Y的效应。:为误差项。i/两个回归变量的总体多元回归模型Yi=00+P1X1i+02X2i+:i=n控制X2不变,X1变化A

9、X变化前总体回归线为:Y=00+01X1+02X2总体回归线变化后的总体回归线为:Y+AY=00+01(X1+AX1)+02X21718 #2930 #2324 Y=Po+Pi(X1+AX1)+P2X2Y+AY=P0+P1(X1+AX)+P2X2AY=P1AX1P.=,控制x2不变AX21AYP2=,控制X1不变AX1Po=当X.=X2=0时的预测值19多元回归的OLS估计量对于2个回归变量minbX)2bo,b.,b2i01li22i2i=lOLS估计量使得观测Yj和预测值之间的误差平方和最小。202930 #2324 #2930 #2324 #例:加利佛尼亚数据集TestScore对STR

10、回归:TnstScore=698.9一2.28xSTR在回归中增加英语学习者比例(PctEL):TestScore=686.0一1.10 xSTR-0.65PctELSTR的系数如何发生变化为什么?(注意:corr(STR,PctEL)=0.19)21MultipleregressioninSTATA.regtestscrstrel_pct,rLinearregressionNumberofobs=420F(2,417)=223.82ProbF=0.0000R-squared=0.4264RootMSE=14.464|testscr|Coef.RobustStd.Err.tP|t|95%Con

11、f.Intervalstr|-1.101296.4328472-2.540.011-1.95213-.2504616elpct|-.6497768.0310318-20.940.000-.710775-.5887786_cons|686.03228.72822478.600.000668.8754703.189testscr=686.0-1.10STR-0.65PctEL222930 #2324 #2930 2324 #回归标准误和均方根误差对于Yi=卩0+卩1Xii+P2X2iPkXki+u,,j=1,,回归标准误和均方根误差度量了Y的分布在回归线周围的分散程度。SER=:n-:-1另U2i

12、=1i=1除数n-k-1调整了估计k+1个系数引起的向下的偏差。当n较大时,自由度调整的效用可忽略。多元回归的R2回归为可由回归变量解释(或预测)的样本方差的比例。等价地,R2等于1减去不能由回归变量解释的号的比例。TOC o 1-5 h zESSSSRR2=1-,TSSTSS其中:解释平方和ESS=为(Y-Y)2,残差平方和SSR=艺U,总平iii=1i=1方和TSS=为(Y一Y)2.i在多元回归中,除非增加的回归变量系数估计值恰好为零,否则只要增加新的回归变量个数,R2就会增大。实际中,系数估计值恰好为零是极为不常见的。调整斤2(即尿)TOC o 1-5 h z由于增加新变量后R2会增大,

13、因此R2增加并不意味着增加一个变量实际上提高了模型的拟合程度。在此意义下,R2夸大地估计了回归拟合数据的效果。_调整R2是R2的一种修正形式,即增加新的回归变量后R2不一定增大,其表达式为:调整R2:R2=1-(=1-先(n-k-1丿TSSs2Y注意R2=1-P丿SSR=1-甞(n-k-1丿TSSS2Yr2总是小于R2。增加一个回归变量对R2有两种相反的作用。一方面,SSR降低使R2增大;另一方面,因子(n-l)/(n-k-1)会增大。所以R2是增大还是减小取决于这两种作用的强弱。R2可能为负。当所有的回归变量减少的残差平方和太小以至于无法抵消因子(n-1)/(n-k1)时R2为负。2930

14、#2324 #2930 #2324 #26用、STATA做多元回归举例regtestscrstrel_pctSource|SSdfMSNumberofobs=420+-F(2,417)=155.01Model|64864.3011232432.1506ProbF=0.0000Residual|87245.2925417209.221325R-squared=0.4264+-AdjR-squared=0.4237Total|152109.594419363.030056RootMSE=14.464testscr|Coef.Std.Err.tP|t|95%Conf.Intervalstr|-1.1

15、01296.3802783-2.900.004-1.848797-.3537945elpct|-.6497768.0393425-16.520.000-.7271112-.5724423_cons|686.03227.41131292.570.000671.4641700.6004testscr=686.0-1.10STR-0.65PctEL272825加州数据集回归拟合优度比较nScore=698.92.28xSTR,R2=.05,SER=18.6TestScore=686.0-1.10 xSTR-0.65PctEL,R2=.426,R2=.424,SER=14.5如何解释式(1)和式(2)

16、拟合优度发生的变化?为何式(2)中R2和R2如此接近?2930 #2324 #2930 #2324 #多元回归的最小二乘假设Yi=卩0+卩lXli+卩2X2i+卩kXki+Ui,=给定X,X,X时,u的条件分布均值为零。1i2ikii(X,X,X,Y),i=1i2ikii厶2,n,iid.不太可能出现大异常值。不存在完全多重共线性。假设1:给定X,X,X时,u的条件分布均值为零。1i2ikiiE(ulX=X,,Xk=xj=0该假设将一元回归的第一个最小二乘假设推广到多元回归场合。.存在遗漏变量偏差时,假设1不成立。解决的方法是将对应的遗漏变量添加为回归变量。4142 #3536 假设2:(X“

17、,.,Xki,Yi),i=1,.,i.i.d.如果数据是通过简单随机抽样收集的,则该假设自然成立。假设3:不太可能出现大异常值(非零有限四阶距)。同一元回归情况,多元回归模型中系数的OLS估计量对大异常值敏感。假设4:不能存在完全多重共线性若其中一个回归变量是其他回归变量的完全线性函数,则称回归变量间是完全多重共线性的,也称存在完全多重共线性。.例:假设做测试成绩对STR,STR回归,显示结果如下regresstestscrstrstr,robustRegressionwithrobuststandarderrorsNumberofobs=420F(1,418)=19.26ProbF=0.00

18、00R-squared=0.0512RootMSE=18.5814142 #3536 #4142 #3536 #31|testscr|Coef.RobustStd.Err.tP|t|95%Conf.Intervalstr|-2.279808.5194892-4.390.000-3.300945-1.258671str|(dropped)cons|698.93310.3643667.440.000678.5602719.305732如何解释多元回归中出现完全多重共线性时的不合理情况?在上述回归中,卩1是控制其他回归变量不变时STR变化一个单位致使测试成绩产生的变化,然而,这里的其他回归变量同时又

19、是STR本身,这将导致矛盾的结果。多元回归中OLS估计量的分布满足四个最小二乘假设条件下:R是卩J无偏一致估计量。大样本下,:賈近似服从N(0,1)(CLT)1上述结论对于0也成立。2k33344142 3536 #4142 3536 #完全多重共线性举例两个回归变量相同:如测试成绩对两个STR进行回归对常数项回归:如“不是非常小的班级”(p156)。虚拟变量陷阱:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的

20、问题,称为“虚拟变量陷阱”。虚拟变量陷阱解决办法解决虚拟变量陷阱的常用办法是吧其中一个二元变量剔除出多元回归,因此G个二元变量中只有G-1个是回归变量。注意:在这种情况下,相对于剔除的基础类而言,包含在内的二元变量系数表示固定其他回归变量情形下落在该类中的增加效应。不完全多重共线性不完全多重共线性与完全多重共线性截然不同。不完全多重共线性意味着两个或多个回归变量之间是高度相关的,是回归变量的某种线性组合与其他回归变量高度相关的意思。不完全多重共线性对OLS估计量的理论不构成任何问题。若回归变量间存在着不完全多重共线性,则至少无法精确估计其中一个回归变量的系数。例如:Testscore对STR和

21、PctEL的回归中,加入第三个回归变量,该变量为第一代移民的学区居民百分率。PctEL与移民百分率高度相关。37不完全多重共线性对OLS估计量方差的影响:附录62假设回归中只包含两个回归变量,且误差同方差,u的条件方差可以表示为var(u|X,X)=g2。ii1i2iu大样本下0的抽样分布为N(0,g2),其中g2为:A111-P2X1,Xi表示两个回归变量X和X的总体相关系数,12g2ug2X11g2=0,n其中P6.1&X2g2表示X的总体方差。X,1384142 #3536 #4142 #3536 #习题2(p160)第6章习题14142 #3536 #4142 #3536 #1计算每个

22、回归的R2根据6.15)式,R2=1-n-1(1-R2)n一k一1对于第一次回归,n=4000,k=2R2=1-400014000-2-1(1-0.176)=0.1756对于第二次回归,n=4000,k=3R2=1-4000一1(1-0.190)=0.18944000-3-1对于第三次回归,n=4000,k=6R2=1-4000一1(1-0.194)=0.19284000-6-12利用表6.2列(2)中的回归结果回答:(1)大学毕业的工人平均比高中毕业的工人挣得多么?多多少?(2)男性平均比女性挣得多么?多多少?(1)大学毕业的工人平均比高中毕业的工人多挣5.46美元/小时。(2)男性平均比女

23、性多挣2.64美元/小时。39404142 3536 #4142 #3536 #习题3(p160)3利用表6.2列(2)中的回归结果回答:(1)年龄是收入的重要决定因素么?(2)Sally是29岁的女性大学毕业生。Betsy是34岁的女性大学毕业生。分别预测Sally和Betsy的收入。(1)平均而言,年龄每增加1年,工人收入增加0.29美元/小时。(2)预计Sally的收入为4.40+5.48x1-2.62x1+0.29x29=15.67美元预计Betsy的收入为4.40+5.48x1-2.62x1+0.29x34=17.12美元4利用表6.2列(3)中的回归结果回答:(1)地区间的平均收入

24、看起来存在重大差距么?(2)为什么在回归中省略了回归变量West?如果加上它会如何?(3)Juantia是来自南部的28岁女性大学毕业生。Jennifer是来自中西部的28岁女性大学毕业生。计算Juantia和Jennifer收入之间的期望差距。控制回归中其他变量不变,平均而言,北部地区工人比西部地区工人每小时多挣0.69美元。控制回归中其他变量不变,平均而言,中部地区工人比西部地区工人每小时多挣0.60美元。控制回归中其他变量不变,平均而言,南部地区工人比西部地区工人每小时少挣0.27美元。47 3536 #4利用表6.2列(3)中的回归结果回答:(1)地区间的平均收入看起来存在重大差距么?(2)为什么在回归中省略了回归变量West?如果加上它会如何?(3)Juantia是来自南部的28岁女性大学毕业生。Jennifer是来自中西部的28岁女性大学毕业生。计算Juantia和Jennifer收入之间的期望差距。(2)在回归中省略了回归变量West,目的是为了避免产生完

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论