版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、InlrndlitrEioti tnEconomelrics问题的提出1Chapter 6Introduction toMultiple Regression多元线性回归主要内容1. 遗漏变量偏差2. 因果效应和回归分析3. 多元回归的OLS估计量4. 多元回归的拟合优度5. 多元回归中OLS估计量的分布6. 多重共线性?在加利佛尼亚数据集中,尽管较低学生 /教师比 的学区往往具有较高的测试成绩,但小班学区 的学生在标准测试中取得好成绩可能源于其他 因素。是因为没有考虑到其他因素才得出令人 误解的结论吗?如果是这样的话,该怎么办?siriir 11 Sri irkMili k V,? cor
2、str el_pct? (obs=420)?| strel_pct? +str | 1.0000el_pct | 0.1876 1.0000如果学生/教师比与英语学习者百分率之间的相关系数为0,则忽略测试成绩对学生/教师比回归中忽略英语的熟练程度是安全”的。然而,学生/教师比与英语学习者百分率之间的相关系数为0.19,表明英语学习者越多,则学生 /教师比越高,即班级规 模越大。意味着,测试成绩对学生 /教师比回归的系数中可能 包含了这一影响。#遗漏变量对OLS估计量的影响如果对Y有影响的因素没有被加入到回归模型中去,这时误 差u会增加。没有放入在模型中的变量就是所谓的遗漏变 量。遗漏变量的影响
3、是不可忽视的,它会致使 OLS估计量有 偏。例如,在加利佛尼亚数据的分析中,影响学生测试成绩 的因素可能包括学校特征、学生特征等。遗漏变量要满足的条件回归中存在遗漏变量会导致遗漏变量偏差问题。假设Z为遗漏变量,要 同时满足以下条件:1. 遗漏变量是因变量的一个决定因素(i.e. Z is part of u)。遗漏变量与回归中的回归变量相关(i.e. corr( Z,X) =0)。2?测试时间?测试时间会影响测试成绩;?测试时间与班级规模无关。?教师停车场面积?教师停车场面积与测试成绩无关;?教师停车场面积与班级规模有关。遗漏英语学习者百分率(Z)是否存在遗漏变量偏 差?在关于测试成绩的例子中
4、:1.英语语言能力是否影响测试成绩?对移民家庭而言,英 语是学生的第二语言,这从经验上看对学生测试成绩是 有影响的,即Z是Y的一个影响因素。2移民家庭较多的社区往往并不是十分富裕,这导致这些 学区的教育预算较少,也就是说这些学校的STR较高,即Z与STR相关。所以遗漏英语学习者百分率存在遗漏 变量偏差。73#?n-1? 2?SX? n ?如果满足OLS第一个假设,遗漏变量偏差与第一个最小二乘假设遗漏变量偏差意味着第一个最小二乘假设E(u Xi)= 0不成立。一元线性回归中的误差项 u表示除Xj外所有决定Y的因素。 若其中某个因素与Xi相关,则误差项与Xi相关。因此,给定Xi时,Ui的均值不为零
5、。这一相关性违反了最小二乘的第一个假设,造成了严重的后果, 即OLS估计量是有偏的,这个偏差即使在大样本下也不会消失, 因此OLS估计量是非一致的。遗漏变量偏差公式由( 4.30),nE(Xi- X)Ui? 1 二 -n= 2月 Xi - X) i=1其中 v = (Xi -X)Ui =(Xi -収)Ui.则E(Xi -p)ui = cov(Xi,Ui) = 0.但是如果假设一不满足,则#E(Xi - M)Ui = COV(Xi,Ui) = oXu 丰 0#10遗漏变量偏差公式遗漏变量偏差公式p142#分子分母同时乘以6 +? ? PXU? F= 0.0000R-squared= 0.4264
6、Root MSE= 14.464?1Robust?testscr |Coef. Std. Err. t P|t|95% Conf. Interval?+?str |-1.101296.4328472 -2.540.011-1.95213 -.2504616?el_pct |-.6497768.0310318 -20.940.000-.710775 -.5887786?_cons |686.0322&728224 78.600.000668.8754703.189?testscr =686.0-10STR -0.65PctEL#SER =ni=1回归标准误和均方根误差对于 Yi = % + %X
7、1i + %X2i %Xki + Ui, i = 1, -n,回归标准误和均方根误差度量了Y的分布在回归线周围的分散程度。RMSE =除数n-k-1调整了估计k+1个系数引起的向下的偏差。当n较大时,自由度调整的效用可忽略。多元回归的R2回归R2为可由回归变量解释(或预测)的 丫样本方差的比例。等价地,R2等于1减去不能由回归变量解释的 丫的比例。2 ESSSSRR2 =1-,TSSTSSnn其中:解释平方和ESS= W_Y)2,残差平方和SSR=寸,总平 i=1i=1n方和 TSS = 2JY_ Y)2.i=1?在多元回归中,除非增加的回归变量系数估计值恰好为零,否则只要增加新的回归变量个数
8、,R2就会增大。?实际中,系数估计值恰好为零是极为不常见的。调整R2 (即R2)由于增加新变量后 R2会增大,因此 R2增加并不意味着增加 一个变量实际上提高了模型的拟合程度。在此意义下,R2夸大地估计了回归拟合数据的效果。调整R2是R2的一种修正形式,即增加新的回归变量后R2不一定增大,其表达式为:调整 R2: R2 = 1-? n-1 ?SSR?n - k - 1?TSS注意R21-?上丄冒=1-三?n- k- 1?TSS 可(1) R2总是小于R2(2) 增加一个回归变量对 R2有两种相反的作用。一方面,SSR降低使R2增大;另一方面,因子 (n- 1)/(n- k- 1) 会增大。所以
9、R2是增大还是减小取决于这两种作用的强弱。R2可能为负。当所有的回归变量减少的残差平方和 太小以至于无法抵消因子 (n-1)/(n- k-1)时r2为负。9#25用STATA做多元回归举例加州数据集回归拟合优度比较#?reg testscrstr el_pct?Source |SSdfMSNumber of obs=420?F( 2, 417)=155.01?Model |64864.3011232432.1506Prob F=0.0000?Residual | |t|95% Conf. Interval? +?str|-1.101296 .3802783-2.900.004 -1.84879
10、7 -.3537945?el_pct|-.6497768 .0393425-16.520.000 -.7271112 -.5724423?_cons | 686.0322 7.41131292.57 0.000671.4641700.6004? testscr = 686.0-10STR -0.65PctEL(1) TestScore= 698.9- 2.2STR2R = .05, SER= 18.6(2) TestScore= 686.0- 1 F = 0.0000R-squared = 0.0512Root MSE = 18.58110#31|Robusttestscr | Coef. S
11、td. Err. t P|t|95% Conf. Interval+str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671str | (dropped)_cons | 698.933 10.36436 67.44 0.000678.5602 719.3057 32如何解释多元回归中出现完全多重共线性时的不合理情况??在上述回归中,B是控制其他回归变量不变时STR变化一个单位致使测试成绩产生的变化,然而,这里的其他回归 变量同时又是 STR本身,这将导致矛盾的结果。多元回归中OLS估计量的分布满足四个最小二乘假设条件下:? ?是B无偏一致
12、估计量。?大样本下 E(j)近似服从N(0,1) (CLT)Jvar( ?)?上述结论对于 ?,也成立。3334#11完全多重共线性举例?两个回归变量相同:如测试成绩对两个STR进行回归。?对常数项回归:如不是非常小的班级(p156)o?虚拟变量陷阱:根据虚拟变量的设置原则,一般情况下,如果定性变量有 m个类别,则需在模型中引入m-1个变量。如果引入了 m个变量,就会导致模型解释变量 出现完全的共线性问题,从而导致模型无法估计。这种 由于引入虚拟变量个数与类别个数相等导致的模型无法 估计的问题,称为“虚拟变量陷阱”。虚拟变量陷阱解决办法解决虚拟变量陷阱的常用办法是吧其中一个二元变量剔 除出多元
13、回归,因此G个二元变量中只有G-1个是回归变 量。注意:在这种情况下,相对于剔除的基础类而言,包含 在内的二元变量系数表示固定其他回归变量情形下落在该类 中的增加效应。#6.1XX2的总体相关系数,不完全多重共线性不完全多重共线性与完全多重共线性截然不同。不完全多重共线性意味着两个或多个回归变量之间是高度相 关的,是回归变量的某种线性组合与其他回归变量高度相关 的意思。不完全多重共线性对OLS估计量的理论不构成任何问题。 若回归变量间存在着不完全多重共线性,则至少无法精确估 计其中一个回归变量的系数。例如:Testscore对STR和PctEL的回归中,加入第三个回归 变量,该变量为第一代移民
14、的学区居民百分率。PctEL与移民百分率高度相关。37不完全多重共线性对OLS估计量方差的影响:附录6.2假设回归中只包含两个回归变量,且误差同方差,Ui的条件方差可以表示为var( u?X1i, X2i )=器大样本下的抽样分布为N(,/?),其中髭为:? ? 2 / = 1 ?1? bun ?1- pX1,Xi ? bX1其中pX,X2表示两个回归变量 嬴表示X的总体方差。3812#第6章习题1习题 2 ( p160 )#? 1计算每个回归的R根据 6.15 )式,R2 =1- n 1 (1- R2)n - k - 1对于第一次回归,n= 4000,k=24000- 14000 - 2-
15、1(1- 0.176)=0.1756对于第二次回归,n=4000, k=324000 - 1R = 1(1- 0.190) = 0.18944000 - 3- V对于第三次回归,n=4000, k=6-24000 - 1R = 1(1 - 0.194) = 0.19284000- 6-1、? 2利用表6.2列(2)中的回归结果回答:(1) 大学毕业的工人平均比高中毕业的工人挣 得多么?多多少?(2) 男性平均比女性挣得多么?多多少?? (1)大学毕业的工人平均比高中毕业的工人多 挣5.46美元/小时。? (2)男性平均比女性多挣2.64美元/小时。3940#习题 3 ( p160 )? 3利用
16、表6.2列(2)中的回归结果回答:(1) 年龄是收入的重要决定因素么?(2) Sally是29岁的女性大学毕业生。 Betsy是34岁 的女性大学毕业生。分别预测 Sally和Bets y的收入。?(1 )平均而言,年龄每增加1年,工人收入增加0.29美元/小时。?(2)预计Sally的收入为4.40 + 5.48 X1- 2.62 X1 + 0.29 X29 = 15.67美元?预计Betsy的收入为4.40+5.48 X1 - 2.62 X + 0.29 X34= 17.12美元4利用表6.2列(3)中的回归结果回答:(1) 地区间的平均收入看起来存在重大差距么?(2) 为什么在回归中省略
17、了回归变量West ?如果加 上它会如何?(3) Juantia是来自南部的28岁女性大学毕业生。 Jennifer是来自中西部的28岁女性大学毕业生。计算 Juantia和Jennifer收入之间的期望差距。? (1)?控制回归中其他变量不变,平均而言,北部地区工人比西 部地区工人每小时多挣0.69美元。?控制回归中其他变量不变,平均而言,中部地区工人比西 部地区工人每小时多挣0.60美元。?控制回归中其他变量不变,平均而言,南部地区工人比西 部地区工人每小时少挣0.27美元。4利用表6.2列(3)中的回归结果回答:(1)地区间的平均收入看起来存在重大差距么?(2) 为什么在回归中省略了回归
18、变量West ?如果加 上它会如何?(3)Juantia是来自南部的28岁女性大学毕业生。 Jennifer是来自中西部的28岁女性大学毕业生。计算Juantia和Jennifer收入之间的期望差距。?( 2)?在回归中省略了回归变量 West,目的是为了避 免产生完全多重共线性。?在完全多重共线性条件下,普通最小二乘法估 计的参数值不能确定,并且估计值的方差为无 穷大。434利用表6.2列(3)中的回归结果回答:(1 )地区间的平均收入看起来存在重大差距么?(2)为什么在回归中省略了回归变量 West ?如果 加上它会如何?(3)Juantia是来自南部的28岁女性大学毕业生。 Jennifer是来自中西部的28岁女性大学毕业生。计 算Juantia和Jennifer收入之间的期望差距。?(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44801-2024系统级封装(SiP)术语
- 福建省2024八年级数学上册第12章整式的乘除12.5因式分解第2课时公式法-平方差公式课件新版华东师大版
- 酒店人力资源管理培训
- 消防安全应急演练宣贯会
- 肝衰竭的诊断与治疗
- 初中生物教案说课稿
- 猜猜我是谁游戏教案反思
- 班会教案反思
- 智慧门店解决方案
- 骨骼健康的保养方法
- 企业旗杆维修合同范例
- 《市场营销》教案全套 蒋世军(第1-12周)认识市场营销 -数字营销与直播电商
- 体育学概论学习通超星期末考试答案章节答案2024年
- 2025届河南省信阳第一高级中学高二物理第一学期期末综合测试模拟试题含解析
- 排洪渠道清淤施工方案
- 北科大岩石力学-李长洪1.2-岩石的力学性质
- 国开(河北)2024年秋《现代产权法律制度专题》形考作业1-4答案
- 2024-2030年度假酒店项目融资商业计划书
- 新商科“专业-产业双链融通式”人才培养模式探究
- 2024年重庆新版劳动合同范本
- 公务员2018年国考《申论》真题卷及答案(副省级)
评论
0/150
提交评论