版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元回归分析:估计(1) Multiple Regression Analysis: Estimation(1)y = b0 + b1x1 + b2x2 + . . . bkxk + u1本章大纲n使用多元回归的动因n普通最小二乘法的操作和解释n估计量的期望值nOLS估计量的方差nOLS的有效性:高斯马尔可夫定理2课堂大纲n使用多元回归的动因 n普通最小二乘法的操作和解释n假定MLR.1 MLR.4 nOLS估计值的无偏性3动因:优点n经验研究中使用简单回归模型的主要缺陷是:它很难得到在其它条件不变的情况下,x对y的影响。n多元回归分析更适合于其它条件不变情况下的分析,因为多元回归分析允许我们
2、明确地控制其它许多也同时影响因变量的因素。n多元回归模型能容纳很多可能相关的解释变量,所以在简单回归分析可能误导的情况下,可以寄希望于多元回归模型来推断因果关系。4动因:优点n在实证工作中使用简单回归模型的主要缺陷是:要得到在其它条件不变的情况下, x对y的影响非常困难。n在其它条件不变情况假定下我们估计出的x对y的影响值是否可信依赖,完全取决于条件均值零值假设是否现实。n如果影响y的其它因素与x不相关,则改变x可以保证u不变,从而x对y的影响可以被识别出来。5动因:优点n可以解释更多的因变量变动。n它可以表现更一般的函数形式。n多元回归模型是实证分析中最广泛使用的工具。6动因:一个例子n考虑
3、一个简单版本的解释教育对小时工资影响的工资方程。 exper:在劳动力市场上的经历,用年衡量n在这个例子中,“在劳动力市场上的经历”被明确地从误差项中提出。012expwageeducerubbb7动因:一个例子n考虑一个模型:家庭消费是家庭收入的二次方程。 Cons = b0 + b1 inc+b2 inc2 +un现在,边际消费倾向可以近似为MPC= b1 +2b2 8含有k个自变量的模型n一般的多元线性回归模型可以写为01 122kkyxxxubbbb9类似于简单回归模型nb0仍是截距nb1到bk都称为斜率参数nu仍是误差项(或干扰项)n仍需作零条件期望的假设,所以现在假设 E(u|x1
4、,x2, ,xk) = 0n仍然最小化残差平方和,所以得到k+1个一阶条件10如何得到OLS估计值n普通最小二乘法选择能最小化残差平方和的估计值,2122110minniikkiiixxxybbbb11如何得到OLS估计值niikkiiixxxy1221100bbbbniikkiiiixxxyx12211010bbbbniikkiiiixxxyx12211020bbbbniikkiiiikxxxyx1221100bbbbk+1个一阶条件:12n在估计之后,我们得到OLS回归线,或称为样本回归方程(SRF)n得到OLS回归式之后,对每次观测都得到一个拟合值或预测值,对观测点i,其拟合值就是n第i
5、个观测的残差为:ikkiixxybbb.110如何得到OLS估计值ikkiiixxxybbbb22110iiiyyu13OLS拟合值和残差的性质n残差项的均值为零n每个自变量和OLS协残差之间的样本协方差为零。n点 总位于OLS回归线上。12( , )kx xxykkixxxybbbb221100 iu00iikiyuxu14对多元回归的解释n由可知n所以,保持 不变意味着: 即,每一个j都有一个偏效应(partial effect),或其他情况不变(ceteris paribus)的解释。kxx ,., 2kkxxxybbbb.2211011xybkkxxxybbb.221115例子:大学G
6、PA的决定因素n两个解释变量的回归 pcolGPA:大学成绩预测值hsGPA : 高中成绩绩 ACT :成绩测验分数(achievement test score)pcolGPA = 1.29 + 0.453hsGPA+0.0094ACTn一个解释变量的回归pcolGPA = 2.4 +0.0271ACTnACT的系数大三倍。n如果这两个回归都是对的,它们可以被认为是两个不同实验的结果。16“保持其它因素不变”的含义n多元回归分析的优势在于它使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:保持其它因素不变。17对“排除其它变量影响”的解释n考虑回归线n 的一种表达式为:n 是由以
7、下回归得出的残差:1b22110 xxyibbb1ir211111()/nniiiiir yrb12201irxx18“排除其它变量影响”(续)n上述方程意味着:将y同时对x1和x2回归得出的x1的影响与先将x1对x2回归得到残差,再将y对此残差回归得到的x1的影响相同。n 这意味着只有x1中与x2不相关的部分与y有关,所以在x2被“排除影响”之后,我们再估计x1对y的影响。19“排除其它变量影响”(一般情况)n在一个含有k个解释变量的一般模型中, 仍然可以写成 但残差 来自x1对x2 , xk的回归。n于是 度量的是,在排除x2 , xk等变量的影响之后, x1对y的影响。1b1b21111
8、1()/nniiiiir yrb1r20比较简单回归和多元回归估计值n比较简单回归模型和多元回归模型n一般来说, ,除非: 或 样本中x1和x2不相关。110 xybb22110 xxybbb 11bb 02b21比较简单回归和多元回归估计值n这是因为存在一个简单的关系n这里, 是x2对x1的简单回归得到的斜率系数。1211bbb1221212112211212112221111121111122211122110)()()()()()()()( ),()( bbbbbbbbbbbbxxxxxxxxxxxxxxxxyyxxxxxxyyuxxy由此得,所以因为23简单回归和多元回归估计值的比较1
9、1, 0,1,., 0,1,.,1.jjkjkk-jjjkjjkjkxxx ,.,xx 令为用全部解释变量回归的OLS估计量。令 为用除 外的解释变量回归的OLS估计量。令 为 向回归中 的斜率系数。那么24简单回归和多元回归估计值的比较n在k个自变量的情况下,简单回归和多元回归只有在以下条件下才能得到对x1相同的估计(1)对从x2到xk的OLS系数都为零(2) x1与x2 , xk中的每一个都不相关。25拟合优度n每一个观察值可被视为由解释部分和未解释部分构成:n定义:nSST= SSE + SSR总平方和SSTsquares of sum total 2 yyi解释平方和SSEsquare
10、s of sum explained 2yyi残差平方和 SSRsquares of sum residual2iu26拟合优度(续)我们怎样衡量我们的样本回归线拟合样本数据有多好呢?可以计算总平方和(SST)中被模型解释的部分,称此为回归R2w R2 = SSE/SST = 1 SSR/SST27拟合优度(续)我们也可以认为R2等于实际的yi与估计的 之间相关系数的平方iy 2222yyyyyyyyRiiii28更多关于R2n当回归中加入另外的解释变量时,R2通常会上升。n例外:如果这个新解释变量与原有的解释变量完全共线,那么OLS不能使用。n此代数事实成立,因为当模型加入更多回归元时,残差
11、平方和绝不会增加。29更多关于R2n考虑从一个解释变量开始,然后加入第二个。nOLS性质:最小化残差平方和。n如果OLS恰好使第二个解释变量系数取零,那么不管回归是否加入此解释变量,SSR相同。n如果OLS使此解释变量取任何非零系数,那么加入此变量之后,SSR降低了。n实际操作中,被估计系数精确取零是极其罕见的,所以,当加入一个新解释变量后,一般来说,SSR会降低。30OLS估计量的期望值n我们现在转向OLS的统计特性,而我们知道OLS是估计潜在的总体模型参数的。n统计性质是估计量在随机抽样不断重复时的性质。我们并不关心在某一特定样本中估计量如何。 31假定 MLR.1(线性于参数)n总体模型
12、可写成y= b0+ b1x1+ b2x2+ +bkxk+u其中, b1, b2 , bk 是我们所关心的未知参数(常数),而u则是无法观测的随机误差或随机干扰。n上述方程规范地表述了总体模型或真实模型。由于因变量y与自变量都可以为任意函数,所以上式是灵活多变的。32假定 MLR.2(随机抽样性)n我们有一个包含n次观测的随机样本 (xi1, xi2, xik; yi): i=1,n,它来自假定MLR。1中的总体模型。n有时我们将模型写为 yi= b0+ b1xi1+ b2xi2+ +bkxik+uin其中,i 表示观测次数,j=1,k代表第j个回归元(变量序号)33假定MLR.3 (不存在完全
13、共线性)n在样本(因而在总体)中,没有一个自变量是常数,自变量之间也不存在严格的线性关系。n如果方程中一个自变量是其它自变量的一个线性组合时,我们说此模型遇到完全共线性(perfect collinearity)问题,此时不能用OLS估计参数。34假定MLR.3 n完全共线性的例子:y= b0+ b1x1+ b2x2+ b3x3+u, x2 = 3x3y= b0+ b1log(inc)+ b2log(inc2 )+uy= b0+ b1x1+ b2x2+ b3x3+ b4x4+u,x1 +x2 +x3+ x4 =1n当y= b0+ b1x1+ b2x2+ b3x3+u , n 0Corr(x1,
14、 x2) 0偏误为正偏误为负b2 0偏误为负偏误为正50遗漏变量偏误n但是,通常我们不能观测到b2 ,而且,当一个重要变量被缺省时,主要原因也是因为该变量无法观测,换句话说,我们无法准确知道Corr(x1, x2)的符号。怎么办呢?n我们将依靠经济理论和直觉来帮助我们对相应符号做出较好的估计。51例3.6:小时工资方程n假定模型 log(wage) = b0+b1educ + b2abil +u,在估计时遗漏了abil。 b1的偏误方向如何?n因为一般来说ability对y有正的局部效应,并且ability和education years正相关,所以我们预期b1上偏。526n 20.186R
15、educwage083. 0584. 0)(log52更一般的情形n从技术上讲,要推出多元回归下缺省一个变量时各个变量的偏误方向更加困难。n注意:注意:若有一个对y有局部效应的变量被缺省,且该变量至少和一个解释变量相关,那么所有所有系数的OLS估计量都有偏。53更一般的情形n假设总体模型 满足假定MLR.1MLR.4。但我们遗漏了变量x3,并估计了模型 假设X2和X3无关, X1和X3相关。 是1的一个有偏估计量,但 是否有偏?uxxxy3322110bbbbuxxy22110bbb1b2b54更一般的情形n此时,我们通常假设X1和X2无关。n当X1和X2无关时,可以证明:niiniiixxx
16、xxE12111311311bbb55更一般的情形0112233model10112233model2011221323221(,)0,(,)0trueyxxxuyxxxyxxcorr xxcorr xxbbbbbbbbbbbbbb若。很容易想到是的一个有偏估计量。而是有偏的吗?56更一般的情形312301 122113122321213111,. 000 xxxxxxcorr(x ,x )corr(x ,x )bbb bbb bb的确。这是因为如果我们将 向 和 回归,我们有如下关系成立:当,即使,也有。因此,是 的一个有偏估计量。57OLS估计量的方差现在我们知道估计值的样本分布是以真实参
17、数为中心的。我们还想知道这一分布的分散状况。在一个新增假设下,度量这个方差就容易多了:58假定MLR.5(同方差性)(Homoskedasticity)同方差性假定:Var(u|x1, x2, xk) = s2 .意思是,不管解释变量出现怎样的组合,误差项u的条件方差都是一样的。如果这个假定不成立,我们说模型存在异方差性。59OLS估计量的方差(续)n用x表示(x1, x2,xk)n假定Var(u|x) = s2,也就意味着Var(y| x) = s2n假定MLR.1-5共同被称为高斯马尔可夫假定高斯马尔可夫假定(Gauss-Markov assumptions) 60定理 3.2(OLS斜率
18、估计量的抽样方差)n给定高斯-马尔可夫假定 222221RxxRxxSSTRSSTVarjjjijjjjj回归所得到的向所有其它是其中,sb61对定理3.2的解释n定理3.2显示:估计斜率系数的方差受到三个因素的影响:n误差项的方差n总的样本变异n解释变量之间的线性相关关系62对定理3.2的解释(1):误差项方差n更大的s2意味着更大的OLS估计量方差。n更大的s2意味着方程中的“噪音”越多。n这使得得到自变量对因变量的准确局部效应变得更加困难。n引入更多的解释变量可以减小方差。但这样做不仅不一定可能,而且也不一定总令人满意。ns2 不依赖于样本大小63对定理3.2的解释(2):总的样本变异n
19、更大的SSTj意味着更小的估计量方差,反之亦然。n其它条件不变情况下, x的样本方差越大越好。n增加样本方差的一种方法是增加样本容量。n参数方差的这一组成部分依赖于样本容量。64对定理3.2的解释(3):多重共线性n更大的Rj2意味着更大的估计量方差。n如果Rj2较大,就说明其它解释变量解释可以解释较大部分的该变量。n当Rj2非常接近1时, xj与其它解释变量高度相关,被称为多重共线性。n严重的多重共线性意味着被估计参数的方差将非常大。65对定理3.2的解释(3):多重共线性(续)n多重共线性是一个数据问题n可以通过适当的地舍弃某些变量,或收集更多数据等方法来降低。n注意:虽然某些自变量之间可
20、能高度相关,但与模型中其它参数的估计程度无关。66总结本堂课重要的几点:n高斯马尔科夫假定n模型过度设定和设定不足的后果n遗漏变量偏差是什么n被估计参数方差的三个组成部分是什么,以及它们如何影响被估计参数方差的大小。67多元回归分析:估计(3)Multiple Regression Analysis: Estimation (3)y = b0 + b1x1 + b2x2 + . . . bkxk + u68本章大纲n使用多元回归的动因n普通最小二乘法的操作和解释nOLS估计量的期望nOLS估计量的方差nOLS的有效性:高斯马尔可夫定理69课堂大纲n误设模型中偏误和方差间的替代关系n估计误差项方
21、差n高斯马尔可夫定理70误设模型中的方差n在考虑一个回归模型中是否该包括一个特定变量的决策中,偏误和方差之间的消长关系是重要的。n假定真实模型是 y = b0 + b1x1 + b2x2 +u, 我们有211211)(RSSTVarsb71误设模型中的方差n考虑误设模型是估计的方差是n 当x1和x2不相关时 否则 ,110 xybb 121SSTVarsb )(11bbVarVar )(11bbVarVar72舍弃x2的后果R12=0R120b2=0两个对b1的估计都是无偏的,方差相同两个对b1的估计量都是无偏的,舍弃x2使得方差更小b20舍弃x2导致对b1的估计量有偏,但方差和从完整模型得到
22、的估计相同舍弃x2导致对b1的估计量有偏,但其方差变小73误设模型中的方差n如果 ,一些计量经济学家建议,将因漏掉x2而导致的偏误的可能大小与方差的降低相比较以决定漏掉该变量是否重要。n现在,我们更喜欢包含x2 ,因为随着样本容量的扩大, 增加x2导致的多重共线性变得不那么重要,但舍弃x2导致的遗漏变量误偏却不一定有任何变化模式。20b74不同情形下估计量的期望和方差估计量期望估计量方差估计量期望估计量方差估计量期望估计量方差模型设定不足时模型过度设定时模型设定正确时75估计误差项方差我们希望构造一个s2 的无偏估计量如果我们知道 u,通过计算 u 2的样本平均可以构造一个s2的无偏估计量我们
23、观察不到误差项 ui ,所以我们不知道误差项方差s2。76估计误差项方差我们能观察到的是残差项i 。我们可以用残差项构造一个误差项方差的估计n df = n (k + 1), or df = n k 1n df (自由度,degrees of freedom)df=观察点个数被估参数个数dfSSRknui122s77估计误差项方差n上式中除以n-k-1是因为残差平方和的期望值是(n-k-1)s2. n为什么自由度是n-k-1 n因为推导OLS估计时,加入了k+1个限制条件。也就是说,给定n-k-1个残差,剩余的k+1个残差是知道的,因此自由度是n-k-1 。78n定理3.3( s2的无偏估计)在高斯马尔可夫假定 MLR.1-5下,我们有n定义术语: s2 正的平方根称为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 关于诚信的主题班会主持词
- 六级辅导专题-六级考试之简介
- 江苏省靖江市名校2025届高三12月阶段质量检测语文试卷及参考答案
- 《盘点程序说明会》课件
- 黄金卷05-【赢在中考·黄金8卷】备战2023年中考生物全真模拟卷(全国2024)(原卷版)
- 房屋安全管理
- 仓库人员管理
- 金融行业博士分析师聘用合同
- 旅游小镇照明规划
- 办公空间通风系统安装合同
- 年产1w吨生物柴油工厂设计-毕业(论文)设计
- 谈谈青年大学生在中国式现代化征程上的使命与担当范文(6篇)
- 产前筛查、诊断及新生儿疾病筛查
- 小学《科学》期末测评方案
- 友邦保险“愈从容”重疾专案管理服务手册(完整版)
- 2023年消防接警员岗位理论知识考试参考题库(浓缩500题)
- 玻化微珠无机保温板外墙施工方案
- GB/T 7702.20-2008煤质颗粒活性炭试验方法孔容积和比表面积的测定
- GB/T 2565-2014煤的可磨性指数测定方法哈德格罗夫法
- GB/T 18367-2001公路收费方式
- 新疆生产建设兵团2022-2023学年数学七上期末质量检测试题含解析
评论
0/150
提交评论