多元回归分析:估计问题1.ppt_第1页
多元回归分析:估计问题1.ppt_第2页
多元回归分析:估计问题1.ppt_第3页
多元回归分析:估计问题1.ppt_第4页
多元回归分析:估计问题1.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,理解多元线性回归模型的表示,掌握多元线性回归模型的参数估计。,第七章 多元回归分析:估计问题, 学习目的,对多元回归方程的解释,偏回归系数的含义与估计,多元判定系数R2与复相关系数R,从多元回归的角度看简单回归,R2及校正R2,多项式回归模型,第七章 多元回归分析:估计问题,第一节 对多元回归方程的解释,一、三变量模型:符号与假定,将双变量的总体回归模型推广,便可写出三变量PRF为: (7.1.1),其中Y是因变量,X2 和X3 是解释变量,u 是随机干扰项,而 i 指第i次观测。当数据为时间序列时,下标t将用来指第i次观测。 在上述方程中1 是截距项,它代表X2 和X3 均为零时Y的均值,如通常所说,它给出了所有未包含到模型中来的变量对Y的平均影响。系数2 和3 称为偏回归系数(partial regression coefficients)。,二、多元线性回归模型的基本假设,(1)ui 有零均值,或: (7.1.2),(2)无序列相关,或: (7.1.3),(3)同方差性,或: (7.1.4),(4)ui与每一X变量之间都有零协方差,或: (7.1.5),(5)无设定偏误,或:模型被正确地设定 (7.1.6),(6)X诸变量间无精确的共线性,或: X2 和X3 之间无精确的线性关系 (7.1.7),假设(7.1.6)中 X2 和X3之间无精确的线性关系,称为无共线性(no collinearity)或无多重共线性(no multicollinearity)。,无共线性,不存在一组不全为零的数 和 使得:,如果这一关系式存在,则说X2 和X3 是共线的或线性相关。 如果仅当 时成立,则说X2 和X3 线性独立。,无多重共线性,(7.1.8),假设(7.1.1)中的Y、 X2 和X3 分别代表消费支出、收入和财富,经济理论设想收入和财富对消费各有独立影响。 若收入和财富之间有线性关系,则无从区分各自的影响了。 令 ,则(7.1.1)变成:,给出的是X2 和X3 对Y的联合影响。没有办法分别估计X2 的单独影响和X3 的单独影响。,三、对多元回归方程的解释,给定经典回归模型的诸假定,那么,在(7.1.1)的两边对Y求条件期望得: (7.2.1) 该式给出以变量X2 和X3 的固定值的条件的Y的条件均值或期望值。 因此,如同双变量情形那样,多元回归分析是以多个解释变量的固定值为条件的回归分析,并且我们所获取的,是给定回归元值时Y的平均值或Y的平均响应。,第二节 偏回归系数的含义与估计,前面指出,系数2 和3 称为偏回归(partial regression)系数。 其含义如下: 2 度量着在X3 保持不变的情况下,X2 每变化一单位,Y的均值E(Y| X2 ,X3 )的变化。 换句话说, 2 给出保持X3 不变时E(Y| X2 ,X3 )对X2 的斜率。,一、偏回归系数的含义,什么是 偏回归系数?,1,二、偏回归系数的OLS估计,1. OLS估计量,与(7.1.1)的 PRF相对应的样本回归函数如下: OLS方法 是要选择未知参数的值,使残差平方和RSS尽可能小,即:,将该式对三个未知数求偏导数,并令其为零,解得:,由上述正规方程组可以得到1、2 和3 的OLS估计量: 小写字母表示对样本均值离差的惯例。,2.OLS估计量的方差和标准误,我们计算标准误有两个目的:建立置信区间和检验统计假设。,在上述公式中2 是总体干扰项 ui的方差。,可以证实, 2 的一个无偏估计量是: 现在的自由度是(n-3),这是因为在估计 之前,我们必须先估计1 ,2 和3 ,从而消耗了3个自由度。 一旦算出残差ui ,就能从该式算出估计量2 。,2019/7/29,2019/7/29,3. OLS估计量的性质,多元回归模型的OLS估计量和双变量模型的OLS有着平行的性质。 (1)三变量回归线(面)通过均值 这个性质可以推广到一般情形,在k变量线性回归模型(一个回归子和(k-1)个回归元)中: 我们有: (2)估计的Yi的均值等于真实Yi的均值。,两边对所有样本值求和并除以样本大小n,由于 即得:,(3) 由于 ,两边对样本值求和可得。 (4)残差 与 和 都不相关,即 (5)残差 与 不相关,即 。 两边同时乘以 ,然后对样本值求和。 (6)在7.1节的经典线性模型的假定下,可以证明偏回归系数的OLS估计量不仅是线性和无偏的,而且在所有线性无偏估计量类中有最小方差。简言之,它们是BLUE。或它们满足高斯-马尔可夫定理。,第三节 多元判定系数R2与复相关系数R,在双变量的情形中我们曾看到, r2 是回归方程拟合优度的一个度量。它给出在因变量Y的总变异种由(单一个)解释变量X解释了的比例或百分比。 在三变量模型中,由X2 和X3 联合解释Y的变异的比例的数量称为复判定系数(multiple coefficient of determination),记为R2 。(总平方和TSS等于解释平方和ESS+残差平方和RSS),则 R2 越靠近1,模型的“拟合”越好。,R2所代表的意义,例7.1 儿童死亡率与人均GNP和妇女识字率的关系,建立模型为: (7.6.1),-0.0056是PGNP的偏回归系数,它告诉我们,保持FLR的影响不变,PGNP提高1美元,儿童死亡率平均下降0.0056个单位。在经济上的解释为,若人均GNP提高1000美元,则每1000名产婴中不足5岁便死亡的儿童书平均下降5.6%。 -2.2316表明,保持PGNP的影响不变,妇女识字率每提高1个百分点,每4名产婴中不足5岁便死亡的儿童数平均减少约2.23人。 263的截距值表明若PGNP和FLR固定为零,则每4名产婴中儿童死亡人数的均值为263. 约为0.71的R2 值意味着儿童死亡率变异中约有70%可由PGNP和FLR来解释。,第四节 从多元回归的角度看简单回归,经典线性回归模型的假定声称,分析中所用的回归模型是正确设定的,无设定上 的偏误会误差。 若假定例7.1中式7.6.1是解释儿童死亡率行为与人均GNP和妇女识字率FLR之关系的“真实”模型。假设我们去掉FLR而估计如下简单回归: 其中Y=CM,X2=PGNP。做回归: 与“真实”多元回归相比: 1.从绝对值看,PGNP系数从0.0056增加到0.0114,几乎大一倍。 2.标准误不同。 3.截距值不同。 4.r2 值明显不同。 错误拟合一个模型会导致严重后果。,第五节 R2及校正R2,R2 的一个重要性质是,随着回归元个数的增大, R2 几乎必然增大。,这里, 就是 ,与模型中X变量的个数无关。但RSS即 却与模型中出现的回归元个数相关。随着X变量个数的增加 很可能减小,随之R2 也将增大。 因此,比较有同一因变量但有不同个数的X变量的两个回归时,选择有最高R2 值的模型必须当心。,k=包括截距项在内的模型中参数个数。 如此定义的R2 ,称为校正R2 (adjusted R2),记为 。,很容易得出上式,可看出: (1)对于k1, 。 (2)虽然R2 是非负的,但 可以是负的。实际中,如遇为负值,则取值为零。 实践中应选哪一个R2 ? 大多数统计软件包都是把校正的R2 连通惯用的R2 一起报告的,完全可以把校正的R2当做另一个统计量来看待。,2.比较两个R2值,根据判定系数比较两个模型,样本大小n和因变量都必须相同,解释变量可取任何形式。,在回归子形式不同的两个模型中,如何比较其R2 呢?,2019/7/29,该结果的经济含义是:随着咖啡价格的上涨,日均咖啡消费量平均下降约半杯。约等于0.66的r2 意味着,咖啡价格大约能解释咖啡消费量变化的66%。容易验证,这个方程的斜率系数是统计上显著的。 利用同样的数据可以估计出双对数(弹性)模型: 由于这是一个双对数模型,斜率系数直接给出了价格弹性系数的一个估计值。若每磅咖啡的价格上涨1%,则日咖啡消费量平均下降约0.25个百分点。 如何对两个r2 值进行比较,进而选取模型? 对Y取对数得lnY, 从第一个模型中得到Yt的估计值,取对数。 利用方程计算r2 。得0.7318,可与对数线性模型的r2 值0.7448 比较,差别很小,对数线性模型拟合的更好。,3.在回归元之间分配R2,回到例7.1,PGNP和FLR两个回归元解释了儿童死亡率变异种的0.7077或70.77%。但去掉FLR变量的回归, r2 值下降到0.1662。 差值0.5415(0.7077-0.1662)是否都是因为去掉的变量FLR呢?,我们是否能够如此将多元回归的R2 值0.7077在PGNP和FLR两个回归元之间分配?,不幸的是,不能这么做。这两个回归元之间的相关关系决定,其相关系数为0.2685。在大多数含有多个回归元的应用研究中,回归元之间的相关都是一个常见问题。,例7.3 柯布-道格拉斯生产函数,随机形式的Cobb-Douglas生产函数可表达为: 其中Y=产出,X2=劳动投入,X3=资本投入,u=随机干扰项,e=自然对数的底,通过对模型的变换可得: 该函数的性质: 2 是产出对劳动投入的弹性,度量在资本投入保持不变下劳动投入变化1%时的产出百分比变化。 3 是在劳动投入保持不变下产出对资本投入的弹性。 总和( 2 + 3 )给出规模报酬,即产出对投入的比例变化的反应。如果此总和为1,则规模报酬不变,即2倍投入带来2倍产出;若总和小于1,则规模报酬递减;若总和大于1,规模报酬递增。,假定Cobb-Douglas模型满足经典线性回归模型。用OLS法得到如下回归:,解释: (1)可以看出,劳动和资本弹性分别为1.4988和0.4899。即在研究时期,保持资本不变,劳动投入增加1%,导致产出平均增加约1.5%。保持劳动投入不变,资本投入增加1%导致产出平均增加约0.5%。 (2)两个产出弹性之和为1.9887,规模报酬递增。 (3)R2 取值0.8890,表示产出的对数的变动的89%可由劳动和资本的对数来解释。,第六节 多项式回归模型,该图描述生产一种商品的生产(Y)的短期边际成本(MC)和它的产出水平(X)的关系。 什么类型的计量经济模型能抓住边际成本先降后升的性质?,在数学上,抛物线的表达式为 写成随机形式为: 此即二阶多项式回归。 K阶多项式回归可写成: 方程右边只有一个解释变量,但以不同乘方出现,从而使方程称为多元回归模型。如果X为固定的或随机的,则带有乘方的各Xi项也是固定的或随机的。 由于二次多项式或k次多项式对参数而言都是线性的,故可用普通最小二乘法估计。 X2 、 X3 、 X4 等项都是X的非线性函数,并不违反无多重共线性的假定。 多项式模型没有提出新的估计问题,可用本章的方法去估计它们。,例7.4 估计总成本函数,由散点图可见,总成本与产出之间的关系像一条S曲线,可由下面的三次多项式来刻画: 其中Y=总成本,X=产出。 可用OLS法估计参数。拟合数据得到如下结果:,检验与理论的一致性,基本价格理论表明,在短期内,生产的边际成本(MC)和平均成本(AC)都是U型的。开始时,随着产出的增加,MC和AC都下降,但到了一定产出水平之后,两者均转而升高,显示边际报酬递减的规律。 可以证明,如果短期边际和平均成本曲线遵循U形的话,参数必须满足如下约束:,2019/7/29,习 题,考虑如下模型: Yi=1+2教育i+ 3工作年限i+ui 假设你漏掉了工作年限变量,预计会出现什么类型的问题或偏误?,2019/7/29,考虑如下模型: 1和1的OLS估计会不会是一样的? 3和3的OLS估计会不会是一样的? 2和2有什么关系? 你能比较两个模型的R2项吗?为什么?,要点与结论,本章介

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论