第五讲 多元线性回归_第1页
第五讲 多元线性回归_第2页
第五讲 多元线性回归_第3页
第五讲 多元线性回归_第4页
第五讲 多元线性回归_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元线性回归分析,在研究某个经济现象时,如果设定一个变量,该变量受其他因素的影响,该变量称为被解释变量。影响它的因素被称为解释变量。上一章我们讨论了仅有一个解释变量对被解释变量影响的例子。实际上,影响一个经济变量的因素可能会很多,因此,本章我们考虑具有多个解释变量的回归模型,即多元回归模型。,例一:研究某种进口商品的数量(或金额) 解释变量有哪些? 解释变量:进口商品价格(到岸价、国内市场价)、国产替代品价格、收入水平、汇率水平等。,例二:研究某城市房地产需求 解释变量有哪些? 解释变量:收入;资产;住房价格或指数;住房价格指数变化率;物价指数、通货膨胀和相关预期;利率等。,例三:研究劳动者收

2、入差异 解释变量有哪些? 解释变量:性别,教育年限,工龄,行业,年龄,种族,职位,地区。,如果选取的解释变量太少,或者很多重要的解释变量没有考虑到,就会产生遗漏变量偏差问题。,遗漏变量偏差问题,第4章和第5章中的实证分析只集中在学生/教师比上,忽略了某些决定测试成绩的潜在重要因素,而仅仅将这些因素的影响纳入回归误差项中。这些遗漏因素包括教师质量、计算机使用率等学校特征和家庭背景等学生特征。 例如:由于加利福尼亚州有庞大的移民人口,因此我们首先考虑遗漏的且显著有关的学生特征,即学区内还在学习英语的学生人数的普遍性。,忽略学区内英语学习者的百分率可能使测试成绩对学生/教师比回归中斜率的OLS估计量

3、有偏;也就是说,OLS估计量抽样分布的均值可能不等于学生/教师比变化一个单位对测试成绩的真正效应。 理由是:仍在学习英语的学生在标准化测试中的表现可能要比母语是英语的学生差。如果大班学区内有很多学生还要学习英语,那么有可能在测试成绩对学生/教师比的OLS回归中发现了错误的相关关系并得到了一个夸大的系数估计值,而事实上减小班级规模对测试成绩的真正因果效应很小甚至为零。,对加利福尼亚的数据进行测算: corr(学生/教师比,英语学习者百分率)=0.19。 这一虽小却为正的相关系数表明学区内的英语学习者越多则学生/教师比往往也越高(较大班级)。 若学生/教师比与英语学习者的百分率没有关系,则在测试成

4、绩对学生/教师比回归中可以忽略英语学习者人数,但由于两者相关,因此在测试成绩对学生/教师比回归中的OLS系数有可能反映了这一影响,即斜率2.28包含了英语学习者因素的影响。,遗漏变量偏差的定义,若回归变量(学生/教师比)与回归中漏掉的并对因变量(测试成绩)起部分决定作用的某个变量(英语学习者百分率)相关,则OLS估计量有遗漏变量偏差。 (1)遗漏变量与回归中的回归变量相关; (2)遗漏变量是因变量的一个决定因素。 这两个条件都为真时,便会发生遗漏变量偏差。,三个例子,例1:英语学习者百分率。 条件1成立,条件2成立。是遗漏变量。 例2:测试的时间。 条件1不成立,条件2成立。不是遗漏变量。 例

5、3:每个学生的停车空间。 条件1成立,条件2不成立。不是遗漏变量。,遗漏变量偏差的后果,经典假设1:随机误差项ui的数学期望为0。即:E(ui|Xi) = 0。 将失效。 一元线性回归模型中的误差项ui表示除Xi之外所有决定Yi的因素。若其中某个因素与Xi相关,则意味着误差项(包含了这个因素)与Xi相关。 即,若遗漏变量是Yi的一个决定因索,则它被包含在误差项中,如果它与Xi相关,则意味着误差项ui与Xi相关。 这就违反了第一个最小二乘假设,造成了严重的后果,即OLS估计量是有偏的。,结论,通过数据分组处理遗漏变量偏差,多元线性回归模型,多元线性回归模型:表现在线性回归模型中的解释变量有多个。

6、 总体回归模型 总体回归方程(函数),如何理解“控制住”某个变量,当我们分析某个解释变量对被解释变量的影响时,往往假定其他解释变量不发生变化。有时又称解释变量对被解释变量的“偏效应”。,二式减一式,得:,对于汽车数据,例如我们有如下方程: Price=14542+4.36*weight-104.8*length-86.7*mpg+ui 如何理解4.36?,i表示在其他解释变量保持不变的情况下,Xi每变化1个单位时,Y的值的变化; 或者说i给出了Xi的单位变化对Y值的“直接”或“净”(不含其他变量)影响。,假设(X1i,X2i,Xki;Yi)i=1n是总体的n次独立样本观测值。,其中:k为解释变

7、量的数目,j称为回归参数(regression coefficient)。,i=1,2,n,习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(k+1),i=1,2,n,假设共有n个样本,则方程展开之后的形式是,总体回归模型n个随机方程的矩阵表达式为,令,原方程可以简写为,样本回归函数:用OLS方法估计总体回归函数,其随机表示式:,ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。 样本回归函数的矩阵表达:,或,其中:,普通最小二乘估计,对于随机抽取的n组观测值,如果样本函数的参数估计值已经得到,则有:,i

8、=1,2n,几个重要的计算结果,XX=,根据最小二乘原理,参数估计值应该是下列方程组的解,其中,于是得到关于待估参数估计值的正规方程组:,正规方程组的矩阵形式,即,由于XX为非奇异矩阵,故有,将上述过程用矩阵表示如下:定义残差:,即求解方程组:,得到:,于是:,此处用到了矩阵的微商的概念: 假设A为n阶方阵,特别的,当A=A,即A为对称矩阵,例题一,我国1988年-1998年的城镇居民人均全年耐用消费品支出Y(元)、人均全年可支配收入X1(元)、以及耐用消费品价格指数X2(元)如下表所示,试利用excel和stata建立多元线性回归模型。,Excel的几个矩阵函数,1。MINVERSE(矩阵区

9、域) 返回数组矩阵的逆矩阵。 2。MMULT(矩阵1,矩阵2) 返回两数组矩阵的乘积。要求矩阵1的列数=矩阵2的行数。 3。TRANSPOSE(矩阵区域) 返回数组矩阵的转置矩阵。,特别注意,矩阵函数的使用。 1。使用前需要“预判”矩阵区域的大小并选择,区域过大或者过小都会出错。 2。矩阵函数必须使用数组公式,即完成后不能直接回车,必须Ctrl+Shift+Enter,例题二,多元回归中学生/教师比变化对测试成绩的效应估计大概为一元回归时的一半:即在一元回归方程中,STR减少一个单位则估计测试成绩提高2.28分。但在多元回归方程中,估计测试成绩仅提高1.10分。其原因在于多元回归中STR的系数是在固定(或控制)PctEL不变情况下的,而在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论