多元回归模型_第1页
多元回归模型_第2页
多元回归模型_第3页
多元回归模型_第4页
多元回归模型_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元回归模型第1页,共78页,2023年,2月20日,星期四第3章多元回归7、如何预测被解释变量的期望值?8、如何预测被解释变量的值?第2页,共78页,2023年,2月20日,星期四3.1三变量线性回归模型b1刻划了解释变量X对Y的影响其他影响Y的因素被放入µ当中一元回归分析的弱点

Y=b0+b1X+µ第3页,共78页,2023年,2月20日,星期四一元回归分析的弱点要用OLS法得到b1的无偏估计量,必要条件是:µ与X不相关,或者说,E(µ|Xi)=0(零条件均值假定)

Y=b0+b1X+µ第4页,共78页,2023年,2月20日,星期四案例分析:工资与教育被解释变量:工资(1976年每小时美元数)解释变量:教育(年数)计量模型:

wage

=0

+1educ+1的含义?1>0第5页,共78页,2023年,2月20日,星期四E(µ|Xi)=0不成立的情况案例:影响工资的其他因素例如,工作经验exper初中学历人群的平均工作经验:E(exper|9)大学学历人群的平均工作经验:E(exper|16)第6页,共78页,2023年,2月20日,星期四如何处理工作经验的影响wage

=

0

+1

educ

+即使我们关心的是教育对工资的影响,如果把exper放在中,就不能得到1的无偏估计量解决的方法:多元回归分析第7页,共78页,2023年,2月20日,星期四多元回归分析请解释b1在上述二元回归模型中的含义给定保持x2不变……Y=b0+b1x1+b2x2+µ第8页,共78页,2023年,2月20日,星期四二元回归模型1、确定性部分:b0+b1x1+b2x2

E(Y|X1,X2)2、随机性部分:µVar(Y)Y=b0+b1x1+b2x2+µ第9页,共78页,2023年,2月20日,星期四被解释变量的期望值b1表示给定x2保持不变,x1变化一个单位,引起的Y的均值的改变量多元回归分析可以使我们明确控制其他影响因素E(Y|X1,X2)=b0+b1x1+b2x2第10页,共78页,2023年,2月20日,星期四案例:教育对工资的影响wage

=0

+1educ+2

exper+请解释b1的含义采用一元回归模型和二元回归模型估计出的b1相等吗?wage

=0

+1educ+wage

=0

+1educ+2

exper+运行eviews验证第11页,共78页,2023年,2月20日,星期四多元回归分析的优势1、更准确地估计斜率:无偏估计量2、更好地说明被解释变量的变化:引入了更多的解释变量第12页,共78页,2023年,2月20日,星期四多元回归模型1、K个解释变量2、k+1个待估参数3、b0称为截距,b1

到bk称为斜率Y=b0+b1x1+b2x2+...bkxk+µ第13页,共78页,2023年,2月20日,星期四3.2多元线性回归模型的第6个假设一元线性回归模型关于随机误差项的五个假设新增的关于多个解释变量之间关系的假设第14页,共78页,2023年,2月20日,星期四

假设1、随机误差项与各解释变量X之间不相关(更强的假设是各个解释变量X都是确定性变量,不是随机变量,这样假设1自动满足)Y=b0+b1x1+b2x2+...bkxk+µ第15页,共78页,2023年,2月20日,星期四假设2、随机误差项具有零均值

E(i)=0i=1,2,…,n

Y=b0+b1x1+b2x2+...bkxk+µ第16页,共78页,2023年,2月20日,星期四假设3、随机误差项同方差

Var(i)=2i=1,2,…,n

Y=b0+b1x1+b2x2+...bkxk+µ第17页,共78页,2023年,2月20日,星期四假设4、随机误差项无序列相关

Cov(i,j)=0i≠ji,j=1,2,…,n

Y=b0+b1x1+b2x2+...bkxk+µ第18页,共78页,2023年,2月20日,星期四假设5、服从正态分布i~N(0,2)i=1,2,…,nY=b0+b1x1+b2x2+...bkxk+µ第19页,共78页,2023年,2月20日,星期四假设6、Xi之间无完全的线性相关关系(完全共线性)即任何一个Xi都不能被表示成其他解释变量的线性函数例如,X1=aX2

+bX3

+

cX4

Y=b0+b1x1+b2x2

+...bkxk+µ第20页,共78页,2023年,2月20日,星期四3.3多元回归参数的估计双变量模型OLS法:残差平方和最小第21页,共78页,2023年,2月20日,星期四对于随机抽取的n组观测值可以得到Y的拟合值:i=1,2…n根据最小二乘原理,参数估计值应该是下列方程组的解

其中OLS估计法的基本原理第22页,共78页,2023年,2月20日,星期四案例分析:大学平均成绩被解释变量:大学平均成绩colGPA解释变量:(1)高中平均成绩hsGPA;(2)大学能力测验分数ACT计量模型:colGPA=0+1hsGPA+2ACT

+1的含义?第23页,共78页,2023年,2月20日,星期四Eviews运用Eviews,得到如下估计结果:colGPA=1.29+0.45hsGPA+0.0094ACT请解释:1、1.292、0.453、0.0094第24页,共78页,2023年,2月20日,星期四错误的简单回归分析被解释变量:大学平均成绩colGPA解释变量:大学能力测验分数ACTcolGPA=2.40+0.027ACT请比较:多元回归分析:0.0094一元回归分析:0.027第25页,共78页,2023年,2月20日,星期四OLS估计量的性质1、无偏性含义?E(i

)=i

2、有效性含义?第26页,共78页,2023年,2月20日,星期四斜率估计量的方差.其中,∑xj²为第j个解释变量的离差平方和Rj²为第j个解释变量对其余解释变量进行回归得到的拟合优度:反映了第j个解释变量和其他变量的线性相关关系Var(j

)=σ²(1-Rj²)∑²xj第27页,共78页,2023年,2月20日,星期四影响斜率估计量方差的因素1、总体的方差Var(Y)

σ²2、解释变量的变化程度∑xj²3、和其他解释变量的线性相关程度Rj²第28页,共78页,2023年,2月20日,星期四Var(i

)其中,Rj²为第j个解释变量对其余解释变量进行回归得到的拟合优度:反映了第j个解释变量和其他变量的线性相关关系Var(j

)=σ²(1-Rj²)∑²xj第29页,共78页,2023年,2月20日,星期四多重共线性1、完全共线性Rj²=1如果存在完全共线性,则不能应用OLS估计法2、多重共线性Rj²接近于1后果:估计量的方差较大,导致估计结果不准确第30页,共78页,2023年,2月20日,星期四3.4多元判定系数则总离差平方和的分解第31页,共78页,2023年,2月20日,星期四

判定系数该统计量越接近于1,模型的拟合优度越高。

评分标准:截面数据:>50%时间序列数据:>90%

第32页,共78页,2023年,2月20日,星期四

回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。

计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。稻草人假设:斜率参数为零

3.5多元回归的假设检验第33页,共78页,2023年,2月20日,星期四解释变量的显著性如果1等于零,则X1对Y没有影响1的估计值不等于零但是1真的不等于零吗?Y=b0+b1x1+b2x2+µ第34页,共78页,2023年,2月20日,星期四假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的。如果结果是个小概率事件,那我们认为这是不可能发生的。会发生不可能发生的事情,一定是假设前提错了。上述“小概率事件”的概率被称为检验的“显著性水平”,或者“犯第一类错误的概率”(拒绝了正确的虚拟假设)第35页,共78页,2023年,2月20日,星期四σ²(1-R1²)∑²x1)tk-1)3.6对偏回归系数进行假设检验第36页,共78页,2023年,2月20日,星期四斜率1的显著性检验在上述t统计量中假设1等于零,得到

t

=

=

第37页,共78页,2023年,2月20日,星期四统计量t的解释t是一个随机变量,对应于不同的样本,t取不同的值给定一个具体样本,t是斜率的估计值和斜率的样本标准差的比率。被称为t比率

t

=

第38页,共78页,2023年,2月20日,星期四案例分析:工资被解释变量:工资(1976年每小时美元数)解释变量:教育(年数)工作经验(年数)现职任期(年数)计量模型:wage=b0+b1educ+b2exper+b3tenure+µ请解释稻草人假设:b2=0的含义第39页,共78页,2023年,2月20日,星期四

ca(1-a)t分布临界值c|t|>c的概率?在实践中,一般取α=5%,确定一个小概率事件t~t(n-2)给定样本容量n和显著性水平α,就可以计算c0a/2(1-a)-ca/2第40页,共78页,2023年,2月20日,星期四H0:b1=0H1:b1

0c0a/2(1-a)-ca/2双侧检验拒绝域拒绝域Y=b0+b1x1+b2x2+...bkxk+µ第41页,共78页,2023年,2月20日,星期四双侧检验的步骤

(1)对总体参数提出假设

H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值c=t/2(n-2)(4)比较,判断若|t|>t/2(n-2),则拒绝H0

,接受H1

;若|t|

t/2(n-2),则拒绝H1

,接受H0

;第42页,共78页,2023年,2月20日,星期四第43页,共78页,2023年,2月20日,星期四简易判断法则当n>30时,t分布近似于标准正态分布给定显著性水平为5%,临界值c约为2如果t的绝对值大于2,就可以拒绝稻草人假设,说明斜率b1显著地不等于零因此,解释变量X对被解释变量Y具有影响第44页,共78页,2023年,2月20日,星期四p值p值是给定t比率后,能拒绝稻草人假设的最小显著性水平即给定显著性水平为p,根据样本计算的t比率刚好可以拒绝稻草人假设如果显著性水平大于p,则仍然可以拒绝如果显著性水平小于p,则不可以拒绝问题:对于计量研究而言,p值越大还是越小好?第45页,共78页,2023年,2月20日,星期四案例分析:大学GPA的决定因素被解释变量:大学平均成绩colGPA解释变量:1、高中平均成绩hsGPA2、大学能力测验成绩ACT3、平均每周旷课次数skipped计量模型:colGPA=0+1hsGPA+2ACT+3skipped+Eviews的结果第46页,共78页,2023年,2月20日,星期四3.7检验联合假设如果某些解释变量没有通过t检验,是否他们就没有影响力呢?

t

=

问题:如果该解释变量和其他某些解释变量高度相关,会导致什么结果?Var(j

)=σ²(1-Rj²)∑²xjjj第47页,共78页,2023年,2月20日,星期四案例分析棒球运动员的薪水被解释变量:棒球运动员的薪水解释变量:1、加入俱乐部的年数years2、平均每年的比赛次数gamesyr3、平均每年击球次数bavg4、平均每年本垒打次数hrunsyr5、平均每年的击球跑垒得分rbisyr第48页,共78页,2023年,2月20日,星期四案例分析棒球运动员的薪水计量模型为:其中,第三到第五个解释变量都是度量球员表现的指标运行Eviews,进行t检验第49页,共78页,2023年,2月20日,星期四Eviews的结果Log(SALARY)=11.19+0.07*YEARS+0.01*GAMESYR+0.0009786038654*BAVG+0.01*HRUNSYR+0.01*RBISYRVariable Coefficient Std.Error t-Statistic Prob.

C 11.19242 0.28882338.751840.0000 YEARS 0.068863 0.012115 5.684295 0.0000 GAMESYR 0.012552 0.002647 4.742442 0.0000 BAVG 0.000979 0.001104 0.886811 0.3758 HRUNSYR 0.014429 0.016057 0.898642 0.3695 RBISYR 0.010766 0.007175 1.500458 0.1344

第50页,共78页,2023年,2月20日,星期四同时检验多个假设:F检验

t检验只适用于检验单个解释变量的显著性;对多个解释变量的联合影响进行检验,需要运用随机变量F。t检验是F检验的特例给定计量模型

Yi=0+1X1i+2X2i++kXki+ii=1,2,,n

可提出如下原假设与备择假设:

H0:1=2=0H1:

1和2不全为0第51页,共78页,2023年,2月20日,星期四第52页,共78页,2023年,2月20日,星期四F检验的基本思想1、根据斜率为零的假设,得到新的计量模型(受限模型):Yi=0+3X31i+4X42i++kXki+ii=3,4,,n2、可以证明:其中,RSSR表示新(受限)模型的残差平方和RSSU表示原(非受限)模型的残差平方和第53页,共78页,2023年,2月20日,星期四F检验的基本思想3、设定显著性水平,得到临界值c4、根据样本数据,以稻草人假设为前提,计算F的取值5、如果F>c,则拒绝原假设说明:也可以计算p值,得到最低的显著性水平。原理同t检验第54页,共78页,2023年,2月20日,星期四案例分析棒球运动员的薪水计量模型为:其中,第三到第五个解释变量都是度量球员表现的指标运行Eviews,对上述三个解释变量进行F检验第55页,共78页,2023年,2月20日,星期四Eviews稻草人假设:H0:3=4=5=01、运行eviews完成估计2、view\coefficienttests\wald3、在对话框中依次输入假设为零的斜率,以逗号进行分隔第56页,共78页,2023年,2月20日,星期四回归整体显著性的F检验

即检验模型

Yi=0+1X1i+2X2i++kXki+ii=1,2,,n中的所有斜率参数j是否显著不为0。

可提出如下原假设与备择假设:

H0:1=2==k=0H1:j不全为0,j=1,2,……,k第57页,共78页,2023年,2月20日,星期四回归整体显著性的F检验给定显著性水平,可得到临界值c,由样本求出统计量F的数值,通过

Fc来拒绝原假设H0。)1/(/--=knRSSkESSF可以证明:F统计量为第58页,共78页,2023年,2月20日,星期四案例分析棒球运动员的薪水计量模型为:运行Eviews,对回归的整体显著性进行F检验第59页,共78页,2023年,2月20日,星期四R²与解释变量的个数wage

=0

+1educ+wage=0

+1educ+2

exper+3.8校正的判定系数第60页,共78页,2023年,2月20日,星期四问题:如何比较不同数量解释变量的计量模型?R²与解释变量的个数R2K变量个数第61页,共78页,2023年,2月20日,星期四惩罚新增的解释变量第62页,共78页,2023年,2月20日,星期四R2K变量个数惩罚新增的解释变量第63页,共78页,2023年,2月20日,星期四8.9什么时候增加新的解释变量提高校正的判定系数VS显著的解释变量(通过t检验)t>1VSt>2第64页,共78页,2023年,2月20日,星期四3.10预测预测的含义:给定解释变量X的取值,推测被解释变量Y的取值预测要面对的四大问题:1、X的取值:已知;未知(需要预测)2、模型中的参数:估计3、Y的随机性4、模型本身的正确性Y=b0+b1x1+b2x2+µ第65页,共78页,2023年,2月20日,星期四1、期望值的预测确定性部分:b0+b1x1+b2x2

E(Y|X1,X2)1)通过样本估计b,得到Y=b0+b1x1+b2x2+µY=b0+b1x1+b2x2^^^^2)根据给定的X估计E(Y),即计算Y^第66页,共78页,2023年,2月20日,星期四期望值的预测给定解释变量X的取值,被解释变量Y的期望值是唯一的但是,对Y期望值的估计值不是唯一的OLS估计量Y样本数据Y期望值的估计值^X的取值第67页,共78页,2023年,2月20日,星期四2、预测被解释变量Y的值:点预测Y是一个随机变量问题:一定要用一个值来作为Y的代表,应该选用哪一个值?E(Y)Y因此,对Y的点预测等同于对Y期望值的预测Y=b0+b1x1+b2x2+µ^第68页,共78页,2023年,2月20日,星期四Eviews1、完成参数估计2、设定X的取值:1)Proc\structure;sample2)在对话框中增加样本容量3)打开解释变量,输入设定的X的取值3、forcast4、在对话框中增加样本容量5、打开Y的预测值Yf第69页,共78页,2023年,2月20日,星期四3、以95%的概率预测Y的取值区间给定已知的X0,对Y0的点预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论