单方程计量经济学模型多元线性回归_第1页
单方程计量经济学模型多元线性回归_第2页
单方程计量经济学模型多元线性回归_第3页
单方程计量经济学模型多元线性回归_第4页
单方程计量经济学模型多元线性回归_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单方程计量经济学模型多元线性回归第1页/共113页牧师讲完故事后,又向全班承诺:谁要能背出《圣经.马太福音》中第五章到第七章的全部内容,他就邀请谁去“太空针”高塔餐厅参加免费聚餐会。《圣经.马太福音》中第五章到第七章的全部内容有几万字,而且不押韵,要背诵起全文难度极大。尽管参加免费的聚餐会是许多学生梦寐以求的事情,但几乎所有的人都望而却步了。几天后,班上一个11岁的男孩,胸有成竹从头到尾按要求背了下来,竟然没有出一点差错。牧师比别人更清楚,即使在成年的信徒中,能背诵这篇文章的人也是罕见的。牧师不禁好奇地问:“你为什么能背下这么有长有难的文字呢?”男孩不假思索地回答道:“我竭尽全力。”如今,那个男孩成了首富,他就是比尔.盖茨。第2页/共113页第三章经典单方程计量经济学模型:多元线性回归模型

MultipleLinearRegressionModel第3页/共113页引子:

中国汽车的保有量会达到2亿辆吗?

中国经济的快速发展,使居民收入不断增加,数以百万计的中国人开始得以实现拥有汽车的梦想,中国也成为世界上成长最快的汽车市场。截至2015年底,全国机动车保有量达2.79亿辆,其中汽车1.72亿辆。工信部装备工业司副司长王富昌日前指出,预计到2020年中国汽车保有量将超过2亿辆。是什么因素导致中国汽车数量的增长?

影响中国汽车行业发展的因素并不是单一的,经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境、相关政策等,都会使中国汽车行业面临机遇和挑战。第4页/共113页分析中国汽车行业未来的趋势,应具体分析这样一些问题:中国汽车市场发展的状况如何?(用销售量观测)影响中国汽车销量的主要因素是什么?

(如收入、价格、费用、道路状况、能源、政策环境等)各种因素对汽车销量影响的性质怎样?(正、负)各种因素影响汽车销量的具体数量关系是什么?所得到的数量结论是否可靠?中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业政策?很明显,只用一个解释变量已很难分析汽车产业的发展,还需要寻求有更多个解释变量情况的回归分析方法。

怎样分析多种因素的影响?第5页/共113页第三章多元线性回归模型

本章主要讨论:

如何将简单线性回归的研究方法推广到多元的情况●多元线性回归模型及古典假定●多元线性回归参数的估计●多元线性回归方程的拟合优度●多元线性回归的区间估计和假设检验●多元线性回归模型的预测

●含有虚拟变量的多元线性回归模型第6页/共113页§3.1

多元线性回归模型

一、多元线性回归模型

二、多元线性回归模型的基本假定

第7页/共113页一、多元线性回归模型

多元线性回归模型:表现在线性回归模型中的解释变量有多个。一般表现形式:i=1,2…,n其中:k为解释变量的数目,j称为回归参数(regressioncoefficient)。习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样:

模型中解释变量的数目为(k+1)第8页/共113页也被称为总体回归函数的随机表达形式。它的非随机表达式为:

方程表示:各变量X值固定时Y的平均响应。

j也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;

或者说j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。第9页/共113页指对各个回归系数而言是“线性”的,对变量则可是线性的,也可是非线性的例如:生产函数取自然对数多元线性回归的“线性”第10页/共113页总体回归模型n个随机方程的矩阵表达式为

其中第11页/共113页样本回归函数:用来估计总体回归函数其随机表示式:

ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。

样本回归函数的矩阵表达:

或其中:第12页/共113页总体回归函数或

样本回归函数或

其中:都是有

个元素的列向量是有

+1个元素的列向量

是第一列为1的

阶解释变量数据矩阵(截距项可视为解释变量取值为1)总结:第13页/共113页二、多元线性回归模型的基本假定

假设1:回归模型是正确设定的。

假设2:解释变量在所抽取的样本中具有变异性,且各X之间不存在严格线性相关性(无完全多重共线性)。

假设3,随机误差项具有条件零均值性

假设4,随机误差项具有条件同方差及不序列相关性

假设5,随机项满足正态分布

第14页/共113页上述假设的矩阵符号表示式:

假设2,n(k+1)矩阵X的秩为k+1,即X列满秩。假设3,

假设4:随机误差项具有条件同方差及不序列相关性。其中,I为一n阶单位矩阵。第15页/共113页假设5,向量

有一多维正态分布,即

基本假定的推论:

第16页/共113页注:CLRM和CNLRM以上假设(正态性假设除外)也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,CLRM)。同时满足正态性假设的线性回归模型,称为经典正态线性回归模型(ClassicalNormalLinearRegressionModel,CNLRM)。第17页/共113页§3.2多元线性回归模型的参数估计一、普通最小二乘估计二、参数估计量的性质三、样本容量问题四、参数估计举例第18页/共113页说明估计对象:模型结构参数随机项的分布参数(方差)估计方法:3大类方法:OLS、ML或者MM在经典模型中多应用OLS在非经典模型中多应用ML或者MM第19页/共113页一、普通最小二乘估计对于随机抽取的n组观测值如果样本函数的参数估计值已经得到,则有:

i=1,2…n根据最小二乘原理,参数估计值应该是下列方程组的解

其中kjniXYijiLL,2,1,0,,,2,1),,(==第20页/共113页于是得到关于待估参数估计值的正规方程组:

第21页/共113页正规方程组的矩阵形式条件?即:第22页/共113页将上述过程用矩阵表示如下:

即求解方程组:得到:

于是:第23页/共113页⃟正规方程组

的另一种写法对于正规方程组

于是

(*)或(**)是多元线性回归模型正规方程组的另一种写法。(*)(**)第24页/共113页⃟样本回归函数的离差形式i=1,2…n其矩阵形式为

其中:在离差形式下,参数的最小二乘估计结果为

第25页/共113页⃟随机误差项的方差的无偏估计

可以证明,随机误差项的方差的无偏估计量为

第26页/共113页二、参数估计量的性质

在满足基本假设的情况下,其结构参数的普通最小二乘估计、最大或然估计及矩估计仍具有:

线性性、无偏性、有效性。

同时,随着样本容量增加,参数估计量具有:渐近无偏性、渐近有效性、一致性。

利用矩阵表达可以很方便地证明,注意证明过程中利用的基本假设。1、线性性

其中,C=(X’X)-1X’

为一仅与固定的X有关的行向量。第27页/共113页2、无偏性

这里利用了假设:E(X’)=03、有效性(最小方差性)

第28页/共113页其中利用了

和第29页/共113页三、样本容量问题

所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。

最小样本容量

样本最小容量必须不少于模型中解释变量的数目(包括常数项),即

n

k+1因为,无多重共线性要求:秩(X)=k+1第30页/共113页

2、满足基本要求的样本容量

从统计检验的角度:

n30时,Z检验才能应用;

n-k8时,t分布较为稳定

一般经验认为:

当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。

模型的良好性质只有在大样本下才能得到理论上的证明。第31页/共113页——地区城镇居民消费模型被解释变量:地区城镇居民人均消费Y解释变量:地区城镇居民人均工资性收入X1地区城镇居民人均其它X2样本:2013年,31个地区

四、多元线性回归模型的参数估计实例

第32页/共113页数据地区现金消费支出Y工资性收入X1其他收入X2地区现金消费支出Y工资性收入X1其他收入X2

北京26274.930273.015000.8

湖北15749.515571.89608.7

天津21711.923231.912423.7

湖南15887.113951.410691.6

河北13640.614588.49554.4

广东24133.325286.511217.5

山西13166.216216.47797.2

广西15417.615647.89381.0

内蒙古19249.118377.98600.1

海南15593.015773.09146.8

辽宁18029.715882.012022.9

重庆17813.916654.710195.7

吉林15932.314388.39155.9

四川16343.514976.08917.9

黑龙江14161.712525.88623.4

贵州13702.913627.67785.5

上海28155.033235.415643.9

云南15156.115140.79557.6

江苏20371.521890.013241.0

西藏12231.919604.02956.7

浙江23257.224453.016788.0

陕西16679.716441.07667.8

安徽16285.215535.39470.8

甘肃14020.713329.76819.3

福建20092.721443.411939.3

青海13539.514015.68115.4

江西13850.514767.58181.9

宁夏15321.115363.98402.8

山东17112.221562.19066.0

新疆15206.215585.36802.6

河南14822.014704.28982.3第33页/共113页变量间关系第34页/共113页变量间关系第35页/共113页OLS估计第36页/共113页OLS估计结果第37页/共113页§3.3

多元线性回归模型的统计检验

一、拟合优度检验二、方程的显著性检验(F检验)

三、变量的显著性检验(t检验)四、参数的置信区间

第38页/共113页一、拟合优度检验1、可决系数与调整的可决系数则

总离差平方和的分解第39页/共113页由于

=0所以有:

注意:一个有趣的现象åååå-+++=ikiikiiieYXeXeebbbˆˆˆ110L第40页/共113页

可决系数该统计量越接近于1,模型的拟合优度越高。

问题:

在应用过程中发现,如果在模型中增加一个解释变量,

R2往往增大。这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。

但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。第41页/共113页调整可决系数的原因对于有k个解释变量的多元回归方程,可决系数的另一计算式如下:其中,分母总离差平方和TSS是不变的,当每增加一个解释变量时,只要新增解释变量前系数不为0,则残差平方和会变小;分子中每一项的符号均为正(每一项中相乘的两项同号),所以R2会随解释变量增加而增加,因此,应该调整。第42页/共113页调整可决系数的原因第43页/共113页

调整的可决系数(adjustedcoefficientofdetermination)

在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。第44页/共113页第45页/共113页

*2、赤池信息准则和施瓦茨准则

为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有:

赤池信息准则(Akaikeinformationcriterion,AIC)施瓦茨准则(Schwarzcriterion,SC)

这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。

第46页/共113页地区城镇居民消费模型(k=2)第47页/共113页地区城镇居民消费模型(k=1)第48页/共113页二、方程总体线性的显著性检验(F检验)

方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。

1、方程显著性的F检验

即检验模型中的参数j是否显著不为0。

可提出如下原假设与备择假设:

H0:1=2==k=0H1:j不全为零

(j=1,2,…k)第49页/共113页

F检验的思想来自于总离差平方和的分解式:

TSS=ESS+RSS

如果这个比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能不存在线性关系。

因此,可通过该比值的大小对总体线性关系进行推断。第50页/共113页

根据数理统计学中的知识,在原假设H0成立的条件下,统计量

服从自由度为(k,n-k-1)的F分布

给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过

F

F(k,n-k-1)或FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。第51页/共113页地区城镇居民消费模型伴随概率:拒绝0假设,犯错误的概率为0第52页/共113页

2、关于拟合优度检验与方程显著性检验关系的讨论

F与R2同向变化:当R2=0时,F=0;R2越大,F值也越大;

当R2=1时,F为无穷大。

第53页/共113页

对于一般的实际问题,在5%的显著性水平下,F统计量的临界值所对应的R2的水平是较低的(例3.2.2中,F0.05(2,28)=3.34,对应的调整R2为0.1349)。所以,不宜过分注重调整R2值,应注重模型的经济意义;在进行总体显著性检验时,显著性水平应该控制在5%以内。

因此,F检验是所估计回归的总显著性的一个度量,也是R2的一个显著性检验。亦即第54页/共113页三、变量的显著性检验(t检验)

方程的总体线性关系显著不等于每个解释变量对被解释变量的影响都是显著的。

因此,必须对每个解释变量进行显著性检验,以决定是否作为解释变量被保留在模型中。

这一检验是由对变量的t检验完成的。第55页/共113页1、t统计量

以cii表示矩阵(X’X)-1

主对角线上的第i个元素第56页/共113页

2、t检验

设计原假设与备择假设:

H1:i0

给定显著性水平,可得到临界值t/2(n-k-1),由样本求出统计量t的数值,通过

|t|

t/2(n-k-1)或|t|t/2(n-k-1)来拒绝或接受原假设H0,从而判定对应的解释变量是否应包括在模型中。

H0:i=0

(i=1,2…k)

第57页/共113页地区城镇居民消费模型第58页/共113页注意:一元线性回归中,t检验与F检验一致

一方面,t检验与F检验都是对相同的原假设H0:1=0

进行检验;

另一方面,两个统计量之间有如下关系:

第59页/共113页检验方法原假设H0统计量临界值判断样本可决系数调整的无无越接近于1越好回归方程显著性检验F

,不拒绝原假设;,拒绝P<0.05,拒绝参数显著性检验t

,不拒绝原假设;,拒绝P<0.05,拒绝统计检验方法总结:注:(1);(2)一元模型中;(3)第60页/共113页四、参数的置信区间

参数的置信区间用来考察:在一次抽样中所估计的参数值离参数的真实值有多“近”。在变量的显著性检验中已经知道:容易推出:在(1-)的置信水平下i的置信区间是

其中,t/2为显著性水平为、自由度为n-k-1的临界值。

第61页/共113页例题中,给定显著性水平α=5%,参数β1和β2的置信区间分别为(0.3685,0.6045)和(0.3882,0.8153)。如何陈述模型估计结果?城镇居民工资收入的边际消费倾向为0.4865。错!城镇居民工资收入的边际消费倾向以95%的概率处于(0.3685,0.6045)的区间中。正确!第62页/共113页如何才能缩小置信区间?

增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越小,同时,增大样本容量,还可使样本参数估计量的标准差减小;提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方和应越小。提高样本观测值的分散度,一般情况下,样本观测值越分散,(X’X)-1的分母的|X’X|的值越大,致使区间缩小。第63页/共113页§3.4多元线性回归模型的预测

一、E(Y0)的置信区间

二、Y0的置信区间第64页/共113页对于模型

给定样本以外的解释变量的观测值X0=(1,X10,X20,…,Xk0),可以得到被解释变量的预测值:

它可以是总体均值E(Y0)或个值Y0的预测。但严格地说,这只是被解释变量的预测值的估计值,而不是预测值。

为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信区间。

第65页/共113页

一、E(Y0)的置信区间易知

第66页/共113页容易证明

于是,得到(1-)的置信水平下E(Y0)的置信区间:

其中,t/2为(1-)的置信水平下的临界值。第67页/共113页例题中,假设某城镇居民2013年工资性收入为20000元,其他收入为10000元,则该居民2013年现金消费支出的预测值为18346.1元。就全国平均情况看,2013年具有人均工资性收入20000元、其他来源收入10000元的城镇居民,当年平均的现金消费支出预测值的置信区间为(17870.0,18822.2)(在95%的置信度下)。

第68页/共113页

二、Y0的置信区间

如果已经知道实际的预测值Y0,那么预测误差为:容易证明

第69页/共113页e0服从正态分布,即

构造t统计量

可得给定(1-)的置信水平下Y0的置信区间:

第70页/共113页例题中,假设某城镇居民2013年工资性收入为20000元,其他收入为10000元,则该居民2013年现金消费支出的预测值为18346.1元。就该居民看,当年平均的现金消费支出预测值的置信区间为(15958.3,20733.9)

(在95%的置信度下)。第71页/共113页§3.6含有虚拟变量的多元线性回归模型

一、含有虚拟变量的模型二、虚拟变量的引入三、虚拟变量的设置原则

第72页/共113页一、含有虚拟变量的模型第73页/共113页1、虚拟变量(dummyvariables)许多经济变量是可以定量度量。一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。本章只讨论:虚拟变量作为解释变量的情形。第74页/共113页一般地,在虚拟变量的设置中:

基础类型、肯定类型取值为1;比较类型,否定类型取值为0。例如,反映文程度的虚拟变量可取为:虚拟变量能否取1、0以外的数值?第75页/共113页2、虚拟变量模型同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-ofvariance:ANOVA)模型。例如,一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金;Xi为工龄;Di=1,若是男性,Di=0,若是女性。第76页/共113页二、虚拟变量的引入第77页/共113页1、加法方式虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则企业男、女职工的平均薪金为:第78页/共113页假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02几何意义:第79页/共113页将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。高中以下高中大学及以上第80页/共113页在上例中同时引入性别和教育水平:第81页/共113页女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:于是,不同性别、不同学历职工的平均薪金分别为:第82页/共113页2、乘法方式加法方式引入虚拟变量,考察:截距的不同。许多情况下,斜率发生变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。第83页/共113页例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。农村居民:城镇居民:第84页/共113页3、同时引入加法与乘法形式的虚拟变量当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。以Y为人均消费,X为人均可支配收入,可令:农村居民:Yi=1+2Xi+1ii=1,2…,n1

城镇居民:Yi=1+2Xi+2ii=1,2…,n2

则有可能出现下述四种情况中的一种:第85页/共113页(1)1=1

,且2=2

,即两个回归相同,称为重合回归(CoincidentRegressions);(2)11,但2=2

,即两个回归的差异仅在其截距,称为平行回归(ParallelRegressions);(3)1=1

,但22

,即两个回归的差异仅在其斜率,称为汇合回归(ConcurrentRegressions);(4)11,且22

,即两个回归完全不同,称为相异回归(DissimilarRegressions)。第86页/共113页4、例题判断中国农村居民与城镇居民的消费行为是否有显著差异。被解释变量:居民家庭人均生活消费支出Y解释变量:居民家庭人均工资收入X1、其他收入X2样本:2013年31个地区农村居民与城镇居民人均数据虚拟变量Di:农村居民取值1,城镇居民取值0

第87页/共113页总体回归模型引入虚拟变量后的回归结果如下:第88页/共113页由变量显著性检验得到:在10%的显著性水平下,Di和DiXi1是显著的,而DiXi2不显著。因此:农村居民与城镇居民在其他收入方面有相同的增加量时,两者增加的消费支出没有显著差异。模型需要进行调整,去掉DiXi2之后再进行回归,得到最终的模型。第89页/共113页在10%的显著性水平下,最终回归模型为:第90页/共113页由变量显著性检验得到:在10%的显著性水平下,引入模型的变量均是显著的,因此:2013年农村居民的平均消费支出要比城镇居民少1597.0元;在其他条件不变的情况下,农村居民与城镇居民的工资收入都增加100元时,农村居民要比城镇居民多支出18.8元用于生活消费。第91页/共113页三、虚拟变量的设置原则第92页/共113页每一定性变量(qualitativevariable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m种状态,只在模型中引入m-1个虚拟变量。例如,季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚变量:

如果设置第4个虚变量,则出现“虚拟变量陷井”(DummyVariableTrap)。为什么?第93页/共113页例如:包含季节变量的正确模型:解释变量完全共线性错误模型第94页/共113页如果在服装需求函数模型中必须包含3个定性变量:季节(4种状态)、性别(2种状态)、职业(5种状态),应该设置多少虚变量?模型含常数项模型不含常数项第95页/共113页讨论:定序定性变量可否按照状态赋值?例如:表示居民对某种服务的满意程度,分5种状态:非常不满意、一般不满意、无所谓、一般满意、非常满意。在模型中按照状态分别赋值0、1、2、3、4或者-2、-1、0、1、2。被经常采用,尤其在管理学、社

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论