第二章经典线性回归模型详解演示文稿_第1页
第二章经典线性回归模型详解演示文稿_第2页
第二章经典线性回归模型详解演示文稿_第3页
第二章经典线性回归模型详解演示文稿_第4页
第二章经典线性回归模型详解演示文稿_第5页
已阅读5页,还剩108页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章经典线性回归模型详解演示文稿目前一页\总数一百一十三页\编于八点优选第二章经典线性回归模型目前二页\总数一百一十三页\编于八点第一节线性回归模型的概念

一.双变量线性回归模型

我们在上一章给出的需求函数的例子

Q=α+βP+u(2.1)是一个双变量线性回归模型,模型中只有两个变量,一个因变量,一个解释变量,由解释变量的变动来解释因变量的变动,或者说用因变量对解释变量进行线性回归,因而称为双变量线性回归模型,亦称简单线性回归模型。让我们再看一个例子。

C=α+βD+u(2.2)

这是凯恩斯消费函数,其中C为消费支出,D为个人可支配收入,u为扰动项(或误差项)。目前三页\总数一百一十三页\编于八点此模型中,方程左端的消费支出(C)为因变量(或被解释变量),方程右端的个人可支配收入(D)为解释变量(或自变量)。α和β是未知参数,由于双变量线性回归模型的图形是一条直线,因而α和β习惯上又分别称为截距和斜率。这里斜率β的含义是解释变量增加一个单位所引起的因变量的变动。例如在(2.2)式中,β的含义是个人可支配收入增加一个单位所引起的消费的增加量,经济学中称之为边际消费倾向(MPC)。截距α的含义是解释变量为0时α的值。截距α有时有经济含义,但大多数情况下没有,因此,在计量经济分析中,通常不大关注α的取值如何。目前四页\总数一百一十三页\编于八点在教学中,我们习惯上采用Y表示因变量,X表示解释变量,双变量线性回归模型的一般形式为:Y=α+βX+u在实践中,此模型被应用于因变量和解释变量的一组具体观测值和(t=1,2,…,n),因而模型表示为:

=α+β+utt=1,2,…,n(2.3)它表明,对于n个时期t=1,2,…,n,该模型成立。更一般的形式为:=α+β+ui,i=1,2,...,n(2.4)即模型对X和Y的n对观测值(i=1,2,…,n)成立。(2.3)式一般用于观测值为时间序列的情形,在横截面数据的情形,通常采用(2.4)式。目前五页\总数一百一十三页\编于八点二、多元线性回归模型

在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型:

t=1,2,…,n

在这个模型中,Y由X1、X2、X3、…XK所解释,有K+1个未知参数β0、β1、β2、…βK。

这里,“斜率”βj的含义是其它变量不变的情况下,Xj改变一个单位对因变量所产生的影响。目前六页\总数一百一十三页\编于八点

例2.2食品需求方程

其中,Y=在食品上的总支出

X=个人可支配收入

P=食品价格指数用美国1959-1983年的数据,得到如下回归结果(括号中数字为标准误差):Y和X的计量单位为10亿美元(按1972不变价格计算).目前七页\总数一百一十三页\编于八点多元线性回归模型中斜率系数的含义上例中斜率系数的含义说明如下:价格不变的情况下,个人可支配收入每上升10亿美元(1个billion),食品消费支出增加1.12亿元(0.112个billion)。收入不变的情况下,价格指数每上升一个点,食品消费支出减少7.39亿元(0.739个billion)目前八页\总数一百一十三页\编于八点回到一般模型

t=1,2,…,n即对于n组观测值,有目前九页\总数一百一十三页\编于八点其矩阵形式为:

其中

目前十页\总数一百一十三页\编于八点第二节线性回归模型的估计

一.经典线性回归模型的统计假设(1)E(ut)=0,t=1,2,…,n

即各期扰动项的均值(期望值)均为0。均值为0的假设反映了这样一个事实:扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理的。

目前十一页\总数一百一十三页\编于八点(2)E(uiuj)=0,i≠j

即各期扰动项互不相关。也就是假定它们之间无自相关或无序列相关。实际上该假设等同于:

cov(ui,uj)=0,i≠j这是因为:

cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)——根据假设(1)(3)E(ut2)=σ2,t=1,2,…,n

即各期扰动项的方差是一常数,也就是假定各扰动项具有同方差性。这是因为:

Var(ut)=E{[ut-E(ut)]2}=E(ut2)——根据假设(1)目前十二页\总数一百一十三页\编于八点

(4)Xjt是非随机量,j=1,2,…kt=1,2,…n(5)(K+1)<n;

即观测值的数目要大于待估计的参数的个数(要有足够数量的数据来拟合回归线)。(6)各解释变量之间不存在严格的线性关系。上述假设条件可用矩阵表示为以下四个条件:目前十三页\总数一百一十三页\编于八点A1.E(u)=0

A2.由于显然,仅当

E(uiuj)=0,i≠jE(ut2)=σ2,t=1,2,…,n

这两个条件成立时才成立,因此,此条件相当前面条件(2),(3)两条,即各期扰动项互不相关,并具有常数方差。目前十四页\总数一百一十三页\编于八点

A3.X是一个非随机元素矩阵。

A4.Rank(X)=(K+1)<n.

------相当于前面(5)(6)两条即矩阵X的秩=(K+1)<n

满足条件(A1)—(A4)的线性回归模型称为经典线性回归模型或古典线性回归模型(CLR模型)。

当然,为了后面区间估计和假设检验的需要,还要加上一条:

A5.各期扰动项服从正态分布。

~,t=1,2,…n目前十五页\总数一百一十三页\编于八点二、最小二乘估计1.最小二乘原理为了便于理解最小二乘法的原理,我们用双变量线性回归模型作出说明。对于双变量线性回归模型Y=α+βX+u,我们的任务是,在给定X和Y的一组观测值(X1,Y1),(X2,Y2),...,(Xn,Yn)的情况下,如何求出

Yt=α+βXt+ut

中α和β的估计值和,

使得拟合的直线为“最佳”。直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示。目前十六页\总数一百一十三页\编于八点*****

et************

YXXt图2.2

Yt目前十七页\总数一百一十三页\编于八点残差

拟合的直线称为拟合的回归线.对于任何数据点(Xt,Yt),此直线将Yt的总值分成两部分。第一部分是Yt的拟合值或预测值:,t=1,2,……,n第二部分,et,代表观测点对于回归线的误差,称为拟合或预测的残差(residuals):

t=1,2,……,n

即t=1,2,……,n目前十八页\总数一百一十三页\编于八点残差平方和我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使残差总体上尽可能地小。要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是残差平方和,即目前十九页\总数一百一十三页\编于八点最小二乘法最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择和,使得达到最小值。目前二十页\总数一百一十三页\编于八点

运用微积分知识,使上式达到最小值的必要条件为:即目前二十一页\总数一百一十三页\编于八点整理,得:此二式称为正规方程。解此二方程,得:其中:样本均值离差目前二十二页\总数一百一十三页\编于八点2.多元线性回归模型的最小二乘估计在多元线性回归模型的情况下,我们的模型是:

问题是选择,使得残差平方和最小。

残差为:目前二十三页\总数一百一十三页\编于八点要使残差平方和

为最小,则应有:我们得到如下K+1个方程(即正规方程):

目前二十四页\总数一百一十三页\编于八点按矩阵形式,上述方程组可表示为:目前二十五页\总数一百一十三页\编于八点=即目前二十六页\总数一百一十三页\编于八点三.最小二乘估计量的性质我们的模型为估计式为

1.的均值目前二十七页\总数一百一十三页\编于八点(由假设3)

(由假设1)即这表明,OLS估计量是无偏估计量。目前二十八页\总数一百一十三页\编于八点2.的方差为求Var(),我们考虑

目前二十九页\总数一百一十三页\编于八点不难看出,这是的方差-协方差矩阵,它是一个(K+1)×(K+1)矩阵,其主对角线上元素为各系数估计量的方差,非主对角线上元素为各系数估计量的协方差。目前三十页\总数一百一十三页\编于八点由上一段的(2.19)式,我们有因此目前三十一页\总数一百一十三页\编于八点

请注意,我们得到的实际上不仅是的方差,而且是一个方差-协方差矩阵,为了反映这一事实,我们用下面的符号表示之:为方便起见,我们也常用表示的方差-协方差矩阵,因此上式亦可写作:需要注意的是,这里不表示方差向量,而是方差-协方差矩阵。目前三十二页\总数一百一十三页\编于八点4.高斯-马尔科夫定理对于以及标准假设条件A1-A4,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE)。我们已在上一段中证明了无偏性,下面证明线性和最小方差性。目前三十三页\总数一百一十三页\编于八点由OLS估计量的公式

可知,可表示为一个矩阵和因变量观测值向量的乘积:其中是一个(K+1)*n非随机元素矩阵。因而是线性估计量。目前三十四页\总数一百一十三页\编于八点现设为的任意一个线性无偏估计量,即其中是一个(K+1)*n非随机元素矩阵。则

显然,若要为无偏估计量,即,只有,为(K+1)阶单位矩阵。目前三十五页\总数一百一十三页\编于八点的方差为:

我们可将写成

从而将的任意线性无偏估计量与OLS估计量联系起来。目前三十六页\总数一百一十三页\编于八点由可推出:即

因而有由从而,因此上式中间两项为0,我们有目前三十七页\总数一百一十三页\编于八点因此

最后的不等号成立是因为为半正定矩阵。这就证明了OLS估计量是的所有线性无偏估计量中方差最小的。至此,我们证明了高斯-马尔科夫定理。目前三十八页\总数一百一十三页\编于八点4.的分布我们在前面列出的假设条件(A5)表明,

~N(0,),t=1,2,…,n即各期扰动项服从均值为0、方差为的正态分布。考虑到假设条件(A3),即是一个非随机元素矩阵,则由前面(2.20)式:

我们有:目前三十九页\总数一百一十三页\编于八点这表明,是N个正态分布变量的线性函数,因而亦为正态分布变量,即(2.22)由此可知,系数估计量向量的每个元素都是正态分布的,即

j=0,1…,k(2.23)其中cjj为矩阵中的(j+1,j+1)元素(主对角线上第j+1个元素)。目前四十页\总数一百一十三页\编于八点第三节拟合优度一.决定系数R2

在估计了线性回归模型之后,一个很自然的问题是,估计出的回归线与观测值拟合得好不好?这就是拟合优度要解决的问题。拟合优度的一个通行的测度是因变量Y的(样本)变差被模型所解释的比例,也就是因变量Y的变差被诸解释变量所解释的比例。这个统计量称为决定系数(coefficientofdetermination),记做,定义为:

目前四十一页\总数一百一十三页\编于八点其中,=残差平方和

ESS为ExplainedSumofSquares的缩写;

RSS为ResidualSumofSquares的缩写;

TSS为TotalSumofSquares的缩写。目前四十二页\总数一百一十三页\编于八点决定系数R2

计量了Y的总变差中可以归因于X和Y之间关系的比例,或者说Y的变动中可以由X的变动来解释的比例。它是回归线对各观测点拟合紧密程度的测度。我们有::完全拟合,:X与Y完全不存在线性关系,

目前四十三页\总数一百一十三页\编于八点的值越高,拟合得越好。但什么是高?并没有绝对的标准,要根据具体问题而定。此外,回归中使用时间序列数据还是横截面数据也有不同的标准。对时间序列数据来说,的值在0.8、0.9以上是很常见的事,而在横截面数据的情况下,0.4、0.5的值也不能算低。为方便计算,我们也可以用矩阵形式表示。目前四十四页\总数一百一十三页\编于八点

我们有:残差其中,残差平方和:目前四十五页\总数一百一十三页\编于八点而

将上述结果代入R2的公式,得到:这就是决定系数R2的矩阵形式。目前四十六页\总数一百一十三页\编于八点二.修正决定系数:

残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。由此可以推论,决定系数是一个与解释变量的个数有关的量:解释变量个数增加减小R2

增大也就是说,人们总是可以通过增加模型中解释变量的方法来增大R2

的值。因此,用R2

来作为拟合优度的测度,不是十分令人满意的。

目前四十七页\总数一百一十三页\编于八点为此,我们定义修正决定系数(Adjusted)如下:目前四十八页\总数一百一十三页\编于八点是经过自由度调整的决定系数,称为修正决定系数。我们有:(1)(2)仅当K=0时,等号成立。即

(3)当K增大时,二者的差异也随之增大。

(4)可能出现负值。目前四十九页\总数一百一十三页\编于八点三.例子下面我们给出两个简单的数值例子,以帮助理解这两节的内容.

例2.3 Yt=1+2X2t+3X3t+ut

设观测数据为:Y:31835X2:31524X3:54646

试求各参数的OLS估计值,以及。解:我们有目前五十页\总数一百一十三页\编于八点目前五十一页\总数一百一十三页\编于八点目前五十二页\总数一百一十三页\编于八点目前五十三页\总数一百一十三页\编于八点目前五十四页\总数一百一十三页\编于八点

例2.4

设n=20,k=3,R2=0.70,求。解:下面改变n的值,看一看的值如何变化。我们有若n=10,则=0.55

若n=5,则=-0.20

由本例可看出,有可能为负值。这与R2不同()。目前五十五页\总数一百一十三页\编于八点

第四节非线性关系的处理

迄今为止,我们已解决了线性模型的估计问题。但在实际问题中,变量间的关系并非总是线性关系,经济变量间的非线性关系比比皆是。如大家所熟悉的柯布-道格拉斯生产函数:

就是一例。在这样一些非线性关系中,有些可以通过代数变换变为线性关系处理,另一些则不能。下面我们通过一些例子来讨论这个问题。目前五十六页\总数一百一十三页\编于八点一.线性模型的含义

线性模型的基本形式是:

其特点是可以写成每一个解释变量和一个系数相乘的形式。线性模型的线性包含两重含义:(1)变量的线性变量以其原型出现在模型之中,而不是以X2或Xβ之类的函数形式出现在模型中。(2)参数的线性

因变量Y是各参数的线性函数。目前五十七页\总数一百一十三页\编于八点二.线性化方法

对于线性回归分析,只有第二种类型的线性才是重要的,因为变量的非线性可通过适当的重新定义来解决。例如,对于

此方程的变量和参数都是线性的。目前五十八页\总数一百一十三页\编于八点

参数的非线性是一个严重得多的问题,因为它不能仅凭重定义来处理。可是,如果模型的右端由一系列的Xβ或eβX项相乘,并且扰动项也是乘积形式的,则该模型可通过两边取对数线性化。例如,需求函数

其中,Y=对某商品的需求

X=收入

P=相对价格指数

ν=扰动项可转换为:目前五十九页\总数一百一十三页\编于八点

用X,Y,P的数据,我们可得到logY,logX和logP,从而可以用OLS法估计上式。

logX的系数是β的估计值,经济含义是需求的收入弹性,logP的系数将是γ的估计值,即需求的价格弹性。弹性(elasticity)是一变量变动1%所引起的另一变量变动的百分比。其定义为本例中,需求的收入弹性是收入变化1%,价格不变时所引起的商品需求量变动的百分比。需求的价格弹性是价格变化1%,收入不变时所引起的商品需求量变动的百分比。目前六十页\总数一百一十三页\编于八点三.例子例2.5需求函数本章§1中,我们曾给出一个食品支出为因变量,个人可支配收入和食品价格指数为解释变量的线性回归模型例子(例2.2)。现用这三个变量的对数重新估计(采用同样的数据),得到如下结果(括号内数字为标准误差):回归结果表明,需求的收入弹性是0.64,需求的价格弹性是-0.48,这两个系数都显著异于0。目前六十一页\总数一百一十三页\编于八点

例2.6柯布-道格拉斯生产函数

用柯布和道格拉斯最初使用的数据(美国1899-1922年制造业数据)估计经过线性化变换的模型得到如下结果(括号内数字为标准误差):

从上述结果可以看出,产出的资本弹性是0.23,产出的劳动弹性为0.81。目前六十二页\总数一百一十三页\编于八点例2.7货币需求量与利率之间的关系

M=a(r-2)b这里,变量非线性和参数非线性并存。对此方程采用对数变换

logM=loga+blog(r-2)令Y=logM,X=log(r-2),β1=loga,β2=b

则变换后的模型为:

Yt=β1+β2Xt+ut

目前六十三页\总数一百一十三页\编于八点

将OLS法应用于此模型,可求得β1和β2的估计值,从而可通过下列两式求出a和b估计值:

应当指出,在这种情况下,线性模型估计量的性质(如BLUE,正态性等)只适用于变换后的参数估计量,而不一定适用于原模型参数的估计量和。目前六十四页\总数一百一十三页\编于八点例2.8上例在确定货币需求量的关系式时,我们实际上给模型加进了一个结束条件。根据理论假设,在某一利率水平上,货币需求量在理论上是无穷大。我们假定这个利率水平为2%。假如不给这一约束条件,而是从给定的数据中估计该利率水平的值,则模型变为:

M=a(r-c)b

式中a,b,c均为参数。仍采用对数变换,得到

log(Mt)=loga+blog(rt-c)+utt=1,2,…,n

我们无法将log(rt-c)定义为一个可观测的变量X,因为这里有一个未知量c。也就是说,此模型无法线性化。在这种情况下,只能用估计非线性模型参数值的方法。目前六十五页\总数一百一十三页\编于八点四.非线性回归

模型

Y=a(X-c)b是一个非线性模型,a、b和c是要估计的参数。此模型无法用取对数的方法线性化,只能用非线性回归技术进行估计,如非线性最小二乘法(NLS)。该方法的原则仍然是残差平方和最小。计量经济软件包通常提供这类方法,本书第五章将对非线性回归方法作较深入的介绍,这里仅给出有关非线性最小二乘法的大致步骤如下:目前六十六页\总数一百一十三页\编于八点非线性回归方法的步骤1. 首先给出各参数的初始估计值(合理猜测值);2. 用这些参数值和X观测值数据计算Y的各期预测值(拟合值);3.计算各期残差,然后计算残差平方和∑e2;4.对一个或多个参数的估计值作微小变动;

5.计算新的Y预测值、残差平方和∑e2;

6.若新的∑e2小于老的∑e2,说明新参数估计值优于老估计值,则以它们作为新起点;

7.重复步骤4,5,6,直至无法减小∑e2为止。

8.最后的参数估计值即为最小二乘估计值。目前六十七页\总数一百一十三页\编于八点第五节假设检验本节讨论经典线性回归模型的区间估计和假设检验问题。我们的模型是:

在第二节中我们证明了在扰动项服从正态分布的假设(A5)下,

~j=0,1…,k

其中cjj为矩阵中的(j+1,j+1)元素(主对角线上第j+1个元素)。这一结果为基于OLS估计量的假设检验提供了坚实的基础。目前六十八页\总数一百一十三页\编于八点一、β的置信区间我们可构造一个检验统计量

该变量服从均值为0、标准差为1的标准正态分布。与估计量相联系的概率分布的标准差,通常称为标准误差(standarderror),用Se表示。的标准误差为:

目前六十九页\总数一百一十三页\编于八点如果σ为已知,则由于检验统计量z服从标准正态分布,因而我们可以立即给出总体参数的95%的置信区间为:但实际上,我们一般无法知道扰动项分布的方差,而必须根据观测值数据估计出,然后再来考虑的置信区间的计算问题。目前七十页\总数一百一十三页\编于八点

1.2

的估计可以证明,2的无偏估计量是

式中是残差平方和,分母是的自由度,这是因为我们在估计的过程中,失去了(K+1)个自由度。2.的置信区间我们重新定义的标准误差为:目前七十一页\总数一百一十三页\编于八点则检验统计量

不再服从标准正态分布,而是服从自由度为(n-k-1)的t分布,即这里n和k分别为观测值和解释变量的数目。故的(1-α)%置信区间为:其中α为显著性水平,通常取α=0.05。目前七十二页\总数一百一十三页\编于八点例2.9回到食品需求的例子(例2.2):

其中,Y=在食品上的总支出,X=个人可支配收入,P=食品价格指数用美国1959-1983年的数据,得到如下回归结果(括号中数字为标准误差):

求的95%置信区间。目前七十三页\总数一百一十三页\编于八点由回归结果可知,,我们不难得到的95%置信区间为:即为0.1058~0.1182。目前七十四页\总数一百一十三页\编于八点二、假设检验的逻辑和步骤假设检验始于一个给定的假设,即所谓“原假设”,亦称“零假设”,然后计算检验统计量,这个检验统计量在原假设成立的假定下的概率分布是已知的。下一步是判断计算出的检验统计量的值是否不大可能来自此分布,如果判断是不大可能,则表明原假设不大可能成立。我们用一个例子来说明上述有关假设检验的思路。设有一个原假设规定的值为,这里是研究人员选择的一个值,如果这个原假设(H0:=)成立,我们知道统计量

目前七十五页\总数一百一十三页\编于八点应服从自由度为(n-k-1)的t分布,即如果原假设不成立,则备择假设H1:成立。用于计算t的所有的量都是已知的,可以用估计值及其标准误差Se()算出t的值,因此t可作为检验统计量用于假设检验,如果算出的t值绝对值过大,落入t分布的尾部,意味着原假设不大可能成立,因为在原假设成立的情况下,得到这样一个t值的概率很小。目前七十六页\总数一百一十三页\编于八点由上面的说明不难看出,假设检验可以说就是检验是否出现了小概率事件,如果出现小概率事件,则拒绝原来关于总体参数的假设;如果检验表明得到的样本值并不属于小概率事件,即若我们的假设成立,得到该样本值的概率不算小,则我们不能拒绝原来的假设,或者说,我们“接受”原假设。问题是,我们上面提到的概率究竟应该小到什么程度才算小。一般说来,这取决于我们愿意承担的拒绝一个正确的假设和接受一个错误的假设这两方面的风险。在实践中,一般习惯于取5%作为拒绝假设的临界水平,称为5%的显著性水平。目前七十七页\总数一百一十三页\编于八点假设检验的具体步骤是:(1)建立关于总体参数的原假设和备择假设;(2)计算检验统计量,检验原假设(是否出现小概率事件);(3)得出关于原假设是否合理的结论。例2.10仍用食品需求的例子(例2.2)试检验原假设:。目前七十八页\总数一百一十三页\编于八点原假设:H0:β1=0.12备择假设:H1:β1≠0.12我们有:

用υ=n-k-1=25-2-1=22查t表,截断两侧5%面积的t临界值tc=2.074∵

故拒绝原假设H0:。目前七十九页\总数一百一十三页\编于八点三、系数的显著性检验在假设检验中,有关斜率系数是否为0的假设检验特别重要。如果通过检验,接受的原假设,则表明Xj和Y没有关系,即Xj对Y的变动没有影响。在这种情况下,可考虑从模型中剔除Xj。这类检验称为系数的显著性检验。1. 单个系数显著性检验目的是检验某个解释变量的系数βj是否为0,即该解释变量是否对因变量有影响。原假设H0:

βj=0

备择假设H1:

βj≠0目前八十页\总数一百一十三页\编于八点单个系数显著性检验的检验统计量是自由度为n-k-1的t统计量:~t(n-k-1)其中,为矩阵主对角线上第j+1个元素。而目前八十一页\总数一百一十三页\编于八点

例2.11仍用食品需求的例子(例2.2),回归结果如下(括号中数字为标准误差):

试检验价格的系数的显著性。解:原假设H0:备择假设H1:

查t表,

故拒绝原假设H0。结论:显著异于0,P对Y有影响。目前八十二页\总数一百一十三页\编于八点2.若干个系数的显著性检验(联合假设检验)

有时需要同时检验若干个系数是否为0,这可以通过建立单一的原假设来进行。设要检验g个系数是否为0,即与之相对应的g个解释变量对因变量是否有影响。不失一般性,可设原假设和备择假设为:

H0:β1=β2=…=βg

=0H1:

H0不成立

(即X1,…Xg中某些变量对Y有影响)目前八十三页\总数一百一十三页\编于八点分析:这实际上相当于检验g个约束条件

β1=0,β2=0,…,βg

=0是否同时成立。若H0为真,则正确的模型是:

据此进行回归(有约束回归),得到残差平方和

SR是H0为真时的残差平方和。

目前八十四页\总数一百一十三页\编于八点若H1为真,正确的模型即原模型:据此进行无约束回归(全回归),得到残差平方和S是H1为真时的残差平方和。目前八十五页\总数一百一十三页\编于八点

如果H0为真,则不管X1,…Xg这g个变量是否包括在模型中,所得到的结果不会有显著差别,因此应该有:

S≈SR如果H1为真,则由上一节中所讨论的残差平方和∑e2的特点,无约束回归增加了变量的个数,应有

S<SR

通过检验二者差异是否显著地大,就能检验原假设是否成立。目前八十六页\总数一百一十三页\编于八点所使用的检验统计量是:

~F(g,n-k-1)其中,g为分子自由度,n-k-1为分母自由度。使用的作用是消除具体问题中度量单位的影响,使计算出的F值是一个与度量单位无关的量。目前八十七页\总数一百一十三页\编于八点例2.12给定20组Y,X1,X2,X3的观测值,试检验模型中X1和X3对Y是否有影响?解:(1)全回归估计得到:S=∑e2=25

(2)有约束回归

估计得到:SR=∑e2=30目前八十八页\总数一百一十三页\编于八点原假设H0:β1=

β3=0

备择假设H1:

H0不成立我们有:n=20,g=2,k=3用自由度(2,16)查F分布表,5%显著性水平下,

∵F=1.6<FC=3.63,故接受H0。结论:X1和X3对Y无显著影响目前八十九页\总数一百一十三页\编于八点3.全部斜率系数为0的检验

上一段结果的一个特例是所有斜率系数均为0的检验,即回归方程的显著性检验:

H0:

β1=β2=…=βK=0

也就是说,所有解释变量对Y均无影响。注意到g=K,

则该检验的检验统计量为:

目前九十页\总数一百一十三页\编于八点

分子分母均除以,有

从上式不难看出,全部斜率为0的检验实际是检验R2的值是否显著异于0,如果接受原假设,则表明因变量的行为完全归因于随机变化。若拒绝原假设,则表明所选择模型对因变量的行为能够提供某种程度的解释。目前九十一页\总数一百一十三页\编于八点四.检验其他形式的系数约束条件

上面所介绍的检验若干个系数显著性的方法,也可以应用于检验施加于系数的其他形式的约束条件,如

检验的方法仍是分别进行有约束回归和无约束回归,求出各自的残差平方和SR和S,然后用F统计量进行检验。当然,单个系数的假设检验,如H0:3=1.0,亦可用t检验统计量进行检验。目前九十二页\总数一百一十三页\编于八点例2.13Cobb-Douglas生产函数

Y=AKαLβν

试根据美国制造业1899-1922年数据检验规模效益不变的约束:α+β=1解:(1)全回归

目前九十三页\总数一百一十三页\编于八点(2)有约束回归:将约束条件代入,要回归的模型变为:

Y=AKαL1-αν

为避免回归系数的不一致问题,两边除以L,模型变换为:

Y/L=A(K/L)αν

回归,得:目前九十四页\总数一百一十三页\编于八点

由回归结果得到的约束回归和全回归的残差平方和分别为

SR=0.0716S=0.0710

(3)检验原假设H0:α+β=1

备择假设H1:α+β≠1

本例中,g=1,K=2,n=24

目前九十五页\总数一百一十三页\编于八点

用自由度(1,21)查F表,5%显著性水平下,Fc=4.32∵F=0.18<Fc=4.32

故接受原假设H0:α+β=1

(4)结论我们的数据支持规模收益不变的假设。目前九十六页\总数一百一十三页\编于八点五、回归结果的提供和分析1.回归结果提供的格式在论文、专著或报告中提供回归分析结果时一般应采用简洁而通行的格式,以便于交流。通行的格式有以下两种:(1)

这里116.7、0.112和-0.739分别为常数项和两个斜率系数的估计值,括号中提供的是的标准误差。目前九十七页\总数一百一十三页\编于八点(2)括号中数字分别是原假设、和成立时的t值。由此可见,这两种格式的唯一区别就在于括号中数字的含义不同。正因为如此,人们在论文或著作中提供回归结果时,必须在适当地方说明括号中数字是标准误差还是t值。需要说明的是,提供回归结果的标准格式中一般还包括检验一阶自相关的DW检验值,我们将在下一章“自相关”一节中介绍。目前九十八页\总数一百一十三页\编于八点2.回归结果的分析结果的分析主要包括以下内容:(1)系数估计值。首先是分析系数的符号是否正确,系数值的大小是否恰当,是否符合理论预期和常识。上一段例中斜率系数一正一负,符合经济理论,数值大小也大致合理。(2)拟合情况。例中很高,拟合较理想。(3)系数的显著性。例中斜率系数的t值分别为37.33和-6.48,表明这些系数显著异于0,X和P对Y有影响。(4)根据DW检验值说明是否存在扰动项的自相关。如何说明,将在下一章中介绍。目前九十九页\总数一百一十三页\编于八点第六节

预测

我们用OLS法对多元回归模型的参数进行了估计之后,如果结果理想,则可用估计好的模型进行预测。预测指的是对诸自变量的某一组具体值

来预测与之相对应的因变量值。当然,要进行预测,有一个假设前提应当满足,即拟合的模型在预测期也成立。

目前一百页\总数一百一十三页\编于八点点预测值由与给定的诸X值对应的回归值给出,即

而预测期的实际Y值由下式给出:

其中u0是从预测期的扰动项分布中所取的值。目前一百零一页\总数一百一十三页\编于八点预测误差可定义为:两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论