双变量线性回归管理学与财务知识分析模型课件_第1页
双变量线性回归管理学与财务知识分析模型课件_第2页
双变量线性回归管理学与财务知识分析模型课件_第3页
双变量线性回归管理学与财务知识分析模型课件_第4页
双变量线性回归管理学与财务知识分析模型课件_第5页
已阅读5页,还剩151页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章双变量线性回归模型

(简单线性回归模型)(SimpleLinearRegressionModel)第三章双变量线性回归模型(简单线性回归模型)第一节双变量线性回归模型的估计第二节最小二乘估计量的性质第三节拟合优度的测度第四节双变量回归中的区间估计和假设检验第五节预测第六节有关最小二乘法的进一步讨论第一节双变量线性回归模型的估计第一节双变量线性回归模型的估计

一.双变量线性回归模型的概念设Y=消费,X=收入,我们根据数据画出散点图Y* 这意味着 * Y=+X (1) * 写出计量经济模型* Y=+X+u(2) *其中u=扰动项或误差项Y为因变量或被解释变量图1XX为自变量或解释变量

和为未知参数 第一节双变量线性回归模型的估计

设我们有Y和X的n对观测值数据,则根据(2)式,变量Y的每个观测值应由下式决定:Yi=+Xi+ui,i=1,2,...,n (3)(3)式称为双变量线性回归模型或简单线性回归模型。其中和为未知的总体参数,也称为回归模型的系数(coefficients)。下标i是观测值的序号。当数据为时间序列时,往往用下标t来表示观测值的序号,从而(3)式变成Yt=+Xt+ut,t=1,2,...,n (3’)设我们有Y和X的n对观测值数据,则根据(2)式,变

为何要在模型中包括扰动项u

我们在上一章中已初步介绍了为什么要在模型中包括扰动项u,下面进一步说明之:(1)真正的关系是Y=f(X1,X2,…),但X2,X3,…,相对不重要,用u代表之。(2)两变量之间的关系可能不是严格线性的,u反映了与直线的偏差。(3)经济行为是随机的,我们能够用Y=α+βX解释“典型”的行为,而用u来表示个体偏差。(4)总会出现测量误差,使得任何精确的关系不可能存在。

为何要在模型中包括扰动项u二.普通最小二乘法(OLS法,OrdinaryLeastsquares)1.双变量线性回归模型的统计假设

我们的模型是:Yt=+Xt+ut,t=1,2,...,n这里和为未知总体参数,下一步的任务是应用统计学的方法,由Y和X的观测值(即样本数据)来估计和的总体值,常用的估计方法就是最小二乘法。为了应用最小二乘法,得到好的估计量,双变量线性回归模型需要满足一些统计假设条件,这些统计假设是:二.普通最小二乘法(OLS法,OrdinaryLeas双变量线性回归模型的统计假设

(1).E(ut)=0,t=1,2,...,n即各期扰动项的均值(期望值)为0.(2).E(uiuj)=0ij即各期扰动项互不相关.(3).E(ut2)=2,t=1,2,...,n即各期扰动项方差是一常数.(4).解释变量Xt为非随机量即Xt的取值是确定的,而不是随机的.(5).ut~N(0,2),t=1,2,...,n即各期扰动项服从正态分布。

双变量线性回归模型的统计假设下面简单讨论一下上述假设条件。(1)E(ut)=0,t=1,2,…,n即各期扰动项的均值(期望值)均为0。均值为0的假设反映了这样一个事实:扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理的。下面简单讨论一下上述假设条件。(2)E(uiuj)=0,i≠j即各期扰动项互不相关。也就是假定它们之间无自相关或无序列相关。实际上该假设等同于:cov(ui,uj)=0,i≠j这是因为:cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)——根据假设(1)(2)E(uiuj)=0,i≠j(3)E(ut2)=2,t=1,2,…,n即各期扰动项的方差是一常数,也就是假定各扰动项具有同方差性。实际上该假设等同于:Var(ut)=2,t=1,2,…,n这是因为:Var(ut)=E{[ut-E(ut)]2}=E(ut2)——根据假设(1)(3)E(ut2)=2,t=1,2,…,n(4)Xt为非随机量即Xt的取值是确定的,而不是随机的。事实上,我们后面证明无偏性时仅需要解释变量X与扰动项u不相关,但不容易验证之,因而通常采用非随机量的假设。

(5)ut~N(0,2),t=1,2,...,n即扰动项服从正态分布。满足条件(1)—(4)的线性回归模型称为古典线性回归模型(CLR模型)。

(4)Xt为非随机量

2.最小二乘原理

我们的任务是,在给定X和Y的一组观测值(X1,Y1),(X2,Y2),...,(Xn,Yn)的情况下,求出Yt=+Xt+ut中和的估计值和,使得拟合的直线为最佳。直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示。2.最小二乘原理*****

et************

YXXt图2

Yt

残差

拟合的直线称为拟合的回归线.对于任何数据点(Xt,Yt),此直线将Yt的总值分成两部分。第一部分是Yt的拟合值或预测值:,t=1,2,……,n第二部分,et,代表观测点对于回归线的误差,称为拟合或预测的残差(residuals):

t=1,2,……,n

即t=1,2,……,n残差残差平方和我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使残差总体上尽可能地小。要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是残差平方和,即残差平方和最小二乘法最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择和,使得达到最小值。最小二乘法达到最小值。

运用微积分知识,使上式达到最小值的必要条件为:即运用微积分知识,使上式达到最小值的必要条件为:即整理,得:此二式称为正规方程。解此二方程,得:其中:样本均值离差整理,得:此二式称为正规方程。解此二方程,得:其中:样(5)式和(6)式给出了OLS法计算和的公式,和称为线性回归模型Yt=+Xt+ut的参数和的普通最小二乘估计量

(OLSestimators)。

这两个公式可用于任意一组观测值数据,以求出截距和斜率的OLS估计值(estimates),估计值是从一组具体观测值用公式计算出的数值。一般说来,好的估计量所产生的估计值将相当接近参数的真值,即好的估计值。可以证明,对于CLR模型,普通最小二乘估计量正是这样一个好估计量。(5)式和(6)式给出了OLS法计算和3例子

例1对于第一段中的消费函数,若根据数据得到:n=10,=23,=20则有因而3例子例1对于第一段中的例2设Y和X的5期观测值如下表所示,试估计方程

Yt=+Xt+ut

序号12345Yt1418232530Xt

1020304050

解:我们采用列表法计算。计算过程如下:例2设Y和X的5期观测值如下表所示,试估计方程

Σ5432150304025302320181014831-4-81603004016011015020100-10-200039010004001000100400估计方程为

Σ54321503040253023201810148第二节最小二乘估计量的性质一.和的均值由于从而第二节最小二乘估计量的性质由于从而双变量线性回归管理学与财务知识分析模型课件即两边取期望值,有:——假设(4)=β——假设(1)这表明,是β的无偏估计量。在证明无偏性的过程中,我们仅用到(1)和(4)两条假设条件。即由,我们有:即是的无偏估计量。由,二.和的方差——根据定义

——由无偏性我们有:二.和的方差我们有:两边取期望值,得:两边取期望值,得:由于——根据假设(3)——根据假设(2)所以即与此类似,可得出由于三.高斯--马尔柯夫定理(Gauss--MarkovTheorem)

对于满足统计假设条件(1)--(4)的线性回归模型

Yt=+Xt+ut,,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE,TheBestLinearUnbiasedEstimator)。或对于古典线性回归模型(CLR模型)Yt=+Xt+ut,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE)。三.高斯--马尔柯夫定理(Gauss--MarkovTh我们已在前面证明了无偏性,此外,由于:

——由上段结果,

=其中

这表明,是诸样本观测值Yt(t=1,2,…,n)的线性函数,故是线性估计量。剩下的就是最佳性了,即的方差小于等于β的其他任何线性无偏估计量的方差,我们可以证明这一点,但由于时间关系,从略。有兴趣的同学请参见教科书P46-47。我们已在前面证明了无偏性,此外,由于:四、和的分布我们在前面列出的假设条件(5)表明,

ut~N(0,2),t=1,2,...,n

即各期扰动项服从均值为0、方差为2的正态分布。考虑到假设条件(4),即Xt为非随机量,则由前面结果:=其中,四、和的分布这表明,是N个正态分布变量u1,u2,…,un的线性函数,因而亦为正态分布变量,即

~类似的有:

~

这表明,是N个正态分布变量u1,u2,…,un的线性函数第三节拟合优度的测度

一、拟合优度(Goodnessoffit)的概念

用最小二乘法得到的回归直线至少从残差平方和为最小这一意义上来说是所有可能直线中最佳的拟合线。它是对Y和X之间关系的一种描述,但该直线是不是Y和X之间关系的一种恰当的描述呢?如果各观测点紧密地聚集在这条直线的周围,则表明该直线对Y和X之间关系的描述是好的;否则,用直线来描述这两个变量之间的关系就未必恰当,如下图所示:第三节拟合优度的测度(a)恰当描述(b)不恰当描述图2-3双变量线性回归管理学与财务知识分析模型课件应该指出,对于任意两个变量的一组观测值,我们总是可以运用最小二乘法得到一条直线,问题是该直线能否较好地拟合所给定的观测值,这就是拟合优度问题。拟合优度是两变量之间关系强度的测度。在这里,指的是两变量间线性关系强度的测度。如果所有观测值都落在回归直线上,则称为“完全拟合”,这种情况是罕见的。在一般情况下,总会出现正负残差(et),通过对这些残差的分析,有助于衡量回归直线拟合样本数据点的程度。应该指出,对于任意两个变量的一组观测值,我们总是可二、Y的变差的组成让我们来考察一下Y的变差的组成情况。我们有Y的N个观测值,Y的总变差的一个测度是,Y的变差()中有一部分是可以由X的取值变动所解释的。还有一部分是不能由X所解释的变差,如下图所示:二、Y的变差的组成双变量线性回归管理学与财务知识分析模型课件对于第t个观测值,有:

对于全部N项观测值平方求和,有:

(7)对于第t个观测值,有:(7)由于(7)式中最后一项变为:由于(7)式中最后一项变为:由(1)式、(2)式(书P413.8和3.9式)和残差的定义,显然有:和

因此,(7)式中最后一项为0,我们得到如下结果:(8)

即总变差=由X解释的变差+未解释变差由(1)式、(2)式(书P413.8和3.9式)和残差的三.拟合优度的测度1.决定系数

不难看出,总变差中由X解释的变差比例越大,则就越小,各观测值聚集在回归直线周围的紧密程度就越大,说明直线与观测值的拟合越好。我们将(8)式两端都除以总变差,得:并定义决定系数(coefficientofdetermination)为:

===三.拟合优度的测度用符号表示为:其中,ESS——ExplainedSumofSquaresRSS——ResidualSumofSquaresTSS——TotalSumofSquares

决定系数R2计量了Y的总变差中可以归因于X和Y之间关系的比例,或者说Y的变动中可以由X的变动来解释的比例。它是回归线对各观测点拟合紧密程度的测度。用符号表示为:我们有:R2=1:完全拟合,R2=0:X与Y完全不存在线性关系,R2的值越高,拟合得越好。但什么是高?并没有绝对的标准,要根据具体问题而定。此外,回归中使用时间序列数据还是横截面数据也有不同的标准。对时间序列数据来说,R2的值在0.8、0.9以上是很常见的事,而在横截面数据的情况下,0.4、0.5的R2值也不能算低。我们有:2.相关系数r由R2很容易联想到我们在统计中学过的相关系数。相关系数r与决定系数的关系为:R2=(r)2,相关系数的计算公式为:相关系数r也是拟合优度的测度,其符号取决于的符号(即的符号)

我们有:-1≤r≤1r=1:完全正相关r=-1:完全负相关

r=0:无线性关系2.相关系数r

相关系数和决定系数的计算很简单,事实上,我们只要在原列表计算的表格中加上一个计算的栏目就行了。对于我们前面的例子,列表计算得:因此:r=R2=(0.9938)2=0.9876它表明,在我们的例子中,X与Y存在着很强的线性关系,拟合甚佳。相关系数和决定系数的计算很简单,事实上,我们只要在原第四节双变量回归中的区间估计和假设检验一、β的置信区间我们在第二节中已得出,在5条假设条件成立的情况下,有

~与估计量相联系的概率分布的标准差(standarddeviation),通常称为标准误差(standarderror),用Se或SE表示。的标准误差为:Se()=第四节双变量回归中的区间估计和假设检验如果σ为已知,则我们可以立即给出总体参数β的95%的置信区间为:

±1.96或±1.96Se()但实际上,我们一般无法知道扰动项分布的方差2,而必须根据样本数据估计出2,然后再来考虑β的置信区间的计算问题。如果σ为已知,则我们可以立即给出总体参数β的95%的1、2的估计我们可以用残差来估计扰动项ut的方差2:可以证明,

是2的无偏估计量.上式中的,我们可以直接从残差的定义式

计算得到,也可以通过下面的公式求出:

(推导从略,参见教材P52-53)1、2的估计(推导从略,参见教材P52-53)2、β的置信区间我们重新定义的标准误差为:Se()=则检验统计量t==

~

t(n-2)故β的置信区间为:即2、β的置信区间即为0.10至1.06。也就是说,我们有95%的把握说β在0.10至1.06之间。即为0.10至1.06。也就是说,我们有95%的把握二、假设检验1.假设检验的逻辑和步骤假设检验始于一个给定的假设,即所谓“原假设”,亦称“零假设”,然后计算检验统计量,这个检验统计量在原假设成立的假定下的概率分布是已知的。下一步是判断计算出的检验统计量的值是否不大可能来自此分布,如果判断是不大可能,则表明原假设不大可能成立。我们用一个例子来说明上述有关假设检验的思路。设有一个原假设规定的值为,这里是研究人员选择的一个值,如果这个原假设(H0:=)成立,我们知道统计量二、假设检验如果原假设不成立,则备择假设H1:成立。用于计算t的所有的量都是已知的,可以用估计值及其标准误差Se()算出t的值,因此t可作为检验统计量用于假设检验,如果算出的t值绝对值过大,落入t分布的尾部,意味着原假设不大可能成立,因为在原假设成立的情况下,得到这样一个t值的概率很小。应服从自由度为(n-2)的t分布,即如果原假设不成立,则备择假设H1:成由上面的说明不难看出,假设检验可以说就是检验是否出现了小概率事件,如果出现小概率事件,则拒绝原来关于总体参数的假设;如果检验表明得到的样本值并不属于小概率事件,即若我们的假设成立,得到该样本值的概率不算小,则我们不能拒绝原来的假设,或者说,我们“接受”原假设。问题是,我们上面提到的概率究竟应该小到什么程度才算小。一般说来,这取决于我们愿意承担的拒绝一个正确的假设和接受一个错误的假设这两方面的风险。在实践中,一般习惯于取5%作为拒绝假设的临界水平,称为5%的显著性水平。由上面的说明不难看出,假设检验可以说就是检验是否出假设检验的具体步骤是:(1)建立关于总体参数的原假设和备择假设;(2)计算检验统计量,检验原假设(是否出现小概率事件);(3)得出关于原假设是否合理的结论。假设检验的具体步骤是:例1:仍用上一段例中的数据,我们要检验的是:原假设:H0:β=0.8备择假设:H1:β<0.8这是一个单侧检验的问题。我们有:t===-

1.05用=n-2=10-2=8查t表,截断左侧5%面积的t临界值tc=1.86∵︱t︱=1.05<1.86故接受原假设H0,即β=0.8例1:仍用上一段例中的数据,我们要检验的是:图2.5图2.52.系数的显著性检验在假设检验中,有关β是否为0的假设检验特别重要。如果通过检验,接受β=0的原假设,则表明X和Y没有关系,即X对Y的变动没有影响。在这种情况下,就应从模型中剔除X,寻找其他解释变量。这类检验称为系数的显著性检验。2.系数的显著性检验例2.仍用上例数据进行β的显著性检验。原假设:H0:β=0备择假设:H1:β≠0例2.仍用上例数据进行β的显著性检验。图2-6图2-6三、回归结果的提供和分析我们已得到原假设H0:β=0的t值:t===2.76同样可得出原假设H0::

α=0的t值:t===1.381、 回归结果的提供提供回归分析结果一般有两种方式:(1)=6.70+0.58XR2=0.49(1.38)(2.76)这里6.70和0.58分别为α和β的估计值和。括号中数字是H0:

α=0和H0:β=0为真时的t值。三、回归结果的提供和分析(2)=6.70+0.58XR2=0.49(4.86)(0.21)括号中提供的是和的标准误差。由于存在这两种格式,使得回归结果的读者难以判断出括号中数字究竟是t值还是标准误差。因此,要求在提供回归结果时,应予以说明。通常的作法有两种。一种是文字说明,另一种是用符号标示。提供回归分析结果的标准格式中一般还包括检验一阶自相关的DW检验值,我们将在后面介绍。

(2)=6.70+0.58X2、回归结果的分析

结果的分析主要包括以下内容:(1)系数的说明。首先是说明系数的符号和大小是否正确,是否符合经济理论和常识。其次是说明系数的含义,本例中斜率系数为0.58,表明X增加一个单位,Y增加0.58个单位(如收入X增加1元,消费Y增加0.58元)。截距项有时有经济意义,大多数情况下无,因此通常无需说明。(2)拟合情况。如本例中R2不高,作为时间序列数据,拟合不理想。(3)系数的显著性。本例中斜率系数的t值为2.76,表明该系数显著异于0,X对Y有影响。(4)是否存在扰动项的自相关。2、回归结果的分析第五节预测

一、预测的概念

预测通常指利用现有信息预测未来。在这里,预测指的是对自变量的某一具体值X0,来预测与它相对应的因变量值Y0。它既可以指对未来某个时期因变量值的预测,也可以是对未包括在横截面样本之中的某个实体数值的预测。

通常情况下,我们要预测的是与样本观测值范围之外的X值对应的Y值,如观测值为1985-2007年,预测2008年的居民消费。但X0也可以在样本X值的范围内。第五节预测二、预测的隐含假设

要进行预测,有一个假设前提应当满足。即对于样本观测值数据成立的X和Y之间的关系对于新的观测值也成立。即若双变量模型的原设定是:

Yt=α+βXt+ut,t=1,2,…,n则要使此模型可以用来作为预测的依据,还应有:Y0=α+βX0+u0也成立。二、预测的隐含假设

三.预测的误差

我们可以得到两种类型的预测值:点预测值和区间预测值。在实践中,如果没有某种精度指标的话,点预测值是没有多大用处的。所以,我们必须提供点预测值的预测误差。

点预测值由与X0对应的回归值给出,即而预测期的实际Y值由下式给出:其中u0是从预测期的扰动项分布中所取的值。三.预测的误差预测误差的来源

由此不难看出,预测误差产生于两个来源:(1)模型中包含扰动项,点预测值是假定预测期扰动项u0为0,而实际上一般不为0。(2)点预测值公式中用的是和的估计值和,样本估计值和一般不等于总体参数

和。预测误差的来源预测误差可定义为:

两边取期望值,得

因此,OLS预测量是一个无偏预测量。预测误差可定义为:

预测误差的方差为:

其它两项协方差等于0。这是因为u0独立于u1,u2,…un,而和均为u1,u2,…un的线性函数,因此它们与u0的协方差均为0。将我们在前面得到的和的方差及协方差代入上式,得:预测误差的方差为:注:第二个等号用到注:第二个等号用到四、Y0的置信区间从e0的定义

可看出,e0为正态变量的线性函数,因此,它本身也服从正态分布。故~N(0,1)由于是未知的,我们用其估计值代替它,有四、Y0的置信区间双变量线性回归管理学与财务知识分析模型课件

0X0X

YY双变量线性回归管理学与财务知识分析模型课件即15.24至21.76,也就是说,我们有95%的把握预测Y0

将位于15.24至21.76之间。即15.24至21.76,也就是说,我们有95例2.且现有一对新观测值,试问它们是否可能来自产生样本数据的同一总体?

解:问题可化为“预测误差是否显著地大?”

当时,预测误差

例2.原假设H0:备择假设H1:检验:若H0为真,则

对于n-2=8个自由度,查表得5%显著性水平检验的t临界值为:即原假设H0:结论:由于故接受原假设,即新观测值与样本观测值来自同一总体。上例的意义在于,我们可以通过从估计模型用的一组观测值中剔除最近期的一两对观测值,用它们来检验模型的预测功效。如果我们在上述检验中拒绝了原假设,则不管是什么原因,我们都要认真对待,回过头来检查模型的设定是否正确。例3书P61例3.7结论:第三章双变量线性回归模型

(简单线性回归模型)(SimpleLinearRegressionModel)第三章双变量线性回归模型(简单线性回归模型)第一节双变量线性回归模型的估计第二节最小二乘估计量的性质第三节拟合优度的测度第四节双变量回归中的区间估计和假设检验第五节预测第六节有关最小二乘法的进一步讨论第一节双变量线性回归模型的估计第一节双变量线性回归模型的估计

一.双变量线性回归模型的概念设Y=消费,X=收入,我们根据数据画出散点图Y* 这意味着 * Y=+X (1) * 写出计量经济模型* Y=+X+u(2) *其中u=扰动项或误差项Y为因变量或被解释变量图1XX为自变量或解释变量

和为未知参数 第一节双变量线性回归模型的估计

设我们有Y和X的n对观测值数据,则根据(2)式,变量Y的每个观测值应由下式决定:Yi=+Xi+ui,i=1,2,...,n (3)(3)式称为双变量线性回归模型或简单线性回归模型。其中和为未知的总体参数,也称为回归模型的系数(coefficients)。下标i是观测值的序号。当数据为时间序列时,往往用下标t来表示观测值的序号,从而(3)式变成Yt=+Xt+ut,t=1,2,...,n (3’)设我们有Y和X的n对观测值数据,则根据(2)式,变

为何要在模型中包括扰动项u

我们在上一章中已初步介绍了为什么要在模型中包括扰动项u,下面进一步说明之:(1)真正的关系是Y=f(X1,X2,…),但X2,X3,…,相对不重要,用u代表之。(2)两变量之间的关系可能不是严格线性的,u反映了与直线的偏差。(3)经济行为是随机的,我们能够用Y=α+βX解释“典型”的行为,而用u来表示个体偏差。(4)总会出现测量误差,使得任何精确的关系不可能存在。

为何要在模型中包括扰动项u二.普通最小二乘法(OLS法,OrdinaryLeastsquares)1.双变量线性回归模型的统计假设

我们的模型是:Yt=+Xt+ut,t=1,2,...,n这里和为未知总体参数,下一步的任务是应用统计学的方法,由Y和X的观测值(即样本数据)来估计和的总体值,常用的估计方法就是最小二乘法。为了应用最小二乘法,得到好的估计量,双变量线性回归模型需要满足一些统计假设条件,这些统计假设是:二.普通最小二乘法(OLS法,OrdinaryLeas双变量线性回归模型的统计假设

(1).E(ut)=0,t=1,2,...,n即各期扰动项的均值(期望值)为0.(2).E(uiuj)=0ij即各期扰动项互不相关.(3).E(ut2)=2,t=1,2,...,n即各期扰动项方差是一常数.(4).解释变量Xt为非随机量即Xt的取值是确定的,而不是随机的.(5).ut~N(0,2),t=1,2,...,n即各期扰动项服从正态分布。

双变量线性回归模型的统计假设下面简单讨论一下上述假设条件。(1)E(ut)=0,t=1,2,…,n即各期扰动项的均值(期望值)均为0。均值为0的假设反映了这样一个事实:扰动项被假定为对因变量的那些不能列为模型主要部分的微小影响。没有理由相信这样一些影响会以一种系统的方式使因变量增加或减小。因此扰动项均值为0的假设是合理的。下面简单讨论一下上述假设条件。(2)E(uiuj)=0,i≠j即各期扰动项互不相关。也就是假定它们之间无自相关或无序列相关。实际上该假设等同于:cov(ui,uj)=0,i≠j这是因为:cov(ui,uj)=E{[ui-E(ui)][uj-E(uj)]}=E(uiuj)——根据假设(1)(2)E(uiuj)=0,i≠j(3)E(ut2)=2,t=1,2,…,n即各期扰动项的方差是一常数,也就是假定各扰动项具有同方差性。实际上该假设等同于:Var(ut)=2,t=1,2,…,n这是因为:Var(ut)=E{[ut-E(ut)]2}=E(ut2)——根据假设(1)(3)E(ut2)=2,t=1,2,…,n(4)Xt为非随机量即Xt的取值是确定的,而不是随机的。事实上,我们后面证明无偏性时仅需要解释变量X与扰动项u不相关,但不容易验证之,因而通常采用非随机量的假设。

(5)ut~N(0,2),t=1,2,...,n即扰动项服从正态分布。满足条件(1)—(4)的线性回归模型称为古典线性回归模型(CLR模型)。

(4)Xt为非随机量

2.最小二乘原理

我们的任务是,在给定X和Y的一组观测值(X1,Y1),(X2,Y2),...,(Xn,Yn)的情况下,求出Yt=+Xt+ut中和的估计值和,使得拟合的直线为最佳。直观上看,也就是要求在X和Y的散点图上穿过各观测点画出一条“最佳”直线,如下图所示。2.最小二乘原理*****

et************

YXXt图2

Yt

残差

拟合的直线称为拟合的回归线.对于任何数据点(Xt,Yt),此直线将Yt的总值分成两部分。第一部分是Yt的拟合值或预测值:,t=1,2,……,n第二部分,et,代表观测点对于回归线的误差,称为拟合或预测的残差(residuals):

t=1,2,……,n

即t=1,2,……,n残差残差平方和我们的目标是使拟合出来的直线在某种意义上是最佳的,直观地看,也就是要求估计直线尽可能地靠近各观测点,这意味着应使残差总体上尽可能地小。要做到这一点,就必须用某种方法将每个点相应的残差加在一起,使其达到最小。理想的测度是残差平方和,即残差平方和最小二乘法最小二乘法就是选择一条直线,使其残差平方和达到最小值的方法。即选择和,使得达到最小值。最小二乘法达到最小值。

运用微积分知识,使上式达到最小值的必要条件为:即运用微积分知识,使上式达到最小值的必要条件为:即整理,得:此二式称为正规方程。解此二方程,得:其中:样本均值离差整理,得:此二式称为正规方程。解此二方程,得:其中:样(5)式和(6)式给出了OLS法计算和的公式,和称为线性回归模型Yt=+Xt+ut的参数和的普通最小二乘估计量

(OLSestimators)。

这两个公式可用于任意一组观测值数据,以求出截距和斜率的OLS估计值(estimates),估计值是从一组具体观测值用公式计算出的数值。一般说来,好的估计量所产生的估计值将相当接近参数的真值,即好的估计值。可以证明,对于CLR模型,普通最小二乘估计量正是这样一个好估计量。(5)式和(6)式给出了OLS法计算和3例子

例1对于第一段中的消费函数,若根据数据得到:n=10,=23,=20则有因而3例子例1对于第一段中的例2设Y和X的5期观测值如下表所示,试估计方程

Yt=+Xt+ut

序号12345Yt1418232530Xt

1020304050

解:我们采用列表法计算。计算过程如下:例2设Y和X的5期观测值如下表所示,试估计方程

Σ5432150304025302320181014831-4-81603004016011015020100-10-200039010004001000100400估计方程为

Σ54321503040253023201810148第二节最小二乘估计量的性质一.和的均值由于从而第二节最小二乘估计量的性质由于从而双变量线性回归管理学与财务知识分析模型课件即两边取期望值,有:——假设(4)=β——假设(1)这表明,是β的无偏估计量。在证明无偏性的过程中,我们仅用到(1)和(4)两条假设条件。即由,我们有:即是的无偏估计量。由,二.和的方差——根据定义

——由无偏性我们有:二.和的方差我们有:两边取期望值,得:两边取期望值,得:由于——根据假设(3)——根据假设(2)所以即与此类似,可得出由于三.高斯--马尔柯夫定理(Gauss--MarkovTheorem)

对于满足统计假设条件(1)--(4)的线性回归模型

Yt=+Xt+ut,,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE,TheBestLinearUnbiasedEstimator)。或对于古典线性回归模型(CLR模型)Yt=+Xt+ut,普通最小二乘估计量(OLS估计量)是最佳线性无偏估计量(BLUE)。三.高斯--马尔柯夫定理(Gauss--MarkovTh我们已在前面证明了无偏性,此外,由于:

——由上段结果,

=其中

这表明,是诸样本观测值Yt(t=1,2,…,n)的线性函数,故是线性估计量。剩下的就是最佳性了,即的方差小于等于β的其他任何线性无偏估计量的方差,我们可以证明这一点,但由于时间关系,从略。有兴趣的同学请参见教科书P46-47。我们已在前面证明了无偏性,此外,由于:四、和的分布我们在前面列出的假设条件(5)表明,

ut~N(0,2),t=1,2,...,n

即各期扰动项服从均值为0、方差为2的正态分布。考虑到假设条件(4),即Xt为非随机量,则由前面结果:=其中,四、和的分布这表明,是N个正态分布变量u1,u2,…,un的线性函数,因而亦为正态分布变量,即

~类似的有:

~

这表明,是N个正态分布变量u1,u2,…,un的线性函数第三节拟合优度的测度

一、拟合优度(Goodnessoffit)的概念

用最小二乘法得到的回归直线至少从残差平方和为最小这一意义上来说是所有可能直线中最佳的拟合线。它是对Y和X之间关系的一种描述,但该直线是不是Y和X之间关系的一种恰当的描述呢?如果各观测点紧密地聚集在这条直线的周围,则表明该直线对Y和X之间关系的描述是好的;否则,用直线来描述这两个变量之间的关系就未必恰当,如下图所示:第三节拟合优度的测度(a)恰当描述(b)不恰当描述图2-3双变量线性回归管理学与财务知识分析模型课件应该指出,对于任意两个变量的一组观测值,我们总是可以运用最小二乘法得到一条直线,问题是该直线能否较好地拟合所给定的观测值,这就是拟合优度问题。拟合优度是两变量之间关系强度的测度。在这里,指的是两变量间线性关系强度的测度。如果所有观测值都落在回归直线上,则称为“完全拟合”,这种情况是罕见的。在一般情况下,总会出现正负残差(et),通过对这些残差的分析,有助于衡量回归直线拟合样本数据点的程度。应该指出,对于任意两个变量的一组观测值,我们总是可二、Y的变差的组成让我们来考察一下Y的变差的组成情况。我们有Y的N个观测值,Y的总变差的一个测度是,Y的变差()中有一部分是可以由X的取值变动所解释的。还有一部分是不能由X所解释的变差,如下图所示:二、Y的变差的组成双变量线性回归管理学与财务知识分析模型课件对于第t个观测值,有:

对于全部N项观测值平方求和,有:

(7)对于第t个观测值,有:(7)由于(7)式中最后一项变为:由于(7)式中最后一项变为:由(1)式、(2)式(书P413.8和3.9式)和残差的定义,显然有:和

因此,(7)式中最后一项为0,我们得到如下结果:(8)

即总变差=由X解释的变差+未解释变差由(1)式、(2)式(书P413.8和3.9式)和残差的三.拟合优度的测度1.决定系数

不难看出,总变差中由X解释的变差比例越大,则就越小,各观测值聚集在回归直线周围的紧密程度就越大,说明直线与观测值的拟合越好。我们将(8)式两端都除以总变差,得:并定义决定系数(coefficientofdetermination)为:

===三.拟合优度的测度用符号表示为:其中,ESS——ExplainedSumofSquaresRSS——ResidualSumofSquaresTSS——TotalSumofSquares

决定系数R2计量了Y的总变差中可以归因于X和Y之间关系的比例,或者说Y的变动中可以由X的变动来解释的比例。它是回归线对各观测点拟合紧密程度的测度。用符号表示为:我们有:R2=1:完全拟合,R2=0:X与Y完全不存在线性关系,R2的值越高,拟合得越好。但什么是高?并没有绝对的标准,要根据具体问题而定。此外,回归中使用时间序列数据还是横截面数据也有不同的标准。对时间序列数据来说,R2的值在0.8、0.9以上是很常见的事,而在横截面数据的情况下,0.4、0.5的R2值也不能算低。我们有:2.相关系数r由R2很容易联想到我们在统计中学过的相关系数。相关系数r与决定系数的关系为:R2=(r)2,相关系数的计算公式为:相关系数r也是拟合优度的测度,其符号取决于的符号(即的符号)

我们有:-1≤r≤1r=1:完全正相关r=-1:完全负相关

r=0:无线性关系2.相关系数r

相关系数和决定系数的计算很简单,事实上,我们只要在原列表计算的表格中加上一个计算的栏目就行了。对于我们前面的例子,列表计算得:因此:r=R2=(0.9938)2=0.9876它表明,在我们的例子中,X与Y存在着很强的线性关系,拟合甚佳。相关系数和决定系数的计算很简单,事实上,我们只要在原第四节双变量回归中的区间估计和假设检验一、β的置信区间我们在第二节中已得出,在5条假设条件成立的情况下,有

~与估计量相联系的概率分布的标准差(standarddeviation),通常称为标准误差(standarderror),用Se或SE表示。的标准误差为:Se()=第四节双变量回归中的区间估计和假设检验如果σ为已知,则我们可以立即给出总体参数β的95%的置信区间为:

±1.96或±1.96Se()但实际上,我们一般无法知道扰动项分布的方差2,而必须根据样本数据估计出2,然后再来考虑β的置信区间的计算问题。如果σ为已知,则我们可以立即给出总体参数β的95%的1、2的估计我们可以用残差来估计扰动项ut的方差2:可以证明,

是2的无偏估计量.上式中的,我们可以直接从残差的定义式

计算得到,也可以通过下面的公式求出:

(推导从略,参见教材P52-53)1、2的估计(推导从略,参见教材P52-53)2、β的置信区间我们重新定义的标准误差为:Se()=则检验统计量t==

~

t(n-2)故β的置信区间为:即2、β的置信区间即为0.10至1.06。也就是说,我们有95%的把握说β在0.10至1.06之间。即为0.10至1.06。也就是说,我们有95%的把握二、假设检验1.假设检验的逻辑和步骤假设检验始于一个给定的假设,即所谓“原假设”,亦称“零假设”,然后计算检验统计量,这个检验统计量在原假设成立的假定下的概率分布是已知的。下一步是判断计算出的检验统计量的值是否不大可能来自此分布,如果判断是不大可能,则表明原假设不大可能成立。我们用一个例子来说明上述有关假设检验的思路。设有一个原假设规定的值为,这里是研究人员选择的一个值,如果这个原假设(H0:=)成立,我们知道统计量二、假设检验如果原假设不成立,则备择假设H1:成立。用于计算t的所有的量都是已知的,可以用估计值及其标准误差Se()算出t的值,因此t可作为检验统计量用于假设检验,如果算出的t值绝对值过大,落入t分布的尾部,意味着原假设不大可能成立,因为在原假设成立的情况下,得到这样一个t值的概率很小。应服从自由度为(n-2)的t分布,即如果原假设不成立,则备择假设H1:成由上面的说明不难看出,假设检验可以说就是检验是否出现了小概率事件,如果出现小概率事件,则拒绝原来关于总体参数的假设;如果检验表明得到的样本值并不属于小概率事件,即若我们的假设成立,得到该样本值的概率不算小,则我们不能拒绝原来的假设,或者说,我们“接受”原假设。问题是,我们上面提到的概率究竟应该小到什么程度才算小。一般说来,这取决于我们愿意承担的拒绝一个正确的假设和接受一个错误的假设这两方面的风险。在实践中,一般习惯于取5%作为拒绝假设的临界水平,称为5%的显著性水平。由上面的说明不难看出,假设检验可以说就是检验是否出假设检验的具体步骤是:(1)建立关于总体参数的原假设和备择假设;(2)计算检验统计量,检验原假设(是否出现小概率事件);(3)得出关于原假设是否合理的结论。假设检验的具体步骤是:例1:仍用上一段例中的数据,我们要检验的是:原假设:H0:β=0.8备择假设:H1:β<0.8这是一个单侧检验的问题。我们有:t===-

1.05用=n-2=10-2=8查t表,截断左侧5%面积的t临界值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论