![计量经济学-第二章--一元线性回归模型PPT课件_第1页](http://file2.renrendoc.com/fileroot_temp3/2021-11/18/3f832b18-250d-4faf-a745-8bcfb7f01ea7/3f832b18-250d-4faf-a745-8bcfb7f01ea71.gif)
![计量经济学-第二章--一元线性回归模型PPT课件_第2页](http://file2.renrendoc.com/fileroot_temp3/2021-11/18/3f832b18-250d-4faf-a745-8bcfb7f01ea7/3f832b18-250d-4faf-a745-8bcfb7f01ea72.gif)
![计量经济学-第二章--一元线性回归模型PPT课件_第3页](http://file2.renrendoc.com/fileroot_temp3/2021-11/18/3f832b18-250d-4faf-a745-8bcfb7f01ea7/3f832b18-250d-4faf-a745-8bcfb7f01ea73.gif)
![计量经济学-第二章--一元线性回归模型PPT课件_第4页](http://file2.renrendoc.com/fileroot_temp3/2021-11/18/3f832b18-250d-4faf-a745-8bcfb7f01ea7/3f832b18-250d-4faf-a745-8bcfb7f01ea74.gif)
![计量经济学-第二章--一元线性回归模型PPT课件_第5页](http://file2.renrendoc.com/fileroot_temp3/2021-11/18/3f832b18-250d-4faf-a745-8bcfb7f01ea7/3f832b18-250d-4faf-a745-8bcfb7f01ea75.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章第二章 一元线性回归模型一元线性回归模型第六节 回归预测第一节 一元线性回归模型第二节 一元线性回归模型的参数估计 第三节 OLSE的有限样本性质与古典假定第四节 一元线性回归模型参数的统计推断第五节 OLSE的渐进性质第七节 利用EViews进行回归分析第1页/共96页 回归分析是经典计量经济学的方法论基础,线性回归分析是计量经济建模的起点,一元线性回归模型是最基本的计量经济学模型。本章将通过介绍一元线性回归模型的建模方法,使读者逐步了解计量经济学的研究思路、建模步骤和具体方法,并能使用这种方法实现对某些经济问题的定量分析。第2页/共96页 第一节第一节 一元线性回归模型一元线性回归模
2、型 对经济变量相互关系的计量,最基本的方法是回归分析。一般认为,“回归”(RegressionRegression)的概念是英国生物学家高尔顿在18891889年出版的自然遗传一书提出的。高尔顿发现相对于一定身高的父母,子女的平均身高有朝向人类平均身高移动或回归的趋势。这就是“回归”的古典意义。现在我们沿用“回归”这个词,但其意义与回归的古典意义已有很大区别。现代意义的回归是关于一个变量(被解释变量或应变量)对另一个或多个变量(解释变量)依存关系的研究,用适当的数学模型去近似地表达或估计变量之间的影响关系。第3页/共96页一、总体回归函数1、回归线与回归函数 回归分析研究的是总体中解释变量与被
3、解释变量之间客观存在的协变规律性,在经济现象的研究中,这种协变规律是所研究的经济总体的特征。例如(2)某地区农业施肥量对粮食的收成有什么影响?(1)居民可支配收入水平对消费支出有什么影响?第4页/共96页在研究这些问题时,收入、施肥量称为解释变量, , 也被称为自变量、回归元、控制变量、预测变量、协变量;一般用x表示。消费、粮食产量称为被解释变量,或因变量、回归子、响应变量、被预测变量,一般用y表示。 在确定经济总体中相关变量x和y的协变关系时,要面临三个问题:1.x能否来解释y的变化?x和y存在怎样的关系?2.2.既然两个变量间没有一个确切的依存关系,应如何考虑x以外的其他因素对y的影响?3
4、.如何确定是在其他条件不变的情况下描述x和y的关系形式?第5页/共96页 由于实际的经济总体通常难以直接观测,这里以一个简化的例子去说明。 【例2.1】 假如有一个由100个家庭构成的总体,我们要研究的是每月家庭消费支出y与每月家庭可支配收入x之间的关系,并要根据已知的家庭可支配收入水平去预测该总体每月家庭消费支出的平均水平。为了研究的方便,把总体100个家庭按收入水平分为10个组,分别考察各组中每个家庭的消费支出(见表2.1)第6页/共96页7假如已知由假如已知由100100个家庭构成的总体的数个家庭构成的总体的数据据 (单位单位:元元)( |)iE y x每每 月月 家家 庭庭 可可 支支
5、 配配 收收 入入 x1000150020002500300035004000450050005500每每月月家家庭庭消消费费支支出出y8209621108132916321842203722752464282488810241201136517261874211023882589303893211211264141017861906222524262790315096012101310143218351068231924882856320112591340152018852066232125872900328813241400161519432185236526503021339914481
6、6502037221023982789306414891712207822892487285331421538177821792313251329343274160018412298239825383110 170218862316242325671900238724532610201224982487271025892586900115014001650190021502400265029003150第7页/共96页由于可支配收入x与消费支出y之间不是确定性的函数关系而是不确定性的相关关系,对于可支配收入x的每一个固定水平,家庭消费支出y并不确定。即有:( )yf xu 在给定家庭可支配收入
7、在给定家庭可支配收入 x 的条件下,家庭消费支出的条件下,家庭消费支出y形成一定的条件分布。形成一定的条件分布。当当x取某一特定值时,取某一特定值时,y 取各种值的概率,称为取各种值的概率,称为y的条件概率。的条件概率。根据根据 y 的条件分布和条件概率,可以计算出的条件分布和条件概率,可以计算出 y 的条件期望或称条件均值(最的条件期望或称条件均值(最后一行)。后一行)。 对于x的每一个取值xi,都有y的条件期望与之对应,根据表2.1的数据,可作家庭可支配收入x与家庭消费支出y的散点图,如图2.2所示:第8页/共96页9消费支出的条件期望与收入关系的图形消费支出的条件期望与收入关系的图形)(
8、iXYE第9页/共96页( |)( )iiE y xf x虽然每个家庭的消费支出存在差异,但平均来说,家庭消费支出是随家庭可支配收入的递增而递增的。还可以看出,当取各种值时, y的条件均值的轨迹接近一条直线,该直线称为y对x的回归直线。(回归曲线)所研究的总体被解释变量家庭消费支出y的条件均值 ,随解释变量X的变化而有规律的变化,如果把y的条件均值表示为x的某种函数,可写为: 如(2.2)式那样,将总体被解释变量y的条件均值表现为解释变量x的函数,这个函数称为总体回归函数(Population Regres-sion Function,简记为PRF)。第10页/共96页01()( )iiiE
9、y xf xx 在计量经济学中经常把总体回归函数设定为线性函数,这是因为线性函数是最简单的函数形式,而且线性回归函数中参数的估计与检验相对容易,用线性模型去近似地描述总体回归函数,常能获得较好的效果。 假如y的总体条件均值 是解释变量x的线性函数,可表示为: ()iE y x(2.3) 其中0和1为两个待定参数。从几何意义上讲, 0为直线的截距; 1 为直线的斜率(所以称为斜率系数)。在计量经济学中线性模型的“线性“有两种解释:模型就变量而言是线性的模型就参数而言是线性的 第11页/共96页 注意:在计量经济学中,线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类
10、似的方法去估计其参数,都可以归于线性回归。 例如,模型:2*xx201( |)iiE y xx就属于被解释变量与解释变量之间不为线性关系的情形如果我们令:201( |)iiE y xx此时非线性函数*01( |)iiE y xx就变成线性函数了。第12页/共96页( |)iiiuyE y x PRF描述的是随着解释变量的变化被解释变量的平均变动。但是相对于一定的x,y的取值yi并不全在代表平均值轨迹的回归线上,而是围绕回归线上下波动,也就是说y总是分布在条件均值的周围。 若令各个yi值与条件均值的偏差为ui ,显然 ui 是个可正可负的随机变量,称为随机扰动项或随机误差项。即(|)iiiyE
11、yxu二、随机扰动项 u第13页/共96页( |) ( |)(|)( |)(|)iiiiiiiE y xE E y xE uxE y xE ux由于 后一个式子是总体回归函数的个别值表示方式,或称随机设定形式 。二者是等价的 。( | )0iiE u x 显然,这里暗含着 的假定条件,说明回归线是通过y的条件均值。在总体回归函数中引进随机扰动项,主要有以下几方面的原因: 1.作为未知影响因素的代表作为未知影响因素的代表。(理论的模糊性)由于对所研究的经济现象的变动规律的认识并不完备,除了一些已知的主要因素以外,还有一些未被认识或尚不能肯定的因素影响着被解释第14页/共96页15变量,因此只得用
12、随机扰动项作为被模型省略掉的未知因素的代表。 2. 作为无法取得数据的已知因素的代表作为无法取得数据的已知因素的代表。有一些因素已经知道对被解释变量有相当的影响,但可能无法获得这些变量的定量数据。例如,在研究家庭消费支出时,根据有关经济理论的分析,认为家庭财产的数量对家庭消费支出也有影响,可是一般情况下取得家庭财产的数据有困难,在计量经济模型中不得不把家庭财产略去,而这类变量的影响被归入到随机扰动项。 3. 作为众多细小影响因素的综合代表作为众多细小影响因素的综合代表。某些影响因素已经被认识到,其数据也可能获得,例如影响家庭消费支出的还可能有子女人数、性别构成、民族习惯、受教育程度,等等,但是
13、这些因素或许对被解释变量家庭消费支出的影响比较小,或许其影响不很规则、有的可能不易数量化,从经济计量的成本考虑,通常不把它们列入模型,而将它们的联合影响处理为随机扰动项。第15页/共96页 4. 模型的设定误差模型的设定误差。在设定经济计量模型时,总是力图使模型更为简单明了,当用较少的解释变量就能说明被解释变量的实质变化时,就不应把更多的解释变量列入模型;当用较简洁的函数形式就能说明变量之间的本质联系时,就尽量不采用更为复杂的函数形式。这样,变量和函数形式的设定可能会引起设定误差,这种设定误差也要由随机扰动项来表示。 5. 变量的观测误差变量的观测误差。对社会经济现象观测所得到的统计数据,由于
14、主客观的原因,可能地会有一定的观测误差,这种观测误差只有归入随机扰动项。 6. 经济现象的内在随机性经济现象的内在随机性。即使把所有相关的影响因素全部纳入模型,即使不存在观测误差,但是人所从事的一些经济行为还是可能具有不可重复性和随机性。例如,某些涉及人们思想行为的变量,很难完全控制,而是具有内在的随机性,这种内在的随机性也可能影响人们的经济行为。这类变量变内在的随机性的影响只能归入随机扰动项。 第16页/共96页三、样本回归函数 对于实际的经济问题,通常总体包含的单位数很多,无法掌握所有单位的数值,总体回归函数实际上是未知的。我们可能做到的只是对应于解释变量x的选定水平,对被解释变量y的某些
15、样本进行观测,然后通过对样本观测获得的信息去估计总体回归函数。 如果变量x和y之间存在线性相关关系,对于任意抽取的若干个观测(样本)点,()iix y 有01iiiyxe第17页/共96页我们称(2.6)为样本回归模型。它由两部分组成: 称为系统分量(信号),是可以被x解释的部分,也称为可解释分量; 是不能被解释的部分,称为残差,它是随机项 的代表值,也称为不可解释分量(噪声)。将系统分量表示为:ix1001iiyx),(iiyx 称为一元线性样本回归方程(Sample Regression Function,简记为SRF),简称样本回归方程或样本回归线 。又因(2.7)式的建立依赖于样本观测
16、值 , 所以我们又称其为经验回归方程。 ieiu第18页/共96页iyiy 10 为样本回归系数。其中, 是估计的回归直线在y轴上的截距,是总体回归系数 的样本估计值; 是直线的斜率,是总体回归系数 的样本估计值。 的实际意义为x每变动一个单位时,y的平均变动值,即x的变动对y变动的边际贡献率。 是实际观测值 的拟合值或估计值。10,011 必须明确,样本回归函数与总体回归函数是有区别必须明确,样本回归函数与总体回归函数是有区别的。首先,总体回归函数虽然未知,但它是确定的;而的。首先,总体回归函数虽然未知,但它是确定的;而由于从总体中每次抽样都能获得一个样本,就都可以拟由于从总体中每次抽样都能
17、获得一个样本,就都可以拟合一条样本回归线,所以样本回归线却是随抽样波动而合一条样本回归线,所以样本回归线却是随抽样波动而变化的,可以有许多条。变化的,可以有许多条。 第19页/共96页 仍然以例2.1中100个家庭的可支配收入与消费支出为例,假设从100个家庭的总体中各随机抽取10个家庭进行观测,形成了两个随机样本,如表2.2和表2.3所示:表2.2 随机样本(一) 单位:元可支配可支配收入收入x1000150020002500300035004000450050005500消费支消费支出出y 888112113401650217922102398265030213288第20页/共96页可支
18、可支配收配收入入x1000150020002500300035004000450050005500消费消费支出支出y 888112113401650217922102398265030213288表2.3 随机样本(二) 单位:元SRF1SRF2 YX * * * * * * * 图2.4 两个随机样本的样本回归函数示意图第21页/共96页第22页/共96页 这说明:样本回归线随抽样波动而变化;每次抽样都能获得一个样本,就可以拟合一条样本回归线,(SRF不唯一,PRF唯一) ieiu01和 所以,样本回归线还不是总体回归线,至多只是未知的总体回归线的近似反映。其次,总体回归函数的参数 是确定的
19、常数;而样本回归函数的参数 是随抽样而变化的随机变量。此外,总体回归函数中的 是不可直接观测的;而样本回归函数中的 是只要估计出样本回归函数的参数就可以计算 。01和 表示总体经济活动规律的总体回归函数是未知的,在计量经济学中进行回归分析的目的,就是要根据有可能获得的样本回归函数去对总体回归函数作出合理的估计。然而,样本毕竟不等于总体,样本回归函数SRF几乎总是与总体回归PRF存在着差异。回归分析的目的是要用样本回归函数去尽可能准确的估计总体回归函数。第23页/共96页一、普通最小二乘估计 (Ordinary Least SquaresOLS)。它建立在一个简单的估计准则最小二乘准则之上。01
20、iiiiieyyyx最小二乘准则是使全部观测值的残差平方和为最小,即2201minminmin()iiiQeyx011001112()02()0niiiniiiiQyxQyx x 第二节第二节 一元线性回归模型的参数估计一元线性回归模型的参数估计第24页/共96页niiniiniiiniiniixxyxxny1211011101(2.8)0101()0()0iiiiiyxyx x01即和应满足下列方程组:(2.8)整理得正规方程组: 这两个方程分别相当于 0,0,iiiee x在后面的证明中经常用到这两个条件。第25页/共96页26求解得以观测值表现的OLS估计量:niiyny11niixnx
21、11其中:(2.9) 由此式估计出的 称为参数的最小二乘估计量(Ordinary Least Square EstimatorsOLSE)。 01 和122201()()()()iiiiiiiiinx yxyxxyynxxxxyx 例22 以表2-4所示随机样本(一)的数据,用OLS法估计一元线性样本回归方程中的系数。 第26页/共96页第27页/共96页由表2.4计算知:10n 32500ix 20745iy 212650000ix 78352500iix y 248905715iy12010 7835250032500 207450.5310 126500003250011207450.5
22、3325003521010于是得样本回归函数:3520.53iiyx 该模型的经济意义是,自发消费(截距项)是352元,边际消费倾向(斜率项)是0.53,即每增加1元收入,平均带来0.53元的消费增加。第28页/共96页由最小二乘法确定的一元线性回归方程有以下性质:iixy101 1、它是由所选取的样本唯一决定的。即对于一个给定的样本,只能估计出一个 ,但对于不同的样本,估计出的 和 可能不相等,即它们是服从某种分布的随机变量。10,0101neenni3、残差 与 的大小无关,进而与 的大小无关,即 ieixiy 0),(),(iiiiyeCovxeCov4、由 知: 。说明回归直线 通过样
23、本的平均点 。xy10 xy10iixy10),(yx2、残差的均值为零,即0iie x 第29页/共96页二、拟合优度 R2 样本回归函数是对样本数据的一种拟合,对于同一组样本数据来说,用不同的方法估计回归函数的参数,可拟合出不同的回归线。从散点图上看,样本回归线对样本观测值总是存在或正或负的偏离。所估计的样本回归线对样本观测数据拟合的优劣程度,称为样本回归线的拟合优度(Goodness of Fit)。为了评价所建立的样本回归函数对样本观测值的拟合程度,需要对模型的拟合优度加以度量。(一)总变差的分解 在计量经济学中,度量模型拟合优度的样本决定系数建立在对被解释变量总变差分解的基础之上。回
24、顾样本回归模型(2.6):01iiiiiyxeye第30页/共96页上式两边同减去 可得因变量y总离差的分解公式:y()()()iiiiiiyyyyeyyyy(2.10) 其中,()iyy称为总变差; ()iyy称为可被x解释的变差 ()iiieyy称为残差,或不可解释的变差。(2.10)说明总离差可以分为可解释离差与残差的和,如图2-4所示:第31页/共96页xyiy yieixxiyySRF第32页/共96页222()()()2()()iiiiiiiyyyyyyyyyy对(2.10)两边平方并对所有观测值加总,可以得到下式: (2.11)由于01()()()iiiiiyyyyxy e010
25、ii iiexeye所以222()()()iiiiyyyyyy(2.12) 其中,等号左边称为总离差平方和(Total Sum of Squares)用TSS表示:222221()()iiiiTSSyyynyyyn(2.13)第33页/共96页 等号右边第一项称为回归平方和或可解释平方和(Explaned Sum of Squares),是由样本回归线作出解释的变差,用ESS表示:被解释变量Y的估计值与其平均值的离差平方和。2201()iiiiESSyyyx yny2121()()()niiniixxyyxx 等号右边第二项称为残差平方和(Residual Sum of Squares),是回
26、归线未作出解释的变差,用RSS表示。iiiiiiyxyyyyRSS1022)(2.14)(2.15)第34页/共96页这样,(2.12)式也可写为TSSESSRSS(2.16)(二)样本决定系数 回归平方和ESS是由回归方程确定的,也就是由自变量x变动引起的,所以又称为可解释平方和;残差平方和RSS是由x之外的随机项u的波动引起的,所以又称不可解释平方和。不难看出, 差平方和RSS 在TSS中所占比例就越小,说明回归效果就越好,即回归线与样本观测值拟和的越好。为此我们把回归平方和占总平方和的比重定义为样本决定系数或可决系数(Coefficient of determination),记为回归平
27、方和(可解释平方和)ESS在TSS中所占比例越大,残222)()(1yyyyTSSRSSTSSESSRii(2.17) 第35页/共96页2R2R1201R 显然, 。 越接近于1,表示回归直线与样本观测值拟合越好, 所以可以用 来度量回归直线与样本观测值拟合优度。另一方面, 若 大,说明总体回归系数 为零的可能性小, 解释变量 对被解释变量 的解释程度就高,可以推测总体线性相关关系显著。反之亦然。2Ryx例23 计算例22中建立的回归模型的样本决定系数。在表2.4中已经计算出 276650ie 2222()48905715-10 2074.55870212.5iiTSSyyyny样本决定系数
28、为:22276650111 0.01310.9869()5870212.5iieRyy 第36页/共96页 这说明,在被解释变量(消费支出) 样本观测值的总变差中,有98.69%可由所估计的样本回归模型做出了解释。2R3. 是样本观测值的函数,是随抽样而变动的随机变量;2R样本决定系数 有如下特点:2R1. 是非负的统计量;201R2. 取值范围: ;2R2R样本决定系数 与样本相关系数r以及回归方程的斜率1有如下关系:2222221222()()()()()()xyiiiiixxyyiLxxyyxxRrxxyyL Lyy第37页/共96页 虽然样本决定系数在数值上等于简单线性相关系数的平方,
29、但是应注意二者在概念上是有明显区别的。首先,从意义上讲,样本决定系数R2是就估计的回归函数而言,度量回归函数对样本观测值的拟合程度,也就是模型中解释变量对被解释变量变差的解释程度;相关系数r2是就两个变量而言,说明两个变量的线性依存程度。其次,样本决定系数度量的是解释变量与被解释变量不对称的因果关系,是在回归分析的基础上说明x对y的变差的解释比例,并不说明x对y的解释;而相关系数度量的是x与y对称的相关关系,不涉及x与y具体的因果关系。而且,样本决定系数具有非负性,取值范围为0,1;而相关系数可正可负,取值范围为-1,1。 在计量经济学中,主要研究回归模型的估计、检验和应用,所以从实际应用看,
30、样本决定系数比相关系数更有意义。第38页/共96页 第三节 OLSE的有限样本性质与古典假定01和 01和01和01和 利用OLS得到的 是总体回归模型未知参数 的估计量。回归分析的目的不仅仅是获得 ,而且要对 做出推断,这就需要考虑估计值能否代表总体参数的真值。这就意味着,研究 在从总体中抽取不同样本时的统计性质非常重要。当样本容量既定时,不同样本得到的 的估计值并不完全一致,它们的统计性质称为样本估计量的有限样本性质(或小样本性质)。估计量的有限样本性质的讨论是参数区间估计和假设检验的基础。良好的有限样本性质包括估计量的无偏性、有效性和正态性等。01和01和一、OLSE的无偏性及其假定,
31、如果参数的估计量的期望等于总体参数的真实值,即第39页/共96页40NoImage。*()E的期望值不等于参数的真实值,则称是有偏的,其偏倚为( ),E则称是参数的无偏估计量。如果参数估计量 OLSE的无偏性是建立在一组简单假定的基础上。下面首先给出相关假定。假定SLR.1:参数线性假定总体回归模型可表述为01yxu01, 其中, 是我们所关心的未知参数,而u是无法观测的随机误差项。回归模型对参数而言是线性的,但它对变量而言不要求一(2.18)第40页/共96页定是线性的,因变量y和自变量x可以是我们所关心的变量的任意函数。假定SLR.2:随机抽样假定(独立同分布假定)( ,):1,2,iix
32、 yin 一个包含n次观测的样本, 是从满足SLR.1 的总体中随机抽取的,各观测值是独立同分布(i.i.d)的。我们可以用随机形式将(2.18)写成01iiiyxu(2.19) 其中,xi、yi都是随机变量,ui是第i次观测的误差或干扰项,其中包含了第i次观测中影响yi的不可观测因素。 这个假定又称为随机回归元假定。有的教材为了简化问题的分析,使用更为严格的固定回归元假定。即假定在重复抽样中,x的值是给定的,但y的值是从y的条件分布(以给定的x值为条件)中随机抽取的。1如例21中,给定x2000,y的值从第41页/共96页1108,1201,1702共11个数值中随机产生。实际上,表2-2、
33、2-3的样本就是这样产生的。固定回归元假定比随机抽样假定严格,实际上随机回归元假定就完全可以支持OLSE的无偏性。假定SLR.3:随机项零条件均值假定(解释变量外生性假定)给定解释变量的任何值,随机误差项的期望值为零,记为:( |)0iE u x这意味着u均值独立于x。变量之间“均值独立”的概念弱于变量的“独立”,但强于变量的“线性无关”。该假定实际上隐含了以下两个假定:第一,总体回归函数设定正确。根据重期望定理, ( ) ( |)(0)0 xixE uE E u xE第42页/共96页所以假定SLR.3也写作 ( |)( )0,iE u xE u统性的影响因素,既没有变量遗漏问题,解释变量也
34、不存在系统的测量误差,模型函数形式设定正确,没有设定偏误。也这是在 说明u中不包含系( |)( )0iE u xE u下,总体回归函数的随机形式 01iiiyxu和均值形式 01( |)iiE y xx才能是等价的。 第二,解释变量x外生。在固定回归元的假定下, ( |)0iE u x自然成立,但这一假定距离现实较远;在随机回归元假定下,则要求随机误差项u的取值均值独立于x(意味着u既与x线性无关,也与x的任意函数无关)。在这一假定下,在承认x随机性的特点的同时,又假定u均值独立于x,使二者对y的影响是可以分离开来,相对而言更加宽松和符合实际一些。二者实际上都意味着模型的解释变量具有外生性。
35、均值独立一定意味着线性无关。根据重期望定理,可以证明,第43页/共96页在( |)0iE u x下,解释变量与随机误差项一定不存在无线性相关,即cov( ,)0,(1,2, )iiu xin 值得注意的是,反之并不成立。可见,假定SLR.3强于假定“随机误差项与自变量线性无关”。 当回归模型满足假定SLR.1SLR.3时,可以证明OLSE满足无偏性。证明如下:()()()iiiixxyyxx y由于1公式(2.9)的斜率估计量可以写成0)(xnxnxxxxii第44页/共96页2221)()()()()()(xxyxxxxyxxxxyyxxiiiiiiiiiiiyxxxx2)()(iiyk2)
36、()(xxxxkiii其中211()0()nniiiiixxkxx211()1()nniiiiiiixx xk xxx且有(2.20)1iy是由(2.20)式可知的线性组合。01iiiyxu由于,所以101011()iiiiiiiiiikxukk xk uk u(2.21)第45页/共96页11111(|)()(|)(|)0iiiiiiiiExEEkuxk E uxk(2.22)该推导利用了假定SLR.3 .0对 的证明就相应简单了。由(2.9)知,0111()iiiiiyxyxk yxk ynn(2.23)0iy是的线性组合。说明0110110(|)(|)( |)(|)()iiiiExE y
37、x xE y xxExxx(2.24)由(2.22)式和(2.24)式可知,OLSE具有无偏性。 第46页/共96页01和 综合上述分析,在假定SLR.1SLR.3满足时,OLS估计量 是线性的和无偏的:线性的(Linear),即它能表示为回归模型中因变量的一个线性函数;无偏的(Unbiased),即 ()jjE(0,1).j 也就是说,OLSE在假定SLR.1假定SLR.3下是总体参数的线性无偏估计量。二、OLSE的有效性及其假定OLSE的有效性是指在所有线性无偏估计量中,最小二乘估计量01,具有最小方差。为了说明OLSE的方差特性,必须导出 01和可以计算出来,但是,表达式往往比较复杂,而
38、且也不能确定是一个有效估计量。若要使OLSE具有某种有效性,需要引入下面的假定。方差的公式。在假定SLR.1假定SLR.3下,OLSE的方差第47页/共96页假定SLR.4:条件同方差性假定给定任意解释变量值,随机误差项都具有相同的方差。用公式表示为:2().(1,2, )iiuVar u xin(1,2, )ix in2us这表明,对于每个ui的条件方差都是某个等于的正常数,也即随机误差项具有条件同方差性(Homoscedasticity),或者说相同的离散程度。根据假定SLR.3, ( |)0iE u x所以有: 2222var( |)(|) ( |)(|)iiiiuu xE uxE u
39、xE ux2u也就是说, 既是u的条件方差,也是u的无条件方差。一般被称为随机项方差。第48页/共96页1有了同方差假定,可以导出 的条件方差的公式:2101var(|)var(|)var(|)iiiiiiiixk yxkxuxbbb=+邋2var(|)iiikux=22222()()iuuiixxxxxx (2.25)同理可以得到 22220221var(|)()()iiuuiixxxnxxnxx2012(,)()uixCovxx (2.27) (2.26) 第49页/共96页可以证明,式(2.25)和式(2.26)给出的OLS估计量 的方差比其它任何线性无偏估计量的方差都要小,即OLSE具
40、有有效性。01和 综上所述,在假定SLR.1SLR.4下,具有线性、无偏性、有效性的有限样本性质,故OLSE称为最佳线性无偏估计量(Best Linear Unbiased Estimator, BLUE),这就是著名的高斯马尔科夫定理(Gauss-Markov Theorem)。因为这个定理,假定SLR.1SLR.4也被称为(横截面数据的)高斯马尔科夫假定。如果高斯-马尔科夫假定中的任何一个假定不成立,那么高斯马尔科夫定理也就不再成立。2us2us01和 在估计的参数 的方差表达式中,都含有随机扰动项的条件方差 (同时也是y的条件方差)。由于 实际上是未知的,因此 的方差实际上无法计算,这就
41、需要对其进行估计。由于随机项ui不可观测,只能从ui的估计残差ei出发,01和第50页/共96页对随机项总体方差 进行估计。 的最小二乘估计量就是残差的样本方差 。公式为2us2us2eS22222iueeRSSSnn(2. 28)在高斯马尔科夫假定下,它是关于的无偏估计量。2u2u2u的正平方根被称为回归标准误(Standard Error of theuRegression,s.e.)。对于例21,2221766509581.2528ueiSen97.88ueS第51页/共96页三、OLSE的正态性假定 在高斯-马尔科夫假定下, OLSE具有BLUE特性,得到了OLSE的期望和方差,为了进
42、一步更为方便的进行统计推断,我们还希望OLSE服从正态分布。当我们以样本中自变量的值为条件时,OLSE的抽样分布取决于其背后误差项的概率分布。OLSE服从正态分布要以误差项的正态分布为条件。因此须在经典线性模型的假定中增加正态性假定。假定SLR.5:随机误差项具有正态性。总体误差项不但u均值独立于x,而且,独立同分布于均值为零、方差为 2us的正态分布:2| . . . ( ,)iuu xii d N o第52页/共96页2 正态性假定是一个非常强的假定,它包含了假定SLR.3和假定SLR.4。在处理有限样本时,它起到了关键作用,不仅有助于我们推导出OLS估计量精确的概率分布,而且使我们能用t
43、检验、F检验和 检验对模型进行统计检验。j 正态性假定还意味着OLSE具有更强的有效性质:在所有无偏估计量中,OLS估计量具有最小方差,比较的范围不再限于 的线性无偏估计量。在横截面回归中,满足经典的模型称为经典线性模型(Classical Linear Model,CLM),相应地,假定SLR.1SLR.5被统称为经典线性模型假定,或古典假定。 为便于读者对于OLSE的有限样本统计性质及其假定有一个整体性了解,将本节的内容归纳为下表:第53页/共96页假定内容OLSE有限样本性质古典假定高斯马尔科夫假定假定SLR.1:参数线性无偏性有效性正态性假定SLR.2:随机抽样假定SLR.3:零条件均
44、值假定SLR.4:条件同方差假定SLR.5:误差项正态分布表2-5 一元线性回归中OLSE有限样本性质及其假定第54页/共96页第四节第四节 一元线性回归模型参数的统计推断一元线性回归模型参数的统计推断01和01和 由于OLS估计量 都是由随机抽取的样本计算得到,所以都是随机变量。为了达到对参数 精度推断,还需进一步确定估计量的概率分布,即抽样分布。 由于普通最小二乘估计量 分别是yi的线性组合,因此的抽样分布取决于y。在u服从正态分布的经典假定下,y是正态变量,则 也服从正态分布,其分布特征由其均值和方差唯一决定。在第五节将证明,在样本容量渐次增大的情况下,即使u不服从正态分布, 的分布也会
45、趋于正态分布。由于分别是 的无偏估计,并确定了其方差的计算公式,所以 的分布性质可以表示为:01和01和01和01和01和01和01和22002(,)()iiuixxNnxx (2.29)第55页/共96页2112(,)()uiixNxx(2.30)2eS 由于误差项的方差 一般未知,需要用样本残差的方差 作为其无偏估计量。因此 的样本标准误差分别是:2u01和121()()uisexx202()()iuixsenxx于是可以计算两个t统计量:第56页/共96页5700000202 (2)()()iuitt nsexnxx1111112 (2)()1()uitt nsexx(2.32) (2.
46、31) 二、回归参数的置信区间 用OLS法得到的参数估计值只是对总体回归函数参数的点估计值,它们都是随抽样而变化的随机变量。尽管在重复抽样中可以预期它的期望会等于参数的真实值,但由于存在随机性的抽样误差,用特定样本得出的估计值并不一定等于参数的真实值。但是,利用OLS估计量的抽样分布可以构造参数01和01和第57页/共96页的置信区间。01由式(2.31)得在置信水平为下的置信区间为20/2(2),()uixtnnxx20/2(2)()uixtnnxx(2.33)11由式(2.32)得在置信水平为下的置信区间为1/21(2),()uitnxx1/21(2)()uitnxx(2.34),1(01
47、)/2(2)tn其中,为置信水平,为显著性水平为自由度为n-2的t分布临界值。第58页/共96页例2-3 运用表2-2样本(一)的数据已估计出参数为 10.53试在95的置信水平下,构造 的置信区间。129581.25u由前例计算知2222()32500()126500002062500010ixxxxn212()9581.25 206250000.02155()isexx故0.05对于给定的置信水平为95,则 ,查t分布表得临界值: 20.025(2)(8)2.306tnt将有关数据代入(2.25)式,即可得到 1/211/21(2)(),(2)()(0.4803,0.5798)tnsetn
48、se第59页/共96页60请读者自己证明: 在95置信水平下, 0的置信区间为(175.4003,528.5997)。三、回归系数的假设检验 一元线性回归模型的参数包括回归系数 和随机项方差 ,它们都不能直接观测或准确计算,只能通过样本观测值去估计,所得到的样本回归系数的估计量是随抽样而变动的随机变量。那末,像这样估计的回归系数和方差是否可靠?是否仅仅为抽样的偶然结果呢?还就需要进行统计检验。01,2u 对回归系数假设检验的基本思想,是在所估计样本回归系数概率分布性质已确定的基础上,在对总体回归系数某种原假设成立的条件下,利用适当的有明确概率分布的统计量和给定的显著性水平,判断原假设结果合理与
49、否。第60页/共96页 对总体回归系数的假设检验可能有不同的要求,可以进行总体参数是否等于零的双边检验,也可以总体回归系数是否大于或小于某特定数值的单边检验。前者也称为回归系数的显著性检验。回归系数显著性检验一般采用t检验。 1以的显著性检验(双边检验)为例,其检验步骤为:第一步:提出假设:原假设 H0: 1=0,备选假设H1: 1 0第二步:构造t统计量11()tse(2.35)其中: 212()()uisexx1为的估计标准误差。 第61页/共96页01:0H (2)tt n在下,有),/2(2)tn第三步:给定小概率(显著水平查t分布临界值。 第四步:做出统计决策。 1称为统计显著,简称
50、(4)作出统计决策 若 | t | t /2(n-2),则拒绝H0 ,接受H1 :认为 1显著不为零,说明y对x的线性相关关系显著;显著; 11称为统计显著,简称若 | t | t /2 (n-2),则不拒绝H0 :认为 1与零没有显著差不显著; 1异,说明y对x的线性相关关系不显著。1称为统计不显著,简称第62页/共96页63 例2-5 例2-2中已估计出 10.53,例2-3已计算出1()0.0216.se为了进一步检验家庭可支配收入是否对消费支出有显著影响,试在0.05的显著性水平下对斜率系数 1进行显著性检验。 01:0H原假设11:0H,备择假设计算t统计量为1110.5324.59
51、0.0216()tse/20.025(2)(8)2.306tnt0.05对于给定的显著性水平,查t分布表知,。 0.02524.59(8)2.306tt01:0H因为,所以拒绝变量可支配收入对被解释变量消费支出确实有显著影响。即认为解释第63页/共96页在EViews软件中,通常是采用Prob.值进行检验。其检验准则是: Prob./2(2)ttn当时,等价于,此时拒绝原假设; Prob./2(2)ttn当时,等价于,此时不拒绝原假设这两种检验方法是等价的。 0对于 的显著性检验,与 的显著性检验类似。 1此外,也可以用参数的置信区间进行的显著性检验。方法是,在 1a-01()或bb置信水平下
52、,构造参数的置信区间,如果这个区间包含0,则在显著性水平 a下,接受 00:0Hb=01(:0)H或b=反之,则拒绝Ho。 第64页/共96页四、回归结果的报告 回归模型经过估计和检验以后,得到了一系列的数据,在以后的计量经济分析中还会得出更多的说明模型特征的有意义的数据。为了更清晰、更简明地表现这些数据,通常将这些数据加以整理,并用一定规范的格式去报告回归分析的结果。例如,对于例22的数据,用OLS法所作的回归分析的结果 通常按以下规范格式表述以上各项数据: 2352 + 0.53 (76.5826) (0.0216) = (4.596) * (24.59) *0.9869=8 iyxset
53、Rdf第65页/共96页其中列在回归方程下方第一排圆括号内的数据是对应参数估计值的标准误差se(有时可不写);第二排圆括号内的数据分别是对应参数等于零的原假设下,所计算的t统计量。t 统计量右*表示显著性水平的大小, 上角的一般表示在显著性水平*1下显著, 一般表示在显著性水平5下显著,无 表示5下不显著。这种表示方法也称作回归方程的标准记法。 从回归估计的结果看,模型拟合较好,判决系数R2=0.9869,表明在样本人均消费支出的总波动中,回归模型能够解释其中的98.69%;从截距项与斜率项的t检验值看,都大于0.01显著性水平下自由度为n-2=8的临界值 0.01(8)=2.896,t即均通
54、过了0.01的显著性检验;从方程斜率项的值看,00.53N时,满足|1nP nn即对在样本容量为时总体参数的估计值,如果当样n充分大时, 本容量n值趋近于真值的概率接近于1,即lim1nnPlimnnP或简记为:(2.36) 第68页/共96页则称 为的一致估计量。nlimnP.n 式中表示概率极限,为简便起见,可略去在大样本的条件下,一致估计量具有很高的精度,但在小样本时,一致性不起作用。幸运的是,在假定SLR.1假定SLR.3下,OLSE既是无偏估计量,也是一致估计量。如对1来说,易知111212()lim()lim()lim()lim()()1lim() )2.361lim() )iii
55、iiiiixx uPPk uPPxxPxx unPxxn()第69页/共96页 由于观测值是独立同分布(i.i.d)的,按照大数定律,等式右边第二项分子是 xu与的样本协方差的概率极限,它等于总体协方差cov( , ),x u根据假设SLR.3,由于 ( |)0,iE u x=一定意味着 cov( , )0 x u ,而分母是x的样本方差的概率极限,对于横截面数据,一般有 0var( ),x 因此111lim()cov( , )/var( )Pxx(2.37) 前面的论证,特别是式(2.30)表明,在假定SLR.1和假定SLR.2下,只要随机误差项与解释变量线性无关,OLSE就是一致估计量。把
56、这一要求表述成一个假定:假定SLR.3:零期望和线性无关(解释变量外生) 随机误差项的期望值为零,随机误差项与解释变量的协方差为零,即第70页/共96页( )0E u cov( , )0 x u 假定SLR.3(均值独立)成立一定意味着假定SLR.3(线性无关)成立,反之则不然。从这个意义上讲,一致性的条件假定SLR.3是一个比无偏性的条件假定SLR.3更弱的假定。这说明,要获得估计量的无偏性,需要假定均值独立假定;而要获得估计量的一致性,可以使用更弱的假定:零期望和零相关性假定。但如果连这个较弱的假定也不成立,OLSE将是有偏而且不一致的。二、渐进正态性 虽然估计量的一致性是一个重要性质,但
57、是仅有一致性还不足以进行统计推断。为了进行检验,需要OLS估计量的抽样分布,OLS估计量确切的正态性,关键取决于总体中随机误差项分布的正态性。但是经典线性回归模型中的正态性假定在有些模型中难以成立。 第71页/共96页 例如,需要估计一个模型,用母亲的受教育年限来解释其所生子女的数量,在总体中,多数母亲是1个孩子,所占比重很大,2个或超过2个子女的比例很小,子女数y的分布明显右偏,而不是正态分布。 我们知道,正态性不影响OLSE在高斯马尔科夫假定下的成为最优线性无偏估计的结论,但基于t统计量的准确推断还是需要假定SLR.5。如果没有正态性为前提,总体参数的推断须有赖于估计量的渐进性质。由假定S
58、LR.2,我们知道样本各观测值是独立同分布()的。基于中心极限定理,能够证明仅仅在高斯马尔科夫假定SLR.1SLR.4下,OLSE就具有渐近正态性(Asymptotic Normality),这一结论并不需要以假定SLR.5为条件。这意味着,即使SLR.5不成立,我们仍可以利用上述结论推知参数估计量的渐进分布,从而替代未知的精确分布,用于统计推论。第72页/共96页1参数的渐近正态分布性质可以表示为:11()n2(0,),var( )uNx(1)渐进服从于, 211()var( )unx是其中,的渐进方差; 22var( )2uuRSSun是(2)的一致估计量; 111()/()se(0,1)
59、.N(3)渐进服从于11()se是其中,的样本标准误差。0参数的渐近正态分布性质同理可得, 在此不再赘述。由此可见,至少在大样本下,OLSE是近似正态分布的。第73页/共96页三、渐进有效性在一元回归模型中,通过求解一阶条件方程组 01 1( ) ()0g xyx01和( )g xx是我们可以得到的一致估计量,记为。由于的任意函数, 01.和01和%01和%01和%所以一致估计量有无限多的估计式。在 01( )1( ),gxg xx且时一致估计量就是最小二乘估计量所以OLSE是这类一致估计量的特例。我们可以证明:在高斯马尔科夫假定(SLR.1-SLR.4)下,OLSE在这类一致估计量中是渐进有
60、效的(Asymptotically Efficient),要对这个问题做一般性的探讨需要进行渐进分析,本节不做展开论述。 第74页/共96页四、结论 上述OLSE渐进性质说明,在CLM假定中的SLR.3(零均值)和SLR.5(正态性)无法满足时, OLSE的BLUE性质不再具备,其精确的抽样分布无法推导出来。但只要样本充分大,在较宽的假定SLR. 下,OLSE仍然具有一致性。而只要满足高斯马尔科夫假定(即假定SLR.1-SLR.4),OLSE仍然具有渐进正态性和渐进有效性等优良的性质。与此有关的区间估计、假设检验等统计推论仍然是可以有效的。这就为我们可以在更为宽松的假定下使用OLS提供了理论依
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- N-Methyl-Metribuzin-d3-1-生命科学试剂-MCE
- Donitabart-生命科学试剂-MCE
- 长安大学兴华学院《健美》2023-2024学年第二学期期末试卷
- 平顶山文化艺术职业学院《融媒体视听传播研究》2023-2024学年第二学期期末试卷
- 酒泉职业技术学院《马克思主义经典著作选读(二)》2023-2024学年第二学期期末试卷
- 湖南2025年01月湖南省保靖县事业单位2025年公开引进16名急需紧缺人才笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 广东2024年12月广州市海珠区江南中街道公开招考4名雇员(协管员)笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025至2030年满型鼓项目投资价值分析报告
- 2025年南瓜籽仁项目项目风险识别与评估综合报告
- 2025年烧结圆锯片项目可行性研究报告
- 汉声数学图画电子版4册含妈妈手册文本不加密可版本-29.统计2500g早教
- 初中化学方程式汇总(鲁教版)
- 企业组织架构表
- 中国监察制度史
- 民俗学概论 第一章 概述课件
- 卫生院基本药物采购供应管理制度
- 搬家公司简介(15个范本)
- 典范英语-2备课材料2a课件
- 抽水蓄能辅助洞室施工方案
- 数据结构英文教学课件:chapter7 Searching
- 幼儿园中班体育活动动作目标及指导要点
评论
0/150
提交评论