一元线性回归模型new课件_第1页
一元线性回归模型new课件_第2页
一元线性回归模型new课件_第3页
一元线性回归模型new课件_第4页
一元线性回归模型new课件_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第二章经典单方程计量经济学模型:

一元线性回归模型

回归分析概述一元线性回归模型的参数估计一元线性回归模型检验一元线性回归模型预测实例分析2授课目标与要求:经典单方程计量经济学模型的一元线性回归模型,是课程最基础的内容。通过教学,要求学生达到:理解经典线性单方程计量经济学模型的数理统计学基础,包括回归分析、假设检验和区间估计;熟练掌握经典线性单方程计量经济学模型的理论与方法,包括基本假设、模型估计和统计检验;理解最小二乘原理和最大或然原理,以及在模型估计中的应用。本章重点和难点:第二节:一元线性回归模型的参数估计第三节:一元线性回归模型的统计检验

3§2.1回归分析概述一、回归分析的基本概念二、简单线性相关分析三、总体回归函数(PRF)四、随机扰动项五、样本回归函数(SRF)51.变量间的关系⑴确定性关系或函数关系:研究的是确定现象非随机变量间的关系。⑵统计依赖或相关关系:研究的是随机变量间的非确定关系。又分为简单相关(存在于两个变量之间的相关关系)和多重相关(存在于三个及以上变量之间的相关关系)。

⑶模糊关系(随机变量的似有似无)62、相关分析的基本概念⑴相关关系,是指两个或两个以上的变量,其样本序列观测值之间表现出来的随机数学关系,常用相关系数来衡量,主要用来判断变量间是否相关。如果两个变量样本序列观测值之间的相关系数的绝对值为1,则二者之间具有完全的相关关系。⑵偏相关关系,是指一个变量与其他两个或两个以上变量的线性组合之间的相关关系。该变量与每一个变量间的相关系数又称偏相关系数。⑶因果关系,是指两个或两个以上的变量,在行为机制等方面上的依赖性。因果关系有单向因果关系和双向因果关系之分。如:价格与供给,价格与需求,投资与GDP等。具有因果关系的变量之间一定具有数学上的相关关系;而具有相关关系的变量之间并不一定就具有因果关系。如:GDP与一棵小树的生长速度,中国GDP与印度人口的关系。⑷相关分析,是判断变量之间是否具有相关关系的一种数学分析方法,一般是通过计算变量之间的相关系数来实现。7○对变量间统计依赖关系的考察主要是通过相关分析(correlation)或回归分析(regression)来完成的。○相关分析是讨论变量之间相关程度的一种统计分析方法。在相关分析中,通常假设两个变量:①对其是同等看待的,②不考虑其因果关系,③对自变量和因变量不加区别,④两个变量均是随机变量。

正相关线性相关

不相关

相关系数(-1≤ρ≤1)统计依赖关系

负相关

有因果关系

回归分析

正相关无因果关系

相关分析

非线性相关

不相关

负相关94、注意事项①不线性相关并不意味着不相关。②有相关关系并不意味着一定有因果关系。③回归分析和相关分析:都是研究随机变量间的统计依赖关系,并能测度线性依赖程度的大小,不关注具体的依赖关系。但它们并不意味着一定有因果关系。④相关分析:仅仅从统计数据上测度变量间的相关程度,无需考察两者间的因果关系,对称地对待任何(两个)变量,两个变量都被看作是随机的。⑤回归分析:更注重变量间的因果关系和具体的依赖关系,对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量),前者是随机变量,后者不是。10二、简单线性相关分析△总体相关系数△样本相关系数△样本相关系数的取值范围△相关系数的显著性检验△线性相关理论的局限性111、总体相关系数总体相关系数。通过观察散点图只能得到两个变量之间相关关系的一个粗略概念。要想精确刻画他们之间的相关程度,需要采用一个数量指标—相关系数来描述。大致进行分析判断。两个变量X、Y之间真实的相关程度,使用总体相关系数ρ来表示的,即:ρ=Cov(X,Y)/[(Var(X)·Var(Y)]1/2=σXY/(σX2·σY2)1/2可以证明总体相关系数的取值范围定义为-1到1之间,即:ρ∈[-1,1],当ρ其取不同值时,两变量间的相关关系也就确定了。

13○但是,在由∑xi·yi的数值符号和大小所提供的相关类型和近似相关程度的信息中,存在两点不足:

第一,∑xi·yi的数值大小受观测点数目n的影响。为校正该点的不足,利用与样本容量n有关的量:n-1去除∑xi·yi,则得到表达式:∑xi·yi/(n-1),即X、Y的样本协方差:SXY=∑xi·yi/(n-1)。第二,∑xi·yi的数值大小受X、Y的计量单位的影响。为校正该点的不足,利用X、Y的标准差SX、SY之乘积去除样本协方差SXY,即表达式:SXY/(SX·SY)。○因为SX、SY与X、Y的计量单位相同,所以表达式SXY/(SX·SY)的比值不受计量单位的影响。因此,我们定义样本相关系数的表达式为:○

r=SXY/(SX·SY)=SXY/(SX2·SY2)½=[∑xi·yi/(n-1)]/[∑xi2/(n-1)·∑yi2/(n-1)]½○即:样本相关系数:r=∑xi·yi/[∑xi2·∑yi2]½143、样本相关系数的取值范围○可以证明:r∈[-1,1]○案例2.1.1:证明:当Xi、Yi完全相关时,∣r∣=1○证明:设样本容量为n,当Xi、Yi完全相关时,有:①Yi=0+1Xi,即:(Xi,Yi)均在一条直线上。②两端连加则有:∑Yi=n0+1∑Xi,同除n:Y=0+1X;即:均值(X,Y)也在直线Yi=0+1Xi上。③两式①、②相减得到:Yi

-Y=1(Xi–X)

,即:yi=1xi④两边同乘xi,yi分别得到:xiyi=1xi2

,yi2=1xiyi,

即:∑xiyi=

1∑xi2;∑yi2=

1∑xiyi⑤将上式代入样本相关系数:r=∑xi·yi/[∑xi2·∑yi2]1/2公式,即可得到:∣r∣=1

154、相关系数的显著性检验(相关检验)○相关系数在统计上是否显著,即总体之间是否显著线性相关,必须进行相应的显著性检验,简称相关检验。相关检验步骤如下:⑴首先计算样本相关系数r。⑵根据样本容量n和显著性水平α(置信水平),查相关系数表,得到临界值(自由度为n-2)rα。⑶检验判断:当∣r∣>rα时,则X,Y显著线性相关,否则不显著。17三、总体回归函数△回归分析△案例分析△总体回归函数181、回归分析○回归分析:相关关系的特征是不确定性,一个变量不能依据其他有关变量的数值,精确地、一一对应地求出其数值。但是,我们可以根据大量的统计数据,找出变量之间在数量变化方面的统计规律,这种统计规律所表现出来的数量关系就叫做回归关系,描述这种回归关系的数学公式就称为回归方程;○有关回归关系的计算方法和理论称为回归分析。又分为:一元回归分析(方程)、多元回归分析(方程);线性回归分析(方程)、非线性回归分析(方程)。○回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值○回归分析的主要目的有三点:①、根据样本观测值,对模型参数进行估计,求得回归方程;②、对回归方程、模型参数估计值进行显著性检验;③、利用回归方程进行预测和控制。192、案例分析:案例2.1.2:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平?为达到此目的,将该100户家庭划分为组内收入差不大(可支配收入水平)的10组,以分析每一可支配收入组的家庭消费支出。○由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出可能不完全相同;见下表:21○但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditionaldistribution)是已知的,例如:P(Y=561|X=800)=1/4。因此,给定收入X的某一个值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望值(conditionalexpectation):E(Y|X=Xi)。该例中:E(Y|Xi=800)=605○描出散点图发现:虽然不同的家庭其消费支出存在差异,但是,随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)233、总体回归函数○在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线(populationregressionline),或更一般地称为总体回归曲线(populationregressioncurve)。相应的函数:○称为(双变量)总体回归函数(populationregressionfunction,PRF)。含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。函数形式:可以是线性或非线性的。○案例中,将居民消费支出看成是其可支配收入的线性函数时,为一线性函数:其中,0,1是未知参数,称为总体回归系数(regressioncoefficients)。251、随机扰动项在案例2.1.2中,总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平Y。但对某一个别的家庭,其消费支出Yi可能与该平均水平Y有偏差,并且聚集在平均水平Y的周围。○对任何个别家庭,记:○称i为观察值Yi围绕它的期望值的离差(deviation),它是一个不可观测的随机变量,又称为随机干扰项(stochasticdisturbance)或随机误差项(stochasticerror)。○观测值点的散布情况表明了经济行为间的真实关系,直线仅仅表示了这种真实关系的理论部分,观测值的点与直线的偏离程度—离差i,表示了这种真实关系的随机成分。262、总体回归模型○在例2.1.2中,给定收入水平Xi,个别家庭的支出可表示为两部分之和:Yi=E(Y|Xi)+

i=

0+1Xi+

i

⑴该收入水平下所有家庭的平均消费支出E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分;⑵其他称为随机或非确定性(nonsystematic)部分i。○上式又称为总体回归函数(PRF)的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响,就成为这些随机影响因素的综合代表。由于方程中引入了随机项,成为计量经济学模型,因此也称其为总体回归模型。随机扰动项i=Yi-E(Yi)○不难证明,对应于Xi值的条件下,Yi的期望值即:E(Yi)。那么Yi的期望值E(Yi)的轨迹就称作总体回归直线,相应的方程:E(Yi)=0+1Xi就是总体回归方程,0,1称作总体回归方程的参数。291、案例分析案例2.1.3:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?在案例2.1.2的总体中有如下一个样本,能否从该样本估计总体回归函数PRF?回答:能表2.1.3家庭消费支出与可支配收入的一个随机样本○画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为样本回归线(sampleregressionlines)。

X

800

1100

1400

1700

2000

2300

2600

2900

3200

3500

Y

594

638

1122

1155

1408

1595

1969

2078

2585

2530

302、样本回归函数(SRF)○该样本的散点图(scatterdiagram):○记样本回归线的函数形式为:○称为样本回归函数(sampleregressionfunction,SRF)31注意:这里将样本回归线看成是总体回归线的近似替代323、样本回归模型同样地,样本回归函数也有如下的随机形式:其中:Yi为真实的样本观测值;残差ei=Yi-Ŷi是随机扰动项i的估计值,代表了其他影响因素的集合。由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sampleregressionmodel)。334、回归分析的主要目的▼回归分析的主要目的:就是要采用有效的估计方法,根据样本回归函数SRF,估计总体回归函数PRF。使估计得到的样本回归方程尽可能接近真实的总体回归方程。根据SRF:估计PRF:有关关系如图。345、一元线性回归方程和回归模型小结一元线性理论方程:Yi=0+1Xi一元线性总体回归方程:E(Yi)=0+1Xi一元线性总体回归模型:Yi=0+1Xi+i一元线性样本回归方程:一元线性样本回归模型:抽样误差:Ŷi-E(Yi)=i–ei§2.2一元线性回归模型的参数估计一、一元线性回归模型的基本假设二、参数的普通最小二乘估计(OLS)三、参数估计的最大或然法(ML)四、最小二乘估计量的性质五、参数估计量的概率分布及随机干扰项方差的估计36说明单方程计量经济学模型分为:线性模型和非线性模型线性模型中,变量之间的关系呈线性关系非线性模型中,变量之间的关系呈非线性关系一元线性回归模型是最简单的模型:只有一个解释变量Yi=

0+1Xi+

i

i=1,2,…,n其中:Y为被解释变量,X为解释变量,0与1为待估参数,为随机干扰项回归分析的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF。估计方法有多种,其中最广泛使用的是普通最小二乘法(ordinaryleastsquares,OLS)。37一、线性回归模型的基本假设○为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。这些假设与所采用的估计方法紧密相关,如果实际模型满足这些基本假设,普通最小二乘法(OLS)就是比较适用的估计方法,否则,OLS就不再适用,进而需要使用其他估计方法。因此,这里的基本假定并不是针对模型的,而是针对OLS的。○线性回归模型的基本假设主要有四条:△随机假定△自变量假定△因变量假定△其他假定381、随机假定○随机假定:是关于i值分布的假定,i是一个随机变量,不包含对Y的系统影响。⑴零期望值假定:E(i)=0,随机扰动项i=Yi-E(Yi),就样本总体而言,i的平均扰动程度为零,也就是说i的随机扰动相互抵消;⑵同方差假定:Var(i)=E[i-E(i)]2=E(i2)=σ2,即对于X的任何值,i

的波动是一样;⑶正态性假定:i~N(0,σ2),对于任一Xi,i

是一个关于他们的零均值对称的正态分布;⑷无自相关假定:Cov(i,j)=E{[i-E(i)][j-E(j)]}

=E(i·j)=E(i)E(j)=0,i≠j。对于不同观测值的i

与j

完全相互独立,互不相关、互不干扰。392、自变量假定○自变量假定:是关于Xi的假定,Xi在回归分析中是固定取值的确定性变量,即非随机变量。⑴Xi与i互不相关假定:即Xi与i

是相互独立地影响Yi的;

Cov(Xi,i)=E{[Xi-E(Xi)][i-E(i)]}=0·0=0。⑵Xi是确定性变量假定:即Xi作为解释变量,没有测量、统计等误差;⑶解释变量无自相关性假定:解释变量的各个观测值不能近似相同,或与常量之间不存在某种线性关系,各个解释变量之间也不存在线性相关。⑷随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。即:该假设旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的伪回归问题(spuriousregressionproblem)。403、因变量假定○因变量假定:是关于Yi的假定,Yi在分析中是一个随机变量。⑴同方差假定:Var(Yi)=E[Yi-E(Yi)]2=E(i2)=σ2

;⑵无自相关假定:Cov(Yi,Yj)=E{[Yi-E(Yi)][Yj-E(Yj)]}=E(i·j)=E(i)·E(j)=0,i≠j。对于不同观测值的Yi与Yj完全相互独立,互不相关、互不干扰;⑶Yi的分布假定:Yi

~(0+1Xi,σ2),Yi是一个关于他们的均值对称的分布。▼以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足经典假设的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,CLRM)。414、其他假定○其他假定:是关于方程形式的假定。⑴综合变量应能够正确归并,即Xi与Yi分别表示各自的项目之和变量;⑵所关心的方程已经被识别,即假定要估计其系数的关系式具有唯一(不同其他)的数学形式;⑶关系式的确定是正确的,即模型没有设定偏误。假定在确定解释变量的过程中,没有出现任何误差,即已经把所有重要的回归自变量明确地包括在模型中了,其数学形式也是正确的。42二、参数的普通最小二乘估计(OLS)○最佳原则:对于样本回归直线的确定,是以能够最好的拟合观测值为准则的。这个准则要求:选择最佳的参数,使全部观测值的残差平方和达到最小,即:∑ei2=>Min

。△普通最小二乘法△几种离差变换形式

431、普通最小二乘法○给定一组样本观测值(Xi,Yi)(i=1,2,…n),要求样本回归函数尽可能好地拟合这组值。○普通最小二乘法(Ordinaryleastsquares,OLS)给出的判断标准是:使二者之差(残差)的平方和最小。∑ei2=○由于是已知的观测值,那么根据极值的性质,应有两个关于未知参数的一阶条件,从而使:∑ei2=>Min

。44方程组(*)称为正规方程组(normalequations)。

45记上述参数估计量可以写成:

○称为OLS估计量的离差形式(deviationform)。○由于参数的估计结果是通过最小二乘法得到的,故称其为普通最小二乘估计量(ordinaryleastsquaresestimators)。

462、几种离差变换形式⑴总体回归模型的离差形式:yi=1xi+i-ū

对总体回归模型Yi=0+1Xi+i,两端连加并同除n,得到:Y=0+1X+ū;两式相减得到离差形式:yi=1xi+i-ū⑵样本回归直线的离差形式:对样本回归直线:,两端连加并同除n,得到样本均值回归直线方程。两式相减,并根据均值性质,得到样本回归直线的离差形式:⑶正规方程组的离差形式:∑eixi=0

根据已知一阶条件:∑ei=0,∑eiXi=0,将xi=Xi-X代入第二式得到:∑eixi=0;○将样本回归模型的离差形式:+ei

代入∑eixi=0,即:∑(

)xi=0

即可以得到样本回归模型的参数估计值的表达式。○注意:∑Yi=∑Y,∑Xi=∑X;∑xi=0,∑yi=0

iixy1ˆb=iixy1ˆb-47三、参数估计的最大或然法(ML)△基本原理△似(或)然函数△参数的最大或然估计量△案例分析481、基本原理○最大或(似)然法(MaximumLikelihood,简称ML),是从最大或然原理出发发展起来的其他估计方法的基础。最大似然原理能更本质地揭示通过样本估计总体参数的内在机理。○当从模型总体中随机抽取n组样本观测值后:对于最小二乘法,最合理的参数估计量应该使得模型能够最好地拟合样本数据;对于最大或然法,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。○从总体中经过n次随机取样,抽到样本容量为n的样本观测值,在任一次随机抽取中,样本观测值都以一定的概率出现,如果已经知道总体的参数,则由变量的频率函数可以计算其概率。○样本观测值已知,如何确定哪个总体最可能产生已经得到的样本观测值?显然:对每个可能的正态总体,估计其取得样本观测值的联合概率,然后选择其参数使样本观测值的联合概率最大的那个总体。○将样本观测值的联合概率函数称为变量的似然函数。通过似然函数极大化求得总体参数估计量的方法称为极大似然法。492、似(或)然函数满足基本假设条件下,对一元线性回归模型:随机抽取n组样本观测值(Xi,Yi)(i=1,2,…n)。假如模型的参数估计量已经求得,为:那么Yi服从如下的正态分布:○于是,Yi的概率函数为:○因为Yi是相互独立的,所以Y的所有样本观测值的联合概率,也即或然函数(likelihoodfunction)为:将该或然函数极大化,即可求得到模型参数的极大或然估计量。503、参数的最大或然估计量由于或然函数的极大化与或然函数的对数的极大化是等价的,所以,取对数或然函数如下:其极值的一阶条件为:○对模型的参数估计量求解:○可见,在满足一系列基本假设的情况下,模型结构参数的最大或然估计量与普通最小二乘估计量是相同的。514、案例分析案例2.2.1:上述家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下表进行。表2.2.1

参数估计的计算表

iX

iY

ix

iy

iiyx

2ix

2iy

2iX

2iY

1

800

594

-1350

-973

947508

640000

352836

2

1100

638

-1050

-929

975870

863784

407044

3

1400

1122

-750

-445

334050

562500

198381

4

1700

1155

-450

-412

185580

202500

170074

5

2000

1408

-150

-159

23910

22500

25408

6

2300

1595

150

28

4140

22500

762

7

2600

1969

450

402

180720

202500

161283

8

2900

2078

750

511

382950

562500

260712

9

3200

2585

1050

1018

10

3500

2530

1350

963

926599

求和

21500

15674

平均

2150

1567

52因此,由该样本估计的回归方程为:

53四、最小二乘估计量的性质○当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。○高斯—马尔可夫定理(Gauss-Markovtheorem):在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。△最小二乘估计量的性质△线性特性△无偏特性△最小方差特性541、最小二乘估计量的性质○考察总体的估计量,可从如下几个方面考察其优劣性:⑴线性性,即是否是另一随机变量的线性函数;⑵无偏性,即其均值或期望值是否等于总体的真实值;⑶有效性,即是否在所有线性无偏估计量中具有最小方差。○这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。○当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质,即样本容量趋于无穷大时:⑷渐近无偏性,是否它的均值序列趋于总体真值;⑸一致性,它是否依概率收敛于总体的真值;⑹渐近有效性,是否它在所有的一致估计量中具有最小的渐近方差。552、线性特性:参数估计值的线性特性是指参数估计值的

表达式均为样本观测值Yi的线性函数式。

○ki和wi均是非随机变量,是由离差xi的非随机特性决定的;○ki的几个性质①∑ki=∑(xi/∑xi2)=∑xi/∑xi2=0;②∑kiXi=∑(xiXi/∑xi2)

=∑xi2/∑xi2=1③∑kixi=∑(xixi/∑xi2)=∑xi2

/∑xi2=1④∑ki2

=1/∑xi2○wi的几个性质①∑wi=∑[1/n-kiX]=∑1/n-∑kiX

=1;②∑wiXi=∑[1/n-kiX]Xi

=∑Xi/n-∑kiXXi=0;③∑wixi=∑[1/n-kiX]xi

=∑xi

/n-∑kiXxi=-X563、参数估计值的无偏特性⑴证明:E(â1)=a1将Yi=a0+a1Xi+i代入表达式:â1=∑kiYi,得:â1=∑ki(a0+a1Xi+i)将上式展开得到:â1=a1+∑ki

i

,则:E(â1)=a1+∑ki

E(i)=a1如果基本假定中的E(i)≠0,则估计值就是有偏的。⑵证明:E(â0)=a0将Yi=a0+a1Xi+i代入表达式:â0

=∑wiYi,得:â0=∑wi(a0+a1Xi+i)将上式展开得到:â0=a0+∑wii

,则:E(â0)=a0+∑wiE(i)=a0如果基本假定中的E(i)≠0,则估计值就是有偏的。○参数估计值的无偏特性是指参数估计值的期望值等于总体回归参数的值。574、参数估计值的最小方差特性○参数估计值的最小方差特性是指在所有的线性无偏参数估计值中,普通最小二乘法的参数估计量具有最小的方差特性,即其波动最小、最稳定。58(2)证明:普通最小二乘法的参数估计量â1具有最小的方差特性,即:Var(â1)=σ2/∑xi2=>Min○假设â´1是用其他方法估计的关于a1的线性无偏估计量,即:â´1=∑CiYi,E(â´1)=a1其中Ci=ki+di

,di是不全为零的常数,据线性无偏性有:E(â´1)=E∑Ci(a0+a1Xi+i)=a0∑Ci+a1∑CiXi+∑CiE(i)=a0∑Ci+a1∑CiXi=a1因此得到:a0∑Ci=0,∑CiXi=1,由:a0∑Ci=0,得到:∑(ki+di)=0,即:∑di=0由:∑CiXi=1,得到:∑(ki+di)Xi=1即:∑diXi=0,那么:Var(â´1)=Var(∑CiYi)=∑Ci2Var(Yi)=∑Ci2σ2=σ2∑(ki+di)2展开∑(ki+di)2得到:∑(ki+di)2=∑ki2+∑di2+2∑kidi而∑kidi=∑xi/∑xi2di=∑(Xi-X)di/∑xi2=(∑Xidi-∑Xdi)/∑xi2=0,所以∑(ki+di)2=∑ki2+∑di2>∑Ki2,即:Var(â´1)>Var(â1)这就是著名的高斯—马尔可夫定理。59

由于最小二乘估计量拥有一个“好”的估计量所应具备的小样本特性,它自然也拥有大样本特性。

60五、参数估计量的概率分布及随机干扰项方差的估计△参数估计量的概率分布△随机误差项的方差2的估计611、参数估计量的概率分布622、随机误差项的方差2的估计○2又称为总体方差。○由于随机项i不可观测,只能从i的估计——残差ei出发,对总体方差进行估计。○可以证明,2的最小二乘估计量是关于2的无偏估计量。即:63在最大或然估计法中,因此,2的最大或然估计量不具无偏性,但却具有一致性。

§2.3一元线性回归模型的统计检验

一、拟合优度检验

二、变量的显著性检验

三、参数的置信区间

65说明回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真实值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。统计检验主要包括:拟合优度检验、变量的显著性检验及参数的置信区间估计。66一、拟合优度检验○拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。度量拟合程度的指标:判定系数(又称可决系数)R2问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下,做的最好的并一定就是质量最高的。所保证的最好拟合,最小二乘估计方法是同一问题内部的比较,拟合优度检验结果所表示的是不同问题间的比较。(不同模型、变量)

△总离差平方和的分解△可决系数(拟合优度系数)671、总离差平方和的分解⑴总离差的分解:已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线:68⑵总离差平方和的分解:对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:如果Yi=Ŷi

,即实际观测值落在样本回归“线”上,则拟合最好,可认为“离差”全部来自回归线,而与“残差”无关。其中:∑Xi

ei=0则有:∑Ŷi

ei=0,∑(Ŷi

-Y)ei=0,69记:总体平方和(TotalSumofSquares)

回归平方和(ExplainedSumofSquares)

残差平方和(ResidualSumofSquares

)○TSS=ESS+RSS○Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。在给定样本中,总体平方和TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此定义:拟合优度:回归平方和ESS/Y的总离差平方和TSS702、可决系数R2○称R2

为(样本)可决系数/判定系数(coefficientofdetermination)。○可决系数的取值范围:[0,1]。R2越接近1,说明实际观测点离样本线越近,拟合优度越高。○注意:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。在例2.1.1的收入-消费支出例中,71二、变量的显著性检验○回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性影响。这就需要进行变量的显著性检验。○变量的显著性检验所应用的方法是数理统计学中的假设检验。在计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。

△假设检验△变量的显著性检验△案例分析721、假设检验○假设检验是统计推断的一个主要内容,其基本任务是根据样本所提供的信息,对未知总体分布的某些假设作出合理的判断。○所谓假设检验,就是事先对总体参数或总体分布形式作出一个原假设(记为H0),然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否显著差异,从而决定是否接受或否定原假设。○假设检验采用的逻辑推理方法是反证法。先假定原假设H0正确,然后根据样本信息观察由此假设而导致的结果是否合理,从而判断是否接受原假设○反证法的判断结果合理与否,是基于“小概率事件不易发生”这一原理的。在原假设下构造一个小概率事件,随机抽样容量为n的样本进行该事件的试验,如果该事件发生了,说明原假设是错误的,因为不该出现的小概率事件发生了,因而应拒绝原假设的正确性。反之,则接受假设的正确性。732、变量的显著性检验○构造t统计量:○检验步骤(针对X的显著性进行检验):⑴对总体参数提出原假设H0:1=0,备择假设H1:10;⑵以原假设H0构造t统计量,并由样本计算其实值;⑶给定显著性水平,查t分布表得临界值t/2(n-2);⑷比较,并判断:若|t|>t/2(n-2),则拒绝H0接受H1

,X与Y显著相关;若|t|t/2(n-2),则拒绝H1接受H0

,X与Y不显著相关;○对于一元线性回归方程中的0,可以此方法构造其t统计量进行显著性检验。743、案例分析○案例2.3.1:在上述案例的家庭收入—消费支出中,首先计算2的估计值,○

t统计量的计算结果分别为:

给定显著性水平=0.05,查t分布表临界值:t0.05/2(8)=2.306○|t1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;○

|t0|<2.306,表明在95%的置信度下,无法拒绝截距项为零的假设。75三、参数的置信区间△置信区间估计△一元线性模型中i(i=0,1)的置信区间△如何缩小置信区间761、置信区间估计○假设检验:可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。○如果存在这样一个区间,称之为置信区间(confidenceinterval);1-称为置信系数(置信度)(confidencecoefficient),称为显著性水平(levelofsignificance);置信区间的端点称为置信限(confidencelimit)或临界值(criticalvalues)。772、一元线性模型中i(i=0,1)的置信区间○在变量的显著性检验中已经知道:○也就是意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2,t/2)的概率是(1-)。表示为:即于是得到:(1-)的置信度下,i的置信区间是在上述收入-消费支出例中,如果给定

=0.01,查表得:因为已知:○于是,1、0的置信区间分别为:

1∈(0.6345,0.9195),0∈(-433.32,226.98)783、如何缩小置信区间○由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。○要缩小置信区间,一般需要采取以下措施:⑴增大样本容量n。因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;⑵提高模型的拟合优度。因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。○模型参数一般具有特定的经济意义,如案例中1的估计值为0.777,能否说边际消费倾向为0.777呢?不能,我们只能说:边际消费倾向以0.99的置信水平,处于以0.777为中心的区间(0.6345,0.9195)中。79§2.4一元线性回归分析的应用:预测问题

一、Ŷ0的无偏估计值二、总体条件均值与个值预测值的置信区间80说明对于一元线性回归方程:给定样本以外的解释变量的观测值X0,可以得到被解释变量的预测值Ŷ0

,可以此作为其条件均值E(Y|X=X0)或个别值Y0的一个近似估计。严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因是:

(1)参数估计量是不确定的;(2)存在随机项的影响所以我们得到仅是预测值的一个估计值,预测值仅以某一个置信度处于以该估计值为中心的一个区间内,预测在更大程度上说是一个区间估计问题81一、Ŷ0的无偏估计值△Ŷ0是条件均值E(Y|X=X0)的一个无偏估计△Ŷ0是个值Y0的一个无偏估计

821、Ŷ0是条件均值E(Y|X=X0)的无偏估计○对于总体回归函数E(Y|X)=0+1X,当X=X0时,有:E(Y|X=X0)=0+1X0

于是有:○可见,Ŷ0是条件均值E(Y|X=X0)的无偏估计。832、Ŷ0是个值Y0的一个无偏估计○对总体回归模型Y=0+1X+,当X=X0时,于是有:○可见,Ŷ0也是个值Y0的一个无偏估计。84二、总体条件均值与个值预测值的置信区间△总体均值预测值的置信区间△总体个值预测值的置信区间△案例分析△小结851、总体均值预测值的置信区间由于已知:于是有:可以证明:因此有:故有:86○于是,在1-的置信度下,总体均值E(Y|X0)的置信区间为:其中872、总体个值预测值的置信区间由Y0=0+1X0+

知:于是有:式中:○从而在1-的置信度下,Y0的置信区间为:883、案例分析○在上述收入—消费支出案例中,得到的样本回归函数为:○则在X0=1000处,有:Ŷ0=–103.172+0.777×1000=673.84○而○因此,总体均值E(Y|X=1000)的95%的置信区间为:

673.84-2.30661.05<E(Y|X=1000)<673.84+2.30661.05

或者是:(533.05,814.62)○同样地,对于Y在X=1000的个体值,其95%的置信区间为:

673.84-2.306130.88<Yx=1000<673.84+2.306130.88

或者是:(372.03,975.65)894、小结○对于Y的总体均值E(Y|X)与个值的预测区间(置信区间):⑴样本容量n越大,预测精度越高,反之预测精度越低;⑵样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。⑶总体回归函数的置信带(域)和个体的置信带(域)

90§2.5实例:时间序列问题

一、中国居民人均消费模型

二、时间序列问题三、线性回归模型评价91一、中国居民人均消费模型△案例分析△建立模型△模型统计检验△预测分析921、案例分析○案例2.5.1:考察中国居民收入与消费支出的关系。GDPP:人均国内生产总值(1990年不变价)CONSP:人均居民消费(以居民消费价格指数(1990=100)缩减)。

表2.5.1

中国居民人均消费支出与人均GDP/人(元)

年份

人均居民消费

CONSP

人均GDP

GDPP

年份

人均居民消费

CONSP

人均GDP

GDPP

1978

395.8

675.1

1990

797.1

1602.3

1979

437.0

716.9

1991

861.4

1727.2

1980

464.1

763.7

1992

966.6

1949.8

1981

501.9

792.4

1993

1048.6

2187.9

1982

533.5

851.1

1994

1108.7

2436.1

1983

572.8

931.4

1995

1213.1

2663.7

1984

635.6

1059.2

1996

1322.8

2889.1

1985

716.0

1185.2

1997

1380.9

3111.9

1986

746.5

1269.6

1998

1460.6

3323.1

1987

788.3

1393.6

1999

1564.4

3529.3

1988

836.4

1527.0

2000

1690.8

3789.7

1989

779.7

1565.9

932、建立模型○该两组数据是1978—2000年的时间序列数据(timeseriesdata)○前例中的收入—消费数据是截面数据(cross-sectionaldata)。○对案例拟建立一元回归模型:○采用Eviews软件进行回归分析的结果见下表2.5.2;○一般可写出如下回归分析结果:

(13.51)(53.47)SMPL:1978-2000R2=0.9927F=2859.23D.W=0.550394

表2.5.2中国居民人均消费支出对人均GDP的回归(1978~2000)

LS//DependentVariableis

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论