




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
单方程计量经济学模型
理论与方法
TheoryandMethodologyofSingle-EquationEconometricModel
单方程模型的特点:模型中只包含一个方程是应用最广泛的模型是联立方程模型理论与方法的基础第二章经典单方程计量经济学模型:
一元线性回归模型
回归分析概述一元线性回归模型的参数估计一元线性回归模型检验一元线性回归模型预测实例§2.1回归分析概述
IntroductiontoRegressionAnalysis一、变量间的关系及回归分析的基本概念二、总体回归函数三、随机扰动项四、样本回归函数一、变量间的关系及回归分析的基本概念1、变量间的关系经济变量之间的关系,大体可分为两类:确定性关系或函数关系:研究的是确定现象非随机变量间的关系。
统计依赖或相关关系:研究的是非确定现象随机变量间的关系。例如:
函数关系:统计依赖关系/统计相关关系:对变量间统计依赖关系的考察主要是通过
相关分析(correlationanalysis)
或回归分析(regressionanalysis)来完成的:
因果关系,是指两个或两个以上变量在行为机制上的依赖性,作为结果的变量是由作为原因的变量所决定的,原因变量的变化引起结果变量的变化。因果关系具有单向因果关系和互为因果关系之分。例如:劳动力与国内生产总值之间具有单向因果关系,在经济行为上是劳动力影响国内生产总值,而不是相反;在国内生产总值与消费总额之间则存在经济行为上的互为因果关系,国内生产总值既决定消费总额,反过来又受消费拉动。回归分析与相关分析的联系与区别联系回归分析建立在相关分析和因果关系分析基础之上,都是研究变量之间的相互关系区别(1)从研究目的看,相关分析是测定变量之间关系的密切程度和变量变化的方向;回归分析对具有相关关系的变量建立数学方程(回归模型)描述变量之间具体的变动关系,通过控制或给定自变量的数值来估计或预测应变量可能的数值。(2)从对变量的处理看,相关分析对称地处理变量,不考虑二者的因果关系,而回归分析对变量的处理是不对称的;相关分析中的变量都作为随机变量,而在回归分析中,假定解释变量是非随机的,应变量是随机变量。回归分析是关于一个变量(被解释变量或应变量)与另一个或多个变量(解释变量或自变量)之间依存关系的研究。其目的是要根据已知的解释变量的值去估计应变量的值。回归分析是在相关分析和因果关系分析的基础上,去研究解释变量对被解释变量的影响。只有存在相关关系的变量才能进行回归分析,相关程度愈高,回归测定的结果愈可靠。具有因果关系的变量之间具有数学上的相关关系,而具有相关关系的变量之间并不一定具有因果关系。因果关系的判定或推断必须依据经过实践检验的相关理论。2、回归分析的基本概念
回归分析是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。这里前一个变量被称为被解释变量(ExplainedVariable)或应变量(DependentVariable),后一个(些)变量被称为解释变量(ExplanatoryVariable)或自变量(IndependentVariable)。由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。回归分析构成计量经济学的方法论基础,其主要内容包括:(1)根据样本观察值对计量经济模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行检验;(3)利用回归方程进行分析、评价及预测。例2.1:一个假想的社区有99户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。为达到此目的,将该99户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出(表2.1)。二、总体回归函数表中表明:对于同一等级的收入水平,有不同的消费支出。如何考虑Y与X的关系呢?由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditionaldistribution)是已知的,例如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):E(Y|X=Xi)。该例中:E(Y|X=800)=605
从散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。YX05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)
注意这里所描述X与Y的表达式不是精确的表达式,而是Y的平均值(即条件期望)与X的平均关系。将总体因变量的条件期望表示为自变量的某种函数,这个函数称为总体回归函数(PRF),(populationregressionfunction)
总体回归曲线的几何意义:表示当自变量给定时,因变量的条件期望值的轨迹,总体回归函数实际上是概率性模型。三、随机扰动项1、随机扰动项的引入
总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。但对某一个别的家庭,其消费支出可能与该平均水平有偏差。记由(2.1.2)式,个别家庭的消费支出为:(2.1.3)式称为总体回归函数(方程)PRF的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。
由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。⒉随机误差项的影响因素客观经济现象是十分复杂的,很难用有限个变量、某一种确定的形式来描述,这就是设置随机误差项的原因。随机误差项主要包括内容:(1)未包含在模型中的变量的影响。随机误差项常作为未知影响因素的代表、无法取得数据的已知影响因素的代表、众多细小影响因素的综合代表。(2)变量的观测误差。(3)模型的设定误差。(4)客观现象的内在随机性。人类行为的随机性、社会环境和自然环境影响的随机性,决定了经济变量的内在随机性。只能归于随机误差项。⒊产生并设计随机误差项的主要原因理论的含糊性;数据的欠缺;节省原则。四、样本回归函数(SRF)⒈问题的提出
由于总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一组样本。问题是能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?例2.2:在例2.1的总体中有如下一个样本,问:能否从该样本估计总体回归函数PRF?X800110014001700200023002600290032003500Y63893511551254140816501925206822662530家庭消费支出与可支配收入的一个随机样本该样本的散点图(scatterdiagram):
样本散点图近似于一条直线,画一条直线以尽可能好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线(sampleregressionlines),其函数形式记为:
注意:这里将样本回归线看成总体回归线的近似替代⒉样本回归函数的随机形式/样本回归模型
由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型。同样地,样本回归函数也有如下的随机形式:⒊回归分析的主要目的根据样本回归函数SRF,估计总体回归函数PRF。§2.2一元线性回归模型的参数估计
SimpleLinearRegressionModelandItsEstimation一、线性回归模型及其普遍性二、线性回归模型的基本假设三、一元线性回归模型的参数估计四、最小二乘估计量的统计性质五、参数估计量的概率分布与随机项方差的估计单方程计量经济学模型分为两大类:
线性模型和非线性模型线性模型中,变量之间的关系呈线性关系非线性模型中,变量之间的关系呈非线性关系
一元线性回归模型:只有一个解释变量
i=1,2,…,nY为被解释变量,X为解释变量,0与1为待估参数,为随机干扰项“回归”一词的由来
回归分析最旱起源于生物学的研究,“回归”最初是遗传学中的一个名词。1889年英国的生物学家兼统计学家F.Gallton和他的朋友K.Pearson收集了上千个家庭成员的身高、臂长和腿长的记录。企图寻找出子女们身高与父母们身高之间关系的具体表现形式。根据1078个家庭的调查结果得到:
但从他们的研究结果来看,并非高的越长越高,矮的越长越矮(父母身高增加一个单位,而Y仅增加0.516个单位)。高个子父母的子女身高有低于其父母身高的趋势,而矮个子父母的子女身高有高于其父母身高的趋势,结论:父母所生子女有回归于人类平均身高的趋势,故某人种的平均身高是相当稳定的。——见1889年F.Gallton的论文《普用回归定律》。回归的含义:任何变异的东西总有趋向于一般、平稳的势头。后来人们将此种方法普遍用于寻找变量之间的规律。X为父母的身高,Y为成年子女的身高。一、线性回归模型及其普遍性1、线性回归模型的特征一个例子凯恩斯绝对收入假设消费理论:消费(C)是由收入(Y)唯一决定的,是收入的线性函数:
C=+Y(2.2.1)
但实际上上述等式不能准确实现。原因:⑴消费除受收入影响外,还受其他因素的影响⑵线性关系只是一个近似描述;⑶收入变量观测值的近似性:收入数据本身并不绝对准确地反映收入水平。因此,一个更符合实际的数学描述为:
C=+Y+
其中:是一个随机误差项,是其他影响因素的“综合体”。线性回归模型的特征:
⑴通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述,并用随机数学的方法来估计方程中的参数;⑵在线性回归模型中,被解释变量的特征由解释变量与随机误差项共同决定。2、线性回归模型的普遍性
线性回归模型是计量经济学模型的主要形式,许多实际经济活动中经济变量间的复杂关系都可以通过一些简单的数学处理,使之化为数学上的线性关系。
回归分析的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF。
估计方法有多种,其种最广泛使用的是普通最小二乘法(ordinaryleastsquares,OLS)。
为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。
二、线性回归模型的基本假设
通常采用普通最小二乘法(OLS)估计线性回归模型,为了保证OLS估计量具有良好的统计特性——线性、无偏性和有效性,对计量经济模型给出四项基本假定。满足这些基本假定,OLS估计量将具有优良性,否则OLS方法不能使用,应寻找其它估计方法。显然,基本假定是针对OLS方法提出来的。
假设1、解释变量X是确定性变量,不是随机变量;
假设2、随机误差项具有零均值、同方差和不序列相关性:
E(i)=0i=1,2,…,n
Var(i)=2i=1,2,…,n
Cov(i,j)=0i≠ji,j=1,2,…,n
假设3、随机误差项与解释变量X之间不相关:
Cov(Xi,i)=0i=1,2,…,n
假设4、服从零均值、同方差、零协方差的正态分布i~N(0,2)i=1,2,…,n线性回归模型的基本假设
1、如果假设1、2满足,则假设3也满足;2、如果假设4满足,则假设2也满足。
以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,CLRM)。
重要提示几乎没有哪个实际问题能够同时满足所有基本假设;通过模型理论方法的发展,可以克服违背基本假设带来的问题;违背基本假设问题的处理构成了单方程线性计量经济学理论方法的主要内容:
异方差问题(违背同方差假设)序列相关问题(违背序列不相关假设)多重共线性问题(违背解释变量不相关假设)
0均植、正态性假设是由模型的数理统计理论决定的。
另外,在进行模型回归时,还有两个暗含的假设:
假设5:随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。即
假设6:回归模型是正确设定的
假设5旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的伪回归问题(spuriousregressionproblem)。假设6也被称为模型没有设定偏误(specificationerror)三、一元线性回归模型的参数估计普通最小二乘法OLS
(OrdinaryLeastSquare)
1.为了精确地描述Y与X之间的关系,用这两个变量的每一对观察值(n组观察值),作Y与X的散点图,方法很多,可用Eviews来画。
2.观察Y与X的散点图是否存在直线关系或近似直线关系。如果是则设定为:
真实模型为:yi=β0+β1xi+μi
最小二乘法的核心是找一条直线(2.2.2),使得所有这些点yi到该直线的纵向距离的和(平方和)最小——实际与理论抽象最接近。普通最小二乘法的思路yx纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点yixi三种距离最小二乘法的数学原理
距离是Y的实际值与拟合值之差,差异大,则拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余值。
“最好”直线就是使误差平方和最小的直线。于是可以运用求极值的原理,求出待定参数。数学推证
给定一组样本观测值(Xi,Yi)(i=1,2,…n)要求样本回归函数尽可能好地拟合这组值.
普通最小二乘法(Ordinaryleastsquares,OLS)给出的判断标准是:二者之差的平方和最小。正规方程求解正规方程组得到结构参数的普通最小二乘估计量(ordinaryleastsquaresestimators)及其离差形式:例2.3.1:在上述家庭可支配收入-消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表2.3.1进行。
因此,由该样本估计的回归方程为:
四、最小二乘估计量的性质当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。
一个用于考察总体的估计量,可从如下几个方面考察其优劣性:
(1)线性性,即它是否是另一随机变量的线性函数;
(2)无偏性,即它的均值或期望值是否等于总体的真实值;
(3)有效性,即它是否在所有线性无偏估计量中具有最小方差。
这三个准则也称作估计量的小样本性质。
当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。结论:
普通最小二乘估计量具有线性性、无偏性、最小方差性等优良性质。具有这些优良性质的估计量又称为最佳线性无偏估计量,即BLUE估计量(theBestLinearUnbiasedEstimators)。估计参数的方法还有:最大似然法(MaximumLikelihood)即按产生该样本概率最大的原则确定模型参数的估计量。对于ML,当从总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。ML虽没有OLS应用普遍,但仍具有重要地位,在本层次教学中,不作要求。五、参数估计量的概率分布及随机干扰项方差的估计2、随机误差项的方差2的估计
由于随机项i不可观测,只能从i的估计——残差ei出发,对总体方差进行估计。
可以证明,2的最小二乘估计量为它是关于2的无偏估计量。
随机误差项方差的估计§2.3一元线性回归模型的统计检验
一、拟合优度检验
二、变量的显著性检验
三、参数的置信区间
回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。
一、拟合优度检验
拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。
度量拟合优度的指标:判定系数(可决系数)R2
问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?••••••••••••••XY采用普通最小二乘法(OLS)估计方法,已经保证了模型最好地拟合样本观测值,为什么还要检验拟合程度?普通最小二乘法(OLS)所保证的最好拟合,是同一个问题内部的比较;拟合优度检验结果所表示的优劣,是不同问题之间的比较。
1、总离差平方和的分解已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线
如果Yi=Ŷi即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。
对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记总体平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares
)TSS=ESS+RSS
Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此
拟合优度:回归平方和ESS/Y的总离差TSS2、判定系数R2统计量
称R2为(样本)可决系数/判定系数(coefficientofdetermination)。
判定系数的取值范围:[0,1]R2越接近1,说明实际观测点离样本线越近,拟合优度越高。
判定系数R2度量了回归模型对Y的变动解释的比例。R2越大,说明在Y的总变动中由模型作出了解释的部分占的比重越大,模型拟合优度越高,模型的解释功能越强。在例2.3.1的收入-消费支出例中,
注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。
二、变量的显著性检验
回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中的假设检验。
计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。
1、假设检验
所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。
假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的关于假设检验的讨论—如何建立假设为什么一般将需要检验的命题作为备择假设?1、从统计学角度0假设必须包含“=”,备择假设不能出现“=”犯第一类错误(弃真)的概率α小于犯第二类错误(取伪)的概率β。α可以准确给定,而β不能准确给定。2、从逻辑学角度通过样本只能“证伪”,即拒绝0假设;不能“证实”,即接受0假设
2、变量的显著性检验
t检验:目的是检验X是否为Y的自变量。
检验步骤:
(1)对总体参数提出假设
H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值t/2(n-2)
(4)比较,判断若|t|>t/2(n-2),即在(1-α)水平下拒绝原假设为:H0:β1=0,接受H1,则X的t检验通过,说明x为Y的自变量。
若|t|
t/2(n-2),即在(1-α)水平下不能拒绝原假设为:H0:β1=0,则X的t检验不通过。3、关于常数项的显著性检验T检验同样可以进行。一般不以t检验决定常数项是否保留在模型中,而是从经济意义方面分析回归线是否应该通过原点。对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:
在上述收入-消费支出例中,首先计算2的估计值
t统计量的计算结果分别为:
给定显著性水平=0.05,查t分布表得临界值
t0.05/2(8)=2.306|t1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;
|t0|>2.306,表明在95%的置信度下,拒绝截距项为零的假设。
法二:在EVIEWS中,可用Prob的值来判断t检验是否通过。若P值<,拒绝H0,t检验通过,若P值>不拒绝H0,t检验不通过。
假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。
要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。
三、参数的置信区间
如果存在这样一个区间,称之为置信区间(confidenceinterval);
1-称为置信系数(置信度)(confidencecoefficient),
称为显著性水平(levelofsignificance);置信区间的端点称为置信限(confidencelimit)或临界值(criticalvalues)。一元线性模型中,i(i=1,2)的置信区间:在变量的显著性检验中已经知道:
意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2,t/2)的概率是(1-)。表示为:
即于是得到:(1-)的置信度下,i的置信区间是
在上述收入-消费支出例中,如果给定
=0.01,查表得:
由于于是,1、0的置信区间分别为:(0.605,0.7344)
(-6.719,291.52)
由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。
要缩小置信区间,需
(1)增大样本容量n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;
(2)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论