第四章 双变量回归模型:估计问题课件_第1页
第四章 双变量回归模型:估计问题课件_第2页
第四章 双变量回归模型:估计问题课件_第3页
第四章 双变量回归模型:估计问题课件_第4页
第四章 双变量回归模型:估计问题课件_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章经典线性回归模型◆普通最小二乘法◆最小二乘法的基本假定◆最小二乘参数估计的精度或标准误差◆最小二乘估计量的性质:高斯-马尔可夫定理◆判定系数r2

:拟合优度的一个度量◆关于蒙特卡罗实验的一个注记一、普通最小二乘法前一章我们提到根据样本回归函数尽可能准确地估计总体回归函数,通常有两种估计方法:普通最小二乘法(OrdinaryLeastSquares,OLS)和最大似然法(MaximumLikelihood,ML)。普通最小二乘法归功于德国数学家高斯,在回归分析中得到了广泛运用。它比最大似然法简单的多。回顾双变量总体回归函数PRF:该PRF不可直接观测,同过SRF去估计它:(是的估计量,条件均值)为了考察SRF,把上式化为如下:对于给定的Y和X的n对观测值,我们希望SRF尽可能靠近实际的Y。规则之一:选择这样的SRF,使得残差和尽可能小。(goodorbad?)图最小二乘准则最小二乘准则是要确定SRF使得下式尽可能的小:

可以看出,

给出不同的和将会得到不同的。总和:现在做两个实验。在实验1中,假设,。在实验2中,假设,。表3.1SRF的实验决定法选择哪一组的值?第1个实验的值比第2个实验的值给出一个更低的。所以说第1个实验的更优。如何知道最优?E.g.做许多次实验,每次选择不同的值,然后比较所得的,并从中选择给出最可能小的值的那组值。花费大量时间。

最小二乘法给出了简便的运算。普通最小二乘法(ordinaryleastsquares,OLS)的基本思想——使样本回归函数尽可能好地拟合样本数据最小二乘法以表示被解释变量的估计值与实际观察值的偏差总体上最小。双变量情形下即是求得(4-1)根据微积分中求极限的原理,要使式(4-1)达到最小,式(4-1)对、

的一阶偏导数应等于0,即(4-2)整理得

(4-3)解得(4-4)这就是参数、的普通最小二乘估计量(ordinaryleastsquaresestimators)方程组(4-3)称为正规方程组(normalequations)。记(之后都遵循一个惯例,小写字母表示对均值的离差)式(4-4)可改写为(4-5)称为参数、的普通最小二乘估计量的离差形式(deviationform)样本回归线通过Y和X的样本均值一旦从样本数据得到OLS估计值,便容易画出样本回归线,这样得到的回归线有如下性质:它通过Y和X的样本均值。这是从(4-5)显见的事实,该式可写成估计的均值等于实测的Y均值。因为:将最后一个等式两边对样本值求和并除以样本大小n,即得:这里利用了等式。(Why?)残差的均值等于0。由(4-2),第一个方程是:因为故上述方程化为,从而。

4.残差和解释变量不相关,即5.残差和预测的值不相关,即(离差形式)按照离差形式,SRF可写成:利用离差形式可以推出:

例1

对于消费函数,若已知:

n=10,=23,=20

则有因而例2

设Y和X的5期观测值如下表所示,试估计方程

Yt=

+

Xt+ut

序号

12345Yt1418232530Xt

1020304050

解:我们采用列表法计算。计算过程如下:序号YtXtyt=Yt-xt=Xt-xtytxt211410-8-2016040021820-4-1040100323301000425403103010053050820160400n=5110150003901000表4-1二、最小二乘法的基本假定如果我们的目的仅仅是估计和,则OLS法足够用。但回归分析的目的不仅仅是获得和,还要对真实的和做出推断,即判断它们离总体值有多接近,或者说与其期望值有多接近。

PRF表明Yi

依赖于Xi

和ui

。因此,我们需明确Xi

和ui

是怎样产生的,为了回归估计的有效解释,对Xi

变量(一个或多个)和误差项ui

做出假定是极其重要的。假定1:线性回归模型。回归模型对参数而言是线性的,如假定2:在重复抽样中X值是固定的。再重复的样本中,回归元所取的数值被认为是固定的。说的更专业些,假定X是非随机的。

如第3章中的例子,考虑表2.1中各收入水平对应的各个Y总体,把收入值X固定在80美元的水平上,随机抽取一个家庭,并观测到它的周家庭消费支出Y为60美元。仍然把X固定在80美元,而随机的另抽取一个家庭并观测到它的Y值为75美元。在每次抽取即重复抽样的过程中,X值都固定在80美元。可以对表中的全部X值重复这一过程。假定3:干扰项ui

的均值为零。对给定的X值,随机干扰项ui

的均值或期望值为零,专业地讲,ui

的条件均值为零,符号上记为:

假定3的几何意义可由图3.3描绘出来。图中显示了变量X的几个值以及与每一X值相对应的一个Y总体。

如图所示,对应于给定的X,每一个Y总体都是围绕其均值分布的;一些Y值位于均值之上,一些Y值位于均值之下。离开均值的上方和下方的距离就是ui

这一假定意味着凡是模型不含的因而归属于u的因素,对Y的均值都没有系统的影响,正的ui

值抵消了负的ui

值,以致它们的平均影响为零。图3.3干扰项ui

的条件分布假定4:同方差性或ui

的方差相等。给定X值,对所有的观测,ui

的方差都是相同的。就是说ui

的条件方差是恒定的,用符号表示:

对于每个u的条件方差都是某个等于的正常数。用专业术语说,上式代表同方差性(homoscedasticity)或者说相同的散步或相等的方差。这意味着,对应于不同X值的Y总体均有同样的方差。如下图:图3.4同方差性图3.4异方差性图3.5表示Y总体的方差随X而变。这种情形的相应名称是异方差性(heteroscedasticity)或者说非相同的散布(unequalspread)或非相等的方差(variance)。用符号表示:注意下标i,它表示Y总体的方差不再是恒定不变的了。区分同方差性和异方差性:令Y代表每周消费支出,X代表每周收入。图3.4和3.5都表示随着收入增加,平均消费支出也增加。但在图3.4中,消费支出的方差在所有的收入水平上都保持不变,而在图3.5中,这个方差随着收入的增加而增加,换句话说,富有的家庭比贫穷的家庭平均消费更多,但前者的消费支出也有更大的变异。假定4意味着Y的条件方差也是同方差的,就是说:假定5:各个干扰项之间无自相关性。给定任意两个X值:Xi

和Xj

(ij),ui

和uj

之间的相关性为零,i和j为两次不同的观测,用符号表示:假定5即是设定ui

和uj

不相关。用专门术语来说,这是无序列相关(noserialcorrelation)或无自相关(noautocorrelation)。即是不会表现出如下图(a)和图(b)的模式。图(a)中u值是正相关的,即正(负)的u伴随着正(负)的u。图(b)中u值是负相关的,即正(负)的u伴随着负(正)的u。在第12章例,我们将透彻的解释这一假定的全部涵义。直观上,我们可以对此假定做如下解释:设想我们的中,ut

和ut-1

正相关,那么Yt

不仅依赖于Xt

,而且依赖于ut-1

,因为ut-1

在一定程度上决定了ut

。所以现阶段我们讨论假定5,就是说我们只考虑Xt

对Yt

的系统性影响和是否有影响,而不去担心由于u之间的可能的交互相关而造成的其他可能作用于Y的影响。假定6:ui

和Xi

的协方差为零,或。形式上:假定6是说,干扰u和解释变量X是不相关的。当我们把PRF表述为

时,我们假定了X和u对Y有各自的并且可加的影响。但若X和u是相关的,就不可能评估它们各自对Y的影响。例如,若X和u正相关,则当u增加时X也增加,而当u减小时X也减小。要分开X和u对Y的影响都是困难的。如果X是非随机的,并且有假定3干扰项ui

的均值为零,假定6就自动得到满足。

我们已经假定X变量不仅是非随机的,而且在重复样本中取固定值,故假定6对我们来说并不是关键性的假定。这里只是为了表明,即使这些X是随机的,只要它们独立于干扰项ui

或至少与ui

无关,下面讲的回归理论就是真实的。假定7:观测次数n必须大于待估计的参数个数。另一种说法是,观测次数n必须大于解释变量的个数。不妨设想我们只有一对Y和X的观测值,则无法估计两个未知数。假定8:X值要有变异性。在一个给定的样本中,X值不可以全是相同的,即var(X)必须是一个有限的正数。试想,如果全部X值都相同,则。则无法估计β。直观上,如果家庭收入很少变动,我们就不怎么能解释消费支出的变化。变量必须在变!假定9:正确地设定了回归模型。另一种说法是,在经验分析中所用的模型没有设定偏误(specificationbiasorerror)。在模型的设定中出现的一些重要问题包括:(1)模型应包括哪些变量?(2)模型的函数形式为何?它是不是对参数,对变量或对两者为线性?(3)进入模型的Yi

,Xi

和ui

要做些什么概率上的假定?例如,菲利普斯曲线假设选择两个模型去描述货币工资变化率和失业率的理论关系:回归模型1对参数和变量都是线性的,回归模型2则对参数为线性,对变量X为非线性。假如回归模型1是“正确”模型,则模型2在A、B两点间高估了真实的Y均值。除了在选择模型时需要做出判断,假定9还为了提醒我们,回归分析以及由分析得到的结果,是以所选的模型为条件的,从而警醒我们,在建立计量经济模型时必须十分审慎,特别是对某些经济现象常存在多种有争议的理论。

计量经济的模型构造,与其说是一门科学,不如说是一门艺术。假定10:没有完全的多重共线性。就是说,解释变量之间没有完全的线性关系。当模型中含有多个回归元的时候,我们增补这样一个假定。三、最小二乘估计的精度或标准误差由方程(4-5)可见,最小二乘估计是样本数据的函数。但因数据会从一个样本变到另一个样本,估计值也会随之改变。因此需要有关估计量的“可靠性”或精密度的某种度量。在高斯的假定下,OLS估计量的标准误差可求得如下:其中根据高斯的假定有,所以除以外,OLS估计量的标准误差均可从数据中估计出来,由下列公式来估算:其中是真正的但未知的的OLS估计量,n-2被称为自由度(numberofdegreesoffreedom,df)的个数,则表示残差平方的总和或剩(残)余平方和(residualsumofsquares,RSS)。一旦获知,就容易算出。可利用下式:或者从下式:因为由于故计算的另以表达式是:另外,的正的平方根称为估计的标准误(standarderrorofestimate),通常用于衡量所估计的回归线的“拟合优度”(goodnessoffit).

注意:

和的方差有如下特点。的方差与成正比,而与成反比。给定,X值的变化越大,的方差越小,从而得以更大的精密度加以估计。而且对给定的,方差越大,的方差也越大。注意,随着样本容量n的增大,总和中的项数将增加,的估计的精密度也将增加。的方差与和成正比,而与和样本大小成反比。四、最小二乘估计量的性质:高斯-马尔可夫定理高斯-马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量,在无偏线性估计量一类中,有最小方差,则说它们是最优线性无偏估计量(bestlinearunbiasednessestimator,BLUE)一个估计量,比方说,是的最优线性无偏估计量,满足下列条件:它是线性的,即它是一个随机变量,如回归模型中的因变量Y的线性函数。它是无偏的,即。它在所有这样的线性无偏估计量中有最小方差;有最小方差的无偏估计量叫做有效估计量(efficientestimator)。证明OLS估计量是BLUE。线性性。这说明是Yi

的一个线性函数;它是以ki

为权数的Yi

的一个加权平均,从而它是一个线性估计量。同理也是一个线性估计量。无偏性。将带入上式得:两边求期望并注意到ki

是非随机的,即可视同为常数,于是:因此是的一个无偏估计量。同理可证是的一个无偏估计量。3.最小方差性。定义的另一线性估计量如下:其中权wi

不一定等于ki,于是:为要无偏,必须:且上式中的最后一项是常数,只能通过第一项的处理使之最小化。令:则这就是说,当wi=最小二乘ki

时,线性估计量的方差等于最小二乘估计量的方差,不然的话。也就是说如果存在的一个最小方差线性无偏估计量,那么它必定是最小二乘估计量。五、判定系数r2

:拟合优度的一个度量拟合优度(goodnessoffit),是要判断样本回归线对数据拟合得有多么好。判定系数r2

(双变量情形)或R2(多变量情形)就是告诉人们这条样本回归线对数据的拟合有多么好的一个总度量。维恩图(Venndiagram)在维恩图中,圆圈Y代表因变量Y的变异,圆圈X代表解释变量X的变异。(变异指一个变量对其均值的离差平方和)

两圆圈重叠部分代表Y的变异可由X的变异来解释的程度。重叠的程度越大,Y的变异被X解释得越多。r2

是这一重叠的一个数值度量。

在无重叠时,r2

为0;若全部重叠,r2

为1,此时Y的变异百分之百的被X解释了。

下面简单的展示,r2

落在0和1之间。回顾写成离差形式两边平方并对样本求和,得:因为总平方和(TotalSumofSquares,TSS),实测的Y值围绕其均值的总变异。解释平方和(ExplainedSumofSquares,ESS),估计的Y值围绕其均值的变异,或者说由回归解释的平方和。残差平方和(ResidualSumofSquares,RSS),残差围绕回归线的Y值的变异。来自残差来自回归图3.10Yi

的变异分解成两个部分总离差现用TSS除等式两边得:定义或者写成如上定义的r2

称之为判定系数,r2

测度了在Y的总变异中由回归模型解释的那个部分所占的比例或百分比。r2

有两个性质:它是一个非负量。它的界限是。

等于1的r2

意味着完美的拟合,对每个i都有;

等于0的r2

意味着回归值与回归元之间无任何关系,即

这时,回归线平行于X轴。可利用下式简便求得:

分别是Y和X的样本方差。由于结合上面讨论过的ESS和RSS:样本相关系数它测出两个变量之间的关联度。样本相关系数的性质:r可正可负。它落在极限-1和+1之间,。它有对称性;即X与Y的相关系数和Y与X的相关系数相同。它与原点和尺度无关。令,,其中a>0,b>0,c,d是常数,则与之间的r和X与Y之间的r相同。如果X与Y统计上独立,则它们之间的相关系数为零。但零相关并不一定意味着独立性。6.它仅是线性关联或线性相依的一个度量;它不能用于描述非线性关系。

在回归分析中,r2

是一个比r更有意义的度量,因为r2

告诉我们在因变量的变异种解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量。。而r没有这种价值。r2还可作为实测的Y与估计估计的Y之间的相关系数的平方来计算。(离差形式)这也解释了为什么把r2

描述为拟合优度的一个度量,这是因为它告诉我们Y的估计值和它的真实值相距多近。例子在导论中讨论过凯恩斯消费函数:人们随着他们收入的增加而倾向于增加其消费,但不如收入增加的那么多。

假定消费支出-收入的关系是线性的,如下:表3.2每周家庭消费支出Y和每周家庭收入X的假想数据YXYX7080115180651001202009012014022095140155240110160150260利用Eviews得出结果File/Open/ForeigndataasworkfileQuick/EstimateEquation或者lsycxDependentVariable:YMethod:LeastSquaresDate:03/26/12Time:10:26Sample:110Includedobservations:10

VariableCoefficientStd.Errort-StatisticProb.C24.454556.4138173.8127910.0051X0.5090910.03574314.243170R-squared0.962062Meandependentvar111AdjustedR-squared0.957319S.D.dependentvar31.42893S.E.ofregression6.493003Akaikeinfocriterion6.756184Sumsquaredresid337.2727Schwarzcriterion6.816701Loglikelihood-31.7809Hannan-Quinncriter.6.689797F-statistic202.8679Durbin-Watsonstat2.680127Prob(F-statistic)0.000001

图3.12根据表3.2得到的样本回归线解释:回归线上的每一点都给出选定的X值相对应的Y期望值或均值的一个估计值;即是的估计值。

代表回归线的斜率的,表示在80美元到260美元这个X的样本范围内,X每增加1美元,平均消费支出估计增加0.51美元。

代表回归线的截距的,表示每周收入为零时的每周消费支出的平均水平。在回归分析中,对截距项的字面解释也许没什么意义,需要借助常识来解释截距项。r2值等于0.9621是说,约有96%的每周消费支出的变异,能由收入来说明。相关系数为0.9809表明消费支出和收入两个变量是高度正相关的。例3.1美国消费-收入关系,1982-1996表I.1Y(个人消费支出)和X(国内生产总值)数据,均以1992年10亿美元为单位年份YX19823081.54620.319833240.64803.719843407.65140.119853566.55323.519863708.75487.719873822.35649.519883972.75865.219894064.6606219904132.26136.319914105.86079.419924219.86244.419934343.66389.6199444866610.719954595.36742.119964714.16928.4DependentVariable:YMethod:LeastSquaresDate:03/26/12Time:11:05Sample:19821996Includedobservations:15

VariableCoefficientStd.Errort-StatisticProb.C-184.07846.26198-3.979030.0016X0.7064080.00782790.247070R-squared0.998406Meandependentvar3964.087AdjustedR-squared0.998284S.D.dependentvar489.6614S.E.ofregression20.28525Akaikeinfocriterion8.981231Sumsquaredresid5349.39Schwarzcriterion9.075638Loglikelihood-65.3592Hannan-Quinncriter.8.980226F-statistic8144.534Durbin-Watsonstat2.08183Prob(F-statistic)0

方程(3.7.1)是总量(对整个国家而言)凯恩斯消费函数。边际消费倾向约为0.71,它表明如果收入增加1美元,平均个人消费支出约上升0.71美元。按凯恩斯理论,MPC小于1。对截距项的解释通常没有多少经济意义。r2

的值为0.9884,意味着平均个人消费支出变化的99%都可由GDP的变化来解释。由于非常接近1,可以说,回归线对数据拟合的非常好。如图所见,实际数据点十分密集的散布在估计的回归线周围。例3.2印度的食物支出观测食物支出总支出观测食物支出总支出观测食物支出总支出12173822038361638450720219638821315618394157213303391222676234054073042704152342062741360731532545624300630424507336260460254106354339574573004722622064044430751832547827403648453327529336494283506504639775210345516293906554744676911325525303856624848077312362554314706634935277313315575323226775041077514355579335406805138078515325585344336905261078816370586352956955353079017390590363406955436079518420608375006955530580119410610DependentVariable:FOODEXPMethod:LeastSquaresDate:03/26/12Time:13:00Sample(adjusted):155Includedobservations:55afteradjustmentsVariableCoefficientStd.Errort-StatisticProb.C94.2087850.856351.8524490.0695TOTALEXP0.4368090.0783235.5770470R-squared0.369824Meandependentvar373.3455AdjustedR-squared0.357934S.D.dependentvar83.4351S.E.ofregression66.85575Akaikeinfocriterion11.27864Sumsquaredresid236893.6Schwarzcriterion11.35163Loglikelihood-308.163Hannan-Quinncriter.11.30686F-statistic31.10345Durbin-Watsonstat2.083299Prob(F-statistic)0.000001

如果总支出增加1卢比,那么平均食物支出将增加44派沙(1卢比=100派沙)。如果总支出为零,则平均的食物支出为94卢比。同样,对截距项的这种机械解释可能没有意义。但在本例中,人们可以认为,即使总支出为零(e.g.失业),人们仍可能通过借贷或动用储蓄来在某个最低水平维持食物支出。r2

的值约为0.37表明,食物支出变动中37%由总支出来解释。看上去这是一个相当低的值,但后面我们可以看到,在横截面数据中,通常获得低r2

值都可能是因为样本单位的分散性所致。例3.3平均小时工资与受教育水平之间的关系表2.6小时工资与受教育水平读书年数工资均值,美元人数64.4567375.77585.97871597.331712107.318217116.584427127.8182218137.8351371411.0223561510.6738131610.8361701713.615241813.53131如回归结果所示,受教育水平和工资之间存在正相关联系,这是一个无足为奇的结论。每多读1年书,平均小时工资约增加72美分。r2

表明,平均小时工资变化中约91%可由受教育水平来解释。对横截面数据而言,这么高的相当不同寻常。六、关于蒙特卡罗实验的一个注记在经典线性回归模型的假定下,最小二乘估计量有某些良好的、可归结为BLUE性质的统计特性。但实际上我们怎样才能知道这一BLUE性质是否成立?比如,怎样能知道OLS估计量是否无偏?蒙特卡罗实验,一种计算机模拟或抽样实验法,也许能提供这一答案。考虑双变量总体回归函数:蒙特卡罗实验的程序如下:1.假定参数有如下真值:和。2.选定样本大小,比方说,n=25.3.每次观测固定一个X值,这样共有25个X值。4.从一张随机数表选出25个数值,且称它们为ui

(在Eviews里可用nrnd函数,seriesu=nrnd)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论