计量经济模型与预测_第1页
计量经济模型与预测_第2页
计量经济模型与预测_第3页
计量经济模型与预测_第4页
计量经济模型与预测_第5页
已阅读5页,还剩379页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2即使从最应用性的角度,经济计量学的学习也要求对统计学有较好的了解。我们假设大多数读者学过统计学,但我们知道这些知识需要更新。在继续学习计量经济学之前,复习统计学的观点,这些知识将在以后的各阶段中发挥它们的作用。为帮助读者把注意力放在重要2-1中。随随量是变量,它可以取不同的值,并且取每一个值的概率小于等于1。我们可以通过研究随量生成各个取值的过程来描述一个随量,这个过程称做概率分布。概率分布列出所有可能出现的结果及每个结果发生的概率。我们可以将随量定义为一个函数,这个函数为每一个试验结果赋予一个实数值。例如,假设抛硬币出现正面的取值为1,的取值为0(如果硬币是均匀的,出现正面的概率将为1/2)。此例中我们可以把抛硬币的取值看作一个随量;生成这个随量的过程是二项概率分布。弄清离散型随量和连续型随量之间的区别是很有用的。续型随量可以取实数轴上的任何值,而一个离散型随量只能取若干特定的实数值。图2-1表示的是离散型随量和连续型随量的概率函数。由图2-1中离散型随量的分布,我们看到取值10和20发生的概率都是0.25,而取值40发生的概率为0.50。在图2-1的连续型分布中,随量的取值位于某两个值之间的概率是由这两个值之间连续密度函数之下的面积决定的。在此例中,随量取值位于10和20之间的概率约等于0.3,即图中的阴影部分。 图2-1第第2 统计基础知识复 人们经常用均值和方差来描述概率分布,它们都是由期望算子E定义的。因为从离散型随量开始讨论,因此设X、X⋯X代表随量X的N个可能结果,则X的均值或期望值是所有可能结果的一个平均值,其中权重为各结果发生的概率。具体说来,X的均值(记为µX)定义为: 1)其中p为X发生的概率,p=1,且E( 的一组观测值的平均值记为期望值应与样本均值区分开来,后者表示样本的平均值,而样本是一组对某一概率分布进行观测得到的观测值(观测值的选取一般是随机的)。X的一组观测值的平均值记为X随量的方差是随量在其均值周围分散或离散程度的一个度量,记为2。(在离X因此方差是X的取值与其期望值之差平方的平均,其中权重为相应取值发生的概率。期望算子有很多有用的性质,特别在讨论随量的期望和方差时更为有用。我们建议读者仔细阅读附录2-1中的细节。以下是有关期望算子的三个主要的结论: 结论

研究X和另一个随量Y之间的联合分布是很有用处的。在离散情形下,联合分布可以用一个概率分布表描述,这个分布表列出X和Y所有可能结果出现的概率。例如,如果Y是这样的一个随量,即当户主受过大学教育时,取值为1;否则取值为0;而X是前面描述过的家庭收入变量,那么X和Y的联合分布如下:0X=$10X=$15X=$10X=$15与单个随量的情况一样,期望算子对于描述联合分布的重要性质也是很有用的。我们将X和Y的协方差定义为X、Y与各自均值离差乘积的期望;第1部 回归分析基协方差是X与Y之间线性相关关系的一个度量。如果两个变量总是同时大于或小于各自的均值,则协方差为正,如图2-2b所示。如果Y小于其均值时XY大于其均值时X小于其均值,则协方差为负,如图2-2aX和Y的度量单位。因此我们经常用到相关系数 其中和分别代表X和 与协方差不同,相关系数经过了标准化,没有量纲。可以证明相关系数的值-1到+1之在处理联合概率分布时一些关于期望的性质是很有用的。我们把这些结果陈述如下,其证明请见附录2-1。结论4如果X和Y是随量,结论 a) a)协方差为 b)协方差为 图2-2例例 协方差和相关系 5101520受教育年数(Y) 81015YXX和第第2 统计基础知识复是独立的随量。举个例子,如果抛硬币时正反两面发生的概率均为1/2,假设前5次结果都是正面,第6次发生的概率还是1/2,它与前面发生的结果无关。当两个变量独立时,关于期望算子的计算就变得简单了。有关结论归纳在结论6和7中,关 如果X和Y独立,E(XY)=E(X)E(Y)。 结论7说明,如果两个随量是独立的,它们的协方差为0个,为X和Y之间的独立意味着一个变量的结果与另一个变量的结果没有关系。这样的话,X与其均值之间的离差和Y与其均值之间的离差也没有关系。然而,必须注意的是,这个结果不可逆,这一0的两个变量仍可能是不独立的。关键在于方差和相关系数度量的是线性相关性;相关系数为0的变量间可能会具有非线性相关关系。X--012Y41014设所有的结果以相等的概率(1/5)E(X)=0,E(Y)=2只有在获得所有可能的结果,即总体时,我们才能够确定均值、方差和协方差。但是通常我们只有关于总体的一个样本,因此我们想要通过样本对总体的特征进行推断。本章中讲述如何取得N个样本数据,对总体特征进行估计,最后得到关于样本估计与相应的总体参数之间关系的结论。由于无法获得均值、方差以及两个随量间协方差的真值,我们只能利用样本信息来寻找尽可能好的估计。我们的目标是要确定一个法则,它能对每个可能的样本给出样本估计值。为了区别具体的估计值和普遍的估计法则,我们把后者称为估计量。对学生来说,“估计值”和“估计量”是很常见的现象,但是如果我们记住估计量是一个法则,而估计值只是一个数,这种就不会发生了。寻找适用于任何样本的最优估计是一个复杂问题,在2.3节更详尽地进行讨论。在里我们只假设最低的要求是参数的估计量所给出的估计值很接近于被估计的参数(比如均值— 的 — 将随着样本的不同而不同。由于样本估计值随样本的不同而不同,我们就可以描述出它的概率分布。重复抽取新的样本并每次分别计算样本均值和方差,我们可以得到这个抽样分布。均值第1部 回归分析基(回忆前面概率分布中的讨论) 给定X的抽样分布,我们很自然要问,估计量X X是无偏估计量吗?为了说明X是无偏的,我们证明E(X)=问题是这个估计是有偏的。附录2-1的结论9给出了一个随量方差的无偏估计(均值未知 7)N-1(而不是N)2-1结论的证明,但是也可以用自由度的概念直观地解释。已知我们的样本包含N个数据,但在计算样本方差时,第一步就需要计算样本均值,对N个数据点来说就有了一个约束条件,即N个观测—值之和等于N倍的X。这样就剩下N-1但是,与样本方差估计量的情况一样,这个估计是有偏的。为了得到协方差的无偏估计量,我X,YN个X和Y的联合观测值,即有N项独立的信息;其中一项信息用来计算X和YX和Y的N个观测值之和分别等于倍的X和Y的均值。因此自由度为N-1,则样本协方差的无偏估计为最后,我们可以定义两个随量间的样本相关系数,它对应于我们前面定义过的总体相为了将rXY与其他有关相关性更复杂的度量相区别,我们称它为X和Y之间的简单相关系数。与总体相关系数相同,样本相关系数的值域为-1到+1,因此它的平方在0到1之间。我们可能会注第第2 统计基础知识复么程度,因此它是应用计量经济学的基础之一。协方差为正意味着当X大于其均值时,Y也大于均值;X小于其均值,Y也如此。同样(见图2-2a),协方差为负的一组点的最优拟合直线具有

,y- i-Y注意,为方便起见我们没有标明求和指标这个比值等于(1-6)式中斜率的估计值。对于任意一组样本,斜率的最小二乘估计可以由样本协方差与样本方差的比值来计算,其中样本协方差决定直线的方向,而方差是一个正数,用来对用来计算的数据进行标准化。考虑计算学生平均成绩的例子。斜率的最小二乘估计的计算可用来计算样本均值、样本方xy=0。X与Y的协方差为:协方差为正,说明斜率为正,样本协方差和样本方差的比值为2.79/23.14,得出斜率的估计值当样本容量增大时,均值的抽样分布会发生什么变化?随着样本容量增大,我们会直观地认为均值的估计值总的来说会离总体均值越来越近。实际上如果样本容量非常大或等于总体,样本均值的估计值应当等于总体均值。—中心极限定理:如果一个随量X具有均值µ和方差2,则随着NX来越接近于均值为µ方差为2/N第2.4节中对正态分布的研究提供了重要根据。看到,对于充分大的样本容量,正态分布的假设将使得我们能够大大地简化统计检验。在研究统计假设之前,我们先简单地讨论一下统计估计量的一些有用的性质。我们已经讨论过统计估计量的一个有用的性质是无偏。由于寻找估计量是计量经济学这门学科的,我们在这里先来考虑其他一些有用的性质。为了使我们的讨论针对回归模型分析,第1部 回归分析基一个与回归参数估计有关的非常有用的性质是,估计量的分布应以该参数作为其均值。因ˆ的均值或期望值等于真值,即Eˆ)=ˆ2-3。为了更清偏差=E(ˆˆ图2-3如果对于给定的样本容量,无偏估计量ˆ的方差小于任何其他无偏估计量的方差,则称ˆ是一个有效的无偏估计量。有时很难确定一个估计量是否有效,因此用估计量的相对有效性来描述估计量是很自然的。如果一个估计量比另一个估计量的方差小,这个估计量就比另一个更有效。一个相对有效的估计量和一个相对不那么有效的估计量如图2-4所示。有效性是我们想要的性质,因为一个估计有效,人们对于被估计参数所下的统计结论就越强。因此,在图2-4第第2 统计基础知识复预测精确度最大,方差很小而有偏差的估量可能比无偏而方差大的估计量更好一些。在这种情况下,一个很有用的标准是使平均偏差平方最小,其定义如下:平均偏差平方(ˆ)=E(ˆ-不难说明,这个定义与下式等价平均偏差平方=[偏差(ˆ)]2+Var(因此,最小平均偏差平方准则考虑了估计量的方差和偏差的平方。当ˆ为无偏时,平均偏差平方等于ˆ的方差。例例 平均偏差平假设有人想估计总体均值µ和标准差均未知的 '——⋯+X)/55而为了讨论的完整性,我们考虑当样本容量非常大时估计量的性质,即渐近性质或大样本性质。我们希望当样本容量增加时,估计量ˆ越来越接近真值。具体地说就是,我们希望当样本ˆ不等于的概率变得非常小。为了将这个统计概念应用于估计量的选择,我ˆ依概率收敛于(plimˆ)如下:当N趋向无穷时,|-ˆ|1。这时我们称plimˆˆˆ是的一致估计。粗略地说,如果当样本容量增到任意大时估计量的概率分布都落在同一个点(参数的真值)上,这个估计量就是一致的估计量。图2-5说明了这个问题。作为一个法则,计量一般更关心一致性而不是无偏性。有偏但是一致的估计量虽ˆ第1部 回归分析基来讲,如果无偏的参数估计量当样本容量增大时始终偏离参数的真值很远,就不如找一个有偏但是一致的估计量更令人放心。图2-6画出了两个参数估计量,其中的一个是无偏的但方差很大。由于第一个估计的尾巴很大,而第二个估计虽然是有偏的但方差很小,所以它的平均偏差平方比较小。图2-5一致 图2-6平均偏差平我们很自然会考虑另一个准则,其目标是当样本增大时,估计量的平均偏差平方应当趋向于0。这个平均偏差平方准则意味着估计量是渐进无偏的,并且当样本容量非常大时,它的方差趋于00的估计量是一致估计量,但反过来不一定是对的。在很多0,因此这两个准则可以互相替代。在本书的很多地方将会用到一些特别的概率分布。下面介绍的4X正态分布是续的形状为钟形的概率分布,如图2-7所示。一个正态分布可以由它的均XX~N(µ,2)X服从均XX 其中µ和2分别是正态随量X的均值和标准差。正态随X 离为两倍标准差范围内的概率约为0.95。在2.5倍标准差内的概率约为0.99。反过来,观测值离均值的距离大于2(或2.5)倍标准差的概率约为0.05(或0.01)。图2-7表示的是均值为0方差为1的正态分布。随量X的观测值落在阴影部分的概率等于0.05。为了进一步说明,假设入学考试成绩(SATs)服从均值为500,标准差为100的正态分布,那么成绩落在到±1.96×100]之间的概率为0.95,相反只有2.5%的考试成绩高于696,2.5%低于304正态分布是对称的,形状为钟形的,对斜率和截距等我们所希望估计的正态分布可以由其均值和方差完全描述,因此我们不需要担心偏度和峰下列结果对计量经济学中的统计检结论 两个(或)具有相同均值

图2-7例例 正态分工人每小时工资的总体分布近似地服从均值为9.60,标准差为5.25的正态分布。雇员中每小时工资高于20的百分比是多少?少于5呢?为了回答这两个问题,我们计算得出20是比均值大(20-9.60)/5.25=1.98个标准差,而5.00比均值小(9.6-5.00)/5.25=0.88个标准差。后表1标准正态分布表,我们发现大于均值1.8倍标准差的百分比为2.3%,而小于均值0.88倍标准差的百分比为%。因此有%的雇员每小时工资多于0,而约有%的人每小5。2 N个服从正态分布(均值为0,方差为1)的独立随量的平方和服从自由度为N的2分例如,假设我们计算来自方差为2的一个正态分布的N个观测值的样本方差S2(N-1)S2/2服从自由度为N-1的2分 。通过比较对应自由度的2分布的临界值,我们就可 决定是否应当这个随量的方差等于一个给延伸见图2-8)。分布的精确形状取决于自由度,随着自由度增大,分布越来越对称。当自由度非常大时,2分布近似于正态分布。2分布通常记为2t

图2-82在统计学中,有时假设随量的方差是已知的。当方差未知时,我们如何进行假设检验?其答案依赖于tt分布来解决这个问题:参见W.H.Greene,Econometricysis(NewYork:Macmillan,1990),pp.62- 假设X服从均值为0方差为1的正态分布,Z服从自由度为N的2分布,如果X和Z独立,那么服从自由度N为的t分布。图2-9是t分布的图形。和正态分布一样,t近于正态分布。但是t分布的尾巴比正态分布的宽大,特别是样本容量小于30了说明结论12的用处,回忆对X进行标准化后得到 ,它是一个均值为0、单位 未知,须用S2来代替2。由于(N-1)S2 2服从2分布, 服从t分布。因此t分布可以用来在方差未知的情况下检验随量的均值是否等于某一特定书后附表3t分布的主要检验1.96。当样本容量大于或等于20时,临20是一个合理的近似。为了说本均值为500,估计的标准差(对应

t分 图2-9t准差真值)为10020的t(5为2086,成绩高于。在有些情况下我们希望进行检验涉及两个或更多回归参数的联合检验。如:原假设为截距和斜率均为00或两个均不为0F分布的,它以2个参数为其特征。第一个参数与被估计参数的个数有关,第二个参数与自由度有关。FX2分布一样,不是对称的,值域从0到无穷大(见图2-10)。。

图2-10F 结论13如果X和Z是独立的,均服从2分布,其自由度分别N为和N,则(X/N)/( 度为N和N的 如果我们想检验2=2s2/S2。如果X和Z是独立的,那么(N s2/2服从自由度为N-1的2(N-1)s2/2服从自由度为N-1的X2 服从F分布。注意,如果2=2,上面的比值变为s2/s2 N-1和N-1的 为F统计量制表时总是以较大的方差估计作分子而以较小的方差估计作分母,因此比值总是大于1F分布右侧尾部的信息。两个方差之间的差别越大,F统计量就越大。因此,较大的F值意味着两个方差不可能相等。在实际应用中,我们通过选择显著性水平,然后在标准的F表中寻找F分布的临界值来完成检验。为了说明这一点,假设我们想知道入学考试ST中数学考试的方差与语言考试的方差是否有差别。假设有2116个参加了数学考试。数学考试的样本方差为10000080000F统计量为1.25(100000/80000),其自由度为20和15。由于该F分布5%的临界值为2.33,我们不能排除方差的真值相等的可能性(因为1.25<2.33)。由于我们选择了F比值大于1,位于分布的右侧尾部,5%的检验是单侧检验。如果我们希望进行双侧检验(这种检验能够检验出数学考试分数的方差高于或低于语言考试),可以用10%的显著性水平得到我们想要的结论。在这一节中我们来复习假设检验问题。在计量经济学中大多数假设检验问题都与回归直线的斜率和截距有关,但也涉及到概率分布的方差和协方差。第1章中学生平均成绩的例子就是一个简单的应用。0.12的斜率使我们对家庭收入对成绩的影响有了一个很好的估计,但是这个估计可靠吗?尤其是我们怎么才能肯定斜率的确不为0,即收入与学生的平均成绩确实有关系?这就是一个假设检验问题。与假设检验有关的一个概念就是置信区间。即便0.12是斜率的一个很好的估计,我们也不会认为0.12就是学生家庭收入与平均成绩之间关系的斜率。为了说明它的可靠程度,我们需要用数据来对斜率的估计做出统计结论。具体来说就是,我们会发现我们能够说区间0.16~0.18以0.950.16~0.18称为斜率的一个0.95的置信区间。假设检验和置信区间之间的关系是很密切的。为了说明这一点,假设我们希望检验假设:斜率等于0。我们说原假设是斜率为0的假设。但是,由于我们知道0在0.95的置信区间之外,出(在显著性水平为0.05时)斜率为0的原假设的结论。接下来继续复习假设检验与置信区间与确定随量的均值有何关系。假设一个(服从正态分布)随量X的方差为已知,但均值未知。我们希望对均值估计的精确性作一些评价。由。利用 。利用如果对较大的方差估计除以较小的方差估计的比值做显著性水平为5%的双侧检验,我们可以用显著性水平为2.5%的F分布的临界值(本书后未提供)。我们也可以颠倒自由度的顺序,用对应的F分布临界值的倒若假设 =10,则—服从标准差为1的正态分布。如果µ的点估计为设

XX信区间应是 XX“在置信度为95%的条件下 X 为N=100的样本,我们就可以得到很多不同的µ的点估计。如果我们用每一个样本得出的µ的 —如果X=3,1≤µ如果X—

µXX如果X=2.7,0.7≤µX置信区间可以用来做假设检验。考虑原假设是均值的真值等于0。例如在上例中样本均值为3时,我们知道原假设不可能为真,因此原假设(显著性水平为5%),选择含义比较模糊的备择假设,即均值不为0。注意原假设被是因为如果均值真值真的为0,我们得到的.样检验均值为0的原假设的捷径是,我们可以计算。这个统计量在原假设为00方差为1的正态分布。如果这个统计量的绝对值大于1.96,我们可以在5%的显著性水平上原假设;如果大于2.57,我们可以在1%的显著性水平上原假设(统计意义上更强的结论)Z值为2.13,由书后的附表1,在0.03列及2.1行,我们会发现Z大于或等于2.13的概率等于0.0166,同样Z小于或等于-2.13的概率也是0.0166Z的显著性水平为0.0332或3.32%。由于Z>1.96,我们可以以5%平为0的原假设。s2来代替未知方差2。(后面用s2表示真正误差方差的估计)。用样本均值与均值真值 XX由于这个统计量服从t分布,我们称它为tcc其中t为t分布的临界值(3查得),它依赖于自由度的个数和希望的显著性水平。自由度的个数等于数据点的个数减去统计过程所用到的约束条件的个数。我们来举个例子说明如何计算tc,须从t该t分布在相应的区间之外任何一端的概率都是2.5%2-160的t2.5%的概率分别位于t分布的两端,我们从0.05列得到读数t=2.00。c为了对均值等于µ*µ=µ*,备择假设µ≠µ*c X性水平。用t分布的临界值,我们可以计算相应的置信区间。如果假设的均值µ*X 图2-11图2-12c 图2-11图2-12c 64个入学考试SAT520,标准差估计为100。5%SAT500。为此,我们在自由度为由于500属于这个95%的置信区间,我们不能总体均值等于500的原假设通过考查进行假设检验时会犯什么样的错误,我们可以更好地理解显著性水平的选择。显著性水平一般为1%或5%,不同的显著性水平对应与不同宽度的置信区间。如果检验的原假设为=0,且在5%的显著性水平下了原假设。很可能这个是不正确的,这种错误被称为第一类错误,它发生的概率为0.05。现在假设我们收集了另外一组数据,并且得到95%的一个置信区间为(-0.02,0.26)能=0的原假设,这就意味着我们要把它作为正确的结论而接受。但是在这种情况下我们也有可能弄错。的真值可能是0.05,这时=0的原假设实际上是不正确的,但是我们却接受了它,这种错误我们称为第二类错误。这种错误发生的可能性很大,因为置信区间包含着大量的点。假设显著性水平由5%变为1%,那么置信度由95%升至99%,这说明错误地原假设(犯第一类错误)的概率由5%降至1%,但同时犯第二类错误的概率却上升了。因此,在选择显著性水平时人们抉择:降低犯第一类错误的概率就增加犯第二类错误的概率。具体的选择要大多数统计分析都是用指明哪些系数在1%、5%或其他适当显著性水平上显著的方式说明统计显著性检验的结果。但是,有的时候用p值(概率值)的形式提供的额外信息也是很有用的。p值是计量经济结果对应的精确的显著性水平。因此,一个0.07的p值说明有关系数在0.07水平上(但不是在5%水平上)统计显著。在正态分布的双侧检验中,这意味着有7%的t分布在均值要检验的假设一般都是某个回归系数等于0的原假设。因此在系数为0的原假设为真的条件下,p值是得到其系数估计不小于已知估计系数的新样本数据的概率。在原假设为真时,p值越小就越不可能出现这种情况。反过来,较大的p值意味着样本数据支持原假设。 第1部 回归分析基p值度量的是犯第一类错误的概率(见2.5.1节中的讨论),即正确的原假设的概率。p值越大,错误地原假设的可能性就越大;p值越小,原假设时就越放心。一个较高的p值说明系数与0没有显著差别,因此研究者不能系数为0的原假设。“不能检验的样本数据恰好支持原假设为真的假设(还有第三种可能性,即模型是无效的,这将在后面讨论)。能够帮助我们评价第二种情形重要性的统计概念是检验的势。检验的势是当原假设实际上为假时原假设的概率。因此对任一原假设,势是11减去当原假设为假时认为原假设为真的概率。势不仅依赖于参数真值与假设值相对差异的大小,而且依赖于样本容量。在其他条件不变的情况下,差异和样本容量越大,检验越有效。对于势比较小的统计分析,如果其p值不显著,我们不能得出参数真值与假设值之间没有差异的结论。更确切地说,须考虑到以下情况:由于样本数据不够多,无法检验原假设与备择假设之间的区别,从而导致无法做出结论。关于第一类错误和第二类错误与统计检验的势的关系总结起来可由下表表示,其中原假设记为H0。当原假设为真但检验原假设时,发生第一类错误,其概率由p值表示。当原假设1减去统计检验的势。 H为

H不 H

第一类错误(p值

假设工作申请包括假设工作申请包括10000名和10000名妇女,我们希望知道妇女申请工作的成功率与申请工作的成功率是否有显著差别。现有含有50个和50个妇女的一个样本,其妇女成功率为58%(50人中有29人成功),为38%,其差为20%。成功率之差的总体分布近似于正态分布,均值为20%,标准差为9.7%。考虑妇女成功率与成功率相等的原假设。用正态分布,成功率之差的95%的置信区间应为:20±1.96×9.7=20±19.0=(1.0,39.0)。成功率的差小于1个百分点或大于39个百分点的概率约为%。差为0的p值应小于5%;实际上,成功率的差小于等于(及大于等于)的概率等于%,即均值为0方差为1的正态分布小于-6或大由于p值小于5%,我们以5%的显著性水平我们需要明确定义备择假设。设备择情况是55%的妇女成功,而45%的 准差为9.7的正态分布,只有样本差大于9.7×1.96%即19.0%或小于例2.4本例取自D.Kaye和D. dman的“ReferenceGuideonStatistics,”inReferenceManualonScientificEvidence(WashingtonD.C.:FederalJudicialCenter,1994). dmanetal.,Statistics(NewYork:1991),p.或小于-13.5的概率,这个概率约为31%。因此,样本容量增加1倍,把该备择假设和个和个妇女扩大到个18%假设)的正态分布,我们可以确定大于19%的概率约为18%,而小于-19.0%的概率非常小。因此,相对于这个备择假设的检验的势为18%。由此我们看到,这个备择假设的在描述与某个特定值相关的数据时,直方图是一个有用的工具。直方图表明了数据的频数分布。典型的做法是它将数据的最大值与最小值之间的距离分成相等的区间,然后表示出落在每个区间内的观测值的个数。图2-13a是一个直方图,描述1984~1985学年50个州每中进入公立高等院校的人数(PUBLIC),对应的表示私立学校人数(PRITE)的直方图为图2-13b。在第一个图中我们看到公立学校的表中左侧每中有25~27.5之间的州有3个(最低的是乔治亚州),只有一个州(亚利桑那州)于60。再看私立学校人数,最低的州(怀俄明州)没有私过40。每每每

见J.Quigley和D.Rubinfeld,“PublicChoicesinPublicHigherEducation,”inC.ClotfelterandM.Rothschild,eds.,StudiesofSupplyandDemandinHigherEducation(Chicago:UniversityofChicagoPress,1993),pp.243-283.第1部 回归分析基于强调数据的最大值和最小值以及各数据点的分布。另外还有数据的一些其他综合性度量可以做为很有用的描述工具,而且在人们希望判断数据是否近似于某个分布,如正态分布时,这些度量也是有帮助的。中位数是一个关于中心位置的度量,它比均值更不易受误差或异常值的影响。对于奇数个观测值来说,中位数是当数据按由低到高(或由高到低)排列时位于中间的数据点。当观测值个数为偶数时,中位数一般是两个中间数据的平均值。其中s是X的标准差。对包括正态分布在内的所有对称分布,S=0。对于非对称分布,分布的右正态分布的峰度K=3K大于3;反之,小于3检验一个给定的数据是否近似地服从正态分布经常是很有用的。可以通过检验均值和中位0,以及峰度是否接近于3来进行不严格的估计。关于正态性比较正式的检验由Jarque-Bera统计量给出:JB统计量服从自由度为2的2分布。如果JB统计量大于该2分布的临界值,我们服从正态公立学校人数数据的中位数略低于均值,偏度接近于0。从图2-13a可以看出数据很接近于对称。相反,私立学校人数数据明显不一样,它的中位数大大低于均值,这是当数据1.78,大大高于0。6.24,远远大于3(比正态分布高),而且Jarque-Bera统计量为48.26,远远大于2分布的临界值5.99(显著性水平为5%)。但是我们不能公立学校近似地服从正态分布的假设。虽然直方图没有显,望50个观测值的近似会非常精确。另外,峰度为2.61,接近于3,且JB统计量为1.54,在5%的显著性水平下与0没有显著差别。附录 本附录复期望算子的一些有用性质。

由结论

结论4如果X和Y是随量,则

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

用结论 结论7如果X和Y是独立的,则Cov(X,Y)=0用结论用结论用结论结论—X其中XX—用—用X

2的随量X的样本均值注意E(X2)≠[E(X)]2,用一个最简单的例子可以说明这一点:当硬币出现正面时令X=1;出现时X=0。第1部 回归分析基用结论用结论 结论8X估计的方差会降低。所以,随着信息越来越多,我们可以获得均值的越来越精确的估计值。—结论—由结论由结论3和 由方差的定 附录 极大似然估计着眼于不同的总体产生不同的样本的事实;任一受到研究的样本更有可能来自某个特定总体而不是其他总体。例如,如果我们对抛硬币进行抽样,并且获得样本均值为0.5(半面半为),最有可能产生这个样本的总体是均值为0.5的总体。图A2-11 说明了更加普遍的情况,其中已知样本(X,X,⋯,X)来自于方差已知但均值未知的一个正态分布。假设观测值或者来自于分布A或者来自于分布1 的概率应非常小。如果真正的分布是A,获得已知样本的概率应该很大。所以,观测值“选图A2-1参数的极大似然估计定ˆ,它最有可能产生观测到的样本观测值Y,Y图A2-1 iip代表正态分布Y的函数,不同的样本会p(Y1)p(Y2)⋯p(YN)常被称为似然函数。似然函数不仅依赖于样本值,而且依赖于问题中未知参数。在描述似然函数时,我们常将未知参数作为变量而样本Y是不变的。极大似然估计是一个在备选估计中寻找那些最有可能产生样本的参数估计的过程。为了说明如何应用极大似然原则,我们假设X服从均值为、标准差为的正态分布(X- (X- i要求的极大似然估计,lnL对求导,并使之等于0,得两边同乘-/N,我们得到总体方差的极大似然估计第1部 回归分析基下列几个问题都采用表2-1中的数据。数据来自于一个对计量经济学学生的,所有的RENT=每月总房租(以计){ {DIST=距校园中心的距离(以街区计)

方差为“2的正态分布。如果(a)2=2150或(b)2 著性水平为5%时检验假设2 f现在假设男生的RPP服从均值为m方差为(m)2的正态分布,的RPP服从均值 ff

方差为(

)2的正态分布。在

==

=1681的条件下,检验假设m

(难题)在上题中设

==

表2-1

(b)一样2为未知,以5%的显著性水平检验2=2150 提示:在2=2150的假设下,求出(N-1)s2/2150在练习2.6中,我们假设(m)2=(

—设X是服从均值为、方差为2的正态分布的随量。令Z=(X- 变量。证明Z服从均值为0、方差为1/N中系数b与B估计的乘积等于r如果X21的2证明当X以概率1E(X)2=(E(X))2 设和为独立的随量,其均值为0,方差为2。设我们观察到X和X,它们与和 其中为常数且-11—求X—

(c)求X=-1,-1/2,-1/4,0,1/4,1/2,1等情况下计算相应的方差。当假设你是一个农民,很关心降雨量。令X为年降雨量(以英寸为单位),且假设X服从对数正态分布—即logeX服从均值为X的正态分布。1988年~1997年10的降雨量数据观察如估计logX的均值和方差2 220%的假设(即对数方差2X等于0.04)用表2-1的房租数据计算变量RPP的均值、中位数、偏度和峰度。用这些统计量尽可能充分地描述人均房租的分布。3在第1章中我们讲述了最小二乘法,它是用曲线来拟合数据的众多方法中的一种。我们主要考虑的是参数估计,而不是模型的统计检验。在这一章中我们讨论具有一个自变量和一个因变量的最小二乘回归模型的统计检验。首先我们讲述模型的基本假设,然后我们分析最小二乘估计的统计性质。我们会发现,在一定的假设下,最小二乘估计是无偏的、一致的和有效的。参数估计的分布可以用来构造置信区间和对模型做假设检验。最后我们介绍R2,它是关于回归模型拟合程度的度量。为了探究回归模型的概率性质,我们认为对于给定的X(自变量)的观测值,可以观测到Y(因变量)的多个可能的值。例如,考虑年收入为20000的某个人的消费,由于花在食物上的钱每年都可能不同,我们假设对每个X(收入)的观测值、Y(食物花费)的观测值是随化的。为了规范地描述这种情况,我们在模型中加上随机“误差”部分,并把模型写成如下的 Y=+X

其中Y是一个随量,X是确定的或是非随机的,而是随机误差项,它的取值取决于一个基本的概率分布(因为模型包含随机干扰项,我们改用希腊字母即回归参数)。误差项是由于各种因素的相互作用而产生的 。首先,由于模型是现实问题的一种简化,因而会产生误差。例如,我们假设一种产品的价格是其需求的唯一决定因素,而事实上好多与需求有关的因素都被忽略掉了,比如个人偏好、人口、收入及天气,这些被忽略的因素都包含在误差项中。如果那些省略掉的因素作用很小,误差项是随机的假设就是合理的。误差的第二个来源与数据的收集和测量有关。经济和商业数据经常是很难测量的,例如,有的公司可能不愿意提供有关成本的直接信息,因此无法获得有关成本的准确数据。由于误差的这些来源,可以清楚地说明我们为什么将等式(3-1)中的关系处理为随机的。对于X的每一个取值,都存在一个关于的概率分布,因此也存在一个关于Y的概率分布,正如图3-1所示的那样。误差必须与残差区别开来,残差即因变量的观测值与拟合值之差。误差与真实的回归模型图3-1图3-1,X与Y之间的关系是线性的,误差项的期望为0:E()=0对于所有观测值,误差项具有相同的方差,即E()=2。随量i之间统计上是独 i等式(3-1)经常被称为模型的确认。注意我们假设的是Y依赖于X的变化而不是相反。另外,我们把模型的自变量限制为一个。每个X的值都是确定的,这个假设等价于假设每一个自变量都受研究者的控制,他可以根据试验目标的不同而改变自变量的值。在大多数商业和经济问题的研究中,这样一个假设是不切实际的,是为了达到说明问题的目的而设的。i0的部分原因是为了方便。为了说明这一点,假设被省略变量的平均作用等于',即E()=',则一元模型为:i0,原模型等价于新模型,而新模型的截距与原模型不同,新模型(),我们称之为同方差;但如果方差不同,我们称之误差具有异方差。在研究某个行业公司截面数据的时候可能会出现异方差。我们有理由认为大公司的误差项具有较大的方差,而小公司的数据具有较小的方差。图2-3表示异方差的两种情况。在图3-2a中,误差项方差随值的增加而减少;而在图3-2b中,误差的方差随X值的增加而增加。t研究中都是很重要的。当来自于不同观测值的误差项相关时,我们称这个误差序列是序列相关的。图3-3说明了在时间序列研究中正序列相关和负序列相关(X代表在时间t时X的取值)。负序列相t关意味着这个时期的误差如果是负的,下一时期的误差一般是正的,反之亦然(如图3-3a)。对于正的序列相关(如图3-3b),这个时期的误差为正的话,下一时期的误差一般也为正。作为假设2和3的推论,误差项XX是非随机的假设,在讨论X为随量的模型时,我们需要明确说明这个假设。另外,假设3能使我们得到任何样第1部 回归分析基 E()=E( i这是因为E(0的假设意味着对应于任何特定的X值的Y重复抽样,其误差的期望均应等于0。固定X的值,然后从一个已知概率分布的总体中对误差项抽取样本,我们假设的是每一个这样的误差项样本的期望值均为0。i图3-2图3-3在假设4中,我们说每个误差都具有相同的方差。方差当然是未知的参数,并且必须作1章中的曲线拟合模型只有两个未知参数。回归模型的假设是用随机干扰的形式给出的,我们也不难用Y3'.随量Y的期望值为+4'.随量Y具有同方i5'.随量Y是独立i 为了对线性模型进行统计检验,我们需要确定误差项的概率分布。在古典正态线性回归模型中,我们再加上假设6,即误差项服从正态分布。这个假设对模型的统计检验是很重要的。如果我们认为每一个误差很小而且相互独立,正态分布的假设就是合理的。如果误差项 服从正态分布,则Y也服从正态分布(因为X是常数,而服从正态分布)。 得的,由于样本会变化,估计值会变化,因此它是一个随量。由于模型是随机的,我们已经采用ˆ和ˆ表示回归模型截距和斜率的(在和上加一个“帽子”表示估计值),但要的是须清楚,采用这个符号有两个目的:它既代表由某个特定样本求出的估计值,也代表服从一个概率分布的估计量(一个对任何样本均适用的)。我们希望普通最小二乘估计(OLS)是无偏的和一致的。实际上,普通最小二乘估计(不要求误差值服从正态分布)的优点是在所有线性(如式(3-1))无偏估计当中,最小二乘估计量而得的估计量具有最小的方差,这是-马尔可夫定理的基本结论。-马尔可夫定理如果假设1~5ˆ和ˆ是关于和的最佳(最有效的)为了理解-马尔可夫定理的作用,我们首先必须注意,由于ˆ(及ˆ)可记为Y的观测值的平均,所以ˆ(及ˆ)是线性估计量。有很多可以用来估计截距和斜率的线性估计量,其中有一部分还是无偏的,但是ˆ有一个额外的性质,即在所有线性无偏的估计量中,ˆ的概率分布具有最小方差。寻找最佳线性无偏估计的任务将在本书中不断出现。我们会发现,如果高斯-马尔可夫定理所要求的某个假设不成立的话,最小二乘估计量将不再是最佳线性无偏估计。到-马尔可夫定理不能用于非线性估计量,这一点很重要。非线性估计量可以是无偏的,可以具有比最小二乘估计量更小的方差和平均平方误差。这说明有时我们可以选择“最佳线性无偏”以外的估计法,例如具有最小平均平方误差的有偏非线性估计量就有很多有益的应用。我们不想在这里对-马尔可夫定理进行证明(证明请见附录4-3),但是我们要寻找最小 将等式(3-1)Y=+X+对N个观测值相加再除以N 其中表示误差项的样本均值。从等式(3-1)中减去等式(3-2)或尽管E()=i

-

0(3-3) 假设-=0,并将离差形式的模型(见第1章)写为:真正的回归直线为E(yi)xi。直线的斜率的估计为:y由于是 量,ˆ也是随机的,所以确定ˆ分布的性质是很自然的。确定ˆ分布性质yi具体步骤相对来讲并不难,但是因为可能有些烦琐,我们把它放在附录3-1中。证明主要依赖于一些附录1-1和附录2-1中所表述的与求和算子和期望算子有关的结果,同时也与古典线性回归模型的假设有关。第一个结论是: 样的X下,重复这个试验,我们会获得一组新的Y的观测值(),因而得到斜率的一所以ˆ 7)所以ˆX的偏差平方和,以及观测值的个数。另外,截距估计ˆ和ˆ有了关于最小二乘估计量的均值、方差和它们的协方差知识,我们就可以讨论线性模型的统计检验了。为此,我们需要假设6—误差项服从正态分布。首先,由于ˆ是y的平均,而y服从正态分布,所以估计量ˆ也服从正态分布(独立的正态分布的线性组合仍然服从正态分布)。即使yˆ的分布也会(在一定条件下)近似于正态分布。综上所述,注意ˆ就有可能获得比较精确的斜率估计,但是,ˆ的方差还与x2成反比,所以x的方差越大,对 很的X—当X的均值恒等于0ˆ的方差达到其最小值2/Nˆ和ˆ协方差的符号与的符号相反。例如,如果X的均值为正,对ˆ的高估很可能对应于对ˆ的低估。X—i我们的分析还没有结束,因为我们还需要找到总体方差2的估计。用到以下的关于方差真值2的样本估计:iˆ=Y-ˆis2是误差方差的无偏且一致的估计量(s,有时记为SER,叫做回归标准差)N-2才能获得方差真值的无偏估计。其原因是,当有N个数据点时,斜率和截距的估计会给数据加上两个约束条件,使得在估计残差方差时还剩N-2N-2即自由度的个数。有了2的估计,我们回到式(3-11)~(3-13)ˆ和ˆ粗略地讲,中心极限定理说明,当样本容量无限增大时,独立的随量的样本均值趋于正态分布。它ˆˆ是y的线性组合。iiSˆ和Sˆˆ和ˆ(方差的样本估计也如此)。它们与回归标准差s相,s代表回归直线误差项的离散程度。例例 学生平均成均值为0.12、标准差为0.026ˆ服从均值为1.375、标准差为0.369的正态分i由于x2=162,容易计算ˆ表平均成绩均值的11%(s与因变量均值的比值越低,回归直线对数据拟合得就越好)表3-1s已知ˆ和ˆ的分布,就可以构造回归参数的置信区间,并对它们进行假设检验。置信区间是这样形成的,即它包含回归参数真值的概率等于1减去显著性水平。置信区间对回归参数估计的统计假设检验非常有用。我们由一个原假设开始,通常它表示的是某个因素不存在。因为我们通常希望“接受”模型,所以构造原假设的方法是使我们有可能它。为检验模型的效用,设原假设为=0。我们希望通过得到显著地不等于0的ˆ值,从而有充分的理由怀疑=0的假设,因 原假设。例如,假设ˆ=0.9,如果我们选择显著性平为10%,那么的90%0.6<这意味着处于区间0.6~1.2之间的概率为0.90。另外,它意味着我们可以90%的置信 在假设检验中,有必要确定一些有关和接受的规则。常用的规则是5%的显著性水平,这个判别标准是,当原假设为真时原假设的概率应小于5%。显著性水平的选择依赖于两类错误的相对重要性。古典计量经济学中的假设检验几乎只涉及到不正确地真实的原假设(第一类错误)。由于所确定的可检验假设的性质,其备择假设的定义经常很不明确,使得人们(第二类错误)5%的显著性水平被,而对是否接受备择假设不加说明。在应用计量经济学问题中,应该仔细检查用于检验的统计量和系数的标准差。当原假设被时,通常模型就会被接受,除非出现与结论相反的的信息。用于判断是否接受模型的显著性水平随着研究者和所研究模型类型的不同会有很大差异。例如,用容量很大的样本估计的模型可能使我们多个解释变量的系数为0的原假设。所以,我们可以选择采用比较小的显著性水平,从而使原假设更加。有关回归系数的统计假设检验经常用到t分布,这是由于在统计检验中我们需要用到误差项方差的样本估计而不是它的真值。为了用t分布构造参数估计的95%的置信区间,我们首先将回归参数估计如ˆ

虑原假设为=0或等价地,在一元线性模型中变量X和Y之间没有关系时,上述过程最简单。在这种情况下,t统计量为c如果这个t统计量的数值大于临界值t,我们 原假设。当大样本且显著性水平为5%ctctc=t

N-N-

N-2的t分布。对于显著性水平为5%将等式(3-20)做一些小的调整得到 21)由等式(3-21)我们得到的置信度为95%用类似的步骤,我们可以得到的95%只要t分布临界值选择得正确,就能对任一显著性水平确定置信区间。未知参数的置信区间为我们提供了关于可能包含参数真值的值域的统计判断。所以,等式(3-22)说明,在斜率的参数估计值两侧t0.95。c有时,计量经济分析用p值的形式提供额外的信息。p值描述了一个计量经济结果的确切的显著性水平,所以p值为0.07说明系数在0.07的水平上统计显著(但不是在5%水平上)。在这种t分布的7%位于斜率参数估计两侧tc倍标准差所构成的区间之外。c例例 (接上例)学生平均成我们发现0在的95%的置信区间之外,因此我们可以5%的显著性水 0.06<或tc例 消费支C的值(单位:十亿,已经经过季节调整)。我们采用个人可支配总收入Y(单位:十亿,经过季节调整)作为解释变量。采用年第一季度到年第二季度的季度数据用C对Y进行回归,C=-27.53+0.93Y(4.45)(0.0018)本例中的截距-27.53在5%的水平上显著(t统计值为-6.18(-27.53/4.45))。更重要的是,可支配收入系数的t统计值为517(0.93/0.0018)),很明显我们要斜率为0的原假设,而选择斜率不为0的备择假设。对原假设的使我们可以接受—至少是暂时接受—一元线性回归模型。当然,进一步研究也许会让我们发现比上述模型更好的总消费支出模型。假设我们用一个随假设我们用一个随量来代替解释变量Y(我们选择来自于均值为50、方差为25的正态分布的随量X)。我们期望(显著性水平为5%时)20次中约有1次X变量的系数回归残差是关于估计回归直线与数据之间拟合程度的一个很有用的度量,一个好的回归方程应该是有助于解释的大部分方差的方程。残差大说明拟合得不好,而残差小说明拟合得好。用残差作为拟合优度度量的问题是,它的取值依赖于因变量的单位。为了寻找一个无量纲的量Y的偏差平方和是合理的。我们的目标是将Y的偏差平方和分为两部分,第一部分是能被回归方程解释的,其次是模型解释不了的部分(误差项)。首先假设已知线性回归模型的斜率为0,我们只需要用截距来进行拟合,则对任一i,Yi的最佳预测是Y的样本均值:YYˆ— 当斜率不为0时,我们可以利用Y依赖于X 这个新增加的信息会减少Y的偏差平方和中不可解释的部分。为了说明这一点,考虑下面的恒iY与Y的均值之差,右边第一项为残差ˆ,右边第二项是Y的预测值与i的均值之差。请见图3-4为了计算偏差平方和,等式(3-24)两边同时平方,且对i=1,2,⋯,N的所有观测值ˆ=0和ˆX=0,可以证明等式(3-25)的最后一项等于0 i 平方和 平方和 归平方和 我们定义回归方程的R平方(R2)R2是Y的总变差中,Y对X的回归方程所能解平方和(ESS)的值在0到总偏差平方和之间R2值在0~1,YR2为0。如果Y,—圆圈时(图3-5b),就可能发生这种情况。只有当所有的样本点都在回归直线上时,

图3-4Y

)图3-5度量i为了将R2与本章前面的回归参数估计联系起来,y的预测值写为:ii或注意R2只是一个描述性统计量。粗略地说,我们认为R2的值高则回归直线拟合得好,R2的值低则回归直线拟合得不好。但是须,有几个原因会造成较低的R2值。在有些情况下,X可能不是一个好的解释变量。即使我们有理由相信X确实对预测Y有所帮助,但是把X包括在方程中之后,Y的不可解释的变差依然存在。而在时间序列分析中,人们经常会得到高的R2值,这是因为任何随时间增长的变量都有可能很好地解释另一个随时间增长的变量。相反,2的值仍可能较低,其原因是各个观测值之间存在。有时用方差分析表的方法来概括总结Y的总偏差平方和的分解是很有用的。在方差分析表中,已被解释的和未被解释的变差除以相应的自由度的个数即变为方差。所以,Y的变差是Y的总偏差平方和除以N-1,被解释的方差等于被解释的变差(因为回归只比估计Y的均值多用一个约束条件),残差方差等于残差偏差平方和除以N-2。因为R2在分析因变量Y和自变量X之间因果关系的模型时很有价值,所以我们认为R2不仅是一个衡量两个变量之间相关程度的量。相关不隐含有关因果关系的假设,而回归则包含因果关系的假设。在第1章我们看到选择模型中因变量和自变量的选择是至关重要的。因变量是被解释的变量,而自变量是造成因变量变化的原因。只有在分析数据之前就已确定了模型的因果关系时最小二乘法才是合适的。如果确定了模型Y=+X,回归斜率的t统计值显著就可以作为确t统计值意味着方程无效。举例说明相关但不存在因果关系的情形:假设我们有一组来自一项关于19世纪非洲医学研究的时间序列数据,我们可能会发现某地区的医生数与该地区疾病流行程度之间存在高度相关的关系,但由此推断医生的出现造成了疾病的流行是错误的。所以由高度相关并不能推断因果关系的存在。人们必须预先(根据以前的信息)确定某地区医生数是疾病流行程度的函数,并在回归正确的条件下对是否存在这样的关系进行统计检验。相关技术经常用于提出假设或证实以前猜想:只要人们不是直接地从数据中推断因果关系,上述的做法就都是可以接受的。在经济、商业和其他领域的很多情形下,两个变量高度相关,但是它们都受第三个潜在变量的影响。在这种情况下,那个潜在的变量应当在回归模型中作为自变量出现。不正确的因果关系对回归模型的斜率参数会有什么影响?让我们来比较下列两个回归模型的斜率参数。只有bˆ=1/Bˆ或等价地R2=1X与Y(见练习3.4)。将Y的总变差分解为两部分的做法使我们能够对Y与X之间是否存性关系进行检验。考这说明2本身也许不合适作为说明模型是否令人满意的量。更好的总的度量也许是说明模型对新数据预测能力的统计量。自由度个数是观测值个数减去约束条件的个数。因为计算数据与样本均值它也必须用数据来计算)时对数据有一个约束条件,所以Y的偏差平方和的自由度为N1。在计算斜率参数时,又用掉了一个自由。1,N-1,N- 在其他条件不变的情况下,我们认为X与Y之间很强的统计关系会导致被解释变差和未被解释变差的比值很大。因为F服从自由度为1和N-2的FF的下标分别代表分子和分母的自由度。只有被解释的回归变差为0时,F统计量的值才等于0。人们可以这样判断:F值小意味着X与Y之间(线性)关系很弱,而F值大意味着(线性)关系很强,所幸F统计量的数字分布是已知的(见书后关于F分布的附表4)。例如,我们可以通过寻找自由度为1和N-2的F分布的(显著性水平为5%的)临界值,以5%的显著性水平X与Y之间没有相关关系的原假设。如果回归方程的F的值大于临界值,我们以1,N-1,N- 在检验=0的原假设时,F检验与t检验有密切的关系,实际上,对于任一显著性水平,有F 1,N-2N-例 汽车零售有人曾经研究过汽车零售额(因变量)和收入总水平(自变量)之间的关系。人们认为S=+其中S是从1959年第1季度~1995年第2季度的汽车零售额(单位:十亿),W是同时期的季度工资(以十亿为单位)。拟合回归直线如下式所列。t统计值列在参数估计之下的括号中。因变量上加一个帽子(^)做为一个提示,说明方程是用来计常数项为正(代表截距项)说明若某季度没有工资收入,人们仍然会汽车。工资被看作是自变量的微小变动所引起的因变量的变化量(实际上性模型中,ˆ=dS/dW适于所有的W)。系数的估计不是无量纲的,它们的值直接与因变量S(以十亿为位)和自变量W(以十亿为单位)的度量单位有关。在此例中,我们在括号中写出t统计值而不是标准差的估计。用t统计量我们可以在1%以及5%的显著性水平上分别为1378使我们可以汽车零售额与工资没有关系的原假设(在1%的水平下)。尽管已经了截距为零的原假设,但是如果我们有充分的理由相信汽车零售额与工资的关系图应该通过原点,那么进行一次无截距的回归是很自然的事。用同样的样本回归结果如下:尽管t统计量使我们了原假设,去掉显著的截距项降低了方程解释功能。所以采用带有截距项的回归方程。只有在有充分理由认为方程通过原点时,才能 第1部 回归分析基例例 学生平均成绩问题(例 由R2为0.78使我们能够得到家庭收入变量可以解释由8变差的%的结论。F统计量使我们可以对学生平均成绩与家庭收入之间没有关系的原假设进行检验。为了做到这一点,我们以显著性水平为5%以及分子和分母自由度分别为1和6的F分布表来确定临界值(分子的自由度为1是因为模型只包含1个解释变量,而分母的自由度为6是因为有8个观测值和2个需要估计的参数),此例中,显著性水平为F例 公立和私立学校的入学人在2.6节中,我们描述了2个变量,分别是各州高等教育中每进入公立(PUBLIC)和私立(PRITE)学校人数的水平。最早的大学是东部的私立学校,公立学校以后才繁荣起来,随后公立学校在西部发展很快。有趣的是,私立学校注册人数高的州与人数低的州相比,其公共教育系统的发展不如后者快。下列截50个州公立学人数对私立入学人数的回归:公立和私立人数之间有一个统计上显著的负相关关系。这个回归方程说明一个州的私立人数每增长1个单位(每)该公立人数就下降半个单位。t值为-3.47及F统计值为12.04都说明负的PRITE的系数与0在5%的显著性水平下有显著差别。为了进一步评价一元回归模型的有效性,在图3-6中我们画出了残差的直方图。由于最小二乘的残差和等于0,残差以0为中心是很自然的。但其他与残差的分布有关的 - 393,从这个角度看,残差由-154~196是相当高的

图3-6 峰度2.79稍低于3.00,说明分布的尾端比正态分布稍细。最后,Jarque-Bera统计量0.47大大小于自由度为2的2分布的临界值5.99。因此我们不能 附录 证明:回忆,令由于X是确定的,每个cˆi所进行的假设)i 由附录由附录事实上,由c的定义有cx=1 i i由式(A3-由式(A3-ii根据不相关的假设,有对于所有ii

附录 下列性质中的前两个适用于一元和多元回归模型的残差,两个结果都不需要残差服从正态分布的假设,也不需要最小二乘估计为最佳线性无偏估计的假设,它们是(A1-18)和(A1-19)的直接结果。i性质 ˆ i。i性质 ˆX=0i证明:(用性质

,。性质3由式(3-,。 利用性质1利用性质1和2性质4s2是2的一个无偏估计量。证明:已知ˆ=yˆx。因为y=x+, i(正如正文中我们所的,残差的样本均值为0)。两边平方并对所有个观测求和,得到 ii i i 另外根据(A3-3)以及cx=1,ˆ- /x2,因此 =(ˆ-i i i 或构造练习1.1中被估计参数的95%的置信区间。能否=0的原假设?能否ˆ的标准差与XX取值范围两端的值来提高参证明只有在R2=1Y对XX对Y的回归方程的斜率参数当X的均值为00。能否直观地解释这是假设我们要建立一个模型,说明总储蓄行为是利率水平的函数。你希望在利率有波动的时期抽样还是希望在利率相对稳定的时期抽样?解释你的理由。ii用练习1.1X值(货币供应)的大小,将数值分为2组,每组5个观测值。换句话说,第一组包含的5个数据是货币供应的5个较小数值,计算下列参数:其中下标代表不同的组号是第二组的所有数字的均值的估计与斜率的最小二乘估计进行比较。能明B是回归方程斜率的一个无及及4在这一章中,我们讨论具有两个或多个自变量(除常数项以外)的回归模型,即多元回归模型。我们要描述古典多元回归模型的基本假设,并说明如何获得参数的最小二乘估计。然后我们讨论回归系数的含义。看到,回归方程中解释变量之间的相互作用会产生一些问题。在这一章中我们尤其着重讨论各种有助于解释模型的回归统计量,包括标准化系数、弹性和偏相关系数。 假设因变量YX,X,X 1) 1与第1ESS达到最小的1、2和3的值。假设观测值的个数多于三个且各方程是相互独立的,1、2和3和的解为(详情见附录4.1):在这个二元模型(式4-2)中,系数2度量的是在变量X3不变的情况下X2变化一个单位造成的Y的变化量。同样,系数3度量的是在变量X2不变时,X3变化一个单位造成的Y的变化量。在这两种情况下,一个解释变量保持不变的假设对于系数的解释是至关重要的。我们在附录4.2中 销售额、收入和利率变量用CPI进行减值以反映真实情况即SRSCPI其中t代表数据是在时间t被测量的。用从1975年~1995年第二季度的数据,估计回例 汽车销售为了检验每一个回归系数的统计显著性,我们自然会问-马尔可夫定理是否适用于多元回归模型,我们是否可以获得方差2的无偏估计以及回归参数估计的分布等信息。关于多元回归模型的统计性质的推导均在附录4-3中。这里我们概括地给出一些重要结论:在多元回归模型假设1~5成立的条件下,-马尔可夫定理对多元回归模型同样适用,即各系数j,j=1,2,⋯,k的普通最小二乘估计量是最佳线性无偏估计量(当误差项服从正态分布时,此例中所用数据来自CitibaseDatabase。原始变量是 第第4 多元线性回归模下式是2换句话说,经过标准化(即减去均值,除以标准差)的回归参数估计服从自由度为N-k的t分布。我们把关于每个系数的标准差 的推导放在附录4.3中,这是因为其中需要用到逆矩阵的计算。因为我们常常会用二元回归模型做例子,我们在这里给出三个,前两个是各系数方差的估计,第三个是两者的协方差: ,是和之间的简单相关系数 F检验、R2和调整的 YYYi两边同时平方,并对所有观测值(1~N)求和,得到Y的变差残差的变 因此,我们可以定义R2如下:R2表示被多元回归方程“解释”的变差占总变差的比例。R2经常被非正式地用作拟合优度R2时有一些问题。。因为 ,R2对模型中自变量的个数敏感。在回归方程中加入的自变量不会降低R2,只有可能增加2(增加新的解释变量不会改变TSS,但是可能会增加RSS)。因此,如果希望使R2增大,只要往方程中加入新的变量即可。最后,对于没有截距项的模型,R2的使用及解释就会比较。在这种情况下,回归平方和与总偏差平方和的比值不一定在0~1之间。用R2度量拟合优度的在于R2只涉及Y的总变差中被解释的部分和未被解释的部分,有考虑自由度的个数。一个自然的解决办法是使用方差,而不是偏差平方和,这样会消除拟合(已知方差等于偏差平方和除以自由度个数)。我们定义2或其中ˆ和Y的样本方差计算如下其中k是解释变量的个数。即使加入新的解释变量可能会降低残差或误差平方和(或保持不变), 如果k=1R2=R——如果k大于1,则R2≥R—2.

增加,而— R可能增加也可能减少。使用R型中包括很多变量而不用过多考虑它们为什么应该出现在方程中。举个例子,一个用25值估计的模型,其R2为0.8,但这个结果只是在模型中包含了17型的R值仅为0.4。很明显调整的R2大多数回归程序计算的F统计量都可以用来检验多元回归模型中R2统计量的显著性。自由度为k-1和N-k的F统计量可以使我们检验模型中所有的解释变量都不有助于解释Y与其均值之间的偏差平方和的原假设。换句话说,F统计量可以检验2=3=⋯k=0的联合假设。可以证明12)如果原假设为真,则RSS、R2以及F值都应当接近于0。因此如果F统计量的值大,就是在计算Y的方差时我们除以N-1是因为在计算Y的均值时用掉一个自由度。但是,在计算ˆ的方差时我们除以N-k是因为在计算ˆ之前回归模型中有k个参数需要估计(因此从原来的N中损失了k个自由度)。由等式(4-10)可知,。但是 。由这个等式解得。中,反之则去掉它,那么调整的R2将最大。详情见P.J.Dhrymes,“OntheGameof AustrilianEconomicPapers,vol.9,December1970。假设的理由。与0没有显著差别的F统计量使我们得出的结论是,解释变量不能解释F与其均值之间的偏差平方和。例如在一元模型中,F统计量检验的是回归直线是否是水平的。如果回归直线是水平的,则R2=0且回归模型不能解释因变量的偏差平方和。注意我们没有检验回归模型是否通过原点(=0)Y与其均值之间的偏差平方和。即使对回归方程中每个系数分别进行的t检验都不显著,F检验也可能原假设。例如当因变量之间高度相关时就可能出现这种情况。其结果可能是系数的标准差大而t值小,但整 例 (接上例例 (接上例)汽车销售 2—R=0.42;R=0.40;F(2,79)=F—(123值--例例 利月利率的变动。在本书中讨论序列相关(第6章)、单方程预测(第8章)、联立方程(第12章)和ARIMA模型预测(第18章)等问题时,反复使用这个利率的例子。利率被认为是由流动资产的总需求和总供给决定的。回归模型中包含的变量如下:。。M2=名义货币供给,以十亿为单位工业生产指数是衡量流动资产需求的一个很有用的量;一般认为生产的增长将意味着需求的增长,需求的增长会引起利率的提高。货币供给很明显应放入模型,因为引起货币供给变化的储备政策直接影响利率。同样的情况适用于价格的变化,因为通货膨胀率的上升将引起利率的上升。;与我们的预期相反。更进一步的问题是相对较低的R2和相对较高的回归模型标准差。例例 消费函 引入前期消费项使当前消费依赖于近期的消 值 的当前值计算):影响将随时间的推移发生作用,而且只能在消费长期不变的假设下通过计算长期边影响将随时间的推移发生作用,而且只能在消费长期不变的假设下通过计算长期边际消费倾向来衡量。解tCt-1,我们发现模型II0.18/(1-0.18)=0.95。II中滞后消费的t统计量显著,说模型III是一个储蓄函数,不是消费函数。但是简单查看一下回归结果,可知两者密切相关。这并不奇怪,因为储蓄是可支配收入和消费的差。注意系数估计之间的关系十分密切。模型I和模型III的截距仅是符号不同,而且斜率系数之和等于1III中的St用Yt-Ct替换,且与模型I的结果相比较,读者就会发现结果为什么会如此。另外,两个模型的回归平方和、回归标准差以及残差均相等。一开始令人奇怪的是从模型I到模型IIIR2减小很多。减小的原因可以从R2=1-ESS/TSS看出。由于两个方程残差相等,残差平方和也相等。但是由于因变量的不同,R2有很大的不同。我们在第8章中可以看到,作为衡量回归方程预测能力的一个度量,标准差经常比2更有用。多元回归模型的假设之一是模型中任何自变量之间不存在精确的线性关系。如果这种线性关系存在,我们就说自变量是完全共线的或存在完全共线性。举个例子,假设在第1章的学生平均成绩模型中包含以下三个自变量:2X=家庭收入,以千为单2 对于每个被的学生来说,X=7X,所以变量X X就 一个无法解决的问题 的系数是偏回归系数,在所有其他变量保持不变的情况下X3用来衡量当X3变化一个单位时Y的变化量。由于不可能保持所有其他变量不变,我们就不能解释(甚至定义)回归系数。完全共线性很容易发现,因为它会使参数的最小二乘估计求不出来(存在共线性时,所求的方程组包含两个或的不独立的方程)。在实际问题中,我们常常处理高度多重共线的自变量这个更加问题。当两个或多个变量(或变量的组合)之间高度(但不是完全)相关时,就出现了多重共线性。假设两个变量高度相关,还是可以获得回归系数的最小二乘估计,但是很难对系数做解释。两个高度相关的变量中第一个变量的系数被认为是在其他情况不变时,由这个变量的变化引起的Y的变化量。任何时候一个变量发生变化,与其高度相关的变量的观测值也会以相似的方式变化。所以多重共线性的存在意味着样本数据中的信息不足以对估计给出令人信服的解释。i毫不奇怪,回归参数估计的分布对因变量之间的相关很敏感,对回归标准差的大小也很敏感(ˆ的方差估计是s2/x2。这种敏感性的表现是回归系数的标准误差很大,查i看等式(4-6)和(4-7)参数估计的方差就可以看出这一点。两个的分母都包含1-r2。当样本中X和X不相关时,r=0且基本相同。但是当r的绝对值变的很大(接近1)时就出现多重 ˆ2和ˆ3的方差估计变得很大。这告诉我们即使ˆ2和ˆ3仍然是无偏估计,但是它们的可靠程度却很低。如果我们认为其中的一个或两个变量都应在模型中,由于估计标准差很大,我们不能原假设,这就会产生问题。在这种情况下合理的做法是从方程中去掉两个变量之一,然后重新估计方程。我们在第7章会看到,这样做在重新估计的模型中会产生偏差,但是会有助于我们克服多重共线在原来模型中的作用。检查多重共线性是否引起问题的最简单的方法是检查系数的标准差。如果几个系数的标准差都很高,而且从方程中去掉一个或几个变量会降低剩下变量的标准差,多重共线性通常就是问题的关键。更加复杂的分析将考虑到参数估计之间的协方差(以及单个标准差)对多重共线性敏感这个事实。如等式(4-8)所示,高度共线性将与参数估计之间相对大的协方差(绝对值)有关系。这说明假设r>0)ˆi高估了参数真值i,第二个参数估计ˆj可能低估j较大的标准差和较小的t统计量可以是模型存在多重共线的标志,但也可能说明这个模型我们已经看到,如果样本中有两个或多个解释变量高度相关,就很难区分一个解释变量和另一个解释变量对因变量的作用,这时就出现多重共线问题。解释变量之间很少不相关,所以只是程度问题;因此有很多方法可以用来判断多重共线是否存在。R2比较大但是没有几个显著的t统计量是多重共线存在的一个标志。实际上,有可能是一对或多对解释变量的简单相关系数相对比较高可能意味着多重共线的存在。但是仅仅依赖这些相关系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论