版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章简单回归模型商学院金融系方海燕简单回归模型可以用来研究两个变量之间的关系。简单回归模型要作为经验分析的一般工具还存在着局限性。但是作为一个经验工具还是很合适的。学会解释简单回归模型,对于多元回归模型的学习是一个很好的练习。2.1简单回归模型的定义解释y和x是两个代表某个总体的变量“用x来解释y”或“研究y如何随x而变化”。比如:y是大豆的产出,x是施肥量;y每小时工资,x是受教育的年数;y是社区的犯罪率,x是警察的数量。在写出用x来解释y的模型时,要面临三个问题。1、既然两个变量之间没有一个确切的关系,那么我们应该如何考虑其他影响y的因素呢?2、y和x的函数关系是怎样的呢?3、我们何以确定我们在其他条件不变的情况下刻画了y和x之间的关系(如果这是一个目标的话)呢?可以通过写出y和x的一个方程来消除这些疑虑。一个简单的方程是:
(2.1)假定方程(2.1)在我们所关心的总体中成立,它就定义了一个简单线性回归模型。或者叫两变量或双变量线性回归模型。y被称为因变量、被解释变量、响应变量、被预测变量和回归子。x被称为自变量、解释变量、控制变量、预测变量和回归元。变量u称为误差项或者干扰项,表示除x之外其他影响y的因素。简单回归分析有效地把除x之外其他因素所有影响y的因素都看成无法观测的因素。方程(2.1)还表现出y和x之间的函数关系。如果u中的其他因素不变,于是u的变化为0,即则x对y具有线性影响,其表述如下:(2.2)称为斜率参数,称为截距参数。例2.1大豆收成与施肥量
(2.3)
y——收成,x——施肥量,u——土地质量,降雨量等度量了在其他因素不变的情况下,施肥量如何影响大豆收成。例2.2一个简单的工资方程
(2.4)y—小时工资,x—受教育年数,u—劳动经验、天生能力、任现职时间等
度量了在其他因素不变的情况下,多接受一年的教育导致小时工资的变化量。式(2.1)的线性形式意味着:不管x的初始值为多少,它的任何一个单位变化对y的影响都是相同的。这对许多经济应用来说是不现实的。比如在工资——教育的例子中,可能还要考虑到递增的回报,即后一年的教育比前一年的教育对工资的影响更大。我们将在2.4节研究如何考虑这种可能性。要解决的最困难问题是,模型(2.1)是否真的能让我们得到关于x如何在其他条件不变情况下影响y的结论。从方程(2.1)看到,保持所有其他条件不变,确实能够度量x对y的影响。问题是我们怎样才能在忽略所有其他因素的同时,有得到其他因素不变情况下x对y的影响呢?节2.5将说明,只有在我们对无法观测的u与解释变量x之间的关系加以约束时,才能从一个随机数据样本中获得的可靠估计值。由于u和x都是随机变量,所有会涉及到概率的概念。假设(2.5)这只是对无法观测因素的分布给的一个命题。事实上,如果令则且证毕。现在讨论u和x如何相关的关键假定。度量两个随机变量关系的一个自然指数是相关系数。如果u和x不相关,则作为随机变量,它们就不存在线性相关。但是有可能非线性相关,如果这样的话,在解释模型和推导统计性质时产生问题。一种更好的方法是对给定x时u的期望值作出假定。关键假定是,u的平均值与x值无关,即
(2.6)方程(2.6)表明,根据x值的不同把总体划分成若干部分,每个部分中都有无法观测的因素都具有相同的平均值,而且这个共同的平均值必然等于总体中u的平均值。当方程(2.6)成立时,称u的均值独立于x。于是有称
为零条件均值假定。在工资——教育例子中式(2.6)意味着什么。为了讨论方便,假定u就是天生能力。那么式(2.6)就要求无论教育程度如何,能力的平均水平都相同。如果我们认为平均能力是随着教育程度的增加而递增的,那么式(2.6)就是错的。问题2.1假如期末考试的分数取决于出勤率和影响考试成绩的其他无法观测因素(如学生能力等):(2.7)其中y表示考试分数,x表示出勤率。问题:这个模型在什么情况下能够满足方程(2.6)?答:当u中的学生能力、学习动机、年龄及其他因素与出勤率无关时,式(2.6)将成立。不过,这看起来不太可能。在施肥的例子中,如果施肥量与该地区的其他条件没有关系,那么式(2.6)就成立。但是如果更多的肥料被施用在更高质量的土地上,那么u的平均值就会随着肥料的用量而改变,式(2.6)也就不成立了。零条件均值假定给出的另一种非常有用的解释。由有
(2.8)方程(2.8)表明,总体回归函数(populationregressionfunction,PRF)是x的一个线性函数。即x变化一个单位,将使y的期望值改变之多。给定零条件均值假定把方程(2.1)中的y看成两个部分是比较有用的一部分是表示被称为y的系统部分,即由x解释的那一部分另一部分是被称为非系统部分的u,即不能由x解释的那一部分。在节2.2,我们将在给定一个数据的随机样本的情况下,利用假定式(2.5)和式(2.6)给出的估计量。零条件均值假定对节2.6的统计分析也起到关键作用。2.2普通最小二乘法的推导我们已经讨论了假定回归模型的基本要素,接下来将要阐述如何估计方程(2.1)中的参数这个重要问题。为此,需要从总体中找出一个样本。令表示从总体中抽取的一个容量为n的随机样本。因为这些数据来自方程(2.1),所以对每个i都可以写为:
(2.9)这里,所以它是第i次观测的误差项。
举例来说,可能是某特定年份家庭i的年收入和年储蓄。如果我们收集了15个家庭的数据,则n=15。我们必须确定如何利用这些数据,得到储蓄对收入的总体回归中的截距和斜率估计值。有几种方法促使我们完成如下估计程序。我们将用到假定式(2.5)和假定式(2.6)的一个重要含义:在总体中,u和x不相关。因此,我们看到,u的期望值为零时,x和u的协方差也为零:
(2.10)
(2.11)事实上式(2.10)和式(2.11)可以用观测变量x和y以及未知参数来表示,方程(2.10)和(2.11)可分别写为(2.12)
(2.13)方程(2.12)和(2.13)意味着对总体中(x,y)的联合概率分布的两个限制。因为有两个未知参数要估计,所以我们寄希望于方程(2.12)和(2.13)能用于求出的较好估计量。事实上,我们确实能够做到这一点。给定一个数据样本,我们选择估计值求解(2.12)和(2.13)的样本对应值:
(2.14)
(2.15)这是一个用矩法进行估计的例子。这两个方程可用来解出方程(2.14)改写为
(2.16)其中的样本均值,的样本均值。由(2.16)得(2.17)将(2.17)代入(2.15)得整理后便得到根据求和运算的基本性质有因此,只要有(2.18)估计的斜率就为(2.19)方程(2.19)无非就是x和y的样本协方差与x的样本方差之比。这是非常有意义的,因为当等于总体的方差与x的方差之比。一个显然的含义是,若样本中的x和y正相关,则为正;若x和y负相关,则为负。尽管假定(2.6)给出了求解式(2.17)和式(2.19)的方法,但计算一个特定的样本估计值时,唯一需要的假定却是式(2.18)。这几乎不能算什么假定,因为只要样本中的不是完全相等,式(2.18)就一定成立。如果式(2.18)不成立,那么我们要么在从总体中取样时非常不走运,要么就是设定一个值得我们关注的问题(因为x在总体中没有变化。)例如,若y表示工资,x表示教育,则式(2.18)只有在样本中每一个人都具有相同的教育程度(比方说每一个人都是高中毕业时)才不成立。只要有一个人的受教育程度不同,式(2.18)仍然成立,并且能够计算出估计值。式(2.17)和式(2.19)所给出的估计值叫做的普通最小二乘法(ordinaryleastsquares,OLS)估计值。为了说明这个名称的合理性,对任一截距和斜率,定义时的一个拟合值(fittedvalue)为(2.20)这是在给定截距和斜率下,时的预测值。样本中的每一次给出都有一个拟合值。第i次观测的残差(residual)是的实际值与其拟合值之差:
(2.21)有n个这样的残差。[它与我们在式(2.9)中看到的误差不同,我们将在节2.5继续讨论这个问题。]现在,假设我们选择最小化残差平方和(sumofsquaredresiduals):
(2.22)可以证明,使残差平方和最小的必要条件是满足:(2.14)(2.15)式(2.14)和式(2.15)通常被称为OLS估计值一阶条件。OLS的一阶条件的解由式(2.17)和式(2.19)给出。“普通最小二乘法”之所以得名,就是因为这些估计值最小化了残差平方和。一旦我们确定了OLS截距和斜率估计值,就可以建立OLS回归线:
(2.23)其中是从式(2.17)和式(2.19)中得到的。从方程(2.23)得到的预测值便是估计值。方程(2.23)又称为样本回归函数(sampleregressionfunction,SRF),因为它是总体回归函数的一个样本估计。总体回归函数是固定而又未知的,切记这一点非常重要。因为样本回归函数来自一组给定的数据样本,所以一个新的样本将使得方程(2.23)中产生不同的斜率和截距。在大多数情形中,斜率估计值可写成(2.24)它告诉我们变化一个单位时的变化量。等价地,(2.25)所以,给定x的一个变化,都可以计算出y的预期变化。现在给出一些通过实际数据得到简单回归的例子。因为这些例子涉及到许多观测,所以要用计量经济学软件包进行计算。注意:不要指望能从这些回归中得到太多东西,因为它们不一定能揭示多少因果关系。到目前为止,还没有提到OLS的统计性质。在节2.5中,在我们对总体模型方程(2.1)明确施加一些假定之后,再来考虑其统计性质。例2.3首席执行官的薪水和股本回报率对于由首席执行官(CEO)构成的总体,令y代表年薪,以千美元为单位。即y=856.3表示年薪为856300美元。令x表示某个CEO所在公司在过去三年里的平均股本回报率(股本回报率=净收入占普通股价值的百分比)。例如x=10,表示平均股本回报率为10%。为了研究这个公司业绩指标和CEO薪水之间的关系,可以假定一个简单模型斜率参数衡量的是,当股本回报率增长一个百分点,以千美元计年薪的变化量。因为更高的x对公司有好处,所以我们认为数据集1包含了1990年209位CEO的信息;这些数据是从《商业周刊》(BusinessWeek,5/6/91)中获得的。在这个样本中,CEO的平均年薪是1281120美元,最低值和最高值分别是223000美元和14822000美元。1988年、1989年和1990年的平均股本回报率是17.18%,最低值和最高值分别是0.5%和56.3%。利用数据集1的数据,联系y和x的OLS回归线为(2.26)其中截距和斜率都是被四舍五入到小数后三位;用表示这是一个估计方程。我们如何解释这个方程?首先,如果股本回报率是零,即x=0,那么年薪的预测值等于截距963.191,因为薪水以千美元为单位,所以又等于963191美元。其次,能够把年薪的预期变化看成x变化的函数:这意味着,若股本回报率增加一个百分点,即,则年薪的预期变化就是18.5,或18500美元。因为式(2.26)是一个线性方程,所以所估计的变化与初始年薪无关。利用式(2.26),很容易比较x取不同值时的年薪预测值。假设(千美元),超过150万美元。然而,这并不是说在一个x=30的公司中某个特定的CEO可以赚到1518221万美元,因为还有许多其他因素会影响薪水。这只是我们从OLS回归线(2.26)得到的预测值。我们不可能知道PRF的真正形状,所以无法确知SRF与PRF有多接近。另外一个数据样本便会给出一条不同的回归线,这条回归线有可能更接近总体回归线,也有可能会离总体回归线更远。例2.4工资和受教育程度以1976年的劳动力为总体,令y表示时薪。于是,对一个特定的人来说,如果y=6.75,则表示每小时工资为6.75美元。令x表示接受教育的年数;例如x=12表示完成了高中教育。由于例子中的平均工资是5.90美元,消费者价格指数表明,这一数值相当于2003年的19.06美元。利用数据1中n=526个人的数据,可以得到如下OLS回归线(或样本回归函数):
(2.27)问题2.2当x=8时,从式(2.27)中得到的估计工资是用1976年的美元表示的3.42美元,如果用2003年的美元表示,这个值多少?答:约11.05美元。从以1976年和2003年的美元度量的平均工资,可以得到CPI缩减指数为那么2003年的平均工资为(美元)我们必须谨慎地解释这个方程。截距-0.90字面上看意味着,一个没有受过教育的人,其小时工资的预测值是-90美分。这无疑是非常可笑的。在这个526人的样本中,只有18人接受的教育低于8年。于是,回归线在受教育程度极低时表现不好也就不足为奇了。对于一个接受8年教育的人来说,预测工资为式(2.27)斜率估计值显示,多接受一年教育,小时工资就会增加54美分。因此,增加四年教育可以使小时工资增加4×0.54=2.16(美元)这是相当大的影响。因为式(2.27)的线性性质,所以无论初始教育水平如何,每增加一年的教育都使工资增加相同的数量。在节2.4中,我们会讨论容许解释变量具有非恒常边际效应的某些方法。例2.5投票结果和竞选支出数据2包含了1988年美国众议院173次两党竞选的选举结果和竞选支出数据。每次竞选有两名候选人,A和B。令为候选人A所得票数的百分比,为候选人A在总竞选支出中所占的百分比。除了以外,还有许多因素影响着竞选结果(包括候选人的素质,还可能包括A和B支出的美元数量)。然而,我们可以估计一个简单回归模型,与竞争对手相比,花费更多的钱是否能够得到更多的票数百分比。利用这173次观测得到的估计方程为
(2.28)这意味着,如果候选人A的支出在总花费中的比例增加一个百分点,候选人A就能多得到几乎半个(0.464)百分点的总票数。这是不是一种因果关系尚不清楚,但并非难以置信。即投票的半数。问题2.3在例2.5中,若即60%,预计候选人A能得到的票数是多少?这个结果合理吗?答:将代入方程(2.28)就可以得到,即54.65%。就是说如果候选人A花了总竞选支出的60%,那么预测候选人将得到接近55%的选票。这并非不合理。在有些情形中,回归分析不是用来确定因果关系,而是像标准的相关分析一样,仅用于判断两个变量是正相关还是负相关。关于术语的注解在多数情形中,我们总是通过写出诸如式(2.26)、式(2.27)或式(2.28)的方程,表示我们通过OLS估计了某个关系式。有时候,为了方便,仅指出运用OLS回归而不写出这些方程。我们说做了(2.29)的一个回归,或者只说将回归,通常指的是通过OLS得到了方程(2.23)。式(2.29)中的位置标志着哪一个是因变量和哪一个是自变量:我们总是将因变量对自变量回归。2.3OLS的操作技巧我们在上一节考察了OLS截距和斜率参数表达式的数学推导。在本节中,我们将进一步讨论拟合OLS回归线的某些代数性质。考虑这些性质的最佳途径,就是要意识到,根据构造,它们对任何数据样本都成立。考虑相对数据的所有可能随机样本的OLS性质是一个更艰巨的任务,这将留待节2.5讨论。我们将要推导的一些代数性质看起来非常普通。不过,掌握这些性质有助于我们理解,在对数据进行某种处理时(比如当因变量和在半空的度量单位发生变化),OLS估计值及相关统计量会发生什么变化。拟合值和残差我们假定从给定数据样本中得到截距和斜率的估计值。给定,我们能够获得每次观测的拟合值[由方程(2.20)给出。]根据定义,的每个拟合值都在OLS回归线上。如方程(2.21)所指出,与第i次观测相联系的OLS残差与其拟合值之差。若为正,则回归线低估了;若为负,则回归线高估了。第i次观测最理想的情况是,但是,大部分情形中,并非每个残差都等于零。即实际上没有一个数据点必须在OLS线上。例2.6CEO的薪水和股本回报率表2.1包含了CEO数据集中的前15次观测列表,同时给出拟合值和残差。(股本回报率),(工资),(拟合值)残差表2.1前15位CEO的拟合值与残差obsno(%)12345678910111213141514.110.923.55.913.820.016.416.310.526.325.926.814.822.356.310951001112257813681145107810941237833567933133993720111224.0581164.8541397.9691072.3481218.5081333.2151266.6111264.7611157.4541449.7731442.3721459.0231237.0091375.7682004.808-129.0581-163.8542275.9692-494.3484149.4923-188.2151-188.6108-170.760679.54626-616.7726-875.3721-526.0231101.9911-438.76786.191895前4位CEO的薪水低于我们从回归线式(2.26)得到的预测值;第5,9、13和15位的薪水高于我们从回归线式(2.26)得到的预测值。OLS统计量的代数性质接下来介绍OLS估计值及其相关统计量的一些有用代数性质。我们介绍其中最重要的三条。(1)OLS残差和以及OLS残差样本均值都为零即OLS残差和为零:残差样本均值为零:因为由OLS的一阶条件式(2.14)中直接得到。由式(2.14):
(2.30)(2)回归元和OLS残差的样本协方差为零。即由式(2.15):(2.31)其中,由(1)知,所以(3)点总在OLS回归线上。事实上,由式(2.23)知由式(2.17)知所以有即也就是说总在OLS回归线上。把每个都写成它的拟合值与它的残差之和,便提供了解释OLS回归的又一方法。对于任何i值,都有(2.32)根据性质(1),可知道残差均值为零。即所以拟合值的样本均值与的样本均值相等。即其中进一步来说,性质(1)和性质(2)可被用于证明之间的样本协方差为零。那么,我们可以把OLS看作是把分成拟合值和残差两个部分。在样本中,拟合值与残差是不相关的。事实上,定义总平方和(totalsumofsquares,SST)解释平方和(explainedsumofsquares,SSE)残差平方和(residualsumofsquares,SSR)(也叫做剩余平方和)如下:总平方和(2.33)
解释平方和(2.34)残差平方和
(2.35)SST度量了中的总样本变异;即度量了在样本中的分散程度;SSE度量了在样本中的分散程度(其中用到结论);SSR度量了的样本变异。的总变异总能表示成解释了的变异SSE和未解释的SSR变异之和。因此,SST=SSE+SSR(2.36)证明式(2.36)并不困难。事实上,而(2.37)因为拟合优度迄今为止,我们还没有办法衡量解释变量或自变量x究竟多好地解释了因变量y。如果能够计算出一个数值,用以概括OLS回归线对数据拟合得有多好,对我们就非常有帮助。假设总平方和SST不为零(除非所有都相等这样一个极其罕见的情况出现,否则这个假定总成立),将方程(2.36)两边同除以SST得令,(2.38)称为判定系数。是解释变异与总变异之比,因此被解释成y的样本变异中被x解释的部分。式(2.38)的第二个等式提供了计算的另一种方法。根据式(2.36),。若数据点都落在同一直线上,OLS就提供了数据的一个完美拟合。此时,。一个接近于零的值表明OLS给出了一个糟糕的拟合。可以证明事实上,其中例2.8CEO的薪水和股本回报率在CEO薪水的回归中,我们可以得到:
(2.39)在这个209位CEO的样本中,企业的股本回报率仅解释了薪水变异的约1.3%。这意味着这些CEO的薪水变异中还有98.7%悬而未决由于还有企业和CEO个人的诸多其他特征影响薪水,所以缺乏解释力就不奇怪了。这些因素都被包含在简单回归分析的误差中。在社会科学中,回归方程中的过低是很正常的,对于横截面分析来说更是如此。我们要在多元回归分析中更一般性地讨论这个问题,但在此有必要强调,一个看似很低的值,并不意味着OLS回归方程没有用。式(2.39)仍然可能是y和x在其他条件不变下关系的良好估计;是否正确并不直接依赖于的大小。初学计量经济学的学生在评价回归方程时总是特别注意的大小。现在要意识到,把作为评价计量经济分析成功与否的主要准则可能会带来许多麻烦。例2.9投票结果和竞选支出在投票结果方程(2.28)中,。因此,竞选支出比例解释了该样本中选举结果变异的85%以上。这是相当大的一个比例。2.4度量单位和函数形式在应用经济学中,有两个重要问题:(1)理解改变因变量和(或)自变量的度量单位将如何影响OLS估计值;(2)了解如何把在经济学中使用的总体函数形式加入到回归分析中。改变度量单位对OLS统计量的影响在例2.3中,我们选择用千美元来计算年薪,用百分数来计算股本回报率。为了理解方程(2.39)中的估计值,明确这个例子中y和x的度量单位非常关键。我们还必须知道,当因变量和自变量的度量单位变化时,OLS估计值的变化完全可以预料。一般地,当因变量的度量单位改变时,我们很容易计算出截距和斜率估计值的变化。若因变量乘以一个常数c(意味着样本中的每个数据都乘以c),则OLS截距和斜率的估计值都扩大为原来的c倍。(这里假设自变量没有任何变化。)问题2.4假设薪水用百美元,而不是千美元,令其为z,在z对股本回报率的回归中截距和斜率的OLS估计值是多少?答:将方程(2.39)变为同样,可以用CEO薪水的例子来考察,当我们改变自变量的度量单位时会发生什么情况。定义,意味着23%的股本回报率。为了集中考虑自变量度量单位的改变,保持原来因变量的度量单位(千美元)不变。当我们将y对k回归时,便得到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 孕检流程中的睡眠管理与改善
- 提升教学质量基于云技术的资源共享平台构建
- 家庭教育与孩子的人际关系建立
- 2025试验土地租赁合同
- 工业品销售市场客户群体特征研究
- 揭秘星际间的神秘联系
- 专业物流公司2024年度标准运输协议细则版B版
- 泉州师范学院《工程项目成本规划与控制》2023-2024学年第一学期期末试卷
- 南开大学《油气储运新技术》2023-2024学年第一学期期末试卷
- 闽江师范高等专科学校《商业银行业务模拟操作实验》2023-2024学年第一学期期末试卷
- 普外科医疗质量与安全管理小组工作计划文档
- 中学日常行为规范 扣分加分细则全
- GB/T 41968-2022乳化废液处理处置方法
- 医院内部控制风险评估报告(6篇)
- 中科院应化所考博真题2023年高等物理化学及答案
- 电动力学试卷及答案
- 成品仓库卫生管理制度
- 高考模拟作文“如何面对‘识别度’的问题”导写及范文
- 温室大棚租赁合同(通用5篇)
- 中学美育工作制度
- 2023年保安公司副总经理年终总结 保安公司分公司经理年终总结(5篇)
评论
0/150
提交评论