版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
经济计量分析
第四章一元线性回归模型现在是1页\一共有270页\编辑于星期二本章介绍一元线性回归模型的概念及一元线性回归模型所依据的理论与应用。一元线性回归模型只包含一个解释变量和一个被解释变量,是最简单的线性回归模型。通过一元线性回归模型的学习,可较容易地理解回归分析的基本理论与应用。现在是2页\一共有270页\编辑于星期二第一节回归分析的相关概念
一、回归的含义
回归一词最早由F·高尔顿(FrancisGalton)提出。在一篇研究父母身高与子女身高相互关系的论文中,高尔顿发现,虽然有一个趋势,父母高,子女也高;父母矮,子女也矮,但给定父母的身高,子女的平均身高却趋向于或者回归到全体人口的平均身高。现在是3页\一共有270页\编辑于星期二也就是说,当父母双亲都异常高或异常矮,则子女的身高有趋向于人口总体平均身高的趋势。这种现象被称为高尔顿普遍回归定律。这就是回归一词的原始含义。现在是4页\一共有270页\编辑于星期二在现代,回归一词已演变为一种新的概念。回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释变量的总体均值。在下面的几个例子中,我们可以清晰地看到回归分析的实际意义。现在是5页\一共有270页\编辑于星期二1.高尔顿普遍回归定律。高尔顿的目的在于发现为什么人口的身高分布有一种稳定性。在现代,我们并不关心这种解释,我们关心的是:在给定父辈身高的情形下,找到儿辈平均身高的变化规律。现在是6页\一共有270页\编辑于星期二就是说,我们如果知道了父辈的身高,就可预测儿辈的平均身高。假设我们得到了一组父亲、儿子身高的数据,制成如下的散点图。图中按统计分组的方法将父亲身高分为若干组。现在是7页\一共有270页\编辑于星期二××××××××××××××××××××父亲身高(cm)儿子身高(cm)
图4.1
给定父亲身高儿子身高的分布
现在是8页\一共有270页\编辑于星期二图4.1中对应于设定的父亲身高,儿子身高有一个分布范围。随着父亲身高的增加,儿子的平均身高也在增加,画一条通过儿子平均身高的线,说明儿子的平均身高是如何随着父亲身高的增加而增加的,这条线就是回归线。
现在是9页\一共有270页\编辑于星期二2.在经济学中,经济学家要研究个人消费支出与个人可支配收入的依赖关系。这种分析有助于估计边际消费倾向,就是可支配收入每增加一元引起消费支出的平均变化。现在是10页\一共有270页\编辑于星期二
3.在企业中,我们很想知道人们对企业产品的需求与广告费开支的关系。这种研究有助于估计出相对于广告费支出的需求弹性,即广告费支出每变化百分之一的需求变化百分比,这有助于制定最优广告策略。
现在是11页\一共有270页\编辑于星期二4.农业工作需要预计粮食产量,需要研究粮食产量与播种面积、施肥量、降雨量之间的依赖关系。这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。现在是12页\一共有270页\编辑于星期二二、统计关系与确定性关系如果给定一个变量X的结果值就可确定另一个变量Y的结果值,则称变量Y是变量X的函数,即X、Y之间是函数关系。现在是13页\一共有270页\编辑于星期二在经典物理学中,给定电阻Ω,电流I和电压V
之间的关系即为函数关系,即。这种典型的变量关系就是确定性关系。现在是14页\一共有270页\编辑于星期二在经济系统中,这种变量之间的函数关系或确定性关系就很少见。常见的是变量之间是一种不确定的关系,既使变量X是变量Y
的原因,给定变量X
的值也不能具体确定变量Y的值,而只能确定变量Y
的统计特征,通常称变量X与Y之间的这种关系为统计关系。现在是15页\一共有270页\编辑于星期二
例如,企业总产出Y
与企业的资本投入K
、劳动力投入L
之间的关系就是统计关系。虽然资本K和劳动力L
是影响产出Y的两大核心要素,但是给定K、L
的值并不能确定产出Y
的值。因为,总产出Y除了受资本投入K、劳动力投入L
的影响外,还要受到技术进步、自然条件等其它因素的影响。现在是16页\一共有270页\编辑于星期二三、回归分析与相关分析
与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性关联度,相关系数就是用来测度两个变量之间的线性关联程度的。例如,吸烟与肺癌、统计学成绩与数学成绩、身高与体重等等之间的相关程度,就可用相关系数来测度。现在是17页\一共有270页\编辑于星期二而在回归分析中,我们的主要目的在于根据其它变量的给定值来估计或预测某一变量的平均值。例如,我们想知道能否从一个学生的数学成绩去预测他的统计学平均成绩。现在是18页\一共有270页\编辑于星期二在回归分析中,被解释变量Y被当作是随机变量,而解释变量X则被看作非随机变量。而在相关分析中,我们把两个变量都看作是随机变量。现在是19页\一共有270页\编辑于星期二例如,在学生的数学成绩与统计学成绩的分析中,如为回归分析,则统计学成绩是随机变量,数学成绩是非随机变量,即数学成绩被固定在给定的水平上,以此求得统计学的平均成绩。而在相关分析中,两者处于平等地位,不存在谁为解释变量,谁为被解释变量的问题,两者均为随机变量。现在是20页\一共有270页\编辑于星期二第二节一元线性回归模型
一、引例假定我们要研究一个局部区域的居民消费问题,该区域共有80户家庭组成,将这80户家庭视为一个统计总体。现在是21页\一共有270页\编辑于星期二我们研究每月家庭消费支出Y
与每月可支配收入X
的关系。就是说,已知家庭每月可支配收入,要预测家庭每月消费支出的总体平均水平。为此,将80户家庭分为10组。表4.1给出了人为数据。现在是22页\一共有270页\编辑于星期二XY每月家庭可支配收入(元)1000150020002500300035004000450050005500每月家庭消费支出(元)7007407808208609009401050107011201170122012701320137014201380144015001560162016801740180018601780184019001960202020802140220022602180224023002360242024802540260026602620268027402820290029803160290029803060314032203300338034603540332034203520362037203820392037103810391040204130423043304090420043104420453046404750合计5740109801458018180217801974022540253402814030940表4.1居民收入、消费数据现在是23页\一共有270页\编辑于星期二
从表4.1中可以看出,对于每月1000元收入的7户家庭,每月消费支出为700元到940元不等。同样,当X=3000元时,9户家庭的每月消费支出在2180元到2660元之间。表4.1给出了以X的给定值为条件的Y
的条件分布。
现在是24页\一共有270页\编辑于星期二对于Y的每一条件分布,我们能计算出它的条件期望,记为E(Y/X=Xi),即在X取特定Xi
值时Y的期望值。例如,X=1000时,Y的期望值为:现在是25页\一共有270页\编辑于星期二
将表4.1中的数据在直角坐标系中描出,则得到图4.2的散点图。现在是26页\一共有270页\编辑于星期二XY1000200030004000500010001500200025003000
3500
4000
4500
5000
5500
收入、消费散点图
图4.2现在是27页\一共有270页\编辑于星期二该图表明了对应于各X
值的Y的条件分布。虽然每个个别家庭的消费支出都有异,但图4.2清楚地表明随着收入的增加,消费支出平均地说也在增加。就是说,散点图启示我们,Y的条件均值随X
的增加而增加。现在是28页\一共有270页\编辑于星期二如果我们观察图4.2中那些代表Y的各个条件均值的粗圆点,则表明这些条件平均值落在一根有正斜率的直线上。我们称这根直线叫做总体回归线,它是Y对X的回归。现在是29页\一共有270页\编辑于星期二总体回归线就是当解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。
图4.2表明,对每一Xi都有Y值的一个总体和一个相应的均值。而回归线是穿过这些条件均值的线。现在是30页\一共有270页\编辑于星期二二、总体回归函数从图4.2我们可以看出,条件均值E(Y/Xi)是Xi的函数,即:E(Y/Xi)=f(Xi)
(4.1)
其中,f(Xi)表示解释变量Xi
的某个函数。在我们的引例中,E(Y/Xi)是Xi的一个线性函数。现在是31页\一共有270页\编辑于星期二式(4.1)就是总体回归函数,简称总体回归。它表明在给定Xi下Y的分布的总体均值与Xi有函数关系,就是说它给出了Y的均值是怎样随X值的变化而变化的。现在是32页\一共有270页\编辑于星期二函数f(Xi)采取什么函数形式,是一个需要解决的重要问题。在实际经济系统中,我们不会得到总体的全部数据,因而就无法据已知数据确定总体回归函数的函数形式。同时,对总体回归函数的形式只能据经济理论与经验去推断。现在是33页\一共有270页\编辑于星期二例如,我们可以假定消费支出与收入有线性关系。则总体回归函数为(4.2)
其中,和为未知而固定的参数,称为回归系数;为截距系数,为斜率系数。式(4.2)为线性总体回归函数。现在是34页\一共有270页\编辑于星期二三、线性的含义1.对变量为线性对线性的第一种解释是指Y
的条件期望是Xi的线性函数,例如式(4.2)就是线性回归函数,该回归线是一条直线。 现在是35页\一共有270页\编辑于星期二
按这种解释就不是线性的,因为对的一阶导数不是常数。现在是36页\一共有270页\编辑于星期二2.对参数为线性对线性的第二种解释是指Y的条件期望 是参数的一个线性函数。它可以是也可以不是变量的X
的线性函数。现在是37页\一共有270页\编辑于星期二此时, 就是线性回归函数。但 则不是线性回归函数,而是非线性回归函数。现在是38页\一共有270页\编辑于星期二在本书中,主要考虑的是对参数为线性的回归模型,线性回归是指对参数β为线性的一种回归(即参数只以它的1次方出现);对解释变量X则可以不是线性的。现在是39页\一共有270页\编辑于星期二从图4.2可清楚地看到,随着家庭收入Xi的增加,家庭平均消费支出E(Y/Xi)也在增加,这表明了Xi与Y的平均水平的关系。我们想知道对于具体家庭而言,消费支出Y与它的收入水平Xi的关系。四、总体回归函数的随机设定现在是40页\一共有270页\编辑于星期二
就个别家庭而言,收入水平增加,消费支出不一定会增加。现在是41页\一共有270页\编辑于星期二
例如从表4.1可以看到,对于每月3000元的收入水平,有一户家庭的消费支出为2180元,少于每月收入为2500元的两户家庭的消费支出(2200元和2260元)。但应看到,每月收入为3000元的家庭的平均消费支出大于每月收入2500元的家庭的平均消费支出(2420元大于2020元)。现在是42页\一共有270页\编辑于星期二从图4.2可以看到,给定收入水平Xi的个别家庭的消费支出处于在该收入水平的家庭平均消费支出左右,也就是围绕着它的条件均值。我们把个别的Yi围绕它的期望值的离差表示如下:现在是43页\一共有270页\编辑于星期二或(4.3)
其中,离差ui是一个不可观测的可正可负的随机变量,在专业术语中,把ui称为随机干扰项或随机误差项。
现在是44页\一共有270页\编辑于星期二
在式(4.3)中,给定收入X的水平,个别家庭的消费支出,可表示为两个成份之和。现在是45页\一共有270页\编辑于星期二(1)代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成份。(2)ui为随机或非系统性成份,代表所有可能影响Y,但又未能包括到回归模型中来的被忽略变量的代理变量。现在是46页\一共有270页\编辑于星期二假设对Xi
为线性的,则:(4.4)
现在是47页\一共有270页\编辑于星期二式(4.4)表示一个家庭的消费支出线性地依赖于它的收入加干扰项。现在是48页\一共有270页\编辑于星期二例如,给定X=1000,各家庭的消费支出可表达为现在是49页\一共有270页\编辑于星期二五、随机误差项u的意义
1.理论的欠缺。
虽然有决定Y的行为的理论,但常常是不能完全确定的,理论常常有一定的含糊性。我们可以肯定每月收入X影响每月消费支出Y。但不能确定是否有其它变量影响Y,只好用ui作为模型所忽略的全部变量的替代变量。
现在是50页\一共有270页\编辑于星期二2.数据的欠缺。
即使能确定某些变量对Y
有显著影响,但由于不能得到这些变量的数据信息而不能引入该变量。例如,从经济理论分析,家庭财富量是影响家庭消费的重要因素,应该引入该变量作为解释变量。但是,通常我们得不到有关家庭财富的信息。因此,我们只得把这个很重要的解释变量舍弃掉。现在是51页\一共有270页\编辑于星期二
3.核心变量与非核心变量。
例如,在引例的居民消费模型中,除了收入X1外,家庭的人口数X2
、户主宗教信仰X3、户主受教育水平X4也影响家庭消费支出。但很可能X2、X3、X4合起来的影响也是很微弱的,是一种非系统的或随机的影响。从效果与成本角度来看,引入它们是不合算的。所以,人们把它们的联合效用当作一个随机变量来看待。现在是52页\一共有270页\编辑于星期二
4.人类行为的内在随机性。
即使我们成功地把所有有关的变量都引进到模型中来,在个别的Y中仍不免有一些“内在”的随机性,无论我们花了多少力气都解释不了的。随机误差项ui能很好地反映这种随机性。
现在是53页\一共有270页\编辑于星期二5.节省原则,我们想保持一个尽可能简单的回归模型。
如果我们能用两个或三个变量就基本上解释了Y
的行为,就没有必要引进更多的变量。让ui
代表所有其它变量是一种很好的选择。现在是54页\一共有270页\编辑于星期二在实际回归分析中,我们无法获得像引例中的总体数据,而只能获得对应于某些固定X的Y值的一个样本。我们只能根据抽样信息估计总体回归函数。六、样本回归函数现在是55页\一共有270页\编辑于星期二
我们从表4.1随机抽取对应于固定X值的Y值的一个样本如表4.2所示,对应于给定的每个Xi值只有一个Y值。为了对比分析,按同样的方法再抽取另一个样本,如表4.3所示。现在是56页\一共有270页\编辑于星期二XY1000150020002500300035004000450050005500900132016202140248027403300352040204310表4.2总体的一个随机样本现在是57页\一共有270页\编辑于星期二XY1000150020002500300035004000450050005500700132016201840242028203380342038104640表4.3总体的另一个随机样本现在是58页\一共有270页\编辑于星期二将表4.2和表4.3的数据描点,得到图4.3。在这个散点图中画两根样本回归线以尽好地拟合这些散点。我们可以看出,两个样本存在着差异,这是由于抽样的随机性而造成的波动。
现在是59页\一共有270页\编辑于星期二XY1000200030004000500010001500200025003000
3500
4000
4500
5000
5500×●
●×
●×
●×
●×
●×
●×
●×
×
●
×
●
S2S1×第一个样本(表4.2)●第二个样本(表4.3)图4.3两个不同样本的回归线现在是60页\一共有270页\编辑于星期二S1是根据第1个样本画的;S2是根据第2个样本画的。那么,两条样本回归线中哪一条代表“真实”的总体回归线呢?在未知总体数据的情况下,我们就不可能知道哪一条代表真实的总体回归线。现在是61页\一共有270页\编辑于星期二图4.3中的回归线称为样本回归线,因抽样波动,它们都是总体回归线的一个近似。一般地讲,由几个不同的样本会得到几个不同的样本回归线,通常这些样本回归线会彼此不同。现在是62页\一共有270页\编辑于星期二据任一样本,我们可得样本回归线,其函数形式为(4.5)
其中,
现在是63页\一共有270页\编辑于星期二正如总体回归函数,样本回归函数也存在随机形式。(4.6)
其中,ei为残差项,概念上,ei类似于ui,并可把它当作ui的估计量。将ei引入样本回归函数中,其理由与总体回归函数中引入ui是一样的。现在是64页\一共有270页\编辑于星期二回归分析中的主要目的就是根据样本回归函数:来估计总体回归函数(4.7)
(4.8)
现在是65页\一共有270页\编辑于星期二由于抽样的波动,我们根据样本回归函数估计出来的总体回归函数只能是一个近似结果。因此,怎样构造样本回归函数能使尽可能接近真实的就成为回归分析的核心。
现在是66页\一共有270页\编辑于星期二第三节最小二乘估计
在回归分析中有很多种构造样本回归函数的方法,而最广泛使用的一种是普通最小二乘法(methodofordinaryleastsquares,简记OLS)
现在是67页\一共有270页\编辑于星期二一、普通最小二乘法(OLS)
普通最小二乘法是由德国数学家高斯(C.F.Gauss)最早提出和使用的。在一定的假设条件下,最小二乘估计量有着非常好的统计性质,从而使它成为回归分析中最有功效和最为流行的方法之一。现在是68页\一共有270页\编辑于星期二
我们首先从最小二乘原理谈起。对于一元线性回归模型(总体)(4.9)
这是一个不可观测的模型。因为通常得不到总体的全部观测值,我们只能通过总体的一个样本去推测它。即,只能通过样本回归模型去估计总体回归模型。现在是69页\一共有270页\编辑于星期二其中,是Yi
的估计值。样本回归模型为(4.10)
现在是70页\一共有270页\编辑于星期二
那么,样本回归模型又是怎样确定呢?将式(4.10)写成:(4.11)
残差ei是实际值Yi与其估计值之差。对于给定的Y和X
的n
对观测值,我们希望样本回归模型的估计值尽可能地靠近观测值Yi。现在是71页\一共有270页\编辑于星期二为了达到此目的,我们就必须使用最小二乘准则,使:(4.12)
尽可能地小,其中,是残差的平方。现在是72页\一共有270页\编辑于星期二由式(4.12)可以看出:(4.13)
就是说,残差平方和是估计量的函数,对任意给定的一组数据(样本),选择不同的和值将得到不同的ei,从而有不同的值。现在是73页\一共有270页\编辑于星期二
微积分知识告诉我们对和的偏导数为0时,将使最小。现在是74页\一共有270页\编辑于星期二(4.14)
(4.15)
现在是75页\一共有270页\编辑于星期二令得到:(4.16)
(4.17)
现在是76页\一共有270页\编辑于星期二n是样本容量。求解该联立方程,可得(4.18)
(4.19)
现在是77页\一共有270页\编辑于星期二其中,,分别为X和Y的样本均值。
上面得到的估计量,是从最小二乘原理演算而得的。因此,称其为最小二乘估计量。现在是78页\一共有270页\编辑于星期二二、经典线性回归模型如果我们的目的仅仅是估计和,那么普通最小二乘法就足够用了。但在回归分析中,我们的目的不仅仅是获得,的估计值,,而是要对真实和做出推断。
现在是79页\一共有270页\编辑于星期二例如,我们想知道和离它们的总体真值和有多近,或者靠其期望值E(Y/Xi)有多近。现在是80页\一共有270页\编辑于星期二
为达这一目的,我们不仅要确定模型的函数形式,还要对Yi的产生方式做出某些假定。现在是81页\一共有270页\编辑于星期二在总体回归模型中,,Yi依赖于Xi
和ui
。因此,除非我们明确Xi
和ui
是怎样产生的,否则,我们将无法对Yi做出任何统计推断,同时,也无法对用和推断其真实值,的效果进行判断。现在是82页\一共有270页\编辑于星期二
为了回归估计的有效解释,对Xi变量和误差项ui做出假设是极其重要的。现在是83页\一共有270页\编辑于星期二假定1误差项ui的均值为零。对于给定的X
值,随机误差项ui的均值或期望值为零,即ui的条件均值为零,记为E(ui/Xi)=0
(4.20)
现在是84页\一共有270页\编辑于星期二
这一假定的实际意义为:凡是模型中不显含的并因而归属于ui的因素,对Y
的均值都没有系统的影响,正的ui
值抵消了负的ui
值,它们对Y
的平均影响为零。现在是85页\一共有270页\编辑于星期二假定2同方差性或ui的方差相等。对所有给定的Xi,ui的方差都是相同的。就是说,ui
的条件方差是恒定的,即:现在是86页\一共有270页\编辑于星期二该假定表示对应于不同Xi
值,ui的方差都是某个等于的正的常数。其中,Var表示方差。
(4.21)
现在是87页\一共有270页\编辑于星期二假定3
各个误差项之间无自相关,ui和uj(i≠j)之间的相关为零。现在是88页\一共有270页\编辑于星期二(4.22)
其中,i和j为两次不同的观测,而Cov表示协方差,该假定还可以称为无序列相关或无自相关假定。现在是89页\一共有270页\编辑于星期二假定4
ui和Xi的协方差为零或E(uiXi)=0
现在是90页\一共有270页\编辑于星期二该假定表示误差项u
和解释变量X
是不相关的。也就是说在总体回归模型中,X
和u
对Y
有各自的影响。但是,如果X
和u
是相关的,就不可能评估他们各自对Y
的影响。现在是91页\一共有270页\编辑于星期二假定5正确地设定了回归模型,即在经验分析中所用的模型没有设定偏误。
现在是92页\一共有270页\编辑于星期二正确设定回归模型是至关重要的。如果模型遗漏了重要变量或选择了错误的函数形式,那么,要对所估计的回归模型做出有效的解释是靠不住的。回归分析以及由此而得到的结果,是以所选模型为条件的。因此,在建立经济计量模型时,必须谨慎而小心。现在是93页\一共有270页\编辑于星期二假定6对于多元线性回归模型,没有完全的多重共线性。就是说解释变量之间没有完全的线性关系。现在是94页\一共有270页\编辑于星期二
至此,我们完成了关于经典线性回归模型的基本假定的讨论。上述所有假定都是针对总体回归模型而言的,而不是关于样本回归模型的。
现在是95页\一共有270页\编辑于星期二三、最小二乘估计量的性质高斯—马尔可夫定理
在经典线性回归模型的假定条件下,最小二乘估计量具有较好的统计性质,这些性质包含在高斯—马尔可夫定理之中。
现在是96页\一共有270页\编辑于星期二
高斯—马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。现在是97页\一共有270页\编辑于星期二该定理说明最小二乘估计量是的最佳线性无偏估计量。即:第一,它是线性的,即它是回归模型中的被解释变量Y
的线性函数。现在是98页\一共有270页\编辑于星期二第二,它是无偏的,即它的均值或期望值等于其真值,即。现在是99页\一共有270页\编辑于星期二第三,它在所有这样的线性无偏估计量中具有最小方差。具有最小方差的无偏估计量叫做有效估计量。
现在是100页\一共有270页\编辑于星期二
下面,就普通最小二乘估计量的性质给予说明。现在是101页\一共有270页\编辑于星期二1线性性
(4.23)
现在是102页\一共有270页\编辑于星期二(4.24)
(4.25)令则现在是103页\一共有270页\编辑于星期二这说明是Yi的一个线性函数,它是以ki为权的一个加权平均数,从而它是一个线性估计量。同理,也是一个线性估计量。现在是104页\一共有270页\编辑于星期二2无偏性,,即是无偏的,是无偏的。就是说,虽然由不同的样本得到的可能大于或小于它们的真实值,但平均起来等于它们的真实值。现在是105页\一共有270页\编辑于星期二由式(4.25)可知:(4.26)
因为,则(4.27)
现在是106页\一共有270页\编辑于星期二据经典假定,ki非随机,E(ui)=0,则
(4.28)
因此,的一个无偏估计量。同理,可证明的一个无偏估计量。现在是107页\一共有270页\编辑于星期二
在此要特别注意,无偏性是的抽样分布的性质,并没有告诉我们从特定样本中得到的估计值是什么,我们希望得到较好的样本,那样就会得到接近于总体参数的估计值。但由于是随机获得样本,就有可能得到远离总体参数的估计值的较差样本。并且,我们无法判定所得到的样本是哪一种。
现在是108页\一共有270页\编辑于星期二
当X
是非随机变量、E(u)=0
这些经典假定不满足时,那么无偏性也就不成立了。现在是109页\一共有270页\编辑于星期二3方差最小
(1)最小二乘估计的方差与标准误普通最小二乘估计量的方差 代表了估计参数的估计精度。现在是110页\一共有270页\编辑于星期二[据式(4.27)]据方差定义,可知:(4.29)
现在是111页\一共有270页\编辑于星期二据经典假定,且E(uiuj)=0,i≠j故(4.30)
现在是112页\一共有270页\编辑于星期二式(4.30)是依赖于同方差和无序列相关假定的。同理,的方差为:(4.31)
现在是113页\一共有270页\编辑于星期二影响估计精度的因素为随机误差项的方差和Xi的总变异。现在是114页\一共有270页\编辑于星期二随机误差项的方差越大, 越大。因为,影响Y的不可观测的因素变异越大,要准确地估计就越难。现在是115页\一共有270页\编辑于星期二另一方面,自变量的变异越大,估计的精度就越高。因为Xi
的变异性增时,的方差就会减小,就是说,解释变量的样本分布越分散,就越容易找出E(Y/Xi)
和Xi
间的关系,即越容易准确估计。现在是116页\一共有270页\编辑于星期二如果Xi没有什么变化,就难以准确地确定E(Y/Xi)是如何随着Xi
的变化而变化的。当样本容量扩大时,Xi
的总变异也增加。因此,较大的样本容量会产生较小的的方差。现在是117页\一共有270页\编辑于星期二最小二乘估计的标准误为(4.32)
(4.33)现在是118页\一共有270页\编辑于星期二式中,表示的标准误,表示的标准误。除外,上述方程中的数据都是已知的。现在是119页\一共有270页\编辑于星期二(2)的最小二乘估计量从式(4.30)、式(4.31)可以看到,影响 和的因素除外,均为已知数。通常误差项的方差是未知的,只能通过观测数据去估计,从而估计出和。现在是120页\一共有270页\编辑于星期二
我们要区分误差与残差的概念。误差ui出现在总体回归模型中,ui
是第i次观测的误差,由于未知,ui无法观测到。残差ei出现在样本回归模型m中, 是估计参数,通过观测值Yi,Xi可得到残差ei。
现在是121页\一共有270页\编辑于星期二已知。由于ui不可观,无法计算。我们可通过最小二乘法的残差ei估计。用残差ei代替ui就得到的一个估计量,但这是一个有偏估计量。现在是122页\一共有270页\编辑于星期二这是使用残差代替误差的缘故,调整自由度后,我们就得到的无偏估计量(4.35)
现在是123页\一共有270页\编辑于星期二
在经典假定条件下,可以证明。 的估计量为(4.36)
我们称其为回归的标准误。估计量是对影响Y的不可观测因素的标准误的估计。就是说,它估计了把X的影响排除之后Y的标准误。现在是124页\一共有270页\编辑于星期二至此,用代替,我们可利用式(4.32)、(4.33)估计的标准误。(4.37)(4.38)现在是125页\一共有270页\编辑于星期二当对Y
的不同样本使用普通最小二乘法时,我们要注意将看作一个随机变量,这是因为是随着样本的不同而变化的。对于一个给定的样本,是一个数字,就像我们用给定的数据计算时一样,它也只是一个数字。
现在是126页\一共有270页\编辑于星期二(3)可以证明,在满足经典假定条件下,普通最小二乘估计量是所有线性无偏估计量中方差最小的。现在是127页\一共有270页\编辑于星期二四、判定系数R2—拟合优度的度量
为了评价一个回归方程的优劣,我们引入拟合优度的概念。即考查对一组数据所拟合的回归线的拟合优度,表示出样本回归线对数据拟合的有多么好。现在是128页\一共有270页\编辑于星期二如果全部观测点都落在样本回归线上,我们就得到一个完美的拟合,但这种情况很少发生。一般情况下,总有一些正的ei和一些负的ei
,我们只能希望这些围绕着回归线的残差尽可能小。判定系数R2
就是表示这种拟合优劣的一个度量。现在是129页\一共有270页\编辑于星期二计算R2的步骤如下据样本回归模型可得:(4.39)
(4.40)
为被解释变量的样本均值。现在是130页\一共有270页\编辑于星期二式(4.39)可表示为(4.41)现在是131页\一共有270页\编辑于星期二式(4.41)两边取平方得(4.42)
对所有观测值求和,得(4.43)现在是132页\一共有270页\编辑于星期二其中,,因此(4.44)现在是133页\一共有270页\编辑于星期二式(4.44)中,表示实测的Y值围绕其均值的总变异,称为总平方和(TSS)。为来自解释变量的回归平方和,称为解释平方和(ESS)。是围绕回归线的Y值的变异,称为残差平方和(RSS)。
现在是134页\一共有270页\编辑于星期二式(4.44)可表示为TSS=ESS+RSS(4.45)这说明Y的观测值围绕其均值的总变异可分解为两部分,一部分来自回归线,而另一部分则来自扰动项ui。从几何意义上可画出图4.4。现在是135页\一共有270页\编辑于星期二YXXiYi图4.4Yi的变异分解为两个部分
现在是136页\一共有270页\编辑于星期二用TSS除式(4.45)的两边,得(4.46)
现在是137页\一共有270页\编辑于星期二定义R2为:(4.47)(4.48)
或现在是138页\一共有270页\编辑于星期二上述定义的R2称为判定系数,它是对回归线拟合优度的度量。就是说,R2测度了在Y的总变异中由回归模型解释的那个部分所占的比例或百分比。现在是139页\一共有270页\编辑于星期二
据判定系数的定义可知:0≤R2≤1。等于1的R2意味着一个完美的拟合,即对每个i都有 。另一方面,等于0的R2意味着被解释变量与解释变量之间无任何关系(即),这时,,就是说,对任一Y值的最优预测值都是它的均值,从而回归线平行于X
轴。现在是140页\一共有270页\编辑于星期二
与R2关系紧密但概念上与R2差异较大的一个参数是相关系数,它测度了两个变量之间的关联度。也可据R
的定义计算(4.49)
现在是141页\一共有270页\编辑于星期二从定义可以看出-1≤R≤1
。在回归分析中,R2是一个比R更有意义的度量,因为R2告诉我们在被解释变量的变异中,由解释变量解释的部分占怎样一个比例,因而对一个变量的变异在多大程度上决定另一个变量的变异,提供了一个总的度量,而R则没有这种作用。现在是142页\一共有270页\编辑于星期二五、案例【例4.1】
根据凯恩斯理论,我们可建立消费与可支配收入的线性回归模型,模型形式如下(4.50)
其中,Y=消费,X=可支配收入,u=随机误差项。现在是143页\一共有270页\编辑于星期二XYXY1000150020002500300090013201620214024803500400045005000550027403300352040204310表4.4每月家庭消费支出Y
和每月家庭收入X现在是144页\一共有270页\编辑于星期二调用回归分析软件EViews3.1进行最小二乘估计可得:现在是145页\一共有270页\编辑于星期二DependentVariable:YMethod:LeastSquaresDate:12/25/04Time:01:40Sample:110Includedobservations:10VariableCoefficientStd.Errort-StatisticProb.CX159.878852.918443.0212300.01650.7615760.01489351.135410.0000R-squared0.996950Meandependentvar2635.000AdjustedR-squared0.996569S.D.dependentvar1154.655S.E.ofregression67.63763Akaikeinfocriterion11.44306Sumsquaredresid36598.79Schwarzcriterion11.50358Loglikelihood-55.21531F-statistic2614.830Durbin-Watsonstat3.391406Prob(F-statistic)0.000000EViews报告结果为现在是146页\一共有270页\编辑于星期二159.87881Y图4.5样本回归线
X现在是147页\一共有270页\编辑于星期二样本回归线定义:回归线上的点是给定X值相对应的Yi的期望值或均值的一个估计值。得到的样本回归线为:现在是148页\一共有270页\编辑于星期二回归线的斜率 表示,在X的样本区间(1000,5500)内X每增加1元,平均每月消费支出增加0.7616元。现在是149页\一共有270页\编辑于星期二
回归线的截距为159.8788,直观解释是当每月收入X值为零时,每月消费支出的平均水平,但这种解释是不恰当的。因为X值的变化范围并不包括零这样一个观测值。截距项的解释只能借助于经济理论或其它知识来解释。通常可理解为是所有未包括在回归模型的变量对Y的综合影响。现在是150页\一共有270页\编辑于星期二
R2=0.9970,说明有99.70%的每月消费支出的变异,可以由收入来解释。现在是151页\一共有270页\编辑于星期二【例4.2】
中国城镇居民消费函数(1985~2003年)
现在是152页\一共有270页\编辑于星期二年份人均可支配收入人均消费支出年份人均可支配收入人均消费支出1985198619871988198919901991199219931994739.10840.71861.05841.08842.24912.92978.231073.281175.691275.67673.20746.70759.84785.98741.41773.10836.26885.33962.851040.371995199619971998199920002001200220031337.941389.351437.051519.931661.611768.311918.232175.792370.061105.091125.371165.611213.571310.211407.331484.621703.281821.46表4.5中国城镇居民家庭人均收入与支出单位:元
现在是153页\一共有270页\编辑于星期二EViews报告结果为:DependentVariable:YMethod:LeastSquaresDate:12/25/04Time:02:32Sample:19852003Includedobservations:19VariableCoefficientStd.Errort-StatisticProb.C149.205910.8588713.740470.0000X0.7049330.00774291.052450.0000R-squared0.997954Meandependentvar1081.136AdjustedR-squared0.997833S.D.dependentvar339.6804S.E.ofregression15.81140Akaikeinfocriterion8.458640Sumsquaredresid4250.005Schwarzcriterion8.558054Loglikelihood-78.35708F-statistic8290.549Durbin-Watsonstat2.016588Prob(F-statistic)0.000000现在是154页\一共有270页\编辑于星期二据表4.5的数据,使用普通最小二乘法,得到中国城镇居民消费函数。R2=0.9980
模型中,Yt=城镇居民人均消费性支出,Xt=城镇居民人均可支配收入。现在是155页\一共有270页\编辑于星期二模型表明,在1985~2003年期间,中国城镇居民可支配收入每增加1元,平均消费支出增加0.70元,边际消费倾向为0.70。现在是156页\一共有270页\编辑于星期二
截距项,从表面上看是当居民可支配收入为0时的消费支出水平,但这是一种毫无意义的解释。因为在样本中,并不存在居民可支配收入为0的样本。现在是157页\一共有270页\编辑于星期二
判定系数R2=0.9980。说明城镇居民可支配收入解释了城镇居民消费支出变异的99.80%,这是一个非常好的拟合。现在是158页\一共有270页\编辑于星期二第四节置信区间与假设检验一、置信区间的基本概念
例4.1消费模型中,边际消费倾向的估计值为0.7616,这是对未知的总体边际消费倾向的一个点估计。由于是点估计,我们无法判断这种估计的可靠性有多大。我们只能保证在重复抽样中估计值的均值等于其真值。现在是159页\一共有270页\编辑于星期二
为了衡量这一估计的可靠性,我们可围绕点估计量构造一个区间。要判断对估计的可靠性,可设定区间,使其包含的概率为。即:(4.51)现在是160页\一共有270页\编辑于星期二其中,,。如果存在这样一个区间,就称设定的区间为的置信区间。 称为置信系数或置信水平,而称为显著性水平,称为置信上限,称为置信下限。现在是161页\一共有270页\编辑于星期二如果或5%,则式(4.51)的意义即为随机区间包含真实的概率为0.95或95%。可以看出,置信区间给出了对估计的可靠程度。为了正确理解式(4.51),说明如下:现在是162页\一共有270页\编辑于星期二1.式(4.51)并不是说落入该界限内的概率是。因为虽然未知,但它是总体回归函数中的边际消费倾向,是个定数,要么落在该区间内,要么落在该区间外。式(4.51)的意义为:用随机样本估计参数构造的区间包含的概率为。现在是163页\一共有270页\编辑于星期二
2.式(4.51)中的区间是一个随机区间,它随着样本的不同而不同。现在是164页\一共有270页\编辑于星期二
3.式(4.51)的意义为,对于多次抽样,平均地说,这些区间有包含真实参数。现在是165页\一共有270页\编辑于星期二4.式(4.51)中,当是一个随机变量时,代表多种可能结果。如果选定了一个样本,就获得的一个结果值,式(4.51)的区间就不再是随机区间,而是特定区间。现在是166页\一共有270页\编辑于星期二此时,我们就不能说这个给定的区间包含真实参数的概率是 。此时,要么在该区间内,要么在该区间外,概率只能是1或0。如果我们得到了的95%置信区间为,就不能说这个区间包含真实值的概率是95%。这个概率不是1就是0。现在是167页\一共有270页\编辑于星期二二、ui正态性假定及普通最小二乘估计量 ,和的性质
(一)ui正态性假定
在回归分析中,我们的目的不仅仅是得到,而是要用推断。因此,我们需要得到的置信区间,通过置信区间去判断这种推断的可靠性。现在是168页\一共有270页\编辑于星期二在最小二乘估计式中,是Yi
的线性函数,从而也就是ui的线性函数。要推断的置信区间,我们就必须获得ui
的概率分布。在回归分析中,人们常常假定ui
服从正态分布,即每个ui
都是正态分布的。现在是169页\一共有270页\编辑于星期二期望值:
E(ui)=0
(4.52)
方差:
(4.53)
协方差:(4.54)
现在是170页\一共有270页\编辑于星期二用符号表示,则为(4.55)
其中,~表示“其分布为”,N表示“正态分布”,括号中的数字为正态分布的两个参数:期望值与方差。现在是171页\一共有270页\编辑于星期二正态假定理由如下:1.ui代表回归模型中未包含的变量的集合。这些未引入的变量的影响是微弱的和随机的。根据中心极限定理,如果存在大量独立且同分布的随机变量,随着这些变量个数的增大,它们的总和将趋向正态分布。
现在是172页\一共有270页\编辑于星期二
2.即使变量个数不是很大或这些变量不是严格独立的,它们的总和仍可视同正态分布。现在是173页\一共有270页\编辑于星期二(二)ui正态假定下普通最小二乘估计量,和的性质1.它们是无偏的。2.它们有最小方差。3.它们是一致估计量。就是说,随着样本容量无限地增大,估计量将收敛到它们的真值。现在是174页\一共有270页\编辑于星期二4.服从正态分布
期望值:方差
:(4.56)
(4.57)
即:(4.58)
现在是175页\一共有270页\编辑于星期二5.服从正态分布期望值:
方差
:(4.59)(4.60)即:(4.61)现在是176页\一共有270页\编辑于星期二6.服从χ2(n-2)分布。
7.
Yi服从正态分布期望值:
方差:
即:(4.62)(4.63)(4.64)现在是177页\一共有270页\编辑于星期二三、回归系数和的置信区间
在ui正态假定下,和均服从正态分布,将转化为标准正态分布,则为:(4.65)现在是178页\一共有270页\编辑于星期二Z为期望值为0、方差为1的标准正态分布,即:Z~N(0,1)
(4.66)现在是179页\一共有270页\编辑于星期二
当已知时,我们就可得到β2的置信度为(1-α)的置信区间为现在是180页\一共有270页\编辑于星期二但是,由于ui的不可观测,我们无法获知。我们只能用的无偏估计量来测定,如果我们用代替,则式(4.65)可写为现在是181页\一共有270页\编辑于星期二(4.67)
现在是182页\一共有270页\编辑于星期二
可以证明,这样定义的t变量服从自由度为n-2的t分布,据t分布可得
(4.68)
式(4.68)中,是显著性水平为,自由度为n-2的t分布的t值,通常称为显著水平的临界值。现在是183页\一共有270页\编辑于星期二(4.69)
(4.70)
将式(4.67)代入式(4.68)得现在是184页\一共有270页\编辑于星期二
式(4.70)给出了的一个100%(1-)置信区间。同理我们可得到的置信区间:(4.71)
现在是185页\一共有270页\编辑于星期二从式(4.70)、(4.71)可以看出,,的置信区间的宽度与估计量,的标准误 成正比例。标准误越大,置信区间越宽。就是说,估计量的标准误越大,对未知参数的真值进行估计的可靠性越差。因此,估计量的标准误也被用于测度估计量的精度,就是说用估计量去测定真实的总体值有多精确。现在是186页\一共有270页\编辑于星期二例如,在我们的引例中,上一节中我们得到斜率系数的估计值,,自由度为8,当显著性水平为5%,即置信系数为95%时,查t分布表可知,,则的95%置信区间为0.7272≤≤0.7960
(4.72)现在是187页\一共有270页\编辑于星期二
式(4.72)的意义为:给定置信系数为95%,从长远看,类似于(0.7272,0.7960)的区间,100个区间中,将有95个包含着真实的值。
现在是188页\一共有270页\编辑于星期二
我们不能说这个固定的区间有95%的概率包含真实的值,因为这个区间是固定不变的,要么在该区间内,要么在该区间外。这个固定的区间包含的概率要么为1,要么为0。
现在是189页\一共有270页\编辑于星期二同理,我们可构建的置信区间为37.8500≤≤281.9080(4.73)
式(4.73)表示,从长远看,该区间100个中将有95个包含真实的;但这个固定的区间包含真实的的概率是1或0。现在是190页\一共有270页\编辑于星期二四、假设检验
1检验回归系数的显著性——t检验
统计假设检验的中心思想就是判断某一特定观测或发现是否与某一声称的假设相符。如果相符就不拒绝这一假设,如不相符就拒绝这一假设。现在是191页\一共有270页\编辑于星期二例如,在引例的回归分析中,如果事先我们已有一些研究成果认定边际消费倾向为0.90,那么=0.90就是我们所说的声称的假设。现在是192页\一共有270页\编辑于星期二如果我们的观测(估计)结果在一定的统计原则下与0.90并不矛盾,我们就接受假设,即边际消费倾向的真值为0.90。如果 与在一定的统计原则下相互矛盾,我们就拒绝假设,即边际消费倾向的真实值不是0.90。现在是193页\一共有270页\编辑于星期二
我们称这一声称的假设为虚拟假设或原假设,用符号H0表示,与之相对应就称为备择假设,用符号H1表示。现在是194页\一共有270页\编辑于星期二一般地,可假设为原假设H0:
备择假设H1:
现在是195页\一共有270页\编辑于星期二已知:(4.74)即t服从自由度为n-2的t分布。如原假设成立,即,则
:(4.75)
现在是196页\一共有270页\编辑于星期二该t值是一个统计量,服从t分布,据此可得到t统计量的置信区间(4.76)现在是197页\一共有270页\编辑于星期二
式(4.76)建立的100()%置信区间为原假设H0:的接受域,置信区间以外的区域称为原假设H0:的拒绝域。现在是198页\一共有270页\编辑于星期二例如:在引例中的收入—消费模型中,
=0.7616, =0.0149,自由度=8,取=5%,查t分布表可知
=2.306。现在是199页\一共有270页\编辑于星期二若, 则
(4.77)现在是200页\一共有270页\编辑于星期二因为(4.78)
所得的t统计量不在式(4.77)的区间内,故拒绝原假设H0:=0.9,接受备择假设 ,如图4.6
所示。现在是201页\一共有270页\编辑于星期二图4.6t的95%置信区间(自由度=8)临界域2.5%临界域2.5%95%接受域f(t)t-2.306+2.3060现在是202页\一共有270页\编辑于星期二如果式(4.75)中的,则t统计量为0。可以看出,随着估计值远离,t的绝对值|t|将越来越大。就是说,随着t统计量的绝对值的增大,原假设的可信程度在降低。现在是203页\一共有270页\编辑于星期二当t
统计量的绝对值大于临界值 时,就拒绝原假设。临界值来自于t分布表,其数值的大小决定于自由度n-k和我们愿接受的第I
类错误(即H0为真时拒绝它)的概率。
现在是204页\一共有270页\编辑于星期二
我们使用了t分布对回归系数进行假设检验,因此,该检验程序称为t检验。如果一个统计量的值落在拒绝域上,我们称该统计量是统计上显著的,此时,我们拒绝原假设;如果一个统计量的值落在接受域上,我们称该统计量是统计上不显著的,此时,我们接受原假设。现在是205页\一共有270页\编辑于星期二在经济计量分析中,,代表解释变量X对被解释变量Y的线性影响。如果X
对Y
的线性影响是显著的,则有。若X对Y的影响不显著,则有。现在是206页\一共有270页\编辑于星期二因此,我们通常设定的假设为原假设备择假设
此时,我们得到t统计量为(4.79)
现在是207页\一共有270页\编辑于星期二给定显著水平,自由度为n-k,查t分布表可得临界值为,如果,则接受原假设,即解释变量X对被解释变量Y的影响是不显著的,解释变量对被解释变量没有影响,该解释变量不应包含在模型中。现在是208页\一共有270页\编辑于星期二如果 ,则拒绝原假设,接受备择假设,即解释变量X
对被解释变量Y
的影响是显著的,该解释变量应该保留在模型中。现在是209页\一共有270页\编辑于星期二(1)设定假设
原假设
备择假设t检验决策规则:现在是210页\一共有270页\编辑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银川2024年07版小学4年级上册英语第3单元测验卷
- 福州2024年10版小学英语第4单元测验卷
- 股骨颈骨折护理常规
- 2023年葡萄汁提取物化妆品投资申请报告
- 2024年质子交换膜燃料电池(REMFC)发电装置项目资金申请报告代可行性研究报告
- 模拟深海环境金属材料腐蚀-磨损耦合损伤评价方法
- 2021-2022学年人教版九年级化学上学期期中考试好题汇编:氧气(原卷版+解析)
- 美丽天津景点导游词(16篇)
- 诫子书读后感15篇
- 24.6 实数与向量相乘(第2课时)同步练习
- 《量子化学计算方法》课件
- 山东省青岛市西海岸新区2023-2024学年三年级上学期期中数学试题
- 当代社会政策分析 课件 第13、14章 反贫困社会政策、公益慈善政策
- 数字化转型企业架构设计手册
- 人防疏散基地建设技术标准 DG-TJ08-2419-2023
- 数字货币的经济影响
- 医疗技术操作规范制度及流程
- 户外直播知识竞赛答题附答案
- 手术室温暖的护士
- 传统文化4敦厚崇礼(课件)山东友谊出版社《中华优秀传统文化》六年级
- 三相异步电动机的启停控制
评论
0/150
提交评论