计量经济学-一元线性回归_第1页
计量经济学-一元线性回归_第2页
计量经济学-一元线性回归_第3页
计量经济学-一元线性回归_第4页
计量经济学-一元线性回归_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《计量经济学》

Econometrics

第3章一元线性回归3.1传统假设下的一元线性回归模型3.2

一元线性回归模型的基本假设3.3最小二乘估计值的特征3.4判定系数3.5最小二乘回归的若干重要结论3.6参数显著性检验:t检验3.7预测3.8案例分析

23.1传统假设下的一元线性回归模型3.1.1回归分析的基本概念3.1.2总体回归函数、随机误差项、样本回归函数33.1.1回归分析的基本概念4回归这个术语是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及他们的父母的身高时提出来的。孩子的身高会趋向平均发展。当双亲的身高都很高(矮)时,他们的孩子身高虽然会高(矮)于一般人,却往往比父母亲矮(高)。高尔顿的普遍回归定律。(lawofuniversalregression)5举例高尔顿的普遍回归定律。高尔顿的兴趣在于发现为什么人口的身高分布有一种稳定性。但现代观点关心的则是给定父辈身高的情形下找出儿辈平均身高的变化。即关心一旦知道了父辈的身高,怎样预测儿辈的平均身高。6070657560657075父辈身高,英寸儿辈身高,英寸对应于给定父亲身高的儿子身高的假想分布姚明女儿的身高?回归的现代释义回归分析是关于研究一个被解释变量对另一个或多个解释变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计或预测前者的(总体)均值。虽然回归分析研究一个变量对另一(些)变量的依赖关系,但它并不一定意味着因果关系。6相关关系和回归分析的比较注意①

相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。

回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者是固定的。②相关关系关心两个变量间关系的紧密程度;

回归分析感兴趣的则是试图根据其他变量的设定值来估计或预测某一变量的平均值。73.1.2总体回归函数、随机误差项、

样本回归函数总体回归函数:在解释变量Xi确定的情况下,被解释变量Yi的期望轨迹称为总体回归线,其相应的函数形式为

称为总体回归函数(PRF),或称条件期望函数。含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。8实例例:一个假想的社区有99户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。为达到此目的,将该99户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。9Y的条件均值E(Y/X)60582510451265148517051925214523652585236505001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)

描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。12在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线。或更一般地称为总体回归曲线。总体回归线800140011006058251045E(Y︱Xi)13随机误差项一个例子

凯恩斯绝对收入假设消费理论:消费(Y)是由收入(X)唯一决定的,是收入的线性函数:

Y=+X(2.2.1)

但实际上上述等式不能准确实现。原因⑴消费除受收入影响外,还受其他因素的影响;⑵线性关系只是一个近似描述;⑶收入变量观测值的近似性:收入数据本身并不绝对准确地反映收入水平。14随机误差项的意义随机误差项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物,那么为什么不把这些变量明显地引进到模型中来?即为什么不构造一个含有尽可能多个变量的多元回归模型?随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;模型关系的设定误差的影响;变量观测值的观测误差的影响;其他随机因素的影响。15因此,一个更符合实际的数学描述为:

Y=+X+

其中:是一个随机误差项,是其他影响因素的“综合体”,是不可控的。这个式子由于引进了随机误差项,成为计量经济学模型,所以被称为总体回归模型。16随机误差项该偏差称为观察值围绕它的期望值的离差(deviation),是一个不可观测的随机变量,称为随机误差项(stochasticerror)。17样本回归函数(SRF)例:在上例的总体中有如下一个样本,能否从该样本估计总体回归函数PRF?X800110014001700200023002600290032003500Y59463811221155140815951969207825852530表:家庭消费支出与可支配收入的一个随机样本问题的提出:由于总体的信息往往无法掌握,现实的情况只能在一次观测中得到总体的一组样本.18

该样本的散点图(scatterdiagram):

画一条直线以尽好地拟合该散点图,由于样本取自总体,以该直线近似地代表总体回归线。该直线称为样本回归线(sampleregressionlines,SRF)。19记样本回归线的函数形式为:称为样本回归函数(sampleregressionfunction,SRF)20样本回归函数的随机形式/样本回归模型同样地,样本回归函数也有如下的随机形式:

由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sampleregressionmodel)。

21回归分析的主要目的即,根据

估计根据样本回归函数SRF,估计总体回归函数PRF。3.2一元线性回归模型的基本假设22由于回归分析的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF,即通过估计普遍采用普通最小二乘法或最大似然法需要对解释变量和随机项做出假设,否则满足不了这个技术路线.23

假设1.解释变量X是确定性变量,不是随机变量,且在重复抽样中X值是固定的;解释变量间不相关;

假设2.随机误差项具有零均值、同方差和不序列相关性:满足这三条假设的随机误差项,称为“球形扰动项”i=1,2,…,n24假设3.随机误差项与解释变量X之间不相关:假设4.服从零均值、同方差、零协方差的正态分布:

25X1X3●●●●●●●●●●●●●●●●●●●●●●●●X2均值YX这一假定是说,凡是模型不含的因而归属于ui的因素,对Y的均值都没系统的影响26如果两个变量关系中确实是线性函数主导的,误差项只是次要的随机扰动因素,那么如果对同样的X多次重复观测对应的Y值,则Y值的概率均值应该能消除随机扰动的影响,即随机误差项对Y没有系统的影响,符合线性函数的基本趋势。等价表示形式:E[Y|Xi]=β0+β1Xi。即被解释变量的数学期望始终落在总体回归直线上。零均值的意义27Var(i)=2i=1,2,…,n误差项的方差反映的是误差项作为随机函数的分布分散程度。这个假设的意义是对应不同观测数据误差项分布的发散趋势相同。如果i

的方差会随i变化,就意味着这部分因素对被解释变量的影响力度,会随i而变化,不能再理解为是一些微小的可被忽略的因素的影响。28同方差X1X3X2YXμi的概率密度f(μ)这个假定也意味着Yi的条件方差也是同方差的。29异方差X1X3X2YXμi的概率密度f(μ)30Cov(i,j)=0i≠ji,j=1,2,…,n意义:对应不同的观测值的误差项之间没有相关性。31Cov(Xi,i)=0i=1,2,…,n32这个假设表面上看起来限制性很大,因为它排斥了误差项服从任意其他分布的可能性,但实际上只要变量关系确实满足线性回归分析的基本思想,其误差项代表许多微小扰动因素的综合,那么根据中心极限定理,误差项服从正态分布是很自然的。i~N(0,2)i=1,2,…,n33思考线性回归模型的零均值假设是否可以表示为?为什么?3.3最小二乘估计值的特征最佳线性无偏估计量——高斯-马尔可夫定理线性性:意义:参数估计量与被解释变量服从相同类型的分布无偏性:意义:参数估计量是以参数真实值为分布中心的随机变量,反复抽样估计可得真实值。有效性 :意义:说明估计量的分布分散程度较小,比较密集于分布中心的附近。34最小二乘估计的表达根据以上性质,可知参数估计量的概率分布:35原因:由于随机误差项是服从正态分布的随机变量,决定了也是服从正态分布的随机变量,而又是的线性函数,决定了也是服从正态分布的随机变量。

所以确定了的均值和方差即可。3.4判定系数(拟合优度检验)拟合度指回归直线与样本数据趋势的吻合程度。拟合度是判断模型假设的变量的关系的真实性的重要指标。36思考残差平方和是好的拟合度的评价标准吗?残差平方和存在的问题——受样本容量、量纲等因素影响不同样本,不同容量的情况,没有横向可比性。度量拟合优度的指标:判定系数(可决系数)R2建立在对被解释变量总离差分解的基础之上3738

思路:总离差平方和的分解来自残差SRF来自回归总离差

如果Yi=Ŷi

即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。来自残差SRF来自回归总离差40

对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:其中:刚得到41TSS=ESS+RSS记总体平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares

)判定系数(可决系数)R2统计量

42称

R2

为(样本)可决系数/判定系数。可决系数的取值范围:[0,1]随抽样波动,样本可决系数是随抽样而变动的随机变量R2越接近1,说明实际观测点离样本线越近,拟合优度越高。数值上等于相关系数的平方3.5最小二乘回归的若干重要结论1.估计值的均值和方差分别为多大?2.估计值的分布是什么样的?根据最小二乘估计量的特点可知:43当模型为一元线性回归时,k=1实验录入表2-1中的数据,做回归模型,其中被解释变量“人均居民消费水平”,解释变量为“人均GDP”。观察回归输出结果。44453.6参数显著性检验:t检验3.6.1t检验3.6.2参数的置信区间

463.6.1t检验在一元线性模型中,回归分析就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。变量的显著性检验所应用的方法是数理统计学中的假设检验。4748

知识回顾:假设检验

以50名同学的平均身高为例

,如果假设平均身高为163,但一次抽样10人,发现平均身高180,则会推翻原假设,因为,一次抽样,小概率事件就发生了。

1–aa/2a/2假设检验的过程49显著性水平和拒绝域0临界值临界值a/2

a/2样本统计量拒绝H0拒绝H01-置信水平相对于显著性水平的临界值为:单侧tα或双侧tα/2计算的统计量为t50

(1)对总体参数提出假设(原假设和备择假设)

(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表得临界值(4)比较,判断,变量的显著性检验:假设检验步骤51此时,t统计量分别是多少?52

参数估计量只是参数真实值的近似,不仅与参数真实值有偏差,而且本身不能说明偏差的大小。因此还需要寻求包括真实参数的可能范围,并说明其可靠性。

置信区间则限定了其偏差程度。

置信区间的含义:要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。3.6.2参数的置信区间如果存在这样一个区间,称之为置信区间;1-α称为置信系数,α称为显著性水平;置信区间的端点称为置信限或临界值。1–aa/2a/254一元线性模型中,i(i=0,1)的置信区间

在μi的正态性假定下,OLS估计量和本身就是正态分布的。总体回归函数中随机扰动项的方差离差标准化公式要求记住下面的式子是定值55

但是很少能知道,在实践中用无偏估计量来代替,则统计量t服从自由度为n-2的t分布:是随机变量当总体方差已知、或者总体方差未知但是大样本时,应该用z统计量。但是计量经济学中常常遇到的情况是小样本且方差未知,所以一般用t统计量。56

意味着,如果给定置信度(1-α),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-tα/2,tα/2)的概率是(1-α)。表示为:

即57由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。要缩小置信区间,需要(1)增大样本容量n。因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,还可使样本参数估计量的标准差减小;(2)提高模型的拟合优度。因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。3.7预测基本思想利用计量经济模型做预测:指利用所估计的样本回归函数,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量数值做出定量的估计。对被解释变量Y的预测分为:

点预测和区间预测5859

对于一元线性回归模型给定样本以外的解释变量的观测值X0,可以得到被解释变量的预测值Ŷ0

,可以此作为其条件均值E(Y|X=X0)或个别值Y0的一个近似估计。

预测值、平均值、个别值的相互关系XY点估计值YfE(Y│Xf)真实的个别值YXfPRFSRF∧基本思路:为了对Y

的个别值做区间预测,需要寻找与点预测值和预测目标个别值Y0

有关的统计量,并要明确其概率分布。具体做法:已知残差项是与预测值及个别值都有关的变量,并且已知服从正态分布,且可证明60总体个值预测值的预测区间61由Y0=β0+β1X0+μ知:于是

式中

:从而在1-α的置信度下,Y0的置信区间为

将未知的代以它的无偏估计量,可构造t统计量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论