第二章简单线性回归模型_第1页
第二章简单线性回归模型_第2页
第二章简单线性回归模型_第3页
第二章简单线性回归模型_第4页
第二章简单线性回归模型_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(一)具有相关关系的变量举一个例子身高和体重人均消费与收入温度与二氧化碳排放量房地产价格与地理区位股票价格与利率工资与受教育年限第二章

简单线性回归模型

(二)相关关系的统计概念第二章

简单线性回归模型

第一节回归分析与回归方程一、回归与相关(一)经济变量之间的两类关系1、确定性的函数关系――变量X取确定值时,变量Y有唯一确定的值与之相对应。2、不确定性的统计关系――变量X取一定数值时,变量Y有数值与之对应,但不能事先确定,事后才能确定。不过所取的不同值按某种规律在一定范围内变化。这种关系有时也称为相关关系。(三)回归分析几何图示:

(三)回归与相关的联系与区别

(三)回归与相关的联系与区别第二章

简单线性回归模型

第二节

总体回归函数

一个例子:

假如某地区有100个家庭构成的总体,我们要研究每月家庭消费支出Y和每月家庭可支配收入X之间的关系,并要根据已知的家庭可支配收入去预测该总体每月家庭消费支出的平均水平。为了研究的方便,把这个总体(即100个家庭)按收入水平分为10个组,并分别考察每组的家庭消费支出,见表:

将总体应变量的条件期望表示为解释变量的某种函数,这个函数称为总体回归函数。

总体回归函数所对应的图形叫做总体回归曲线,其几何意义就是解释变量取给定值时应变量的条件均值或期望值的轨迹。一般表示为:

此类型的总体回归函数称为条件期望形式。总体回归函数概念问题:当总体所包含的单元数相当多时,用计算的值与之间规律去确定回归函数形式是有困难的。解决思路:(1)利用经济理论对总体回归函数形式作合理的假设;(2)利用局部散点图,观察总体回归函数的形式;(3)就设定总体回归函数为线性函数

(1)模型就变量而言是线性的;(2)模型就参数而言是线性的;例:就变量X而言不是线性的在计量经济学中线性模型的“线性”有两种解释

(1次课)

三、随机扰动项

条件期望值与各个别的Y值的偏差称为随机扰动项,即

称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机扰动项,

则有总体回归函数的随机设定形式:仍然取例1的数据说明

随机误差项主要包括下列因素的影响:1)在解释变量中被忽略的因素的影响;2)变量观测值的观测误差的影响;3)模型关系的设定误差的影响;4)其它随机因素的影响。产生并设计随机误差项的主要原因1)理论的含糊性;2)数据的欠缺;3)节省原则四、样本回归函数问题1:当总体中所包含的单位数很多时,将所有单位纳入考察范围是有困难的,在这种情况下如何得到总体回归函数?解决思路:选出总体中部分单位(样本)加以考察,近似代替总体。问题2:部分在什么情况下可以近似代替总体?解决思路:一般要满足几个条件(样本分布应尽可能与总体保持一致;样本的选择应是随机的;样本容量要达到一定的数量要求。)问题3:用不同的样本,得到不同的样本回归函数,在总体未知的情况下,怎样才知道,哪一个更接近总体,更优呢?即如何寻求一种规则与方法,使所建立的样本回归函数的参数,能够尽可能地“接近”总体回归函数中的参数?

解决思路:一般是对所建立的样本回归函数中的参数进行一些检验,达到一定的检验指标,就认为模型是可接受的,即可以作为总体的近似。以上两个线性回归函数来源于样本,称为样本回归函数

第二节简单线性回归模型的最小二乘法估计

一、简单线性回归模型的基本假定1、关于变量和模型的假定(1)解释变量X看作是非随机的,在重复抽样中取一组固定的数值(2)若解释变量X是随机的,也与随机扰动项μ相独立;(3)解释变量的观测值无测量误差;(4)变量和函数形式的设定是正确,无设定误差。一元线性回归模型

计量模型:y=b0+b1x+u,Thecoefficientsb0,b1是回归系数(regressioncoefficients).1、b0是常数项

(constantterm),或者截矩项

2、b1

代表解释变量X的边际效果(marginaleffects

oftheregressor,x).

也称作斜率参数b0,b1被称为回归系数

u为误差项或扰动项,代表了除了x之外,可以影响y的其他所有因素Examples

一个简单的工资方程:

工资=b0+b1

•教育年限+u上述简单工资函数描述了工资和受教育年限,以及其他不可观测因素u之间的关系.b1

衡量的是,在其他因素(包含在误差项u里面)不变的情况下,多接受一年教育,可以增加多少工资。其他因素包括:劳动力市场经验、内在的能力、目前所从事工作的工龄、职业道德,以及其他许多因素,包含在u中。居民消费函数:Y=c+aX1+bX2+随机误差项u

其中,Y代表居民支出;X1代表居民收入;X2代表家庭财富;c是常数,即居民基本消费此时随机误差项代表的是:GDP、消费者价格指数、工业品价格指数、本币汇率、大宗商品价格指数、房价均值、子女教育费均值等等我们知道,收入和财富是决定居民支出较为直接的变量,所以我们将其引入模型中,而宏观经济情况和价格水平都是间接影响着居民支出的。如果我们需要更详细全面的模型,那么我们需要引入更多的变量;但引入更多变量的成本也较大,比如多重共线、自相关问题等。2、关于随机扰动项μ的假定(称高斯假定或经典假定)(1)零均值假定。即(2)同方差假定。即(3)无自相关假定。即(4)随机扰动项与解释变量不相关假定。即

(5)正态性假定。即异方差XYXY序列自相关XXYY负相关正相关不相关自相关(正)自相关(负)3、关于被解释变量y的假定(2次课)二、模型估计:普通最小二乘法(OLS)

yX........Y1Y2最小二乘法的原理:找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小对求导,得到正规方程组普通最小二乘法参数估计量的离差形式Excel估计例1(P27)三、OLS回归的统计性质

1、回归线通过样本均值。即2、估计值的均值等于实际观测值的均值。即3、剩余项的均值为零。即4、应变量估计值与剩余项不相关。即5、解释变量X与剩余项e不相关。即

四、最小二乘估计量的性质当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:

(1)线性性,即它是否是另一随机变量的线性函数;

(2)无偏性,即它的均值或期望值是否等于总体的真实值;

(3)有效性,即它是否在所有线性无偏估计量中具有最小方差。在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量概率密度β的估计值无偏性概率密度β的估计值最小方差性是关于样本观测值Yi的线性函数线性特征因为是关于Y的线性函数,而Y是关于随机扰动项ui的线性函数,所以也是ui的线性函数,且服从正态分布第三节经典线性回归模型的统计检验

一、拟合优度检验

二、变量的显著性检验

三、参数的置信区间

1、总离差平方和的分解已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线

如果Yi=Ŷi即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。

对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记总体平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares

)TSS=ESS+RSS

Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此

拟合优度:回归平方和ESS/Y的总离差TSS2、可决系数R2统计量

称R2为(样本)可决系数/判定系数(coefficientofdetermination)。

可决系数的取值范围:[0,1]R2越接近1,说明实际观测点离样本线越近,拟合优度越高。在例2.2收入-消费支出例中,

注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。

二、变量的显著性检验

回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。

变量的显著性检验所应用的方法是数理统计学中的假设检验。

计量经计学中,主要是针对变量的参数真值是否为零来进行显著性检验的。

1、什么是假设检验

所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,利用适当的符合某种概率分布的统计量和给定的显著性水平,构造一个小概率事件,通过小概率事件来判断对总体参数的假设是否正确判断结果合理与否,是基于“小概率事件不易发生”这一原理,小概率事件在一次抽样中不会发生,如果小概率事件发生,说明原假设不正确,就拒绝原假设。2、变量的显著性检验:t检验

检验步骤:

(1)对总体参数提出假设H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表,得临界值t/2(n-2)(4)比较,判断若|t|>t/2(n-2),则拒绝H0,接受H1;若|t|

t/2(n-2),则拒绝H1,接受H0;t分布0X服从正态分布Y服从分布接受原假设H0拒绝原假设H0假如接受域

对于一元线性回归方程中的1,可构造如下t统计量进行显著性检验:在上述例2收入-消费支出例中,首先计算2的估计值

t统计量的计算结果分别为:

给定显著性水平=0.05,查t分布表得临界值

t0.05/2(8)=2.306|t1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;

|t2|>2.306,表明在95%的置信度下,拒绝截距项为零(H0:2=0)的原假设

假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。

3、参数的置信区间

如果存在这样一个区间,称之为置信区间(confidenceinterval);

1-称为置信系数(置信度)(confidencecoefficient),

称为显著性水平(levelofsignificance);置信区间的端点称为置信限(confidencelimit)或临界值(criticalvalues)。t分布0X服从正态分布Y服从分布置信区间一元线性模型中,i(i=1,2)的置信区间:在变量的显著性检验中已经知道:

意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2,t/2)的概率是(1-)。表示为:

即于是得到:(1-)的置信度下,i的置信区间是

在上述收入-消费支出例中,如果给定=0.05,查表得:

由于于是,1、2的置信区间分别为:(175.40,528.59)

(0.4803,0.5797)

XiYi

得,在显著性水平下,临界值为,则的估计区间是

二、回归系数的区间估计1、的方差已知,与的区间估计。由2、的方差未知,大样本下与的区间估计在大样本下,用代替,仍可利用正态分布作区间估计,此时的区间估计分别为:

3、的方差未知,在小样本下,与的区间估计。在小样本下:

在显著性水平下,临界值为,则的区间估计分别为:

案例分析:中国城市居民消费支出第四节回归模型预测1、对Y0平均值的点预测总体回归函数当人均收入Xi=8000时,人均消费2、对Y0平均值预测的置信区间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论