oym2013年第3章(一元线性回归模型)_第1页
oym2013年第3章(一元线性回归模型)_第2页
oym2013年第3章(一元线性回归模型)_第3页
oym2013年第3章(一元线性回归模型)_第4页
oym2013年第3章(一元线性回归模型)_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在第二章,我们以人为设计的收入与消费数据,讨论了总体回归模型与样本回归模型。本章分析一元线性回归模型的经典假定,以及经典假设下的最小二乘估计方法和估计量的统计性质、区间估计、假设检验,并运用蒙特卡洛模拟直观认识和验证最小二乘估计量的统计性质。第三章一元线性回归模型§3.4

例子:中国消费函数§3.5

对最小二乘估计量统计性质的直观认识---蒙特卡洛模拟§3.3

回归参数的区间估计和假设检验§3.2拟合优度§3.1

一元线性回归模型参数的估计本章小结§3.1一元线性回归模型参数的估计一元线性回归模型是指模型中只有一个解释变量的模线性型,也称为简单线性回归模型,其一般形式是:

(3.1.1)

Y为被解释变量,X为解释变量。因为模型中共有两个变量,所以,模型(3.1.1)也被称为双变量线性回归模型,β0与β1为待估参数,ui为随机误差项或随机扰动项。

一、基本假定1、对模型与变量的假定假定1:回归模型对参数(系数)

而言是线性模型。假定2:解释变量是外生变量。假定3:模型是正确设定的。2、对随机扰动项的假定假定4:零均值假定假定5:同方差假定假定6:无自相关假定5二、普通最小二乘法(OLS)Yi的变化可以分为两部分,一部分是可以由Xi的变化解释的,另一部分来自随机扰动。Yi向Xi所解释的“平均水平”回归,这就是“回归”的含义。而斜率系数β1是指,Xi每变化一个单位,Yi平均变化β1个单位。β0是样本回归直线的截距。基于假定4,我们对模型(3.1.1)取条件期望,则有:(3.1.6)

即:(3.1.7)第一步构造含有待估计系数的残差平方和并对其求最小第二步对残差平方和求两个系数的偏导数(一阶条件)(3.1.8)正则方程(3.1.9)(3.1.9)式即为OLS估计量对第二步的进一步演算

在(3.1.9)式中,令,和分别称为Xi和Yi的离差形式,也可称为对Xi和Yi的中心化处理。为方便,我们以下分析过程中,将和号简写为。容易证明:

(3.1.10)

(3.1.11)于是,估计量(3.1.9)可以表示为离差形式:(3.1.12)

在计量经济学中,往往以小写字母表示对均值的离差。由于

是从最小二乘原理推导出来的,故称为普通最小二乘估计量。将样本数据代入估计量的计算公式(3.1.12)即可求得参数的估计值。

例3.1.1思考题目解答表3.1.12008年中国各地区城市居民人均年消费支出和可支配收入数据来源:《中国统计年鉴2009》请回答:我国宏观经济中的边际消费倾向是多少?地

区城市居民家庭平均每人每年消费支出(元)城市居民人均年可支配收入(元)地

区城市居民家庭平均每人每年消费支出(元)城市居民人均年可支配收入(元)北

京16460.2624724.89湖

北9477.5113152.86天

津13422.4719422.53湖

南9945.5213821.16河

北9086.7313441.09广

东15527.9719732.86山

西8806.5513119.05广

西9627.414146.04内蒙古10828.6214432.55海

南9408.4812607.84辽

宁11231.4814392.69重

庆11146.814367.55吉

林9729.0512829.45四

川9679.1412633.38黑龙江8622.9711581.28贵

州8349.2111758.76上

海19397.8926674.9云

南9076.6113250.22江

苏11977.5518679.52西

藏8323.5412481.51浙

江15158.322726.66陕

西9772.0712857.89安

徽9524.0412990.35甘

肃8308.6210969.41福

建12501.1217961.45青

海8192.5611640.43江

西8717.3712866.44宁

夏9558.2912931.53山

东11006.6116305.41新

疆8669.3611432.1河

南8837.4613231.11

我们设定样本回归模型

其中Yi为城市居民家庭平均每人每年消费支出;Xi为城市居民人均年可支配收入。使用这组样本数据,对(3.1.13)做最小二乘估计,结果为

从样本回归函数可知,边际消费倾向,也就是说收入每增加1元,消费平均增加0.6647元。(3.1.13)(3.1.14)图3.1.1样本数据的散点图和样本回归直线样本点紧密散布在样本回归直线周围,有的样本点落在样本回归直线上,但是大多数样本点不在样本回归直线上,而是在直线上方或者下方,那么这条样本回归直线“逼近”了总体回归直线吗?为什么要用普通最小二乘法?如何度量样本回归模型对样本观测值的拟合程度?要回答这些问题,我们必须学习估计量的统计性质和模型的拟合优度等概念。9三、最小二乘估计量的统计性质估计量的主要性质OLS估计量的统计性质

无偏性渐近无偏性渐近有效性有效性线性性一致性无偏性大样本性质有效性(最小方差性)线性性即样本容量趋于无穷大时,估计量

在所有的一致估计量

中具有最小的渐近方差,即:即估计量是随机样本数据的线性函数;即估计量的期望等于总体的真实值,即:即估计量

在所有线性无偏估计量

中具有最小方差,也称为最小方差性,即:即样本容量趋于无穷大时,估计量的期望趋于总体真实值,即:即样本容量趋于无穷大时,估计量依概率收剑于总体的真实值,即:其中:符号“Plim”表示概率极限,因为随机变量没有极限值,只能求概率极限。线性性是指估计量

是随机变量Yi的线性组合。即即在所有线性无偏估计量中,最小二乘估计量和具有最小方差。也就是说,如果我们能得到不同于最小二乘估计量的其他线性无偏估计量,其方差大于或者等于最小二乘估计量的方差。由于最小二乘估计量拥有一个“好”的估计量所应具备的有限样本性质,它也拥有大样本特性,即渐近无偏性、一致性、渐近有效性。高斯-马尔可夫定理

由以上分析可以看出,普通最小二乘估计量(ordinaryleastsquaresestimators)在经典假定下具有线性性、无偏性和最小方差性等性质,称具有这些性质的估计量为最优线性无偏估计量(

bestlinearunbiasedestimator,BLUE)。高斯-马尔可夫定理(Gauss-Markovtheorem)

在经典假定下,普通最小二乘估计量具有线性性、无偏性和最小方差性(

BLUE)。§3.2拟合优度

如图3.2.1(a)和(b)中的直线,它们分别表示由散点表示的样本数据所对应的样本回归直线(OLS估计的样本回归直线),它们都是通过残差平方和最小而产生的直线,但是二者对样本观测值的拟合程度显然是不同的。这两条直线,谁拟合得更好?这就需要使用拟合优度的概念。3.2.1一、总离差平方和的分解

已知由一组样本观测值得到如下样本回归直线:

Y的第个观测值与样本均值的离差

可分解为两部分之和(3.2.1)(3.2.2)图3.2.2总离差的分解示意图RSS称为残差平方和(residualsumofsquares,RSS),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的离差。(3.2.7)(3.2.6)ESS称为回归平方和(explainedsumofsquares,ESS),反映由模型中解释变量所解释的那部分离差的大小。TSS称为总平方和(totalsumofsquares,TSS),它反映样本观测值总体离差的大小。对于所有样本点,由于

可以证明,所以有

记(3.2.3)(3.2.5)(3.2.4)二、拟合优度

ESS占Y的总离差平方和的比例,度量了回归直线对样本观测值的拟合优度。这一比例记为R2,被称为判定系数(3.2.8)

如果样本回归直线与样本观测值完全拟合,或者说,所有的样本点全部落在样本回归直线上,则有R2=1。但是,由于样本的随机性,样本回归直线(或者估计的模型)与样本观测值完全拟合,亦即R2=1的情况很少发生。R2越大,说明在总变差中由回归解释的部分所占比重越大,拟合优度越高。反之,R2越小,说明估计的模型对样本观测值的拟合程度越差。§3.3回归参数的区间估计和假设检验一、回归参数估计量的概率分布的概率分布的标准差的标准化变换的标准误

在ui服从正态分布的假设下,即:

ui~N(0,σ2)则Yi服从正态分布,所以也服从正态分布,其分布特征由其均值和方差唯一决定,即(3.3.2)(3.3.1)于是,的标准差分别为(3.3.3)(3.3.4)(3.3.6)(3.3.5)若将正态随机变量做标准化变换

即经过标准化变换的均服从标准正态分布。我们定义:

用代替的标准差中的σ2,得到估计量的标准差的估计,为区别起见,称为标准误:可以证明,用标准误对作标准化变换,所得到的和已经不再服从,而是服从,即(3.3.8)(3.3.10)(3.3.11)(3.3.7)(3.3.9)二、回归参数的区间估计参数估计中的区间估计具体构造参数的区间估计

选择一个显著性水平α(0<α<1),并求一个正数δ,使得随机区间()包含参数(真实值)的概率为1-α,即其中,1-α称为置信系数(置信度、置信水平),α称为显著性水平,而(),称为具有置信水平1-α的置信区间,也就是说,我们有1-α的“把握”认为,置信区间覆盖了真值。这个区间也称为的区间估计。置信区间的两个端点称为置信上限和置信下限。

给定置信度1-α,从t分布表中查得自由度为的临界值,那么t值处在(-,)内的概率是1-α(图3.3.1的中间空白区域面积),即

整理(3.3.14)式得

于是得到的置信度为1-α的置信区间(3.3.13)(3.3.15)(3.3.16)(3.3.14)图3.3.1t分布的1-α

置信区间三、变量的显著性检验:t检验为检验收入(X)是否显著地解释了消费(Y)的平均变化,设定假设检验的原假设(虚拟假设)和备选假设(对立假设)分别是:

,:

如果收入(X)显著地解释了消费(Y)的平均变化,那么参数的估计值应该显著不为0,也就是说,我们应该以某种显著性水平拒绝原假设。

由(3.3.11)式我们已经知道,在随机误差项的正态性假定下,有将原假设代入以上的t

统计量中,有

给定一个显著性水平α=0.05,在

t

分布表中可以查到一个对应的临界值,于是,所界定的区间为接受域(严格意义上应该称为不拒绝域),而

称为拒绝域。

同理,如果原假设和备选假设分别是:,:

将原假设代入(3.3.10)中,有图3.3.2

t检验法和p值检验法等价示意图---双侧检验(3.3.17)(3.3.18)四、检验统计量的p值

对回归参数的假设检验是在给定的显著性水平下做出的,因此当给定的显著性水平不同时,检验所得的结论很可能不同,甚至会产生相反的结论。在原假设既定、t统计量已确定的情况下,对参数假设检验的结论与显著性水平息息相关。如何避免选择α

的主观性?一个简单的方法是,在既定原假设下,计算t统计量的值,记为,在t分布表中可以查到所对应的双尾(在概率趋于0的方向)的概率值,这个概率值即为t统计量的值等于时的p值。p值参看图3.3.2,用公式表示,即为使用这个p值就勿需人为地选择显著性水平,即可方便的做出拒绝或者不拒绝原假设的结论。

当原假设不是等于某个值,而是大于等于或者小于等于某个值时,就要使用单侧检验,包括:(1)左侧检验::,:,。此时临界值是,拒绝域是。或者使用p值产生检验结论,见图3.3.3;(2)右侧检验::,:,。此时临界值是,拒绝域是。或者用p值做出拒绝或者不拒绝原假设的结论,见图3.3.4。图3.3.4t检验法和p值检验法等价示意图---右侧检验图3.3.3t检验法和p值检验法等价示意图---左侧检验§3.4例子:中国消费函数表3.1.12008年中国各地区城市居民人均年消费支出和可支配收入数据来源:《中国统计年鉴2009》地

区城市居民家庭平均每人每年消费支出(元)城市居民人均年可支配收入(元)地

区城市居民家庭平均每人每年消费支出(元)城市居民人均年可支配收入(元)北

京16460.2624724.89湖

北9477.5113152.86天

津13422.4719422.53湖

南9945.5213821.16河

北9086.7313441.09广

东15527.9719732.86山

西8806.5513119.05广

西9627.414146.04内蒙古10828.6214432.55海

南9408.4812607.84辽

宁11231.4814392.69重

庆11146.814367.55吉

林9729.0512829.45四

川9679.1412633.38黑龙江8622.9711581.28贵

州8349.2111758.76上

海19397.8926674.9云

南9076.6113250.22江

苏11977.5518679.52西

藏8323.5412481.51浙

江15158.322726.66陕

西9772.0712857.89安

徽9524.0412990.35甘

肃8308.6210969.41福

建12501.1217961.45青

海8192.5611640.43江

西8717.3712866.44宁

夏9558.2912931.53山

东11006.6116305.41新

疆8669.3611432.1河

南8837.4613231.11数据估计检验与经济解释

根据凯恩斯消费理论,对于表3.1.1中的消费和收入的数据,回归模型设定为:

Y—城市居民家庭平均每人每年消费支出(元)X—城市居民人均年可支配收入(元)基于表3.1.1的数据,运用OLS估计结果如下:

其中,第一行是估计的回归方程,第二行是对应估计量的标准误,第三行是对应参数在原假设下的t值,最后一行是拟合优度。(3.4.1)(3.4.2)

从估计的结果看,估计的斜率系数为0.6647,说明城镇居民人均可支配收入每增加1元,人均消费支出平均增加0.6647元,即边际消费倾向的估计值,这一结果不仅符合经济理论中关于对边际消费倾向的假定,同时也说明,如果提高收入水平,能比较明显的扩大消费。估计的截距为725.3459,可以认为是自主性消费支出,即当收入为零的时候还存在的消费。但是,在计量经济学中,一般对截距不做解释,因为解释变量为0几乎没有经济学意义。以上对估计结果的分析表明,估计结果不仅与相关经济理论一致,也体现了比较明显的现实经济意义。由(3.3.19)式和(3.3.20)式可知的t值为22.496,的t值为1.589,给定显著性水平,查表得临界值为

。由,拒绝原假设,说明斜率在5%的显著性水平下显著不为0,这表明,可支配收入对消费有显著影响。而,不能拒绝截距为零的原假设。等价地,p值分别为0.0000和0.1229分别小于和大于0.05,结论和t值检验一样。拟合优度为=0.946,说明模型整体上对样本数据拟合较好,即解释变量“城市居民人均年可支配收入”解释了被解释变量“城市居民人均年消费支出”的平均变化的94.6%。

我国居民消费主要取决于居民可支配收入。但我国个人收入在国民收入的初次分配(在初次分配中,国民收入被分解为三个基本的部分:国家收入、企业收入、个人收入)中的占比长期偏低。因此提高消费的关键在于收入分配的改革。基于边际消费倾向的估计值,就可以得到相关乘数,由,投资乘数

,表示当投资增加1个单位时,将导致总产出平均增加2.982个单位。以上的分析为制定收入分配改革的政策和制定投资规模提供了重要的信息。政策分析与评价预测模型应用计量经济学模型的一个重要应用是经济预测。如果给定样本以外的解释变量的观测值

,可以得到被解释变量的预测值

,可以此作为其条件均值

或个别值Y的一个点预测(点估计)。正如回归系数有区间估计一样,被解释变量的预测也有区间预测(区间估计)。(1)

是条件均值

和个别值

的点预测。(2)Y的条件均值与个别值的区间预测①Y的条件均值预测的置信区间②Y的个别值预测的置信区间

图3.4.1

Y的均值与个值的置信区间(预测区间)预测在上述可支配收入-消费支出例子中,我们对人均可支配收入处的人均年消费支出做出预测它可作为Y的条件均值或个别值在

处的点预测值。Y的条件均值95%的区间预测是即Y的个值95%的区间预测是即

§3.5对最小二乘估计量统计性质的直观认识——蒙特卡洛模拟由前述,在一元线性回归模型中,满足经典假设的最小二乘估计量,具有无偏性,最小方差性,随机误差项服从正态分布的假定下,估计量也服从正态分布。本节我们设计一个简单的蒙特卡洛仿真实验,以验证OLS估计量的统计性质。具体步骤图3.5.2100次观测的频率分布直方图图3.5.1100次观测的频率分布直方图第一步第二步第三步第四步第五步直方图折线图设定一个“真实”的总体回归模型:

其中

服从标准正态分布,样本容量N=20,其中Xi分别取值如下:16、13、90、88、10、11、97、86、19、11、15、95、12、87、11、88、94、99、15、96。(3.5.1)

从标准正态分布中随机抽取值,将X的值代入模型(3.5.1)并生成数据集。设定样本回归模型

以生成的数据集为被解释变量的样本值,对Xi做OLS回归,获得和的估计值和。和为满足线性无偏的非OLS估计量,其中为满足下述(3.5.2)条件的任意随机数,在本例中,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论