第六章-第七章:一元线性回归模型ppt课件_第1页
第六章-第七章:一元线性回归模型ppt课件_第2页
第六章-第七章:一元线性回归模型ppt课件_第3页
第六章-第七章:一元线性回归模型ppt课件_第4页
第六章-第七章:一元线性回归模型ppt课件_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章第六章- -第七章第七章 一元线性回归模型双变量模型)一元线性回归模型双变量模型) 回归分析概述回归分析概述 一元线性回归模型的参数估计一元线性回归模型的参数估计 一元线性回归模型检验一元线性回归模型检验 一元线性回归模型预测一元线性回归模型预测 实例实例2.1 2.1 回归分析概述回归分析概述一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念二、总体回归函数二、总体回归函数PRFPRF)三、随机扰动项三、随机扰动项四、样本回归函数四、样本回归函数SRF)SRF)一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念1. 变量间的关系变量间的关系(

2、1确定性关系或函数关系:研究的是确定现象非确定性关系或函数关系:研究的是确定现象非随机变量间的关系。随机变量间的关系。施肥量阳光降雨量气温农作物产量,f(2统计依赖或相关关系:研究的是非确定现统计依赖或相关关系:研究的是非确定现象随机变量间的关系。象随机变量间的关系。2,半径半径圆面积f注:给定一个半径,有唯一的一个圆面积与之对应;但给定一个施肥量,与之对应的农作物产量并不能确定,即不会取唯一值。 函数关系:变量之间依一定的函数形式形成的一一对应关系称为函数关系。若两个变量分别记作y和x,则当y 与x之间存在函数关系时,x值一旦被指定,y值就是唯一确定的。函数关系可以用公式确切的反映出来,一般

3、记为y=f(x)。 例如,某种商品的销售额y与销售量x之间的关系,在销售价格p一定的条件下,只要给定一个商品销售量,就有一个唯一确定的商品销售额与之对应,用公式表示为y=px。 统计关系:两个变量之间存在某种依存关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量之间的这种关系就是统计关系,也称为相关关系。 例如:同样收入的家庭,用于食品的消费支出往往并不相同。因为对家庭食品费用的影响,不仅有家庭收入的多少,还有家庭人口,生活习惯等因素,所以,家庭食品费用支出与家庭收入之间不是函数关系,而是相关关系。 对变量间统计关系的考察主要是通过相关分对变量间统计关系的考察主要

4、是通过相关分析析(correlation analysis)和回归分析和回归分析(regression analysis)来完成的。来完成的。 相关分析主要研究随机变量间的相关形式及相关分析主要研究随机变量间的相关形式及相关程度。相关程度。 变量间相关的形式有线性相关与非线性相关变量间相关的形式有线性相关与非线性相关之分;变量之分;变量 间相关程度的大小可以通过相关系数来测量。间相关程度的大小可以通过相关系数来测量。 具有相关关系的变量间有时存在着因果关系,具有相关关系的变量间有时存在着因果关系,这时可以这时可以 通过回归分析来研究它们间的具体依存关系。通过回归分析来研究它们间的具体依存关系。

5、 注:变量间有因果关系,可以用回归分析来注:变量间有因果关系,可以用回归分析来研究;但回归分析研究一个变量对另一个研究;但回归分析研究一个变量对另一个些变量的具体依赖关系时,它们并不意些变量的具体依赖关系时,它们并不意味着一定有因果关系,有无因果关系,一定味着一定有因果关系,有无因果关系,一定要根据具体的经济理论来判断比如凯恩斯要根据具体的经济理论来判断比如凯恩斯的消费理论)。的消费理论)。变量间的关系非确定性关系(统计依赖关系或相关关系)确定性关系(函数关系)回归分析(变量间存在具体依存关系时采用该法)相关分析(变量间地位对称时采用该法)相关程度(用相关系数来测量)相关形式非线性相关线性相关

6、 注意注意 不线性相关并不意味着不相关。不线性相关并不意味着不相关。 有相关关系并不意味着一定有因果关系。有相关关系并不意味着一定有因果关系。 回归分析研究一个变量对另一个些变量回归分析研究一个变量对另一个些变量的具体依赖关系,但它们并不意味着一定有因的具体依赖关系,但它们并不意味着一定有因果关系。果关系。 相关分析对称地对待任何两个变量,两相关分析对称地对待任何两个变量,两个变量都被看作是随机的。个变量都被看作是随机的。 回归分析对变量的处理方法存在不对称性,回归分析对变量的处理方法存在不对称性,即区分应变量被解释变量和自变量解释即区分应变量被解释变量和自变量解释变量):前者是随机变量,后者

7、不是。变量):前者是随机变量,后者不是。(gm01,3.11)2. 回归分析的基本概念回归分析的基本概念回归分析回归分析(regression analysis)是研究一个变量关是研究一个变量关于另一个些变量的具体依赖关系的计算于另一个些变量的具体依赖关系的计算方法和理论。方法和理论。其目的在于通过后者的已知或设定值,去估计其目的在于通过后者的已知或设定值,去估计和或预测前者的总体均值。和或预测前者的总体均值。被解释变量被解释变量Explained Variable或应变量或应变量Dependent Variable)。)。解释变量解释变量Explanatory Variable或自变量或自变

8、量Independent Variable)。)。 回归分析构成计量经济学的方法论基础,其回归分析构成计量经济学的方法论基础,其主要内容包括:主要内容包括: (1根据样本观察值对经济计量模型参数进根据样本观察值对经济计量模型参数进行估计,求得回归方程;行估计,求得回归方程; (2对回归方程、参数估计值进行显著性检对回归方程、参数估计值进行显著性检验;验; (3利用回归方程进行分析、评价及预测。利用回归方程进行分析、评价及预测。二、总体回归函数二、总体回归函数 回归分析关心的是根据解释变量的已回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体知或给定值,考察被解释变量的总体均值,即

9、当解释变量取某个确定值时,均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能与之统计相关的被解释变量所有可能出现的对应值的平均值。出现的对应值的平均值。 例例2.1:一个假想的社区有:一个假想的社区有100户家庭组成,要户家庭组成,要研究该社区每月家庭消费支出研究该社区每月家庭消费支出Y与每月家庭可与每月家庭可支配收入支配收入X的关系,即根据家庭的每月可支配的关系,即根据家庭的每月可支配收入,考察该社区家庭每月消费支出的平均水收入,考察该社区家庭每月消费支出的平均水平。平。 为达到此目的,将该为达到此目的,将该100户家庭划分为组内收户家庭划分为组内收入差不多的入差不多的10组

10、,以分析每一收入组的家庭消组,以分析每一收入组的家庭消费支出。费支出。表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表 每月家庭可支配收入X(元) 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155

11、1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 14

12、85 1716 1947 2200 每 月 家 庭 消 费 支 出 Y (元) 2002 共计 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同; 但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布Conditional distribution是已知的,例如:P(Y=561|X=800)=1/4。 因而,给定收入X的值Xi,可得消费支出Y的条件均值conditional mean或条件期望conditional

13、expectation):E(Y|X=Xi)。 该例中:E(Y | X=800)=605 描出散点图发现:随着收入的增加,消费“平均地说也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X元)每月消费支出Y(元)*iiXXYE21)(XYiXq虽然Y的所有条件期望都落在一条直线上,但是相同的X却对应着不同的Y。q总体回归函数的确定形式不能完全体现因变量的个别值与解释变量的固定值之间的统计依赖关系。* 在给定解释变量Xi条件下被解释变量Yi的

14、期望轨迹称为总体回归线population regression line),或更一般地称为总体回归曲线population regression curve)。)()|(iiXfXYE称为双变量总体回归函数population regression function, PRF)。 相应的函数: 含义:回归函数含义:回归函数PRF说明被解释变量说明被解释变量Y的的平均状态总体条件期望随解释变量平均状态总体条件期望随解释变量X变化变化的规律。的规律。 函数形式:可以是线性或非线性的。函数形式:可以是线性或非线性的。 例2.1中,将居民消费支出看成是其可支配收入的线性函数时: iiXXYE10)|

15、(为一线性函数。其中,0,1是未知参数,称为回归系数regression coefficients)。三、随机扰动项三、随机扰动项 总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。 但对某一个别的家庭,其消费支出可能与该平均水平有偏差。 称为观察值每个家庭的消费支出围绕它的期望值的离差deviation),是一个不可观测的随机变量,又称为随机干扰项stochastic disturbance或随机误差项stochastic error)。)|(iiiXYEY 例2.1中,给定收入水平Xi (如800元),个别家庭如消费支出为638元的家庭的支出可表示为两部分之和:(1该收

16、入水平下所有家庭此处为4个家庭的平均消费支出E(Y|Xi)(如2420/4=605),称为系统性systematic或确定性deterministic)部分;(2其他随机或非确定性nonsystematic)部分i 。(此处为33元)。即638元个别家庭消费支出)=605元平均消费支出)+33元偏离平均数的误差值) 称为总体回归函数PRF的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。在总体回归函数中引入随机干扰项,主要有以下几个方面的原因:(1代表未知的影响因素。(2代表残缺数据。即使所

17、有的影响变量都被包含在模型中,也会有某些变量的数据无法取得。比如,经济理论中,居民消费支出除受可支配收入影响外,还受财富拥有量的影响,但后者在实践中往往是无法收集到的。这时模型中不得不省略掉这一变量,而将其纳入随机干扰项中。(3代表众多细小影响因素。(4代表数据观测误差。由于某些主客观的原因,在取得观察数据时,往往存在测量误差,这些观测误差也被纳入随机干扰项。(5代表模型设定误差。模型的真实函数形式往往是未知的。实际设定的模型可能与真实的模型有误差。(6变量的内在随机性。由于某些变量所固有的内在随机性,也会对被解释变量产生随机性影响。四、样本回归函数四、样本回归函数SRFSRF) 问题:能从一

18、次抽样中获得总体的近似的信息问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似吗?如果可以,如何从抽样中获得总体的近似信息?信息? 例例2.2:在例:在例2.1的总体中有如下一个样本,能的总体中有如下一个样本,能否从该样本估计总体回归函数否从该样本估计总体回归函数PRF? 回答:能回答:能表表2.1.3 家庭消费支出与可支配收入的一个随机样本家庭消费支出与可支配收入的一个随机样本 X 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y 594 638 1122 1155 1408 1595 1969 2078 25

19、85 2530 该样本的散点图scatter diagram): 画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为样本回归线sample regression lines)。 记样本回归线的函数形式为:iiiXXfY10)(称为样本回归函数sample regression function,SRF)。 注意:这里将样本回归线看成总体回归线的近似注意:这里将样本回归线看成总体回归线的近似替代替代那么iiXXYE10)|( 样本回归函数的随机形式,即样本回归模型:样本回归函数的随机形式,即样本回归模型:同样地,样本回归函数也有如下的随机形式: 式中,i

20、e称为(样样本本)残残差差(或剩剩余余)项项(residual) ,代表了其他影响iY的随机因素的集合,可看成是i的估计量i。 由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型sample regression model)。 iiiiieXYY10 回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。即,根据 iiiiieXeYY10估计iiiiiXXYEY10)|(注意:这里注意:这里PRF可可能永远无法知道。能永远无法知道。小结:1.总体回归函数2.样本回归函数3.总体回归模型 4.样本回归模型iiXXYE10)|(iiieXY10iiiXY102.2 2

21、.2 一元线性回归模型的参数估计一元线性回归模型的参数估计 一、一元线性回归模型的基本假设一、一元线性回归模型的基本假设二、参数的普通最小二乘估计二、参数的普通最小二乘估计OLS)OLS)三三* *、参数估计的最大或然法、参数估计的最大或然法(ML) (ML) 四、最小二乘估计量的性质四、最小二乘估计量的性质五、参数估计量的概率分布及随机干五、参数估计量的概率分布及随机干 扰项方差的估计扰项方差的估计 说说 明明 单方程计量经济学模型分为两大类:线性模型和非线性模型 线性模型中,变量之间的关系呈线性关系 非线性模型中,变量之间的关系呈非线性关系 一元线性回归模型:只有一个解释变量iiiXY10

22、i=1,2,nY为被解释变量,X为解释变量,0与1为待估参数, 为随机干扰项 回归分析的主要目的是要通过样本回归函数回归分析的主要目的是要通过样本回归函数模型模型SRF尽可能准确地估计总体回归函数尽可能准确地估计总体回归函数模型模型PRF。 估计方法有多种,其中最广泛使用的是普通最估计方法有多种,其中最广泛使用的是普通最小二乘法小二乘法ordinary least squares, OLS)。)。 为保证参数估计量具有良好的性质,通常对模为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。型提出若干基本假设。 实际这些假设与所采用的估计方法紧密相关。实际这些假设与所采用的估计方法紧密相

23、关。 一、线性回归模型的基本假设一、线性回归模型的基本假设 假设1. 解释变量X是确定性变量,不是随机变量。如 假设2. 随机误差项具有零均值、同方差和不序列相关性: E(i)=0 i=1,2, ,n V a r (i ) =2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n 施肥量阳光降雨量气温农作物产量,f 同方差:随机干扰项的条件方差恒定X1:假设经济学0801全班30名同学个人可支配收入都是每月600元/人;Y:现实中消费支出水平有30个不同的值,并用一个方差度量这30个取值的离散程度。X2:假设全班30名同学个人可支配收入增加到每月800元/人;Y:现实中

24、消费支出水平有30个不同的值,并用一个方差度量这30个取值的离散程度按照同方差假设,以上两个方差的值是一样的。YX2X3XiiuXY211X 同方差:随机干扰项的条件方差恒定 异方差:随机干扰项的条件方差不一样X1:假设全班30名同学个人可支配收入都是每月600元/人;Y:现实中消费支出水平有30个不同的值,并用一个方差度量这30个取值的离散程度X2:假设全班30名同学个人可支配收入增加到每月800元/人;Y:现实中消费支出水平有30个不同的值,并用一个方差度量这30个取值的离散程度按照异方差假设,以上两个方差的值是不一样的。异方差YX2X3XiiuXY211X2)(iiiXuVar任意两个误

25、差项即随机扰动项不相关假设(不序列相关) X1:假设全班30名同学个人可支配收入都是每月600元/人; Y:现实中消费支出水平有30个不同的值。 那么30个不同的消费支出数额可求出一个平均数。每一个人的实际消费支出额与这个平均数的差额就是误差项的取值。那么每个人都有一个误差项的取值,任意两个误差项的取值应当是不相关的。 (预测股票的走势就像预测一只鸟下一步要飞到哪根树枝上一样)度量两个随机变量的线性关系 表明随机误差项是个随机变量。由于假定任何两个误差项是不相关的,所以任何两个Y值也是不相关的。因为 ,假定给定值和X值,Y随着取值的变化而变化。附注:相关系数附注:相关系数cov(,)0ijij

26、ij iiiXY10假设3. 随机误差项与解释变量X之间不相关: Cov( Xi , i)=0 i=1,2, ,n 如果X是非随机机的即为固定值),则该假设自动满足。因为一个固定值与一个随机变量之间当然不相关。 假设4. 服从正态分布 iN(0, 2 ) i=1,2, ,n 推导:误差项代表了没有纳入回归模型的其他所有影响因素。因为这些影响因素中,每种因素对Y的影响都很微弱。如果所有这些影响因素都是随机的,并用代表所有这些影响因素之和,那么根据中心极限定理,可以假设误差项服从正态分布 以上假设也称为线性回归模型的经典假设或高斯Gauss假设,满足该假设的线性回归模型,也称为经典线性回归模型Cl

27、assical Linear Regression Model, CLRM)。 附注:中心极限定理 一般来说,如果一个随机变量是由大量的相互独立的随机因素的影响所造成,而每个因素的作用又是很微小的,那么这个随机变量趋于正态分布。 另外,在进行模型回归时,还有两个暗含的假设: 假设5暂时不学习). 随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。即nQnXXi,/)(2 假设6. 回归模型是正确设定的 假设5旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的伪回归问题spurious regression probl

28、em)。(暂时不学习) 假设6也被称为模型没有设定偏误specification error)二、参数的普通最小二乘估计二、参数的普通最小二乘估计OLSOLS) 给定一组样本观测值Xi, Yi)(i=1,2,n要求样本回归函数尽可能好地拟合这组值. 普通最小二乘法Ordinary least squares, OLS给出的判断标准是:二者之差的平方和niiiniXYYYQ121021)()(最小。表表2.1.3 家庭消费支出与可支配收入的一个随机样本家庭消费支出与可支配收入的一个随机样本 X 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y

29、594 638 1122 1155 1408 1595 1969 2078 2585 2530 0100QQ根据微积分学的运算,当Q对的估计量的一阶偏导数为0时,Q达到最小。方程组(*)称为正规方程组normal equations)。 记22221)(iiiiXnXXXx iiiiiiiiYXnYXYYXXyx1)(上述参数估计量可以写成: XYxyxiii1021 称为OLS估计量的离差形式deviation form)。 由于参数的估计结果是通过最小二乘法得到 的,故称为普通最小二乘估计量ordinary least squares estimators)。 顺便指出 ,记YYyii 则

30、有 iniiieXXeXXy111010)()()(可得 iixy1(*)式也称为样本回归函数的离差形式。(*)注意:注意: 在计量经济学中,往往以小写字母表示对均在计量经济学中,往往以小写字母表示对均值的离差。值的离差。 四、最小二乘估计量的性质四、最小二乘估计量的性质 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。 一个用于考察总体的估计量,可从如下几个方面考察其优劣性: (1线性性,即它是否是另一随机变量的线性函数;(2无偏性,即它的均值或期望值是否等于总体的真实无偏性,即它的均值或期望值是否等于总体的真实值;值;(3有效性,即

31、它是否在所有线性无偏估计量中具有最有效性,即它是否在所有线性无偏估计量中具有最小方差。小方差。 这三个准则也称作估计量的小样本性质。因为一旦某估这三个准则也称作估计量的小样本性质。因为一旦某估计量具有该类性质,它是不以样本的大小而改变的。计量具有该类性质,它是不以样本的大小而改变的。 拥有这类性质的估计量称为最佳线性无偏估计量拥有这类性质的估计量称为最佳线性无偏估计量best liner unbiased estimator, BLUE)。)。 (4渐近无偏性,即样本容量趋于无穷大时,渐近无偏性,即样本容量趋于无穷大时,是否估计量的均值序列趋于总体真值;是否估计量的均值序列趋于总体真值;(5一

32、致性,即样本容量趋于无穷大时,它是一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值即随着样本容量的否依概率收敛于总体的真值即随着样本容量的增加,估计量接近参数的真实值);增加,估计量接近参数的真实值);(6渐近有效性,即样本容量趋于无穷大时,渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方是否它在所有的一致估计量中具有最小的渐近方差。差。 当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,在给定经典线性回归的假定下,最小二乘估计量是具有最

33、小方差的线最小二乘估计量是具有最小方差的线性无偏估计量。性无偏估计量。2 2、无无偏偏性性,即估计量0、1的均值(期望)等于总体回归参数真值0与1 理解:根据从总体中抽取的另外一个随机样本也可以通过普通最小二乘法计算出两个参数估计值。进一步地,其它的样本同样会计算出参数估计值。表表2.1.3 家庭消费支出与可支配收入的另外一个随机样本家庭消费支出与可支配收入的另外一个随机样本 X 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y 561 748 1012 1210 1364 1672 1881 2189 2486 2629 3 3、有有效效性

34、性(最最小小方方差差性性) ,即在所有线性无偏估计量中,最小二乘估计量0、1具有最小方差。 理解:在前面由100户家庭组成的总体中,若抽取10个样本出来。那么每一个样本可以通过普通最小二乘法进行参数估计。截距项就有10个不同的估计值,同理,解释变量前面的系数也有10个不同的估计值。如果用其它的方法非普通最小二乘估计法来进行参数估计,同样也会得到截距项的10个不同的估计值,以及解释变量前面的系数的10个不同的估计值。比较以下数据的大小:用OLS法求出的10个截距值的方差 用非OLS法求出的10个截距值的方差 结果: 用OLS法求出的10个截距值的方差最小 普通最小二乘估计量普通最小二乘估计量or

35、dinary least ordinary least Squares EstimatorsSquares Estimators称为最佳线性无偏估计称为最佳线性无偏估计量量best linear unbiased estimator, BLUEbest linear unbiased estimator, BLUE) 比较以下数据的大小: 用OLS法求出的解释变量前系数的10个估计值的方差 用非OLS法求出的解释变量前系数的10个估计值的方差结果:用OLS法估计的解释变量前系数的10个估计值的方差最小埋伏笔:参数估计量在此有10个具体的估计值,因此参数估计量本身就是一个随机变量,进而有必要探讨

36、参数估计量的概率分布,而概率分布的数字特征主要有两个,一个是期望,一个是方差。 由于最小二乘估计量拥有一个“好的估计量所应具备的小样本特性,它自然也拥有大样本特性。 五、参数估计量的概率分布及随机干扰五、参数估计量的概率分布及随机干扰项方差的估计项方差的估计 (教材(教材P125P125)1、参参数数估估计计量量0和和1的的概概率率分分布布 ),(2211ixN),(22200iixnXN附注: 由于服从正态分布, iN0 ,2),而Y是的线性组合,即 因而,Y也服从正态分布 YiN0 +1Xi ,2) 又因为 , 是Yi的线性组合,所以 , 也服从正态分布。0iiiXY1010122/1ix

37、2220iixnX 2. 随机误差项随机误差项的方差的方差2的估计的估计2又称为总体方差。 由于随机项i不可观测,只能从i的估计残差ei出发,对总体方差进行估计。 可以证明, 2的最小二乘估计量为222nei它是关于2的无偏估计量。 2.3 2.3 一元线性回归模型的统计检验一元线性回归模型的统计检验 一、拟合优度检验一、拟合优度检验 二、变量的显著性检验二、变量的显著性检验 三、参数的置信区间三、参数的置信区间说说 明明 回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。 尽管从统计性质上已知,如果有足够多的重复 抽样,参数的估计值的期望均值就等于其总

38、体的参数真值,但在一次抽样中,估计值不一定就等于该真值。 那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。 主要包括拟合优度检验、变量的显著性检验及参数的区间估计。 一、拟合优度检验一、拟合优度检验 问题:采用普通最小二乘估计方法,已问题:采用普通最小二乘估计方法,已经保证了样本回归线最好地拟合了样本观测经保证了样本回归线最好地拟合了样本观测点,为什么还要检验拟合程度?点,为什么还要检验拟合程度? 回答:在一个特定的条件下做得最好的并不一定就是高质量的。 比如,假如你采用最好的学习方法学习计量经济学该方法冠名为“普通最小二乘学习法”,可以保证你取得最好

39、的考试成绩。但是这个最好成绩也有可能通过考核发现只有55分不及格),但已经是你的最好成绩了;也有可能是99分,但不管怎样,要通过考核才知道这个对于你来说的最好成绩到底是多少分。 总之,对于你来说的最好成绩,不一定就是高分。 1 1、总离差平方和的分解、总离差平方和的分解 已知由一组样本观测值Xi,Yi),i=1,2,n得到如下样本回归直线 iiXY10iiiiiiiyeYYYYYYy)()(表表2.1.3 家庭消费支出家庭消费支出(Y)(Y)与可支配收入与可支配收入(X)(X)的一个随机样本的一个随机样本 X800 1100 1400 1700 2000 2300 2600 2900 3200

40、 3500 Y 594 638 1122 1155 1408 1595 1969 2078 2585 2530 Y 注:如果Yi=i 即实际观测值落在样本回归“线上,则Y的第i个观察值与样本均值的离差,全部来自样本回归拟合值与样本均值的离差,即完全可由样本回归线解释,表明在该点处实现完全拟合拟合最好)。这时可认为,“离差全部来自回归线,而与“残差无关。 对于所有的样本点本例为10个样本点),则需考虑这些点家庭消费支出的10个数额与样本均值即家庭消费支出10个数额的均值离差的平方和,可以证明:TSS=ESS+RSS22)(YYyTSSii记22)(YYyESSii22)(iiiYYeRSS总体平

41、方和总体平方和Total Sum of Squares)回归平方和回归平方和Explained Explained Sum of SquaresSum of Squares)残差平方和残差平方和Residual Residual Sum of Squares Sum of Squares ) Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大。因而, 拟合优度:回归平方和ESS/Y的总离差TSSTSSRSSTSSE

42、SSR1记22、可决系数、可决系数R2统计量统计量 称 R2 为样本可决系数/判定系数coefficient of determination)。 可决系数的取值范围:可决系数的取值范围:0,1 R2越接近越接近1,说明实际观测点离样本线越近,说明实际观测点离样本线越近,拟合优度越高。拟合优度越高。在实际计算可决系数时,在1已经估计出后: 22212iiyxR 在例2.1.1的收入消费支出例中, 9766. 045900207425000)777. 0(222212iiyxR 注:可决系数是一个非负的统计量。它也是注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统

43、随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第计可靠性也应进行检验,这将在第3 3章中进行。章中进行。 二、变量的显著性检验二、变量的显著性检验 回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。 在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。 变量的显著性检验所应用的方法是数理统计学中的假设检验。 计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。 1、假设检验、假设检验 所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假

44、设是否有显著差异,从而决定是否接受或否定原假设。 假设检验采用的逻辑推理方法是反证法假设检验采用的逻辑推理方法是反证法 先假定原假设正确,然后根据样本信息,先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判观察由此假设而导致的结果是否合理,从而判断是否接受原假设。断是否接受原假设。 判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件不易小概率事件不易发生这一原理的发生这一原理的 2、变量的显著性检验、变量的显著性检验 ),(2211ixN)2(1112211ntSxti 检验步骤: (1对总体参数提出假设 H0: 1=0, H1:10(2以原假设H0构造t统

45、计量,并由样本计算其值11St (3给定显著性水平,查t分布表得临界值t /2(n-2) (4) 比较,判断 假设 |t| t /2 (n-2),则拒绝H0 ,接受H1 ; 假设 |t| t /2 (n-2),则拒绝H1 ,接受H0 ; 对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验: )2(0022200ntSxnXtii顺便指出 ,记YYyii 则有 iniiieXXeXXy111010)()()(可得 iixy1(*)式也称为样本回归函数的离差形式。(*)注意:在计量经济学中,往往以小写字母表示对注意:在计量经济学中,往往以小写字母表示对均值的离差。均值的离差。 知识回顾:

46、在上述收入消费支出例中,首先计算2的估计值 134022107425000777. 04590020222221222nxyneiii41.98742500010/53650000134022220iixnXSt统计量的计算结果分别为: 29.180425. 0777. 0111St048. 141.9817.103000St 给定显著性水平=0.05,查t分布表得临界值 t 0.05/2(8)=2.306 |t1|2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量; |t0|2.306,表明在95%的置信度下,无法拒绝截距项为零的假设。 EVIEWS演算过程:

47、表表2.1.3 家庭消费支出家庭消费支出(Y)(Y)与可支配收入与可支配收入(X)(X)的一个随机样本的一个随机样本 X800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y 594 638 1122 1155 1408 1595 1969 2078 2585 2530 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。 三、参数的置信区间三、参数的置信区间 要判断样本参数的估计值在多大程度上可以“近似地替代总体参数的真值,往往需要通过构造一个以样本参数的估

48、计值为中心的“区间”,来考察它以多大的可能性概率包含着真实的参数值。这种方法就是参数检验的置信区间估计。 1)(P 如果存在这样一个区间,称之为置信区间confidence interval); 1-称为置信系数置信度)(confidence coefficient), 称为显著性水平level of significance);置信区间的端点称为置信限confidence limit或临界值critical values)。一元线性模型中,一元线性模型中,i (i=1,2的置信区间的置信区间:在变量的显著性检验中已经知道: )2(ntstiii 意味着,如果给定置信度1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2, t/2)的概率是(1- )。表示为: P ttt() 221即P tstiii() 221Ptstsiiiii()221于是得到:(1-)的置信度下, i的置信区间是 (,)iitstsii22在上述收入-消费支出例中,如果给定 =0.01,查表得: 355. 3) 8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论