版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章第二章 经典单方程计量经济学模型:经典单方程计量经济学模型:一元线性回归模型一元线性回归模型 The Classical Single Equation Econometric Model: Simple Linear Regression Model 本章内容本章内容 回归分析概述回归分析概述 一元线性回归模型的基本假设一元线性回归模型的基本假设 一元线性回归模型的参数估计一元线性回归模型的参数估计 一元线性回归模型的检验一元线性回归模型的检验 一元线性回归模型的预测一元线性回归模型的预测 实例及时间序列问题实例及时间序列问题学习要求学习要求 重点:重点:总体回归模型与样本回归模型的区
2、别;样总体回归模型与样本回归模型的区别;样本回归模型的建立本回归模型的建立 难点:难点:最小二乘法估计简单线性回归模型的参数最小二乘法估计简单线性回归模型的参数与最小二乘估计量的统计性质与最小二乘估计量的统计性质 学习目的:学习目的:本章内容应熟练掌握样本回归模型的本章内容应熟练掌握样本回归模型的经典假定、模型建立以及最小二乘法对回归模型经典假定、模型建立以及最小二乘法对回归模型参数的估计,掌握最小二乘估计量的统计性质、参数的估计,掌握最小二乘估计量的统计性质、假设检验以及拟合优度的度量;理解回归系数的假设检验以及拟合优度的度量;理解回归系数的区间估计;了解回归预测。区间估计;了解回归预测。2
3、.1 2.1 回归分析概述回归分析概述( (Regression Analysis) )一、回归分析基本概念一、回归分析基本概念二、总体回归函数二、总体回归函数三、随机扰动项三、随机扰动项四、样本回归函数四、样本回归函数一、回归分析基本概念一、回归分析基本概念1 1、变量间的相互关系、变量间的相互关系 确定性的确定性的函数关系函数关系:研究的是确定性现象非随研究的是确定性现象非随机变量间的关系。机变量间的关系。2,半径半径圆面积f 不确定性的不确定性的统计相关关系统计相关关系:研究的是非确定性研究的是非确定性现象随机变量间的关系。现象随机变量间的关系。施肥量阳光降雨量气温农作物产量,f函数关系
4、与相关关系的区别函数关系与相关关系的区别 确定的函数关系可以直接用于经济活动,无需分析。确定的函数关系可以直接用于经济活动,无需分析。 不确定的相关关系,隐含着某种经济规律,是有关研究的重点不确定的相关关系,隐含着某种经济规律,是有关研究的重点 变量间的函数关系与相关关系并不是绝对的,在一定条件下两变量间的函数关系与相关关系并不是绝对的,在一定条件下两者可者可相互转化相互转化。 对变量间对变量间统计相关关系统计相关关系的考察主要是通过的考察主要是通过相关分析相关分析(correlation analysis)(correlation analysis)或或回归分析回归分析(regression
5、 analysis)(regression analysis)来完成的。来完成的。 研究随机变量之间的相关形式及相关程度的一种统计分析方法,主要研究随机变量之间的相关形式及相关程度的一种统计分析方法,主要通过绘制变量之间关系的散点图和计算变量之间的相关系数进行。通过绘制变量之间关系的散点图和计算变量之间的相关系数进行。 绘制变量之间关系的散点图绘制变量之间关系的散点图例如: 判断相关关系是线性相关还是非线性相判断相关关系是线性相关还是非线性相关、正相关还是负相关;关、正相关还是负相关;计算变量之间的相关系数计算变量之间的相关系数度量变量之间的线性相关的程度、判断线度量变量之间的线性相关的程度、
6、判断线性相关关系是正相关还是负相关性相关关系是正相关还是负相关 2 2、相关分析与回归分析、相关分析与回归分析 相关分析相关分析 相关系数相关系数 十九世纪末十九世纪末英国著名统计学家卡尔英国著名统计学家卡尔皮尔逊(皮尔逊(Karl Pearson)度量两个变量之间的线性相关程度的简单相关系数(简称相关系数)度量两个变量之间的线性相关程度的简单相关系数(简称相关系数)XYCov XYVar XVar Y( , )( )( )Cov XY( , )Var X( )Var Y( )两个变量两个变量X和和Y的总体相关系数为的总体相关系数为其中,是变量X、Y的协方差,、分别是变量X、Y的方差。(2.1
7、.1)12211()()()niiiXYnniiiiXXYYrXXYY()(2.1.2)11122221111()()nnniiiiiiiXYnnnniiiiiiiinX YXYrnXXnYY iiXY,12i , , , 如果给定变量X、Y 的一组样本 ,则总体相关系数的估计样本相关系数为n , 或相关系数的取值介于相关系数的取值介于 11之间,之间, 取值为负表示两变量之间存在负相关关系;取值为负表示两变量之间存在负相关关系; 取值为正表示两变量之间存在正相关关系;取值为正表示两变量之间存在正相关关系; 取值为取值为 1表示两变量之间存在完全负相关关系;表示两变量之间存在完全负相关关系;
8、取值为取值为0表示两变量不相关;表示两变量不相关; 取值为取值为1表示两变量之间存在完全正相关关系。表示两变量之间存在完全正相关关系。 研究不仅存在相关关系而且存在研究不仅存在相关关系而且存在因果关系因果关系的变量之间的的变量之间的依存关系,具体是研究一个变量关于另一个(些)变量的依存关系,具体是研究一个变量关于另一个(些)变量的依赖关系的计算方法和理论。其目的在于通过后者的已知依赖关系的计算方法和理论。其目的在于通过后者的已知和设定值,去估计和(或)预测前者的(总体)均值。和设定值,去估计和(或)预测前者的(总体)均值。2 2、相关分析与回归分析、相关分析与回归分析 回归分析回归分析 例如:
9、 居民消费居民消费C与可支配收入与可支配收入Y之间不仅存在相关关系而且存在因之间不仅存在相关关系而且存在因果关系,不仅可以利用相关分析研究两者之间的相关程度,还可果关系,不仅可以利用相关分析研究两者之间的相关程度,还可以利用回归分析研究两者之间的具体依存关系。可以将以利用回归分析研究两者之间的具体依存关系。可以将C作为被作为被解释变量、解释变量、Y作为解释变量,根据相关经济理论,设定含有待估作为解释变量,根据相关经济理论,设定含有待估参数参数 、 的理论模型的理论模型C = + Y,估计模型中的参数,估计模型中的参数 、 ,得,得到回归方程,进行相关统计检验和推断,利用回归模型进行结构到回归方
10、程,进行相关统计检验和推断,利用回归模型进行结构分析、经济预测、政策评价等。分析、经济预测、政策评价等。联系:联系: 1)都是研究非确定性变量间的统计依赖关系;)都是研究非确定性变量间的统计依赖关系;2)都是对存在相关关系的变量的统计相关关系的研究;)都是对存在相关关系的变量的统计相关关系的研究;3)都能测度线性相关程度的大小与方向。)都能测度线性相关程度的大小与方向。区别:区别: 1)相关分析相关分析仅仅是从统计数据上测度变量之间的相关程度,仅仅是从统计数据上测度变量之间的相关程度, 不考虑两者之间是否存在因果关系,因而变量的地位在相不考虑两者之间是否存在因果关系,因而变量的地位在相 关分析
11、中是对等的;关分析中是对等的; 回归分析回归分析是对变量之间的因果关系的分析,变量的地位是是对变量之间的因果关系的分析,变量的地位是 不对等的,有被解释变量和解释变量之分。不对等的,有被解释变量和解释变量之分。 2)相关分析相关分析主要关注变量之间的相关程度和性质,不关注变主要关注变量之间的相关程度和性质,不关注变 量之间的具体依赖关系。量之间的具体依赖关系。 回归分析回归分析在关注变量之间的相关程度和性质的同时,更关注变量在关注变量之间的相关程度和性质的同时,更关注变量 之间的具体依赖关系,因而可以深入分析变量间的依存关系,有之间的具体依赖关系,因而可以深入分析变量间的依存关系,有 可能达到
12、掌握其内在规律的目的,具有更重要的实践意义。可能达到掌握其内在规律的目的,具有更重要的实践意义。2 2、相关分析与回归分析、相关分析与回归分析 相关分析与回归分析之间的关系相关分析与回归分析之间的关系 注意:不存在线性相关并不意味着不相关。不存在线性相关并不意味着不相关。存在相关关系并不一定存在因果关系。存在相关关系并不一定存在因果关系。相关分析相关分析对称地对待任何(两个)变量,两个变量对称地对待任何(两个)变量,两个变量都被看作是随机的。都被看作是随机的。回归分析回归分析对变量的处理方法存在不对称性,即区分对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量),前应变
13、量(被解释变量)和自变量(解释变量),前者是随机变量,后者不一定是。者是随机变量,后者不一定是。 回归分析构成计量经济学的方法论基础,其主回归分析构成计量经济学的方法论基础,其主要内容包括:要内容包括:(1 1)根据样本观察值对计量经济学模型参数进行)根据样本观察值对计量经济学模型参数进行估计,求得回归方程;估计,求得回归方程;(2 2)对回归方程、参数估计值进行显著性检验;)对回归方程、参数估计值进行显著性检验;(3 3)利用回归方程进行分析、评价及预测。)利用回归方程进行分析、评价及预测。二、总体回归函数二、总体回归函数Population Regression Function, PRF
14、 由于统计相关的随机性,回归分析关心的是由于统计相关的随机性,回归分析关心的是根据解释变量的已知值或给定值,考察被解释变根据解释变量的已知值或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应与之统计相关的被解释变量所有可能出现的对应值的平均值。值的平均值。 例例2.1.1:一个假想的社区有一个假想的社区有99户家庭组成,欲研究该户家庭组成,欲研究该社区每月社区每月家庭消费支出家庭消费支出Y与每月与每月家庭可支配收入家庭可支配收入X的关的关系。系。 即如果知道了家庭的月收入,能否预测该社区家即如果知
15、道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。庭的平均月消费支出水平。 为研究方便,将该为研究方便,将该99户家庭组成的总体按可支配收入户家庭组成的总体按可支配收入水平划分为水平划分为10组,并分别分析每一组的家庭消费支出。组,并分别分析每一组的家庭消费支出。表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表 每月家庭可支配收入X(元) 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 91
16、3 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155 1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243 1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1
17、562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 1485 1716 1947 2200 每 月 家 庭 消 费 支 出 Y (元) 2002 共计 2420 4950 11495 16445 19305 23870 25025 21450 21285 15510 由于不确定因素的影响,对同一收入水平由于不确定因素的影响,对同一收入水平X,不同家庭的消,不同家庭的消费支出不完全相同;费支出不完全相同; 但由于调查的完备性,给定收入水平但由于调查的完
18、备性,给定收入水平X的消费支出的消费支出Y的分布的分布是确定的,即以是确定的,即以X的给定值为条件的的给定值为条件的Y的的条件分布条件分布(Conditional distribution)是已知的,例如:)是已知的,例如: P(Y=561|X=800)=1/4。 因此,给定收入因此,给定收入X的值的值Xi,可得消费支出,可得消费支出Y的的条件均值条件均值(conditional mean)或)或条件期望条件期望(conditional expectation):):E(Y|X=Xi)。 该例中:该例中:E(Y | X=800)=605收入水平收入水平800110014001700200023
19、002600290032003500条件概率条件概率1/41/61/111/131/131/141/131/101/91/6条件均值条件均值60582510451265148517051925214523652585表表2.1.2 各可支配收入水平组相应家庭消费支出的各可支配收入水平组相应家庭消费支出的 条件概率与条件均值条件概率与条件均值 单位:元单位:元 由表由表2.1.12.1.1和表和表2.1.22.1.2中的数据绘出可支配收入中的数据绘出可支配收入X X与家庭消费支出与家庭消费支出Y Y的散的散点图及家庭消费支出点图及家庭消费支出- -收入的曲线图,如图收入的曲线图,如图2.1.12
20、.1.1所示。所示。描出散点图发现:虽然不同的家庭消费支出存在差异,但平均来说,描出散点图发现:虽然不同的家庭消费支出存在差异,但平均来说,随着可支配收入的增加,家庭消费支出也在增加,且随着可支配收入的增加,家庭消费支出也在增加,且Y的条件均值的条件均值均落在一根正斜率的直线上,这条直线称为均落在一根正斜率的直线上,这条直线称为总体回归线总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)图图2.1.1 不同可支配收入水平组家庭消费支出的条件分布图不同可支配收入水平组家庭消费
21、支出的条件分布图总体回归函数总体回归函数 在给定解释变量在给定解释变量Xi条件下被解释变量条件下被解释变量Yi的期望轨迹称为的期望轨迹称为总体回归线总体回归线(population regression line),或更一般),或更一般地称为地称为总体回归曲线总体回归曲线(population regression curve)。)。 相应的函数称为(双变量)相应的函数称为(双变量)总体回归函数总体回归函数(population regression function, PRF)。)。)()|(iiXfXYE含义:含义:总体总体回归函数(回归函数(PRF)说明被解释变量)说明被解释变量Y的平均
22、状态(总体条件的平均状态(总体条件期望)随解释变量期望)随解释变量X变化的规律。变化的规律。函数形式:函数形式:可以是线性或非线性的。可以是线性或非线性的。例例2.1.1中,中,将居民消费支出看成是其可支配收入的线性函数时将居民消费支出看成是其可支配收入的线性函数时: :iiXXYE10)|(为为线性函数。线性函数。其中,其中, 0 0, 1 1是未知参数,称为是未知参数,称为回归系数回归系数(regression coefficients),上式也可称为),上式也可称为线性总体回归函数线性总体回归函数。注意:注意:经典计量经济方法中所涉及的线性函数,指经典计量经济方法中所涉及的线性函数,指回
23、归系数回归系数是线性的,即是线性的,即回归系数只以它的一次方出现,对解释变量则可以不是线性的。回归系数只以它的一次方出现,对解释变量则可以不是线性的。 注意: 这里所说的线性函数和通常意义下的线性函数不同,这里的线性函数指这里所说的线性函数和通常意义下的线性函数不同,这里的线性函数指参数是线性的,即待估参数都只以一次方出现,解释变量可以是线性的,也参数是线性的,即待估参数都只以一次方出现,解释变量可以是线性的,也可以不是线性的。可以不是线性的。 例如: 01lniiiYX12in, , , 都是线性回归模型。都是线性回归模型。201122iiikkiiYXXX12in, , ,30112122
24、/8iiiikkiiiYXXXXX()()12in, , , 注意: 这里所说的线性函数和通常意义下的线性函数不同,这里的线性函数指这里所说的线性函数和通常意义下的线性函数不同,这里的线性函数指参数是线性的,即待估参数都只以一次方出现,解释变量可以是线性的,也参数是线性的,即待估参数都只以一次方出现,解释变量可以是线性的,也可以不是线性的。可以不是线性的。 例如: 都不是线性回归模型。都不是线性回归模型。201iiiYX12in, , ,01122lniiikkiiYXXX12in, , ,20101221iiikkiiYXXX()12in, , , 对于参数线性、解释变量非线性的回归模型,只
25、要稍作变换,就可对于参数线性、解释变量非线性的回归模型,只要稍作变换,就可化为线性回归模型的一般形式。化为线性回归模型的一般形式。 例如: 模型模型201122iiikkiiYXXX12in, , , 211iiXX22iiXXkikiXX令令,可将模型化为,可将模型化为01122iiikkiiYXXX12in, , ,三、随机扰动项三、随机扰动项Stochastic Disturbance 总体回归函数描述了所考察总体的家庭消费支出平均说总体回归函数描述了所考察总体的家庭消费支出平均说来随可支配收入变化的规律,即,在给定的收入水平来随可支配收入变化的规律,即,在给定的收入水平X Xi i下,
26、该社区家庭平均的消费支出水平。下,该社区家庭平均的消费支出水平。 但对某一个别的家庭,其消费支出可能与该平均水平有但对某一个别的家庭,其消费支出可能与该平均水平有偏差偏差,其实际观察值聚集在平均期望值的周围,其实际观察值聚集在平均期望值的周围。 称为观察值围绕它的期望值的称为观察值围绕它的期望值的离差离差(deviationdeviation),是),是一个不可观测的随机变量,又称为一个不可观测的随机变量,又称为随机干扰项随机干扰项(stochastic disturbancestochastic disturbance)或)或随机误差项随机误差项(stochastic errorstocha
27、stic error)。)。)|(iiiXYEY 例例2.1.1中,给定收入水平中,给定收入水平Xi ,个别家庭的支出可表示为两部个别家庭的支出可表示为两部分之和:分之和:该收入水平下所有家庭的平均消费支出该收入水平下所有家庭的平均消费支出E(Y|Xi),称为,称为系系统性(统性(systematic)或或确定性(确定性(deterministic)部分;部分;其他其他随机随机或或非确定性(非确定性(nonsystematic)部分部分 i。 称为称为总体回归函数(总体回归函数(PRF)的随机设定形式。表明被解释变的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性
28、量除了受解释变量的系统性影响外,还受其他因素的随机性影响,影响,即为这些影响因素的代表。由于方程中引入了随机项即为这些影响因素的代表。由于方程中引入了随机项,成为计量经济学模型,因此也称为,成为计量经济学模型,因此也称为总体回归模型总体回归模型(PRM)。 随机误差项存在原因:随机误差项存在原因:代表未知的影响因素;代表未知的影响因素;代表残缺数据;代表残缺数据;代表众多细小影响因素;代表众多细小影响因素;代表数据观测误差;代表数据观测误差;代表模型设定误差;代表模型设定误差;变量的内在随机性。变量的内在随机性。四、样本回归函数四、样本回归函数Sample Regression Functio
29、n, SRF 问题提出的背景 总体回归函数揭示了所考察总体被解释变量与解释变量总体回归函数揭示了所考察总体被解释变量与解释变量之间的平均变化规律,但是,总体的信息往往无法获得,之间的平均变化规律,但是,总体的信息往往无法获得,因此,总体回归函数实际上是未知的。事实上,经济活因此,总体回归函数实际上是未知的。事实上,经济活动中的总体包含的个体的数量往往非常多,一般不大可动中的总体包含的个体的数量往往非常多,一般不大可能像例能像例2.1.12.1.1假设的那样得到总体中所有个体的观察数据,假设的那样得到总体中所有个体的观察数据,因此也就不大可能依据总体的所有观察数据计算得到被因此也就不大可能依据总
30、体的所有观察数据计算得到被解释变量解释变量Y Y的条件期望,无法画出精确的总体回归曲线,的条件期望,无法画出精确的总体回归曲线,相应地,总体回归函数的具体形式也无法精确确定。相应地,总体回归函数的具体形式也无法精确确定。1 1、样本回归函数、样本回归函数1 1、样本回归函数、样本回归函数 问题:问题:能否从一次抽样中获得总体的近似信息?能否从一次抽样中获得总体的近似信息?如果可以,如何从抽样中获得总体的近似信息?如果可以,如何从抽样中获得总体的近似信息? 在例在例2.1.12.1.1的总体中有如下一个样本,的总体中有如下一个样本,能否从该样能否从该样本估计总体回归函数?本估计总体回归函数? 回
31、答:能回答:能表表 2.1.3 家庭消费支出与可支配收入的一个随机样本家庭消费支出与可支配收入的一个随机样本 X 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 Y 594 638 1122 1155 1408 1595 1969 2078 2585 2530 该样本的该样本的散点图(散点图(scatter diagram)scatter diagram): 画一条直线以尽好地拟合该散点图,由于样本取自总体,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以用该直线近似地代表总体回归线。该直线称为可以用该直线近似地代表总体回归线。该直线称为
32、样本回归样本回归线(线(sample regression linessample regression lines)。 样本回归线的函数形式为:样本回归线的函数形式为:iiiXXfY10)(称为称为样本回归函数(样本回归函数(sample regression functionsample regression function,SRFSRF)。 注意:注意:这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则则样本回归函数:样本回归函数:总体回归函数:总体回归函数:(随机形式)(随机形式)2 2、样本回归模型、样本回归模型 样本回归函数的随机形式:样本回归函数的随机形式:iiii
33、ieXYY10式中,ie称为(样样本本)残残差差(或剩剩余余)项项(residual) ,代表了其他影响iY的随机因素的集合,可看成是i的估计量i。 由于方程中引入了随机项,成为计量经济模型,因此也由于方程中引入了随机项,成为计量经济模型,因此也称为称为样本回归模型样本回归模型(sample regression modelsample regression model)。 回归分析的主要目的:回归分析的主要目的:根据样本回归函数根据样本回归函数SRF,估计总体回归函数估计总体回归函数PRF。iiiiieXeYY10iiiiiXXYEY10)|(2.2 2.2 一元线性回归模型的基本假设一元线
34、性回归模型的基本假设(Assumptions of Simple Linear Regression Model) 一、关于模型设定的假设一、关于模型设定的假设 二、关于解释变量的假设二、关于解释变量的假设 三、关于随机项的假设三、关于随机项的假设 提出问题提出问题 一元线性回归模型是线性模型的一种,它的数学基础是一元线性回归模型是线性模型的一种,它的数学基础是回归分析,即用回归分析方法建立的线性模型,用以揭回归分析,即用回归分析方法建立的线性模型,用以揭示经济现象中的因果关系。回归分析的主要目的是通过示经济现象中的因果关系。回归分析的主要目的是通过样本回归函数(模型)尽可能准确地估计总体回归
35、函数样本回归函数(模型)尽可能准确地估计总体回归函数(模型)。为(模型)。为保证参数估计量具有良好的性质保证参数估计量具有良好的性质,通常对,通常对模型提出若干基本假设。模型提出若干基本假设。 说明:说明: 为保证参数估计量具有良好的性质,通常对模型为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。提出若干基本假设。 实际上这些假设与所采用的估计方法紧密相关。实际上这些假设与所采用的估计方法紧密相关。 下面的假设主要是针对采用下面的假设主要是针对采用普通最小二乘法普通最小二乘法(Ordinary Least Squares, OLSOrdinary Least Squares, OL
36、S)估计而提出的。估计而提出的。所以,在有些教科书中称为所以,在有些教科书中称为“The Assumption The Assumption Underlying the Method of Least Squares”Underlying the Method of Least Squares”。 在不同的教科书上关于基本假设的陈述略有不同,在不同的教科书上关于基本假设的陈述略有不同,下面进行了重新归纳。下面进行了重新归纳。1 1、对模型设定的假设、对模型设定的假设 假设假设1 1:回归模型是正确设定的。回归模型是正确设定的。 (1 1)模型选择了正确的变量)模型选择了正确的变量 (2 2)
37、模型选择了正确的函数形式。)模型选择了正确的函数形式。 当假设当假设1 1满足时,称为模型没有设定偏误满足时,称为模型没有设定偏误(specification errorspecification error), ,否则会出现模型的设定否则会出现模型的设定偏误。教材第五章将详细讨论模型的设定偏误偏误。教材第五章将详细讨论模型的设定偏误问题。问题。2 2、对解释变量的假设、对解释变量的假设 假设假设2 2:解释变量解释变量X X是确定性变量,不是随机变量,在重是确定性变量,不是随机变量,在重复抽样中取固定值。复抽样中取固定值。 假设假设3 3:解释变量解释变量X X在所抽取的样本中具有变异性,而
38、且在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量随着样本容量的无限增加,解释变量X X的样本方差趋于一的样本方差趋于一个非零的有限常数,即个非零的有限常数,即 对样本方差的极限为非零的有限常数的假设,旨在排除对样本方差的极限为非零的有限常数的假设,旨在排除实际序列数据出现持续上升或下降的变量作为解释变量,实际序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往因为这类数据不仅使大样本统计推断变得无效,而且往往产生所谓的伪回归问题,关于伪回归的准确含义将在往产生所谓的伪回归问题,关于伪回归的准确含义将在教材第九章中讨论。教材第九章中讨论
39、。nQnXXii,/)(2n13 3、对随机干扰项的假设、对随机干扰项的假设 假设假设4 4:随机误差项随机误差项具有给定具有给定X X条件下的零均条件下的零均值、同方差以及不序列相关性,即值、同方差以及不序列相关性,即()0,1,2,iiEXin2(),1,2,iiVarXin( ,)0, ,1,2, ,ijijCovX Xi jn ij 零均值假设意味着零均值假设意味着的期望值不随的期望值不随X X的变化而变化,且总为常数零,的变化而变化,且总为常数零,该假设表明该假设表明与与X X不存在任何形式的相关性,因此该假设成立时往往不存在任何形式的相关性,因此该假设成立时往往称称X X为为外生解
40、释变量外生解释变量,否则称,否则称X X为内生解释变量。该假设最为重要,只为内生解释变量。该假设最为重要,只有该假设成立时,总体回归函数的随机形式才等价于非随机形式。有该假设成立时,总体回归函数的随机形式才等价于非随机形式。零均值:同方差:序列不相关: 假设假设5 5:随机误差项与解释变量之间不相关,随机误差项与解释变量之间不相关,即即 当随机误差项当随机误差项的条件零均值假设成立时,该的条件零均值假设成立时,该假设一定成立,因为可以进行一下推导:假设一定成立,因为可以进行一下推导: 因此,假设因此,假设5 5并非是必需的,但由于其在回归并非是必需的,但由于其在回归分析的模型参数估计中扮演重要
41、的角色,因此分析的模型参数估计中扮演重要的角色,因此这里仍将其独立列出。这里仍将其独立列出。3 3、对随机干扰项的假设、对随机干扰项的假设0),(CoviiX0)()()()(E),(CoviiiiiiiiXEEXEXX 假设假设6 6:随机误差项服从零均值、同方差的正态:随机误差项服从零均值、同方差的正态分布,即分布,即 假设假设6 6是为通过样本回归函数推断总体回归函数的需要而提出的,尤是为通过样本回归函数推断总体回归函数的需要而提出的,尤其是在小样本下,该假设显得十分重要。在大样本情况下,正态性其是在小样本下,该假设显得十分重要。在大样本情况下,正态性假设可以放松,因为根据中心极限定理,
42、当样本容量趋于无穷大时,假设可以放松,因为根据中心极限定理,当样本容量趋于无穷大时,在大多数情况下,随机误差项的分布会越来越接近正态分布。在大多数情况下,随机误差项的分布会越来越接近正态分布。以上假设称为线性回归模型的以上假设称为线性回归模型的经典假设经典假设,满足该假设的线性回归模,满足该假设的线性回归模型,也称为型,也称为经典线性回归模型(经典线性回归模型(Classical Linear Regression Model, CLRM),),前前4 4个假设称为个假设称为高斯高斯- -马尔克夫(马尔克夫(Gauss-Markov)假设假设。3 3、对随机干扰项的假设、对随机干扰项的假设22
43、(0,)(0,)iiNNID2.3 2.3 一元线性回归模型的参数估计一元线性回归模型的参数估计(Estimation of Simple Linear Regression Model) 一、参数的普通最小二乘估计(一、参数的普通最小二乘估计(OLSOLS) 二、参数估计的最大或然法二、参数估计的最大或然法(ML) (ML) 三、最小二乘估计量的性质三、最小二乘估计量的性质 四、参数估计量的概率分布及随机干四、参数估计量的概率分布及随机干 扰项方差的估计扰项方差的估计 一、参数的普通最小二乘估计(一、参数的普通最小二乘估计(OLSOLS)最小二乘原理最小二乘原理 普通最小二乘法要求样本回归函
44、数尽可能好地拟合样普通最小二乘法要求样本回归函数尽可能好地拟合样本观测值,即样本回归线上的点本观测值,即样本回归线上的点 与真实观测点与真实观测点 的的“总体误差总体误差”尽可能地小。因此,普通最小二乘法给尽可能地小。因此,普通最小二乘法给出的出的判断标准判断标准是:被解释变量的估计值与实际观测值是:被解释变量的估计值与实际观测值之差的平方和最小,即之差的平方和最小,即220111()()nniiiiMinQYYYX 为什么取平方和?为什么取平方和?iYiY对于一元线性回归模型对于一元线性回归模型01iiiYX12in, , ,01()iiiiieYYYX最小二乘参数估计就是要求使最小二乘参数
45、估计就是要求使2011()niiiYX(2-3-1)01、01、达到最小的参数达到最小的参数的估计的估计。OLSOLS估计步骤估计步骤根据微积分中求极限的原理,要使式根据微积分中求极限的原理,要使式(2-13)达到最小,)达到最小,式式(2-13)对对01、 的一阶偏导数应等于的一阶偏导数应等于0 0,即,即(2-3-2)0110112()02()0niiiniiiiYXX YX整理得整理得011120111100nniiiinnniiiiiiinXYXXX Y (2-3-3) 解得解得211110221111112211()()nnnniiiiiiiiinniiiinnniiiiiiinni
46、iiiXYXX YnXXnX YXYnXX(2-3-4)这就是参数这就是参数01、的的普通最小二乘估普通最小二乘估计量计量(ordinary least squares estimators)方程组(方程组(2-3-2)或()或(2-3-3)称为)称为正规方程组正规方程组。 iixXXiiyYY记记、,由于由于222211111()()nnnniiiiiiiixXXXXn111111()()nnnnniiiiiiiiiiiiix yXX YYX YXYn 式(式(2-3-4)可改写为)可改写为011121niiiniiYXx yx 称为参数称为参数01、的的普通最小二乘估普通最小二乘估计量的离
47、差形式计量的离差形式(deviation form)(2-3-5) 分布参数的普通最小二乘估计量分布参数的普通最小二乘估计量222nei 这里需要明确两个概念这里需要明确两个概念估计量估计量(estimator)、)、估计估计值值(estimate)。)。 如果把参数估计结果看成参数估计的一个表达式,那么,如果把参数估计结果看成参数估计的一个表达式,那么,则是则是Y Yi i的函数,而的函数,而Y Yi i是随机变量,所以参数估计也是随机是随机变量,所以参数估计也是随机变量,在这个角度上,称之为变量,在这个角度上,称之为“估计量估计量”。 如果给出的参数估计结果是由一个具体样本资料计算出如果给
48、出的参数估计结果是由一个具体样本资料计算出来的,它是一个来的,它是一个“估计值估计值”,或者,或者“点估计点估计”,是参数,是参数估计量的一个具体数值;估计量的一个具体数值; 二、参数估计的最大似然法二、参数估计的最大似然法(ML)(ML)1 1、最大似然法、最大似然法 最大似然法最大似然法( (Maximum Likelihood,ML),也称,也称最大或最大或然法然法,是不同于最小二乘法的另一种参数估计方法,是不同于最小二乘法的另一种参数估计方法,是从最大似然原理出发发展起来的其它估计方法的基是从最大似然原理出发发展起来的其它估计方法的基础。础。 对于对于OLS,当从模型总体随机抽取,当从
49、模型总体随机抽取n组样本观测值后,组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本最合理的参数估计量应该使得模型能最好地拟合样本数据;数据; 基本原理:基本原理:当从模型总体随机抽取当从模型总体随机抽取n组样本观测值组样本观测值后,最合理的参数估计量应该使得从模型中抽取该后,最合理的参数估计量应该使得从模型中抽取该n组组样本观测值的概率最大。样本观测值的概率最大。 ML必须已知随机项的分布。必须已知随机项的分布。基本思想基本思想 使从模型中取得样本观察数据的概率最大使从模型中取得样本观察数据的概率最大 对于一元线性回归模型对于一元线性回归模型01iiiYX若满足基本假设,则若满足
50、基本假设,则2(0,) 1,2,iNin012ijCovijijn( ,) , , ,且且X为确定性变量,有为确定性变量,有201(,) 1,2,iiYNXin且且012ijCov YYijijn( , ) , , ,2 2、估计步骤、估计步骤12 nYYY、的联合概率密度函数是的联合概率密度函数是20121121212 1 ()niiinnYXnf YYYf Yf Yf Ye()2(, ) ()( )( )2(2-3-6) 12 nYYY、201 、 对一组确定的样本,对一组确定的样本, 的联合概率密度函数是关于的联合概率密度函数是关于的函数,称为的函数,称为似然函数似然函数。01 、201
51、21121maxniiiYXne()22 参数参数 的估计结果要使得到的模型能以最大概率产生样本数据,的估计结果要使得到的模型能以最大概率产生样本数据, (2-3-7) 就是要使似然函数最大化,即就是要使似然函数最大化,即由于似然函数极大化等价于似然函数的对数由于似然函数极大化等价于似然函数的对数 201211ln2niiinYX2( 2)()(2-3-8)的最大化,所以,的最大化,所以,根据微积分中求极限的原理,分别求式(根据微积分中求极限的原理,分别求式(2-212-21)对)对的一阶偏导数,并令求偏导的结果等于的一阶偏导数,并令求偏导的结果等于0,可得正规方程组可得正规方程组01、012
52、101211()01()0niiiniiiiYXX YX(2-3-9)解得解得211110221111112211()()nnnniiiiiiiiinniiiinnniiiiiiinniiiiXYXX YnXXnX YXYnXX (2-3-10) 这就是参数这就是参数01、的的最大似然估计量最大似然估计量(maximum likelihood estimators)3 3、讨论、讨论 在满足一系列基本假设的情况下,模型结构参在满足一系列基本假设的情况下,模型结构参数的数的最大似然估计量最大似然估计量与与普通最小二乘估计量普通最小二乘估计量是是相同的。相同的。 但是,分布参数的估计结果不同。但是
53、,分布参数的估计结果不同。neMLi22:2:22neOLSi三、参数估计的矩法(三、参数估计的矩法(MM)(了解)(了解)四、最小二乘估计量的统计性质四、最小二乘估计量的统计性质1 1、概述、概述 当模型参数估计出后,需考虑参数估计值的精度,即当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值。一般地,由于抽样波动是否能代表总体参数的真值。一般地,由于抽样波动的存在,以及所选估计方法的不同,都会使估计的参的存在,以及所选估计方法的不同,都会使估计的参数与总体参数的真值有差距,因此考察参数估计量的数与总体参数的真值有差距,因此考察参数估计量的统计性质就成了衡量该估计量统计性
54、质就成了衡量该估计量“好坏好坏”的主要准则。的主要准则。 一个用于考察总体的估计量,可从如下几个方面一个用于考察总体的估计量,可从如下几个方面考察其优劣性:考察其优劣性:线性性线性性( (linear) ),即它是否是另一随机变量的线性函,即它是否是另一随机变量的线性函数;数;无偏性无偏性( (unbiased) ),即它的均值或期望值是否等于总,即它的均值或期望值是否等于总体的真实值;体的真实值;有效性有效性( (efficient) ),即它是否在所有线性无偏估计量,即它是否在所有线性无偏估计量中具有最小方差。中具有最小方差。 这三个准则也称作估计量的这三个准则也称作估计量的有限样本性质有
55、限样本性质或或小样本性质,小样本性质,因为一旦某估计量具有该类性质,它是不以样本的大小因为一旦某估计量具有该类性质,它是不以样本的大小而改变的。拥有这类性质的估计量称为而改变的。拥有这类性质的估计量称为最佳线性无偏估最佳线性无偏估计量(计量(best liner unbiased estimator, BLUE)。 当不满足小样本性质时,需进一步考察估计量的当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质大样本或渐近性质( (asymptotic properties) ):渐近无偏性渐近无偏性,即样本容量趋于无穷大时,是否它的均,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值
56、;值序列趋于总体真值;一致性一致性,即样本容量趋于无穷大时,它是否依概率收,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;敛于总体的真值;渐近有效性渐近有效性,即样本容量趋于无穷大时,是否它在所,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。有的一致估计量中具有最小的渐近方差。2、高斯、高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,最小二乘估计在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。量是具有最小方差的线性无偏估计量。 下面分别对最小二乘估计量的线性性、无偏性下面分别对最小二
57、乘估计量的线性性、无偏性和有效性进行证明,作为不熟悉的同学的自学和有效性进行证明,作为不熟悉的同学的自学内容。内容。2 2、无无偏偏性性,即估计量0、1的均值(期望)等于总体回归参数真值0与1 证证:iiiiiiiiiikXkkXkYk10101)(易知02iiixxk 1iiXk故iik111111)()()(iiiiEkkEE同样地,容易得出 0000)()()()(iiiiEwEwEE3 3、有有效效性性(最最小小方方差差性性) ,即在所有线性无偏估计量中,最小二乘估计量0、1具有最小方差。 (1)先求0与1的方差 )var()var()var()var(21021iiiiiiikXkY
58、k22222iiixxx221020)/1 ()var()var()var(iiiiiikXnXwYw2222222221121iiiiixxXkXnnkXkXnn22222222221iiiiixnXxnXnxxXn(2)证明最小方差性假设*1是其他估计方法得到的关于1的线性无偏估计量: iiYc*1其中,ci=ki+di,di为不全为零的常数则容易证明(参见计量经济学学习指南与练习))var()var(1*1同理,可证明0的最小二乘估计量0具有最的小方差 由于最小二乘估计量拥有一个由于最小二乘估计量拥有一个“好好”的估计量所应具备的估计量所应具备的小样本特性,它自然也拥有的小样本特性,它自
59、然也拥有“好好”的大样本特性的大样本特性。 )/lim()/lim()lim()lim()lim()lim(212111nxPnxPxxPPkPPiiiiiiii1110),(QQXCov五、参数估计量的概率分布及随机干五、参数估计量的概率分布及随机干扰项方差的估计扰项方差的估计1 1、参数估计量的概率分布、参数估计量的概率分布 ),(2211ixN),(22200iixnXN 为了达到对所估计参数精度测定的目的,还需进一步为了达到对所估计参数精度测定的目的,还需进一步确定参数估计量的概率分布。确定参数估计量的概率分布。2 2、随机误差项、随机误差项 的方差的方差 2 2的估计的估计 2又称为
60、又称为总体方差总体方差。 由于随机项由于随机项 i i不可观测,只能从不可观测,只能从 i i的估计的估计残残差差ei i出发,对总体方差进行估计。出发,对总体方差进行估计。 可以证明可以证明,(参见,(参见计量经济学学习指南与练习计量经济学学习指南与练习)2的最小二乘估计量最小二乘估计量为:222nei它是关于它是关于 2的无偏估计量。的无偏估计量。 在在最大或然估计法最大或然估计法中,求解似然方程:中,求解似然方程: 与与 2 2的最小二乘估计量对比可知,的最小二乘估计量对比可知, 2 2的最大的最大或然估计量不具无偏性,但却具有一致性或然估计量不具无偏性,但却具有一致性。 neXYnii
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省烟台招远市(五四制)2024-2025学年六年级上学期期中考试地理试题
- 河北省唐山市部分学校2024~2025学年高一上学期11月期中联考生物试卷
- 《驾驶室固定矩形窗》
- 福建省泉州市安溪县2024-2025学年高三上学期11月期中测评试题 物理(含解析)
- 2025届四川省泸州市泸县第五中学高三上学期一模政治试题
- 饲用原料作物相关项目投资计划书范本
- 工业涂料水性色浆相关项目投资计划书
- 儿科急症的超声诊断课件
- 教学难点及解决方案
- 青霉素过敏应急预案演练
- 诚实课件教学课件
- 2024-2025学年度第一学期期中学业质量监测
- 2024至2030年中国轻质墙板数据监测研究报告
- 河南省南阳市2023-2024学年高一上学期期中数学试题含答案
- 2024年河南省军队文职(临床医学)高频备考核心试题库(含答案详解)
- 2023年国家公务员录用考试《行测》副省级卷-解析
- 2024年银行考试-招商银行考试近5年真题附答案
- 人教版三年级上册《生命-生态-安全》全册教案(及计划)
- 食品工艺学:食品的辐射保藏
- 2024年公开招聘大社区工作人员报名表
- 2024年上海市普通高中学业水平等级性考试(物理)附试卷分析
评论
0/150
提交评论