版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1引子引子: :中国出境旅游人数中国出境旅游人数20202020年将达一亿人次年将达一亿人次? ?中新社北京中新社北京4 4月月3 3日电日电 : :从中国出境旅游交易会上获悉,中国从中国出境旅游交易会上获悉,中国每年出境游人次以每年出境游人次以25%25%的速度持续增长,预计到的速度持续增长,预计到20202020年将达年将达一亿人次。如今中国是世界上旅游消费第二高的国家,在出一亿人次。如今中国是世界上旅游消费第二高的国家,在出国旅游的人群中,中国人平均每人每天的消费达国旅游的人群中,中国人平均每人每天的消费达175175美元。美元。另据报道另据报道: :到到20202020年,中国旅游业总
2、收入将超过年,中国旅游业总收入将超过30003000亿美亿美元,相当于国内生产总值的元,相当于国内生产总值的8%8%至至11%11%。(国际金融报2004年11月25日) (参考现状:第一产业占(参考现状:第一产业占GDP15%,建筑业占,建筑业占GDP7%)什么决定性因素能使中国出境旅游达一亿人次什么决定性因素能使中国出境旅游达一亿人次?旅游业的发展与这种决定性因素的数量关系究竟是什么?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游业发展与这种决定性因素的数量关系怎样具体测定旅游业发展与这种决定性因素的数量关系?2 显然,对旅游起决定性影响作用的是中国居民的收入显然,对旅
3、游起决定性影响作用的是中国居民的收入水平水平. . “出境旅游人次出境旅游人次”或或“旅游业总收入旅游业总收入”(Y Y)与)与“居民居民平均收入平均收入”(X X)有怎样的数量关系呢?)有怎样的数量关系呢? 能否用某种线性或非线性关系式能否用某种线性或非线性关系式 Y= f ( X ) Y= f ( X ) 去表现这去表现这 种数量关系呢种数量关系呢? ?怎样去表现呢怎样去表现呢? ?具体分析变量间这样的数量关系将涉及哪些理论和方具体分析变量间这样的数量关系将涉及哪些理论和方法呢法呢? ?需要研究经济变量之间数量关系的方法需要研究经济变量之间数量关系的方法为了不使问题复杂化为了不使问题复杂化
4、, , 先从在某些标准的先从在某些标准的( (或古典或古典) )假假定条件下的最简单的模型去讨论定条件下的最简单的模型去讨论为什么先讨论古典假定下的模型为什么先讨论古典假定下的模型? ?比喻:比喻:学习经济学时学习经济学时, ,总先熟悉总先熟悉“完全竞争理论完全竞争理论”,然,然后再接触后再接触“垄断和寡头等非完全竞争理论垄断和寡头等非完全竞争理论”。但。但是是, ,并不是说并不是说“完全竞争理论完全竞争理论”就总是真实的。就总是真实的。4研究方式:研究方式:由简单到复杂由简单到复杂 !在简单的情况下某些复杂的理论问!在简单的情况下某些复杂的理论问题才更容易被阐述,也才最容易被接受,所以从最题
5、才更容易被阐述,也才最容易被接受,所以从最简单的情况入手。简单的情况入手。 一、简单线性回归模型一、简单线性回归模型在计量经济模型中,只有两个变量的线性回归模型最简单,在计量经济模型中,只有两个变量的线性回归模型最简单,称为简单线性回归模型。简单线性回归原理也最直观。称为简单线性回归模型。简单线性回归原理也最直观。本讲先讨论本讲先讨论 简单线性回归模型的研究方式,然后拓展到多简单线性回归模型的研究方式,然后拓展到多元的情况。元的情况。主要讨论主要讨论: 回归分析的基本概念回归分析的基本概念 线性回归模型参数的估计线性回归模型参数的估计 参数的区间估计和假设检验参数的区间估计和假设检验 回归方程
6、的拟合优度回归方程的拟合优度 回归模型预测回归模型预测6 (一)一) 回归分析与回归函数回归分析与回归函数 相关分析与回归分析 (对统计学的回顾)(对统计学的回顾)1 1、经济变量间的相互关系、经济变量间的相互关系 性质上可分为性质上可分为 确定性的函数关系确定性的函数关系 Y=f (X) 用数学方法计算用数学方法计算 不确定性的统计关系不确定性的统计关系相关关系相关关系 Y= f(X)+ (为随机变量为随机变量) 用统计方法分析用统计方法分析 没有关系没有关系 不用分析不用分析 2、相关关系 相关关系的描述相关关系的描述 最直观的描述方式最直观的描述方式坐标图(散布图、散点图)坐标图(散布图
7、、散点图) 7函数关系函数关系相关关系相关关系(线性线性)没有关系没有关系相关关系相关关系(非线性非线性)8 8 相关关系的类型类型 从涉及的变量数量看从涉及的变量数量看 简单相关简单相关 多重相关(复相关)多重相关(复相关) 从变量相关关系的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线 从变量相关关系变化的方向看从变量相关关系变化的方向看 正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减 负相关负相关变量反方向变化,一增一减变量反方向变化,一增一减 不相关不相关9 3、相关程度
8、的度量相关系数 如果如果 和和 总体的全部数据都已知,总体的全部数据都已知, 和和 的方差和的方差和协方差也已知,则协方差也已知,则 X和和Y的的总体线性相关系数总体线性相关系数: 其中:其中: -X 的方差的方差 -Y的方差的方差 -X和和Y的协方差的协方差总体相关系数总体相关系数 反映了总体两个变量反映了总体两个变量 和和 的线性相关程度,的线性相关程度,对于特定的总体来说,对于特定的总体来说, 和和 的数值是既定的,总体相关系的数值是既定的,总体相关系数数 是客观存在的特定数值。然而,总体的两个变量是客观存在的特定数值。然而,总体的两个变量 和和的全部数值通常不可能直接观测,所以总体相关
9、系数一般的全部数值通常不可能直接观测,所以总体相关系数一般是未知的。是未知的。 (, )()( )Cov X YVar X Var Y(, )Cov X Y()Var X( )Var YXXXXYYYYYX10X和和Y的的样本线性相关系数样本线性相关系数:如果只知道如果只知道 X 和和 Y 的样本观测值,则的样本观测值,则X和和Y的的样本线性样本线性相关系数为:相关系数为: 其中:其中: 和和 分别是变量分别是变量X和和Y的样本观测值,的样本观测值, 和和 分别是变量分别是变量 X 和和Y 样本值的平均值样本值的平均值注意注意: 是随抽样而变动的随机变量。是随抽样而变动的随机变量。iY_X_Y
10、_22()()()()iiXYiiXXYYrXXYYiXXYr对相关系数的正确理解和使用对相关系数的正确理解和使用 X X和和Y Y 都是相互都是相互对称对称的随机变量,的随机变量, 线性相关系数只反映变量间的线性相关系数只反映变量间的线性相关线性相关程度,不能说明程度,不能说明非线性相关关系非线性相关关系 样本相关系数是总体相关系数的样本估计值,由于样本相关系数是总体相关系数的样本估计值,由于抽样抽样波动波动,样本相关系数是随抽样而变动的,样本相关系数是随抽样而变动的随机变量随机变量,其统计显,其统计显著性有待检验著性有待检验 相关系数只能反映变量间线性相关程度,相关系数只能反映变量间线性相
11、关程度,不能确定变量不能确定变量间的因果关系间的因果关系,也不能说明相关关系具体接近哪条直线。,也不能说明相关关系具体接近哪条直线。 只作变量间的相关分析还不能达到经济计量分析的目的。只作变量间的相关分析还不能达到经济计量分析的目的。 计量经济学关心的问题:计量经济学关心的问题:是是经济变量间的因果关系及隐经济变量间的因果关系及隐藏在随机性后面的具体统计规律性,在这方面回归分析方法藏在随机性后面的具体统计规律性,在这方面回归分析方法可以发挥更加重要的作用。可以发挥更加重要的作用。11XYYXrr124 4、回归分析、回归分析回归的古典意义古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念
12、 ( ( 父母身高与子女身高的关系父母身高与子女身高的关系) )子女的身高有向人的平均身高子女的身高有向人的平均身高 回归回归 的趋势的趋势回归的现代意义现代意义:一个被解释变量对若干个一个被解释变量对若干个解释变量依存关系的研究解释变量依存关系的研究回归的目的目的(实质实质):由固定的解释变量去估计由固定的解释变量去估计被解释变量的平均值被解释变量的平均值13(1)注意明确几个概念)注意明确几个概念(为深刻理解“回归”) 被解释变量被解释变量Y的的条件分布和条件概率条件分布和条件概率: 当解释变量当解释变量X取某固定值时(条件),取某固定值时(条件),Y的值不确定,的值不确定,Y的不同取值形
13、成一定的分布,这是的不同取值形成一定的分布,这是Y的的条件分布条件分布。 X取某取某固定值时,固定值时,Y取不同值的概率称为取不同值的概率称为条件概率条件概率。 被解释变量被解释变量Y的的条件期望条件期望: 对于对于X 的每一个取值,的每一个取值, 对对Y所形成的分布确所形成的分布确 定其期望或均值,称定其期望或均值,称 为为Y的的条件期望或条件均条件期望或条件均 值值用用 表示。表示。 注意注意:Y:Y的条件期望是随的条件期望是随X X的变动而变动的的变动而变动的 iX)(iXYE)(iXYEYX14回归线回归线:对于每一个:对于每一个X的取值的取值 ,都有,都有Y的条件期望的条件期望 与之
14、对应,代表与之对应,代表Y的条件期望的点的轨迹形成的条件期望的点的轨迹形成的直线或曲线称为回归线。的直线或曲线称为回归线。回归函数回归函数:被解释变量:被解释变量Y的条件期望的条件期望 随随解释变量解释变量X的变化而有规律的变化而有规律的变化,如果把的变化,如果把Y的条件期的条件期望表现为望表现为X的某种函数的某种函数 ,这个函数称为回归函数。这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数回归函数分为:总体回归函数和样本回归函数 iXX YiX()iE Y X()iE Y X()iE Y XE()()iiY Xf X15每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X
15、X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每每960121013101432183510682319248828563201月月125913401520188520662321258729003288家家132414001615194321852365265030213399庭庭144816502037221023982789
16、3064消消1489171220782289248728533142费费1538177821792313251329343274支支160018412298239825383110出出17021886231624232567 Y1900238724532610201224982487271025892586900115014001650190021502400265029003150E()iY X举例举例: 假如已知由假如已知由100100个家庭构成的总体的数据个家庭构成的总体的数据 (单位单位:元元)(2)总体回归函数)总体回归函数(PRF)16家庭消费支出的条件期望与家庭收入的关系的图形家
17、庭消费支出的条件期望与家庭收入的关系的图形:对于本例的总体,家庭消费支出的条件期望对于本例的总体,家庭消费支出的条件期望与家庭收入与家庭收入 基本是线性关系基本是线性关系, , 可以把家庭消费可以把家庭消费支出的条件均值表示为家庭收入的线性函数:支出的条件均值表示为家庭收入的线性函数:iiXXYE)()(iXYE)(iXYEiXiX17 总体回归函数的概念总体回归函数的概念 前提:前提:假如已知假如已知所研究的经济现象的总体的被解释变量所研究的经济现象的总体的被解释变量Y和解释变量和解释变量X的每个观测值的每个观测值(通常这是不可能的!)(通常这是不可能的!),那,那么,可以计算出总体被解释变
18、量么,可以计算出总体被解释变量Y的条件期望的条件期望 ,并将其表现为解释变量并将其表现为解释变量X的某种函数的某种函数 这个函数称为总体回归函数(这个函数称为总体回归函数(PRF) 总体回归函数表现的是特定总体中被解释变量随解释总体回归函数表现的是特定总体中被解释变量随解释变量变动而变动的某种规律性。变量变动而变动的某种规律性。)()(iiXfXYE)(iXYE18 iuiXXY)(iXYEiY条件期望条件期望表现形式表现形式例如例如Y的条件期望的条件期望 是解是解 释变量释变量X的线性函数,可表示为:的线性函数,可表示为: 个别值个别值表现形式表现形式(随机设定形式)(随机设定形式) 对于一
19、定的对于一定的 ,Y的各个别值的各个别值 分布分布 在在 的周围,若令各个的周围,若令各个 与条件与条件 期望期望 的偏差为的偏差为 ,显然,显然 是个随机变量是个随机变量 则有则有 iYiYiX)(iXYE12()()iiiiE Y Xf XX)(iXYE)(iXYEiuiuiiiiiiXYXYEYu21)(12iiiYXu总体回归函数的表现形式总体回归函数的表现形式PRF如何理解总体回归函数如何理解总体回归函数作为总体运行的客观规律,总体回归函数是客观存在作为总体运行的客观规律,总体回归函数是客观存在的,但在的,但在实际的经济研究中总体回归函数通常是实际的经济研究中总体回归函数通常是未知未
20、知的,的,只能根据经济理论和实践经验去只能根据经济理论和实践经验去设定设定。计量经济学研究中计量经济学研究中“计量计量”的根本目的就是要寻求总体的根本目的就是要寻求总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数。我们所设定的计量模型实际就是在设定总体回归函数的具体形式。回归函数的具体形式。总体回归函数中总体回归函数中Y Y与与X X的关系可以是的关系可以是线性线性的,也可以的,也可以是是非线性非线性的。的。1920注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数就参数而言而言是是“线性线性”的的,因为只要对参数而言是线性的因为只要对参数而言是
21、线性的,都都可以用类似的方法去估计其参数,都可以归于线性回可以用类似的方法去估计其参数,都可以归于线性回归。归。iiiXXYE21)(12()lniiiE Y XXiiiXXYE21)(“线性线性”的判断的判断 (3 3)随机扰动项)随机扰动项u概念概念 在总体回归函数中,各在总体回归函数中,各 个个 的值与其条件期望的值与其条件期望 的偏差的偏差 有很重有很重要的意义。若只有要的意义。若只有 影响影响Y 与与 不应有偏差。不应有偏差。若偏差若偏差 存在,说明有其他影响因素,存在,说明有其他影响因素, 实际代表了排除在模型以外的所有因素对实际代表了排除在模型以外的所有因素对Y的影响。的影响。性
22、质性质 是其期望为是其期望为0有一定分布的随机变量有一定分布的随机变量重要性:重要性:随机扰动项的性质决定着计量经济分析结随机扰动项的性质决定着计量经济分析结 果的性质和计量经济方法的选择果的性质和计量经济方法的选择21iuiuiY)(iiXYEiuiXXY()iE Y XiYiuiY)(iiXYEXiu 引入随机扰动项引入随机扰动项 的原因的原因是是未知未知影响因素影响因素的代表的代表( (理论的模糊性理论的模糊性) ) 是是无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表( (数据欠缺数据欠缺) ) 是是众多细小影响因素众多细小影响因素的综合代表的综合代表( (非系统性影响
23、非系统性影响) ) 模型可能存在模型可能存在设定误差设定误差( (变量、函数形式的设定)变量、函数形式的设定) 模型中变量可能存在模型中变量可能存在观测误差观测误差( (变量数据不符合实际变量数据不符合实际) ) 变量可能有内在变量可能有内在随机性随机性( (人类行为的内在随机性人类行为的内在随机性) )22iu(4)样本回归函数)样本回归函数(SRF)样本回归线:样本回归线: 对于对于X的一定值,取得的一定值,取得Y 的样本观测值,可计算其条件的样本观测值,可计算其条件 均值,样本观测值条件均值的轨迹,称为样本回归线。均值,样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:样本回归函数
24、:如果把被解释变量如果把被解释变量Y的样本条件的样本条件均值均值 表示为解释变量表示为解释变量X的某种的某种函数,这个函数称为样本回归函函数,这个函数称为样本回归函数(数(SRF)。)。 23XYiYiYiXSRF24 样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为 其中:其中: 是与是与 相对应的相对应的 Y 的样本条件均值的样本条件均值 和和 分别是样本回归函数的参数分别是样本回归函数的参数 个别值(实际值)形式:个别值(实际值)形式: 被解释变量被解释变量Y的实际观测值的实际观测值 不完全等于样本条件均值不完全等于样本条件均值 ,二者之差用二者之差用 表示,表示
25、, 称为称为剩余项剩余项或或残差项残差项: 则则 或或 12iiYXiY12iYieiiieYY12iiiYXeiXie样本回归函数的函数形式样本回归函数的函数形式iY条件均值形式:条件均值形式:样本回归函数样本回归函数的特点的特点样本回归线随抽样波动而变化样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归每次抽样都能获得一个样本,就可以拟合一条样本回归线,线,(SRF不唯一不唯一) Y SRF1 SRF2 样本回归函数的函数形式样本回归函数的函数形式应与设定的总体回归函数的应与设定的总体回归函数的函数形式一致。函数形式一致。 X 样本回归线只是样本条件均值的轨迹,还
26、不是总体回归样本回归线只是样本条件均值的轨迹,还不是总体回归 线,它至多只是未知的总体回归线的近似表现。线,它至多只是未知的总体回归线的近似表现。25样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系 SRF PRF A X 26iYYiYiY()iiE Y XieiuiX对样本回归的理解对样本回归的理解 如果能够通过某种方式获得如果能够通过某种方式获得 和和 的数值,显然的数值,显然: 和和 是对总体回归函数参数是对总体回归函数参数 和和 的估计的估计 是对总体条件期望是对总体条件期望 的估计的估计 在概念上类似总体回归函数中的在概念上类似总体回归函数中的 ,可视,可视 为对为
27、对 的估计。的估计。27对比:对比: 总体回归函数总体回归函数 样本回归函数样本回归函数12iYieiuiu12()iiE Y X1212()iiiE Y XX12iiiYXu12iiYX12iiiYXe28 目的: 计量经济分析的目标是寻求总体回归函数计量经济分析的目标是寻求总体回归函数。即用样本即用样本回归函数回归函数SRF去估计总体回归函数去估计总体回归函数PRF。 由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF 总会总会过高或过低估计过高或过低估计PRF。要解决的问题:要解决的问题: 寻求一种规则和方法,使其得到的寻求一种规则和方法,使其得到的SRF的参数的
28、参数 和和 尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数 和和 的真实值。的真实值。这样的这样的“规则和方法规则和方法”有多种,最常用的是最小二乘法有多种,最常用的是最小二乘法11212回归分析的目的回归分析的目的(二)(二) 简单线性回归模型的最小二乘估计简单线性回归模型的最小二乘估计用样本去估计总体回归函数,除了样本以外,针对特定的用样本去估计总体回归函数,除了样本以外,针对特定的估计方法,还需要有一些前提条件估计方法,还需要有一些前提条件假定条件假定条件 1 1、简单线性回归的基本假定简单线性回归的基本假定 为什么要作基本假定?为什么要作基本假定? 只有具备一定的假定
29、条件,所作出的估计才具有良好只有具备一定的假定条件,所作出的估计才具有良好的的统计性质统计性质。 因为模型中有随机扰动项,估计的参数是随机变量,因为模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地随机扰动的分布作出假定,才能比较方便地确定所估确定所估计参数的分布性质计参数的分布性质,也才可能进行,也才可能进行假设检验和区间估假设检验和区间估计。计。假定分为:假定分为:对模型和变量的假定对模型和变量的假定对随机扰动项的假定对随机扰动项的假定 29(1 1)对模型和变量的假定
30、)对模型和变量的假定如如 假定模型设定是正确的(变量和模型假定模型设定是正确的(变量和模型无设定误差)无设定误差)假定解释变量假定解释变量X在重复抽样中取固定值在重复抽样中取固定值。 假定解释变量假定解释变量X是非随机是非随机的,或者虽然是随机的,的,或者虽然是随机的, 但但与扰动项与扰动项u是不相关是不相关的。的。(从变量从变量X角度看角度看)有时还假定有时还假定: (通常是不言而喻的通常是不言而喻的)回归模型对参数而言是线性的回归模型对参数而言是线性的解释变量解释变量X的值有变异性的值有变异性观测次数观测次数n必须大于待估计参数个数必须大于待估计参数个数(解释变量个数解释变量个数)3012
31、iiiYXu(2 2)对随机扰动项)对随机扰动项u u的假定的假定 假定假定1 1:零均值假定零均值假定: 在给定在给定X的条件下,的条件下, 的条件期望为零的条件期望为零 假定假定2 2:同方差假定同方差假定: 在给定在给定X的条件下,的条件方差为某个常数的条件下,的条件方差为某个常数 31iu22)()(iiiiiXuEuEXuVariu()0iiE u X2 假定假定3 3:无自相关假定无自相关假定: 随机扰动项随机扰动项 的逐次值互不相关的逐次值互不相关 假定假定4 4:随机扰动随机扰动 与解释变量与解释变量 不相关不相关 (从随机扰动从随机扰动 角度看角度看) iuiuiXiu( ,
32、)( )()()0()ijiijjijCov u uE uE uuE uE uuij( ,)( )()0iiiiiiCov u XE uE uXE X233假定假定5:注意注意: :并不是参数估计的每一具体步骤都要用到所有的假定并不是参数估计的每一具体步骤都要用到所有的假定, ,但对全部假定有完整的认识但对全部假定有完整的认识, ,对学习计量经济学的原理对学习计量经济学的原理是有益的。是有益的。iuiu2( ,)iuN o在对在对 的基本假定下的基本假定下 Y Y 的分布性质的分布性质由于由于其中的其中的 和和 是非随机的,因此是非随机的,因此 的分布性质决定了的分布性质决定了 的分布性质。的
33、分布性质。 对对 的一些假定可以等价地表示为对的一些假定可以等价地表示为对 的假定:的假定: 假定假定1:零均值假定:零均值假定 假定假定2:同方差假定:同方差假定 假定假定3:无自相关假定:无自相关假定 假定假定5:正态性假定:正态性假定 34iuiiiuXY21iuiuiYiY212(,)iiYNXiiiXXYE21)(12, iX2()iiVar Y X( ,)0ijCov Y Y 2、普通最小二乘法普通最小二乘法(OLS) (rdinary Least Squaresrdinary Least Squares)(1)OLS的基本思想:的基本思想: 对于对于 不同的估计方法可以得到不同的
34、样不同的估计方法可以得到不同的样本回归参数本回归参数 和和 ,所估计的,所估计的 也就不同。也就不同。 理想的估计方法应使理想的估计方法应使 与与 的差的差(即剩余即剩余 )总总的来说越小越好的来说越小越好 因因 可正可负,总有可正可负,总有 ,所以可以取,所以可以取 最最小,即小,即在观测值在观测值Y和和X确定时,确定时, 的大小决定于的大小决定于 和和 。3512iYiYieie2ie2212minmin()iiieYXiY2ie1212iiYX0ie (2) 正规方程和估计式正规方程和估计式用克莱姆法则求解得以观测值表现的用克莱姆法则求解得以观测值表现的OLS估计式:估计式: 36212
35、2()iiiiiiiXYXX YnXX222()iiiiiinX YXYnXX取偏导数并令其为取偏导数并令其为0,得正规方程,得正规方程12212iiiiiiYnXX YXX21212122()2()0()2()0iiiiiiieYXeYXX 或或00iiiee X即即37 为表达得更简洁,或者用离差形式为表达得更简洁,或者用离差形式OLS估计式估计式: 容易证明容易证明由正规方程:由正规方程: 注意:注意:其中:其中: 本课程中大写的本课程中大写的 和和 均表示观测值;均表示观测值; 小写的小写的 和和 均表示观测值的离差均表示观测值的离差而且由而且由样本回归函数可用离差形式写为样本回归函数
36、可用离差形式写为 _12YXXXxiiYYyii用离差表现的用离差表现的OLSOLS估计式估计式iiiyxiiXY2112YXixiyiXiY_22_222()()()()iiiiiiiiiiiinX YXYXX YYx yxnXXXX (3) OLSOLS回归线的数学性质回归线的数学性质 可以证明可以证明:(见教材:(见教材P33P34证明)证明) (证明过程用到证明过程用到OLS的结论,但与基本假定无关的结论,但与基本假定无关) 回归线通过样本均值回归线通过样本均值 估计值估计值 的均值等于实的均值等于实 际观测值际观测值 的均值的均值 剩余项剩余项 的均值为零的均值为零 38ie0iee
37、nYXXYiY12YXiY12121()iiXXYYnn(由OLS第一个正规方程直接得到)(由OLS正规方程 两边同除n得到)12()0iiYX 被解释变量估计值被解释变量估计值 与剩余项与剩余项 不相关不相关 Cov(,)0iiY eiYie 解释变量解释变量 与剩余项与剩余项 不相关不相关 ieiXCov(,)0iiX e由OLS正规方程有:1Cov(, )()()0iiiiiiieX eeeXneXXX12121Cov( , )()()()()()0iiiiiii iiiiiiiY eYYeenYYeYeYeeeeeXX00iiiee X(注意注意:红色的项为红色的项为0)(4 4)OL
38、SOLS估计式的统计性质估计式的统计性质参数估计式的优劣需要有评价的标准参数估计式的优劣需要有评价的标准 参数无法通过观测直接确定,只能通过样本估计,但因参数无法通过观测直接确定,只能通过样本估计,但因存在抽样波动存在抽样波动,参数估计值不一定等于总体参数的真实值参数估计值不一定等于总体参数的真实值。 参数估计方法及所确定的估计式不一定完备,不一定参数估计方法及所确定的估计式不一定完备,不一定能得到总体参数的真实值,需要对估计方法作评价与选择。能得到总体参数的真实值,需要对估计方法作评价与选择。比较不同估计方法的估计结果时,需要有一定的评价标准比较不同估计方法的估计结果时,需要有一定的评价标准
39、 基本要求:基本要求:参数估计值应尽可能地接近总体参数的真实值参数估计值应尽可能地接近总体参数的真实值估计准则:估计准则:“尽可能地接近尽可能地接近” 原则原则理论计量经济学主要讨论参数估计式是否符合一定的准则,理论计量经济学主要讨论参数估计式是否符合一定的准则,怎样才算怎样才算“尽可能地接近尽可能地接近”总体参数的真实值呢?这决定于总体参数的真实值呢?这决定于参数估计式的统计性质:无偏性、最小方差性、一致性等。参数估计式的统计性质:无偏性、最小方差性、一致性等。 4041 无偏性 前提:前提:重复抽样重复抽样中中估计方法固定估计方法固定、样本数不变样本数不变、经、经 重复抽样的观测值重复抽样
40、的观测值, ,可得一系列参数估计值可得一系列参数估计值 , ,的分布称为的分布称为 的抽样分布,其密度函数记为的抽样分布,其密度函数记为如果如果 称称 是参数是参数的无偏估计式,否则的无偏估计式,否则 则称则称 是有偏的估计,其偏倚为是有偏的估计,其偏倚为 (见图2)( )f( )E( )E( )E42 概 率 密 度 估计值 偏倚偏倚)(*E( )f)(*f图243 最小方差最小方差( (有效有效) )性性前提:前提:样本相同样本相同、用、用不同的方法不同的方法估计参数,可以找到若干估计参数,可以找到若干 个不同的估计式个不同的估计式 目标目标: 努力寻求其抽样分布具有最小方差的估计式努力寻
41、求其抽样分布具有最小方差的估计式 最小方差准则最小方差准则 (见图(见图3 3) 既是无偏的同时又具有最小方差特性的估计式,称为既是无偏的同时又具有最小方差特性的估计式,称为最佳最佳 (有效)估计式。(有效)估计式。44概概 率率 密密 度度图 3*()f( )f估计值估计值( )f 渐近性质渐近性质(大样本性质)(大样本性质)思想思想:当样本容量较小时,有时很难找到方差最小的无偏估计,当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(需要考虑样本扩大后的性质(估计方法不变估计方法不变,样本数逐步增大样本数逐步增大)一致性:一致性: 当样本容量当样本容量 n 趋于无穷
42、大时,如果估计式趋于无穷大时,如果估计式 依概率收敛于总体依概率收敛于总体参数的真实值,就称这个估计式参数的真实值,就称这个估计式 是是 的一致估计式。即的一致估计式。即 或或 (渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)估计式) (见图4)渐近有效性:渐近有效性:当样本容量当样本容量 n 趋于无穷大时,在所有的一致估计趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。式中,具有最小的渐近方差。451)(limPnP)lim(46概率密度估计值图 4100()f80( )f40()f20()f 分析OLSOLS估计式
43、的统计性质估计式的统计性质先明确几点先明确几点: :由由OLS估计式可以看出估计式可以看出 都都由可观测的样本值由可观测的样本值 和和 唯一表示。唯一表示。 因存在抽样波动,因存在抽样波动,OLS估计估计 是随机变量是随机变量 OLS估计式是估计式是点估计式点估计式 2122()iiiiiiiXYXX YnXX47iYiX222()iiiiiinX YXYnXXkk1、 线性特征线性特征 是是Y的线性函数的线性函数 2、 无偏特性无偏特性 (证明见教材证明见教材P37) 48kkE)(222()()()iiiiiiiiXXYYx yk yXXxOLSOLS估计式的统计性质估计式的统计性质高斯定
44、理高斯定理2iiixkxk12YXiiYXkY1()iiXk Yn3、 最小方差特性最小方差特性 (证明见教材证明见教材P68附录附录21) 在所有的线性无偏估计中,在所有的线性无偏估计中,OLS估计估计 具有最小方差具有最小方差(注意(注意:无偏性和最小方差性的证明中用到基本假定无偏性和最小方差性的证明中用到基本假定 1-假定假定4)结论结论(高斯定理)(高斯定理):在古典假定条件下,在古典假定条件下,OLSOLS估计式是最佳线性无偏估计估计式是最佳线性无偏估计式(式(BLUEBLUE)49k (三(三) ) 拟合优度的度量拟合优度的度量概念概念:样本回归线是对样本数据样本回归线是对样本数据
45、的一种拟合,不同的模型的一种拟合,不同的模型(如不同函数形式(如不同函数形式)或不同或不同的估计方法可以拟合出不同的估计方法可以拟合出不同的回归线,拟合的回归线与的回归线,拟合的回归线与样本观测值总是有偏离。样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度样本回归线对样本观测数据拟合的优劣程度称称为为拟合优度拟合优度如何度量拟合优度呢?如何度量拟合优度呢?拟合优度的度量建立在对拟合优度的度量建立在对Y的总变差分解的基础上的总变差分解的基础上50XY 1、总变差的分解、总变差的分解 分析分析Y的观测值的观测值 、估计值、估计值 与平均值与平均值 的关系的关系 将上式两边平方加总,可证
46、得将上式两边平方加总,可证得(提示有交叉项(提示有交叉项 ) (TSS) (ESS) (RSS) 或者或者 总变差总变差 (TSS):被解释变量:被解释变量Y的观测值与其平均值的离差平的观测值与其平均值的离差平 方和方和(总平方和)(总平方和)(说明说明 Y 的变动程度)的变动程度) 解释了的变差解释了的变差 (ESS):被解释变量:被解释变量Y的估计值与其平均值的的估计值与其平均值的 离差平方和离差平方和(回归平方和)(回归平方和) 剩余平方和剩余平方和 (RSS):被解释变量观测值与估计值之差的平方:被解释变量观测值与估计值之差的平方 和和(未解释的平方和)(未解释的平方和)51()()i
47、iiiYYYYYY222()()()iiiiYYYYYY2iy222iiiyye2ie()0iiYY e2iyiYiYY Y X 52iYYiX来自残差SRF变差分解的图示变差分解的图示()iYY 来自回归ie()iYY 变差iYiY 2、可决系数、可决系数 以以TSS同除总变差等式两边:同除总变差等式两边: 或或 定义:定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS) 在总变在总变 差(差(TSS) 中所占的比重称为可决系数,用中所占的比重称为可决系数,用 或或 表示表示: 532iy2r2iy222iyRy2221iieRy 22221iiiyyey或或2R222222()(
48、)()()()()iiiiiiiYYYYYYYYYYYY可决系数的作用可决系数的作用 可决系数越大,说明在总变差中由模型作出了解可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反释的部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合之可决系数越小,说明模型对样本观测值的拟合程度越差。程度越差。 可决系数的特点可决系数的特点: 可决系数取值范围:可决系数取值范围: 随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样而变是随抽样而变 动的随机变量动的随机变量 可决系数是非负的统计量可决系数是非负的统计量54201R2R可决系数
49、与相关系数的关系可决系数与相关系数的关系联系:联系:数值上可决系数是相关系数的平方数值上可决系数是相关系数的平方552222222222222222222222()()()()()()()iiiiiiiiiiiiiiiiiiiyxRyyxxyyx yx yxyxyrx yx可决系数与相关系数的关系可决系数与相关系数的关系区别:区别: 可决系数可决系数 相关系数相关系数 就模型而言就模型而言 就两个变量而言就两个变量而言 说明解释变量对应变说明解释变量对应变 说明两变量线性依存程度说明两变量线性依存程度 量的解释程度量的解释程度 度量的不对称的因果关系度量的不对称的因果关系 度量的对称的相关关系
50、度量的对称的相关关系 取值取值 0 1 取值取值 -1r1 有非负性有非负性 可正可负可正可负562R运用可决系数时应注意:运用可决系数时应注意: 可决系数只是说明列入模型的所有解释变量对可决系数只是说明列入模型的所有解释变量对 被解释变量的被解释变量的联合联合的影响程度,不说明模型中每个解的影响程度,不说明模型中每个解 释变量的影响程度(在多元中)释变量的影响程度(在多元中) 如果回归的主要目的是经济结构分析,不能只追如果回归的主要目的是经济结构分析,不能只追 求高的可决系数,而是要得到总体回归系数可信的求高的可决系数,而是要得到总体回归系数可信的 估计量。可决系数高并不一定每个回归系数都可
51、信任。估计量。可决系数高并不一定每个回归系数都可信任。 如果研究的主要目的只是为了预测被解释变量值,如果研究的主要目的只是为了预测被解释变量值, 不是为了正确估计回归系数,一般可考虑有较高的可不是为了正确估计回归系数,一般可考虑有较高的可 决系数。决系数。57(四(四) ) 回归系数的区间估计和假设检验回归系数的区间估计和假设检验为什么要作区间估计?为什么要作区间估计? OLS估计只是通过样本得到的点估计,不一定等估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并说于真实参数,还需要找到真实参数的可能范围,并说明其可靠性明其可靠性为什么要作假设检验?为什么要作假
52、设检验?OLS 估计只是用样本估计的结果,是否可靠?估计只是用样本估计的结果,是否可靠? 是否抽样的偶然结果?还有待统计检验。是否抽样的偶然结果?还有待统计检验。区间估计和假设检验都是建立在确定参数估区间估计和假设检验都是建立在确定参数估计值计值 概率分布性质的基础上。概率分布性质的基础上。k59 1 1、OLSOLS估计的分布性质估计的分布性质 基本思想基本思想 是随机变量,必须确定其分布性质才可能进行区是随机变量,必须确定其分布性质才可能进行区间估计和假设检验间估计和假设检验 怎样确定怎样确定 的分布性质呢的分布性质呢? 是服从正态分布的随机变量,决定了是服从正态分布的随机变量,决定了 也
53、是服从正也是服从正态分布的随机变量,态分布的随机变量, 是是 的线性函数,决定了的线性函数,决定了 也是服从正态分布的随机变量也是服从正态分布的随机变量 正态正态 正态正态 正态正态 只要确定只要确定 的期望和方差,即可确定的期望和方差,即可确定 的分布性质的分布性质 kkiuiYiYiuiYkkkkk60 的期望:的期望: (已证明是无偏估计)已证明是无偏估计) 的方差和标准误差的方差和标准误差 (证明见证明见P38,要求看懂!要求看懂!) (标准误差是方差的平方根标准误差是方差的平方根) 注意:注意:以上各式中以上各式中 未知但是个常数,其余均是已知的未知但是个常数,其余均是已知的样本观测
54、值,这时样本观测值,这时 和和 都不是随机变量。都不是随机变量。 ()kkE22()iSEx 的期望和方差222()iVarx2212()iiXVarnx212SE()iiXnx2kkk)(kVar)(kSE61 基本思想:基本思想: 是是 的方差,而的方差,而 不能直接观测,只能从由样本得不能直接观测,只能从由样本得到的到的 去获得有关去获得有关 的某些信息,去对的某些信息,去对 作出估计。作出估计。 可以证明可以证明(见附录(见附录2.2)其无偏估计为其无偏估计为 (n-2为自由度为自由度, 即可自由变化的样本观测值个数即可自由变化的样本观测值个数)注意区别:注意区别: 是未知的确定的常数
55、;是未知的确定的常数; 是由样本信息估计的,是个随机变量是由样本信息估计的,是个随机变量2222nei对随机扰动项方差对随机扰动项方差 的估计的估计iuiuiuie222222()E22()(2)iEen62对对 作标准化变换作标准化变换为什么要对为什么要对 作标准化变换作标准化变换?在在 正态性假定下,由前面的分析已知正态性假定下,由前面的分析已知但在对一般正态变量但在对一般正态变量 作实际分析时,要具体确定作实际分析时,要具体确定 的取值及对应的概率,要通过正态分布密度函数去的取值及对应的概率,要通过正态分布密度函数去计算是很麻烦的,为了便于直接利用计算是很麻烦的,为了便于直接利用“标准化
56、正态分标准化正态分布的临界值布的临界值”,需要对,需要对 作标准化变换。作标准化变换。标准化的方式:标准化的方式:kkkkk()()kkkkEzSEiu)(,kkkVarN22()21()2xfxe221( )2zze63在在 已知时已知时对对 作标准化变换,所得作标准化变换,所得Z统计量为标统计量为标准正态变量。准正态变量。11111212(0,1)()iizNSEXnx2222222(0,1)()izNSEx (1 1) 已知时,对已知时,对 作标准化变换作标准化变换k注意注意:这时这时 和和 都不是随机变量都不是随机变量(X、 、 都是非随机的)都是非随机的))(2SE)(1SE2k2n
57、64条件:条件: 当当 未知时未知时,可用,可用 (随机变量)代替(随机变量)代替 去估计去估计参数的标准误差参数的标准误差。这时参数估计的标准误差是个这时参数估计的标准误差是个随机变量。随机变量。 样本为大样本时样本为大样本时, ,作标准化变换所得的统计量作标准化变换所得的统计量Z Zk k,也可以也可以 视为标准正态变量视为标准正态变量(根据中心极限定理)。(根据中心极限定理)。 样本为小样本时样本为小样本时, 用估计的参数标准误差对用估计的参数标准误差对 作标准化变换,所得的统作标准化变换,所得的统 计量用计量用t表示,这时表示,这时t将不再服从正态分布,而是服从将不再服从正态分布,而是
58、服从 t 分布分布(注意这时分母是随机变量) : 22 (2)()kkktt nSE(2 2) 未知时,对未知时,对 作标准化变换作标准化变换k2k2 2、回归系数的区间估计基本思想基本思想: 对参数作出的点估计是随机变量,虽然是无偏估对参数作出的点估计是随机变量,虽然是无偏估计,但还不能说明这种估计的可靠性和精确性。计,但还不能说明这种估计的可靠性和精确性。 需要找到包含真实参数的一个范围,并确定这样需要找到包含真实参数的一个范围,并确定这样的范围包含参数真实值的可靠程度的范围包含参数真实值的可靠程度。方法:方法:如果在确定参数估计式概率分布性质的基础上,可如果在确定参数估计式概率分布性质的
59、基础上,可 找到两个正数找到两个正数和和 ,能使得,能使得 这样的区间包含真实这样的区间包含真实 的概率为的概率为 ,即,即 这样的区间称为所估计参数的置信区间。这样的区间称为所估计参数的置信区间。 讨论:讨论:“如果已经得出了如果已经得出了 的特定估计值的特定估计值, ,并确定了某个置信区间,这说并确定了某个置信区间,这说明真实参数落入这个区间的概率为明真实参数落入这个区间的概率为1- 1- 。这种说法对吗。这种说法对吗? ?65),(kkk) 10(1k1)(kkkP怎样正确理解置信区间怎样正确理解置信区间?注意:注意: 是未知但是未知但确定确定的数,的数, 是随抽样而是随抽样而变化的变化
60、的随机区间随机区间。 从重复抽样的观点看,每次抽样都可构造一个区间,象这从重复抽样的观点看,每次抽样都可构造一个区间,象这样构造的区间,平均来说有(样构造的区间,平均来说有( )比例的次数包含)比例的次数包含 的真实值。的真实值。但对特定样本但对特定样本,一但估计出特定的,一但估计出特定的 ,区间,区间 就不再是随机的,而是特定的,这时它或者就不再是随机的,而是特定的,这时它或者包含包含 (包含的概率为(包含的概率为1),或者不包含),或者不包含 (包含的概率(包含的概率为为0)。 kkk(,)kk (,)kk k1kk问题:问题: 是给定的,如何去寻找合适的是给定的,如何去寻找合适的 呢呢?
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年全新药品采购与销售协议范本
- 食品配送员工培训与管理方案
- 酒店厨房虫害防控方案
- 医疗行业宣传物料设计方案
- 绿色环保网络营销合同
- 文化艺术项目合作协议
- 城市公共设施库房管理方案
- 租用商铺合同样本
- 2024城市老旧水电线路改造协议
- 产品代理经销合同
- 六年级上册数学期中试卷及答案
- 社区护理学(山东联盟)知到章节答案智慧树2023年山东第一医科大学
- 六年级写自己典型事例300字范文(6篇)
- 《马克思主义基本原理》绪论 马克思主义基本原理概论
- 2023年高考作文素材积累:欲得千里驹需搭青云梯、纵浪大化中淡定且从容、因时而变奔赴山海
- 《Python少儿编程》PPT课件(共11章)第二章 Python 编程基础
- 外研版九年级英语上册单元测试卷
- 九年级沪教版 Unit5 Reading Skiing An Unforgettable Experience公开课学案
- DB11T 1763-2020干线公路附属设施用地标准
- 百万英镑英语台词
- 配电箱巡视检查记录表
评论
0/150
提交评论