经典线性回归模型_第1页
经典线性回归模型_第2页
经典线性回归模型_第3页
经典线性回归模型_第4页
经典线性回归模型_第5页
已阅读5页,还剩195页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章第二章 经典线性回归模型:经典线性回归模型:双变量线性回归模型双变量线性回归模型 v回归分析概述回归分析概述 v双变量线性回归模型的参数估计双变量线性回归模型的参数估计 v双变量线性回归模型的假设检验双变量线性回归模型的假设检验v双变量线性回归模型的预测双变量线性回归模型的预测v实例实例 从从2004中国国际旅游交易会上获悉,到中国国际旅游交易会上获悉,到2020年,中国旅游年,中国旅游业总收入将超过业总收入将超过3000亿美元,相当于国内生产总值的亿美元,相当于国内生产总值的8%至至11%。(资料来源:国际金融报。(资料来源:国际金融报2004年年11月月25日第二版)日第二版)是什么

2、决定性的因素能使中国旅游业总收入到是什么决定性的因素能使中国旅游业总收入到2020年达到年达到3000亿美元?亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游业发展与这种决定性因素的数量关系怎样具体测定旅游业发展与这种决定性因素的数量关系?引子引子: 中国旅游业总收入将超过中国旅游业总收入将超过30003000亿美亿美元吗?元吗? 1. 经济变量间的相互关系经济变量间的相互关系 确定性的函数关系确定性的函数关系 不确定性的统计关系不确定性的统计关系相关关系相关关系 (为随机变量为随机变量) 没有关系没有关系 一、回归与

3、相关一、回归与相关 (对统计学的回顾)(对统计学的回顾)()Yf X()Yf X2.2.相关关系相关关系 相关关系的描述相关关系的描述 相关关系最直观的描述方式相关关系最直观的描述方式坐标图坐标图(散布图)散布图) YX相关关系的类型相关关系的类型 从涉及的变量数量看从涉及的变量数量看 简单相关简单相关 多重相关(复相关)多重相关(复相关) 从变量相关关系的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线 从变量相关关系变化的方向看从变量相关关系变化的方向看 正相关正相关变量同方向变化,同增同减

4、变量同方向变化,同增同减 负相关负相关变量反方向变化,一增一减变量反方向变化,一增一减 不相关不相关 3.3.相关程度的度量相关程度的度量相关系数相关系数 总体线性相关系数总体线性相关系数: 其中:其中: X 的方差;的方差; Y的方差的方差 X和和Y的协方差的协方差样本线性相关系数样本线性相关系数: 其中:其中: 和和 分别是变量分别是变量 和和 的样本观测值的样本观测值 和和 分别是变量分别是变量 和和 样本值的平均值样本值的平均值Cov(,)Var()Var()X YXYVar()XVar( )YCov(, )X Y_22()()()()iiXYiiXXYYXXYY_YiXiYXXYXY

5、图图3 r = 0.92 图图4 r = 0.99 散点图与相关系数散点图与相关系数 值的对应关系值的对应关系 和和 都是相互对称的随机变量都是相互对称的随机变量 线性线性相关系数只反映变量间的线性相关程度,不相关系数只反映变量间的线性相关程度,不 能说明非能说明非 线性相关关系线性相关关系 样本相关系数是总体相关系数的样本估计值,由样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验计显著性有待检验 相关系数只能反映线性相关程度,不能确定因果相关系数只能反映线性相关程度,不能确定因果 关系,不能说明

6、相关关系具体接近哪条直线关系,不能说明相关关系具体接近哪条直线 计量经济学关心:计量经济学关心:变量间的因果关系及隐藏在随变量间的因果关系及隐藏在随机性后面的统计规律性,这有赖于回归分析方法机性后面的统计规律性,这有赖于回归分析方法 使用相关系数时应注意使用相关系数时应注意XY4. 4. 回归分析回归分析回归的回归的古典意义古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系父母身高与子女身高的关系)回归的回归的现代意义现代意义: 一个应变量对若干解释变量一个应变量对若干解释变量 依存关系依存关系 的研究的研究回归的回归的目的(实质)目的(实质): 由固定的解

7、释变量去由固定的解释变量去 估计应变量的平均值估计应变量的平均值 的的条件分布条件分布 当解释变量当解释变量 取某固定值时(条件),取某固定值时(条件), 的值不的值不确定,确定, 的不同取值形成一定的分布,即的不同取值形成一定的分布,即 的条的条件分布。件分布。 的的条件期望条件期望 对于对于 的每一个取值,的每一个取值, 对对 所形成的分布确所形成的分布确 定其期望或均值,称定其期望或均值,称 为为 的条件期望或条的条件期望或条 件均值件均值 注意几个概念注意几个概念iXXYYYYYYYXYXE()iY X iXYX回归线回归线: 对于每一个对于每一个 的取值,的取值, 都有都有 的条件期

8、望的条件期望 与之对应,与之对应, 代表这些代表这些 的条件期的条件期 望的点的轨迹所形成望的点的轨迹所形成 的直线或曲线,称为的直线或曲线,称为 回归线。回归线。回归线与回归函数回归线与回归函数XYYE()iY X 回归函数:回归函数:应变量应变量 的条件期望的条件期望 随解随解释变量释变量 的的变化而有规律的变化,如果把的的变化而有规律的变化,如果把 的条件期望的条件期望 表现为表现为 的某种函数的某种函数 这个函数称为回归函数。这个函数称为回归函数。 回归函数分为:回归函数分为:总体回归函数和样本回归函数总体回归函数和样本回归函数举例:假如已知举例:假如已知100个家庭构成的总体。个家庭

9、构成的总体。 回归线与回归函数回归线与回归函数YXXE ()()iiYXfXYE()iY XE()iY X每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每每960121013101432183510682319248828563201月月125913401520188520

10、662321258729003288家家132414001615194321852365265030213399庭庭1448165020372210239827893064消消1489171220782289248728533142费费1538177821792313251329343274支支160018412298239825383110出出17021886231624232567 Y1900238724532610201224982487271025892586900115014001650190021502400265029003150E()iY X例例:100个家庭构成的总体个家庭构

11、成的总体 (单位单位:元元)每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每每960121013101432183510682319248828563201月月125913401520188520662321258729003288家家1324140016151943218

12、52365265030213399庭庭1448165020372210239827893064消消1489171220782289248728533142费费1538177821792313251329343274支支160018412298239825383110出出17021886231624232567 Y1900238724532610201224982487271025892586900115014001650190021502400265029003150E()iY X例例:100个家庭构成的总体个家庭构成的总体 (单位单位:元元)每每 月月 家家 庭庭 可可 支支 配配 收收 入

13、入 X X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每每960121013101432183510682319248828563201月月125913401520188520662321258729003288家家132414001615194321852365265030213399庭庭14481650203722102398

14、27893064消消1489171220782289248728533142费费1538177821792313251329343274支支160018412298239825383110出出17021886231624232567 Y1900238724532610201224982487271025892586900115014001650190021502400265029003150E()iY X例例:100个家庭构成的总体个家庭构成的总体 (单位单位:元元) 1. 1. 总体回归函数的概念总体回归函数的概念 前提:前提:假如已知所研究的经济现象的总体应变假如已知所研究的经济现象的总体

15、应变量量 和解释变量和解释变量 的每个观测值的每个观测值, 可以计算出总体可以计算出总体应变量应变量 的条件均值的条件均值 ,并将其表现为解释并将其表现为解释变量变量 的某种函数的某种函数 这个函数称为总体回归函数(这个函数称为总体回归函数(PRF)二、总体回归函数二、总体回归函数(PRFPRF)E()()iiY X= fXYYXXE()iY X每每 月月 家家 庭庭 可可 支支 配配 收收 入入 X X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172

16、618742110238825893038932112112641410178619062225242627903150每每960121013101432183510682319248828563201月月125913401520188520662321258729003288家家132414001615194321852365265030213399庭庭1448165020372210239827893064消消1489171220782289248728533142费费1538177821792313251329343274支支160018412298239825383110出出17021

17、886231624232567 Y1900238724532610201224982487271025892586900115014001650190021502400265029003150E()iY X例例:100个家庭构成的总体个家庭构成的总体 (单位单位:元元) iXYX总体回归线与回归函数总体回归线与回归函数05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元) iuiXXY)(iXYEiY (1)条件均值条件均值表现形式表现形式 假如假如 的条件均值的条件均值 是解是解 释变量

18、释变量 的线性函数,可表示为:的线性函数,可表示为: (2)个别值个别值表现形式表现形式 对于一定的对于一定的 , 的各个别值的各个别值 分布分布 在在 的周围,若令各个的周围,若令各个 与条件与条件 均值均值 的偏差为的偏差为 , , 显然显然 是随机变量是随机变量, ,则有则有 或或 2.2.总体回归函数的表现形式总体回归函数的表现形式iXE()iY X12E()()iiiiY Xf XXiYE()iY XiYE()iY Xiuiu12E()iiiiiiuYY XYX12iiiYXuYYX实际的经济研究中总体回归函数通常是实际的经济研究中总体回归函数通常是未知未知的,的,只能根据经济理论和

19、实践经验去只能根据经济理论和实践经验去设定设定。“计量计量”的目的就是寻求的目的就是寻求PRFPRF。总体回归函数中总体回归函数中 与与 的关系可是的关系可是线性线性的,也可是的,也可是非线性非线性的。的。对线性回归模型的对线性回归模型的“线性线性”有两种解释有两种解释 就变量而言就变量而言是线性的是线性的 的条件均值是的条件均值是 的线性函数的线性函数 就参数而言就参数而言是线性的是线性的 的条件均值是参数的条件均值是参数 的线性函数的线性函数 3.3.如何理解总体回归函数如何理解总体回归函数YXYYX计量经济学中计量经济学中: : 线性回归模型主要指就参数而言是线性回归模型主要指就参数而言

20、是“线性线性”, ,因为只要对参数而言是线性的因为只要对参数而言是线性的, ,都可以用类似的方法都可以用类似的方法估计其参数。估计其参数。12E()iiiY XX212E()iiiY XX12E()iiiY XX“线性线性”的判断的判断三、随机扰动项三、随机扰动项概念概念: 各个各个 值与条件均值值与条件均值 的偏差的偏差 代表代表 排除在模型以外的所有排除在模型以外的所有 因素对因素对 的影响。的影响。性质:性质: 是期望为是期望为0有一定分布的随机变量有一定分布的随机变量 重要性:重要性:随机扰动项的性质决定着计量经济方随机扰动项的性质决定着计量经济方法的选择法的选择uiYiuYXiXuE

21、()iY XYiu 未知影响因素的代表未知影响因素的代表 无法取得数据的已知影响因素的代表无法取得数据的已知影响因素的代表 众多细小影响因素的综合代表众多细小影响因素的综合代表 模型的设定误差模型的设定误差 变量的观测误差变量的观测误差 变量内在随机性变量内在随机性引入随机扰动项的原因引入随机扰动项的原因四、样本回归函数(四、样本回归函数(SRF)v问题:问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?v例例2.2:在例2.1的总体中有如下一个样本,能否从该样本估计总体回归函数PRF?表表2.1.3 家家庭庭消消费费支支出出与与可可支支配配收收入入的的一一

22、个个随随机机样样本本 Y 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 X 594 638 1122 1155 1408 1595 1969 2078 2585 2530 回答:能 该样本的散点图散点图(scatter diagram):v 画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为样本回样本回归线归线(sample regression lines)。)。v 记样本回归线的函数形式为:iiiXXfY10)(称为样本回归函数样本回归函数(sample regression function,S

23、RF)。 注意:注意:这里将样本回归线样本回归线看成总体回归线总体回归线的近似替代则 样本回归函数的随机形式样本回归函数的随机形式/ /样本回归模型:样本回归模型:同样地,样本回归函数也有如下的随机形式: iiiiieXYY10式中,ie称为(样样本本)残残差差(或剩剩余余)项项(residual) ,代表了其他影响iY的随机因素的集合,可看成是i的估计量i。 由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型样本回归模型(sample regression model)。 回归分析的主要目的回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。即,根据 iiiii

24、eXeYY10估计iiiiiXXYEY10)|(注意:注意:这里PRF可能永远无法知道。2.2 2.2 双变量线性回归模型的参数估计双变量线性回归模型的参数估计 一、双变量线性回归模型的基本假设一、双变量线性回归模型的基本假设 二、参数的普通最小二乘估计(二、参数的普通最小二乘估计(OLSOLS) 三、最小二乘估计量的性质三、最小二乘估计量的性质 四、参数估计量的概率分布及随机干四、参数估计量的概率分布及随机干 扰项方差的估计扰项方差的估计 v回归分析的主要目的回归分析的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF。v估计方法估计方法有多种,其中最广泛使

25、用的是普通最普通最小二乘法小二乘法(ordinary least squares, OLS)。v为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。v实际这些假设与所采用的估计方法紧密相关。 一、线性回归模型的基本假设一、线性回归模型的基本假设 假设1. 解释变量X是确定性变量,不是随机变量; 假设2. 随机误差项具有零均值、同方差和无自相关: E(i)=0 i=1,2, ,n Var (i)=2 i=1,2, ,n Cov(i, j)=0 ij i,j= 1,2, ,n 异方差XYX10XYX10序列自相关XXYX10YX10负相关正相关假设3. 随机误差项与解释变量X之间不相关:

26、Cov(Xi, i)=0 i=1,2, ,n vP23显示Cov的Case:即样本相关系数假设4. 服从零均值、同方差、零协方差的正态分布 iN(0, 2 ) i=1,2, ,n1. 如果假设1、2满足,则假设3也满足;2. 如果假设4满足,则假设2也满足。注意:注意: 以上假设也称为线性回归模型的经典假经典假设设或高斯(高斯(Gauss)假设)假设,满足该假设的线性回归模型,也称为经典线性回归模型经典线性回归模型(Classical Linear Regression Model, CLRM)。 二、参数的普通最小二乘估计(二、参数的普通最小二乘估计(OLSOLS) 最小二乘法产生的历史v最

27、小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)达尔文的表弟所创。v早年,道尔顿致力于化学和遗传学领域的研究。v他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。最小二乘法的地位与作用v现在回归分析法已远非道尔顿的本意v已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。v后来,回归分析法从其方法的数学原理残差平方和最小(平方乃二乘也)出发,改称为最小二乘法。父亲们的身高与儿子们的身高之间关系的研究v1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录v企图寻找出儿子们身高与父

28、亲们身高之间关系的具体表现形式v下图是根据1078个家庭的调查所作的散点图(略图)yx160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定“回归”一词的由来v从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:v如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”见1889年F.Gallton的论文普用回归定律。v后人将此种方法普遍用于寻找变量

29、之间的规律 xyubxay516. 033.84复复习习复复习习复复习习最小二乘法的思路v为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(做到全面)。vY与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。v在Y与X的散点图上画出直线的方法很多。v找出一条能够最好地描述Y与X(代表所有点)之间的直线。问题是:怎样算“最好”?v最好指的是找一条直线使得所有这些点到该直线的纵向所有这些点到该直线的纵向距离的和(平方和)距离的和(平方和)最小。整理得:复复习习复复习习复复习习复复习习复复习习线性关系的显著性检验复复

30、习习复复习习复复习习复复习习复复习习复复习习复复习习复复习习复复习习v练习:取0.01做显著性检验最小二乘法的思路yx纵向距离横向距离距离yxiiA,yxiiB,A为实际点,B为拟合直线上与之对应的点xyyyuiiiii10纵向距离最小二乘法的思路v纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。v将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。v于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。YX0*7Y9Y*Y7Y9Min2)(iiYY数学形式最小二

31、乘法的数学原理v纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。v将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。v于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。 给定一组样本观测值(Xi, Yi)(i=1,2,n)要求样本回归函数尽可能好地拟合这组值. 普通最小二乘法普通最小二乘法(Ordinary least squares, OLS)给出的判断标准是:二者之差的平方和niiiniXYYYQ121021)()(最小。 根据微分运算,可推得用于估计0、1的下列方程组: 0)(0)(1010ii

32、iiiXYXYX (2.2.4) 或 21010iiiiiiXXXYXnY (2.2.5)解得: 2212220)()(iiiiiiiiiiiiiXXnXYXYnXXnXYXYX (2.2.6)方程组(2.2.5)称为正正则则方方程程组组(normal equations) 。得到的参数估计量可以写成: XYxyxiii1021 称为OLS估计量的离差形式离差形式(deviation form)。)。 由于参数的估计结果是通过最小二乘法得到 的,故称为普通普通最小二乘估计量最小二乘估计量(ordinary least squares estimators)。 例例2.2.1:在上述家庭可支配收

33、入可支配收入- -消费支出消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表2.2.1进行。 表表 2.2.1 参参数数估估计计的的计计算算表表 iX iY ix iy iiyx 2ix 2iy 2iX 2iY 1 800 594 -1350 -973 1314090 1822500 947508 640000 352836 2 1100 638 -1050 -929 975870 1102500 863784 1210000 407044 3 1400 1122 -750 -445 334050 562500 198381 1960000 1258884 4 1700 115

34、5 -450 -412 185580 202500 170074 2890000 1334025 5 2000 1408 -150 -159 23910 22500 25408 4000000 1982464 6 2300 1595 150 28 4140 22500 762 5290000 2544025 7 2600 1969 450 402 180720 202500 161283 6760000 3876961 8 2900 2078 750 511 382950 562500 260712 8410000 4318084 9 3200 2585 1050 1018 1068480 1

35、102500 1035510 10240000 6682225 10 3500 2530 1350 963 1299510 1822500 926599 12250000 6400900 求和 21500 15674 5769300 7425000 4590020 53650000 29157448 平均 2150 1567 计量经济学与电脑v必须指出,模型的建立和实际使用,离开了电脑几乎是不可能的。v目前,已有很多计量经济学软件包,可以完成计量经济学模型的参数估计、模型检验、预测等基本运算。v几种常见计量软件SAS,SPSS,ET,ESP,GAUSS,MATLAB,MICROTSP,STAT

36、A, MINITAB,SYSTAT,SHAZAM,EViews,DATA-FIT。v本课程采用国家教委推荐的EViews进行案例教学。v要求同学们掌握EViews,比较熟练地使用它,并掌握EViews与其它Windows软件共享信息。777. 07425000576930021iiixyx172.1032150777. 0156700XY因此,由该样本估计的回归方程为: iiXY777.0172.103 四、最小二乘估计量的性质四、最小二乘估计量的性质 一个用于考察总体的估计量,可从如下几个方面考察其优劣性: (1)线性)线性,即它是否是另一随机变量的线性函数; 当模型参数估计完成,需考虑参数

37、估计值的精当模型参数估计完成,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。察参数估计量的统计性质。 一个用于考察总体的统计量,可从三个方面一个用于考察总体的统计量,可从三个方面考察其优劣性:考察其优劣性:(1)线性性)线性性(linear):即是否是另一随机变量的即是否是另一随机变量的线性函数;线性函数;(2)无偏性)无偏性(unbiased):即它的均值或期望值即它的均值或期望值是否等于总体的真实值;是否等于总体的真实值;(3)有效性)有效性(efficient):即它是否在所有线性无即它是否在所有线性无偏估

38、计量中具有最小方差。偏估计量中具有最小方差。高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。1、线性性:、线性性:参数估计量是参数估计量是Y的线性函数的线性函数证:22221)(iiiiiiiiiiixxYxYxxYYxxyx令2iiixxk,因0)(XXxii,故有iiiiiYkYxx21 iiiiiiiYwYkXnXYkYnXY)1(1102、无偏性:、无偏性:参数估计量的均值等于总体回归参数估计量的均值等于总体回归参数真值参数真值证:证:iiiiiiiiiikXkkXkYk10101)

39、(由于 02iiixxk,1)()(222222iiiiiiiiiiiiiiixxXxxxXxxxXXXxxXxXk故:iik11 1111)()()(iiiiEkkEEiiiiiiiiiiwXwwXwYw10100)(由于:11)/ 1 (iiikXkXnw 01)/ 1 (XXXkXXnXkXnXwiiiiiii故: iiw00 0000)()()()(iiiiEwEwEE3、有效性、有效性:在所有线性无偏估计量中,最在所有线性无偏估计量中,最小二乘估计量具有最小方差。小二乘估计量具有最小方差。 (1)先求0、1的方差222221021)var()var()var(iiiiiiiixxxX

40、kYk (2.2.10)221020)/1 ()var()var()var(iiiiiikXnXwYw2222222221121iiiiixxXkXnnkXkXnn22222222221iiiiixnXxnXnxxXn (2.2.11)(2)证明最小方差性假设*1是其他方法得到的关于1的线性无偏估计量: iiYc*1其中,iiidkc,id为不全为零的常数。iiiiiiiiiXccXcYEcYcEE1010*1)()()()(由*1的无偏性,即1*1)(E可知: 110iiiXcc从而有: 0ic,1iiXc*1的方差 2222*1)var()var()var()var(iiiiiiiccYc

41、Yc =iiiiiidkdkdk22222222)(由于 2)(iiiiiiiikckkckdk =011222222iiiiiiiiiiixxkxcXcXkcxx故 22122222222*1)var(1)var(iiiiiddxdk因为 02id所以 )var()var(1*1当0id, (ni,2 , 1)等号成立,此时:iikc ,*1就是 OLS 估计量1。同理可证明 )var()var(0*0Sampling distribution of OLS estimator 1 and alternative estimator *111*11)()( EE1*14 4、结论、结论 普通

42、最小二乘估计量具有线性性、无偏性、最小普通最小二乘估计量具有线性性、无偏性、最小方差性等优良性质。方差性等优良性质。 具有这些优良性质的估计量又称为具有这些优良性质的估计量又称为最佳线性无偏最佳线性无偏估计量估计量,即,即BLUE估计量估计量(the Best Linear Unbiased Estimators)。)。 显然这些优良的性质依赖于对模型的基本假设。显然这些优良的性质依赖于对模型的基本假设。 全部估计量 线性无偏估计量 BLUE估计量 五、参数估计量的概率分布及随机干扰五、参数估计量的概率分布及随机干扰项方差的估计项方差的估计 1、参数估计量、参数估计量0和和1的概率分布的概率分

43、布 ),(2211ixN),(22200iixnXN2. 随机误差项随机误差项 的方差的方差 2的估计的估计2又称为总体方差总体方差。 由于随机项 i不可观测,只能从 i的估计残差ei出发,对总体方差进行估计。 可以证明可以证明, 2的最小二乘估计量最小二乘估计量为222nei它是关于2的无偏估计量。 在随机误差项的方差2估计出后,参数0和1的方方差差和标标准准差差的估计量分别是: 1的样本方差: 2221ixS 1的样本标准差: 21ixS 0的样本方差: 22220iixnXS 0的样本标准差: 220iixnXS 2.3 2.3 双变量线性回归模型的统计检验双变量线性回归模型的统计检验

44、一、拟合优度检验一、拟合优度检验 二、变量的显著性检验二、变量的显著性检验 三、参数的置信区间三、参数的置信区间 如果Yi=i 即实际观测值落在样本回归“线”上,则拟合最好拟合最好。 对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:TSS=ESS+RSS22)(YYyTSSii记22)(YYyESSii22)(iiiYYeRSS总体平方和总体平方和(Total Sum of Squares)回归平方和回归平方和(Explained Sum of Squares)残差平方和残差平方和(Residual Sum of Squares )iY 总变差i(Y -Y)SRFi(Y -Y

45、) 来自回归ie来自残差iXY变差分解的图示变差分解的图示YX Y的观测值围绕其均值的总离差的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回可分解为两部分:一部分来自回归线归线(ESS),另一部分则来自随机势力,另一部分则来自随机势力(RSS)。v在给定样本中,TSS不变,v如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此v拟合优度:回归平方和拟合优度:回归平方和ESS/Y的总离差的总离差TSSTSSRSSTSSESSR1记22、判定系数、判定系数R2 2统计量统计量 称 R2 为(样本)(样本)判定系数判定系数/可决系数可决系数(c

46、oefficient of determination)。 判定系数判定系数的取值范围取值范围:0,1 R2 2越接近越接近1 1,说明实际观测点离样本线越近,说明实际观测点离样本线越近,拟合优度越高拟合优度越高。在实际计算可决系数时,在1已经估计出后: 22212iiyxR 在例2.1.1的收入消费支出收入消费支出例中, 9766. 045900207425000)777. 0(222212iiyxR 注:判定系数注:判定系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对判定系数的统计可靠性也应进行检验,这将在以后进行。 R2的其他表示方法221121()niiniixRy2212

47、211()()()niiinniiiix yRxy2212211()()()niiinniiiiy yRyy22121niiniiyRy拟合优度(或称判定系数、决定系数)v判定系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明模型中单个解释变量的影响程度。v对时间序列数据,判定系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。判定系数达到多少为宜?v没有一个统一的明确界限值;v若建模的目的是预测应变量值,一般需考虑有较高的判定系数。v若建模的目的是结构分析,就不能只追求高的判定系数,而是要得到总体回归系数的可信任的估计量。判定系数高并不一定每个回归系数都

48、可信任; 二、变量的显著性检验二、变量的显著性检验 回归分析回归分析是要判断解释变量解释变量X是否是被解释变被解释变量量Y的一个显著性的影响因素。 在双变量线性模型双变量线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显变量的显著性检验。著性检验。 变量的显著性检验所应用的方法是数理统计变量的显著性检验所应用的方法是数理统计学中的学中的假设检验假设检验。 计量经济学中计量经济学中,主要是针对变量的参数真值,主要是针对变量的参数真值是否为零来进行显著性检验的。是否为零来进行显著性检验的。 1、假设检验、假设检验 v 所谓假设检验假设检验,就是事先对总体参数或总体分布形式作

49、出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。 例例1:某车间用一台某车间用一台包装机包装机装箱装箱,额定标准为每箱额定标准为每箱重重100kg,设每箱重量服从正态分布设每箱重量服从正态分布,且且=1.15,=1.15,某某日开工后日开工后, ,随机抽取随机抽取1010箱箱, ,测得重量为测得重量为(kg):(kg):9 .1008 .998 .1002 .1027 .986 .991 .1015 .1019 .983 .99试在水平试在水平=0.05下,检验假设下,检验假设是否成立是否成立?100:00 H96.1025

50、.02 ZZ nxu)(0 结论:接受结论:接受H0代入样本值计算统计量代入样本值计算统计量U的值的值u即认为在水平即认为在水平=0.05下,下,包装机工作正常。包装机工作正常。.)(0_作作为为检检验验统统计计量量解解:取取 nXU 对给定的水平对给定的水平=0.05,查表知:查表知:15.110)10027.100( )27.100(,96.174.0_ xv假设检验采用的逻辑推理方法是反证法反证法 先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。v判断结果合理与否,是基于“小概率事件不易发生”这一原理的:我们知道,假设检验就是先对总体的未知参

51、数我们知道,假设检验就是先对总体的未知参数提出某种假设提出某种假设H0,然后再根据小概率事件是否发,然后再根据小概率事件是否发生作出拒绝假设生作出拒绝假设H0 或是接受假设或是接受假设H0 的。的。弃真错误弃真错误的的概率概率即为小概率事件发生的概率。即为小概率事件发生的概率。 我们把只关心犯第一类错误而不考虑犯第二类我们把只关心犯第一类错误而不考虑犯第二类错误的检验称为显著性检验。错误的检验称为显著性检验。小概率事件发生的小概率事件发生的概率概率称为显著性检验水平。称为显著性检验水平。下面我们学习具体的假设检验方法下面我们学习具体的假设检验方法复复习习0 : = 0 ( 0为已知)为已知)

52、是否成立是否成立),(),(20200nNXNXH 从从而而则则成成立立,若若)1,0()(0_NnUX 取取注:寻求一个含有注:寻求一个含有(当当H0为真时,不含任何未知参数为真时,不含任何未知参数)且且分布已知的检验统计量分布已知的检验统计量U.作为检验统计量。作为检验统计量。X样样本本均均值值是是 的一个无偏估计量,的一个无偏估计量,解:解:考虑到考虑到一、方差一、方差2已知时,对总体均值已知时,对总体均值的假设检验的假设检验、方差、方差2已知时,在水平已知时,在水平下,下,检验假设检验假设 对给定的检验水平对给定的检验水平,由,由标准正态分布上标准正态分布上分位点的定分位点的定义可知:

53、义可知:)(2ZUP为临界点。为临界点。2Z2ZH0的的拒绝域”“2 ZU 由于由于很小,故事件很小,故事件是小概率事件。是小概率事件。能发生的能发生的.如果发生了,我们就认为是不合理的,从而如果发生了,我们就认为是不合理的,从而”“2 ZU 拒绝假设拒绝假设H0 ,因而我们因而我们把由事件把由事件所确定的所确定的2 Z区域区域W称为称为H0的拒绝的拒绝 域,其余的便是接受域,称域,其余的便是接受域,称由实际推断原则,小概率事件在一次试验中几乎是不可由实际推断原则,小概率事件在一次试验中几乎是不可以上方法称为以上方法称为U检验法。检验法。代入样本值计算统计量代入样本值计算统计量U的值的值u,当

54、,当u落入拒绝域落入拒绝域时,则拒绝时,则拒绝H0 。时时,当当2 Zu 就拒绝就拒绝H0;时时,当当2 Zu 就接受就接受H0;小结:小结:U U检验法的一般步骤检验法的一般步骤(1 1)提出假设)提出假设H0: = 0H1: 0(2)选定检验统量:)选定检验统量: nXU)(0 )(2ZUP(4)计算检验统计量的观察值)计算检验统计量的观察值u(5)下结论)下结论时时,当当2 Zu 接受接受H0时时,当当2 Zu 拒绝拒绝H0(3)对给定的显著水平)对给定的显著水平,确定临界值点确定临界值点 ,使,使2 Z 例例1:某车间用一台某车间用一台包装机包装机装箱装箱,额定标准为每箱额定标准为每箱

55、重重100kg,设每箱重量服从正态分布设每箱重量服从正态分布,且且=1.15,=1.15,某某日开工后日开工后, ,随机抽取随机抽取1010箱箱, ,测得重量为测得重量为(kg):(kg):9 .1008 .998 .1002 .1027 .986 .991 .1015 .1019 .983 .99试在水平试在水平=0.05下,检验假设下,检验假设是否成立是否成立?100:00 H96.1025.02 ZZ nxu)(0 结论:接受结论:接受H0代入样本值计算统计量代入样本值计算统计量U的值的值u即认为在水平即认为在水平=0.05下,下,包装机工作正常。包装机工作正常。.)(0_作作为为检检验

56、验统统计计量量解解:取取 nXU 对给定的水平对给定的水平=0.05,查表知:查表知:15.110)10027.100( )27.100(,96.174.0_ x小结:求解具体检验题目的一般步骤小结:求解具体检验题目的一般步骤(1 1)提出假设)提出假设(2)选定检验统量)选定检验统量(3)确定临界点)确定临界点(4)代入样本值计算统计量的值)代入样本值计算统计量的值(5)下结论)下结论 )(ZUPZ1- 接受域拒绝域2、方差、方差2已知时,在水平已知时,在水平下下,检验假设,检验假设对给定的检验水平对给定的检验水平,求临界点,求临界点Z使使H0 : = 0 H1 : 0哪一个成立。哪一个成立

57、。代入样本值计算统计量代入样本值计算统计量U的值的值u接受接受H0 .时,时,当当 Zu 时,时,当当 Z 拒绝拒绝H0;解:解:与第与第1种情况类似种情况类似, nXU)(0 取取作为检验统计量作为检验统计量.例例2 某工厂产品寿命某工厂产品寿命XN( , 2),正常情况下正常情况下 0=40, 0=2,25.41 x设技术革新后方差不变设技术革新后方差不变,问革新后产品质量较以前是问革新后产品质量较以前是否显著提高否显著提高?( =0.05)H0 : = 0=40 H1 : u0= 40 哪一个成立哪一个成立对给定的水平对给定的水平 =0.05,查表知:,查表知:Z0.05=1.64512

58、5. 3225)4025.41( U1.645拒绝拒绝H0,接受接受H1,即在水平即在水平= 0.05下下,认为革新后的质量有显认为革新后的质量有显著提高著提高.代入样本值计算统计量的值代入样本值计算统计量的值技术革新后技术革新后,随机抽取随机抽取25只只,测得寿命均值测得寿命均值分析分析: 质量显著提高的含义是寿命均值质量显著提高的含义是寿命均值40. 解解:这个问题即在水平这个问题即在水平 =0.05下下,检验假设检验假设 nXU)(0 取取作为检验统计量作为检验统计量. ZUPH0 : = 0 H1 : 0 H0 : = 0 H1 : 0 H0 : = 0 H1 : 0 假设提法假设提法

59、检验统计量检验统计量).1()(0 ntSnXT )1()1();1(2 ntTntTntT 拒绝域拒绝域此方法称为此方法称为T检验法检验法参看参看P143表表t-t例例1 在正常情况下在正常情况下,某工厂生产的灯泡的寿命某工厂生产的灯泡的寿命X服从正态服从正态分布分布,今测得今测得10个灯泡寿命为个灯泡寿命为:1490 1440 1680 1610 1500 1750 1550 1420 1800 1580 。问能否认为该工厂生产的灯泡寿命。问能否认为该工厂生产的灯泡寿命 0=1600( =0.05)? (注:此题是第注:此题是第141页例页例3)H0 : = 0=1600 是否成立是否成立

60、由由t分布表查得分布表查得t0.025(9)=2.262snXT)(0 对给定的水平对给定的水平 =0.05,解解: 此题为在水平此题为在水平 =0.05下检验假设下检验假设 由于方差未知由于方差未知,所以我们选所以我们选作为检验统计量作为检验统计量.即认为该工厂生产的灯泡寿命即认为该工厂生产的灯泡寿命为为 = 1600小时小时. 在水平在水平 =0.05下下,由样本算得由样本算得:129;1582 sx 262.2944.02 t接受接受H0.代入样本值计算统计量代入样本值计算统计量t的值的值snxt)(0_ 12910)16001582( 三、方差三、方差2的假设检验的假设检验假设的提法假

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论