第二章+简单线性回归模型.ppt_第1页
第二章+简单线性回归模型.ppt_第2页
第二章+简单线性回归模型.ppt_第3页
第二章+简单线性回归模型.ppt_第4页
第二章+简单线性回归模型.ppt_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,从2004中国国际旅游交易会上获悉,到2020年,中国旅游业总收入将超过3000亿美元,相当于国内生产总值的8%至11%。(资料来源:国际金融报2004年11月25日第二版) 是什么决定性的因素能使中国旅游业总收入到2020年达到3000亿美元? 旅游业的发展与这种决定性因素的数量关系究竟是什么? 怎样具体测定旅游业发展与这种决定性因素的数量关系?,引子: 中国旅游业总收入将超过3000亿美元吗?,2,第二章 简单线性回归模型,本章主要讨论: 第一节回归分析与回归函数 第二节简单线性回归模型的最小二乘估计 第三节拟合优度的度量 第四节回归系数的区间估计和假设检验 第五节回归模型预测 第六节

2、案例分析 第二章小结,3,第一节 回归分析与回归函数,本节基本内容: 一、相关分析与回归分析 二、总体回归函数 三、随机扰动项 四、样本回归函数,4,5,本节小结,回归分析的含义与目的 总体回归函数与总体回归模型 样本回归函数与样本回归模型 随机扰动项的含义 样本回归函数与总体回归函数的关系,6,一、相关分析与回归分析,(一)相关分析 (二)回归分析 (三)相关分析与回归分析的关系,7,对变量之间相互关系情况及相关程度的分析。 1. 经济变量间的相互关系 函数关系(确定性的) 相关关系(不确定性的统计关系) (u为随机变量) 没有关系,(一)相关分析,8,9,相关关系的类型 从涉及的变量数量看

3、 简单相关 多重相关(复相关) 从变量相关关系的表现形式看 线性相关散布图接近一条直线 非线性相关散布图接近一条曲线 从变量相关关系变化的方向看 正相关变量同方向变化,同增同减 负相关变量反方向变化,一增一减 不相关 在一般的分析中,我们常考虑的是变量之间的简单线性相关,即两个变量之间的线性相关关系,10,3.简单线性相关关系的度量相关系数,总体线性相关系数: 其中: X 的方差; Y的方差 X和Y的协方差 样本线性相关系数: 其中: 和 分别是变量 和 的样本观测值 和 分别是变量 和 样本值的平均值,11,相关系数的取值,相关系数取值范围为-11 当r=0时,表明X与Y之间没有线性相关关系

4、 当00为正相关,若r0为负相关 |r|=1时,表现完全相关。若r=-1,则完全负相关,若r=1,则完全正相关,12,相关程度划分,当|r|0.3时,称为微弱相关 当0.3|r|0.5时,称为低度相关 当0.5|r|0.8时,称为显著相关 当0.8|r|1时,称为高度相关,13, 和 都是相互对称的随机变量 线性相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系 样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验 相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线 计量经济学关心:变量间的因果关系及

5、隐藏在随机性后面的统计规律性,这有赖于回归分析方法,使用相关系数时应注意,14,(二)回归分析,回归的古典意义: 高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系) 回归的现代意义: 一个应变量对若干解释变量 变量 依存关系 的研究 回归的目的(实质): 由固定的解释变量去 估计应变量的平均值,15,注意,回归分析揭示的是被解释变量与解释变量之间的平均关系。被解释变量是随机变量,解释变量一般作为非随机变量来处理。,16,(三)相关分析与回归分析的关系,联系:相互补充 区别: 研究目的:相关分析只研究变量间相互关系的方向和程度;回归分析是要根据解释变量的固定值去估计和预测被解释变量的平均值得

6、。 变量的处理:相关分析中变量都是随机变量,无解释变量和被解释变量之分;而回归分析中有解释变量和被解释变量之分,被解释变量为随机变量,解释变量通常为非随机变量。,17,1、概念 2、总体回归函数的形式 3.“线性”的含义,二、总体回归函数,18,例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。,1、概念,19,20,由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全

7、相同; 但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的,例如:P(Y=561|X=800)=1/4。,21,因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation): 。如果将其写成函数形式,将总体被解释变量Y的条件均值表现为解释变量X的函数形式: 则这个函数称为总体回归函数 描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。

8、,22,23,(1)线性形式 假如 的条件均值 是解释变量 的线性函数,可表示为: (2)非线性形式 计量经济学中经常把总体回归函数设定为线性函数,2.总体回归函数的形式,24,对线性回归模型的“线性”有两种解释 就变量而言是线性的 的条件均值是 的线性函数 就参数而言是线性的 的条件均值是参数 的线性函数,3.“线性”的含义,25,26,三、随机扰动项,1、概念 2、性质与重要性 3、引入随机扰动项的原因,27,1、概念,各个 值与条件均值 的偏差。代表 排除在模型以外的所有 因素对 的影响。,28,上式称为总体回归模型 如果是线性则有,29,2、性质与重要性,性质:是期望为0有一定分布的随

9、机变量 重要性:随机扰动项的性质决定着计量经济方法的选择,30,未知影响因素的代表 无法取得数据的已知影响因素的代表 众多细小影响因素的综合代表 模型的设定误差 变量的观测误差 变量内在随机性,3、引入随机扰动项的原因,31,四、样本回归函数,1、含义 2、样本回归线的特点 3、样本回归函数的表现形式、 4、对样本回归的理解,32,1、含义,问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息? 例2.2:在例2.1的总体中有如下一个样本,能否从该样本估计总体回归模型?,回答:能,33,该样本的散点图(scatter diagram):,画一条直线以尽好地拟合该

10、散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为样本回归线(sample regression lines)。,34,35,2、样本回归线的特点,每次抽样都能获得一个样本,就可以拟合一条样本回 归线,所以样本回归线随抽样波动而变化,可以有许多条(SRF不唯一)。,SRF2,36,样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。 样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。,37,38,4、对样本回归的理解,如果能够获得 和 的数值,显然: 和 是对总体回归函数参数 和 的估计 是对总体条件期望 的估计 在概念上类似总体回归函数中的 ,可 视为对

11、 的估计。,39,40,第二节 简单线性回归模型的最小二乘估计,本节基本内容: 一、简单线性回归的基本假定 二、普通最小二乘法 三、OLS回归线的性质 四、参数估计式的统计性质,41,本节小结,简单线性回归模型关于随机扰动项的基本假定 普通最小二乘法的准则 普通最小二乘估计量的性质 参数估计量的方差 总体方差的估计式,42,一、简单线性回归的基本假定,1、简单线性回归模型的基本形式 2、为什么要作基本假定? 3、基本假定的内容,43,1、简单线性回归模型的基本形式,44,模型中有随机扰动,估计的参数是随机变量, 只有对随机扰动的分布作出假定,才能确定 所估计参数的分布性质,也才可能进行假设 检

12、验和区间估计 只有具备一定的假定条件,所作出的估计才 具有较好的统计性质。,2、为什么要作基本假定?,45,(1)对模型和变量的假定 如 假定解释变量 是非随机的,或者虽然是随机的,但与扰动 项 是不相关的 假定解释变量 在重复抽样中为固定值 假定变量和模型无设定误差,3、基本假定的内容,46,又称高斯假定、古典假定 假定1:零均值假定 在给定 的条件下 , 的条件期望为零 假定2:同方差假定 在给定 的条件下, 的条件方差为某个常数,(2)对随机扰动项 的假定,47,假定3:无自相关假定 随机扰动项 的逐次值互不相关 假定4:随机扰动 与解释变量 不相关,48,假定5:对随机扰动项分布的正态

13、性假定 即假定 服从均值为零、方差为 的正态分布 (以上关于随机扰动项 的假设是由德国数学家高斯提出的,也称为高斯假设或古典假设,满足以上假定的线性回归模型称为古典线性回归模型),49,(3) 的分布性质,由于 的分布性质决定了 的分布性质。 对 的一些假定可以等价地表示为对 的假定: 假定1:零均值假定 假定2:同方差假定 假定3:无自相关假定 假定5:正态性假定,50,二、普通最小二乘法 (rdinary Least Squares ),1、OLS的基本思想 2、OLS估计式 3、OLS估计式的离差形式,51,1、OLS的基本思想,不同的估计方法可得到不同的样本回归参数 和 ,所估计的 也

14、不同。 理想的估计方法应使 与 的差即剩余 越小越好 因 可正可负,所以可以取 最小 即,52,2、正规方程和估计式,用克莱姆法则求解得观测值形式的OLS估计式:,取偏导数为0,得正规方程,53,为表达得更简洁,或者用离差形式OLS估计式: 注意其中:,3、用离差表现的OLS估计式,54,三、OLS回归线的性质,可以证明: 回归线通过样本均值 估计值 的均值等于实 际观测值 的均值,55,剩余项 的均值为零 应变量估计值 与剩余项 不相关,解释变量 与剩余项 不相关,56,四、参数估计式的统计性质,(一)参数估计式的评价标准 (二)OLS估计式的统计性质,57,(一)参数估计式的评价标准,1、

15、无偏性 2、最小方差性 3. 有效性 4、渐进性,58,前提:重复抽样中估计方法固定、样本数不变、经 重复抽样的观测值,可得一系列参数估计值 参数估计值 的分布称为 的抽样分布,密度函 数记为 如果 ,称 是参数 的无偏估计式,否 则称 是有偏的,其偏倚为,1、无偏性,59,图 1 . 2,60,前提:样本相同、用不同的方法估计参数, 可以找到若干个不同的估计式 目标:努力寻求其抽样分布具有最小方差的 估计式 最小方差准则,或称最佳 性准则(见图1.3) 既是无偏的同时又具有最小方差的估计式,称为 最佳无偏估计式。,2.、最小方差性,61,62,3、有效性,一个估计式若不仅具有无偏性,而且具有

16、最小方差性时,称这个估计式为有效估计式。 无偏估计式可能有多个,但在所有无偏估计式中,只有方差最小的最佳无偏估计式才是有效估计式。,63,4、渐近性质(大样本性质),思想:当样本容量较小时,有时很难找到最佳无偏估计,需要考虑样本扩大后的性质 一致性: 当样本容量 n 趋于无穷大时,如果估计式 依概率收敛于总体参数的真实值,就称这个估计式 是 的一致估计式。即 或 渐近有效性:当样本容量 n 趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。 (见图1.4),64,65,(二)OLS估计式的统计性质,1、线性特征 2、无偏特性 3、最小方差特性 高斯马尔可夫定理,66,是 的线性函数,1、

17、线性特征,67,的性质,68,2、无偏特性,69,3、最小方差特性,在所有的线性无偏估计中,OLS估计 具有最小方差,70,高斯马尔可夫定理,在古典假定条件下,OLS估计式是最佳线性无偏估计式(BLUE),71,第三节 拟合优度的度量,本节基本内容: 一、什么是拟合优度 二、总变差的分解 三、可决系数,72,一、什么是拟合优度?,概念: 样本回归线是对样本数据 的一种拟合,不同估计方 法可拟合出不同的回归线, 拟合的回归线与样本观测 值总有偏离。 样本回归线对样本观测数据拟合的优劣程度 拟合优度 拟合优度的度量建立在对总变差分解的基础上,73,二、总变差的分解,分析Y 的观测值、估计值与平均值

18、的关系 将上式两边平方加总,可证得 (TSS) (ESS) (RSS),74,总变差 (TSS):应变量Y的观测值与其平均值的离差平方和(总平方和) 解释了的变差 (ESS):应变量Y的估计值与其平均值的离差平方和(回归平方和) 剩余平方和 (RSS):应变量观测值与估计值之差的平方和(未解释的平方和),75,变差分解的图示,76,三、可决系数,以TSS同除总变差等式两边: 或 定义:回归平方和(解释了的变差ESS) 在总变 差(TSS) 中所占的比重称为可决系数,用 表示: 或,77,作用:可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明

19、模型对样本观测值的拟合程度越差。 特点:可决系数取值范围: 随抽样波动,样本可决系数 是随抽样 而变动的随机变量 可决系数是非负的统计,可决系数的作用和特点,78,可决系数与相关系数的关系,(1)联系 数值上,可决系数等于应变量与解释变量之间简单相关系数的平方:,79,可决系数与相关系数的关系,(2)区别,80,运用可决系数时应注意, 可决系数只是说明列入模型的所有解释变量对 因变量的联合的影响程度,不说明模型中每个 解释变量的影响程度(在多元中) 回归的主要目的如果是经济结构分析,不能只 追求高的可决系数,而是要得到总体回归系数 可信的估计量,可决系数高并不表示每个回归 系数都可信任 如果建

20、模的目的只是为了预测因变量值,不是 为了正确估计回归系数,一般可考虑有较高的 可决系数,81,第四节 回归系数的区间估计和假设检验,本节基本内容: 问题的提出 一、OLS估计的分布性质 二、回归系数的区间估计 三、回归系数的假设检验,82,问题的提出,为什么要作区间估计? OLS估计只是通过样本得到的点估计,不一定等于 真实参数,还需要找到真实参数的可能范围,并 说明其可靠性 为什么要作假设检验? OLS 估计只是用样本估计的结果,是否可靠? 是否抽样的偶然结果?还有待统计检验。 区间估计和假设检验都是建立在确定参数估计值 概率分布性质的基础上。,83,一、OLS估计的分布性质,基本思想 是随

21、机变量,必须确定其分布性质才可能进行区间估计和假设检验 是服从正态分布的随机变量, 决定了 也是服从正态分布的随机变量, 是 的线性函数,决定了 也是服从正态分布的随机变量,只要确定 的期望和方差,即可确定 的分布性质,84, 的期望: (无偏估计) 的方差和标准误差 (标准误差是方差的算术平方根) 注意:以上各式中 未知,其余均是样本观测值,的期望和方差,85,可以证明(见教材P70附录2.2) 的无偏估计为 (n-2为自由度,即可自由变化的样本观测值个数),对随机扰动项方差 的估计,86,在 已知时,将 作标准化变换,87,(1)当样本为大样本时,用估计的参数标准误差对 作标准化变换,所得

22、Z 统计量仍可视为标准正 态变量(根据中心极限定理) (2)当样本为小样本时,可用 代替 , 去估 计参数的标准误差,用估计的参数标准误差对 作标准化变换,所得的 t 统计量不再服从正态分布 (这时分母也是随机变量),而是服从 t 分布:,当 未知时,88,二、回归系数的区间估计,概念: 对参数作出的点估计是随机变量,虽然是无偏估 计,但还不能说明估计的可靠性和精确性,需要找 到包含真实参数的一个范围,并确定这个范围包含 参数真实值的可靠程度。 在确定参数估计式概率分布性质的基础上,可找到 两个正数和( ),使得区间 包含真实 的概率为 ,即 这样的区间称为所估计参数的置信区间。,89,一般情

23、况下, 总体方差 未知,用无偏估计 去代替 ,由于样本容量较小,统计量 t 不再服从正态分布,而服从 t 分布。可用 t 分布去建立参数估计的置信区间。,回归系数区间估计的方法,90,选定,查 t 分布表得显著性水平为 ,自 由度为 的临界值 ,则有 即,91,三、回归系数的假设检验,1. 假设检验的基本思想 为什么要作假设检验? 回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。 变量的显著性检验所应用的方法是数理统计学中的假设检验 计量经济学中,主要是针对变量的参数真值是否为零来进行

24、显著性检验的。,92,假设检验,所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。,93,假设检验采用的逻辑推理方法是反证法 先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。 判断结果合理与否,是基于“小概率事件不易发生”这一原理的,94,检验步骤:,(1)对总体参数提出假设 H0: 1=0, H1:10,(2)以原假设H0构造t统计量,并由样本计算其值,(3)给定显著性水平,查t分布表得临界值t /2(n-2),95,(4) 比较,

25、判断 若 |t| t /2(n-2),则拒绝H0 ,接受H1 ; 若 |t| t /2(n-2),则拒绝H1 ,接受H0 ;,96,一般情况下,总体方差 未知,只能用 去代替,可利用 t 分布作 t 检验,给定 , 查 t 分布表得 如果 或者 则拒绝原假设 ,而接受备择假设 如果 则接受原假设,2. 回归系数的检验方法,97,P,98,用 P 值判断参数的显著性,假设检验的 p 值: p 值是根据既定的样本数据所计算的统计量, 拒绝原假设的最小显著性水平。 统计分析软件中通常都给出了检验的 p 值。,99,100,本节主要内容: 一、回归分析结果的报告 二、被解释变量平均值预测 三、被解释变

26、量个别值预测 四、被解释变量Y值区间预测的特点,第五节回归模型预测,101,一、回归分析结果的报告,经过模型的估计、检验,得到一系列重要的数据,为了简明、清晰、规范地表述这些数据,计量经济学通常采用了以下规范化的方式: 例如:回归结果为,102,二、被解释变量平均值预测,1.基本思想 运用计量经济模型作预测:指利用所估计的样本回归函数,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量数值作出定量的估计。 计量经济预测是一种条件预测: 条件:模型设定的关系式不变 所估计的参数不变 解释变量在预测期的取值已作出预测,103,预测值、平均值、个别值的相互关系,是真实平均值的点估计,也是对个

27、别值的点估计,个别值,104,2 .Y 平均值的点预测,将解释变量预测值直接代入估计的方程 这样计算的 是 一个点估计值,,105,3. Y 平均值的区间预测,基本思想: 由于存在抽样波动,预测的平均值 不一定等于真实平均值 ,还需要对 作区间估计。 为对Y 作区间预测,必须确定平均值预测值的抽 样分布,必须找出与 和 都有关的统计量,106,107,108,三、被解释变量个别值预测,1、点预测 既是对 平均值的点预测,也是对 个别值的点预测,109,2、区间预测,由于存在随机扰动 的影响, 的平均值并不等于 的个别值 为了对 的个别值 作区间预测,需要寻找与预测值 和个别值 有关的统计量,并

28、要明确其概率分布,110,具体作法:,已知剩余项 是与预测值 及个别值 都有关的变量,并且已知 服从正态分布,且可证明 当用 代替 时,对 标准化的变量 t 为,111,112,四、被解释变量Y 区间预测的特点,1、 平均值的预测值与真实平均值有误差,主要是 受抽样波动影响 个别值的预测值与真实个别值的差异,不仅受抽 样波动影响,而且还受随机扰动项的影响,113,114,2、平均值和个别值预测区间都不是常数,是随 的变化而变化的 3、预测区间上下限与样本容量有关,当样本容 量 时个别值的预测误差只决定于随机 扰动的方差,115,第六节 案例分析,提出问题:改革开放以来随着中国经济的快速发展,居

29、民的消费水平也不断增长。但全国各地区经济发展速度不同,居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 研究范围:全国各省市2002年城市居民家庭平均每人每年消费截面数据模型。,116,理论分析:影响各地区城市居民人均消费支出的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入。从理论上说可支配收入越高,居民消费越多,但边际消费倾向大于0,小于1。 建立模型: 其中:Y城市居民家庭平均每人每年消费支出(元) X城市居民人均年可支配收入(元),117,数据:从2002年中国统计年鉴中得到,118,(接上页数据表),119,估计参数,具体操作:使用EViews 软件包。估计结果:,假定模型中随机扰动满足基本假定,可用OLS法。,120,表示为,121,1. 可决系数: 模型整体上拟合好。 2. 系数显著性检验:给定 ,查 t 分布表, 在自由度为n-2=29时临界值为 因为 t = 20.44023 说明“城镇人均可支配收入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论