![第二章经典线性回归模型_第1页](http://file3.renrendoc.com/fileroot_temp3/2022-1/24/e35b83d4-628d-4eeb-a9a7-02764cc07182/e35b83d4-628d-4eeb-a9a7-02764cc071821.gif)
![第二章经典线性回归模型_第2页](http://file3.renrendoc.com/fileroot_temp3/2022-1/24/e35b83d4-628d-4eeb-a9a7-02764cc07182/e35b83d4-628d-4eeb-a9a7-02764cc071822.gif)
![第二章经典线性回归模型_第3页](http://file3.renrendoc.com/fileroot_temp3/2022-1/24/e35b83d4-628d-4eeb-a9a7-02764cc07182/e35b83d4-628d-4eeb-a9a7-02764cc071823.gif)
![第二章经典线性回归模型_第4页](http://file3.renrendoc.com/fileroot_temp3/2022-1/24/e35b83d4-628d-4eeb-a9a7-02764cc07182/e35b83d4-628d-4eeb-a9a7-02764cc071824.gif)
![第二章经典线性回归模型_第5页](http://file3.renrendoc.com/fileroot_temp3/2022-1/24/e35b83d4-628d-4eeb-a9a7-02764cc07182/e35b83d4-628d-4eeb-a9a7-02764cc071825.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、引例1:居民收入与消费有何种关系? 西方经济学理论代表福利经济学西方经济学理论代表福利经济学 家凯恩斯家凯恩斯(Keyness)认为认为: 随着收入的增加随着收入的增加,消费也会增加。消费也会增加。 收入直接制约着消费收入直接制约着消费,而收入分而收入分 配的严重不均配的严重不均,不仅会使社会中不仅会使社会中 产生不安因素产生不安因素,而且还大大影响而且还大大影响 消费需求的提高。消费需求的提高。居民居民收入与消费相关密切程度如何?收入与消费相关密切程度如何?居民居民收入和消费有着何种数量关系收入和消费有着何种数量关系?怎样根据收入的变动来估计消费的变动怎样根据收入的变动来估计消费的变动? 显
2、然,对居民消费起决定性影响作用的有显然,对居民消费起决定性影响作用的有“居民的可支居民的可支配收入配收入”,“对未来收入的预期对未来收入的预期”以及以及“物价水平物价水平”等等因素。因素。其中可支配收入占了主导地位,并且为了不使问题其中可支配收入占了主导地位,并且为了不使问题复杂化复杂化, 我们可以先对最简单的单一变量间数量关系加以讨我们可以先对最简单的单一变量间数量关系加以讨论论“居民消费居民消费”(Y)(Y)与与“居民可支配收入居民可支配收入”(X)”(X)有怎样的数量关系呢?有怎样的数量关系呢? 能否用某种线性或非线性关系式能否用某种线性或非线性关系式 Y= f ( X ) Y= f (
3、 X ) 去表现这种数量关系呢去表现这种数量关系呢? ?具体该具体该怎样去表现呢怎样去表现呢? ?需要研究经济变量之间数量关系的方法需要研究经济变量之间数量关系的方法引例引例2:中国汽车的保有量将会达中国汽车的保有量将会达1.41.4亿辆吗亿辆吗 ? ? 中国经济的快速发展,居民收入不断增加,中国经济的快速发展,居民收入不断增加,数以百万计的中国人开始得以实现拥有汽车的梦想,数以百万计的中国人开始得以实现拥有汽车的梦想,中国也成为世界上成长最快的汽车市场。中国交通中国也成为世界上成长最快的汽车市场。中国交通部副部长在中国交通可持续发展论坛上做出的预部副部长在中国交通可持续发展论坛上做出的预测测
4、 :“2020年,中国的民用汽车保有量将比年,中国的民用汽车保有量将比2003年的数字增长倍,达到年的数字增长倍,达到1.4亿辆左右亿辆左右”。 什么因素导致中国汽车数量的增长什么因素导致中国汽车数量的增长? ? 显然显然, ,影响中国汽车行业发展的因素并不是单一的,经济增影响中国汽车行业发展的因素并不是单一的,经济增长、居民收入、消费趋势、市场行情、业界心态、能源价格、长、居民收入、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境,都会使中国汽车行业面临机遇和挑战。道路发展、内外环境,都会使中国汽车行业面临机遇和挑战。4分析中国汽车行业未来的趋势,应当具体分析这样一些问题:分析中国
5、汽车行业未来的趋势,应当具体分析这样一些问题:中国汽车市场发展的状况如何?中国汽车市场发展的状况如何?(用销售量观测)(用销售量观测)影响中国汽车销量的主要因素是什么?影响中国汽车销量的主要因素是什么? (如收入、价格、费用、道路状况、能源、政策环境等)(如收入、价格、费用、道路状况、能源、政策环境等)各种因素对汽车销量影响的性质怎样?各种因素对汽车销量影响的性质怎样?(正、负)(正、负)各种因素影响汽车销量的具体数量关系是什么?各种因素影响汽车销量的具体数量关系是什么?所得到的数量结论是否可靠?所得到的数量结论是否可靠?中国汽车行业今后的发展前景怎样?应当如何制定汽车的产业中国汽车行业今后的
6、发展前景怎样?应当如何制定汽车的产业政策?政策?很明显,只用一个解释变量很难分析汽车产业的实际发展很明显,只用一个解释变量很难分析汽车产业的实际发展, ,简简单线性回归模型不能解决多因素问题的分析,还需要去寻求有单线性回归模型不能解决多因素问题的分析,还需要去寻求有更多个解释变量情况的回归分析方法。更多个解释变量情况的回归分析方法。 怎样分析多种因素的影响呢?怎样分析多种因素的影响呢?5一元回归模型一元回归模型 到到 多元回归模型多元回归模型在计量经济模型中,只有两个变量且为线性的回归模型最简单,在计量经济模型中,只有两个变量且为线性的回归模型最简单,称为一元线性回归模型。一元线性回归的原理可
7、以直接用代数称为一元线性回归模型。一元线性回归的原理可以直接用代数式去表述,较为直观,更容易理解和接受,但有应用局限性。式去表述,较为直观,更容易理解和接受,但有应用局限性。先讨论先讨论 一元线性回归模型,然后拓展到多元的情况。一元线性回归模型,然后拓展到多元的情况。本章主要讨论的问题本章主要讨论的问题 :回归分析的基本概念回归分析的基本概念线性回归模型参数的估计线性回归模型参数的估计回归方程的拟合优度回归方程的拟合优度参数的区间估计和假设检验参数的区间估计和假设检验回归模型预测回归模型预测 第一节第一节 回归分析与回归函数回归分析与回归函数 一、相关分析与回归分析一、相关分析与回归分析1 1
8、、经济变量之间的相互关系、经济变量之间的相互关系 性质上可能有三种情况性质上可能有三种情况: 确定性的函数关系确定性的函数关系 Y=f (X) 可用数学方法计算可用数学方法计算 例如:例如: 个人收入与所得税之间的关系个人收入与所得税之间的关系 经济变量之间的相互关系经济变量之间的相互关系不确定的统计关系不确定的统计关系相关关系相关关系 Y= f(X,) (为随机变量为随机变量) 可用统计方法分析可用统计方法分析 例如:收入与消费之间的关系例如:收入与消费之间的关系没有关系没有关系 不用分析不用分析例如:例如: 收入与天气的关系收入与天气的关系 2、相关关系 相关关系的描述相关关系的描述 最直
9、观的描述方式最直观的描述方式坐标图(散布图、散点图)坐标图(散布图、散点图) 函数关系函数关系(线性线性)相关关系相关关系(线性线性)没有关系没有关系相关关系相关关系(非线性非线性) 相关关系的类型类型 从涉及的变量数量看从涉及的变量数量看 简单相关简单相关 多重相关(复相关)多重相关(复相关)从变量相关关系的表现形式看从变量相关关系的表现形式看 线性相关线性相关散布图接近一条直线散布图接近一条直线 非线性相关非线性相关散布图接近一条曲线散布图接近一条曲线从变量相关关系变化的方向看从变量相关关系变化的方向看 正相关正相关变量同方向变化,同增同减变量同方向变化,同增同减 负相关负相关变量反方向变
10、化,一增一减变量反方向变化,一增一减 不相关不相关 3、相关程度的度量相关系数 如果如果 和和 总体的全部数据总体的全部数据都已知,都已知, 和和 的方差和的方差和协方差也已知,则协方差也已知,则 X和和Y的的总体总体线性相关系数线性相关系数: 其中:其中: -X 的方差的方差 -Y的方差的方差 -X和和Y的协方差的协方差如果只知道如果只知道 和和 的的样本观测值样本观测值,则,则 X和和Y的的样本样本线性相关系数线性相关系数: 其中:其中: 和和 分别是变量分别是变量X和和Y的样本观测值,的样本观测值, 和和 分别是变量分别是变量 X 和和Y 样本值的平均值。样本值的平均值。(, )()(
11、)Cov X YVar X Var Y(, )Cov X Y()Var X( )Var YXYYX_22()()()()iiXYiiXXYYrXXYYiXiY_X_YXY特点:特点:线性相关系数线性相关系数(包括总体和样本相关系数包括总体和样本相关系数)只反映变量间的只反映变量间的线性相关线性相关程度,不能说明非线性相关关系。程度,不能说明非线性相关关系。 X和和Y 都是相互都是相互对称对称的随机变量,的随机变量, , 注意:注意:对于特定的总体来说,对于特定的总体来说, 和和 的分布是既定的,总体相关的分布是既定的,总体相关系数系数 是客观存在的是客观存在的特定数值。特定数值。总体的两个变量
12、总体的两个变量 和和 的全部数值通常不可能直接观测,所的全部数值通常不可能直接观测,所以总体相关系数一般是未知的。以总体相关系数一般是未知的。样本相关系数样本相关系数 是随抽样而变动的是随抽样而变动的随机变量随机变量,是总体相关,是总体相关系数的样本估计值。系数的样本估计值。对相关系数的正确理解和使用对相关系数的正确理解和使用XYYXrrYXXYXYXYXYr只是相关分析还不能达到经济计量分析的目的只是相关分析还不能达到经济计量分析的目的 相关分析的局限相关分析的局限: : 相关系数只能反映变量间的线性相关程度,不能确相关系数只能反映变量间的线性相关程度,不能确 定变量间的因果关系定变量间的因
13、果关系 相关系数只能说明两个变量线性相关的方向和程度相关系数只能说明两个变量线性相关的方向和程度, ,不不 能说明相关关系具体接近哪条直线能说明相关关系具体接近哪条直线, ,也就不能说明一个也就不能说明一个 变量的变动会导致另一个变量变动的具体数量规律。变量的变动会导致另一个变量变动的具体数量规律。计量经济学关心的问题:计量经济学关心的问题: 是经济变量间的因果关系以及隐藏在随机性后面的具是经济变量间的因果关系以及隐藏在随机性后面的具体统计规律性体统计规律性 在这方面在这方面回归分析回归分析方法可以发挥更为重要的作用。方法可以发挥更为重要的作用。4 4、回归分析、回归分析回归的古典意义古典意义
14、: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 ( ( 父母身高与子女身高的关系父母身高与子女身高的关系) )子女的身高有向人的平均身高子女的身高有向人的平均身高 回归回归 的趋势的趋势回归的现代意义现代意义:一个被解释变量对若干个一个被解释变量对若干个解释变量依存关系的研究解释变量依存关系的研究回归的目的目的(实质实质):由固定的解释变量去估计由固定的解释变量去估计被解释变量的平均值被解释变量的平均值 注意明确几个概念注意明确几个概念(为深刻理解“回归”) 被解释变量被解释变量Y的的条件分布和条件概率条件分布和条件概率: 当解释变量当解释变量X取某固定值时(条件),取某固定值时(条件),Y
15、的值不确定,的值不确定,Y的不同取值会形成一定的分布,这是的不同取值会形成一定的分布,这是Y的的条件分布条件分布。 X取取某固定值时,某固定值时,Y取不同值的概率称为取不同值的概率称为条件概率条件概率。 被解释变量被解释变量Y的的条件期望条件期望: 对于对于X 的每一个取值,的每一个取值, 对对Y所形成的分布确所形成的分布确 定其期望或均值,称定其期望或均值,称 为为Y的的条件期望或条件均条件期望或条件均 值,值,用用 表示表示。 注意注意:Y:Y的条件期望是随的条件期望是随X X的变动而变动的的变动而变动的 iX)(iXYE)(iXYEYX回归线回归线:对于每一个:对于每一个X的取值的取值
16、,都有,都有Y的条件期望的条件期望 与之对应,代表与之对应,代表Y的条件期望的点的轨迹形成的条件期望的点的轨迹形成的直线或曲线称为回归线。的直线或曲线称为回归线。回归函数回归函数:被解释变量:被解释变量Y的条件期望的条件期望 随随解释变量解释变量X的变化而有规律的变化而有规律的变化,如果把的变化,如果把Y的条件期的条件期望表现为望表现为 X 的某种函数的某种函数 ,这个函数称为回归函数。这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数回归函数分为:总体回归函数和样本回归函数 iXX YiX()iE Y X()iE Y X()iE Y XE()()iiY Xf X每每 月月 家家
17、庭庭 可可 支支 配配 收收 入入 X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每每1548175018352265241926813156380240264345月月1688181418852367252228873300408741654812家家17381985194324852665305033214298438
18、0庭庭180020412037251527993189365443124580消消19022186207826892887335338424413费费220021792713291335344074支支231222982898303837104165出出2316292331673834 Y Y238730533310249831873510268932861591191520922586275430393396385340364148()iE Y X举例举例: 假如已知由假如已知由100100个家庭构成的总体的数个家庭构成的总体的数据据 (单位单位:元元)二、总体回归函数二、总体回归函数(PR
19、F)18家庭消费支出的条件期望与家庭收入的关系的图形家庭消费支出的条件期望与家庭收入的关系的图形:对于本例的总体,家庭消费支出的条件期望对于本例的总体,家庭消费支出的条件期望与家庭收入与家庭收入 基本是线性关系基本是线性关系, , 可以把家庭消费可以把家庭消费支出的条件均值表示为家庭收入的线性函数:支出的条件均值表示为家庭收入的线性函数:iiXXYE)()(iXYE)(iXYEiXiX19 1. 1. 总体回归函数的概念总体回归函数的概念 前提:前提:假如已知假如已知所研究的经济现象的总体的被解释变量所研究的经济现象的总体的被解释变量Y和解释变量和解释变量X的每个观测值的每个观测值(通常这是不
20、可能的!)(通常这是不可能的!),那,那么,可以计算出总体被解释变量么,可以计算出总体被解释变量Y的条件期望的条件期望 ,并将其表现为解释变量并将其表现为解释变量X的某种函数的某种函数 这个函数称为这个函数称为总体回归函数(总体回归函数(PRF) 本质本质: : 总体回归函数实际上表现的是特定总体中被解释变总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律计量经济学的根本目的是要探寻变量间数量关系的规律, ,也也就是要去寻求总体回归函数就是要去寻求总体回归函数。)()(iiXf
21、XYE)(iXYE20 iuiXXY)(iXYEiY条件期望条件期望表现形式表现形式例如例如Y的条件期望的条件期望 是解是解 释变量释变量X的线性函数,可表示为:的线性函数,可表示为: 个别值个别值表现形式表现形式(随机设定形式)(随机设定形式) 对于一定的对于一定的 ,Y的各个别值的各个别值 并不一定等于条件期望,而并不一定等于条件期望,而是分布在是分布在 的周围,若令各个的周围,若令各个 与条件期望与条件期望 的的偏差为偏差为 ,显然,显然 是个随机变量是个随机变量 则有则有 iYiYiX)(iXYE12()()iiiiE Y Xf XX)(iXYE)(iXYEiuiuiiiiiiXYXY
22、EYu21)(12iiiYXu2.2.总体回归函数的表现形式总体回归函数的表现形式PRF3.3.如何理解总体回归函数如何理解总体回归函数作为总体运行的客观规律,总体回归函数是客观存在作为总体运行的客观规律,总体回归函数是客观存在的,但在的,但在实际的经济研究中总体回归函数通常是实际的经济研究中总体回归函数通常是未知未知的,的,只能根据经济理论和实践经验去只能根据经济理论和实践经验去设定设定。计量经济学研究中计量经济学研究中“计量计量”的根本目的就是要寻求总体的根本目的就是要寻求总体回归函数。回归函数。我们所设定的计量模型实际就是在设定总体回归函我们所设定的计量模型实际就是在设定总体回归函数的具
23、体形式。数的具体形式。总体回归函数中总体回归函数中 Y Y 与与 X X 的关系可以是的关系可以是线性线性的,也可以的,也可以是是非线性非线性的。的。2122注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数就参数而言而言是是“线性线性”的的,因为只要对参数而言是线性的因为只要对参数而言是线性的,都都可以用类似的方法去估计其参数可以用类似的方法去估计其参数,都可以归于线性回归。都可以归于线性回归。iiiXXYE21)(12()lniiiE Y XXiiiXXYE21)(“线性线性”的判断的判断 三、随机扰动项三、随机扰动项u概念概念 在总体回归函数中,各在总
24、体回归函数中,各 个个 的值与其条件期望的值与其条件期望 的偏差的偏差 有很重有很重要的意义。若只有要的意义。若只有 影响影响Y, 与与 不应有偏差。不应有偏差。若偏差若偏差 存在,说明还有其他影响因素,存在,说明还有其他影响因素, 实际代表了排除在模型以外的所有因素对实际代表了排除在模型以外的所有因素对 Y 的影响。的影响。性质性质 是其期望为是其期望为 0 有一定分布的随机变量有一定分布的随机变量重要性:重要性:随机扰动项的性质决定着计量经济分析结随机扰动项的性质决定着计量经济分析结 果的性质和计量经济方法的选择果的性质和计量经济方法的选择23iuiuiY)(iiXYEiuiXXY()iE
25、 Y XiYiuiY)(iiXYEXiu 引入随机扰动项引入随机扰动项 的原因的原因 是是未知未知影响因素影响因素的代表的代表( (理论的模糊性理论的模糊性) ) 是是无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表( (数据欠缺数据欠缺) ) 是是众多细小影响因素众多细小影响因素的综合代表的综合代表( (非系统性影响非系统性影响) ) 模型可能存在模型可能存在设定误差设定误差( (变量、函数形式的设定)变量、函数形式的设定) 归并误差归并误差( (不同种类粮食不合理的归并为不同种类粮食不合理的归并为“粮食产量粮食产量”) 模型中变量可能存在模型中变量可能存在观测误差观测误差(
26、 (变量数据不符合实际变量数据不符合实际) ) 变量可能有内在变量可能有内在随机性随机性( (人类经济行为的内在随机性人类经济行为的内在随机性) )24iu四、样本回归函数四、样本回归函数(SRF)样本回归线:样本回归线: 对于对于X的一定值,取得的一定值,取得Y 的样本观测值,可计算其条件的样本观测值,可计算其条件 均值,样本观测值条件均值的轨迹,称为样本回归线。均值,样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:样本回归函数:如果把被解释变量如果把被解释变量Y的样本条件的样本条件均值均值 表示为解释变量表示为解释变量X的某种的某种函数,这个函数称为样本回归函函数,这个函数称为样本
27、回归函数(数(SRF)。)。 25XYiYiYiXSRF26 样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为 其中:其中: 是与是与 相对应的相对应的 Y 的样本条件均值的样本条件均值 和和 分别是样本回归函数的参数分别是样本回归函数的参数 个别值(实际值)形式:个别值(实际值)形式: 被解释变量被解释变量Y的实际观测值的实际观测值 不完全等于样本条件均值不完全等于样本条件均值 ,二者之差用二者之差用 表示,表示, 称为称为剩余项剩余项或或残差项残差项: 则则 或或 12iiYXiY12iYieiiieYY12iiiYXeiXie样本回归函数的函数形式样本回归函数的函
28、数形式iY条件均值形式:条件均值形式:对样本回归的理解对样本回归的理解 如果能够通过某种方式获得如果能够通过某种方式获得 和和 的数值,显然的数值,显然: 和和 是对总体回归函数参数是对总体回归函数参数 和和 的估计的估计 是对总体条件期望是对总体条件期望 的估计的估计 在概念上类似总体回归函数中的在概念上类似总体回归函数中的 ,可视,可视 为对为对 的估计。的估计。27对比:对比: 总体回归函数总体回归函数 样本回归函数样本回归函数12iYieiuiu12()iiE Y X1212()iiiE Y XX12iiiYXu12iiYX12iiiYXe样本回归函数样本回归函数的特点的特点样本回归线
29、随抽样波动而变化样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归每次抽样都能获得一个样本,就可以拟合一条样本回归线,线,(SRF不唯一不唯一) Y SRF1 SRF2 样本回归函数的函数形式样本回归函数的函数形式应与设定的总体回归函数的应与设定的总体回归函数的函数形式一致。函数形式一致。 X 样本回归线只是样本条件均值的轨迹,还不是总体回归样本回归线只是样本条件均值的轨迹,还不是总体回归 线,它至多只是未知的总体回归线的近似表现。线,它至多只是未知的总体回归线的近似表现。28样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系 SRF PRF A X 2
30、9iYYiYiY()iiE Y XieiuiX30 目的: 计量经济分析的目标是寻求总体回归函数计量经济分析的目标是寻求总体回归函数。即用样本即用样本回归函数回归函数SRF去估计总体回归函数去估计总体回归函数PRF。 由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF 总会总会过高或过低估计过高或过低估计PRF。要解决的问题:要解决的问题: 寻求一种规则和方法,使其得到的寻求一种规则和方法,使其得到的SRF的参数的参数 和和 尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数 和和 的真实值。这样的的真实值。这样的“规则和方法规则和方法”有多种,如矩估计、
31、有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。二乘法。11212回归分析的目的回归分析的目的 五五. . 多元线性回归模型多元线性回归模型 1、多元线性回归模型的意义、多元线性回归模型的意义 一般形式:对于有一般形式:对于有K-1个解释变量的线性回归模型个解释变量的线性回归模型 注意:注意:模型中的模型中的 (j=1,2,-k)是是偏回归系数偏回归系数 样本容量为样本容量为n 偏回归系数偏回归系数: 控制其它解释量不变的控制其它解释量不变的条件条件下,第下,第j j个解释变量的个解释变量的单位变动对被解释变量平均值的影
32、响,即对单位变动对被解释变量平均值的影响,即对Y Y平均值平均值“直接直接”或或“净净”的影响。的影响。 ikikiiiuXXXY33221j(1,2,)in31多元线性回归中的多元线性回归中的“线性线性”指对各个回归系数而言是指对各个回归系数而言是“线性线性”的,对变量则可的,对变量则可以是线性的,也可以是非线性的以是线性的,也可以是非线性的例如:例如:Cobb-Douglas生产函数生产函数取对数取对数这也是多元线性回归模型,只是这时变量为这也是多元线性回归模型,只是这时变量为lnY、lnL、lnKuKALYuKLAYlnlnlnlnln32 多元总体回归函数多元总体回归函数 条件期望表现
33、形式:条件期望表现形式:将将Y Y的总体条件期望表示为多个解释变量的函数,如的总体条件期望表示为多个解释变量的函数,如: :注意:这时注意:这时Y总体条件期望的轨迹是总体条件期望的轨迹是K维空间的一条线维空间的一条线个别值表现形式:个别值表现形式:引入随机扰动项引入随机扰动项或表示为或表示为 kikiikiiiiXXXXXXYE3322132),(ikikiiiuXXXY33221(1,2,)in(1,2,)in23(,)iiiiikiuYE Y XXX33 多元样本回归函数多元样本回归函数 Y 的样本条件均值可表示为多个解释变量的函数的样本条件均值可表示为多个解释变量的函数 或回归剩余(残差
34、):或回归剩余(残差): 其中其中 iiieYY12323ikiikiYXXX12323kiiikiiYXXXe1,2,in34 2、多元线性回归模型的矩阵表示多元线性回归模型的矩阵表示 多个解释变量的多元线性回归模型的多个解释变量的多元线性回归模型的n组样本观测值,可组样本观测值,可表示为表示为 用矩阵表示用矩阵表示 1131321211uXXXYkk2232322212uXXXYkknknknnnuXXXY33221nkknnkknuuuXXXXXXYYY21212222121211111n1n1kknXYu35总体回归函数总体回归函数 或或样本回归函数样本回归函数 或或 其中:其中: 都
35、是有都是有n个元素的列向量个元素的列向量 是有是有k 个个 元素的列向量元素的列向量 ( k = 解释变量个数解释变量个数 + 1 ) 是第一列为是第一列为1的的nk阶解释变量阶解释变量数据矩阵数据矩阵 , (截距项可视为解释变量总是取值为截距项可视为解释变量总是取值为1) ,Y = X+ u(E Y)= XY,Y,u,e矩阵表示方式Y = XY = X+eX36第二节第二节 线性回归模型的参数估计线性回归模型的参数估计用样本去估计总体回归函数,总要使用特定的方法,而任用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件何估计参数的方法都需要有一定的前提条件
36、假定条件假定条件 一、一、线性回归模型的基本假定线性回归模型的基本假定 为什么要作基本假定?为什么要作基本假定? 只有具备一定的假定条件,所作出的估计才具有良好只有具备一定的假定条件,所作出的估计才具有良好的的统计性质统计性质。 因为模型中有随机扰动项,估计的参数是随机变量,因为模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地随机扰动的分布作出假定,才能比较方便地确定所估确定所估计参数的分布性质计参数的分布性质,也才可能进行,也才可能进行假设检验和区间估假设检验和区间估计
37、计等统计推断等统计推断。假定分为:假定分为:对模型和变量的假定对模型和变量的假定对随机扰动项的假定对随机扰动项的假定 371. 1.对模型和变量的假定对模型和变量的假定如对于如对于 假定模型设定是正确的(变量和模型假定模型设定是正确的(变量和模型无设定误差)无设定误差)假定解释变量假定解释变量X在重复抽样中取固定值在重复抽样中取固定值。 假定解释变量假定解释变量X是非随机是非随机的,或者虽然的,或者虽然X是随机的,是随机的,但但与扰动项与扰动项u是不相关是不相关的。的。(从变量从变量X角度看角度看)注意注意: 解释变量非随机在自然科学的实验研究中容易满足,经济领域变量的观测是被动不可控的,X非
38、随机的假定不容易满足。38Y = X+ u2.2.对随机扰动项对随机扰动项u u的假定的假定 假定假定1 1:零均值假定(强外生性)零均值假定(强外生性): 在给定在给定X的条件下,的条件下, 的条件期望为零的条件期望为零 假定假定2 2:同方差假定同方差假定: 在给定在给定X的条件下,的条件方差为某个常数的条件下,的条件方差为某个常数 39iu22)()(iiiiiXuEuEXuVariu()0iiE u X240 假定假定3 3:无自相关假定无自相关假定: 随机扰动项随机扰动项 的逐次值互不相关的逐次值互不相关 假定假定4 4:解释变量解释变量 是非随机的,或者虽然是非随机的,或者虽然 是
39、随是随机的但与扰动项机的但与扰动项 不相关(弱外生性)不相关(弱外生性) (从随机扰动从随机扰动 角度看角度看) iuiuiXiu( ,)( )()()0()ijiijjijCov u uE uE uuE uE uuijCov(ui,Xki)EuiE(ui)XkiE(Xki)0iX假定假定5: 无多重共线性假定无多重共线性假定 假定各解释变量之间不存在线性关系,或各个假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观解释变量观测值之间线性无关。或解释变量观测值矩阵测值矩阵X的秩为的秩为K(注意注意X为为n行K列列)。 Rank(X)= k Rank(XX)=k 即
40、即 (XX) 可逆可逆 41242假定假定6:注意注意: :并不是参数估计的每一具体步骤都要用到所有的假定并不是参数估计的每一具体步骤都要用到所有的假定, ,但对全部假定有完整的认识但对全部假定有完整的认识, ,对学习计量经济学的原理对学习计量经济学的原理是有益的。是有益的。iuiu2( ,)Nu0I在对在对 的基本假定下的基本假定下 Y Y 的分布性质的分布性质由于由于其中的其中的 和和 是非随机的,因此是非随机的,因此 的分布性质决定了的分布性质决定了 的分布性质。的分布性质。 对对 的一些假定可以等价地表示为对的一些假定可以等价地表示为对 的假定:的假定: 假定假定1:零均值假定:零均值
41、假定 假定假定2:同方差假定:同方差假定 假定假定3:无自相关假定:无自相关假定 假定假定6:正态性假定:正态性假定 43iuiuiuiYiYYN(X,2I)E(Y X)XX2()iiVar Y X( ,)0ijCov Y YY = X+ u 二、普通最小二乘法普通最小二乘法(OLS) (Ordinary Least SquaresOrdinary Least Squares)1. OLS的基本思想:的基本思想: 对于对于 ,不同的估计方法可以得到不同的样本,不同的估计方法可以得到不同的样本回归参数回归参数 ,所估计的,所估计的 也就不同。也就不同。 理想的估计方法应使估计的理想的估计方法应使
42、估计的 与真实的与真实的 的差的差(即剩即剩余余 )总的来说越小越好总的来说越小越好 因因 可正可负,总有可正可负,总有 ,所以可以取,所以可以取 最最小,即小,即在观测值在观测值Y和和X确定时,确定时, 的大小决定于的大小决定于 。44YYiieie2ieYi2ieYX0ie 2min:min:min:() ()iee eY-XY-X 2. 正规方程和估计式正规方程和估计式 45因此对因此对 取偏导数并令其为取偏导数并令其为0,可得正规方程,可得正规方程因为样本回归函数为因为样本回归函数为 两边左乘两边左乘根据最小二乘原则根据最小二乘原则则正规方程为则正规方程为000111212122221
43、2eXnknkknikiiiieeeXXXXXXeXeXeXe0Y = X+eX Y = X X+ X eXX e = 0X X = X Y(),k k是满秩矩阵 其逆存在X X-1 = (X X) X Y46 在一元回归中,为表达得更简洁,或者用离差形式在一元回归中,为表达得更简洁,或者用离差形式OLS估计式估计式: 容易证明容易证明由正规方程:由正规方程: 注意:注意:其中:其中: 本课程中大写的本课程中大写的 和和 均表示观测值;均表示观测值; 小写的小写的 和和 均表示观测值的离差均表示观测值的离差而且由而且由样本回归函数可用离差形式写为样本回归函数可用离差形式写为 _12YXXXxi
44、iYYyii一元回归离差表现的一元回归离差表现的OLSOLS估计式估计式iiiyxiiXY2112YXixiyiXiY_22_222()()()()iiiiiiiiiiiinX YXYXX YYx yxnXXXX3. OLS3. OLS回归线的数学性质回归线的数学性质 回归线通过样本均值回归线通过样本均值 估计值估计值 的均值等于实际观测值的均值等于实际观测值 的均值的均值 剩余项剩余项 的均值为零的均值为零 被解释变量估计值被解释变量估计值 与剩余项与剩余项 不相关不相关 解释变量解释变量 与剩余项与剩余项 不相关不相关 (j=1,2,-k)23123kkYXXXiYiYie0neeiiiY
45、ie(,)0iiCov Y e()0iie yieiX0),(ijieXCov或iYnY474. OLS4. OLS估计式的统计性质估计式的统计性质回顾第回顾第1章:参数估计式的优劣需要有评价的标准章:参数估计式的优劣需要有评价的标准 参数无法通过观测直接确定,只能通过样本估计,但因参数无法通过观测直接确定,只能通过样本估计,但因存在抽样波动存在抽样波动,参数估计值不一定等于总体参数的真实值参数估计值不一定等于总体参数的真实值。 参数估计方法及所确定的估计式不一定完备,不一定参数估计方法及所确定的估计式不一定完备,不一定能得到总体参数的真实值,需要对估计方法作评价与选择。能得到总体参数的真实值
46、,需要对估计方法作评价与选择。比较不同估计方法的估计结果时,需要有一定的评价标准比较不同估计方法的估计结果时,需要有一定的评价标准 基本要求:基本要求:参数估计值应尽可能地接近总体参数的真实值参数估计值应尽可能地接近总体参数的真实值估计准则:估计准则:“尽可能地接近尽可能地接近” 原则原则决定于参数估计式的统计性质:无偏性、有效性、一致性等。决定于参数估计式的统计性质:无偏性、有效性、一致性等。4849 (1) 无偏性 前提:前提:重复抽样重复抽样中中估计方法固定估计方法固定、样本数不变样本数不变、经、经 重复抽样的观测值重复抽样的观测值, ,可得一系列参数估计值可得一系列参数估计值 , ,的
47、分布称为的分布称为 的抽样分布,其密度函数记为的抽样分布,其密度函数记为如果如果 称称 是参数是参数的无偏估计式,否则的无偏估计式,否则 则称则称 是有偏的估计,其偏倚为是有偏的估计,其偏倚为 (见图2)( )f( )E( )E( )E50 概 率 密 度 估计值 偏倚偏倚)(*E( )f)(*f图251 (2) (2)有效性有效性前提:前提:样本相同样本相同、用、用不同的方法不同的方法估计参数,可以找到若干估计参数,可以找到若干个不同的无偏估计式个不同的无偏估计式 目标目标: 努力寻求其抽样分布具有最小方差的估计式努力寻求其抽样分布具有最小方差的估计式 (见图(见图3 3) 既是无偏的同时又
48、具有最小方差特性的估计式,称为既是无偏的同时又具有最小方差特性的估计式,称为最佳最佳 (有效)估计式。(有效)估计式。52概概率率密密度度图 3*()f( )f估计值估计值( )f (3)渐近性质渐近性质(大样本性质)(大样本性质)思想思想:当样本容量较小时,有时很难找到方差最小的无偏估计,当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(需要考虑样本扩大后的性质(估计方法不变估计方法不变,样本数逐步增大样本数逐步增大)一致性:一致性: 当样本容量当样本容量 n 趋于无穷大时,如果估计式趋于无穷大时,如果估计式 依概率收敛于总体依概率收敛于总体参数的真实值,就称这个估
49、计式参数的真实值,就称这个估计式 是是 的一致估计式。即的一致估计式。即 或或 (渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)估计式) (见图4)渐近有效性:渐近有效性:当样本容量当样本容量 n 趋于无穷大时,在所有的一致估计趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。式中,具有最小的渐近方差。531)(limPnP)lim(54概率密度估计值图 4100()f80( )f40()f20()f OLSOLS估计式的统计性质估计式的统计性质 1、 线性线性特征 是是Y的线性函数,因的线性函数,因 是非随机或取固是非
50、随机或取固定值的矩阵定值的矩阵 2、 无偏无偏特性 3、 最小方差最小方差特性 在在 所有的线性无偏估计中,所有的线性无偏估计中,OLS估计估计 具有最小方差具有最小方差 结论:结论:在古典假定下,多元线性回归的在古典假定下,多元线性回归的 OLS估估 计式是最佳线性无偏估计式(计式是最佳线性无偏估计式(BLUE)高斯定理高斯定理E()-1(X X) X-1 = (X X) X Y55一、极大似然估计的思想:一、极大似然估计的思想:举例:举例:对一种药物,药剂师认为有效率为对一种药物,药剂师认为有效率为70%70%。生产该。生产该药物的公司声称药物的公司声称: :有效率为有效率为90%90%,
51、谁的说法更可信呢谁的说法更可信呢? ? 统计学家抽取统计学家抽取1010个病人,发现有个病人,发现有8 8人被治愈人被治愈 若真实概率为若真实概率为P=0.7时时: 产生产生“10个病人有个病人有8个治愈个治愈” 结果的概率为结果的概率为:(实验结果只有实验结果只有“治愈治愈”和和“未治愈未治愈”是二项分布是二项分布)5. 简单线性回归模型的极大似然估计8210!0.70.30.23358! 2!568210!0.90.10.19378! 2!若真实概率为若真实概率为P=0.9时,产生时,产生“10个病人有个病人有8个治愈个治愈” 结果的概率为结果的概率为: 统计学家判断:统计学家判断:有效率
52、为有效率为0.70.7作为真实有效率的估计作为真实有效率的估计值比值比0.90.9更为可信。更为可信。( (为什么为什么?)?)极大似然原理:极大似然原理:“一个事件由于与实际最近似而发生一个事件由于与实际最近似而发生”原理原理: :一个事件之所以会发生,是因为存在着一个事件之所以会发生,是因为存在着产生这一事件概率最大的客观现实(总体)。产生这一事件概率最大的客观现实(总体)。 总体的分布规律是由其总体的分布规律是由其分布性质分布性质和和参数参数决定的。决定的。 样本观测值是从总体中抽取而得到的,从总体中样本观测值是从总体中抽取而得到的,从总体中随机抽取容量为随机抽取容量为n的样本观测值时,
53、这的样本观测值时,这n组样本观测组样本观测值会以一定的概率出现。值会以一定的概率出现。 当从总体中随机抽取当从总体中随机抽取n组样本观测值后,要寻求组样本观测值后,要寻求最可能产生该最可能产生该n组样本的那个总体的参数。组样本的那个总体的参数。 最合理的参数估计量应该是能够最合理的参数估计量应该是能够使得从总体中抽使得从总体中抽取出该取出该n组样本观测值的概率最大。组样本观测值的概率最大。57多元线性回归模型的极大似然估计对于多元线性回归模型对于多元线性回归模型 由于由于 易知易知 其中其中: Y的随机抽取的的随机抽取的n组样本观测值的联合概率组样本观测值的联合概率(似然函数)为:为: 122
54、33iiikikiiYXXXu2(0,)iuN2(,)iYNiX 23(1,)iiikiXXXX212233222121()221() ()22( ,)( ,)1(2 )1(2 )iiiikkinYXXXnnnnLP Y YYeeY-XY-X58对数似然函数为对数似然函数为对对数似然函数求极大值,也就是对对对数似然函数求极大值,也就是对 求极小值。因此,参数的极大似然估计为求极小值。因此,参数的极大似然估计为结果与参数的普通最小二乘估计相同结果与参数的普通最小二乘估计相同 *21( )( 2)() ()2LLn LnLn Y-XY-X() ()Y-XY-X-1 =(XX) XY59扰动项方差
55、的极大似然估计由对数似然函数求极大值由对数似然函数求极大值:多元线性回归极大似然估计下随即扰动项方差的多元线性回归极大似然估计下随即扰动项方差的估计为估计为: 可以证明可以证明 的极大似然估计量不具无偏性,但却具的极大似然估计量不具无偏性,但却具有一致性有一致性。可证明多元回归中可证明多元回归中 的无偏估计为:的无偏估计为: 或表示为 22() ()iennY-XY-X*2241() ()22nL Y-XY-X22602knei222nke e 第三节第三节 拟合优度的度量拟合优度的度量概念概念:样本回归线是对样本数据的样本回归线是对样本数据的一种拟合。一种拟合。不同的模型(不同函数形式不同的
56、模型(不同函数形式)可拟合出不同的回归线可拟合出不同的回归线相同的模型用不同方法估计相同的模型用不同方法估计参数,可以拟合出不同的回归线参数,可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度线对样本观测数据拟合的优劣程度称为称为拟合优度拟合优度如何度量拟合优度呢?如何度量拟合优度呢?拟合优度的度量建立在对拟合优度的度量建立在对 Y 的总变差分解的基础上的总变差分解的基础上61XY 一、总变差的分解一、总变差的分解 分析分析Y的观测值的观测值 、估计值、估计值 与平均值与平均值 有以下关系有以下关系 将上
57、式两边平方加总,可证得将上式两边平方加总,可证得(提示:交叉项(提示:交叉项 ) (TSS) (ESS) (RSS) 或者表示为或者表示为 总变差总变差 (TSS):被解释变量:被解释变量Y的观测值与其平均值的离差平的观测值与其平均值的离差平 方和方和(总平方和)(总平方和)(说明说明 Y 的变动程度)的变动程度) 解释了的变差解释了的变差 (ESS):被解释变量:被解释变量Y的估计值与其平均值的的估计值与其平均值的 离差平方和离差平方和(回归平方和)(回归平方和) 剩余平方和剩余平方和 (RSS):被解释变量观测值与估计值之差的平方:被解释变量观测值与估计值之差的平方 和和(未解释的平方和)
58、(未解释的平方和)62()()iiiiYYYYYY222()()()iiiiYYYYYY2iy222iiiyye2ie()0iiYY e2iyiYiYY Y X 63iYYiX来自残差SRF变差分解的图示变差分解的图示(以某一个观测值为例以某一个观测值为例)()iYY 来自回归ie()iYY 变差iYiY 二、可决系数二、可决系数 以以TSS同除总变差等式两边:同除总变差等式两边: 或或 定义:定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS) 在总变在总变 差(差(TSS) 中所占的比重称为可决系数,用中所占的比重称为可决系数,用 或或 表示表示: 642iy2r2iy222iy
59、Ry2221iieRy 22221iiiyyey或或2R222222()()()()()()iiiiiiiYYYYYYYYYYYY可决系数的作用可决系数的作用 可决系数越大,说明在总变差中由模型作出了解可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反释的部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合之可决系数越小,说明模型对样本观测值的拟合程度越差。程度越差。 可决系数的特点可决系数的特点: 可决系数取值范围:可决系数取值范围: 随抽样波动,样本可决系数随抽样波动,样本可决系数 是随抽样而变是随抽样而变 动的随机变量动的随机
60、变量 可决系数是非负的统计量可决系数是非负的统计量65201R2R一元回归可决系数与相关系数的数值关系一元回归可决系数与相关系数的数值关系联系:联系:一元回归时,数值上可决系数是相关系数的平方一元回归时,数值上可决系数是相关系数的平方662222222222222222222222()()()()()()()iiiiiiiiiiiiiiiiiiiyxRyyxxyyx yx yxyxyrx yx可决系数与相关系数的区别可决系数与相关系数的区别区别:区别: 可决系数可决系数 相关系数相关系数 就模型而言就模型而言 就两个变量而言就两个变量而言 说明解释变量对被解释说明解释变量对被解释 说明两变量线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全球及中国饲料中间体化学品行业头部企业市场占有率及排名调研报告
- 2025-2030全球高速标签打印机行业调研及趋势分析报告
- 2025年全球及中国汽车座椅加热通风线束行业头部企业市场占有率及排名调研报告
- 2025-2030全球条形码库存管理系统行业调研及趋势分析报告
- 2025-2030全球生物基电池行业调研及趋势分析报告
- 2025年全球及中国农场畜牧管理软件行业头部企业市场占有率及排名调研报告
- 2025-2030全球印刷级热敏纸行业调研及趋势分析报告
- 担保函保证合同
- 2025监控售后维修合同
- 房屋买卖合同范文
- 河南2025年河南职业技术学院招聘30人笔试历年参考题库附带答案详解
- 成人氧气吸入疗法-中华护理学会团体标准
- 北方春节的十大风俗
- 婚介公司红娘管理制度
- 煤矿电气试验规程
- JCT796-2013 回弹仪评定烧结普通砖强度等级的方法
- 物业客服培训课件PPT模板
- 员工工资条模板
- 火力发电厂节能管理制度实施细则
- 华为携手深圳国际会展中心创建世界一流展馆
- 2023版思想道德与法治专题2 领悟人生真谛 把握人生方向 第3讲 创造有意义的人生
评论
0/150
提交评论