第二章-简单线性回归模型-课件_第1页
第二章-简单线性回归模型-课件_第2页
第二章-简单线性回归模型-课件_第3页
第二章-简单线性回归模型-课件_第4页
第二章-简单线性回归模型-课件_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章简单线性回归模型计量经济学本章主要讨论: 回归分析与回归函数 简单线性回归模型参数的估计 拟合优度的度量 回归系数的区间估计和假设检验 回归模型预测第一节 回归分析与回归函数一、相关分析与回归分析(一)经济变量之间的相互关系 相关关系 1、总体相关 变量之间具有本质上的联系 2、样本相关 变量的样本观察值之间相关在概率统计中,我们将随机变量之间的关系总结为: 相互独立(没有任何联系) 不独立线性相关非线性相关正相关负相关相互独立:比如,张三的身体健康水平与李四的学习成绩之间,没有任何联系。不独立(有联系):张三的身体健康水平与他自己的学习成绩之间,有联系。线性相关:比如,收入与消费、投资

2、与GDP、收入水平与汽车销售量等等。美国的收入与消费的散点图:非线性相关:非线性相关:非线性相关的模拟数据:正相关:两个量变化的方向相同负相关:两个量变化的方向相反(二)简单线性相关关系的度量 1、简单线性相关系数 (简称为相关系数) 总体相关系数:式中,Cov(X,Y),表示X与Y的协方差,Var(X)、Var(Y)表示X、Y的方差 样本相关系数:式中,Xi、Yi分别表示X与Y的样本数据, 分别表示X、Y的均值。 在Eviews中计算相关系数的命令为:COR X,Y 2、相关系数的性质 1)-1r1 2)r的绝对值越近于1,说明线性相关程度越高,越近于0,说明线性相关程度越低。 3)r=1,

3、称为完全正相关。 4)r=-1,称为完全负相关。 5)接近于1,比如0.98,称为高度正相关。 6)接近于-1,比如-0.95,称为高度负相关。完全正相关:比如,在价格P不变时,销售收入Y与销售量X之间。完全负相关:高度正相关:高度负相关: (三)回归分析 “回归(Regression)”一词最早出现在生物学的遗传现象研究中,用来指子辈身高相对于父辈身高趋向其平均水平的倾向。现在这一术语广泛地用来指随机因果关系中变量之间的统计规律。回归分析方法是计量经济学的基础。 经济变量之间的因果关系有两种:确定性的因果关系与随机的因果关系。前者可以表示为数学中的函数关系,后者不能像函数关系那样比较精确地描

4、述其变化规律,但是可以通过分析大量的统计数据,找寻出它们之间的一定的数量变化规律,这种通过大量统计数据归纳出的数量变化规律称之为统计相关关系,进而称为回归关系。研究回归关系的方法称为回归分析方法,表示回归关系的数学式子称为回归方程。 比如,在市场经济条件下,当商品的价格变化时,虽然商品的销售量受其价格变化的影响,但销售量并不能由价格惟一确定,它还受到人们的消费习惯、收入水平以及可替代品价格等因素 的影响。 像这种销售量与其价格之间的关系,我们称之为非确定性的因果关系,这时尽管我们不能像函数关系那样比较精确地描述其变化规律,但是,可以通过分析有关销售量与其价格的统计数据, 找寻出它们之 间的一定

5、的 数量变化 规律。 二、总体回归模型 假设 X 为一个经济变量,Y 为另一个经济变量,且变量 X 与 Y 之间存在着非确定性的因果关系,即当 X 变化时会引起 Y 的变化,但这种变化是随机的。例如,某种饮料的销售量与气温的关系,销售量受气温的影响而变化,但其变化又不能由气温惟一确定;再比如,家庭的周消费额与周收入之间的关系等等。 由于变量Y的非确定性是由于它受一些随机因素的影响,因此可以认为,当给定变量 X 的一个确定值之时,所对应的变量 Y 是一个随机变量,记作Y|X 。假定条件随机变量 Y|X 的数学期望值是存在的,即 E( Y|X ) 存在,由于同一随机变量的数学期望值是惟一的,故 E

6、(Y|X ) 能够由 X 的值惟一地确定,于是 E(Y|X )是变量X 的函数, 令 (2.1) 我们称(2.1)式为变量 Y 关于变量 X 的总体回归方程(Population Regression Equation)或称总体回归函数(Population Regression Function),回归函数的图像称为回归曲线。这里,(X) 是X 的一元函数,它可以是任何一种形式,其中最简单的形式就是线性函数,当为线性函数之时, 令 这时 (2.1) 式变为 (2.2) 现在的总体回归方程为线性方程,我们称 (2.2) 式为变量Y 关于变量 X 的总体线性回归方程,由于只有一个解释变量,故称为

7、总体一元线性回归方程。此时,回归曲线变成了直线,我们称它为总体回归直线 令 U = Y E(Y|X) (2.3) 即U为变量 Y中不能由变量X的线性关系表示的部分,由于对应 X 的每一个给定值 X=X0 ,所对应的 Y 为一个随机变量,因此 ,可以将 Y 看成一簇随机变量(即一系列随机变量组成的集合),从而U 也为一簇随机变量。将 (2.2) 、(2.3) 结合可得: 我们称(2.4)为变量Y 关于变量 X 的总体一元线性回归模型。式中,X 称为解释变量,Y 称为被解释变量, 称为总体回归参数,U 称为随机扰动项,或称随机项,或称扰动项,或称误差项。 三、扰动项的本质含义 在上述总体一元线性回

8、归模型中,将被解释变量Y与回归函数部分 之差定义作扰动项,即将被解释变量Y分为两部分,一部分是可以由X的线性函数解释的部分,即 ,另一部分是不能由 X 的线性函数解释的部分,即扰动项U ,扰动项U具体包含以下四部分内容: 1. 被忽略的有关因素 在一元线性回归模型中,我们讨论由于解释变量 X 的变化而引起被解释变量 Y 的变化,但事实上,影响经济变量 Y 的不止一个因素 X ,比如说还有其他 m 个因素对 Y 有影响,而当变量 X 是影响变量 Y 的主要一个因素时,且我们又着重考虑 X 对 Y 的影响之时,就忽略了其他有关 的m 个变量,只考虑X 对 Y 的影响,这时,其他m 个被省略的有关变

9、量对 Y 的影响仍然是存在的,其影响即并入扰动项 U 中。 2. 回归函数的设定误差 在实际应用中,为了避免计算的复杂性,或者由于技术处理上的局限性,我们在选取总体回归函数时,往往是取其近似形式。这时,所选用的回归函数与本质上存在的回归函数之间有一定的误差。再则,如前所述,大多数情况下,总体回归函数的形式是未知的,我们只能根据样本观察点的分布情况来近似地设定总体回归函数,这种设定自然会产生一定的误差,上述误差也包括在扰动项之中。 3. 变量的测量误差 变量的测量误差包含两方面的内容,一方面,在观察或测量变量数据的过程中,总要产生某些主观或客观上的误差,使有关变量的观察值并不精确地等于其实际值;

10、另一方面,有些经济变量是一种综合性变量,其统计数据通过若干个变量的统计数据归并而得,归并过程中的各种误差也是一种测量误差。 例如,统计资料中,同一经济指标,常常由于计算口径不一致而造成数据的不一致,其中大部分是由于指标的分类与归并方法不同 而造成的。 4. 随机误差 经济过程的运行不可能像自然科学那样在可控实验室中进行,这就不可避免地会涉及到一些不可控制的因素的影响,如气候变量等自然因素的影响、消费偏好等人文因素的影响等等。即使没有以上13项误差,在相同的条件下运行同一经济过程,所得结果往往也不一样。这种差异就是随机误差,它是由于一些随机或偶然的因素而造成的。四、样本回归模型 在经济现象的研究

11、中,经济变量的总体分布大多数是未知的,比如,消费支出的精确分布我们无从所知。因此总体线性回归方程中的参数具体等于多少也是未知的,总体参数只是理论上存在的。我们只能根据样本观察值进行统计推断,以此来估计总体回归方程和总体回归参数。 假设取得X与Y的n个样本观察点(X1,Y1),(X2,Y2),.,(Xn ,Yn),设法用这n个点拟合一直线,使之近似地代替总体回归直线,令 该直线方程为 我们称(2.8)式为变量 Y 关于变量X 的样本回归方程(Sample Regression Equation)或称样本回归函数(Sample Regression Function ),称该直线为样本回归直线,

12、称为样本回归参数。 令 (2.9) 称 为Yi 的拟合值。则 是样本回归直线上的点。 设 (2.10) 则 (2.11) 我们称(2.11)式为变量Y 关于变量 X 的样本一元线性回归模型。e i 称为残差项(RESIDAL)。 例2.1 家庭消费模型 假定某地区共有100个家庭,我们来研究家庭月消费支出Y与可支配收入X之间的联系,X与Y之间的关系如何?我们收集样本数据(如表2.1),收入水平X的取值分别为1000、1500、2000、2500、3000、3500、4000、4500、5000、5500,同一收入水平的下的家庭个数不等,比如收入为1000的家庭有4个,而收入为3000的家庭有1

13、4个。 第一步:输入数据 在Eviews中建立一个Cross Section的Workfile: 1、用命令:Create U 1 100 2、用Menu:File/New/Workfile/Undated or irregular 再输入: Start observation End observation 点击OK即可。1 100 这时进入Workfile 界面。 第二步:输入、保存数据 1、用命令:Data X Y 2、保存数据: File/Save File/Save as 注意:1、Eviews 数据在旧版本下不能保存在中文路径,只能存在英文路径下。 2、保存数据时要在工作文件为活动

14、状态下,否则会出错。 第三步:作散点图 1、用命令:Scat X Y 2、用Menu: Quick/Graph/Scatter 输入:X Y 家庭消费关于收入的散点图: 散点图:加入趋势线 总体回归线 第一个样本的散点图: 第一个样本的散点图:样本回归线 第二个样本的散点图: 第二个样本的散点图: 样本回归线第二节 一元线性回归模型的参数估计一、拟合一条直线的准则 前面谈到的总体线性回归方程只是理论上存在的,一般是未知的,我们只能用样本观察点来拟合一条直线,即样本回归直线,以此来推断被解释变量相对于解释变量的变化特征。然而,给定一组观察点之后,在坐标平面上可以作出不止一条与这些点有关有直线,选

15、取哪一条直线作为样本回归直线为佳呢?首先我们需要给出拟合一条直线的准则。 下面我们逐渐来探讨这个问题。设用这 n 个点 (X1,Y1),(X2,Y2),(Xn,Yn) 拟合而得的直线方程为 称 为 Yi 的拟合值,称 ei 为 Yi 点的拟合误差。 图 2-2 拟合误差的直观图 由图2-2可以看出,当观察点(Xi,Yi)落在拟合直线上方时,拟合误差为正值,当观察点(Xi,Yi)落在拟合直线之上时,拟合误差为 0 。当观察点(Xi,Yi)落在拟合直线下方时,拟合误差为负值。显然拟合的优劣与拟合误差有关,我们分三种情况来讨论如何确定拟合直线的标准。 1假设以拟合误差之和为最小作为拟合直线的标准,

16、即要求 为最小。这时,当拟合误差中有符号相反时,和式中就会正负抵消,即使拟合直线离散布点大多数都很远,也可能此和式很小。 2. 为了克服上述准则中由于误差符号相反所带来的缺点,我们改造一下上述准则,以误差绝对值之和为最小作为拟合的准则,即以 为最小。这时,虽然可排除大的正负误差相抵,但可能会照顾了一些点而忽略了个别点。 图 2-4 (a) 图 2-4 (b) 3. 第二种消除正负相抵的方法是以拟合误差平方和为最小作为拟合准则,即以 为最小。采用这一准则,一方面消除了误差正负相抵,另一方面避免了像2那样有个别点是大误差绝对值的情况。依照这一标准,图2-4中的(a)优于(b)的拟合。 进一步的研究

17、表明,这一标准是一条可取的准则,直观上看,它从总体上考虑到了所有的散布点,使样本信息得到了充分利用。因而,我们采用拟合误差平方和最小作为拟合一条直线的准则。这一准则称为“最小二乘”或“最小平方”准则。 二、最小二乘法 用最小二乘准则即拟合误差的平方和为最小来求解样本回归参数的方法称为普通最小二乘法(Ordinary Least Square)简称 OLS 。 这是计量经济学中常用的参数估计方法。 用最小二乘准则求解样本回归参数可以分为以下几步: 1、构造拟合误差平方和 令即Q为拟合误差的平方和。 2、导出正规方程 由于Q是回归参数的二次连续可导函数,由极值原理可知:使Q达到最小的 必定满足方程

18、组: 而 整理得: 称之为正规方程。 3、求解正规方程 用线性代数中的克莱姆(Cramm)法则求解正规方程得: 整理得: 其中: 分别表示 Xi 与Yi 的平均值, 分别表示Xi 与Yi 的离差。 将 代入第一个方程即得 的解,于是: 称该解为模型中参数的最小二乘估计量(OLS)。 三、一元线性回归模型的基本假设 现在的问题是用OLS方法估计出来的样本回归直线方程是否可靠,是否一定可以用来推断总体的特性,也就是说是否一定可以用它来代表X与Y的总体回归关系?当然不一定,这有赖于经济变量的总体特征,因此,为了使所估计出来的样本回归直线能够说明总体的特征,我们需要对变量的总体分布作一些假设: 对于一

19、元线性回归模型: 我们假设:(在此Yi 应理解为 X i 所对应的随机变量Y, 即 (Y|X= Xi),不仅仅是某一个样本观察值。)解释变量是非随机的,且 假设1:零均值 E(u i) = 0 i=1,2,.,n 称为扰动项具有零均值,也称零均值假设。 假设2 :同方差 Var(u i) = i=1,2,.,n 即所有的扰动项具有相同的方差,该假设称为扰动项具有同方差,或称同方差性,该假设不满足时称为异方差性,或异方差模型。 假设3 序列无关或无自相关 Cov(u i,u j) = 0 ij , i , j=1,2, ,n 即扰动项序列不相关。该项假设称为扰动项序列无关,或称无自相关假设。否则

20、,模型称为序列相关或自相关。 假设4 扰动项 u i 与解释变量X i从不相关 Cov(u i,Xi) = 0 i=1,2, ,n 即扰动项序列u i 与解释变量X i之间没有线性关系。假设5 扰动项 ui 服从正态分布 即 ui N (, ) 此外我们还假设解释变量X为 非随机变量的。在这一假设下,第4条假设自然成立。 我们将解释变量X为非随机变量的假设以及假设 1、2、3、5合称为一元线性回归模型的经典假设,或称基本假设,或古典假设,满足经典假设的一元线性回归模型称为经典一元线性回归模型。 关于解释变量的非随机性,这一条要求比较高,一般不能满足,因为经济现象中大多数变量是随机的,具体应用中

21、,我们首先对解释变量进行抽样,这样一般是可以达到的,对于抽定的样本随机性问题就暂时可以不考虑了,然后研究对解释变量给定的样本被解释变量随解释变量变化的规律等等,由于抽样的随机性,这样做理论上讲有一定的局限性,但是一定程度上还是可以反映变量之间的变化规律。 关于零均值假设,由模型式: 在解释变量非随机的前提下,对上式两边取数学期望,得: 即零均值等价于: 也即变量Y与X之间的回归方程是线性的,即模型是线性模型。假设2的要求是对于不同的X的值Xi,Y的离散程度是一样的。 线性: 非线性: 方差不同时的图示: 方差:离散程度测度 有人对历史上有生死日期的209位皇帝的寿命做了调查,发现平均寿命为39

22、岁,其中乾隆皇帝寿命最长88岁。为什么会是这样呢? 比如有一组三个学生的成绩分别是60、65、70分;另一组三个学生的成绩分别是30、75、90,这两组学生的均分都是65分,那么这两组成绩有区别吗? 显然是有的,直观上看,后一组两极分化。那么如何体现这一区别呢?这就是数据的离散程度。极差(全距) 最大值-最小值 极差大的离散程度大,极差小的离散程度小。方差(Variance) 变量与其平均数差(离差)的平方的均值: 以上两组数据的方差分别为:16.67与650,显然,方差小的离散程度小。 方差大的离散程度大,方差小的离散程度小。标准差(Standard Deviation)方差的平方根,与方差

23、的用法类似。 91哪家供货商更好? 四、最小二乘估计量的性质 高斯马尔可夫定理 对于满足经典假设的一元线性回归模型,在所有的线性、无偏估计量中,OLS估计量具有方差最小的性质。 高斯马尔可夫定理说明,对于经典的一元线性回归模型,OLS估计量是总体回归参数的线性、无偏以及方差最小的估计量(方差最小性也称有效性)。 前面谈到,之所以对模型作以上假设,是为了规范方法的研究。对于经典的一元线性回归模型,由上可知OLS估计量是由解释变量及被解释变量的样本观察值计算而得,而被解释变量具有随机性,于是OLS估计量 也具有随机性,且有以下性质: 1线性性 线性性指 为Yi 的线性函数。 2. 无偏性 无偏性指

24、 为 的无偏估计量,就是说,OLS估计量的数学期望即均值正好是所要估计的参数本身。 也即 无偏性是衡量一个估计量的可信度的一个非常重要的指标。 无偏性与有偏性: 无偏有偏 比如: 取数学期望得: 即 是 的无偏估计量。同理可证得 是 的无偏估计量。 3. 方差最小性(也称有效性) 方差最小性也称为有效性,它指在所有的总体参数的线性、无偏估计量中,普通最小二乘估计量具有方差最小的性质。 无偏性体现的是估计量的均值水平与总体参数之间的关系,而有效性体现的是估计量相对于其均值的离散程度,随机变量的方差越大其离散程度就越大,方差越小离散程度就越小。 方差最小性: 方差较小方差较大第三节 回归参数的显著

25、性检验及置信区间 前面谈到,对所估计出的模型要进行统计检验,第一个统计检验即参数的显著性检验,也称 t- 显著性检验,在作t-检验之前,我们首先需知道参数估计量所服从的分布。 在经典假设条件下,OLS估计量也服从正态分布。由上可知, 于是: 但是,由于总体的方差 未知,我们只能用其估计量 来代替之,可以证明, 为 的无偏估计量。令 则 为 的标准差的估计量。 于是 为服从自由度为 n-2 的 t 分布,即 一般地,由于t-分布的极限分布为正态分布,因此,当样本容量 n30 即大样本时,我们作 Z-显著性检验,当样本容量 n30 时,作t-显著性检验, Z-显著性检验的步骤与 t-显著性检验的步

26、骤完全相同,只是所查的临界值表不同,前者查得是正态分布的临界值表,后者查得是t-分布的临界值表。 t-显著性检验可以检验总体回归参数为任意值的显著性,但计量经济模型中的t-检验一般只检验为零的显著性,因为为零的显著性等价于解释变量对被解释变量的线性影响的有效性。t-显著性检验的步骤如下: 对 作显著性检验: (1) 提出原假设 H0 : ; 作对立假设 H1 : ; (2) 在假设 H0 成立的条件下计算 t -统计量: (3) 给定显著水平 = 0.05 ,查自由度为 v = n-2 的 t - 分布表,得到临界值 , (4) 比较 与 : 若 ,则接受假设 H0: , 说明回归参数 在统计

27、上是不显著的,即解释变量 X 对被解释变量Y 没有显著的线性影响,也即X与Y的均值之间不存在线性关系。换言之,线性回归模型无意义。 若 ,则拒绝假设 H0, 接受假设 H1: ,说明回归参数 在统计上是显著的,即解释变量 X 对被解释变量Y 有显著的线性影响,也即X与Y的均值之间存在线性关系。换言之,线性回归模型有意义。 下面给出OLS估计量的置信区间(区间估计): 由上可知, 服从 t 分布,由临界值 的定义可以导出 的置信区间,给定显著水平,由临界值的定义可知: 上式等价于: 即 以 95% 的可能性落在下面区间上: 称该区间为 的置信区间,或称区间估计,置信度为95%,同理可得 置信度为

28、 95% 的 的置信区间为: 很显然,置信区间越小越好,置信区间越小可信度越高,而置信区间的半径中变化不大,因此估计量的可信度主要取决于其标准差的估计量,标准差越小,可信度越高,标准差越大,可信度就越低。这与 t - 检验的显著性是等价的,从T 统计量的计算可知,标准差越小,则T 统计量的绝对值越大,即T值通过临界值的可能性也大,从而 t - 检验显著的可能性也大。此外从标准差的计算公式可知, 标准差的大小主要取决于总体方差的大小以及解释变量的离差平方和,它与总体方差成正比,与解释变量的离差平方和成反比,也就是说,当被解释变量的离散程度较大(即总体方差较大)以及解释变量的取值过于集中(即解释变

29、量的离差平方和较小)时,线性回归模型的可信度会大大降低,不利于作线性回归分析。 第四节 拟合优度的度量 用在作普通最小二乘估计之时,我们谈到,对于给定的样本观察值,用样本回归直线来拟合这些观察值,那么拟合的程度如何呢?是不是任何两个经济变量的一组样本观察值的拟合直线都可作为此二变量的线性关系的精确描述呢?问题在于拟合程度的优劣表述,我们称之为拟合优度检验,为此,定义可决系数。在定义可决系数之前,我们先介绍几个有关的结论。 一、总变差的分解 首先定义几个符号: 令 称为样本总变差; 称为回归总变差; 即残差平方和。 可以证明: TSS = ESS + RSS 于是样本总变差可以分解为回 归总变差

30、与残差平方和之和。 二、可决系数 对于给定的样本观察值,TSS 不变,前面谈到,拟合的好即残差平方和较小,由于此三项均为平方和,都大于0,于是拟合的好就等价于RSS 较接近于TSS ,换言之,回归总变差越接近于样本总离差,拟合的就越好。 令 称 R2为变量Y与变量X的样本s可决系数,或称样本决定系数、样本判定系数等。之所以称为样本可决系数,是因为它由 X 与 Y 的样本观察值 (X i,Yi) 决定。 前面谈到拟合的好坏取决于RSS 较接近于TSS的程度,由R2的定义可知,等价于R2 接近于1的程度,于是我们用R2 接近于1的程度来衡量样本回归直线对样本观察值的拟合的优度,即拟合优度检验。R2

31、 越接近于1,说明拟合的越好,R2越接近于0,说明拟合的越差。 三、可决系数与相关系数的关系 变量Y关于变量X的样本可决系数正好等于Y与X的相关系数的平方。 而于是 又 四、样本决定系数的本质意义 样本可决系数是由样本观察值(Xi,Yi)所决定的,我们进一步要想它由样本观察值的哪些方面的性质决定呢?研究表明实质上R2由X与Y的样本观察值(Xi,Yi)的线性相关程度来决定,当样本散布点过于离散时,即样本总离差 TSS 较大时,不可能作一条直线很好地拟合这些散布点,自然所得回归直线的残差平方和就较大,同时R2就相对离1较远。 图 2-5 (a) 图 2-5 (b) 第五节 一元线性回归模型的预测 计量经济模型的预测分为条件预测与无条件预测两类,当给定解释变量X的样本区间之外的值,来计算被解释变量Y的相应值时,称为条件预测;当解释变量X的值也未知,且要预测被解释变量的相应值时,称为无条件预测。 本节介绍的是条件预测,无条件预测要先采用其它方法计算出解释变量X的值,比较复杂,比如说借助于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论