第9章 虚拟变量回归模型.ppt_第1页
第9章 虚拟变量回归模型.ppt_第2页
第9章 虚拟变量回归模型.ppt_第3页
第9章 虚拟变量回归模型.ppt_第4页
第9章 虚拟变量回归模型.ppt_第5页
免费预览已结束,剩余53页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 虚拟变量回归模型,本章将主要介绍经典单方程计量经济学模型中引入虚拟变量并在此基 础上对建立单方程计量经济学模型的方法论进行简单的总结与讨论。,在前面几章中,主要介绍了经典线性回归模型及其在若干基本假定下的估计问题,并分析了一个或多个假定不满足时所产生的后果及其可能的改进措施。然而上述方法还不能解决经济生活中遇到的全部问题。,如何考察某一突发事件、性别、季节、受教育程度等对经济行为带 来的影响?,例如:,第九章 虚拟变量回归模型,第九章 虚拟变量回归模型, 学习目的,了解虚拟变量、虚拟变量模型的概念,掌握虚拟变量设置的 原则和引入模型的方法。, 基本要求,1)认识到虚拟变量是建立计量经济

2、学模型经常会遇到的问题; 2)了解虚拟变量、虚拟变量模型的概念; 3)掌握虚拟变量设置的原则、虚拟变量模型的建模方法及应用。, 虚拟变量的性质,ANOVA模型,第九章 虚拟变量回归模型,ANCOVA模型,邹至庄检验的虚拟变量方法,使用虚拟变量的交互效应,季节分析中虚拟变量的使用,分段线性回归,第九章 虚拟变量回归模型,综列数据回归模型,虚拟变量方法的某些技术问题,第一节 虚拟变量的性质,为什么要引入“虚拟变量” ?,如商品需求量、价格、收入、产量等,许多经济变量是可以定量度量的或者说是可以直接观测的,但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测,如职业、性别对收入的影响,战争、

3、自然灾害对GDP的影响,季节 对某些产品(如冷饮)销售的影响等。,为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将 它们人为地“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。,这种用两个相异数字来表示对被解释变量有重要影响而自身又 没有观测数值的一类变量,称为虚拟变量(dummy variables)。,虚拟变量也称为哑变量或定性变量。这种变量实质上就是一个将 数据区分为相互排斥的类别的工具。,虚拟变量的特点是:,1虚拟变量是对经济变化有重要影响的不可测变量。,2虚拟变量是赋值变量,一般根据这些因素的属性类型,构造只取 “0”或“1”的人工变量,通常称为虚拟变量,记为D。

4、这是为了便于计算而 把定性因素这样数量化的,所以虚拟变量的数值只表示变量的性质而不表 示变量的数值。,基础类型和肯定类型取值为1;,一般地,在虚拟变量的设置中,,比较类型和否定类型取值为0。,例如:,1)表示性别的虚拟变量可取为,2)表示文化程度的虚拟变量可取为,3)表示地区的虚拟变量可取为,4)表示消费心理的虚拟变量可取为,5)表示天气变化的虚拟变量可取为,第二节 ANOVA模型,一个回归模型所包含的回归元可以都是虚拟或定性变量。这种模型被称为方差分析(analysis of variance, ANOVA)模型。 见下例。,例9.1 不同地理区域公立学校教师的薪水,考虑如下模型: 其中Yi

5、=第i 个州公立学校教师的平均薪水 D2i =1若该州位于东北和中北部 =0否则 D3i =1若该州位于南部 =0否则 假定误差项满足通常的OLS假定,则对上式两边取期望得: 东北和中北地区教师薪水均值为: 南部教师薪水均值为: 西部教师薪水均值: 西部学校教师薪水由截距 给出,而斜率系数 和 表示中东北地区和南部地区薪水的均值与西部地区的差别。,得到如下回归结果: 西部教师薪水约为26158美元,东北和中北教师薪水约低1734美元为24424美元,南部教师薪水约低3265美元为22894美元。 从回归中看出,东中部地区的估计系数在统计上的不显著的,p值为23%;南部地区是显著的,p值为3.5

6、%。 因此,结论是,西部地区和东中部地区教师薪水的均值大致相同,而南部地区教师薪水的均值则统计上显著的略低3265美元。,注意:,若定性变量有m个类别,则只需引入(m-1)个虚拟变量。否则会陷入虚拟变量陷阱,即完全共线性或完全多重共线性的情况。因此,若在例9.1中有教师性别的信息,就应该再加一个(而非两个)虚拟变量,对女性取值为1对男性取值为0。 不指定其虚拟变量的那一组被称为基(base)组、基准(benchmark)组、控制(control)组、比较(comparison)组、参照(reference)组。所有其他的组都与基准组进行比较。 截距值 代表了基准组的均值。例9.1中基准组为西部

7、地区。 虚拟变量的系数称为级差截距系数。它告诉我们取值为1的地区的截距值与基准组的截距值之间的差别。如-1734、-3265. 基准组的选择完全取决于研究者。,第三节 含有两个变量的ANOVA模型,例9.2 小时工资与婚姻状况和居住地的关系,从1985年5月的一个528人的样本中得到如下结论: 其中Y=小时工资(美元), D2 = 婚姻状况;1=已婚,0 = 其他 D3 = 居住地;1 = 南部,0 = 其他,D2 = 婚姻状况;1=已婚,0 = 其他 D3 = 居住地;1 = 南部,0 = 其他 基准组:未婚的非南部居民组。 基准组的小时工资均值约为8.81美元。 与其相比,已婚者的平均小时

8、工资约高1.10美元,实际平均工资为9.91美元。 对比之下,住在南部的人的平均小时工资约低1.67美元,实际小时工资为7.14美元。 所有级差截距都是统计上显著的,p值都相当小。 注意:遇到多于一个定性变量,所有其他组都是与基组进行比较多。,第四节 ANCOVA模型,同时含有一般解释变量与虚拟变量的模型称为协方差分析(analysis of covariance, ANCOVA)模型。,在模型中,虚拟变量可作为解释变量,也可作为被解释变量, 但主要是用作解释变量。,例9.3 教师薪水与区域和对公立学校每个学生的支出之间的关系,重新考虑例9.1,假设三个区域的教师薪水没什么不同,考虑地方政府对

9、公立学校的支出变量。 Yi=公立学校教师的平均薪水(美元) Xi=对公立学校每个学生的支出(美元) D2i =1,若该州位于东北和中北部 =0,其他 D3i =1,若该州位于南部 =0,其他 在这个回归中,把西部作为基准组,除了两个定性回归元之外,还有一个定量变量X,在ANCOVA模型下,X被称为协变量。,在其他条件不变的情况下,公共支出每增加1美元,公立学校教师的薪水约上升3.29美元。东中北地区级差截距系数显著,南部的系数不显著。,表示p值低于5%,,表示p值高于5%。,西部地区:,E(Yi|Xi,D2i=0,D3i=0)=1+4Xi,东中北地区:,南部地区:,E(Yi|Xi,D2i=1,

10、D3i=0)=(1+2 )+4Xi,E(Yi|Xi,D2i=0,D3i=1)=(1+3 )+4Xi,三个回归线平行,第四节 邹至庄检验的虚拟变量方法,第8章中讨论过邹至庄检验,以考察一个回归模型的结构稳定性。 例子,1970-1985年储蓄与收入的关系,将样本一分为二,1970-1981,1982-1995。邹至庄检验表明,储蓄对收入的回归在这两个区间存在着差异。 然而,我们不知道这两个回归的差异是源于截距项、斜率系数还是二者兼而有之。 参照方程(8.8.1)和(8.8.2),我们看到四种可能性,1. 两个回归的截距和斜率都相同,叫做重合回归(coincident regressions)。,

11、2.两个回归的斜率相同但截距不同,叫做平行回归(parallel regressions)。,3.两个回归的截距相同但斜率不同,叫做同截距回归(concurrent regressions)。,4. 两个回归的截距和斜率都不相同,叫做非相似回归(dissimilar regressions)。,第8章所讨论的邹至庄检验程序只告诉我们两个回归是否不同,但没有告诉我们这种不同来自哪里。 通过做如下回归,我们可以探明这种差异的来源: 其中Y=储蓄,X=收入,t=时间, D=1 ,1982-1995年之间的观测 0,其他(即1970-1981年之间的观测) 如下表说明了26个观测值的数据矩阵。,假设

12、,我们得到: 1970-1981年的均值储蓄函数: 1982-1995年的均值储蓄函数: 其实,这是与(8.8.1)和(8.8.2)相同的函数,其中,2是级差截距(differential intercept),2是级差斜率系数(differential slope coefficient, or slope drifter)。 2表示的是,第二个储蓄期间的斜率系数与第一个期间相比有多大的不同。 这种虚拟变量的引入方式成为相加形式(additive form)。,虚拟变量的引入,(9.5.2),(9.5.3),虚拟变量的引入,引入虚拟变量D(D乘以X),使我们区分两个期间的斜率系数。这种方式成

13、为交互或相乘形式(interactive or multiple form)。 这与相加形式来区分两个期间的截距殊途同归。 如下例:,另一种方法,例9.4 美国储蓄收入回归中的结构差异: 虚拟变量方法,例9.4 美国储蓄收入回归中的结构差异:虚拟变量方法,Eviews: Series dx=dum*income Ls savings c dum income dx,表示p值低于5%,,表示p值高于5%。,通过比较可以得到,级差截距2和级差斜率系数2都是统计上显著的,这强烈地表明,两个期间的储蓄-收入回归如图(d)那样是不同的。,从回归方程我们可以推导出如下方程: 1970-1981年的储蓄回归

14、函数: 1982-1995年的储蓄回归函数: 这与我们第8章中的(8.8.1a)和(8.8.2a)的结果完全相同。(chapter 8,slide45),从该例可以看出,虚拟变量方法相对邹至庄检验有如下优势: 我们只需要做一个回归,因为个别回归很容易就能以(9.5.2)和(9.5.3)所指明的方式推导出来。 单一回归(9.5.1)可用于检验各种假设。 因此,如果级差截距系数2 是统计非显著的,那我们或许可以接受这两个回归具有相同截距的同距假设。 如果级差斜率系数2统计上不显著而2 显著,那我们就不能拒绝这两个回归具有相同斜率的平行回归假设。 用通常的F检验(回想受约束最小二乘F检验)能对整个回

15、归的稳定性(即2 、 2 同时为零)进行检验。如果不能拒绝这个假设,那么回归线将如图(a)那样成为重合回归。,邹至庄检验不能明确的告诉我们截距和斜率系数中到底哪个不同,还是都不相同。就此看来,虚拟变量方法具有明显优势,因为它不仅能告诉我们两个回归是否不同,而且还能确定这种差别的来源源于截距、斜率或二者皆有。 4. 由于数据混合(即在一个回归中包括所有的观测)增加了自由度,这可能会提高估计系数的相对精度。,第五节 使用虚拟变量的交互效应,虚拟变量是一个能处理一系列有趣问题的工具。 为了看出这一点,我们考虑如下模型: 其中,Y=以美元计的小时工资 X=受教育水平(读书念书) D2 =1,若为女性;

16、0,其他 D3 =1,若既非白人又非西班牙人;0,其他 受教育水平(X)为定量变量,性别( D2 )和种族( D3 )为定性回归元。,暗含什么假定?,1. 性别虚拟变量D2 的差别影响对两个种族类别而言是一样的。 种族虚拟变量D3 的差别影响对两个性别而言也是一样的。,即是说,如果男性工资的均值比女性高,则不论是对哪一个种族而言是一样的。如果既非白人又非西班牙人的工资均值较低,则不论他们是男性还是女性都是如此。 现实情况: 非白人非西班牙人的种族中,女人比男人挣的少,即两个定性变量D2 和D3 之间可能会相互影响。因此它们对Y的影响可能如以下模型是相乘形式的:,从中得到 2 =作为女性的级差效

17、应 3 =作为非白人/非西班牙人的级差效应 4 =作为非白人/非西班牙人女性的级差效应 如果所有三个级差系数都为负,则与基组(男性白人或男性西班牙人组)相比时,非白人/非西班牙人女性比女性或男性非白人/非西班牙人挣的更少。,例9.5 平均小时工资与受教育水平、性别和种族的关系,表示p值低于5%,,表示p值高于5%。,级差系数具有预期的符号,受教育水平对小时工资有很大的影响。在其他条件不变的情况下,女性的平均小时工资约低2.36美元,非白人/非西班牙人的平均小时工资约低1.73美元。 交互虚拟变量在5%的显著性水平上不是显著的,实际p值为8%。若认为这是一个足够低的概率,则保持受教育水平不变,三

18、个虚拟系数相加得-1.964,说明女性非白人/非西班牙人的小时工资均值约低1.96美元。,第六节 季节分析中虚拟变量的使用,从一个时间序列中去掉季节因素或成分的过程称为除季节性或季节调整。 e.g. 失业率、消费者价格指数CPI、生产者价格指数PPI和工业生产指数,etc。 去除一个时间序列的季节性的方法: 虚拟变量方法!,例9.6 冰箱销售中的季节性,表9.3 厨具销售和耐用品支出的季度数据(1978年第1季度到1985年第4季度),洗碗机,污物粉碎机,冰箱,洗衣机,以1982年10亿美元计耐用品支出。,考虑如下模型: 为避免虚拟变量陷进,给每个季度指定一个虚拟变量,不要截距项。 若某个给定

19、季度存在季节效应,则该季度虚拟变量的t值会显著。 考察冰箱销售数据,如下图:,式中估计的系数表示了每个季度冰箱销售(以千台计)的平均数量或均值。 第1季度冰箱的平均销量约为1222千台,第2季度约1468千台,第3季度约1570千台,第4季度约1166千台。,把第1季度视为基准组,各季度虚拟变量的系数是级差截距。 可以看出第4季度Y的平均值并非统计上异于第1季度。,如何能得到冰箱销售的除季节性时间序列? 用每个实际Y值减去估计的Y值得到回归的残差 。 这些残差代表什么? 它们代表冰箱销售时间序列中除去季节因素后剩余的成分,即趋势、周期和随机几种成分。,引入协变量会否改变模型? 引入对冰箱需求有

20、重要影响的耐用品支出变量。回归结果如下: 第1季度作为基准组,第2、3季度都显著异于第1季度,第4季度的截距与第1季度的截距在统计上大体相同。 X 的系数表明,若耐用品支出增加一个单位,则冰箱销售平均上升2.77个单位。 为何与前两个回归不一样? X含有季节性。,第七节 分段线性回归,图9.5 假想销售佣金与销售量之间的关系,支付佣金的方式取决于销售量的 临界水平。 低于该水平,使用一种佣金结构;高于该水平,使用另一种佣金结构。,给定佣金、销售额和临界值 ,就能用虚拟变量法估计分段线性回归的两个线段的斜率。 Y =销售佣金,X =销售量, =销售临界点或结点。 D=1,若 =0,若 可以看到, 要检验回归在临界指 处没有转折的假设,通过所顾忌的级差系数 的显著性即可。,分段线性回归的参数,考虑表9.6的数据,假设总成本在产出为5500单位时可能会改变斜率。,例9.7 总成本与产出之间的关系,当产出低于5500单位时,生产的边际成本约为每单位产出28美分。 当产出高于5500单位后,边际成本约为37(=28+9)美分。 虚拟变量在5%的显著性水平上不显著,所以这两个斜率之间的差别不是统计上显著的。在实践中,可以去掉虚拟变量,将总成本直接对总产出回归。,要点与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论