第9章 虚拟变量回归模型_第1页
第9章 虚拟变量回归模型_第2页
第9章 虚拟变量回归模型_第3页
第9章 虚拟变量回归模型_第4页
第9章 虚拟变量回归模型_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章虚拟变量回归模型

本章将主要介绍经典单方程计量经济学模型中引入虚拟变量并在此基础上对建立单方程计量经济学模型的方法论进行简单的总结与讨论。

在前面几章中,主要介绍了经典线性回归模型及其在若干基本假定下的估计问题,并分析了一个或多个假定不满足时所产生的后果及其可能的改进措施。然而上述方法还不能解决经济生活中遇到的全部问题。

如何考察某一突发事件、性别、季节、受教育程度等对经济行为带来的影响??例如:第九章虚拟变量回归模型第九章虚拟变量回归模型◆学习目的

了解虚拟变量、虚拟变量模型的概念,掌握虚拟变量设置的原则和引入模型的方法。◆基本要求1)认识到虚拟变量是建立计量经济学模型经常会遇到的问题;2)了解虚拟变量、虚拟变量模型的概念;3)掌握虚拟变量设置的原则、虚拟变量模型的建模方法及应用。◆虚拟变量的性质◆ANOVA模型第九章虚拟变量回归模型◆ANCOVA模型◆邹至庄检验的虚拟变量方法◆使用虚拟变量的交互效应◆季节分析中虚拟变量的使用◆分段线性回归第九章虚拟变量回归模型◆综列数据回归模型◆虚拟变量方法的某些技术问题第一节虚拟变量的性质为什么要引入“虚拟变量”??如商品需求量、价格、收入、产量等许多经济变量是可以定量度量的或者说是可以直接观测的但是也有一些影响经济变量的因素无法定量度量或者说无法直接观测

如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等。

为了能够在模型中反映这些因素的影响,并提高模型的精度,需要将它们人为地“量化”,这种“量化”通常是通过引入“虚拟变量”来完成的。

这种用两个相异数字来表示对被解释变量有重要影响而自身又没有观测数值的一类变量,称为虚拟变量(dummyvariables)。虚拟变量也称为哑变量或定性变量。这种变量实质上就是一个将数据区分为相互排斥的类别的工具。虚拟变量的特点是:1.虚拟变量是对经济变化有重要影响的不可测变量。2.虚拟变量是赋值变量,一般根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。这是为了便于计算而把定性因素这样数量化的,所以虚拟变量的数值只表示变量的性质而不表示变量的数值。基础类型和肯定类型取值为1;一般地,在虚拟变量的设置中,比较类型和否定类型取值为0。例如:1)表示性别的虚拟变量可取为D1=1男性0女性2)表示文化程度的虚拟变量可取为D2=1本科及以上学历0本科以下学历3)表示地区的虚拟变量可取为D3=1城市0农村4)表示消费心理的虚拟变量可取为D4=1喜欢某种商品0不喜欢某种商品5)表示天气变化的虚拟变量可取为D5=0雨天1晴天第二节ANOVA模型一个回归模型所包含的回归元可以都是虚拟或定性变量。这种模型被称为方差分析(analysisofvariance,ANOVA)模型。见下例。例9.1不同地理区域公立学校教师的薪水表9.11986年公立学校教师的州平均薪水obs薪水支出D2D3obs薪水支出D2D3119583.003346.0001.0000000.0000002620627.002821.0000.0000001.000000220263.003114.0001.0000000.0000002722795.003366.0000.0000001.000000320325.003554.0001.0000000.0000002821570.002920.0000.0000001.000000426800.004642.0001.0000000.0000002922080.002980.0000.0000001.000000529470.004669.0001.0000000.0000003022250.003731.0000.0000001.000000626610.004888.0001.0000000.0000003120940.002853.0000.0000001.000000730678.005710.0001.0000000.0000003221800.002533.0000.0000001.000000827170.005536.0001.0000000.0000003322934.002729.0000.0000001.000000925853.004168.0001.0000000.0000003418443.002305.0000.0000001.0000001024500.003547.0001.0000000.0000003519538.002642.0000.0000001.0000001124274.003159.0001.0000000.0000003620460.003124.0000.0000001.0000001227170.003621.0001.0000000.0000003721419.002752.0000.0000001.0000001330168.003782.0001.0000000.0000003825160.003429.0000.0000001.0000001426525.004247.0001.0000000.0000003922482.003947.0000.0000000.0000001527360.003982.0001.0000000.0000004020969.002509.0000.0000000.0000001621690.003568.0001.0000000.0000004127224.005440.0000.0000000.0000001721974.003155.0001.0000000.0000004225892.004042.0000.0000000.0000001820816.003059.0001.0000000.0000004322644.003402.0000.0000000.0000001918095.002967.0001.0000000.0000004424640.002829.0000.0000000.0000002020939.003285.0001.0000000.0000004522341.002297.0000.0000000.0000002122644.003914.0001.0000000.0000004625610.002932.0000.0000000.0000002224624.004517.0000.0000001.0000004726015.003705.0000.0000000.0000002327186.004349.0000.0000001.0000004825788.004123.0000.0000000.0000002433990.005020.0000.0000001.0000004929132.003608.0000.0000000.0000002523382.003594.0000.0000001.0000005041480.008349.0000.0000000.0000005125845.003766.0000.0000000.000000注:D2=1,若该州位于东北和中北部;0,其他地区。D3=1,若该州位于南部;0,其他地区。考虑如下模型:其中Yi=第i个州公立学校教师的平均薪水D2i=1若该州位于东北和中北部=0否则D3i=1若该州位于南部=0否则假定误差项满足通常的OLS假定,则对上式两边取期望得:东北和中北地区教师薪水均值为:南部教师薪水均值为:西部教师薪水均值:西部学校教师薪水由截距给出,而斜率系数和表示中东北地区和南部地区薪水的均值与西部地区的差别。得到如下回归结果:西部教师薪水约为26158美元,东北和中北教师薪水约低1734美元为24424美元,南部教师薪水约低3265美元为22894美元。从回归中看出,东中部地区的估计系数在统计上的不显著的,p值为23%;南部地区是显著的,p值为3.5%。因此,结论是,西部地区和东中部地区教师薪水的均值大致相同,而南部地区教师薪水的均值则统计上显著的略低3265美元。注意:若定性变量有m个类别,则只需引入(m-1)个虚拟变量。否则会陷入虚拟变量陷阱,即完全共线性或完全多重共线性的情况。因此,若在例9.1中有教师性别的信息,就应该再加一个(而非两个)虚拟变量,对女性取值为1对男性取值为0。不指定其虚拟变量的那一组被称为基(base)组、基准(benchmark)组、控制(control)组、比较(comparison)组、参照(reference)组。所有其他的组都与基准组进行比较。截距值代表了基准组的均值。例9.1中基准组为西部地区。虚拟变量的系数称为级差截距系数。它告诉我们取值为1的地区的截距值与基准组的截距值之间的差别。如-1734、-3265.基准组的选择完全取决于研究者。第三节含有两个变量的ANOVA模型例9.2小时工资与婚姻状况和居住地的关系从1985年5月的一个528人的样本中得到如下结论:其中Y=小时工资(美元),D2=婚姻状况;1=已婚,0=其他D3=居住地;1=南部,0=其他D2=婚姻状况;1=已婚,0=其他D3=居住地;1=南部,0=其他基准组:未婚的非南部居民组。基准组的小时工资均值约为8.81美元。与其相比,已婚者的平均小时工资约高1.10美元,实际平均工资为9.91美元。对比之下,住在南部的人的平均小时工资约低1.67美元,实际小时工资为7.14美元。所有级差截距都是统计上显著的,p值都相当小。注意:遇到多于一个定性变量,所有其他组都是与基组进行比较多。第四节ANCOVA模型同时含有一般解释变量与虚拟变量的模型称为协方差分析(analysisofcovariance,ANCOVA)模型。

在模型中,虚拟变量可作为解释变量,也可作为被解释变量,但主要是用作解释变量。例9.3教师薪水与区域和对公立学校每个学生的支出之间的关系重新考虑例9.1,假设三个区域的教师薪水没什么不同,考虑地方政府对公立学校的支出变量。Yi=公立学校教师的平均薪水(美元)Xi=对公立学校每个学生的支出(美元)D2i=1,若该州位于东北和中北部=0,其他D3i=1,若该州位于南部=0,其他在这个回归中,把西部作为基准组,除了两个定性回归元之外,还有一个定量变量X,在ANCOVA模型下,X被称为协变量。在其他条件不变的情况下,公共支出每增加1美元,公立学校教师的薪水约上升3.29美元。东中北地区级差截距系数显著,南部的系数不显著。表示p值低于5%,表示p值高于5%。在=0的初始假定下,容易得到西部地区、东中北地区、南部地区公立学校教师薪水的函数:西部地区:

E(Yi|Xi,D2i=0,D3i=0)=β1+β4Xi东中北地区:南部地区:

E(Yi|Xi,D2i=1,D3i=0)=(β1+β2)+β4Xi

E(Yi|Xi,D2i=0,D3i=1)=(β1+β3)+β4Xi三个回归线平行第四节邹至庄检验的虚拟变量方法第8章中讨论过邹至庄检验,以考察一个回归模型的结构稳定性。例子,1970-1985年储蓄与收入的关系,将样本一分为二,1970-1981,1982-1995。邹至庄检验表明,储蓄对收入的回归在这两个区间存在着差异。然而,我们不知道这两个回归的差异是源于截距项、斜率系数还是二者兼而有之。参照方程(8.8.1)和(8.8.2),我们看到四种可能性1.两个回归的截距和斜率都相同,叫做重合回归(coincidentregressions)。2.两个回归的斜率相同但截距不同,叫做平行回归(parallelregressions)。3.两个回归的截距相同但斜率不同,叫做同截距回归(concurrentregressions)。4.两个回归的截距和斜率都不相同,叫做非相似回归(dissimilarregressions)。第8章所讨论的邹至庄检验程序只告诉我们两个回归是否不同,但没有告诉我们这种不同来自哪里。通过做如下回归,我们可以探明这种差异的来源:其中Y=储蓄,X=收入,t=时间,D=1,1982-1995年之间的观测0,其他(即1970-1981年之间的观测)如下表说明了26个观测值的数据矩阵。表9.2美国1970-1995年间的储蓄与收入数据观测储蓄收入虚拟变量197061727.10197168.6790.20197263.6855.30197389.69650197497.61054.201975104.41159.20197696.412730197792.51401.401978112.61580.101979130.11769.501980161.81973.301981199.12200.201982205.52347.3119831672522.411984235.7281011985206.2300211986196.53187.611987168.43363.111988189.13640.811989187.83894.511990208.74166.811991246.44343.711992272.64613.711993214.44790.211994189.45021.711995249.35320.81假设,我们得到:1970-1981年的均值储蓄函数:1982-1995年的均值储蓄函数:其实,这是与(8.8.1)和(8.8.2)相同的函数,其中α2是级差截距(differentialintercept),β2是级差斜率系数(differentialslopecoefficient,orslopedrifter)。β2表示的是,第二个储蓄期间的斜率系数与第一个期间相比有多大的不同。这种虚拟变量的引入方式成为相加形式(additiveform)。虚拟变量的引入(9.5.2)(9.5.3)虚拟变量的引入引入虚拟变量D(D乘以X),使我们区分两个期间的斜率系数。这种方式成为交互或相乘形式(interactiveormultipleform)。这与相加形式来区分两个期间的截距殊途同归。如下例:另一种方法例9.4美国储蓄——收入回归中的结构差异:

虚拟变量方法例9.4美国储蓄——收入回归中的结构差异:虚拟变量方法Eviews:Seriesdx=dum*incomeLssavingscdumincomedxDependentVariable:SAVINGSMethod:LeastSquaresDate:03/05/12Time:14:12Sample:19701995Includedobservations:26

VariableCoefficientStd.Errort-StatisticProb.C1.01611720.164830.0503910.9603DUM152.478633.082374.6090580.0001INCOME0.0803320.0144975.5413470DX-0.065470.015982-4.096340.0005R-squared0.881944Meandependentvar162.0885AdjustedR-squared0.865846S.D.dependentvar63.20446S.E.ofregression23.14996Akaikeinfocriterion9.262501Sumsquaredresid11790.25Schwarzcriterion9.456055Loglikelihood-116.413Hannan-Quinncriter.9.318238F-statistic54.78413Durbin-Watsonstat1.648454Prob(F-statistic)0

表示p值低于5%,表示p值高于5%。通过比较可以得到,级差截距α2和级差斜率系数β2都是统计上显著的,这强烈地表明,两个期间的储蓄--收入回归如图(d)那样是不同的。从回归方程我们可以推导出如下方程::1970-1981年的储蓄回归函数:1982-1995年的储蓄回归函数:这与我们第8章中的(8.8.1a)和(8.8.2a)的结果完全相同。(chapter8,slide45)从该例可以看出,虚拟变量方法相对邹至庄检验有如下优势:我们只需要做一个回归,因为个别回归很容易就能以(9.5.2)和(9.5.3)所指明的方式推导出来。单一回归(9.5.1)可用于检验各种假设。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论