第十二讲关于虚拟变量的回归_第1页
第十二讲关于虚拟变量的回归_第2页
第十二讲关于虚拟变量的回归_第3页
第十二讲关于虚拟变量的回归_第4页
第十二讲关于虚拟变量的回归_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

诚信试验

一位经济学家A为了研究诚信,在10个地方作诚信试验。在不同的商店买东西,每一次都付两次钱,看有多少人拒绝第二次付款。连试了9个店主,没有一个人拒绝第二次付款。态度最好的那个店主,也只是淡淡地说:“你真是个好人。”那神情不知道是赞扬还是嘲笑。1

最后一次,A找了个熟人进行试验。到一老同学开的店买了一瓶矿泉水。几分钟后,A再次进店说:“哎呀,老同学,我刚才忘了给钱。”老同学说:“算我送给你喝吧。”A想把试验进行到底,就说“那怎么行?”掏出两块钱递过去。老同学竟伸手来接,A真不想松手。(?)2就在那张钱一半在A手里,一半在老同学手里时,老同学的儿子叫到“妈妈,阿姨不是给过钱了吗?那张钱还在你手里呢。”的确,老同学手里正拿着A刚给的两元钱。老同学非常尴尬的松开手。A很后悔用熟人来做试验,尴尬地走出了饮料店。刚到街上,就听到那个讲实话的小男孩在店里放声大哭,一定是老同学在打他了。3误解一次A先生乘公交车回家,上车后发现钱包里没有一元零钞,一着急,掏出一张十元大钞投进投币口。想想挺窝囊,便与司机商量,能否守在门口,将后面乘客本应投进投币口的钱作为找零据为己有?司机同意了(尽管有些不耐烦)。4到下一站时,很多人争着上车。A档在门口,对第一位乘客说:“把钱给我。”对方一愣:“凭啥?”三言两语也解释不清,我就说:“给我就行了,别的不用管。”对方瞅瞅司机,司机点头默许。于是,一元钱到手。依法炮制,很快收了八个一元钱。我心里暗自高兴,一种轻松的感觉渐渐涌上心头。5这时,上来一位大汉,虎背熊腰,剃着板寸,露着刺青。见我拦着他,怒道:“干嘛?哥们儿。”我说:“一会儿再跟你说,先把钱给我。”对方眼珠子都圆了:“说啥呢?”我说:“把钱给我!”对方张大了嘴,冲司机问:“这小子干吗的?”大汉堵在门口,后面的人上不来,而车厢里的乘客急着发车,大家七嘴八舌地嚷起来了:“啰唆什么呢!快给钱!”6大汉很快瘪了下去。只见他从口袋里掏出一个钱包递过来,哭丧着脸说:“老大,身上就这点钱,你们人多,我服了!”7关于虚拟变量的回归1、虚拟变量的性质2、对一个定量变量和一个两分定性变量的回归3、对一个定量变量和一个多分定性变量的回归4、对一个定量变量和两个定性变量的回归5、一个例子:“兼职”经济学6、检验回归模型的结构稳定性7、比较两个回归:虚拟变量法8、比较两个回归:进一步说明9、交互作用效应10、虚拟变量在季节分析中的应用11、分段线性回归12、在时间序列和横截面数据的合并中使用虚拟变量13、虚拟变量方法的一些技术问题8一、虚拟变量的性质虚拟变量,是一种离散结构的量,用来描述所研究变量的发展或变异而建立的一类特殊变量,常用来表示职业、性别、季节、灾害、经济结构变化、受教育程度等的影响。此外它还有一些其他的名称,如指标变量、二值变量、范畴变量、定性变量和二分变量。量化虚拟变量的方法通常是赋值“1”和“0”。在回归模型中,对定量变量和虚拟变量的估计方法是一样。9如果一个模型中的自变量全都是虚拟变量,通常对这种模型的分析方法称之为方差分析。(为什么把这种模型称为方差分析模型?)一个教授年薪的模型:其中表示教授的年薪10根据所给数据可以估计出如下结果:估计方法与前面说讲的方法没有区别。由于这个模型与单因素方差分析统计模型的原理及所要表达的统计意义一致,因此这个最简单的虚拟变量模型也称之为方差分析模型111213二、一个定量变量和一个两分定性变量仍然用上面的例子,只是引入教龄作为解释变量。有如下模型:

表示教龄,其他定义如前。这个模型的系数估计用ols即可完成。1415主要以下几点需要注意:1、虽然有男、女两个分类,但是只用一个虚拟变量。更通用的规则是:如果一个定性变量有m个类别,则引入m-1个虚拟变量。2、虚拟变量的取值是随意,但是一旦取定之后要能合理地解释其意义。3、被赋予零值的那个类别通常称为基底。它是用以和其他类别作比较的一个基础。4、虚拟变量的系数称为级差截距系数,它表示取值1的类别的截距值和基底类的截距值相比有多大差别。16三、一个定量变量和一个多分定性变量假设在横截面数据的基础上,分析个人保健支出对个人收入和教育水平的回归。教育水平是定性变量,分为三类:低于中学、中学和大学。模型中引入两个虚拟变量。模型如下:其中=保健年度支出=年度收入

1718四、一个定量变量和两个定性变量回顾前面学院教授薪金回归模型,现在假定除了教龄和性别之外,肤色也是一个重要的薪金决定因素。肤色假定只有两种情况:黑和白。于是模型改写为:其中表示学院教授的薪金表示教龄

19假定,则可以得到以下回归:黑人女教授平均薪金:黑人男教授平均薪金:白人女教授平均薪金:白人男教授平均薪金:20五、一个例子:“兼职”经济学在国外,把持有两份工作的人称为“夜袭者”。Shisko和Rostker为了发现是什么因素影响这些人的工薪。根据318名夜袭者的数据建立了如下回归模型:表示夜袭工资,表示主业工资,race=0白人,race=1非白人;urban=0非城里人,urban=1城里人;reg=0非西部,reg=1西部;hisch=0非毕业,hisch=1中学毕业;age表示年龄。21当所有虚拟变量都为0时,可以得到白人、非城镇、非西部、非中学毕业夜袭者的平均小时工薪模型:当所有虚拟变量都为1时,可以得到非白人、城镇、西部、中学毕业夜袭者的平均小时工薪模型:22六、检验回归模型的结构稳定前面的虚拟变量模型只考虑了影响回归截距的情形,这一节将分析存在变斜率的虚拟变量模型。仍然用联合王国储蓄-收入数据。(数据:略)数据分为两期:重建时期:重建后时期:其中Y表示储蓄,X表示收入。23这两个回归模型可能有以下四种情形:1、和;两个回归相同。(重复回归)2、但;平行回归,截距不同。3、但;相汇回归,截距相同,斜率不同。4、且;相异回归,所有这些情形都说明模型发生了结构性变化,下面将用虚拟变量模型来处理结构性变化。2425七、比较两个回归:虚拟变量法将储蓄-收入模型中两期数据进行合并,重新建立以下回归模型:和同前,观测值属于重建时期;观测值属于重建后时期。假定E(ui)=026根据表中的数据得到如下结果:各个系数在统计上都是显著的。可以肯定两个时期的回归是相异的。重建时期重建后时期272829303132八、比较两个回归:进一步说明虚拟变量技术在实际中有很多的应用,下面是一个关于英国失业和空缺的例子。从1958年第4季度到1971年第2季度的失业率与职位空缺率的关系。通过散点图可以看出在1966年4季度前后曲线发生了明显的变动。作者认为这是因为工党的失业补贴政策发生了重大变化,致使失业等待时间更长,给定的空缺所对应的失业人数更多。33建立以下模型:UN=失业率,%V=职位空缺率。%D=1从1966年4季度开始以后的时期=0

1966年4季度以前的时期估计得到如下结果:34353637九、交互作用效应再考虑这样一个模型:其中表示衣着方面的年度开支表示收入该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。38这种假定显然是站不住脚的。显然上过大学的男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。这就是存在所谓的交互效应。简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。39模型修正为:=女性的级差效应=大学毕业的级差效应=女大学毕业生的级差效应交互作用虚拟变量的系数是否在统计上显著,可通过平常的t检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。40十、虚拟变量在季节分析中的应用经济数据有时会呈现一种季节波动。这一点在时间序列数据出现比较多。当然现在有很多方法来消除季节波动,下面主要讲述用虚拟变量方法怎么解决季节波动的问题。例子:美国制造业的利润-销售额行为其中=利润,=销售额

41根据所提供的数据,估计结果如下:结果表明只有销售额和第二季度的系数在统计上显著。因此可以重新考虑以下模型,只引入一个虚拟变量以区别第二季度和其他季度。42新的模型估计结果如下:注意:这里我们所建立的模型都没有考虑销售额的斜率系数是否随着季节变化,只是考虑了截距项的变化。关于这一点可以通过乘积性虚拟变量技术加以检验4344十一、分段线性回归虚拟变量的另一种用途。

在销售没有达到给定销售水平之前以一种方式支付佣金,在销售额达到给定销售水平之后以另一种方式支付佣金。45根据所给条件建立如下回归:=给定销售水平,又称为结点。=1如果=0如果达到销售水平以前的平均佣金达到销售水平以后的平均佣金4647十二、在时间序列和横截面数据的合并中使

用虚拟变量混合回归Grunfeld研究总投资()与厂商的价值(

)和资本存量(

)之间的关系一个例子。研究对象分别是通用汽车、西屋电气和通用电气。研究、、之间的关系有如下三种方式:1、对每一个厂商进行时间序列回归:通用汽车:西屋电气:482、对每一年做一个横截面回归。但是在本例中样本过少,只有3个厂商。如果有15~20或以上,这也是一种思路。3、把所有样本数据聚合,做一个回归:i=1,2t=1,2,…,20.这就是混合回归的一个例子,这个回归假定了回归参数不随时间变化,并且在各个横截面之间没有差异,不存在异方差。49在仅考虑这样一种情形:通用汽车和西屋电气的投资函数有不同截距,但有相同的斜率,并且误差项都满足经典假设。模型可改写为:

其中对通用汽车的观测值取;否则取零。如果是统计上的显著的,这就意味这着通用汽车投资函数的截距不同于西屋电气投资函数的截距。具体估计结果如下:50十三、虚拟变量方法的一些技术问题1、在半对数回归中的虚拟变量的解释回顾前面的关于线性到对数回归模型的讨论。加入虚拟变量之后的模型变为:其中=学院教授的起薪,=教龄,D=1男性,D=0女性。对于的解释前面已经介绍的很清楚了。现在关键要考虑虚拟变量的系数的解释。51这方面的解释可以参照霍尔沃森和帕姆奎斯特的建议:均值的相对变化取所估的虚拟喜事的反对数再从中减1。书上举了一个学院教授薪金与教龄和性别的假想例,估计结果如下:重点是看虚拟变量的解释:在其他情况不变的情况下,男教授的平均薪金比女教授高出=0.1435,即14.35%。522、避免虚拟变量陷阱的另一种方法再考虑前面的教授薪金模型:把模型改写为:在去掉截距项之后,数据不再有完全共线性的问题。其实仔细看上面的模型就是一个过原点回归模型。这个模型虽然可以避免多重共线性的问题,但是要注意他的并不总是有意义。遵循我们前面的规则:如果有m个类别,就选择(m-1)个虚拟变量。533、虚拟变量与异方差前面所考虑的模型都没有考虑异方差的问题,包括在分段回归中,如果两个时期的回归方程都不一样,怎么保证他们有相同的残差方差?也许求得系数在统计上显著,而实际上却并不如此。当然,对于异方差的问题,我们已经有很好的工具来解决这一问题544、虚拟变量与自相关考虑以下涉及时间序列数据的模型:

其中第一时期的观测值取;而对第二时期的观测值取。再假定误差项按一阶自回归方式生成。即:。满足标准假定。对于一阶自相关可以用一阶迭代法解决。但是对于虚拟变量,有另外一套解决办法55马达拉的建议:1、在第一时期的全部观测取值为零;在第二期中,对第一个观测值为,但对其余观测值取为1。2、将变量变换为。将失去一个观测值。3、在第一时期的全部观测取的值为零(注意在第一时期里为零);在第二时期里,第一个观测值取,并置第二时期的其余观测值为56海能装那么多水

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论