虚拟变量课件_第1页
虚拟变量课件_第2页
虚拟变量课件_第3页
虚拟变量课件_第4页
虚拟变量课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、虚拟变量1第七章虚拟变量Dummy variables虚拟变量2 本章将主要考虑虚拟的自变量的情况,即解释变量出现虚拟变量。 在现实中,模型中可能会出现一些定性的变量作为解释变量。通常将虚拟变量取值0或1,所以虚拟变量又称为二分变量,用虚拟变量来表示某一性质或属性出现或不出现。虚拟变量3例如:收入决定模型中,除了可以量化的工作年限和受教育年限这两个变量以外,我们还包括了性别这一定性的变量,用0表示女性,1表示男性。模型可以写成:y= +1 x + 2 D +其中,D为虚拟变量D0,表示女性,D1表示男性模型中加入虚拟变量后,更加贴近经济的真实情况,也更加灵活,收入决定模型我们不仅要考察一般人口

2、的状况,也关注不同性别的收入决定模型的差异,从而更有利于政策的制定和调整。虚拟变量4一般情况下,一个定性变量所需要的虚拟变量的个数取决于该定性的变量的类别,如果有n个类别,所引进的虚拟变量的个数时m-1,比总体类别的数量少1。例如性别变量,分为两类男性或女性,需要一个虚拟变量就可以了;如果地区发展问题,考虑地区差异,假设把全国分为东部,中部和西部,就需要2个虚拟变量,令 1 东部 D1= 0 其他虚拟变量5 1 中部D2= 0 其他全集分为三类,所以需要两个虚拟变量。虚拟变量6第一节 临时虚拟为了更好地对模型进行估算,经常要在模型中排除一些又突发时间产生的异常值(outlier),及其对模型的

3、影响,例如战争、地震、内乱、罢工等。例如:y= +1 x + 2 D +其中,D为临时虚拟变量D1,异常时期D0,平时虚拟变量7例题下表是日本19851995年水稻产量Y和耕种面积的数据X:年份 产量(10万吨)Y 耕种面积(万公顷)X 116 232 116 228 106 212 99 209 103 208 105 206 96 203 105 209 78 213 120 2201985 107 211虚拟变量8 (1)估计模型y= +x +(2)受1993年冻害的影响,水稻收成指数为战后最低,出现了歉收。因此设D1为1993年,D0为其他年份,估计下列模型y= +1 x + 2 D

4、+虚拟变量9根据数据计算结果如下:X=2351 Y=1151 XY=246601X2=503313 Y2=121757 n=11Y= -48.224 + 0.71521X (73.4) 0.3432)R2=0.3255虚拟变量10引入临时虚拟变量后,即1993年为异常年份,计算结果如下:X=2351 Y=1151 XY=246601X2=503313 Y2=121757 n=11D=1 XD=213 YD=78Y= -40.292 + 0.69033X - 28.748D (30.90) (0.1444) (4.389)经过校正的R2 =0.8675虚拟变量11如果直接去掉1993年的数据,回

5、归的结果为Y= -40.292 + 0.69033X (30.898) (0.1450)R2 =0.7408 经过校正的R2 =0.7084虚拟变量12第二节 季度虚拟 季度虚拟是通过回归模型中的常数项的变化(斜率不变)来掌握季度和月度等季节变化对模型的不同影响。例如,根据研究人们发现:利用季度数据,消费对收入回归时,在夏季和冬季(第二和第四季度)发半年奖和年终奖时,收入异乎寻常地高,为了消除这种季节变化的影响,引入季度虚拟变量D1、D2、D3。估计下列多元回归模型:y= +1 x + 2 D1 + 3D2 4D3 虚拟变量13 1 第一季度D1 0 其他 1 第二季度D2 0 其他 1 第三

6、季度D3 0 其他虚拟变量14 季度数据需要3个虚拟变量,月度数据用11个虚拟变量。实际估计时,会根据t检验结果去掉不显著的季度或月度虚拟变量,然后用剩下的虚拟变量再重新估计就可以了。虚拟变量15例题下面时日本饮食消费总额(食品、饮料等)Y与国内家庭最终消费支出X的变化数据,首先估计下面的模型:y= +x +(宏观恩格尔函数) 引入季度虚拟变量,估计模型y= +1 x + 2 D1 + 3D2 4D3 虚拟变量16 1 第一季度D1 0 其他 1 第二季度D2 0 其他 1 第三季度D3 0 其他虚拟变量17年、季度 饮食消费 Y 国内最终消费支出X1990年13月 10.0 53.5 46月

7、 11.0 54.4 79月 12.2 56.4 1012月 13.3 60.61991年13月 10.2 54.7 46月 11.0 55.4 79月 12.3 57.6 1012月 13.2 62.41992年 13月 10.5 56.5 46月 11.1 56.4 79月 12.3 58.3 1012月 13.4 62.61993年13月 10.4 56.7 46月 11.2 56.8 79月 12.2 58.9 1012月 13.4 63.71994年13月 10.4 58.2虚拟变量18X=983.10 Y=198.10 XY=11505.46X2=56993.83 Y2=2331.

8、77Y=-8.5246+0.34891XR2 =0.73985虚拟变量19季度虚拟变量数据表年、季度 D1 D2 D31990年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01991年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01992年 13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01993年13月 1 0 0 46月 0 1 0 79月 0 0 1 1012月 0 0 01994年13月 1 0 0虚拟变量20估计结果如下:Y= 9.0681+0.068301X-2.05875D1

9、-1.8009D2-0.76594D3所有t值都在1的水平显著经过校正的R2 0.99390将第一季度D11,D20,D30代入上述模型,得到第一季度的子模型Y=9.0681-2.5875+0.068301X=6.4806+0.068301X虚拟变量21将第二季度D10,D21,D30代入上述模型,得到第二季度的子模型Y= 9.0681-1.8009+0.068301X 7.2672+0.068301X将第三季度D10,D20,D31代入上述模型,得到第三季度的子模型Y=9.0681-0.76594+0.068301X 8.3022+0.068301X将第四季度D10,D20,D30代入上述模

10、型,得到第四季度的子模型Y=9.0681+0.068301X 虚拟变量22第三节运用虚拟变量改变回归直线的截距加入虚拟变量后,回归模型中解释变量前面的系数(斜率)没有变化,只有截距发生改变,事实上,临时虚拟和季度(月度)虚拟中都是是截距发生了改变。看下面的例子:虚拟变量23例子1,在收入决定模型中,除了假设教龄以外,性别和肤色也是影响大学教授收入的重要因素,模型为:y= +1 x + 2 D1 + 3D2 y为收入x为教龄虚拟变量24 1 男性D1= 0 女性 1 白色D2= 0 有色人种虚拟变量25黑人女教授的平均工资: Ey= +1 x黑人男教授的平均工资:Ey= 2 +1 x白人女教授的

11、平均工资:Ey= 3 +1 x白人男教授的平均工资:Ey= 2 3 +1 x估计上述包括性别和肤色虚拟变量的模型,如果它们的t值显著,表明这两个因素的确影响了收入虚拟变量26例子2,假设我们具有消费C和收入Y的数据,同时有一些定性的变量:S :性别,A:年龄(50)E:教育(高中以下,高中以上,但大学以下;大学及以上)虚拟变量27所估计的模型为:C=+ Y + 1D1 + 2D 2+ 3D 3 + 4D 4 + 5D5 + 1 男性D1 = 0 女性虚拟变量28 1 如果年龄小于25D2 = 0 其他 1 年龄在25到50之间D3 = 0 其他 1 教育在高中以下D4= 0 其他虚拟变量29

12、1 学历在高中以上但大学以下D5 = 0 其他这是一个典型的截距发生改变的例子。例如:(1) 男性,年龄在25岁以下,大学毕业C=(+ 1 + 2)+ Y +相当于 D1 =1, D2 =1, D3=0, D4 =0, D5 =0(2)女性,年龄在50以上,大学学历C=+ Y +相当于 D1 =0, D2 =0, D3=0, D4 =0, D5 =0虚拟变量30例子3,兰普森研究一些定性变量对电影票价的影响,他估计了下列模型 Y=4.13+5.77D1+8.21D2-7.68D3 -1.13D4+27.09D5+31.46logX1+0.81X2其中Y成人晚间入场票 (美分) 1 郊区D1电影

13、院位置 0 城中心虚拟变量31 1 建成后或大修后10年内D2电影院年龄 0 其他 1 露天D3电影院类型 0 室内 1 有 D4停车场 0 无虚拟变量32 1 首映D5上映政策 0 其他X1平均每场放映的空位率X2平均影片片租,以分摊到每张电影票上的美分价计算 虚拟变量33解释模型。计算下列子模型:(1)城中心,电影院年龄在10年以上,无停车场,室内,非首映(即虚拟变量取值全部为0)Y4.13+31.46logX1+0.81X2虚拟变量34(2)城郊,10年内的影院,露天,有停车场,首映Y=4.13+5.77+8.21-7.68 -1.13+27.09+31.46logX1+0.81X2 =

14、36.39+31.46logX1+0.81X2大家还可以计算其他组合下的子模型。虚拟变量35 例题:持有两份或多份工作,即一份主业和一份或多份副业的人被称为(moonlighter),即兼职者。两个学者试图发现什么决定这些兼职者的工资。它们根据318个兼职者的样本,估计如下回归模型:Wm=37.07 + 0.403W0 90.06race +75.51urban +47.33hisch+113.64reg+2.26age虚拟变量36Wm 为兼职者工资(美元/小时)W0 为主业工资(美元/ 小时)Race= 0 白人 1 非白人Urban= 0 非城里人 1 城市人虚拟变量37Reg= 0 非西

15、部 1 西部Hisch = 0 非中学毕业(即中学以下) 1 中学毕业Age 年龄模型中包括了2个定量的解释变量和4个定性的变量,所有变量的系数在5的水平都是显著的。虚拟变量38当所有的虚拟变量均取值为0时(白人、非城镇、非西部、非中学毕业),Wm=37.07+0.403W0+2.26age当所有的虚拟变量均取值为1时(非白人、城镇、西部、中学毕业),Wm=37.07+75.51+47.33+113.64-90.06+0.403W0+2.26age=183.49+0.403W0+2.26age虚拟变量39作业:计算虚拟变量不同取值下模型:1,白人、非城镇、西部居民、中学毕业2,非白人、城镇、非

16、西部居民、非中学毕业3,白人、非城镇、非西部居民、中学毕业虚拟变量40第四节 通过虚拟变量改变斜率(系数虚拟)研究通货膨胀率(I)和工业增长率(G)之间的关系为例:假设1988年与其他年份有所不同,在这一年剧烈上涨。I= +1 G + 2 (DG) 1 1988年D= 0 其他年份虚拟变量41这样可以用上面的模型表示下列两种情况: +(1 +2) G D=1 I= +1 G D=0不论是哪种情况,截距都没有发生改变。虚拟变量42例题下表是某国在1965年到1979年以指数表示(1965年100)初次能源需求和实际GDP的数据虚拟变量43年份 初次能源需求Y 实际GDP X D DX 100 1

17、00 0 0 106 108 0 0 115 117 0 0 122 123 0 0 129 132 0 0 136 141 0 0 141 145 0 0 143 54 0 0 114 150 1 150 117 156 1 156 121 161 1 161虚拟变量44 123 169 1 169 129 174 1 174 130 177 1 177 134 183 1 183X=2190 Y=1860 XY=274178X2=328940 Y2=232764Y=82.453+0.28457XR2 =0.35075 经过校正的R2 0.30081虚拟变量45模型为Y= +1 X + 2

18、(D X) 0 石油冲击前(19651972)D= 1 石油冲击后(1973-1979)DX=1170 (DX ) 2=196412 X(DX ) =196412Y(DX)=145598Y=17.095+0.83864X-0.19918DX虚拟变量46经过校正的R2 0.98263石油冲击前的系数是0.83864,石油冲击后的系数为0.63946,可见石油冲击后,经济增长模式向节能方向转变。虚拟变量47第五节 虚拟变量使截距和斜率均发生改变仍旧是通货膨胀率I和工业增长率G之间的关系,可以假设模型为:I 1 2 D+ 1 G+2GD+ ( 1 2 )+( 1+2)G+ D=1 (1988) I=

19、 1 1 G+ D=0 (其他)虚拟变量48 2被称为级差截距, 2是级差斜率系数虚拟变量49例题下面是根据1958年4季度到1971年2季度英国失业率和职位空缺率的数据估计的模型。从最初的散点图中发现:1966年4季度开始失业和空缺之间的关系发生了明显的变化。为了证实判断的情形,估计了下列的模型:UNt= 1+ 2Dt + 1 Vt +2 (Dt Vt )+t其中UNt为失业率, Vt为职位空缺率,D= 1 1966 年 4季度开始以后的时期 0 1966年4季度以前的时期虚拟变量50 估计的结果如下:UNt=2.7491 + 1.1507Dt 1.5294 Vt -0.8511 (Dt V

20、t ) (0.1022)(0.3171) 0.1218) (0.4294) 从上面的估计结果中可以发现,级差截距和级差斜率系数在5的水平都是显著的,表明1966年4季度开始发生了明显的变化。 从上面的回归可以导出下列回归: 1958年4季度到1966年3季度: UNt=2.7491-1.5294Vt 1966年4季度到1971年2季度: Unt=2.7491+1.1507-(1.5294+0.8511)Vt =3.8998-2.3805 Vt 虚拟变量51 UN V虚拟变量52第六节 带折点的回归在实际中可能会遇到折线回归的情况,例如:I G0 G虚拟变量53上面的图表示的是当工业增长率达到一

21、定的程度后会大幅度上升。假设为1988年以后的工业增长率。定义: 1 (t 1988)D= 0 (其他年份)模型可以表示成: + 1 Gi + 2 (Gi-G0)Di+ i (t 1988)Ii = +1 Gi + i (其他年份)G0被称为门槛值(发生转折的点,是已知的)虚拟变量54例子1,假设某公司对其销售人员按下列方式发放酬金,即在销售额到达“目标”或门槛值之前实行一种酬劳结构,超过这个事先确定的门槛值之后,实行另一种结构。yi= + 1 Xi + 2 (Xi-X0)Di+ i XX0 +1 Xi + i X X0 ) 0 (Xi 5500 0 X7 0 其他虚拟变量59当lnXi7时,

22、X 1097美元假定1097美元的人均收入是贫穷和较富裕国家的分界线,推导出人均收入低于1097美元和高于1097美元的国家的模型 E(yi | Xi, Di =1) = -2.4+ 9.39 lnXi -3.36 lnXi +3.36721.12+6.03 lnXiE(yi | Xi, Di =0) -2.4+9.39lnXi虚拟变量60表明随着人均收入水平的提高,平均预期寿命的增加趋缓。虚拟变量61第七节全部是定性变量的回归有时,模型中包括的全部是定性的变量(解释变量),可以通过虚拟变量的形式来处理。例如,研究收入问题时,可以从性别、学历、年龄,工作单位性质、企业规模等方面考察,可以找出不

23、同类别人群的收入差距。虚拟变量62例题 现拥有15个工人的月收入和相应的性别、年龄(30多,40多) 、学历(大学、高中、初中)、企业规模 (大型、中型、小型)的资料。估计的模型为:Y= +1 S+ 2 A+ 3 E1+ 4 E 2 + 5 F1+ 6F 2 + S= 1 男性 0 女性 A 1 40多 0 30多 虚拟变量63E1 1 大学毕业 0 其他E2 1 高中毕业 0 其他F1 1 大型企业 0 其他F2 1 中型企业 0 其他虚拟变量64Y S A E1 E2 F1 F2 0 1 0 0 0 0 1 0 0 0 0 028 0 1 0 1 0 030 0 1 0 1 0 031 1

24、 0 0 0 0 132 1 0 0 1 0 034 0 0 1 0 0 136 1 0 0 1 0 139 0 0 1 0 1 040 1 0 0 1 0 143 1 0 1 0 0 0虚拟变量6546 1 0 1 0 0 152 1 1 0 0 1 054 0 1 1 0 1 0 1 1 0 1 1 0估计的结果为:Y= 11.966+14.385S+ 12.643A+ 15.873 E1 + 5.083 E 2 + 12.152 F1+ 5.544F 2虚拟变量66所有回归系数在1的水平都是显著的,常数项为11.966表示的是小型企业、30多岁女性初中毕业工人的月收入(即所有的虚拟变量取值均为0。(1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论