第7讲虚拟变量_第1页
第7讲虚拟变量_第2页
第7讲虚拟变量_第3页
第7讲虚拟变量_第4页
第7讲虚拟变量_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七讲多元回归分析:虚拟变量

MultipleRegressionAnalysis:DummyVariables定性信息和虚拟变量自变量中包含虚拟变量因变量为虚拟变量第一节定性信息和虚拟变量在回归中,我们常常会处理一些不具备定量性质的信息,比如某个城市所处的地理位置(东、中、西等)、一个人的性别、出生的月份(是否九月一号之前)、抽烟与否等。定性信息一般通过定义一个二值变量(binaryvariable)或0-1变量刻画。在计量经济学中,它们被称为虚拟变量(dummyvariable)此类变量的数值只能表示样本中不同个体的特征及它们所属的分组,数值大小本身并没有实际的意义。虚拟变量的分类定类/类别变量(nominal/categoricalvariable)定序/有序变量(ordinalvariable)定距/定量变量(intervalvariable)对于只有两种取值的定类变量,可以用0和1表示这两种取值。这样的变量称为虚拟变量(dummyvariable)或二分变量(binaryvariable)。其中,赋值为0的一组称为对照组(referencegroup)或基准组(benchmarkgroup)对于有多个取值的定类变量,可构造多个虚拟变量来表示用east、central、west三个虚拟变量表示不同地区用sx、jy、qt三个虚拟变量表示本科生毕业后的状态对于定序变量和定距变量,也可以用虚拟变量表示学习成绩(定序变量)年收入(定距变量,但通过划分收入区间转换为虚拟变量)第二节自变量中包含虚拟变量一、自变量中包含一个虚拟变量如果自变量仅为一个虚拟变量,实际上是以自变量为分类依据,分析因变量的均值差异1.自变量只有一个虚拟变量例题7.1:工资差异2.自变量包含定距变量和一个虚拟变量这种情况下,虚拟变量的回归系数表示在控制其它自变量之后,两组之间的差异。例:工资方程对这个方程进行线性回归的估计结果根据回归的结果,平均来说,女性每小时比男性少挣2.156美元。但我们的回归中控制了edu和exper,所以这2.156美元的工资差距不能由男女在受教育水平和工作经历上的平均差距来解释。虚拟变量可用于政策分析,虚拟变量取值为0的一组称为控制组或对照组(controlgroup),取值为1的一组称为实验组(experimentalgroup)或处理组(treatmentgroup)。例题7.3:课本P2273.因变量为log(y)时,对虚拟变量系数的解释当log(y)是一个存在虚拟变量作为自变量模型的因变量时,将虚拟变量的系数乘上100,可解释为y在保持所有其他因素不变的情况下的百分比差异。事实上,精确的百分比差异是。例题7.4、7.5:课本P2283.虚拟变量陷阱如果定性信息(例如性别)有2种状态,只设1个虚拟变量即可。例如在性别工资差异的模型中,如果在我们的模型中既包括虚拟变量female,也包括虚拟变量male。由于male+female=1,将导致完全共线性。由此可见,当使用过多的虚拟变量来描述一定组数的数据时,就会掉进虚拟变量陷阱因此,如果有n种分类,为了避免完全共线性,则回归时只能引入n-1个虚拟变量,未引入的即为对照组。例如在我们分析性别工资差异的模型中,我们选择男性为基组(basegroup)或对照组,模型中只包含一个虚拟变量female。二、自变量中包含多个虚拟变量自变量中包含多个虚拟变量可分为三种情况每个虚拟变量代表不同的分类若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定序的例题7.6:性别和婚姻状况对工资的影响(课本P229,)引入性别和婚姻状况两个虚拟变量1.每个虚拟变量代表不同的分类上述结果表明,性别对工资有显著影响,但婚姻状况没有显著影响。这一模型可能存在问题,即假定婚姻状况的影响对于男性和女性是相同的。进一步的分析应考虑婚姻状况的影响存在性别差异。例7.6:性别和婚姻状况对工资的影响(课本P229,例7.6)虚拟变量的定义下面是以单身男性为对照组的回归结果:lwageCoef.Std.Err.tP>t[95%Conf.Interval]mm0.21270.05543.84000.00000.10390.3214sf-0.11040.0557-1.98000.0480-0.2199-0.0008mf-0.19830.0578-3.43000.0010-0.3119-0.0846…………………根据研究关注问题的不同,可以选择不同的对照组。下面是以已婚女性为对照组的回归结果:lwageCoef.Std.Err.tP>t[95%Conf.Interval]sm0.19830.05783.43000.00100.08460.3119mm0.41090.04588.98000.00000.32100.5009sf0.08790.05231.68000.0940-0.01490.1908…………………不同性别和婚姻状况个体的样本回归方程2.若干虚拟变量代表同一分类,且这种分类是定类的例:工资的地区差异northcen=1表示中北部地区;west=1表示西部地区south=1表示南部地区;

other_region=1表示其他地区同样地,如果有n种分类,回归时只能引入n-1个虚拟变量!以其他地区为对照组lwageCoef.Std.Err.tP>tnorthcen-0.07830.0563-1.390.1650south-0.10480.0527-1.990.0470west0.02180.06240.350.7270educ0.08900.007511.860.0000lwageCoef.Std.Err.tP>tnorthcen0.02650.05120.520.6040west0.12660.05742.210.0280other_region0.10480.05271.990.0470educ0.08900.007511.860.0000exper0.04180.00528.000.0000expersq-0.00070.0001-6.250.0000_cons0.08700.10720.810.4170以南部地区为对照组

显然,在以其他地区作为对照组时,只有南部地区的系数是稍微显著的,在以南部地区为对照组时,西部地区的系数显著性提高,说明西部地区的工资水平要显著高于南部地区。3.若干虚拟变量代表同一分类,且这种分类是定序的例题7.8:法学院排名对起薪的影响(P233)排名前10top10=1排名11-25r11_25=1排名26-40r26_40=1排名41-60r41_60=1排名61-100r61_100=1排名100以后bottom=1例题7.8:下面是以排名在100名以后的为对照组的回归结果lsalaryCoef.Std.Err.tP>ttop100.69960.053513.080.0000r11_250.59350.039415.050.0000r26_400.37510.034111.010.0000r41_600.26280.02809.400.0000r61_1000.13160.02106.250.0000LSAT0.00570.00311.860.0660GPA0.01370.07420.190.8540llibvol0.03640.02601.400.1650lcost0.00080.02510.030.9730_cons9.16530.411422.280.0000

显然,排名的系数均显著异于零,其他变量的系数均不显著,也就是说,法学院的排名是影响毕业生起薪的重要原因。排名变量系数高出的百分点精确的百分数差异排名前10top10=10.6996***69.96%101.3%排名11-25r11_25=10.5935***59.35%81.03%排名26-40r26_40=10.3751***37.51%45.51%排名41-60r41_60=10.2628***26.28%30.06%排名61-100r61_100=10.1316***13.16%14.07%排名100以后bottom=1------------排名对毕业生薪水的影响(回归结果的计算)以排名在100名以后的法学院为对照组以排名在26-60名的为对照组lsalaryCoef.Std.Err.tP>ttop100.37330.04378.550.0000r11_250.27660.03238.560.0000r61_100-0.17320.0240-7.220.0000bottom-0.29940.0269-11.140.0000LSAT0.00490.00321.530.1290GPA0.05960.07590.780.4340llibvol0.04360.02701.620.1090lcost0.01030.02600.390.6940_cons9.32140.440221.180.0000三、自变量中涉及虚拟变量的交互作用例如:性别和婚姻状况对工资的影响femalemarriedfemale_married单身男性000已婚男性010单身女性100已婚女性1111.含有虚拟变量之间的交互作用以单身男性为对照组因此有:2.含有虚拟变量与定距变量的交互作用考虑模型:该模型假定男性和女性工资方程的截距不同,但受教育年限的斜率系数对于男性和女性都是相同的femalelwagemaleeduc该模型及图的意思是,各种受教育程度的女人的工资都比同等教育程度的男人少,但教育的边际对男、女而言是相同的。考虑模型:该模型假定男性和女性工资方程的截距不同,而且受教育年限的斜率系数对于男性和女性也不同。femalelwageeducmale该模型和图的意思是,女人在受教育程度很低时工资比男人少,但随受教育程度的提高,这种差距逐步缩小,并最终会超过同等受教育程度男人的工资。对于模型:要检验男女受教育回报是否相同,用t检验,H0:δ1=0要检验受教育水平相等的男女平均工资是否相同,用F检验,H0:δ0=δ1=0例题7.10:教育收益率的性别差异(P236)值得注意的是,回归的结果表明,female和female与education的交互项均不显著,是否就意味着男女工资并不存在明显差异,而且男女受教育的边际收益也不存在明显差异?比较之前不含交互项的回归:显然,female的系数是非常显著的,也就是说男女工资的确存在明显差异。

在加入交互项之后,female的系数变得不显著,可能是因为加入的交互项和在样本中高度相关,从而使得female系数的标准误差显著提高,降低了该变量的显著性。由此可见的,单纯依据这两个变量本身的t统计量,就断定二者都不显著是不合理的,必须运用F统计量检验二者是否同时为零,带约束条件的回归结果如下:依据联合检验的方法,得到F统计量为:由此,可以断定,男女工资存在显著差异,但教育的边际回报不存在显著差异。因此,应该选择不含交互项的回归方程。利用虚拟变量和其它变量的交互项可以用来检验两组之间是否有相同的回归系数例:大学运动员成绩的影响因素P238~239H0意味着三类因素对男女运动员成绩的影响是相同的回归结果:检验两组回归方程是否完全相同的假设检验通常被称为邹检验(Chowtest),同学们不用刻意去记它,只要知道它是一种特殊的F检验就可以了也可以只对斜率的组间差异进行检验,即考察三个解释变量对不同性别大学运动员成绩的影响是否存在显著差异因此,最终的模型可设定为:第三节因变量为虚拟变量一、线性概率模型(linearprobabilitymodel,LPM)例:妇女的劳动力市场参与(P243)例7.12:拘捕率的一个线性概率模型(P245)二、

Logit模型和Probit模型当因变量为虚拟变量时,更为常用的方法是使用logit模型或probit模型。与线性概率模型相比,这两个模型的概率估计值严格介于0到1之间,而且自变量的变化对因变量的边际影响不是常数。通过logit模型和probit模型得到的系数的符号及其显著性与线性概率模型相同,但对系数的解释有所不同。另外,logit模型和probit模型采用的是极大似然估计法。本课程对logit模型和probit模型不做要求,但这两个模型应用很广,有兴趣的同学可参看课本17.1节,P564-575当因变量为多分类变量时,可使用mlogit或mprobit模型当因变量为定序变量时,可使用ologit或oprobit模型推广:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论