第6章 虚拟变量回归模型_第1页
第6章 虚拟变量回归模型_第2页
第6章 虚拟变量回归模型_第3页
第6章 虚拟变量回归模型_第4页
第6章 虚拟变量回归模型_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

经济计量学Chp6虚拟变量回归模型主要内容虚拟变量的性质方差分析模型(ANCOVA)模型包含一个定量变量、一个多分定性变量的回归包含一个定量变量和多个定性变量的回归回归的比较虚拟变量在季节分析中的应用应变量也是虚拟变量的情形:LPM小结6.1虚拟变量的性质许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等——称之为定量变量,quantitative(numerical)explanatoryvariables

。但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响等——称之为变性变量,qualitativeexplanatoryvariables

。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。定性变量通常表示为具备或不具备某种性质,如男性或女性;黑人或白人;党员或非党员等。把定性因素“定量化”的一个方法是建立人工变量(也称为虚拟变量,Dummyvariable),并赋值0和1:0:不具备某种性质;1:具备某种性质。虚拟变量常用变量D表示。称虚拟变量也称二元变量(binaryvariable)例如,反映文化程度的虚拟变量可取为:

1,本科学历

D=0,非本科学历方差分析模型(Analysisofvariancemodels,ANOVA):仅包含定性变量或虚拟变量的回归模型,其形式如下:

Yi=B1+B2Di+ui假定Y:每年食品支出(美元);Di=1表示女性;Di=0表示男性,则:男性食品支出的期望:E(Yi|Di=0)=B0女性食品支出的期望:E(Yi|Di=1)=B0+B1上述模型的含义:截距B1表示男性平均食品支出,斜率系数B2表示女性平均食品支出与男性的差异,B1+B2表示女性平均食品支出。对这类模型,零假设为:H0:B2=0表示男女平均食品支出没有差异。我们可根据t检验判定是否统计显著。例10-1(P213):性别差异对食品消费支出的影响表6-2食品支出与税后收入和性别的关系回归结果:回归结果:结果表明:女性平均食品支出约为3177.833-503.1667=2673.6663美元;男性平均食品支出约为3177美元。但是t统计量不显著,意味着虽然男、女食品支出有差异,但是差异不显著。几个问题:1.基准类(基础类,参照类或比较类):取值为0的那类变量基准类的选择根据研究目的而定来自于社会学、心理学等研究的需要几个问题:2.既然有两种分类,为什么不引入两个虚拟变量。看下面的例子。几个问题:3.虚拟变量D的系数称为差别截距系数(differentialinterceptcoefficient),表明了取值为1的类的截距值与基准类截距值的差距。例10-2(P136):工会化程度与工作权利法本例研究工作权利法(是否通过)对私营部分的工会化程度的影响6.2协方差分析模型(ANCOVA)——:包含一个定量变量和一个两分定性变量的回归例:考虑可支配收入(定量变量)与性别食品消费支出对的回归模型回归模型:Yi=B1+B2Xi+B3Di+ui

式中,Y——食品支出,X——税后收入;D——1(女性)0(男性)结果表明:

(1)在模型(6-2)中虚拟变量是统计不显著的,但在这里是统计显著的,说明模型(6-2)的模型设定有错误,忽略了税后收入对食品支出的影响;

(2)当税后收入为常数时,男性平均食品支出为1506美元,女性平均食品消费为1506.244-228.9866=1277美元,并且这两个均值的显著性不同。

(3)若不考虑性别差异,收入系数0.0589表示税后收入没增加1美元,平均食品消费支出增加6美分。回归结果:6.3包含一个定量变量、一个多分定性变量的回归例:考查地区差异(三个地区,分别是东北和中北部(32个州)、南部(22个州)和西部(10个州))对研究生接受率的影响。先考虑地区差异模型如下:Accepti=B1+B2D2i+B3D3i+ui(6-12)

其中,Accept为研究生接受率;Di为虚拟变量,且D2=1表东北和中北部地区,D2=0为其它地区;D3=1表西部地区,D3=0为其它地区这是将南部地区看成是基准类。东北和中北部地区的平均接受率:

Accepti=B1+B2西部地区的平均接受率:

Accepti=B1+B3南部地区的平均接受率:【P140修改一下】

Accepti=B1回归结果:结果表明:

(1)南部的平均接受率为45%;差别系数是统计显著的,因此东北部、中北部地区间平均接受率与南部地区的接受率是显著统计不同的。

(2)虚拟变量仅仅指出了存在差异,但没有说明产生差异的原因。在模型Accepti=B1+B2D2i+B3D3i+ui(6-12)中加入一个定量的解释变量,比如学费,根据表6-4提供的数据得如下的回归结果:

结果表明:(1)如果学费保持不变,5%的显著性水平下,东北部/中北部地区与南部地区的接受率没有显著不同(D2的P值为0.061);西部地区与南部地区的接受率仍然存在显著不同。

(2)学费的系数表明:学费每增加1美元,学校接受率就会平均下降0.11%。6.4包含一个定量变量和多个定性变量的回归例:考虑如下回归模型:Yi=B1+B2D2i+B3D3i+B4Xi+ui其中:Y=小时工资(美元)X=教育(受教育年限)D2=1(女性),0(男性)D3=1(非白种人和非西班牙人),0(其他)结果表明:

(1)基类是白种或西班牙裔男性;

(2)如果教育水平和种族为常数,则女性小时收入比男性大约少2.36美元;

(3)如果不考虑种族和性别的影响,则教育年限没增加一年,平均小时收入增加80美分。结果表明:

(1)基类是白种或西班牙裔男性;

(2)如果教育水平和种族为常数,则女性小时收入比男性大约少2.36美元;

(3)如果不考虑种族和性别的影响,则教育年限没增加一年,平均小时收入增加80美分。6.4.1交互影响交互影响:即不同虚拟变量之间存在的交互影响对于上例而言,我们可以考虑如下模型:Yi=B1+B2D2i+B3D3i+B4(D2iD3i)+B5Xi+ui其中,B2:女性的差别效应;B3:非白种/非西班牙人的差别效应;B4:非白种/非西班牙女性的差别效应B2+B3+B4:非白种/非西班牙女性的平均小时工资函数。(D2iD3i)两个虚拟变量的乘积,称为交互作用虚拟变量,表示两个变量的联合影响。6.4.2模型的一般化模型的一般化:可以将模型扩展到包括多个定量变量和多个定性变量的情形。但对于每个定性变量,虚拟变量的个数要比该变量的分类数少一。例10-3:政党对竞选活动的资助应变量:PARTY(政党对当地候选人的资助);自变量:定量变量:GAP(资助),VGAP(以往获胜次数),PU(政党忠诚度)定性变量:OPEN(公开竞争否),DEMOCRAT(民主党),COMM(共和党)6.5回归的比较对于模型:

Yi=B1+B2Di+B3Xi+B4(DiXi)+ui给定Di=0,并对上式两端取均值,得男性平均食品支出函数:

E(Yi|D=0,Xi)=B1+B3Xi给定Di=1,并对上式两端取均值,得女性平均食品支出函数:

E(Yi|D=1,Xi)=(B1+B2)+(B3+B4)Xi我们称B2为差别截距系数,B4为差别斜率系数根据差别截距系数和差别斜率系数的统计显著性,可以辨别出女性和男性食品支出函数是截距为同还是斜率不同,或是都不同:b)平均回归XYc)并发回归XYd)相异回归XYa)一致回归XY截距和斜率都没有差异截距不同,斜率相同截距相同,斜率不同截距和斜率都不同模型的选择:对于模型6-1;6-8;6-23模型类型自变量系数T统计量6-1D(性别)503.16329.576-8D(性别)X(税后收入)-288.980.0589-2.149.646-23DXDX-67.890.062-0.0063-0.1947.376-0.484实践中,应考虑最全面的模型,再经过适当的诊断检验后,简化成较小的模型。例6-4:美国1970~1995储蓄-收入关系。由于1982年以来的经济衰退,有两种方法可考查衰退对储蓄的影响。法一:分两个时期来作回归;法二:引入虚拟变量,将两个回归模型统一成一个。模型的比较1970-1995CDXDX1.016152.480.0803-0.0650.054.615.54-4.0961970-1995CX62.4230.03764.898.891970-1981CX1.0160.08031982-1995CX153.49(1.016+152.479)0.0148(0.0803-0.0655)6.6虚拟变量在季节分析中的应用例:冰箱的销售量与季节性Yt=B1+B2D2t+B3D3t+B4D4t+ut其中,Yt:冰箱销售量(千台)D2,D3,D4分别表示每年的第二、第三和第四季度取值为1,第一季度值为0,即第一季度作为基准季度。回归结果(6-30)的回归模型的说明:(1)第二季度和第三季度存在季节效应(D2,D3的系数显著不为0),第四季度则没有通过显著性检验。(2)利用该模型获得经季节调整后冰箱销售量的时间序列:用实际的Y减去从方程估计得到的Y,即回归式的残差,再把这个残差加上Y的均值,得到的序列就是经季节调整后的序列,该序列表现出时间序列的其他成分(周期、趋势和随机等)6.7应变量也是虚拟变量的情形:线性概率模型(LPM)LPM:应变量Y的取值只有两种情形,0或1.这样的Y称为两分变量这种以情形下,不宜用OLS估计方法:虽然Y的值为1或0,但无法保证Y的估计值介于0~1之间,实际上,Ŷ可能为负或大于1;由于Y是一个二分变量,u也是一个二分变量,它不再服从正态分布,而是二项概率分布;误差项将是异方差的;由于Y仅取值0和1,惯用的R2没有实际意义了对上述问题的解决:随着样本容量的扩大,二项分布收敛于正态分布;异方差有其处理方法;估计的Y可能在0~1区间之外:实践中有一个简单的处理方法(在0~1区间之外的Y值不太多时)

Ŷ为负则取0;Ŷ大于1,则取1.Logitmodel&Probitmodel例:考虑食品支出与税后收入、性别和年龄的关系(数据见表10-10)

Yi=B1+B2Xi+u其中:Y=1表示申请到了房贷,否则为0;X表示年家庭收入估计结果:

Ŷi=-0.9456+0.0255Xi(相应的t值和R2见P232)对模型的解释:收入每增加1美元,获得房贷的概率大约增加0.03实际中:房贷的概率随收入水平以固定增速线性增加,与实际不符例6-6:借贷市场上的歧视应变量Y为二分变量,通过贷款申请赋值为1,否则为0;研究目的是为了判断是否由于性别、种族和其他一些定性因素导致了贷款市场上的歧视行为。回归的结果:*:p值等于或低于5%;**:p值大于5%解释变量系数t值截距0.501未给出AI(收入)1.4894.69*XMD(债务减抵押贷款支出)-1.509-5.74*DF(性别)0.1400.78**DR(种族)-0.266-1.84*DS(婚否)-0.238-1.75*DA(房屋年限)-1.426-3.52*NNWP(领居中非的种人的比例)-1.7620.74**NMFI0.1500.23**NA(邻居房屋的平均年限)-0.393-0.1346.8总结虚拟变量的作用:“数据分类器”应用虚拟变量应注意的地方:如果回归模型包含了一个常数项,则虚拟变量的个数必须比每个定性变量的分类数少一;虚拟变量系数的解释与基准类有关;若模型包含多个定性变量,且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度,故应权衡进入模型中虚拟变量的个数以免超过样本观察值的个数。例:考察1990年前后的中国居民的总储蓄-收入关系是否已发生变化。下表给出了中国1979~2001年以城乡储蓄存款余额代表的居民储蓄以及以GNP代表的居民收入的数据。表:1979~2001中国储蓄与GDP,单位:亿元90年前储蓄GDP90年后储蓄GDP19792814038.21991910721662.51980399.54517.8199211545.426651.91981523.74860.3199314762.434560.51982675.45301.8199421518.8466701983892.55957.4199529662.357494.919841214.77206.7199638520.866850.519851622.68989.1199746279.873142.719862237.610201.4199853407.576967.219873073.311954.5199959621.880579.419883801.514922.3200064332.488228.119895146.916917.8200173762.494346.419907034.218598.4

以Y为储蓄,X为收入,可令:1990年前:Yi=1+2Xi+1ii=1,2…,n1

1990年后:Yi=1+2Xi+2ii=1,2…,n2

则有可能出现下述四种情况中的一种:(1)1=1

,且2=2

,即两个回归相同,称为一致回归(CoincidentRegressions);(2)11,但2=2

,即两个回归的差异仅在其截距,称为平行回归(ParallelRegressions);(3)1=1

,但22

,即两个回归的差异仅在其斜率,称为并发回归(ConcurrentRegressions);(4)11,且22

,即两个回归完全不同,称为相异回归(DissimilarRegressions)。这一问题也可通过引入乘法形式的虚拟变量来解决。将n1与n2次观察值合并,并用以估计以下回归:Di为引入的虚拟变量:

于是有:可分别表示1990年后期与前期的储蓄函数。在统计检验中,如果4=0的假设被拒绝,则说明两个时期中储蓄函数的斜率不同。具体的回归结果为:(-6.11)(22.89)(4.33)(-2.55)

由3与4的t检验可知:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论