二元选择模型_第1页
二元选择模型_第2页
二元选择模型_第3页
二元选择模型_第4页
二元选择模型_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。在实际经济问题中,被解释变量也可能是定性变量。如通过一系列解释变量的观测值观察人们对某项动议的态度,某件事情的成功和失败等。当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型,统称离散选择模型。这里主要介绍Tobit(线性概率)模型,Probit(概率单位)模型和Logit模型。1.Tobit(线性概率)模型(1)Tobit模型的形式如下,(1)xi+ui其中u.为随机误差项,Xj为定量解释变量。y,为二元选择变量。此模型由JamesTobin1958年提出,因此得名。如利息税、机动车的费改税问题等。设'1(若是第一种选择)I。(若是第二种选择)对y.取期望,E(y.)=a+Bx. (2)下面研究y.的分布。因为y.只能取两个值,0和1,所以y.服从两点分布。把y.的分布记为:P(y.=1)=P.-P(y.=0)=1-p.则E(y.)=1(p.)+0(1-p.)=p. (3)由(2)和(3)式有p.=a+卩x. (y.的样本值是0或1,而预测值是概率。) (4)以p.=-0.2+0.05x.为例说明x.每增加一个单位,则采用第一种选择的概率增加0.05现在分析Tobit模型误差的分布。由Tobit模型(1)有,u.=y.-a-Bxu.=y.-a-Bx.=..—a—Bx, y—0..E(u.)=(1-a-Bx.)p.+(-a-Bx.)(1-p.)=p.-a-Bx.由(4)式,有E(u.)=p.-a-px.=0因为y.只能取0,1两个值,所以,E(u.2)=(1-a-px.)2p.+(-a-px.)2(1-p.)=(1-a-px.)2(a+px.)+(a+px.)2(1-a-px.), (依据(4)式)=(1-a-px.)(a+px.)=p.(1-p.), (依据(4)式)=E(y.)[1-E(y.)]'' '上两式说明,误差项的期望为零,方差具有异方差。当9.接近0或1时,U.具有较小的方差,当p.接近1/2时,u.具有较大的方差。所以Tobit模型(1)回归系数的OLS估计量具有无偏性和一致性,但不具有有效性。假设用模型(4)进行预测,当预测值落在[0,1]区间之内(即x.取值在[4,24]之内)时,则没有什么问题;但当预测值落在[0,1]区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是[0,1],所以此时必须强令预测值(概率值)相应等于0或1(见图1)。线性概率模型常写成如下形式,「1, a+px.>1p.=§a+px., 0<a+px.<1 (5)•0, a+px.<0然而这样做是有问题的。假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。由于线性概率模型的上述缺点,希望能找到一种变换方法,(1)使解释变量x.所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的x.,当x.增加时,希望y.也单调增加或单调减少。显然累积概率分布函数F(z.)能满足这样的要求「采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型。

2.Probit(概率单位)模型,仍假定yi=q+B唱,而 p.=F(y.)= Jyie2dt (6)i .血-8累积概率分布函数曲线在p.=0.5附近的斜率最大。对应y.在实轴上的值,相应概率值永远大于0、小于1。显然Probit模型比Tobit模型更合理。Probit模型需要假定y.服从正.态分布。3.logit模型该模型是McFadden于1973年首次提出。其采用的是logistic概率分布函数。其形式是P.=F(y.)P.=F(y.)=F(a+px.)=11+e-y.11+e-(a+卩x.)(7)对于给定的x.,p.表示相应个体做出某种选择的概率。Probit曲线和logit曲线很相似。两条曲线都是在p.=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。利用(6)和(7)式得到的概率值见表1。表1 Probit模型和logit模型概率值 逻辑概率分布1P.=1+e-y.y.Pi正态分布函数12Jy.e2dt—8-3.0 0.0013 0.0474-2.0 0.0228 0.1192-1.5 0.0668 0.1824-1.0 0.1587 0.2689-0.5 0.3085 0.37750.0 0.5000 0.50000.5 0.6915 0.62251.0 0.8413 0.73111.5 0.9332 0.81762.0 0.9772 0.8808logit曲线计算上也比较方便,所以Logit模型比Probit模型更常用对上式作如下变换,Pi(1+e-yi)=1对上式除以p.,并减1得◎

pi◎

pie-yi= -1=p.取倒数后,再取对数,yiyi=log(厶1-Pi所以 log(巴)=y.=a+px. (9)1-pi i i由上式知回归方程的因变量是对数的某个具体选择的机会比。logit模型的一个重要优点是把在[0,1]区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题logit累积概率分布函数的斜率在p.=0.5时最大,在累积分布两个尾端的斜率逐渐减小。说明相对于P.=0.5附近的解释变量x.的变化对概率的变化影响较大,而相对于p.接近0和1附近的x.值的变化对概率的变化影响较小。 ’对于Logit模型使用极大似然法估计参数是一个很好的选择。首先分析含有两个参数(a和卩)的随机试验。假设被估计的模型如下P.= 1 =— (10)1+e-©+卩可)1+e-在样本中P.是观测不到的。相对于X.的值,只能得到因变量y.取值为0或1的信息。极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的a和p的估计值。从样本看,如果第一种选择发生了n次,第二种选择发生了N-n次。设采取第一种选择的概率是P。采取第二种选择的概率是(1-p)重新将样本数据排列,使前n个观测值为第一种选择,后N-n个观测值为第二种选择(观测值是0,1的,但相应估计的概率却各不相同)。例1(file:case5)南开大学国际经济研究所1999级研究生考试分数及录取情况见数据表(N=95)。定义变量SCORE:考生考试分数;Y:考生录取为1,未录取为0;虚拟变量D1:应届生为1,非应届生为0。图1样本观测值(file:logit1)得Logit模型估计结果如下(EViews命令:Quick,estimateequation分别选Probit或Logit):

VariableCoefficiertStd.Errorz-StatisticProb.C-242.4576124.5164 -1.9471940.0515SCORE0.6770610.34B030 1.9454090.0517D1-0.4766052.9B4542 -0.1596910.8731Meandependentvar0.144330S.D.dependentyar0.353250S.E.ofregression0.115377Akaikeinfocriterion0.143907Sumsquaredresid1.251316Schwarzcriierion0.223537Loglikelihood-3.979482Hannan-Quinncriier.0.176106Restr.loglikelihood-40.03G39A^g.loglikelihood-0.041026LRsiatistic(2df)72.11382McFaddenR-squared0.900603ProbabilityfLRstat)2.22E-16ObswithDep=083Totalobs97ObswithDep=1UCon?ergenceachievedafter12iterationsCovariancematmcomputedusingsecondderivatives注:\o"CurrentDocument"logL kAkaikeinformationcriterion=-2 +2T TlogL Ln(\o"CurrentDocument"logL kAkaikeinformationcriterion=-2 +2T TTOC\o"1-5"\h\zSchwarzcriterion=-2 +k—T TlogL Ln(LnT)Hannan-Quinncriterion=-2 +2k—T TlogLAverageLoglikelihoodfunction=—t-McFaddenR-squared=1-logL(0)logL(卩McFaddenR-squared=1-logL(0)logL(卩)因为DI的系数没有显著性。说明“应届生”和“非应届生”不是决定是否录取的重要因素。剔除D1。得Logit模型估计结果如下Pi=Pi=F(y)二拐点坐标(358.7,0.5)1+e—(—243.7362+0.6794x;)注意:表达式中指数的写法。

Convergenceachievedafter12iterationsCovariancematrixcom卩u怕日usingsecondderiyativesVariableCoefficientStd.Errorz-StatisticProb.0-2437362125.5405 -1.9413710.0522SCORE0.6794410.350470 1.9386580.0525Meandependentvar, 0.144330S.D.dependentvar0.353250S.E.ofregression0.116440Akaikeinfocriterion0.123553Sumsquaredresid1.266011Schwarzcriterion0.176640Loglikelihood-3.992330Hannan-Quinncriter.0.145019Restr.loglikelihood-40.03639Avg.loglikelihood-0.041168LRstatistic(1df)72.08812McFaddenR-squared0.900282Probability(LRstat)0.000000ObswithDep=083Totalobs97ObswithD即=1141.21.00.20.0-0.2YFLOGISCORE100 200 300400YFLOGISCORE100 200 300400图2Logit模型预测值,拐点坐标(358.7,0.5)在估计Probit模型过程中,D1的系数也没有显著性。剔除DI,Probit模型最终估计结果是p.=F(y.)=F(-144.456+0.4029x.) 拐点坐标(358.5,0.5)YFPROB-* T+SCORE1.21.00.20.0-0.2100 200 300400图3Probit模型预测值,拐点坐标(358.5,0.5)

Corivergenceachievedafter12iterationsCovariancematrixcomputedusingsecondderivativesVariableCoefficientStd.Errorz-StatisticProb.C-U4.456070.19773 -2.0578440.0396SCORE0.402B680.196185 2.0535140.0400Meandependentvar0.144330S.D.dependeritvar0.353250S.E.ofregression0.116277Akaikeinfocriterion0.122406Sumsquaredresid1.204441Schwarzcriierion0.175493Loglikelihood-3.936702Harinan-Quinrcriier.0.143872Restr.loglikelihood-40.03639Avg.loglikelihood-0.040585LRsiatistic(1df)72.19938McFaddenR-squared0.901672ProbaLiliiy(LRst^t)0.000000OLswithDep=083Totalobs97OLswithDep=1U两种估计模型的若干预测结果如下表,scoreProbit模型Logit模型YPiYPi350-3.440.0003-5.950.0026355-1.430.0764-2.550.07383590.000.50000.000.50003600.590.72240.850.70323652.600.99534.240.98583704.620.99997.640.9995表2 数据表obsYSCORED1obsYSCORED1obsYSCORED111401134033216702750214010350332168027303139213603321690273141387037033117002721513841380330171026706137903903281720266171378040032817302631813780410328174026119137614203211750260010137104303211760256011136204403181770252012136214503180780252113136114603161790245114035914703080800243115035814803081810242016135614903040820241017035615003031830239118035515103031840235019035415202991850232020035405302971860228121035315402940870219122035005502931880219123034905602931890214124034905702920900210125034815802911910204126034715902911920198027034716002871930189128034416102861940188129033916202860950182130033806302821960166131033816402821970123032033616502820—33—―0——334————0—―66—―0——278——―0—例3:农户劳动力的非农业就业模型(file:logitzhou)。本例的主要任务之一是要考察影响农村居民家庭劳动力非农业就业的主要因素,尤其重点考察教育程度对非农业就业的影响。一般而言,在劳动力市场发育相对成熟的条件下,教育可以提高劳动力非农就业的可能性。劳动力教育程度越高,非农就业的机会越多,非农就业的倾向也就越高。此外,还有其他许多因素影响农村劳动力的非农就业。如(1) 农村居民家庭所在地区的区位条件。在其他条件保持不变的条件下,离中心城市越近,非农产业越发达,提供的非农就业机会就越多。同时农户进入非农产业就业的成本越低。这种家庭中的劳动力进入非农业就业的可能性也越大。(2) 被调查对象所在村镇的乡镇企业的发达程度直接影响农村居民的非农就业。乡镇企业越发达,农村居民非农业就业的概率越高;反之,乡镇企业越不发达,非农就业的概率越小。(3) 农户拥有生产资料情况也是影响其劳动力非农就业的重要因素。其中,如果其他条件相同,则非农业生产性固定资产越多,则农户中劳动力的非农业就业倾向越大。而农业生产性固定资产对劳动力非农就业倾向影响比较复杂,如果农户所拥有农业生产性固定资产属于有劳动力替代型的,则它与劳动力非农就业倾向之间的关系是正相关的,反之如果属于劳动力互补型的,则它与非农就业倾向之间存在着负相关关系。(4) 农户所拥有的耕地的数量影响其非农就业的倾向,在我国现有的农业现代化程度比较低的条件下,耕地越多意味着农户必须将更多的劳动力分配到农业生产中,因此农户劳动力的非农就业倾向越小,反之,耕地越少则非农就业的倾向越高。(5) 家庭结构也是影响农户劳动力非农就业的重要因素,家庭负担越轻,劳动力从事非农就业的倾向越大。(6) 劳动力受教育程度。根据上述分析,我们构建了如下的计量模型:Y=C+卩]X+卩2NYGDZC+卩3FNYGDZC+卩4XZQY+卩5RJGD+卩sFDXS+wSchooll+a2Sch00l2+«3Sch00l3+a4Sch00l4+a5Sch00l5+a6Sch00l6+Ut其中:Y为农户中是否有非农业就业的劳动力,如果有取1,没有则取0;X为地区代码。如果被调查对象属于滨海三区和四郊取1,否则取0;NYGDZC为农户所拥有的人均农业生产性固定资产的价值;FNYGDZC为农户拥有的人均非农业生产性固定资产的价值;XZQY为农户所在村镇乡镇企业的个数;RJGD为农户家庭人均拥有的耕地的数量;FDINDEX为家庭结构的劳动力负担系数;school1表示家庭中文盲或识字很少的劳动力的人数;school2表示农户家庭内中小学文化程度的劳动力人数;school3表示农户家庭中具有初中文化程度的劳动力的人数;school4表示高中文化程度的劳动力的人数;school5表示中专文化程度的劳动力的人数;school6表示大专以上文化程度的劳动力的人数。将被调查的样本将数据带入上述计量模型,具体结果见表3.1中的模型I。

农村居民家庭非农业就业的Logit估计结果DependentVariable:YMethod:ML-BinaryLogitDate:05^6/04Time:13:32Sample:1750Includedotiseivatioris:750Corvergenceachievedafter9iterationsCovariancematrixcomputedusingsecondderivatifesVariableCoefficientStd.Errorz-StatislicProb.C-1.0416230.299582-3.4769220.0005X0.6129320.2386272.5685810.0102NYGDZC-2.89E-051.41E-05-2.0462480.0407FMYGDZC4.43E-051.76E-062.6320240.0113XZQY0.1640960.0363164.6466760.0000RJGD-0.1398780.027684-5.0709530.0000SCHOOL10.7510100.3771061.9915070.0464SCHOOL20.6328910.1301474.0945360.0000SCHOOL30.6659S30.1199835.5506330.0000SCH00L40.9474480.2132644.4426120.0000SCHOOLS2.121G380.5150234.1194990.00005CHOOU62.7004871.0641402.5452360.0109Mean0日卩endentvar0.G13333S.D.dependentY^r0.487311S.E.ofregression0.423573Akaikeinfocriterion1.079509Sumsquaredresid132.4076Schwarzcriterion1.153430Loglikelihood-392.8159Hannan-Quinncriter.1.107992Restr.loglikelihood-600.4253Avg.loglikelihood-0.623764LRstatistic(11di)215.2188McFaddenR-squared0.21603SProbability(LRstat)0.000000ObswithDep=0290Totalobs750ObswithDep=1460资料来源:天津市农村社会经济调查队。注:(1)*表示10%的水平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论