一般离散因变量模型和面板离散因变量模型_第1页
一般离散因变量模型和面板离散因变量模型_第2页
一般离散因变量模型和面板离散因变量模型_第3页
一般离散因变量模型和面板离散因变量模型_第4页
一般离散因变量模型和面板离散因变量模型_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一般离散因变量模型和面板离散因变量模型1.Tobit(线性概率)模型

Tobit模型的形式如下,

Yt=+Xtβ+μt……(1)

其中μt为随机误差项,Xt为解释变量,和

β为待估计的参数。Yt为二元选择变量。此模型由JamesTobit提出,因此得名。如利息税、机动车的费改税问题等。设例如有如下数据,其X和Y的散点图为:obs X Y 1 321 1 2 351 0 3 361 0 4 381 0 5 340 1 6 421 0 7 435 0 8 490 1 9 483 0 10 510 1 11 523 0 12 564 0 13 545 0 14 578 1 15 594 1对Yt取期望,

E(Yt)=+Xt

……(2)下面研究Yt的分布。因为Yt只能取两个值0和1,所以Yt

服从二项分布。把Yt的分布记为:pt=P(Yt=1)1-pt=P(Yt=0)则:E(Yt)=1×P(Yt=1)+0×P(Yt=0)=pt=P(Yt=1)……(3)由(2)和(3)式有

pt=P(Yt=1)=+Xt

……(4)其中Yt的样本值是0或1,而预测值(拟合值)是概率。因此模型(2)称为线性概率模型.以pt=-0.2+0.05Xt

为例,说明Xt

每增加一个单位,则采用第一种选择(Yt=1)的概率增加0.05。假设用这个模型进行预测,当预测值落在[0,1]区间之内(即Xt取值在[4,24]之内)时,则没有什么问题;但当预测值落在[0,1]区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是[0,1],所以此时必须强令预测值(概率值)相应等于0或1(见下图)。采用线性回归的方式来构建二元选择模型,会导致如下问题:(1)、模型的随机误差项不能满足同方差的假设

因为线性概率模型的随机误差项的方差不是一个常数,因此不能用OLS来估计模型,线性概率模型往往使用极大似然法估计参数,有关极大似然法的推导见书P238-239。

logistic回归参数的极大似然估计具有如下性质:一是极大似然估计为一致估计。二是极大似然估计是渐进有效的,当样本容量较大时,极大似然估计的方差小于其它方法的方差。三是极大似然估计为渐进的正态分布。因此变量的显著性检验是采用Z统计量。(看相关的书:赵卫亚著《计量经济学》,机械工业出版社,2008年9月,p188-189)。(2)、线性概率模型要求Yt的取值落入[0,1]内,但是模型参数估计后,(3)、在线性概率模型P(Yt=1)=+Xt中,模型假设Yt=1的概率随Xt的变化而线性变化,这个假设通常与实际情况不相符。以家庭购买汽车为例,当某个家庭的年收入X很低时,即便给予这个家庭一定幅度的增加收入,其购买汽车的概率也不会比原来增加多少,当某个家庭的年收入X很高时,因本来其购买汽车的概率就很大,即便再给予这个家庭一定幅度的增加收入,其购买汽车的概率也不会比原来增加多少,通常情况是:当X很大或者很小时,P(Yt=1)的变化均较缓慢,而当X取其它值时,P(Yt=1)的变化较快,P(Yt=1)与Xt不是线性关系,如下图,因此必须要寻求符合这样非线性关系的模型。XP

基于线性概率模型上述缺点,希望能找到一种变换,使模型满足如下条件:

(1)使解释变量Xt所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的Xt,当Xt增加时,希望Yt也单调增加或单调减少。显然累积概率分布函数F(Zt)能满足这样的要求。采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型(服从Logistic分布)。仍假定:Yt=+Xtβ2.Probit(概率单位)模型

即Yt

服从正态分布,其累积概率分布函数曲线在pt=0.5附近的斜率最大。对应Yt在实轴上的值,相应概率值永远大于0、小于1。显然Probit模型比Tobit模型更合理。Probit模型需要假定Yt

服从正态分布。该模型是McFadden于1973年首次提出。其采用的是logistic概率分布函数。其形式是:3.logit模型对于给定的Xt,pt表示相应个体做出某种选择的概率。Probit曲线和logit曲线很相似,logit曲线近似于自由度为4的t分布曲线。两条曲线都是在pt=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。而且logit曲线计算上也比较方便,所以Logit模型比Probit模型更常用。

对logit曲线模型(6)式作如下变换:其中pt=P(Yt=1),由上式知回归方程的因变量是对数的某个具体选择的机会比(概率比)。回归系数β是“对数发生比率”。相应地,Exp(β)是“发生比率”,以1为临界值,根据变量类型的不同有相应的解释。自变量的发生比率是相对于参照组而言的。当发生比率大于1时(系数为正时),表明其对应的自变量(相对于参照组而言)对结果(pt=P(Yt=1))出现的概率有积极影响,且值越大,积极影响越强;当发生比率小于1时(系数为负时),表明其对应自变量对结果出现概率有消极影响,且值越小,消极影响越强。logit模型的一个重要优点是把在[0,1]区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。logit累积概率分布函数的斜率在这pt=0.5时最大,在累积分布两个尾端的斜率逐渐减小。说明相对于pt=0.5附近的解释变量Xt的变化对概率(P(Yt=1))的变化影响较大,而相对于pt接近0和1附近的Xt值变化进一步对概率的变化影响较小(即原来取Y=1或Y=0的概率变化不大)。

南开大学国际经济研究所1999级研究生考试分数及录取情况见下页数据表(N=97)。定义变量SCORE=考生考试分数;Y:考生录取为1,未录取为0;虚拟变量D1:应届生为1,非应届生为0。数据文件为:二元离散模型例1.dta。例1obsYSCORED1obsYSCORED1obsYSCORED11140113403321670275021401035033216802730313921360332169027314138703703311700272151384138033017102670613790390328172026617137804003281730263181378041032817402611913761420321175026001013710430321176025601113620440318177025201213621450318078025211313611460316179024511403591470308080024311503581480308181024201613561490304082024101703561500303183023911803551510303184023501903541520299185023202003540530297186022812103531540294087021912203500550293188021912303490560293189021412403490570292090021012503481580291191020412603471590291192019802703471600287193018912803441610286194018812903391620286095018213003380630282196016613103381640282197012303203361650282033033406602780数据表

得Logit模型估计结果如下

命令:

logityscored1

因为D1的系数没有显著性。说明“应届生”和“非应届生”不是决定是否录取的重要因素。剔除D1。得Logit模型估计结果如下:如何分析?每增加一分,录取的概率pt增加多少?注意是Z统计量,而不是T统计量。

拟合值图为:Logit模型预测值,拐点坐标(358.7,0.5),说明358.7分以上录取概率大。选取Probit模型:在估计Probit模型过程中,D1的系数也没有显著性。剔除D1,Probit模型最终估计结果是:拐点坐标(358.5,0.5),说明358.5分以上录取概率大。两种估计模型的部分预测结果如下表,Probit模型Logit模型scoreYpiYpi37110.9997610.9997636210.90216810.90216836210.90216810.90216836110.82377210.82377235900.5456800.5456835800.37843100.37843135610.135276101352760007347200.07347235400.03864300.03864335400.03864300.03864335300.01996900.01996935000.00264700.00264734900.00134300.00134334900.00134300.00134334810.9997610.99976

例题见P245,某商业银行从历史贷款客户中随机抽取78个样本,根据抽设计的指标体系分别计算它们的商业信用支持度(记为XY)、市场竞争地位等级(记为SC)和是否决定贷款(记JG)。数据文件为:二元离散模型例2.dta

,研究JG与XY和SC的关系。例2probit模型和logit模型的估计结果

检验显示,两个模型差不多。总体拟合优度较好,但是变量的显著性较差。

实证分析:如果有一个新客户,把他的XY和SC资料代入到模型中,就可决定是否贷款。例3关于测度哈萨克斯坦居民贫困程度的二元选择模型(国际粮食政策研究所的SurechBABU和heValerieRHOE,世界野生生物基金的WilliamReidhead)

自1991年哈萨克斯坦脱离前苏联独立以来,哈萨克斯坦居民贫困程度加剧。GDP平均每年下降6.9%。从一个粮食纯输出国变成了一个粮食进口的国家。1997年的畜牧业产量也比1992年下降了30%。据调查全国平均15.8%的学龄前儿童处于发育不良状态。调查后划定每人每天消费不足79.87坚戈(tenge,哈萨克斯坦货币单位)的为贫困(Yt=1),高于79.87坚戈的为非贫困(Yt=0)。共找到9个影响贫困程度的解释变量,建立Logit二元选择模型,得估计结果如下:变量系数常数项-1.314畜牧业产量-0.011*拥有土地规模-0.064*家庭规模0.568*赡养比率0.206收入比率-1.468户主年龄-0.022*市场机会-0.002受教育水平-0.165*家庭负担0.525注:带*号为显著性在1%以上.每人每天消费不足79.87坚戈的为贫困(Yt=1),高于79.87坚戈的为非贫困(Yt=0)。如何分析结果?例4:农户劳动力的非农就业模型。本文的主要考察天津市农村居民家庭的劳动力非农就业的主要因素,尤其重点考察教育程度的影响。影响因素:1、在劳动力市场发育相对成熟的条件下,教育可以提高劳动力非农就业的概率,及劳动力教育程度越高,非农就业的机会越多,非农就业的倾向也就越高。2、农村居民家庭所在地区的区位条件,在其他条件保持不变的条件下,离中心城市越近,非农产业越发达,提供的就业机会就越多,同时农户进入非农产业就业的成本也越少,这样家庭中的劳动力进入非农业就业的可能性也越大。3、被调查调查对象所在村镇的乡镇企业的发达程度直接影响农村居民的非农就业。乡镇企业越发达,农村居民非农业就业的概率越高,反之就越低。4、农户拥有生产资料情况也是影响其劳动力非农就业的重要因素。其中,如果其他条件相同,则非农业生产性固定资产越多,则农户中劳动力的非农业就业倾向越大。而农业生产性固定资产对劳动力非农就业倾向影响比较复杂,如果农户所拥有农业生产性固定资产属于有劳动力替代型的,则它与劳动力非农就业倾向之间的关系是正相关的,反之如果属于劳动力互补型的,则它与非农就业倾向之间存在着负相关关系。5、农户所拥有的耕地的数量影响其非农就业的倾向,在我国现有的农业现代化程度比较低的条件下,耕地越多意味着农户必须将更多的劳动力分配到农业生产中,因此农户劳动力的非农就业倾向越小,反之,耕地越少则非农就业的倾向越高。6、家庭结构也是影响农户劳动力非农就业的重要因素,家庭负担越轻,劳动力从事非农就业的倾向越大。

根据上述分析,我们构建了如下的计量模型:F=C+β1DQCODE+β2NGDZC+β3FGDZC+β4XZQY+β5GD+β6FDINDEX其中:F为因变量,代表农户中是否有非农业就业的劳动力,如果有取1,没有则取0;DQCODE为地区代码,如果被调查对象属于滨海三区和四郊取1,否则取0;NGDZC代表农户所拥有的人均农业生产性固定资产的价值;FGDZC代表农户拥有的人均非农业生产性固定资产的价值;XZQY代表农户所在村镇乡镇企业的个数;GD代表农户家庭人均拥有的耕地的数量;FDINDEX代表家庭结构的劳动力负担系数;schoolk代表变量农户拥有的不同教育程度的劳动力的人数,其中school1代表家庭中文盲或识字很少的劳动力的人数;school2为家庭中小学文化程度的劳动力的人数;school3为家庭中具有初中文化程度的劳动力的人数;school4为高中文化程度的劳动力的人数;school5为中专文化程度的劳动力的人数;school6大专以上文化程度的劳动力的人数。将被调查的样本将数据输入计算机得到上述计量模型,具体结果见下表中的模型Ⅰ。

自变量的边际影响为其系数除以该自变量的样本标准差。

模型Ⅰ包含了全部样本在内,模型Ⅱ只包含了五县的样本,模型Ⅲ只包含了四个近郊和滨海三区的样本结果显示,教育程度school对劳动力的非农业就业倾向有着非常明显的作用,估计系数显示,除文盲外,随着教育程度的提高,农户中的劳动力从事非农就业的倾向越大。区位因素DQCODE和当地乡镇企业XZQY的发达程度对农户的劳动力从事非农就业产生了明显的促进作用。农户拥有农业生产固定资产NGDZC对其农就业的影响是负的,而非农业生产性固定资产FGDZC的影响则是正的。这表明农户的资产存量对其非农就业的影响是双向的,具体的情况主要取决于资产的种类。同时,农户拥有的耕地数量GD对其非农业就业的影响是负的,这表明我国农业生产的产业化程度还比较低,农业生产方式还具有劳动密集型的特点。劳动力负担系数FDINDEX对非农业就业未产生显著的影响。之所以如此的主要原因在于,在农村老人往往更多地承担起了照顾孩子的责任。劳动力的负担并未成为制约农户劳动力非农就业的主要因素。这一点与其他学者的研究结论类似。从各因素的边际影响程度看,教育程度的提高对农户劳动力非农就业倾向变动的影响程度逐渐增大。每增加一名大专及以上school6教育程度的劳动力,农户中劳动力非农就业的概率就增加59.36%;其次是中专为24.7%;再次是高中为21%;文盲排在第四位,为17.22%;初中排在第五位,小学的边际影响程度最小。在其他正向因素中,区位变动DQCODE对农户非农就业概率变动的影响最大,农户从远离中心城市的边远农村迁入周边的近郊,其非农就业的概率会增加13%左右。乡镇企业XZQY的因素次之,当地每增加一个乡镇企业,农户劳动力非农就业的概率会增加3%以上。农户拥有非农业生产性资产存量FGDZC的影响很小,每增加1000元的人均非农业生产性资产,农户非农就业的概率增加不足1%。在其他制约农户劳动力非农就业的因素中,耕地GD的边际影响最大,农户的人均耕地每增加一亩,其劳动力非农就业的概率就减少2.3%。农业生产性资产存量的影响较小,农户每增加1000元的人均农业生产性资产,其劳动力的非农就业概率减少不足1%。

模型Ⅰ的结果表明,区位因素对农户劳动力非农就业倾向的影响非常显著。为了对比不同区位中,各因素对农户非农就业倾向的影响,我们将样本非为两组,滨海三区和四个近郊的样本为一组,五县的样本为另一组。将这两组样本分别代入上述计量模型,结果见下表中的模型Ⅱ和模型Ⅲ。

当我们只将滨海三区和四个近郊的样本代入模型后,计算结果表明(模型Ⅱ),教育对农户劳动力非农就业概率的影响依然很显著,并且随着农户劳动力教育程度的提高,其非农就业概率也逐步增加。与全部样本的计算结果不同的是,生产性资产存量NGDZC对农户劳动力非农就业没有产生显著的影响。其原因可能在于,处于中心城市周边的四郊和滨海三区,由于其非农产业非常发达,优越的区位条件在一定程度上弱化了农户的生产性资产存量对其非农就业的影响。将五县的样本代入模型后计算结果(模型Ⅲ)与包含全部样本的计算结果类似,这里不再赘述。

对比模型Ⅱ和模型Ⅲ的结果表明,相对于近郊而言,教育程度对距离中心城市相对较远的农户劳动力非农就业倾向的影响更大。从边际影响看,在滨海三区和四个近郊中,农户每增加一名小学、初中、高中、中专教育水平的劳动力,其非农就业的概率相应地增加8.08%、10.47%、15.52%、22.65%。而在距离中心城区较远的五县,农户每增加一名小学、初中、高中、中专和大专及以上教育水平的劳动力,其非农就业的概率相应地增加14.39%、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论