离散计数数据模型_第1页
离散计数数据模型_第2页
离散计数数据模型_第3页
离散计数数据模型_第4页
离散计数数据模型_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、离散计数数据模型离散计数数据模型(ModelsForCountData)( 1) 离散计数数据模型的经济背景在接触离散计数数据模型之前,我们可以先考虑一个跟劳动力市场有关的例子我们知道,每个人在进入劳力市场以前肯定都有一定的教育背景和职业经历。这些东西构成了一定的人力资本,个人凭借它得到工作机会。但是,一个很有意思的现象是,有的人终其一生都只为一个雇主工作,而有的人却经常炒自己上司的“鱿鱼”。究竟是哪些因素在决定雇员跳槽频率方面起着重要作用呢,有些经济学家据此将一定时间内雇员工作更换的次数作为跳槽频率的测度,试图通过实证分析来解决这类问题。这就引出了我们即将讨论的计数数据模型。通常计数数据模型

2、的形式可以表示如下:k,N,f(X),X,R,N,0,1,2,.这其中N代表被解释变量,通常为正整数,N和X之间的关系由经济理论决定。该模型假定,通过调查我们能够得到一组代表被解释变量的数字,(如0,2,4, 3)以及相应的解释变量的观察值。建立模型的目的主要有两点:(1) 检验从数据中可以观察到的行为模式是否与理论预期相符;(2)将N和X之间的内在联系用数量化的方式表现出来。从理论上讲,多元线性方程的参数估计方法也可以被应用来分析计数数据模型问题。但是我们很容易就能够看到,计数数据中零元素和绝对值较小的数据出现得较为频繁,而且离散特征十分明显,利用这些特点,也许可以找到更合适的估计方法。七十

3、年代末以来,许多学者在计数数据模型的处理方法方面作出了较大贡献,这其中包括:Gilbert(1979),他提出了泊松回归模型,Hausman,Hall和Griliches(1984),他们提出了负二项回归模型和Panel方法,Gourier,Monfort和Trogonon(1984),他们提出了仿最大似然法,等等。这其中,最先提出的泊松方法在研究计数数据模型问题中应用得非常广泛。( 2) 泊松回归模型(Poissonregressionmodel)泊松回归模型假定,被解释变量(在上例中即指一定时间内的工作更换次数)y服从i参数为的泊松分布,其中同解释变量x存在某种关系。该模型的初始方程、/,

4、为,iiiy,iie,iProb(Y,y),y,0,1,2,iiiy!i1最常用的关于,的方程是对数线性模型,即iln,'x.ii根据泊松分布的性质,我们很容易就可以得到,'xi,Eyx,Varyx,e(1)iiiii于是,,Eyx,ii,.i,xi这样在得出参数,的估计值以后,我们可以很轻松地算出,,以及y的期望值。ii方程(1)是一个非线性模型,可以用两阶段最小二乘法估计其参数,不过更简单的方法是最大似然估计法。对数似然函数为nlnL,,y,'x,lny!.,iiii,1i对数似然函数最大化的一阶条件为:n,lnL,(y,)x,0,iii,1iHessian矩阵行如

5、:2n,lnL,xx'.,iii,',1i由此可见,对数似然函数的Hessian矩阵对任下x和,的取值是负定的。(即LnL在稳定点有极大值,稳定点指满足一阶条件的,。)我们可以利用Newton迭代法迅速地得到方程的参数估计值。,得出以后,第i个样本的被解释变量的预测值可以由,exp(,x)给出,ii2?,x'Vx预测值的方差为,其中V是参数的渐近协方差矩阵的估计值。,iii1、假设检验可以用三种标准的检验方法来检验泊松回归模型的假设。(1)Wald统计量1,W,'V,.2221,其中为受到限制的解释变量的参数,。V,asyvar(,'),222(2)LR

6、统计量(最大似然比)2n?,Pi,LR,2ln,?P,1i,restrictedi,式中的分母描述的是受到限制后的方程的解释变量的似然概率。(3)LM统计量(拉格朗日乘子),1nnn,2?LM,x'(y,)xx'(y,)x(y,),iiiiiiiiii,1,1,1iii,,1,i'G(G'G)G'i:e(y,)的乘积,i为每项为1的式中G的每一行等于X的每一行同相应的,iii列向量。2这三个统计量都服从分布,自由度为受限变量的个数。如果统计值大于临界值,,则拒绝原假设。2、拟合优度由于泊松模型的条件均值非线性,且回归方程存在异方差,所以它不能产生类似于线

7、2性方程中的R统计量。不过学者提出了若干个替代性的指标,用以衡量该模型的拟合优度。2,n,y,ii,?,i,1,i,21.(1)R,p2n,y,yi,yi,1,,该统计量通过把泊松模型同只有一种观察值的模型相比较的方法,考察该模型的拟合优度。但是这个统计量有时为负,而且会随变量的减少而变小。nn2?G,d,2yln(y/,)(2),iiii,11ii该统计量为各样本观察值的偏差(deviance)之和。如果拟合达到完美状态,则该统计量为零。3n,yi?yy,log()(),iii?,1i,,i,2R(3),1dny,iylog(),i,y,1i,这个统计量具有较好的性质。如果我们用表示对数似然

8、函数,其中为的l(,y),yiiii:l(,y)估计值,则泊松模型得出的对数似然函数为,只有一种观察值的模型的函数为ii,理想模型的函数为。于是有l(y,y)l(y,y)iii?ly,lyy(,)(,),2iiR,.dlyy,lyy(,)(,)iii分子和分母都衡量了模型在只有一种观察值的模型基础上的改进,分母为改进的最大空间。所以该统计量的数值在0到1之间。?ly(,),2ii(4)R,1,.LRIlyy(,)i2这是人们后来发展的“仿R'统计量。( 3) 泊松回归模型的扩展1、截断或者归并数据问题。在受限被解释变量问题中,我们已经学过了截断和归并问题的处理方法。泊松模型中被解释变量

9、出现截断和归并现象时,也可以用类似的方法解决。(1) 归并问题:,jie,iP,Prob(y,j),ify,0,1,2,iiij!P,Prob(y,3),1,Prob(y,3)ify,3,iiii,1,Prob(y,0),prob(y,1),Prob(y,2).iii根据概率分布重新写出似然函数,可以通过迭代法得到参数估计值。(2) 截断问题:,jipe,yiiProb(y),y,0,1,2,ii,i1,Py!(1,e)0i同样依据概率分布重新写出似然函数,通过迭代法可以得到参数估计值。42、不平均分布检验(Overdispersion)我们知道泊松模型假定被解释变量的均值等于方差,这是一个非

10、常强的假设,许多学者对此提出质疑,并且发展了一些新的方法放松这一假设。我们首先介绍如何检验这个假设条件是否成立。(1) 基于回归的检验方法零假设:H:Vary,Ey,0ii备择假设:H:Vary,Ey,,g(Ey)1iii2,()y,yiii构造统计量,z,i,2i这里的,是由泊松模型得出的被解释变量的预测值。用简单的t检验可以判别是否Hi0成立。这个方法由Cameron和Trivedi在1990年提出,文章发表在JounalofEconometrics上,有兴趣的同学可以自行查看。(2) 拉格朗日乘子检验法拉格朗日乘子检验法的基本思想也是放松泊松模型中均值等于方程的假设。我们知道,泊松分布是

11、负二项分布的一种特殊情况,也即是说,当我们对负二项分布的某个参数加以一定的限制条件后,就能够得到泊松分布。在一般情况下,如果一个模型是在对另一个替代模型的参数加以限制的条件下得到的,那么我们就可以得到LM统计量。且n2?,?w(y)y,iiii,1iLM,n22?2w,ii,1i?权重的值取决于替代模型的分布函数。对负二项分布模型来说,这个权重为1。所以在wi这种情况下,LM统计量的形式要简单的多:1/2LM,n(e'e,y)/(2,',)这个统计量的优点在于,我们只要利用泊松模型的估计结果,就可以很容易地把它计算出来。有时,我们会发现上述两个统计量的检验结果不一致。具体原因比

12、较复杂,第一种检验方法的备择假设形式比较特殊也是其中的一个因素。3、负二项分布模型(NegativeBinomialRegressionModel)5由于泊松模型存在必须假定被解释变量的均值等于方差的缺陷,人们提出了许多替代该模型的方法。其中应用得最多的是负二项分布模型。我们首先通过引入无法观察的随机影响来使泊松模型一般化。logy,'x,,log,,logu,iiiii式中的随机干扰项既可以反应经典回归方程中的随机误差,也可以反应宏观数据中,i常常出现的由跨截面数据引起的异方差。于是被解释变量的条件分布为uy,iiieu(),iifyu(),.iiy!i被解释变量的分布为uy,iii

13、,e(u),iif(yx),g(u)du.iiii,0y!i为了数学上的方便,我们假定服从Gamm分布,且。于u,exp(,)Eexp(,),1iii是,,u,1ig(u),eu.ii,()于是,被解释变量的分布为:,uy,iii,()euu,1iii(),fyxeuduiiii,0!,(,)yi,,(y)y,iii,r(1,r),wherer,iii,,,,,(y1)()ii这个分布是负二项分布的一种形式。其条件均值为,条件方差为。,(1,(1/,),),iii(该模型由Cameron和Trivedi在1986年提出。)由概率密度我们可以求得最大似然函数,,0再通过迭代法求出参数估计。对于这

14、个假设可以用Wald统计量或者似然比进行检验。4、零变换泊松模型(HurdleandZero-AlteredPossionModels)在某些情况下,被解释变量为零值的产生过程与它取正值的过程差异很大。于是就有人提出了零变换泊松模型来描述这个事实。Mullahey(1986)最先提出了一个Hurdle模型,用白努利分布来描述被解释变量分别为零值和正值的概率。这一模型后来的形式如下:,Prob(y,0),ei6,ji(1,e)e,iProb(y,j),j,1,2,.i,ij!(1,e)该方程改变了被解释变量取零值的概率,但是所有取值的概率之和保持为一。Mullahey(1986),Lambert

15、(1992)等人还分析了在hurdle模型的一种扩展情况,即假定被解释变量的零值产生于两个区域(regime)中的一个。在一个区域里,被解释变量总是零,而另一个区域里,被解释变量的取值符合泊松过程,既可能产生零,也可能产生其他数值。如Lambert对给定时间段内生产的次品数量建立的模型,在生产过程得到控制的情形下,次品产出为零,而生产过程不受控制时,产生的次品数量服从泊松分布,既可能为零,也可能不为零。模型形式如下:Proby,0,Probregime1,Proby,0regime2Probregime2,iiProby,j,Proby,jregime2Probregime2,j,1,2ii如果我们用z表示白努利分布的两种情况,事件发生在区域1时令z=0,发生在区域2*时令z=1,并用y表示区域2内被解释变量服从的泊松过程,则所有观察值都可以表示为,。于是这个分离模型可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论