讲义10二元选择摸型_第1页
讲义10二元选择摸型_第2页
讲义10二元选择摸型_第3页
讲义10二元选择摸型_第4页
讲义10二元选择摸型_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、补充材料:二元选择摸型如果回归模型的解释变量中含有定性变量,则可以用虚拟变量处理之。在实际经济问题中,被解释变量也可能是定性变量。如通过一系列解释变量的观测值观察人们对某项议案的态度,支持还是反对;某个事件的最终结果是成功,还是失败等。当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型(离散选择模型)。这里主要介绍三种模型,Tobit(线性概率)模型,Probit(概率单位)模型和Logit模型。1Tobit(线性概率)模型 Tobit模型的形式如下, yi = a + b xi + ui (1)其中xi为定量解释变量,yi为二元选择变量,ui为随机误差项。此模型

2、由James Tobit提出,因此得名。设 1 (若是第一种选择) yi = 0 (若是第二种选择)对yi取期望, E(yi) = a + b xi (2)下面研究yi的分布。因为yi只能取两个值,0和1,所以yi 服从两点分布。把yi的分布记为, P( yi = 1) = pi P( yi = 0) = 1 - pi则 E(yi) = 1 (pi) + 0 (1 - pi) = pi (3)由(2)和(3)式有 pi = a + b xi (yi的样本值是0或1,而预测值是概率。) (4)以pi = - 0.2 + 0.05 xi 为例,说明xi 每增加一个单位,则采取第一种选择的概率增加0

3、.05。假设用这个模型进行预测,当预测值落在 0,1 区间之内(即xi取值在4, 24 之内)时,则没有什么问题;但当预测值落在0,1 区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是 0,1,所以此时必须强令预测值(概率值)相应等于0或1(见图1)。线性概率模型常写成如下形式, 1, a + b xi ³ 1 pi = a + b xi , 0 < a + b xi < 1 (5) 0, a + b xi £ 0 图1 然而这样作是有问题的。假设预测某个事件发生的概率等于1,但是实际中该事件可能根本不会发生。反之,预测某个事件发生的概率等于0,但是

4、实际中该事件却可能发生了。虽然估计过程是无偏的,但是由估计过程得出的预测结果却是有偏的。由于线性概率模型的上述缺点,希望能找到一种变换方法,(1)使解释变量xi所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的xi,当xi增加时,希望yi也单调增加或单调减少。显然累积概率分布函数F(zi) 能满足这样的要求。采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型。 2Probit(概率单位)模型,仍假定 yi = a + b xi ,

5、而 pi = F ( yi) = (6)累积概率分布函数曲线在pi = 0.5附近的斜率最大。对应yi在实轴上的值,相应概率值永远大于0、小于1。显然Probit模型比Tobit模型更合理。Probit模型需要假定yi 服从正态分布。 2logit模型该模型是McFadden于1973年首次提出。其采用的是逻辑概率分布函数。其形式是 pi = F(yi) = F(a + b xi) = (7)对于给定的xi,pi表示相应个体做出某种选择的概率。Probit曲线和logit曲线很相似。两条曲线都是在pi = 0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。利用(6)和(7)式得

6、到的概率值见表1。表1 Probit模型和logit模型概率值yi正态分布函数pi = 逻辑概率分布pi =-3.00.00130.0474-2.00.02280.1192-1.50.06680.1824-1.00.15870.2689-0.50.30850.37750.00.50000.50000.50.69150.62251.00.84130.73111.50.93320.81762.00.97720.88083.00.99870.9526 pi 1.0logit曲线 0.5 Probit曲线 0 yi图2logit曲线近似于自由度为4的累积t分布曲线。Probit曲线和logit曲线都是

7、在pi = 0.5处有拐点,但logit曲线在两个分布的尾部要比Probit曲线厚,且计算也比较方便,所以Logit模型比Probit模型更常用。对上式作如下变换, pi (1+ ) = 1 (8)对上式除以pi ,并减1得 =-1 = 取倒数后,再取对数, yi = log ()所以 log () = yi = a + b xi (9)由上式知回归方程的因变量是对数的某个具体选择的机会比。logit模型的一个重要优点是把在 0,1 区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。logit累积概率分布函数的斜率在pi = 0.5时最大,在累积分布两个尾端的斜率逐渐减小。说明

8、相对于pi = 0.5附近的解释变量xi的变化对概率的变化影响较大,而相对于pi接近0和1附近的xi值的变化对概率的变化影响较小。对于Logit模型使用极大似然法估计参数是一个很好的选择。首先分析含有两个参数(a 和b)的随机试验。假设被估计的模型如下 pi = = (10)在样本中pi是观测不到的。相对于xi的值,只能得到因变量yi取值为0或1的信息。极大似然估计的出发点就是寻找样本观测值最有可能发生条件下的a 和 b 的估计值。从样本看,如果第一种选择发生了n次,第二种选择发生了N-n次。设采取第一种选择的概率用pi表示。采取第二种选择的概率用(1- pi)表示。重新将样本数据排列,使前n

9、个观测值为第一种选择,后N-n个观测值为第二种选择,则似然函数是 L(a, b) = P (y1, y2, , yN) = P (y1) P (y2) P (yN) = p1 pn (1 - pn + 1) (1 pN ) = (11)对数似然函数是 log L(a, b) = log pi +log (1- pi) (12)其中pi = 。分别求上式对a 和b 的偏导数,并令其为0,即 = - = 0 (13) = - = 0 (14)便可求到a 和b 的极大似然估计值。a 和b 的极大似然估计量具有一致性和渐近有效性,且都是渐近正态的。例1 南开大学国际经济研究所1999级研究生考试分数及

10、录取情况见数据表(N = 95)。定义变量SCORE :考生考试分数;Y :考生录取为1,未录取为0;虚拟变量D1:应届生为1,非应届生为0。表2 数据表obsYSCORED1obsYSCORED1obsYSCORED11140113403321670275021401035033216802730313921360332169027314138703703311700272151384138033017102670613790390328172026617137804003281730263181378041032817402611913761420321175026001013710430

11、321176025601113620440318177025201213621450318078025211313611460316179024511403591470308080024311503581480308181024201613561490304082024101703561500303183023911803551510303184023501903541520299185023202003540530297186022812103531540294087021912203500550293188021912303490560293189021412403490570292090

12、021012503481580291191020412603471590291192019802703471600287193018912803441610286194018812903391620286095018213003380630282196016613103381640282197012303203361650282033033406602780 得Logit模型估计结果如下:因为D1的系数没有显著性。说明“应届生”和“非应届生”不是决定是否录取的重要因素。剔除D1。得Logit模型估计结果如下 pi = F(yi) = 拐点坐标 (358.7, 0.5)在估计Probit模型过程

13、中,D1的系数也没有显著性。剔除D1,Probit模型最终估计结果是 pi = F(yi) = F (-144.456 + 0.4029 xi) 拐点坐标 (358.5, 0.5)两种估计模型的若干预测结果如下表Probit模型Logit模型scoreYpiYpi350-3.440.0003-5.950.0026355-1.430.0764-2.550.07383590.000.50000.000.50003600.590.72240.850.70323652.600.99534.240.98583704.620.99997.640.9995Probit和Logit模型的Eviews命令:选Quick, estimate equation。点击Method下拉菜单。选BINARY。在弹出的窗口中选Probit或Logit。例2 关于测度哈萨克斯坦居民贫困程度的二元选择模型(作者:国际粮食政策研究所的Surech BABU和heValerie RHOE,世界野生生物基金的William REIDHEAD)自1991年哈萨克斯坦脱离前苏联独立以来,哈萨克斯坦居民贫困程度加剧。GDP平均每年下降6.9%。从一个粮食纯输出国变成了一个粮食不能自给的国家。1997年的家畜产量也比1992年下降了30%。据调查全国平均15.8%的学龄前儿童处于发育不良状态

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论