第四部分 其他 离散因变量和受限因变量模型_第1页
第四部分 其他 离散因变量和受限因变量模型_第2页
第四部分 其他 离散因变量和受限因变量模型_第3页
第四部分 其他 离散因变量和受限因变量模型_第4页
第四部分 其他 离散因变量和受限因变量模型_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第四部分第四部分 离散被解释变量和离散被解释变量和受限因变量模型受限因变量模型 第一节第一节 离散被解释变量离散被解释变量一、一些离散被解释变量的例子一、一些离散被解释变量的例子二元选择模型(购买/不购买)多值选择模型:对于交通方式的选择,对汽车的选择等无序有序2二、二元选择模型二、二元选择模型 定义:最简单的在离散选择模型,在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(binary choice model)。 例如学生是否选择某选修课程,选或者不选消费者对某种商品的选择,买或者不买农民是否加入合作医疗保险,加入或者不加入31 0 E(y|x)1+01)YY1

2、iiyxypxppp 考察模型:其中若某结果出现若某结果不出现为y取1的概率可以得到:(可以得到: 的条件期望就是 取值 的概率所以:二元选择模型又称为概率模型(一)线性概率模型 1、线性概率模型:例如,研究居民的收入与购买住房决策的关系 看上去和OLS回归一样,区别是Y只取0和1两个值。1 0 iiiiyabxy其中购买住房不买住房52、线性概率模型的特点(| x)10 (1)(1)(| )(1)iiiiiiiE ypppP yE yxabxP yabx 63、随机扰动项的分布 随机扰动项不服从正态分布。对于参数估计不会产生影响,但会影响统计推断。只有大样本情况下,才可以利用正态分布假定进行

3、统计推断。( )()1 () () 1-iiiiiiyE yyabxabxpabxp服从两点分布概率为概率为774、线性概率模型评价 优点: 计算简单,结果易于解释 缺点: 预测概率值可能落在0,1之外。(解决方法:假设负的拟合值为0,大于1的拟合值为1.) 线性概率模型假定自变量与Y=1的概率之间存在线性关系,而实际往往不是线性的。 随机误差项不是正态分布 随机误差项具有异方差。(方差为p(1-p),而P是Y=1的概率,此概率对不同观测值不同。)8(二)非线性概率模型 实际上,p与x 可能是非线性关系。 随着X的增加,P(y=1)的概率在增加,但不超过0,1 P和x的关系是非线性的. 随着x

4、变大,p趋向1的速度也越慢。 怎样的函数有这个特性? 累积分布函数 考虑y的两点分布 根据累积分布函数形式 如果F是正态分布的累积分布函数,Probit模型 如果F是逻辑分布的累积分布函数,logit模型9(1| )( ,)(0| )1( ,)P yxF xP yxF x Probit曲线,曲线,Logit曲线比较示意图曲线比较示意图10-6-4-2024600.20.40.60.81logit曲线Probit曲线111、Probit模型 分布函数取标准正态分布。 称为Probit模型或者概率单位模型 利用极大似然估计方法求解221(1| )()2ita bxiP yxF abxedt12 P

5、robit模型参数的含义可以证明,x对y=1的概率的边际影响为 可见,系数本身并不是边际影响,边际影响也不是常数。但和边际影响的符号相同。 ()()pF xxpabxx此处:132、Logit模型 随机扰动项取Logistic分布, 称为Logit模型 利用极大似然估计方法求解()()()1(1| )()11iiia bxia bxa bxep yxF abxee1( )11eFee14Logit模型参数的含义 Logit可以计算机会比,将0,1区间上的预测概率的问题转化为在实数轴上预测一个事件发生的机会比的问题。 11 ln1a bxa bxa bxePepeppabxpxb机会比(事件发生

6、与不发生的概率比): ,机会比对数是解释变量的线性函数:,变化一个单位,机会比对数变化 个单位153、非线性模型的拟合优度 不再使用 常用三个指标 Pseudo-R2 概率的正确预测率检查Y=1或0的概率的正确性,判断拟合的好坏 预测值与真实值的相关系数相关系数高,表明拟合越好2R200ln 1ln0LMaFadden s PseudoRLLL 为无约束似然值,为参数为 约束下的似然值。164、模型的选择 直接比较三种概率模型的系数是没有意义的 线性概率模型可用于问题的初步分析 Logit模型,系数含义可以通过机会比得以jiesh解释,可以扩展到多元选择模型 Probit模型,可由随机变量服从

7、正态分布的假定得到,可以扩展到Tobit 模型1717三个模型估计系数的大概关系lLPM*2.5=Probit lLPM*4=logitlProbit*1.6=logitl以上只是一个大概的关系.18(三)二值选择模型的微观基础Probit模型和Logit模型的潜变量模型推导: 这里 不可观测,通常称为潜变量(latent variable)。我们能观测到的是虚拟变量:10iY*yx净收益:*y*1 0 0yyy =019*(1| )(0| )(0| ) (| )(| )()P yxp yxp xxPxxPxxF x 如果随机项服从正态分布,则为Probit如果随机项服从逻辑分布,则为logi

8、t20 三、排序模型三、排序模型 当因变量不止是两种选择时,就要用到多元选择模型(multiple choice model)。多元离散选择问题普遍存在于经济生活中。例如: (1) 一个人面临多种职业选择,将可供选择的职业排队,用0,1,2,3表示。影响选择的因素有不同职业的收入、发展前景和个人偏好等; (2) 同一种商品,不同的消费者对其偏好不同。例如,十分喜欢、一般喜欢、无所谓、一般厌恶和十分厌恶,分别用0,1,2,3,4表示。而影响消费者偏好的因素有商品的价格、性能、收入及对商品的需求程度等; (3) 一个人选择上班时所采用的方式自己开车,乘出租车,乘公共汽车,还是骑自行车。21所谓“排

9、序”是指在各个选择项之间有一定的顺序或级别种类。如果离散数据有天然的排序,需要建立排序选择模型(ordered choice model)。如:公司的评级 受到的教育程度 22 与二元选择模型类似,设有一个潜在变量 yi*,是不可观测的,可观测的是 yi ,设 yi 有0,1,2,M等M+1个取值。 (1)其中:ui*是独立同分布的随机变量,yi 可以通过 yi*按下式得到 (2) *iiiyux Ni,2,1*1*12*23*012iiiiMiyccycycycMcy如果如果如果如果23 设ui*的分布函数为F(x),可以得到如下的概率 (3)根据分布函数F(x)的不同可以有有序Probit

10、模型、有序Logit模型。采用极大似然方法估计参数需要指出的是,M个临界值c1, c2, , cM 事先也是不确定的,所以也作为参数和回归系数一起估计。 )(1)()()()2()()() 1()()0(23121xxxxxxiMiiiiiiiiicFMyPcFcFyPcFcFyPcFyP计数模型(Count Model) 被解释变量表示次数时,离散模型变为计数模型 例如: 某地区发生沙尘暴的次数 公司申请专利数量 常见模型 泊松分布 负二项回归等 24离散因变量STATA操作案例1、二元选择模型。命令191193数据文件:womenwk.dta主要变量:work0,1(1=就业)age年龄M

11、arried(1=已婚)Children子女数目Education受教育年限25 考虑模型2601234workagemarriedchildreneducation 线性概率回归(LPM) use womenwk.dta,clear reg work age married children education estimates store lpm 27 Probit回归 probit work age married children education estimates store probit 计算边际效应 mfx 计算准确预测的比率 estat clas28 Logit回归 lo

12、git work age married children education,nolog estimates store logit 计算边际效应 mfx 计算准确预测的比率 estat clas29 回归结果比较 estimates table lpm probit logit3031离散因变量STATA操作案例2。有序选择模型。命令P202(help ologit)数据文件:panel184extract.dta,公司债券评级模型主要变量:rating8383年的债券评级,2-5,5为最优ia8383年的income to asset比率diaia比率1982-1983年的变化3132l

13、Ordered logit估计 use panel184extract.dta,clear ologit rating83c ia83 dia,nologl预测每个公司的评级概率 predict r2 r3 r4 r5(预测评级概率,并命名) list r2 r3 r4 r5 in 1/1(仅显示第一个公司评级概率)3233lOrdered probit估计 use panel184extract.dta,clear oprobit rating83c ia83 dia,nologl预测每个公司的评级概率 predict p2 p3 p4 p5 list p2 p3 p4 p5 in 1/13

14、334第二节 受限因变量模型 在某些情况下,被解释变量的取值范围可能受到限制,称为受限因变量模型(limited dependent variable models)。 本节研究两类受限因变量模型审查回归,截取回归,归并问题(censored) 截断回归,断尾回归(truncated)。 35“归并归并” (censoring)(censoring)问题问题 将被解释变量的处于某一范围的样本观测值都用将被解释变量的处于某一范围的样本观测值都用一个相同的值代替。一个相同的值代替。 例如:例如: 需求函数模型中用实际消费量作为需求量的观需求函数模型中用实际消费量作为需求量的观测值,如果存在供给限制

15、,就出现测值,如果存在供给限制,就出现“归并归并”问问题。题。 被解释变量观测值存在最高和最低的限制。例被解释变量观测值存在最高和最低的限制。例如考试成绩,最高如考试成绩,最高100,最低,最低0,出现,出现“归并归并”问题。问题。 36“截断截断”(truncationtruncation)问题)问题 由于条件限制,样本不能随机抽取,即不能从全由于条件限制,样本不能随机抽取,即不能从全部个体,而只能从一部分个体中随机抽取被解释部个体,而只能从一部分个体中随机抽取被解释变量的样本观测值,而这部分个体的观测值都大变量的样本观测值,而这部分个体的观测值都大于或者小于某个确定值。于或者小于某个确定值

16、。 “掐头掐头”或者或者“去尾去尾”。 例如:例如: 银行贷款,我们只能观察到获得银行贷款的企银行贷款,我们只能观察到获得银行贷款的企业的数据。(实际上是选择性样本)通常表现业的数据。(实际上是选择性样本)通常表现为为“截断样本截断样本”。原因:问题的局限。原因:问题的局限。37一、审查回归模型一、审查回归模型(censored regression models ) 定义1:对于线性回归模型 ,当 或者 时,所有y都被记录为c。 即:当被解释变量为截取数据时,我们虽然有全部观察数值,但对于某些观察数据,被解释变量被压缩再一个点上了。 此时Y的概率分布变成由一个离散点,与一个连续分布所组成的混

17、合分布yxycyc38一、审查回归模型一、审查回归模型(censored regression models )例如:u买车开支。如果买车,那么买车开支为正,不买车开支为0u企业R&D支出。有相当部分企业的R&D支出为0.有R&D支出的企业数据大致连续分布 假设真实情况为39*Y iiiiiiiiyuyycycycyccycx , 为不可观察的潜变量。可以观察到的变量 :40Tobit模型(一类特殊,代表性的截取回归模型)一类重要的限制因变量模型,在严格为正时大致连续,但总体中有一个不可忽略的部分取值为零。例如,某人在一个月中酒方面的花费就是一个例子。有相当多的人在酒方

18、面的花费为零。我们不是简单的将这些观测从样本中去掉,而是建立Tobit模型。 41TOBIT模型的理论基础,考虑下面的潜在因变量回归模型 (1)其中: 是比例系数;y*是潜在变量。被观察的数据 y 与潜在变量 y* 的关系如下: (2)*iiiyux 000*iiiiyifyyify 数据的现实: 问题是可以得到全部观察值,但是信息可能不全面。 对估计的影响 如果用OLS,无论是用整个样本,还是去掉离散点后的子样本,都不能得到一致估计4243审查回归模型的极大似然估计审查回归模型的极大似然估计 可以采用极大似然法估计审查回归模型的参数,对数似然函数为 (4)求式(4)的最大值即可得参数 , 的

19、估计。这里f , F分别是u的密度函数和分布函数。 ()()()lnln()/)ln()/ ln()/)iiiiiiiiiiiiycicyciiiycLF cfyF cx x x 44二、二、 截断(断尾)回归模型截断(断尾)回归模型 (truncated Regression)truncated Regression)定义: 对于线性模型, ,假设只有 的数据才能观测到。形象地说:就是掐头或者去尾。即在很多实际问题中,不能从全部个体中抽取因变量的样本观测值,而只能从大于或小于某个数的范围内抽取样本的观测值 iiiyux iyc45例如,在研究与收入有关的问题时,收入作为被解释变量。从理论上讲

20、,收入应该是从零到正无穷,但实际中由于各种客观条件的限制,只能获得处在某个范围内的样本观测值。这就是一个截断问题。 数据存在的问题 数据缺失 估计方法 MLE 但是要利用条件密度函数46 断尾前Y的概率密度函数为: 样本被观察到的概率 断尾后的条件密度为47212211( )exp() ()2yxyxf y(| )1(| )1()| )1()yxcxcxP yc xP yc xPx 1( |, )1()yxf y yc xcx48ln(ln()ln)()lnLnyaiinin 2212122121XXii ln()Lyyiiiiiinin2ii2iiXX2Xg0 224211122ia() Xi iii() ()149 求解该求解该1阶极值条件,即可以得到模型的参数估计阶极值条件,即可以得到模型的参数估计量。量。 由于这是一个复杂的非线性问题,需要采用迭代由于这是一个复杂的非线性问题,需要采用迭代方法求解,例如牛顿法。方法求解,例如牛顿法。受限因变量模型的STATA操作 案例3、censored回归。命令见P215 数据文件:womenw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论