版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
离散选择模型第十章目录虚拟解释变量
线性概率模型
线性概率模型
Logit模型Probit模型
三者的比较例子:房地产类上市公司财务困境的预测
§10.1虚拟解释变量一.测量截距的变动假设农民接受的教育水平以及性别是影响收入的主要因素,虚拟变量Di表示性别,对于女性Di=1,对于男性Di=0。同时,以Yi表示农民的收入,Xi表示农民受教育的水平。农民收入回归模型:
(10.1.1)
如果我们假定模型(10.1.1)中随机误差项εi的条件期望为0,则男、女收入的总体回归函数可表示为:
可以看出,女性收入方程的截距为β0+β2,男性收入方程的截距为β0,由于性别差异所导致男女收入的差异体现在截距上,因此,模型(10.1.1)的虚拟变量描述了男女收入方程中的截距的变化。
(10.1.2)对于类似模型(10.1.1)定义的虚拟变量,把虚拟变量取值为0的一组称为基准组,而把取值为1的组称为对照组。对模型(10.1.1)也可以定义男性Di=1,女性Di=0。这样变化后,请重写模型(10.1.2),并解释截距项的变化。模型中应该引入几个虚拟变量呢?能否在模型(10.1.1)中再引进一个虚拟变量di,并将其定义为:女性di=0,男性di=1?这样,回归模型转化为(10.1.3)
由于女性Di=1,男性Di=0,所以Di
+di=1。这样将导致完全多重共线性?(提示:可认为β0系数后面也有一个解释变量,这个解释变量的取值都为1)。(10.1.3)
当模型存在截距项时,如果定性虚拟变量含有m个分类,则在模型中应引入m
-1个虚拟变量。如果引入m个虚拟变量,从而产生完全多重共线性,这就是所谓的虚拟变量陷阱问题。若将模型中的截距项去掉,如果定性虚拟变量含有m个分类,则在模型中应引入m个虚拟变量。模型中应该引入几个虚拟变量呢?例10-1下面以我国2000-2007年季度GDP数据为例来说明虚拟变量如何度量截距的变化,图10.1是关于GDP的序列图。图10.1.1GDP序列图结合数据特征,我们首先定义季度虚拟变量。
设定回归模型为:(10.1.3)估计结果如下:由于代表第二季度和第三季度的虚拟变量的回归系数在5%的显著性水平都不能拒绝零假设,说明第二季度、第三季度的GDP与第一季度的GDP没有显著差异。因此,应把第一季度、第二季度、第三季度的GDP归并在一个组别中,仅需把季度因素分为第四季度和其他季度,这样我们进而在模型中引入一个虚拟变量D3t。(1.02)
t=(6.83)
(1.29)
(6.05)
(16.88)得到的回归模型如下:t=(9.43)(6.50)(17.08)从回归结果看,虚拟变量D3t对应的回归系数为11122.9与理论预期一致且统计显著,其含义为,在其他条件不变前提下,平均来说,第4季度比其余季度的GDP高11122.9亿。二.测量斜率的变动使用虚拟变量也可以测量回归模型中斜率系数的变化。例如,以国内生产总值(GDP)代表收入,以居民消费支出代表消费(C)。考虑我国的居民收入对居民消费支出的影响。我国居民的边际消费倾向可能大约在2000年开始发生显著的变化。
定义虚拟变量:
设定回归模型:2000年前后,我国消费函数的回归函数为:从(10.1.5)式可以看出,2000年以前的边际消费倾向为β1+β2
,2000年以后的边际消费倾向为β1,2000年前后消费函数的差异体现在斜率系数上。因此,在回归模型中以虚拟变量和数值型解释变量相乘的方式引入虚拟变量,可以用来度量回归模型斜率系数的变化。
(10.1.4)
(10.1.5)
估计模型(10.1.4),结果如下:t=(1.65)(70.10)
(2.99)回归结果表明,估计的β2为0.05,其对应的t统计量值为2.99,可以在5%的显著性水平上拒绝零假设,因此,我国2000以前的边际消费倾向显著高于2000以后的边际消费倾向,平均来说高0.05。三.使用虚拟变量检验模型的稳定性以城乡居民储蓄存款余额代表居民储蓄(S),以GDP代表居民收入。
我们以1990年为分割点设定虚拟变量:Dt=1(1990年以前),Dt=0(1990年以后)设定储蓄函数回归模型:1978-1989年和1990-2006年的储蓄函数分别是:如果估计的β1显著不为0,则表明储蓄函数的截距发生结构变化;如果估计的β3显著不为0,表明储蓄函数的斜率系数发生结构变化;如果估计的β1,β3联合不为零,则表明储蓄函数的截距和斜率都发生结构变化。
(10.1.5)
可以使用通常的t统计量检验单个回归系数β1或β3的显著性,而对于β1,β3的联合显著性,则使用通常受约束的F统计量。模型(10.1.5)的估计结果如下:
t=(-9.65)(5.31)(57.83)(-2.18)
这一结果表明,分别来看,我国储蓄函数的截距和斜率在1990年前后发生了结构变化。对β1和β3的联合为0的原假设,我们使用约束的F检验。其约束条件为β1=β3
=0。记RSSr为有约束的残差平方和,RSSu为无约束的残差平方和,构造并计算F统计量:由于计算得到的F统计量值17.65>F0.05(2.25)=3.39,故拒绝原假设,接受备择假设,我国储蓄函数在1990年前后发生显著结构变化。1990年以前的边际储蓄倾向为
β2+β3=0.832-0.481=0.3511990年后的边际储蓄倾向为0.832
四.虚拟变量之间的交互作用如同定量变量一样,虚拟变量也能产生交互作用,例如,如果认为性别和学历是影响保健支出的主要因素,则可以构建以下模型:这里,Yi
表示居民的保健消费支出,D1i
为性别虚拟变量,D2i为学历虚拟变量。若为女性D1i
=1,否则,D1i=0;若为大学本科及以上,D2i=1,否则,D2i=0。Xi为其它影响保健支出的定量变量,如收入等。(10.1.6)该模型隐含的含义是:由于学历差异,男性在保健支出的差别与女性在保健支出的差别是一样的。在许多应用中,这种假定很可能不成立。也许对于女性而言,学历差异导致的保健支出的差异大于男性。也就是说,两个虚拟变量D1
和D2
之间会相互影响。可以采用虚拟变量的交互作用项来反映这种影响:参照虚拟变量的定义,你能分析虚拟变量的交互作用项如何保健支出的差异吗?(10.1.7)Wooldridge(2000)的一个例子:若一个人在工作过程中使用了计算机,则虚拟变量work=1,否则work=0;若一个人在家使用计算机,则虚拟变量home=1,否则home=0。利用1989年人口普查中13379个样本,得到回归结果:t=(19.67)(3.68)(0.74)
结果表明:在工作中使用计算机但在家里不用计算机的人比一个什么时候都不使用计算机的人,平均工资高17.7%,一个在家里使用计算机但在工作中不使用计算机的人,平均工资比根本就不使用计算机的人高7%;在家里和在工作中都使用计算机的人,比两种情况下都不使用计算机的人,平均工资高26.4%。
§10.2线性概率模型一.线性概率模型的定义为了说明问题,先建立一个简单的回归模型:其中,如果高中毕业后选择上大学,Yi=1;如果高中毕业后选择不上大学,Yi
=0,为简化,这里仅写出一个解释变量Xi,它表示家庭收入。
(10.2.1)如果我们仍然假定随机误差项ε的条件期望为0,就可以得到:现在记pi为选择上大学的概率,即“Yi=1”的概率,则1-pi为选择不上大学的概率,即“Yi=0”的概率,这样,Yi服从贝努里二项概率分布,即p(Yi=1)=pi
,
p(Yi=0)=1-pi。由数学期望的定义:如果我们称Yi=1的条件概率为成功的概率,则成功的概率p(Yi=1|Xi)=E(Yi|Xi)是解释变量的线性函数,因此,模型(10.2.1)被称为线性概率模型(linearprobabilitymodel,LPM)
(10.2.2)
=二.有关线性概率模型的问题
1、误差项ε不服从正态分布在线性概率模型中,误差项εi和Yi一样,只取值0或1,εi服从正态分布的假定就不成立。εi服从贝努里分布。在小样本下,不能使用通常的t统计量和F统计量对(10.2.1)的OLS估计量进行统计推断,但在大样本下,仍可沿用正态性假定下的方法。
2、线性概率模型的误差项εi也不满足同方差的假定
由于εi的均值为,因此,误差项εi的方差随着解释变量Xi的变化而变化,从而误差项有异方差。使用加权最小二乘法校正异方差,选择校正的权数为,得到:(10.2.4)
(10.2.5)(10.2.5)的误差项是同方差的,但权重wi是未知的。因而,估计模型(10.2.5)之前必须先估计权重wi。可以使用如下两步法:(1)直接使用普通最小二乘法估计(10.2.1),基于此得到,再求出的估计值。(2)按照(10.2.5)的方法,用估计的对原始模型(10.2.1)进行数据变换,对变换后的模型做普通最小二乘估计。
3、0≤E(Yi|Xi)≤1
可能不满足。
简单的克服方法是令所有大于1的等于1,令所有负的值都等于0。另一种更为合理的处理无界限性的方法,是以非线性平滑和有意义的方式的迫使所有的落在0~1之间,这就是我们将在本章后面将要讲述的二分应变量Logit模型和Probit模型。
4、R2不是总体拟合优度的一个精确度量R2的替代指标
1、使用样本中能够被估计的方程正确解释的Yt的观测值所占样本总量的百分比去代替R2。2、计算正确解释1的百分数和正确解释0的百分数,然后报告这两个百分数的平均数,我们定义为。
例10-4
Wooldridge(2000)研究了已婚妇女参与劳动力市场工作影响因素的模型。如果已婚妇女为了工资而在家庭以外工作过,二值变量inlf=1,否则inlf
=0;已婚妇女进入劳动力市场受到如下因素的影响:丈夫的收入(has),过去在劳动力市场工作的年数(exp),受教育的年数(edu)和年龄(age),年龄低于6岁的孩子数(kid6),年龄介于6岁-18岁的孩子数(kid)。使用1975年753个样本的估计结果如下:
t=(3.81)(-2.43)(5.43)(6.50)
(-3.33)(-8.00)(-7.71)(1.00)
(10.2.6)从这个例子中可以很容易地看到线性概率模型的某些不足:1、如果在(10.2.6)中代入解释变量的某些特定组合值,很可能得到预测的inlf大于1或小于0。实际上,在Wooldridge(2000)使用的753个样本中,预测到inlf为负有16个样本,预测到inlf大于1的样本有17个。2、线性概率模型(10.2.6)意味着已婚妇女参与劳动的概率是诸解释变量的线性函数,而现实中,已婚妇女参与劳动的概率不应该与解释变量的所有可能值都是线性相关。
§10.3Logit模型一.Logit
模型的含义在线性概率模型中,选择上大学的概率与家庭收入的线性关系为:使用累积逻辑斯蒂(cumulativeLogistic)分布函数描述选择上大学的概率与家庭收入的关系:(Yi=1的概率落在0~1之间)(10.3.1)(10.3.2)为表述方便,模型(10.3.2)等价的改写为:这里,使用Logit函数所描述的pi与Zi之间的关系是非线性的。(10.3.3)图10.2.2:pi与zi的关系图如果选择上大学的概率由(10.3.3)表述,则选择不上大学的概率为:现在,等式左边的变量为pi/(1-pi),它表示一个高中毕业生选择上大学与选择不上大学的比率,我们把这个相对比率称为机会比率。对(10.3.5)两边取自然对数,得到:这里,Li被称为Logit。这样,就将初始模型(10.3.2)转化为标准线性模型
(10.3.4)(10.3.5)(10.3.6)(10.3.6)具有如下特点:(1)虽然L对X为线性,但概率p本身与X却是非线性关系,与概率p随X而线性变化的线性概率模型有很大不同。(2)若L为正数,这意味着当解释变量的值增加时,被解释变量等于1的概率也增加;若L为负数,表明随着解释变量的值增加,被解释变量等于1的概率的机会下降。(3)式中斜率系数β1的含义是,X每单位变化所导致的L的变化。对于截距项β0,如同普通的线性模型,它没有明显的经济含义。(4)对于给定的解释变量X,我们真正想估计的并不是机会比率的对数,而是成功的概率(即Y=1的概率)。因为,成功的概率有直观的经济含义,而机会比率不容易直观地说出其经济含义。但是,一旦有了β0+β1Xi的估计值,我们很容易根据(10.3.6)计算出成功的概率。二.Logit
模型的估计为估计目的,将(10.3.6)改写为计量模型:为估计该模型,我们必须首先知道被解释变量Li的值,那么,如何得到Li的值呢?:(1)个体水平数据;(2)群组数据或重复观察数据。
(10.3.7)
1、群组数据的估计方法表10.4高中毕业生的家庭收入与选择上大学的假想群组数据对应于每个收入水平Xi,有Ni个高中毕业生,其中有ni个选择上大学(ni≤Ni)。根据表中数据,可以使用每组家庭收入所对应的选择上大学的相对频率作为在这一收入水平下高中生选择上大学概率的估计:(10.3.8)随机误差项服从均值为0,方差为的正态分布。显然,如同线性概率模型,Logit模型的误差项方差取决于pi,因此也是异方差。这样,为了获得有效估计,就应该使用加权的最小二乘法估计模型。我们用作为pi的估计,用作为的估计量。这样,使用加权最小二乘法估计Logit模型的步骤如下:(1)对于每一个收入水平,计算选择上大学的概率;(2)对每一个收入水平Xi,求Logit:(3)为解决异方差,对数据变换:
其中,权重,经过这样变换后,误差项为同方差。(4)用普通最小二乘法估计模型(10.3.10),并用线性模型时通常使用方式构造置信区间和进行假设检验。(10.3.10)t=(0.016)(7.55)
记得,因此,取估计的Logit的反对数,可得到pi/(1-pi),即选择上大学的机会比率。这样,对(10.3.11)取反对数,得到:计算得到家庭收入对选择上大学的加权机会比率的偏效应为:。这意味着,家庭收入每增加一个单位,选择上大学的加权机会比率平均大约增加1.8%。(10.3.11)当有k个解释变量时,对斜率系数一般的解释为:如果选取第j(j≤k)个斜率系数的反对数,再从中减去1并乘以100,你将得到对应于第j个解释变量每增加1个单位导致的机会比率的百分比变化。
X=40时,选择上大学的概率是多少?将代入(10.3.11),计算得到:
求解得到:
计算解释变量X对机会比率的偏效应利用微积分的知识,容易得到在家庭收入为40单位水平上,收入每增加增加一单位,选择上大学的概率的变化是:2、个体数据的Logit模型如果仅有个体数据,就不能直接使用普通最小二乘法对模型进行估计,我们采用极大似然估计(maximumlikelihood,ML)。(1)极大似然估计量具有一致性和渐近有效性,在大样本情况下还具有无偏性和最小方差性。(2)在样本很大时,极大似然估计还具有系数估计量为正态分布的性质。
(3)对于二值虚拟被解释变量模型,通常所计算的拟合优度R2没有太多的现实意义。McFadden
R2的度量方法,简记为,其中,LIFur是模型包含所有解释变量时无约束对数似然函数值,LLFr是回归模型中仅含有截距项时的有约束的对数似然函数值。另一种相对简单的拟合优度的度量方法就是计数R2,它的定义如下:
计数
(4)为了检验所有斜率系数同时为零的虚拟假设,这里使用似然比(LR)统计量。在虚拟假设下,LR统计量服从自由度为解释变量个数(不含截距项)的分布。例10-6:如果第i个妇女有工作或正在寻找工作,取Yi=1,否则Yi=0。Ai为妇女的年龄,Si为妇女受教育年限。这里Logit模型可以写为:估计已婚妇女参与劳动市场的模型,数据及结果如下:(10.3.12)表10.5妇女参与劳动力市场数据回归模型的总体显著性检验,LR统计量的值为7.30>5.99,因此,所有解释变量对妇女参与劳动力市场有显著影响。从单个变量看,年龄对妇女参与劳动力市场没有显著影响,受教育的年限对妇女是否参与劳动力市场有显著影响。每个斜率系数都是一个偏斜率系数,它度量了在其余回归元不变的条件下,某个解释变量的值变动一个单位所引起的Logit估计值的变化。变量S的系数为0.53,意味着在其他变量不变的前提下,如果变量S增加一个单位,估计的Logit值平均增加0.53个单位,也表明两者正相关。
通过对斜率系数取反对数从而可得到机会比率,这是一个比Logit更有直观经济意义的解释。以变量S为例,对其回归系数取反对数得1.69(≈e0.53),这表明在控制其他变量不变的前提下,妇女多接受一年教育,其参与劳动市场的机会比率就增加约69%。我们也可以计算出某地妇女参与劳动市场的实际概率。考察表中第10个妇女的观察值,将她的数据代入所估计的Logit模型,得到她的Logit的估计值为-1.64,计算得到其参与劳动力市场的概率为0.162。看一下表10.5,这位妇女的Y=1,说明她参与了劳动市场,而我们估计的其参与劳动市场的概率为0.162,远小于1,说明我们的模型错误地预测了这位妇女。30个样本中正确预测了21个样本,不正确预测的样本有9个。根据预测的结果,可以计算计数R2
=21/30=0.7,本例中McFaddenR2=0.18,当然这两者没有可比性。§10.4Probit
模型在线性概率模型中,虚拟被解释变量的取值可能超过0~1区间,Logit模型是使用累积逻辑分布函数将被解释变量取值限制在0~1区间。现在我们考虑使用另一种方法克服线性概率模型的这一内在缺陷。一个简单而有效的途径就是把模型的左边(β0+β1Xt)转化为概率的形式。也就是说,使用一个函数F,使得:(10.4.1)
我们采用分布函数或累计密度函数将转化至0~1区间。Logit模型就是把函数选择为逻辑斯蒂(Logistic)分布函数,现在我们将函数F选择为标准正态分布函数,则形成一种新的具有吸引力的模型:这里,。标准正态函数就以概率的形式把zi限制在0~1之间,从而Yi=1的概率也在0~1之间。我们将(10.4.2)称为Probit模型,有时也称normit模型。(10.4.2)Probit模型看起来和我们在前面考察过的Logit模型不太一样,但对(10.4.2)进行简单变换,看起来就会很熟悉:其中是正态累积分布函数的反函数。Probit模型是典型地对具有方程(10.4.2)形式的模型应用极大似然估计,但以形如(10.4.3)方程表示结果。
(10.4.3)
例10-7应用前面Logit模型所使用过的妇女劳动力数据来估计Probit模型。
总体显著性检验似然比统计量LR=7.48>5.99,故所有解释变量对妇女参与劳动力市场有显著的影响。从斜率系数估计结果看,斜率系数估计的符号与理论预期一致,如年龄变量的系数为负,表示年龄越大,妇女参与劳动市场的可能性越低。从回归系数的显著性检验看,年龄变量A的回归系数z的统计量值为-0.25>-1.96,其p也约为0.80,意味着年龄对妇女参与劳动力市场没有显著影响。变量S所对应回归系数z的统计量为2.27>1.96,其p也约为0.023,说明受教育的年限对妇女是否参与劳动力市场有显著影响。如何解释Probit模型中斜率系数的含义呢?
回顾模型(10.4.2),我们需要求概率对解释变量的偏导数,结果为:其中,
是标准正态概率密度函数在处的取值,显然,这个值的计算将取决于Xi的特定值。比如,第20个妇女的年龄A为27,接受教育的年数S为13,根据这些数据求得==0.302。将这个值乘以斜率系数的估计值0.324,得到0.302×0.324=0.098。(10.4.4)对于接受教育年数为13年的妇女,在其余变量不变的前提下,每增加一年接受教育的年数,参与劳动市场的概率约增加9.8%。根据上述说明,我们可以简单总结k个解释变量的Probit模型中,第j(j≤k)个解释变量对被解释变量的偏效应由βjf(zi)给出。这里,f(zi)是标准正态分布变量的密度,zi代表分析中所用的回归模型,即:§10.5线性概率模型、Logit模型与Probit模型的比较共同点:线性概率模型、Logit模型和Probit模型都仅是未知的总体回归模型E(Y|X)=p(Y=1|X)的近似不同点:线性概率模型的应用及解释相对较简单和方便,但它不能描述真实总体回归函数的非线性,也不能将Y=1的概率限制在0~1之间;Logit模型和Probit模型虽然可以从概率上描述总体回归函数的非线性,从而将Y=1的概率限制在0~1之间,但模型的估计和回归系数的解释相对更为困难。Logit模型和Probit模型的比较:逻辑分布有相对较平坦的尾部,也就是说,Logit的条件概率比Probit以更慢的速度趋近于0和1。但由于Logit使用相对简单的数学形式,因此,实践中常常选用它。尽管线性概率模型有明显的不足,但当解释变量的观察值中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44844-2024工业通风机公差、换算及技术参数表示方法
- 爱久见人心歌词「梁静茹」
- 老师毕业寄语幼儿园大班简短
- 寒露唯美诗词
- 保育员辞职信范文
- 《餐厅消防培训资料》课件
- 大学生创新创业基础第三章 掌握创新方法
- 《现场定置管理培训》课件
- 孔雀东南飞课件教学
- 《K线技术培训》课件
- 2024年医院中医内科带教教案
- 学校食堂厨房规范化操作程序
- 审计学(第5版)课后习题答案 第七章 审计抽样练习题
- 供应链管理 课件 8.2 供应商管理库存和联合库存管理
- 水平三(五年级)体育《障碍跑》教学设计及教案
- 卒中中心诊疗规范手册
- 韩国美妆行业市场分析报告
- 管理哲学导论(第3版) 课件 第六章 组织的结构与行为
- 解决方案部规章制度
- 河海大学开题报告
- 电梯安全质量管理体系建立
评论
0/150
提交评论