版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 定性选择模型第十五讲2 在教材第八章中曾介绍解释变量为虚拟变量的模在教材第八章中曾介绍解释变量为虚拟变量的模型,本章要讨论的是因变量为虚拟变量的情形。在这型,本章要讨论的是因变量为虚拟变量的情形。在这种模型中,因变量描述的是特征、选择或者种类等不种模型中,因变量描述的是特征、选择或者种类等不能定量化的东西,如乘公交还是自己开车去上班、考能定量化的东西,如乘公交还是自己开车去上班、考不考研究生等。在这些情况下,因变量是定性变量,不考研究生等。在这些情况下,因变量是定性变量,我们可以用定义虚拟变量的方法来刻画它们。这种因我们可以用定义虚拟变量的方法来刻画它们。这种因变量为虚拟变量的模型被称为定
2、性选择模型变量为虚拟变量的模型被称为定性选择模型(Qualitative choice modelsQualitative choice models)或定性响应模型)或定性响应模型(Qualitative response modelsQualitative response models)。)。 如果只有两个选择,我们可用如果只有两个选择,我们可用0 0和和1 1 分别表示它分别表示它们,如乘公交为们,如乘公交为0 0,自驾车为,自驾车为1 1,这样的模型称为二元,这样的模型称为二元选择模型(选择模型(binary choice Modelsbinary choice Models),多于
3、两个选择),多于两个选择(如上班方式加上一种骑自行车)的定性选择模型称(如上班方式加上一种骑自行车)的定性选择模型称为多项选择模型(为多项选择模型(Multinomial choice modelsMultinomial choice models)。)。 3第一节 线性概率模型 二元选择模型如何估计呢?由于它看上去象是一个典型的OLS回归模型,因而一个简单的想法是采用OLS法估计。当然,对结果的解释与常规线性回归模型不同,因为二元选择模型中因变量只能取两个预定的值。线性概率模型(LPM)一般形式如下: 这看上去与典型的OLS回归模型并无两样,但区别是这里Y只取0和1两个值,观测值可以是个人、
4、公司、国家或任何其他横截面个体所作的决定。解释变量中可以包括正常变量和虚拟变量。01122(15.1)iiikkiiYXXXu4 下面用一个关于是否读研究生的例子来说明如何解释线性概率模型的结果。模型为:012(15.2)iiiiYGPAINCOMEu其中:01iY该生三年内未去读研三年内去读研个学生拿到学士学位后第iiiG P A 第 个 学 生 本 科 平 均 成 绩位:千美元)个学生家庭年收入(单第iiINCOME5 设回归结果如下(所有系数值均在10%水平统计上显著): 0.70.40.00215.3iiiYGPAINCOME () 对每个观测值,我们可根据(15.3)式计算因变量的拟
5、合值或预测值。在常规OLS回归中,因变量的拟合值或预测值的含义是,平均而言,我们可以预期的因变量的值。但在本例的情况下,这种解释就不适用了。假设学生甲的平均分为3.5,家庭年收入为5万美元,Y的拟合值为0.7 0.4 3.5 0.002 500.815.4Y ()6 尽管因变量在这个二元选择模型中只能取两个值:尽管因变量在这个二元选择模型中只能取两个值:0或或1,可是该学生的的拟合值或预测值为,可是该学生的的拟合值或预测值为0.8。我们。我们将该拟合值解释为该生决定读研的概率的估计值。因将该拟合值解释为该生决定读研的概率的估计值。因此,该生决定读研的可能性或概率的估计值为此,该生决定读研的可能
6、性或概率的估计值为0.8。需要注意的是,这种概率不是我们能观测到的数字,需要注意的是,这种概率不是我们能观测到的数字,能观测的是读研还是不读研的决定。能观测的是读研还是不读研的决定。 对斜率系数的解释也不同了。在常规回归中,斜率系数代表的是其他解释变量不变的情况下,该解释变量的单位变动引起的因变量的变动。而在线性概率模型中,斜率系数表示其他解释变量不变的情况下,该解释变量的单位变动引起的因变量等于1的概率的变动。7 GPA的系数估计值0.4意味着家庭收入不变的情况下,一个学生的GPA增加一个点(如从3.0到4.0),该生决定去读研的概率的估计值增加0.4。 INCOME的系数估计值0.002表
7、明,一个学生的成绩不变,而家庭收入增加1000美元,该生决定去读研的概率的估计值增加0.002。 LPM模型中,解释变量的变动与虚拟因变量值为1的概率线性相关,因而称为线性概率模型。8线性概率模型存在的问题(1)线性概率模型假定自变量与Y=1的概率之间存在线性关系,而此关系往往不是线性的。(2)拟合值可能小于0或大于1,而概率值必须位于0和1的闭区间内。 回到有关读研的例子。假设学生乙的GPA为4.0,家庭收入为20万美元,则代入(15.3)式,Y的拟合值为 从而得到一个不可能的结果(概率值大于1)。假设另有一个学生丙的GPA为1.0,家庭收入为5万元,则其Y的拟合值为 -0.2,表明读研的概
8、率为负数,这也是一个不可能的结果。0.7 0.4 4.0 0.002 200 1.315.5Y ()9 解决此问题的一种方法是,令所有负拟合值都等于0,所有大于1的拟合值都等于1。但也无法令人十分满意,因为在现实中很少会有决策前某人读研的概率就等于1的情况,同样,尽管某些人成绩不是很好,但他去读研的机会仍会大于0。线性概率模型倾向于给出过多的极端结果:估计的概率等于0或1。 (3) 另一个问题是扰动项不是正态分布的。事实上,线性概率模型的扰动项服从二项分布。 (4)此外,线性概率模型存在异方差性。扰动项的方差是 p (1-p) ,这里 p是因变量等于1的概率,此概率对于每个观测值不同,因而扰动
9、项方差将不是常数,导致异方差性。可以使用WLS法,但不是很有效,并且将改变结果的含义。10 (5)最后一个问题是在线性概率模型中, 以及 不再是合适的拟合优度测度。事实上,此问题不仅是线性概率模型的问题,而是所有定性选择模型的问题。较好一点的测度是模型正确预测的观测值的百分比。首先,我们将每一预测归类为1或0。如果拟合值大于等于0.5,则认为因变量的预测值为1。若小于0.5,则认为因变量的预测值为0。然后,将这些预测值与实际发生的情况相比较,计算出正确预测的百分比: 2R2R100观测值总数正确预测的观测值数比正确预测观测值的百分11 需要指出的是,这个测度也不是很理想,但预测结果的好坏,并非
10、定性选择模型唯一关心的事,这类模型常被用于研究影响人们进行某个决策的因素。 一个竞选的例子。假设候选人甲和乙二人竞选某市市长,我们可以用一个二元选择模型来研究影响选民决策的因素,设模型为:0123115.6iiiiiCANDINCOMEAGEMALEu()其中:110iCAND票个选民不投候选人甲的如果第个选民投候选人甲的票如果第ii位:千美元)个选民的家庭收入(单第iiINCOME个选民的年龄第iiAGE01iMALE女性男性12VariableCoefficientStandard errort-Statisticp-ValueConstant-0.510.19-2.650.01 INCO
11、ME0.00980.0033.250.00 AGE0.0160.00533.080.00 MALE0.00310.130.020.98 表15-2 两候选人选举线性概率模型回归结果Dependent variable:CAND1Observations:30 = 0.58Adjusted = 0.53Residual Sum of Squares =3.15F-statistic = 11.872R2R13 如表152所示,INCOME的斜率估计值为正,且在1%的水平上显著。年龄和性别不变的情况下,收入增加1000元,选择候选人甲的概率增加0.0098。 AGE的斜率估计值也在1%的水平上显著
12、。在收入和性别不变的情况下,年龄增加1岁,选择候选人甲的概率增加0.016。MALE的斜率系数统计上不显著,因而没有证据表明样本中男人和女人的选票不同。 我们可以得出如下结论:年老一些、富裕一些的选民更喜欢投票给候选人甲。 表153给出CAND1的拟合值,每个大于等于0.5的拟合值计入CAND1为1的预测,而小于0.5的拟合值则计入CAND1为0的预测。14 从表153可看出,30个观测值中,27个(或90%)预测正确。选甲的14人中,12人(或85.7%)预测正确。选乙的16人中,15人(或93.8%)预测正确。 是0.58,表明模型解释了因变量的58%的变动,这与90%的正确预测比例相比,
13、低了不少。注意表153中有一些拟合值大于1或小于0。这是我们前面指出的这类模型的缺点之一,这些拟合值是概率的估计值,而概率永远不可能大于1或小于0。2R15第二节 Probit模型和Logit模型一Probit和Logit方法概要 估计二元选择模型的另一类方法假定回归模型为 这里 不可观测,通常称为潜变量(latent variable)。我们能观测到的是虚拟变量:*01(15.7)kijijijYXu01iY*iY015.8若()其它*iY16 这就是Probit和Logit方法的思路。Probit模型和Logit模型的区别在于对(15.7)式中扰动项u的分布的设定,前者设定为正态分布,后者
14、设定为logistic分布。 (15.7)式与线性概率模型的区别是,这里假设潜变量的存在。例如,若被观测的虚拟变量是某人买车还是不买车, 将被定义为“买车的欲望或能力”,注意这里的提法是“欲望”和“能力”,因此(15.7)式中的解释变量是解释这些元素的。 从(15.8)式可看出, 乘上任何正数都不会改变 ,因此这里习惯上假设 Var(ui) = 1,从而固定 的规模。由(15.7)和(15.8)式,我们有*iY*iY*iYiY170101Pr(1)Pr()1 ()kiiijijjkjijjPob Yob uXFX 其中F是u的累积分布函数。如果u的分布是对称的,则 ,我们可以将上式写成1()(
15、 )FzF z01()(1 5 .9 )kijijjPFX我们可写出似然函数:1810(1)(15.10)iiiiYYLPP (15.9)式中F的函数形式取决于有关扰动项u的假设,如果 的累积分布是logistic分布,则我们得到的是logit模型。在这种情况下,累积分布函数为:iuexp()()(15.11)1exp()iiizF zz因此()log1()iiiF zzF z19这是因为,由(15.11)式,有:()log1()exp()exp()1exp()1exp()loglogexp()1exp()exp()11exp()1exp()exp()1exp()loglog exp()11e
16、xp()iiiiiiiiiiiiiiiiF zF zzzzzzzzzzzzzzz20结合(15.9)式,对于logit模型,有:01log1kiijijjipXp 上式的左端是机会(odds)的对数,称为对数机会比率(log-odds ratio),因而上式表明对数机会比率是各解释变量的线性函数,而对于线性概率模型, 为各解释变量的线性函数。 如果(15.9)式中 服从正态分布,我们得到的是probit模型(或normit模型),在这种情况下,累积分布函数为:ip/21( )exp()(15.12)22izitF zdtiu21 无论是probit模型还是logit模型,极大似然函数(15.1
17、0)都伴随着非线性估计方法,目前很多计量经济分析软件已可用于probit和logit分析,用起来很方便。 由于累积正态分布和累积logistic分布很接近,只是尾部有点区别,因此,我们无论用(15.11)还是(15.12),也就是无论用logit法还是probit法,得到的结果都不会有很大不同。可是,两种方法得到的参数估计值不是直接可比的。由于logistic分布的方差为 ,因此,logit模型得到的的估计值必须乘以 ,才能与probit模型得到的估计值相比较(正态分布标准差为1)。2332223二Probit模型 Probit模型可以解决很多线性概率模型中遇到的问题。如我们在前面指出的,线性
18、概率模型会给出小于0或大于1 的这种不可能的概率估计值,Probit模型所依据的是累积正态概率分布,将避免这类问题的发生,同时它给出接近0或1的概率估计值的机会也要小于线性概率模型。与线性概率模型相比,Probit模型更准确地描述我们打算研究的许多决策过程。如图15-1所示24概率=F(Z)10ZProbit模型线性概率模型图15-1 线性概率模型和Probit模型25 虽然Probit模型实际是非线性的,但它可以以一种类似于其他经济模型的方式写出。首先,我们需要将等式(15.12)稍微改写一下,它代表由累积正态概率函数执行的变换:/21( )exp()(15.13)22iziitPF zdt
19、在上式中,F是一个函数,即将正态概率函数的一个值转换成概率的累积正态概率函数。Probit模型使用其反函数,将概率值转换成 Z 的值。1(15.14)iZFP26Probit模型为 101122(15.15)iiiikkiiZFPXXXu尽管乍看上去上式像一个典型的回归模型,但它是一个非线性模型,因为有 这一项。Probit模型不能用OLS法估计,应采用极大似然法估计。 1iFP27 Probit模型(以及我们下面要讨论的Logit模型)在大样本(观测值数以百计)时效果最好。如果样本中两种可能的选择都有足够的信息,则效果更佳。例如,对于我们前面的读研究生的例子,设观测值为200,若其中仅3%的
20、人决定读研,也就是200人中仅有6人,那么在此样本中就没有足够的信息来给出好的估计值,选择读研的样本过少,使得回归结果的可信程度不高。 我们可以将两个候选人的选举模型用Probit模型估计,使用与前面一样的变量和数据,估计结果如表15-4所示。28表104 两候选人选举模型的Probit回归结果Dependent variable:CAND1VariableCoefficientStandard errort-Statisticp-ValueConstant-5.191.70 -3.060.00 INCOME0.0710.0342.10 0.04 AGE0.0730.0342.180.03 M
21、ALE-0.70 0.90 -0.780.44 Observations:30McFadden pseudo-R2 = 0.61Residual Sum of Squares = 2.6229 采用Probit模型估计的结果与前面用线性概率模型估计的结果有所不同。采用Probit模型的情况下,INCOME和AGE的系数估计值在5%的误差水平上显著,而在线性概率模型的情况下,在1%的水平上显著。 由于我们知道线性概率模型存在严重的问题,因此Probit结果可能更准确一些。可是,如果是实际研究的话,要有一个大得多的样本。Probit模型的系数估计值不能像线性概率模型那样,解释成概率的变动。使用Pr
22、obit模型的一种有意思的方式是求出拟合值进行预测,如我们用线性概率模型所做的一样(表15-3)。30 Probit模型中用McFadden的pseudo-R2作为拟合优度的测度。pseudo-R2是用于虚拟因变量模型的拟合优度的测度的名字。pseudo-原意是伪(假),这里采用它,意思是与常规R2类似但不相同,而不是说它是假的。 对于定性选择模型,已经开发了几种有用的pseudo-R2测度,这里所用的是McFadden开发的。很多估计Probit或Logit模型的计量经济程序计算pseudo-R2。本例中给出的0.61的含义是,Probit模型解释了因变量61%的变动。31三. Logit模
23、型 Logit模型基于累积logistic分布,而不是probit模型所用的累积正态分布。对于任何一个回归,probit和logit估计方法的结果往往从统计显著性的角度看是类似的。 Logit模型给出的概率估计值限制在0和1之间,与probit一样,而且logit模型也避免了接近 0或1的极端概率值。这两个模型都克服了线性概率模型遇到的主要问题。 Logit模型的形式如下:01122ln()(15 16)1iiikkiiiYXXXuY32 在这里,因变量的拟合值代表 的可能性的对数。术语概率(probability)和机会(odds)不是一回事。如果一个事件的概率是0.25,则机会将是:0.2
24、51110.253概率概率 我们通常将其写为1:3,读作1对3。如果概率是0.5或50%,则相应为0.5/(1-0.5)=1/1,或1:1。我们可以给logit模型中斜率系数一个特别的解释:某个解释变量的变动对Y等于1的机会的影响。准确地说,logit模型的斜率系数告诉我们,在其它解释变量保持不变的情况下,该解释变量变动一个单位所引起的机会的对数的变动。 1iY 33 与probit模型一样,logit模型也不能用OLS法估计,而要用极大似然法估计。采用表15-1中的同样数据估计logit模型,回归结果如表15-5所示。表10-5 两候选人选举模型的Logit回归结果Dependent var
25、iable:CAND1VariableCoefficientStandard errort-Statisticp-ValueConstant-8.963.23-2.770.01INCOME0.120.061.980.05AGE0.130.062.030.04MALE-1.031.54-0.670.51Observations:30McFadden pseudo-R2 = 0.60Residual Sum of Squares = 2.5934 McFadden pseudo-R2和统计显著性与probit模型的结果类似。INCOME和AGE的系数估计值亦在5%误差水平上显著。而MALE则在两种
26、模型回归中均不显著。而斜率系数估计值则不同,这是因为它们的意义不一样。例如,AGE的系数估计值0.13意味着收入和性别不变的情况下,年龄增大一岁,选举候选人甲的机会的对数增加0.13。实际上,除了斜率系数的解释不同,使用probit模型和logit模型并没有多大区别。LogitProbit=1.811.813()35 第三节 多项选择模型 我们可能遇到多于两个可能的选择的情况,如在选举模型例子中,有可能不止两个候选人,我们前面讨论的估计方法无法处理多于两项选择的情况。如果第三个候选人丙加进来了,我们就必须调整以前的估计方法,来考虑加上第三项选择的情况。36012345671(10.17)3(1
27、0.18)iiiiiiiiiiCANDINCOMEAGEMALEuCANDINCOMEAGEMALEv其中, 11,031,0iiCANDiCANDi第 个选民选甲; ,其它第 个选民选丙; ,其它 两式的系数下标不一样,说明两方程的系数可以取不同的值。我们用OLS法估计这两个方程,存在的问题与两个选择的情况一样。一. 线性概率模型 线性概率模型经过修改,可用于多于两项选择的非定序的情况。要将第三个候选人加到我们的选举模型,我们需要用两个方程(一般而言,方程的数目是选择数目减1)。37 对于任何一个观测值,估计出的概率之和必须等于1。第i个选民选甲的概率的估计值由(15.17)式中因变量CAN
28、D1的拟合值给出,比如说0.5,与此类似,该选民选丙的概率的估计值由(15.18)式中因变量CAND3的拟合值给出,如0.3,则我们知道,该选民选乙的概率估计值为0.2,这三个估计的概率之和必须等于1。 因此,我们无需为候选人乙回归第三个方程。事实上,三个候选人截距的估计值之和等于1,各斜率的估计值之和为0,因此我们估计两个方程后,第三个方程的斜率就可以算出来了。 对线性概率模型进行的这种修改只适用于各个方程中的解释变量都相同的情况。否则,就必须用较复杂的GLS法。38 表15-1中没有包括支持第三个候选人丙的选民的有关数据,表156列出了这些数据。这最后10个观测值都支持候选人丙并非巧合,它
29、们未必是原样本中最后10个观测值,只不过是表15-1中省略了所有支持丙的观测值。将这些数据加到表15-1的数据中,我们就得到一个包含三种选择的数据集,观测值数目为40。 要注意的是,在将表156的数据加到原来的30个观测值中的同时,CAND3变量(代表候选人丙)也应该加到原来的30个观测值中,CAND3在前30个观测值中取值为0。用这个新的数据集估计(15.17)、(15.18)式,估计结果如表15-7和表15-8所示。39表15-6 选举模型增补观测值:支持候选人丙的个体观测值观测序号CAND1INCOMEAGEMALECAND33102219113202420113303022113402
30、1241135026211136030340137029241138033251139028271140032301140表15-7 三候选人选举线性概率模型回归结果Dependent variable:CAND1VariableCoefficientStandard errort-Statisticp-ValueConstant-0.580.16-3.710.00 INCOME0.010 0.00273.740.00 AGE0.0170.00434.050.00 MALE-0.0350.099-0.350.73 Observations:40 = 0.62Adjusted = 0.59Res
31、idual Sum of Squares =3.41F-statistic = 19.992R2R41表15-8 三候选人选举线性概率模型回归结果Dependent variable:CAND3VariableCoefficientStandard errort-Statisticp-ValueConstant0.480.192.50 0.02 INCOME-0.000850.0033-0.26 0.80 AGE-0.0110.0053-2.06 0.05 MALE0.330.122.69 0.01 Observations:40 = 0.30Adjusted = 0.25Residual S
32、um of Squares =5.19F-statistic = 5.352R2R42 表15-7表明候选人甲作为因变量的方程的结果与二元选择线性概率模型的结果相似(与表15-2比较),对斜率系数的说明也可沿用二元选择模型同样的方式。例如,AGE的斜率系数0.017意味着,INCOME和MALE保持不变的情况下,选民的年龄大一岁,选甲的概率上升0.017。43 表15-8中候选人丙的结果则与甲的结果大不相同。INCOME的斜率估计值在甲的方程中显著,但在丙的方程中则不显著。高收入者倾向于选甲,低收入者倾向于选丙或选乙,但收入似乎不怎么影响对丙的选择。AGE的斜率估计值在5%误差水平显著,其值为负,说明年轻选民倾向于选丙,与候选人甲的情况刚好相反,甲的方程表明,年龄较大的选民倾向于选甲。具有同样年龄和收入的男选民选丙的估计概率比女选民高0.33,这是一个很大的差距。在三个候选人中,妇女最不接受的人是丙。44二. 多项logit模型方法多项Logit模型(Mutinomial logit)用于估计多于两项选择的定性选择模型(这些选择没有先后次序),该方法避免了线性概率模型出现的问题。与线性概率模型一样,所需要的方程的个数是选择的数目减1,其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2019-2025年中国注射用头孢地嗪钠行业市场运营现状及投资规划研究建议报告
- 2025柑桔订购买卖合同
- 2025房屋赠与协议合同书
- 2025投资公司借款合同书范本
- 《停下来变变变》教案
- near斯《骑鹅旅行记》读后感30字
- 3-6岁指南学习心得300字
- 个体工商户贷款担保管理
- 民间艺术合规管理办法
- 20岁生日祝福语简短明了
- 普外科医疗组长竞聘演讲
- 北京市朝阳区2022-2023学年三年级上学期英语期末试卷
- GB/T 9755-2024合成树脂乳液墙面涂料
- 哔哩哔哩MATES人群资产经营白皮书【哔哩哔哩】
- 【历史】第一、二单元测试题2024~2025学年统编版七年级历史上册
- 婚姻家庭规划
- 认识实习报告(10篇)
- 【MOOC】内科护理学-中山大学 中国大学慕课MOOC答案
- 2024年商业地产买卖合同样本
- 2023-2024学年广东省深圳市福田区七年级(上)期末英语试卷
- 双碳全景系列培训第一章碳达峰、碳中和
评论
0/150
提交评论