版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1第七章离散因变量和受限因变量模型
经济分析中经常会遇到大量的个体和企业的调查数据,这些数据具有很多与时间序列数据不同的特点,常存在离散选择性问题、数据审查(截断)、选择性样本等问题,一般来说需要采用微观计量经济学方法进行定量分析。微观计量经济学最凸显的问题是所谓经济选择和定性因变量问题。2
本章首先关注的一类问题是经济决策中经常面临的选择问题,如购买者对某种商品的购买决策问题,求职者对某种职业的选择问题,投票人对某候选人的投票决策,银行对某客户的贷款决策等。与通常的经济计量模型假定因变量是连续的不同,以这样的决策结果作为因变量建立的计量经济模型称为离散因变量数据计量经济学模型(modelswithdiscretedependentvariables)或离散选择模型(discretechoicemodel,DCM)。3本章关注的第二类问题因变量受到某种限制的情况,这时需要建立的经济计量模型称为受限因变量模型(limiteddependentvariablemodel)。这种情况下,由于数据搜集规则或者经济人自我选择行为的结果,人们所获得的样本数据来自总体的一个子集,可能不能完全反映总体。如果使用传统的经济计量方法来分析这样的样本而不考虑所抽样本的选择性,那么对经济关系进行的统计评估结果将会发生偏差,这就是所谓的“样本选择偏差”,赫克曼(Heckman)以微观经济理论来解释个体资料的样本选择问题并提出了Heckman样本选择模型。4许多经济社会问题的描述变量都为计数变量,计数数据中零元素和绝对值较小的数据出现得较为频繁,以这些变量为被解释变量,研究它们的影响因素构成了计量经济学中的另一类问题,称为计数模型。本章的最后介绍了广义线性模型,广义线性模型是普通线性模型的一般化形式,具有较好的包容性,除了包含了第三章介绍的线性回归模型外,还包含了本章即将介绍的离散因变量模型和泊松计数模型,在实际中有着广泛的应用背景,尤其在微观调查数据中。57.1二元选择模型
在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(binarychoicemodel)。在实际生活中,我们经常遇到二元选择问题。例如,在买车与不买车的选择中,买车记为1,不买记为0。是否买车与两类因素有关系:一类是车本身所具有的属性,如价格、型号等;另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。
6
为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为:,
(7.1.1)式中:N是样本容量;k是解释变量个数;xj为第j个个体特征的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费者的偏好等。设yi表示取值为0和1的离散型随机变量:
式(7.1.1)中ui为相互独立且均值为0的随机扰动项。7.1.1
线性概率模型及二元选择模型的形式7
令pi=P(yi=1),那么
1
pi=P(yi=0),于是(7.1.2)又因为E(ui)
=0,所以E(yi)
=xi,xi=(x1i,
x2i,…,xki),
=(1
,
2,…,k),从而有下面的等式:(7.1.3)
8
式(7.1.3)只有当xi的取值在(0,1)之间时才成立,否则就会产生矛盾,而在实际应用时很可能超出这个范围。因此,线性概率模型常常写成下面的形式:
(7.1.4)此时就可以把因变量看成是一个概率。那么扰动项的方差为:
(7.1.5)或
(7.1.6)
9
由此可以看出,误差项具有异方差性。异方差性使得参数估计不再是有效的,修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值ŷ在(0,1)之内,这是线性概率模型一个严重的弱点。由于上述问题,我们考虑对线性概率模型进行一些变换,由此得到下面要讨论的模型。假设有一个未被观察到的潜在变量yi*,它与xi之间具有线性关系,即
(7.1.7)式中:ui*是扰动项。yi和yi*的关系如下:
(7.1.8)10yi*大于临界值0时,yi=1;小于等于0时,yi=0。这里把临界值选为0,但事实上只要xi包含有常数项,临界值的选择就是无关的,所以不妨设为0。这样
(7.1.9)式中:F是ui*的分布函数,要求它是一个连续函数,并且是单调递增的。因此,原始的回归模型可以看成如下的一个回归模型:
(7.1.10)即yi关于它的条件均值的一个回归。11
分布函数的类型决定了二元选择模型的类型,根据分布函数F的不同,二元选择模型可以有不同的类型,常用的二元选择模型如表7.1.1所示:
表7.1.1常用的二元选择模型
ui*对应的分布分布函数F相应的二元选择模型标准正态分布Probit模型逻辑分布Logit模型极值分布Extreme模型12
二元选择模型一般采用极大似然估计。似然函数为
(7.1.11)即
(7.1.12)
对数似然函数为
(7.1.13)7.1.2二元选择模型的估计问题13
对数似然函数的一阶条件为
(7.1.14)式中:fi表示概率密度函数。那么如果已知分布函数和密度函数的表达式及样本值,求解该方程组,就可以得到参数的极大似然估计量。例如,将上述3种分布函数和密度函数代入式(7.1.14)就可以得到3种模型的参数极大似然估计。但是式(7.1.14)通常是非线性的,需用迭代法进行求解。二元选择模型中估计的系数不能被解释成对因变量的边际影响,只能从符号上判断。如果为正,表明解释变量越大,因变量取1的概率越大;反之,如果系数为负,表明相应的概率将越小。
14
例7.1二元选择模型实例1
考虑Greene给出的斯佩克特和马泽欧(1980)的例子,在例子中分析了某种教学方法对成绩的有效性。因变量(GRADE)代表在接受新教学方法后成绩是否改善,如果改善为1,未改善为0。解释变量(PSI)代表是否接受新教学方法,如果接受为1,不接受为0。还有对新教学方法量度的其他解释变量:平均分数(GPA)和测验得分(TUCE),来分析新的教学方法的效果。15EViews软件的操作(1)模型的估计
估计二元选择模型,从EquationSpecification对话框中,选择Binary估计方法。在二元模型的设定中分为两部分。首先,在EquationSpecification区域中,键入二元因变量的名字,随后键入一列回归项。由于二元变量估计只支持列表形式的设定,所以不能输入公式。然后,在Binaryestimationmethod中选择Probit,Logit,Extremevalue选择三种估计方法的一种。以例7.1为例,选择Probit估计方法,对话框如图7.7.1所示。16图7.7.1二元选择模型估计对话框17
例7.1的Probit方法估计输出结果如下:18
参数估计结果的上半部分包含与一般的回归结果类似的基本信息,标题包含关于估计方法(ML表示极大似然估计)和估计中所使用的样本的基本信息,也包括达到收敛要求的迭代次数。和计算系数协方差矩阵所使用方法的信息。在其下面显示的是系数的估计、渐近的标准误差、z-统计量和相应的概率值及各种有关统计量。
在回归结果中还提供几种似然函数:①loglikelihood是对数似然函数的最大值L(b),b是未知参数的估计值。②Avg.loglikelihood是用观察值的个数N去除以对数似然函数L(b),即对数似然函数的平均值。19③Restr.Loglikelihood是除了常数以外所有系数被限制为0时的极大似然函数L(b)。④LR统计量检验除了常数以外所有系数都是0的假设,这类似于线性回归模型中的统计量,测试模型整体的显著性。圆括号中的数字表示自由度,它是该测试下约束变量的个数。⑤Probability(LRstat)是LR检验统计量的P值。在零假设下,LR检验统计量近似服从于自由度等于检验下约束变量的个数的2分布。⑥McFaddenR-squared是计算似然比率指标,正像它的名字所表示的,它同线性回归模型中的R2是类似的。它具有总是介于0和1之间的性质。20例7.1二元选择模型实例1(续)利用式(7.1.10),分布函数采用标准正态分布,即Probit模型,例7.1计算结果为(7.1.15)
z=(-2.93)(2.34)
(0.62)
(2.39)
利用式(7.1.15)的Probit模型的系数,本例按如下公式给出新教学法对学习成绩影响的概率,当PSI=0时:
(7.1.19)
当PSI=1时:
(7.1.20)
式中测验得分TUCE取均值(21.938),平均分数GPA是按从小到大重新排序后的序列。
21图7.1.1
新教学法对学习成绩影响的概率22
(2)估计选项
因为我们是用迭代法求极大似然函数的最大值,所以Option选项可以从估计选项中设定估计算法与迭代限制。单击Options按钮,打开对话框如下所示。Options对话框23Option对话框有以下几项设置:①稳健标准差
(RobustStandardErrors)对二元因变量模型而言,EViews允许使用准-极大似然函数(Huber/White)或广义的线性模型(GLM)方法估计标准误差。察看RobustCovariance对话框,并从两种方法中选择一种。②初始值
EViews的默认值是使用经验运算法则而选择出来的,适用于二元选择模型的每一种类型。③
估计法则
在Optimizationalgorithm一栏中选择估计的运算法则。默认地,EViews使用quadratichill-climbing方法得到参数估计。这种运算法则使用对数似然分析二次导数的矩阵来形成迭代和计算估计的系数协方差矩阵。还有另外两种不同的估计法则,Newton-Raphson也使用二次导数,BHHH使用一次导数,既确定迭代更新,又确定协方差矩阵估计。
24
(3)预测从方程工具栏选择Procs/Forecast(FittedProbability/Index),然后单击想要预测的对象。既可以计算拟合概率,,也可以计算指标的拟合值。像其他方法一样,可以选择预测样本,显示预测图。如果解释变量向量xt包括二元因变量yt的滞后值,选择Dynamic选项预测,EViews使用拟合值得到预测值;而选择Static选项,将使用实际的(滞后的)yt-1得到预测值。对于这种估计方法,无论预测评价还是预测标准误差通常都无法自动计算。后者能够通过使用View/CovarianceMatrix显示的系数方差矩阵,或者使用@covariance函数来计算。25
可以在各种方式上使用拟合指标,举个例子,计算解释变量的边际影响。计算预测拟合的指标,并用序列xb中保存这个结果。然后生成序列@dnorm(-xb)、@dlogistic(-xb)、@dextreme(-xb),可以与估计的系数j
相乘,提供一个yi的期望值对xi的第j个分量的导数的估计。
(7.5.1)26
(4)产生残差序列
通过Procs/MakeReidualSeries选项产生下面三种残差类型中的一种类型。
表7.1.2
残差类型普通残差(Ordinary)标准化残差(Standardized)广义残差(Generalized)27
例7.2
二元选择模型实例2某商业银行从历史贷款客户中随机抽取78个样本,根据设计的指标体系分别计算它们的“商业信用支持度”(CC)和“市场竞争地位等级”(CM),式(7.1.1)中的因变量y取为对它们贷款的结果,是二元离散变量,yi=1表示贷款成功,yi=0表示贷款失败。本例的目的是研究y与CC、CM之间的关系,并为正确贷款决策提供支持。“商业信用支持度”是由一个指标体系计算得到的,表征客户的财务状况,该变量越大,表明客户财务状况越差;“市场竞争地位等级”也是由一个指标体系计算得到的,该变量越大表明客户市场状况越好。28
利用式(7.1.10),分布函数采用标准正态分布,即Probit模型,计算结果为:z=(1.17)(-1.13)
(1.135)从回归结果可以看出商业信用支持度的值越大,贷款成功的概率越小;而市场竞争地位等级的值越大贷款成功的概率越大。将自变量的取值带入到(7.1.9)式,就可以预测贷款成功和失败的概率。例如,将第9个样本观测值CC=23,CM=0代入得:29表7.1.4样本观测值和贷款概率预测值序号yCCCMP(y1)序号yCCCMP(y1)10125-2040028-2020599-204112500.990630100-204212300.997940160-2043114015046-2044049-106080-2045014-10.549870133-204606102.1E-1280350-104714021912300.997948030-2010060-20490112-1011070-1050078-20121-801511001130400-20520131-20140720053054-10150120-1054142211614010.99985504200.02091713510.9999561182118126115708016.4E-1219115-10.4472581-50120069-105903262030表7.1.4样本观测值和贷款概率预测值(续)
如果有一个新客户,根据客户资料,计算其“商业信用支持度”(CC)和“市场竞争地位等级”(CM),然后代入到(7.1.9)式就可以预测贷款成功和失败的概率,以此决定是否给予贷款。21010710600261102212911611-2-10.999923121162014-23.9E-072413710.99996312200.999125053-1064011310260194006514210.99872701500-206615720.9999280960067014600291-8016811501300375-2069026-24.4E-1631042-16.5E-1370089-20321521711511330172-20721-9-11341-80173141135089-2074054-20360128-2075132113716017605401.5E-07380150-10770131-2039154217811501317.2排序选择模型
当因变量不止是两种选择时,就要用到多元选择模型(multiplechoicemodel)。多元离散选择问题普遍存在于经济生活中。例如:
(1)一个人面临多种职业选择,将可供选择的职业排队,用0,1,2,3表示。影响选择的因素有不同职业的收入、发展前景和个人偏好等;
(2)同一种商品,不同的消费者对其偏好不同。例如,十分喜欢、一般喜欢、无所谓、一般厌恶和十分厌恶,分别用0,1,2,3,4表示。而影响消费者偏好的因素有商品的价格、性能、收入及对商品的需求程度等;
(3)一个人选择上班时所采用的方式——自己开车,乘出租车,乘公共汽车,还是骑自行车。32
上述3个例子代表了多元选择问题的不同类型。前两个例子属于排序选择问题,所谓“排序”是指在各个选择项之间有一定的顺序或级别种类。而第3个例子只是同一个决策者面临多种选择,多种选择之间没有排序,不属于排序选择问题。与一般的多元选择模型不同,排序选择问题需要建立排序选择模型(orderedchoicemodel)。下面我们主要介绍排序选择模型。
33
与二元选择模型类似,设有一个潜在变量yi*,是不可观测的,可观测的是yi
,设yi有0,1,2,…,M等M+1个取值。,(7.2.1)其中:ui*是独立同分布的随机变量,yi可以通过yi*按下式得到
(7.2.2)
34
设ui*的分布函数为F(x),可以得到如下的概率
(7.2.3)
和二元选择模型一样,根据分布函数F(x)的不同可以有3种常见的模型:Probit模型、Logit模型和Extremevalue模型。仍然采用极大似然方法估计参数,需要指出的是,M个临界值c1,c2,…,cM事先也是不确定的,所以也作为参数和回归系数一起估计。35
例7.3排序模型的实例1
在调查执政者的支持率的民意测验中,由于执政者执行了对某一收入阶层有利的政策而使得不同收入的人对其支持不同,所以收入成为决定人们是否支持的因素。通过调查取得了市民收入(INC)与支持与否(Y)的数据,其中如果选民支持则Yi取0,中立取1,不支持取2。我们选取24个样本进行排序选择模型分析。36EViews软件的操作
(1)模型的估计与二元选择模型类似,从主菜单中选择Objects/NewObject,并从该菜单中选择Equation选项。从EquationSpecification对话框,选择估计方法ORDERED,标准估计对话框将会改变以匹配这种设定。在EquationSpecification区域,键入排序因变量的名字,其后列出回归项。排序估计也只支持列表形式的设定,不用输入一个明确的方程。然后选择Normal,Logist,ExtremeValue三种误差分布中的一种,单击OK按钮即可。对话框如下所示。37
排序模型的输入对话框38
例7.3估计结果如下:39
有两点需要指出:首先,EViews不能把常数项和临界值区分开,因此在变量列表中设定的常数项会被忽略,即有无常数项都是等价的。其次,EViews要求因变量是整数,否则将会出现错误信息,并且估计将会停止。然而,由于我们能够在表达式中使用@round、@floor或@ceil函数自动将一个非整数序列转化成整数序列,因此这并不是一个很严格的限制。估计收敛后,EViews将会在方程窗口显示估计结果。表头包含通常的标题信息,包括假定的误差分布、估计样本、迭代和收敛信息、y的排序选择值的个数和计算系数协方差矩阵的方法。在标题信息之下是系数估计和渐近的标准误差、相应的z-统计量及概率值。然后,还给出了临界值LIMIT_1:C(2),LIMIT_2:C(3)的估计及相应的统计量。40
2.常用的两个过程①MakeOrderedLimitVector产生一个临界值向量c,此向量被命名为LIMITS01,如果该名称已被使用,则命名为LIMITS02,以此类推。②MakeOrderedLimitCovarianceMatrix产生临界值向量c的估计值的协方差矩阵。命名为VLIMITS01,如果该名称已被使用,则命名为VLIMITS02,以此类推。41
3.预测
因为排序选择模型的因变量代表种类或等级数据,所以不能从估计排序模型中直接预测。选择Procs/MakeModel,打开一个包含方程系统的没有标题的模型窗口,单击模型窗口方程栏的Solve按钮。例7.3因变量
y
的拟合线性指标序列被命名为i_Y_0,拟和值落在第一类中的拟合概率被命名为Y_0_0的序列,落在第二类中的拟合概率命名为Y_1_0的序列中,落在第三类中的拟合概率命名为Y_2_0的序列中,等等。注意对每一个观察值,落在每个种类中的拟合概率相加值为1。
表7.2.2中Y_0_0(P(y
=
0)),Y_1_0(P(y
=
1)),Y_2_0(P(y
=
2)),分别是支持、中立、不支持的概率,Y,INC是实际样本。42
4.产生残差序列
选择Proc/MakeResidualSeries产生广义残差序列,输入一个名字或用默认的名字,然后单击OK按钮。一个排序模型的广义残差由下式给出:
(7.5.2)其中:c0=-
,cM+1=
。43例7.4排序模型的实例2本例利用2010年中国社会综合调查数据库中的181个问卷调查数据,按照调查问卷的原始问题以幸福程度(y)为因变量建立排序选择模型,研究幸福感的影响因素。将幸福程度(y)分为4个等级,分别为:不幸福(用1表示),介于幸福和不幸福之间(用2表示),比较幸福(用3表示)和完全幸福(用4表示)。参考现有关于幸福的研究,选取与幸福程度相关的7个变量作为解释变量,分别为教育水平x1(1为受过高等教育,0为没接受过高等教育)、健康状况x2(1为健康,0为不健康)、婚姻状况x3(已婚为1,未婚或丧偶、离异等为0)、住房面积x4、收入水平x5,所在地是否为乡村x6(1为是,0为否)、宗教信仰x7(1为信仰宗教,0为不信仰宗教)。建立排序因变量模型,分布函数采用标准正态分布,即Probit模型,估计结果为:44z=(0.18)(4.57)(-0.69)(2.01)(2.40)(0.73)(2.36)(7.2.6)回归系数为正表示解释变量的取值越大,潜在变量取较大值的概率越大,从而幸福的可能性越大。利用本例所选取的样本数据进行估计表明,影响幸福感的主要因素包括健康状况、是否具有宗教信仰、住房面积和收入水平。而婚姻似乎没有提升个人的幸福感,教育水平和居住地也非影响幸福感的主要因素。45去掉不显著变量重新进行回归,分布函数采用Logit模型,估计结果为:另外,两个临界值的估计为:
并且均为显著的。由此得出结论:健康是幸福的最重要因素,其次是宗教信仰和收入。z=(4.39)(1.86)(2.73)(2.36)(7.2.7)467.3受限因变量模型在现实的经济问题中,有时会遇到因变量是连续的,但是受到某种限制不能完全被观测到的情形,此时得到的数据就出现了审查(Censoring)或者断尾(Truncation)的现象。也就是说所得到的因变量的观测值来源于总体的一个受限制的子集,并不能完全反映总体的实际特征,这一类数据由于违背了经典计量经济学模型对被解释变量样本观测值的要求,因此进行普通的最小二乘估计会产生偏误。审查样本、截断样本以及选择性样本在非实验性的社会科学研究中广泛存在,詹姆斯·托宾(JamesTobin)1958年的论文引发了对这类问题的现代研究。477.3.1审查、选择性样本和截断数据对于三种类型的样本数据,因变量都具有截断特征。具体表述如下:若对于随机变量y有某个数值c,对于y≤c的所有样本,y的观测值是可获得的,而对于其他样本仅仅已知y>c的事实,具体观测值获得不了,则称为y是右截断的;同时还有左截断,即已知所有大于某一阈值c的y的观测值,但对于其他所有样本仅仅知道y≤c的事实,具体观测值获得不了。一个典型的例子是收入,对于样本中的高收入群体我们可能仅仅知道其年收入是10万美元以上,而不知道具体是多少。还可能存在两个或者更多的阈值,如存在两个阈值d,c(不妨设d>c),若c<y<d时已知y的具体数值,而当y≤c时,仅知道y小于等于c的信息,而不知道y的具体样本值;同样当y≥d时,仅仅知道y大于等于d的信息,而非具体数值。48下面详细说明三种样本的特征、区别和联系。1.审查样本假设有一个截断性的因变量y的样本,设x是解释变量。若对于所有样本都有x的观测值,则样本称为是被审查的(Censoring)。以右截断为例,既能获得所有y≤c的x值(此时y的观测值可获得),也可知道y>c时x
的观测值。2.截断样本如果仅仅是对于那些有观测值的y才可以观测到x的样本,则该样本被称为是截断性样本(Truncation),某些抽样会导致截断问题。截断是数据收集效应与数据生成无关,当样本数据从研究总体的子样本中抽取时就会出现。493.选择性样本还存在一类选择性样本问题,它的因变量也是截断样本,但是和审查问题的区别在于决定因变量y是否有观测值的机制不同。在审查问题中,如前面举的因变量是高收入群体的例子,y的观测值的特性取决于其本身,例如y大于阈值10万美元时,y的观测值是不可确切获得的。而在选择性样本问题中,y能否被观测到取决于另一个变量z的值。例如,我们要研究成年人给予其孩子零花钱的数额(y),因为不是所有的成年人都有孩子,所有在某些子样本中我们不具备y的观测值。设zi=1表示第i位成年人有孩子,反之,zi=0。50则我们需要两个步骤来解决问题:
(1)拟合所有样本中成年人有孩子的概率;
(2)在所有有孩子的成年人中拟合y的期望值。
此时会有两类解释变量:z用以解释成年人是否有孩子;以及自变量x用以解释y的观测值。对于所有的样本,我们都能得到z和x
的观测值,并不管其处于被选择范围之内(y可被观测到)还是之外(y不能具体观测到)。表7.3.1给出了三类样本的特征总结。51样本类型因变量自变量审查样本y仅在其值满足某些条件时,如y>c时,才可获知其确切取值。y是截断的随机变量。无论y是否有确切的取值,对于整个样本,自变量x都具有观测值。选择性样本y仅当一个随机变量z满足某些条件,如z=1时,才具有观测值。y是截断的随机变量。无论y是否有观测值,对于整个样本,自变量x和z都可被观测。截断样本y仅在其值满足某些条件时,如y>c时,才具有观测值。y是截断的随机变量。仅当y具备观测值时,自变量才具有观测值。表7.3.1审查、选择性样本和截断样本527.3.2受限因变量数据为什么不能用普通最小二乘估计受限因变量模型共同认为存在一个潜在的因变量yi*,y是yi*的现实观测值,潜在因变量的回归模型为:假设ui是独立且服从正态分布的误差项,均值为0,方差为
2。观测变量和潜在变量的关系为:不妨设
c=0,求得
yi的条件均值为:(7.3.1)(7.3.2)(7.3.3)53式中:(7.3.4)将模型(7.3.1)与式(7.3.4)比较可知,由于因变量的截断问题使得采用普通最小二乘估计忽略了非线性项。进一步的计算表明:由此可见普通最小二乘法同时忽略了随机误差项实际上的异方差性。(7.3.5)54
7.3.3审查回归模型
1.模型的形式
考虑下面的潜在因变量回归模型
(7.3.6)式中:是比例系数;y*是潜在变量。被观察的数据y与潜在变量y*的关系如下:
(7.3.7)55
换句话说,yi*的所有负值被定义为0值。我们称这些数据在0处进行了左截取(审查)(leftcensored)。而不是把观测不到的yi*的所有负值简单地从样本中除掉。此模型称为规范的审查回归模型,也称为Tobit模型。更一般地,可以在任意有限点的左边和右边截取(审查),即
(7.3.8)式中:,代表截取(审查)点,是常数值。如果没有左截取(审查)点,可以设为。如果没有右截取(审查)点,可以设为。规范的Tobit模型是具有和的一个特例。
56
2.审查回归模型的极大似然估计
与前边介绍的几个模型类似,可以采用极大似然法估计审查回归模型的参数,对数似然函数为
(7.3.12)求式(7.3.12)的最大值即可得参数
,
的估计。这里f,F分别是u的密度函数和分布函数。57
特别地,对于Tobit模型,设u~N(0,1),这时对数似然函数为
(7.3.13)式(7.3.5)是由两部分组成的。第一部分对应没有限制的观测值,与经典回归的表达式是相同的;第二部分对应于受限制的观测值。因此,此似然函数是离散分布与连续分布的混合。将似然函数最大化就可以得到参数的极大似然估计。58
例7.5审查模型的实例1
本例研究已婚妇女工作时间问题,共有50个调查数据,来自于美国国势调查局[U.S.BureauoftheCensus(CurrentPopulationSurvey,1993)],其中y表示已婚妇女工作时间,x1~x4分别表示已婚妇女的未成年子女个数、年龄、受教育的年限和丈夫的收入。只要已婚妇女没有提供工作时间,就将工作时间作零对待,符合审查回归模型的特点。59本例采用Tobit模型,分布函数采用标准正态分布,计算结果为:(7.3.14)z=(0.9)
(-1.95)
(-2.88)
(2.27)
(0.92)式(7.3.14)中回归系数为正,则解释变量越大,已婚妇女工作时间越长。例如已婚妇女受教育的年限(x3)越长或丈夫的收入(x4)越高,则工作的时间越长,但是x4的系数不显著并且也很小,所以对已婚妇女工作时间影响不大。式(7.3.14)中回归系数为负,则解释变量越大,已婚妇女工作时间越短,如已婚妇女的未成年子女个数(x1)越多或年龄(x2)越大,则工作的时间越短。且x1,x2的系数都很显著,说明这两个因素对已婚妇女工作时间有较大影响。60EViews软件的操作
1.模型的估计
为估计审查模型,打开Equation对话框,从EquationSpecification对话框所列估计方法中选择CENSORED估计方法。在EquationSpecification区域,输入被审查的因变量的名字及一系列回归项。审查回归模型的估计只支持列表形式的设定。
61
审查模型的估计对话框62
在三种分布中选择一种作为误差项的分布,EViews提供三种可供选择的分布(表7.7.1)。
表7.7.1误差项的分布
StandardnormalLogisticExtremevalue
(欧拉常数
)
还需要在DependentVariableCensoringPoints一栏提供关于被检查因变量的临界点的信息。临界点可以是数值、表达式、序列,还可以是空的。有两种情况需要考虑:①临界点对于所有个体都是已知的;②临界点只对具有审查观察值的个体是已知的。
63
(1)临界点对所有个体都已知
按照要求在编辑栏的左编辑区(Left)和右编辑区(Right)输入临界点表达式。注意如果在编辑区域留下空白,EViews将假定该种类型的观测值没有被审查。
例如,在规范的Tobit模型中,数据在0值左边审查,在0值右边不被审查。这种情况可以被指定为:左编辑区:0
右编辑区:[blank]
而一般的左边和右边审查由下式给出:
左编辑区:右编辑区:
EViews也允许更一般的设定,这时审查点已知,但在观察值之间有所不同。简单地在适当的编辑区域输入包含审查点的序列名字。64
(2)临界点通过潜在变量产生并且只对被审查的观测值个体已知
在一些情况下,假设临界点对于一些个体(和不是对所有的观察值都是可观察到的)是未知的,此时可以通过设置0-1虚拟变量(审查指示变量)来审查数据。EViews提供了另外一种数据审查的方法来适应这种形式。简单地,在估计对话框中选择Fieldiszero/oneindicatorofcensoring选项,然后在合适的编辑区域输入审查指示变量的序列名。对应于审查指示变量值为1的观察值要进行审查处理,而值为0的观察值不进行审查。65
例如,假定我们有个人失业时间的观察值,但其中的一些观察值反映的是在取得样本时仍然继续失业的情况,这些观察值可以看作在报告值的右边审查。如果变量rcens是一个代表审查的指示变量,可以选择Fieldiszero/oneindicatorofcensoring设置,并在编辑区域输入:左编辑区:[blank]
右编辑区:rcens
如果数据在左边和右边都需要审查的话,对于每种形式的审查使用单独的审查指示变量:左编辑区:lcens
右编辑区:rcens这里,lcens也是审查指示变量。完成模型的指定后,单击OK。EViews将会使用合适的迭代步骤估计模型的参数。66例7.5的估计结果如下:67
2.模型的预测与产生残差
EViews提供了预测因变量期望E(y|x,,)的选项,或预测潜在变量期望E(y*|x,,)的选项。从工具栏选择Forecast打开预测对话框。为了预测因变量的期望,应该选择Expecteddependentvariable,并输入一个序列名称用于保存输出结果。为了预测潜在变量的期望,单击Index-Expectedlatentvariable,并输入一个序列的名称用于保存输出结果。潜在变量的期望E(y*|x,,)可以从如下关系中得到:
(7.5.3)
通过选择Procs/MakeResidualSeries,并从残差的3种类型中进行一种,可以产生审查模型的残差序列。审查模型的残差也有3种类型,与前述类似。
68例7.6审查模型的实例2本例研究文化娱乐性支出的影响因素,利用409个观测样本,因变量为家庭消费性支出中文化娱乐性支出(y)。选取与该项支出相关的解释变量包括:家庭全年总收入(x1)、被访问者的年龄(x2)、被访问者所在地是否为农村(x3,农村取1,否则取0)、是否受到过高等教育(x4,1表示是,0表示否)等。在本例中因变量有很多的0值,样本数据符合审查回归模型的特点,因此采用Tobit模型进行回归,左截断点为0,回归结果如下:(7.3.15
(7.3.15)z=(6.42)(-7.63)(-2.34)(3.93)69从回归结果可以看出,收入水平和教育水平对文化娱乐性支出有正向的影响,收入水平和教育水平越高此项支出越高,家庭收入每增加100元,文化娱乐性支出平均增加2.7元;而受过高等教育的家庭比没有受过高等教育的家庭平均多支出3815.92元;文化娱乐性支出随着年龄的增长会有所下降;生活在农村的家庭文化娱乐性支出要比非农村家庭平均低2372.33元。70
7.3.4截断回归模型
截断问题,形象地说就是掐头或者去尾。即在很多实际问题中,不能从全部个体中抽取因变量的样本观测值,而只能从大于或小于某个数的范围内抽取样本的观测值,此时需要建立截断因变量模型。例如,在研究与收入有关的问题时,收入作为被解释变量。从理论上讲,收入应该是从零到正无穷,但实际中由于各种客观条件的限制,只能获得处在某个范围内的样本观测值。这就是一个截断问题。截断回归模型的形式如下:(7.3.16)式中:yi只有在时才能取得样本观测值,,为两个常数。对于截断回归模型,仍然可以采用极大似然法估计模型的参数,只不过此时极大似然估计的密度函数是条件密度。
71
EViews软件的操作
估计一个截断回归模型和估计一个审查模型遵循同样的步骤,从主菜单中选择Quick/EstimateEquation,并在EquationSpecification对话框中,选择CENSORED估计方法。出现估计审查和截断回归模型对话框。在EquationSpecification区域键入截断因变量的名称和回归项的列表,并从三种分布中选择一种作为误差项的分布。选择Truncatedsample选项估计截断模型。有几点需要补充说明:首先,截断估计只对截断点已知的模型进行估计。如果用指标指定截断点,EViews将会给出错误信息,指出这种选择是无效的。其次,如果有一些因变量的值在截断点之外,EViews将会发出错误信息。而且,EViews将会自动排除掉严格等于截断点的所有观察值。例如,如果指定零作为左截断点,如果有观察值低于零,EViews将会发出错误信息,并将排除严格等于零的任何观察值。
72例7.7截断回归模型的实例仍然采用例7.5中研究妇女工作时间的数据。其中y表示已婚妇女工作时间,x1~x4分别表示已婚妇女的未成年子女个数、年龄、受教育的年限和丈夫的收入。在50个样本中有18个样本的因变量为0值,如果采用截断回归模型进行估计,截断点选为0,则这部分样本将被排除,利用其余的32个因变量非0的样本进行估计,结果如下:(7.3.17)z=
(-0.26)
(0.12)
(-0.60)
(2.82)
(1.86)73利用截断回归模型(7.3.17)得出了与审查回归模型(7.3.14)不同的估计结果。回归系数为正,则解释变量越大,已婚妇女工作时间越长。式(7.3.17)中的估计结果为已婚妇女未成年子女个数(x1)越多,受教育的年限(x3)越长或丈夫的收入(x4)越高,则工作的时间越长,但是x1的系数不显著,说明该变量对已婚妇女工作时间没有显著影响。注意到,例7.5的式(7.3.14)与式(7.3.17)中变量x1系数的符号相反,在式(7.3.14)中x1系数为负数,则已婚妇女未成年子女个数越多,工作时间越短。说明如果利用工作时间大于零的截断样本来拟合变量之间的关系,可以发现未成年子女个数越多,则妇女的工作时间越长。747.4Heckman样本选择模型
Heckman(1974)在研究美国已婚妇女是否选择工作这一经济现象时提出了选择性问题。由于能直接观测的是选择工作的已婚妇女的市场工资,而选择不工作的妇女的收入不能观测,显然市场工资只能从选择工作的群体中观测,这样得到的市场工资样本就是所谓选择性样本。选择性样本不是从已婚妇女这个总体中随机抽取得到的,由此导致使用选择性样本来推断总体特征就有可能产生偏差即所谓“选择性偏差”,因此模型从设定到估计与检验均须考虑这种选择性数据并基于模型分析其偏差。赫克曼(Heckman)以微观经济理论来解释个体资料的样本选择问题并提出了Heckman样本选择模型。751.Heckman样本选择模型的形式在Heckman选择框架下,因变量仅对于部分数据可观察得到,本质上是观察值遗失问题。他认为观察值经常由于微观经济主体的“自选择”行为而遗失,观察值遗失原因与未遗失观察值性质之间的关系需要一个精妙的理论结构来解释。Heckman(1976)选择模型,有时也被称为Heckit模型,是估计存在样本选择偏差的一种方法。令y
是选择工作的已婚妇女的市场工资,x
是y的影响因素,由于样本选择问题,它不是总能观测的到;z
为二元隐性变量,当zi=1时已婚妇女选择工作;当zi=0时已婚妇女不工作,w
是z
的影响因素。z
的取值决定y
是否能观测到,选择不工作的妇女的收入不能观测到。Heckman线性选择模型包含两个方程,分别为响应方程(responseequation)和选择方程(selectionequation),则模型的一般框架的形式为:76选择方程:响应方程:(7.4.1)(7.4.2)式中zi为一个二元变量,仅当zi
=1时,yi可被观测,即(7.4.3)ui和i
是服从二元正态分布的误差项:(7.4.4)式中为尺度参数,
为相关系数,在这个模型中i的方差不可识别,设为1。选择方程用来确定yi是否可观测到。估计Heckman选择模型通常有两种方法:Heckman两步法和最大似然方法。772.Heckman两步法Heckman两步法是基于下面的观察:
(7.4.5)式中,称为逆米尔斯比率(InverseMillsRatio),(x)和(x)分别是标准正态密度和累计分布函数。这样我们可以指定一个回归模型:
(7.4.6)Heckman两步法首先估计选择方程(7.4.2)得到,并计算
然后利用最小二乘法估计如下的方程:(7.4.7)得到和=的一致估计。标准误偏差的估计量可以从通常的回归标准误差s中得到。也可计算得到的估量。78两步法的系数协方差阵由下式给出:式中,是对角线元素为的对角矩阵,
I
是单位矩阵,,是从选择方程(7.4.2)得到的系数协方差矩阵。(7.4.8)3.最大似然法最大似然法利用给定的对数似然函数估计Heckman选择模型:(7.4.9)79式中第一个求和项表示zi=0时的观测(即yi不可观测时),第二个求和项是zi=1时的观测(即yi可观测时)。这是一个简单的关于参数,,,最大化对数似然函数问题。
使用上面列出的Heckman两步法可以得到优化的起始值。与大多数最大似然估计一样,估计参数的协方差矩阵可以通过(-H)-1(其中H为Hessian矩阵,信息矩阵)和GG-1(其中G是梯度的矩阵)中任一个被计算,或利用H-1GG-1H-1(Huber/White矩阵)来计算。80例7.8
Heckman选择模型实例1Heckman选择模型的一个典型例子是Mroz(1987)研究已婚妇女的劳动力供给问题。他建立了妇女工资方程来研究妇女参加工作的影响因素,Mroz所研究的753名妇女中只有428名有工作,所以利用Heckman选择模型来模拟已婚妇女的样本选择行为。工资方程由下式给出:
(7.4.10)式中Wagei表示妇女工资,Experi是每位妇女经历的测度,Educi是她的受教育水平,Cityi为是否生活在城市的虚拟变量。81
选择方程由下式给出:(7.4.11)式中LFPi是二进制变量,妇女有工作时值为1,否则为0,即式(7.4.11)中AGEi是妇女的年龄;FAMINCi是非妇女赚取的家庭收入的水平,Kidsi是妇女是否有孩子的虚拟变量。
82EViews软件的操作1.模型的估计
为了估计此模型,从主菜单中选择Objects/NewObject,并从该菜单中选择Equation选项显示EquationEstimation对话框。在Estimationsettings区域的Method对话框中,选择HECKIT-HeckmanSelectiom估计方法。图7.7.2赫克曼选择模型的估计对话框83
方程设定对话框分成两个部分,这两个部分分别为响应方程(ResponseEquation)和选择方程(SelectionEquation)对话框,在两个对话框分别键入因变量和自变量来完成方程的设定。注意在选择方程中因变量一定是取值为0和1的形式。在估计方法中可以选择极大似然法(MaximunLikelihoc)和赫克曼两步法(Heckmantwo-step)。如果选择极大似然估计方法,单击Option按钮选项可以选择,包括系数协方差矩阵的估计方法,初始值的设定和估计法则三个部分。在系数协方差矩阵的估计方法中可以选择OuterProductofGradients,Information,Matrix和Huber/White方法。对于初值,可以选择Eviews通过Heckman两步法获得初值或者不同权重的初值,如果选择用户设定选项EViews将从工作文件中的系数向量中获得初值。在估计法则中,EViews默认的是Newton-Raphon方法。842.估计结果输出85EViews会分别给出响应方程和选择方程的估计结果,包括系数的估计值、标准误、t统计量和相应的p-值。在估计结果的下面会给出一些与其他估计方法类似的统计量。如果选择极大似然法进行估计,除了给出参数的估计结果外还会给出和的估计值及相应的标准差和显著性检验信息。86工资方程:
t=(-0.82)(0.43)
(-0.03)
(4.45)
(1.42)选择方程:
t=(-2.96)(2.80)(-3.12)(1.07)
(4.30)
(-3.48)
由选择方程的估计结果可知,妇女选择是否参加工作主要取决于年龄、教育水平和是否有孩子。并且与年龄呈倒U型的关系,教育水平越高越倾向于选择参加工作,而没有孩子的妇女比有孩子的妇女选择参加工作的概率大。工资方程的估计结果表明,妇女的工资水平主要取决于教育水平和是否生活在城市中,教育水平越高工资越高,而城市妇女的工资高于非城市妇女的工资。87例7.9
Heckman选择模型实例2本例研究老年人对子女的财富代际转移问题。已有的研究表明,父母是否选择向子女转移财富及转移数量代际转移与父母和子女的特征变量有关,如父母年龄、健康状况或收入水平等,子女的性别、是否为独生子女等。利用中国健康与养老追踪调查(CHARLS)2013年全国基线调查的4634个样本数据定量研究老年人对子女财富代际转移的影响因素。转移方程中的因变量(y)为父母对子女家庭财富转移的数量(单位:元),选择方程的因变量为二元变量(z),表示父母是否选择向子女家庭转移财富(转移取为1,不转移则为0)。选取的解释变量包括:父母的年龄(x1)、是否为独生子女(x2,是取为1,否则为0)、子女的性别(x3,男性取为1,女性取为0)、父母是否为农村户口(x4,农村户口取1,否则取0),父母的收入(x5)、父母是否健康(x6,健康取1,否则取0);父母是否照顾孙子女(x7,照顾取1,否则取0)、是否与父母同住(x8,与父母同住取1,否则取0)。利用Heckman选择模型分别建立转移方程和选择方程。88Heckman两步法的估计结果:转移方程:
t=(-2.74)(3.69)(1.58)(-3.11)(4.73)(1.22)选择方程:
t=(-16.6)(3.81)(10.14)(4.51)(7.34)(3.17)89从估计结果可以看出父母健康状况良好,收入水平较高的家庭向子女转移财富的概率更大。另外,独生子女家庭、父母参与照顾孙子女或者与父母同住也会增加老人向子女财富转移的概率。从转移方程的估计结果可以看出,父母的年龄越大向子女财富转移的数量越少,收入越低转移给儿女的财富越少,相比较而言农村的父母财富转移量少于非农村户口的父母。以赫克曼两步法的估计结果为例,父母对子女的财富转移偏向于儿子,对儿子家庭财富转移要比对女儿家庭财富转移平均多799元;独生子女家庭中,父母对子女家庭财富转移的概率更大,并且与非独生子女家庭相比,父母对独生子女家庭的财富转移平均要多约4570元,这说明在独生子女家庭中父代财富向子代转移的现象更明显。90
在实际应用中,我们应该根据要研究的变量的数据类型选择合适的模型。当因变量y表示事件发生的数目,是离散的整数,即为计数变量,并且数值较小,取零的个数多,而解释变量多为定性变量时,应该考虑应用计数模型(countmodels)。例如,一个公司提出申请的专利的数目,以及在一个固定的时间间隔内的失业人员的数目。在计数模型中应用较广泛的为泊松模型。7.5计数模型917.5.1泊松模型的形式与参数估计
设每个观测值yi都来自一个服从参数为m(xi,)的泊松分布的总体,(7.5.1)对于泊松模型(poissonmodel),给定xi时yi的条件密度是泊松分布:(7.5.2)由泊松分布的特点,(7.5.3)参数的极大似然估计量(MLE)通过最大化如下的对数似然函数来得到:(7.5.4)92
倘若条件均值函数被正确的指定且的条件分布为泊松分布,则极大似然估计量是一致的、有效的、且服从渐近正态分布。泊松假定的约束条件在经验应用中经常不成立。最重要的约束条件是式(7.5.3)中的条件均值和条件方差相等。如果这一条件被拒绝,模型就被错误设定。这里要注意泊松估计量也可以被解释成准极大似然估计量。这种结果的含义在下面讨论。
93
7.5.2负二项式模型的形式与参数估计
对泊松模型的常用替代是使用一个负二项式(negativebinomial)分布的似然函数极大化来估计模型的参数。负二项式分布的对数似然函数如下:
(7.5.5)式中:2是和参数一起估计的参数。当数据过度分散时,经常使用负二项式分布,这样条件方差大于条件均值,由于下面的矩条件成立:(7.5.6)(7.5.7)因此,2测量了条件方差超过条件均值的程度。94
7.5.3准-极大似然估计
如果因变量的分布不能被假定为泊松分布,那么就要在其他分布假定之下执行准-极大似然估计(quasi-maximumlikelihood,QML)。即使分布被错误假定,这些准-极大似然估计量也能产生一个条件均值被正确设定的参数的一致估计,即对于这些QML模型,对一致性的要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 拨叉头加工课程设计
- 环保行业工程师工作总结
- IT行业客户服务心得
- 门诊部医生的工作总结
- 2024年苏教版九年级语文上册教学工作总结(共16篇)
- 2024年税务师题库(原创题)
- 《期货市场投资分析》课件
- 2024年规章制度会议记录(16篇)
- 【人教版九上历史】知识清单
- 2025关于房地产销售代理合同模板
- 2021年四川省凉山州九年级中考适应性考试理科综合(试卷)
- 骨科疼痛的评估及护理
- 【MOOC】概率论与数理统计-南京邮电大学 中国大学慕课MOOC答案
- 2024年度软件开发分包合同技术要求与交底2篇
- 居家养老人员培训管理制度
- 抗菌药物的合理应用培训
- 初三数学老师家长会发言稿
- 湖北第二师范学院《操作系统》2023-2024学年期末试卷
- 2021-2022学年河北省唐山市高一上学期期末语文试题
- 舒适化医疗麻醉
- 南宁二中、柳州高中2025届高一上数学期末联考试题含解析
评论
0/150
提交评论