因果推断模型评估教育政策的定量方法_第1页
因果推断模型评估教育政策的定量方法_第2页
因果推断模型评估教育政策的定量方法_第3页
因果推断模型评估教育政策的定量方法_第4页
因果推断模型评估教育政策的定量方法_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

因果推断模型评估教育政策的定量方法

一、教育政策评估方法在过去10年中,随着国家“科学发展”的不断深化教育政策制定领域,教育政策研究的数据库不断增加,我国教育政策评估领域的定量研究迅速增加。一个科学的、对纳税人负责的教育政策的制定和实施应该由以下几个环节构成:政策设计、论证、制定、实施、评估、改进。由于教育问题错综复杂、教育资源投入巨大,而且教育政策和改革直接影响到学生和家庭的前途命运、乃至国家人才培养的目标,因此,制定和实施有效的教育政策至关重要。而准确评估政策的效果则是实现这一目标的技术关键。政策评估方法包括定量研究方法和质性研究方法。国际上整个社会科学的发展趋势越来越青睐定量研究方法,国内教育政策分析类研究也越来越偏爱实证研究。这一方面说明了不论是政策制定者还是教育研究者都希望用更加科学、严谨的方式制定和评估教育政策;但另一方面,现有的定量研究存在很多局限,部分定量研究类文章在研究设计、研究规范性以及定量研究的局限认识不足。本文尝试概括性地介绍国际主流教育政策定量研究方法,并探讨混合式教育政策评估方法的优势,希望对教育政策评估有一定借鉴意义。本文将首先界定教育政策评估的概念以及本文所讨论的定量研究方法的范围,随后简要介绍美国近几十年教育政策定量研究方法的发展历程。文章的主体有两部分:(1)对定量研究方法中的因果推断模型的介绍;(2)对定量研究方法的局限的讨论以及对混合式教育政策评估方法的讨论。二、国际主流教育政策评估的定量研究方法中的因果推定模型教育政策和改革(下文统称为政策)的目标基本上都是为了提高教育质量和教育公平。教育政策评估包括对不同阶段(小学、中学、高等教育等)的教育政策实施效果的评估。每一项教育政策的出台,都有其期望实现的目标(即提高某项教育产出,比如学生某科成绩、某项能力、升学率、就业率,教师质量等)。政策评估的目的就是通过科学的研究设计,把某项政策的效果识别出来。其结论主要有两类:(1)该政策对相应的期望产出到底有没有显著影响?(2)如果有,那么这个影响是正向还是负向、影响大小如何?转换成定量研究的术语,就是某项教育政策的实施和目标教育产出的变化是否有因果关系(该项教育政策是否是导致目标教育产出变化的原因,还是另有他因)?这里需要强调的一点是,只有因果关系才能为教育政策制定和评估提供可靠的依据,相关关系则不能说明问题。因此,本文主要讨论教育政策评估定量研究方法中的因果推断模型。因果推断模型不仅仅是国际主流教育政策评估的定量研究方法,也是公共财政、劳动力经济学等多个社会科学领域所主要采用的实证研究方法。因果推断法首先在实证经济学中发展,随着教育理论的发展和高质量教育研究数据的增加,因果推断法也逐渐被引入教育政策评估。以美国为例,自从1966年科尔曼报告(1)对美国教育现状敲响警钟以来,美国政府、学校以及学术界都在积极寻求提高教育质量和教育公平的方法。上至联邦政府,下至州政府、各学区纷纷开展各类教育实验、改革和资助项目。而且各项教育政策、改革项目等都要接受学术界的跟踪效果评估。这一方面是为了满足政府问责制的要求,另一方面也是为了根据实际效果改进下一步财政拨款的分配方案。例如美国的教育券,特许学校(charterschool),STAR(2)项目,大规模的大学生资助(例如PellGrant,Statemeritaid),以及墨西哥的有条件的现金转移支付(3)(Conditionalcashtransfer)等。可以说,迫于国家人才培养的需要以及来自公众监督的压力,把教育财政拨款用于最有效果、有效率的改革和政策上,已经成为公认的价值取向和评判标准(当然,提高教育公平也是很重要的一条标准)。然而,在我国的教育定量研究中,这些方法鲜被使用。其中一个重要因素是数据的不可获得。从文献中可以看到,很多国家从联邦政府到地方政府、甚至到学校都进行了很多由政府主导并资助的、由学者参与设计和评估的教育实验和教育改革,这些实验和改革在一开始就考虑了实验的研究设计,并注意在整个过程中跟踪搜集数据。有的实验会持续很多年,这也保证了研究者有足够的时间序列数据来识别干预效应。而且,这些数据是对大部分学术研究者开放的,并鼓励学者们应用这些数据去研究现实问题。但在中国,尽管我们有很多的教育改革和教育实验,但这些干预在设计和实施过程中没有考虑到后续评估所需要的研究设计和数据需求。即便有一部分管理数据,这些数据也不对学术界公开。因此,如果政府和相关机构作为公共服务的提供方,能够本着科学的精神,使得政策的执行过程中的数据搜集常态化,并鼓励广大定量研究者应用数据做出严谨的分析,则不仅教育研究的水平会得到大幅度提高,也为后续的政策和项目改进提供科学的依据。三、大学质量变化情况下的识别策略因果推断模型是基于传统的计量经济学(尤其是最小二乘法和工具变量法)发展起来的一套基于实验理念的定量研究方法。国际上已经有一系列系统总结因果推断模型的论文和著作(4)。因此本文的重点在于介绍,而非系统论述。教育政策评估中最常见到的问题就是内生解释变量和自选择问题。例如,如果我们想研究大学质量对大学毕业生工资的影响,我们会估算大学毕业生工资对大学质量这个变量的回归系数,即大学质量的变化是否能解释大学毕业生工资变化。但OLS假设所有自变量(包括大学质量)必须是外生的,即所研究系统之外的因素决定的。但事实上大学质量往往是由高考择校过程决定的,即由学生能力、高考成绩、家庭背景、学校偏好等变量决定的。如果由于缺失变量问题,其中的若干个变量在残差项中,大学质量就成为内生解释变量。这时候用OLS估计的大学质量的系数是有偏的,我们很难讲高质量大学的毕业生工资高到底是因为学生本身能力强、家庭背景好,还是因为优质的大学教育。因此,因果推断法的主要思路就是寻找能帮助我们识别因果关系的外生的变化(externalvariation)。为实现这个目的而进行的研究设计也被称为识别策略(identificationstrategy),即识别出外生变化以估算因果效应(causaleffect)。Angrist&Pischke在书中第一章就提出了应用定量研究方法成功做出因果推断所必须回答的四个问题:(1)你所感兴趣的因果关系是什么?(2)如果设计一个理想的实验来识别这个因果关系,这个实验应该如何设计?(3)你的识别策略是什么?(4)你的统计推断模式是什么?本文也建议研究者在做研究设计或者评估其他研究时都尝试回答这四个问题。下面将分别介绍几类常用的因果推断模型。1.干预效应的估计随机试验可以说是因果推断模型中的黄金原则。随机试验以外的其他方法,其实都是在模拟随机试验的条件。因此,我们首先讨论随机试验模型。在后续讨论中,我们把教育政策、改革或者项目统称为干预(intervention)(2)。当我们想评估一个干预到底有没有效果时,有一个根本性的、无法解决的难题就是数据缺失问题。因为教育研究不同于自然科学实验,可以找到两个完全一样的被试(比如:成分完全一样的两份试剂)。在教育研究中,每一个被试都具有独特性,对干预的反应都会不一样。严格地讲,如果我们想识别一个干预的效果,应该看同一个被试在接受干预和不接受干预这两种情况下产出的差别。但是由于教育过程具有不可逆的特点,我们不可能让一个学生既接受干预、又不接受干预。例如,如果我们想研究公立小学和私立小学哪个对提高学生成绩更有效,我们不可能让一个学生先去公立小学上完六年后,再退回到6岁、重新在私立小学读六年,然后比较这两种教育的差别。为了后续模型讨论的方便,我们先设定模型。假定:其中Yi是第i个学生的某种教育产出,Di是指示第i个学生是否接受干预的虚拟变量。Di=1表示该学生接受了干预,Di=0表示该学生没有接受干预。Y1i是当该学生接受干预时的教育产出,Y0i是当该学生没有接受干预时的教育产出。如果我们想识别一个干预的效果,应该搜集Y1i和Y0i,然后看两个数值之差。数据缺失问题是指,现实中,我们无法同时观测到Y1i和Y0i,而只能观测到两者之一。对此问题的解决方法是放弃对Y1i–Y0i(3)的估算,用E[Y1i]-E[Y0i]来代替。对Y1i和Y0i期望值的估计主要是通过计算样本均值来实现的。换言之,我们可以寻找两组人,这两组人在重要特征(例如:性别、年龄、家庭背景等)上的平均值是一样的(用于模拟同一个人)。我们可以同时让一组人接受干预(称为实验组),另一组人不接受干预(称为对照组)。这样,如果两组人在统计上是可比的(identical),那么干预结束后,实验组和对照组在教育产出均值上的差距就应该是干预造成的。严格的数学推导如下:其中等式左边的是我们观察到的:E[Y1i|Di=1]表示给定被试被分到实验组,她接受干预后的期望产出,E[Y0i|Di=0]表示给定被试被分到对照组,她没有接受干预的期望产出。在等式右边,我们减了一项E[Y0i|Di=1],又加了一项E[Y0i|Di=1],因此等号不变。E[Y0i|Di=1]的含义是给定被试被分到实验组,但如果她没接受干预,期望产出是多少。那么等式右边前两项E[Y1i|Di=1]-E[Y0i|Di=1]=E[Y1i-Y0i|Di=1]就是发生在实验组上的平均干预效应(AverageTreatmentEffectontheTreated,ATT)。等式右边的后两项E[Y0i|Di=1]-E[Y0i|Di=0]比较的是实验组和对照组在都没有接受干预时期望产出的差异,这反映了两组人本质上的差异,因此也被称为选择偏误(selectionbias)。自选择偏误一般是由参与者根据自己的个人特征选择接受干预与否造成的,这在教育领域很常见(例如择校、选择家教辅导等)。因此,我们要寻找系统外的外部变化来解决这个问题。随机试验是说实验参与者被随机分配到实验组或者对照组,即Di的取值和实验参与者的特征无关。研究者随机分配实验参与者为这种研究设计提供了外部变化。因此,根据条件期望值的定义,这时,我们观测到的两组人员期望产出的差异,就是我们想估算的干预效应:我们在计算过程中,当然可以根据上述思路通过简单的均值比较和t检验来估算干预效应和标准差。但我们还可以通过回归方程的形式来估算。即其中δ即为干预效应,其估算值和标准差都和E[Y1i-Y0i|Di=1]相等。即和均值比较及t检验结果相同。但回归方程的优势在于,我们可以根据已有理论,在等式右边加入控制变量,使得估计值的标准差减小,从而提高估算的精确度,提高统计推断力(1)(Statisticalpower(2)),并提高模型的拟合优度(Goodnessoffit)。控制变量必须满足三个要求:(1)在理论上确实是对产出变量Y有因果关系的影响因素、且方程形式是线性;(2)根据理论和实际情况,控制变量必须是外生解释变量,即与残差项不相关;(3)控制变量必须在随机分组之前产生,因为随机分组之后产生的变量很可能是随机分组及试验干预产生的,从而有因果倒置的危险。新的方程形式如下:随机试验法是社会科学从自然科学的定量研究方法中借鉴的,在因果推断法中被认为是黄金标准。但是随机试验法在实施过程中往往会出现很多问题,使得最终的效果并不是真正的随机试验。下面我们简单讨论几个常见的问题。首先,试验参与者可能根据个人的意愿、违背随机分组结果,选择另一个组(crossovers)。比如,我们在某小学进行一个随机试验,考察某种教学方式是否能更好的提高教学质量。有的学生被随机分配到实验组,有的学生被随机分配到对照组。但学生家长听说这个实验后,可能会不同意现有的分组结果。有的学生被分到对照组,但其家长可能觉得不能错过这个实验机会,因此找校长和班主任争取让自己的孩子进入实验组。有的学生被分到实验组,但其家长可能觉得这个实验对自己的孩子不合适,因此会找校长和班主任争取让自己的孩子进入对照组。这种重新选择的行为往往和家长的个人特征有关(家庭背景、对学生的关心程度等),而这些个人特征往往对学生的成绩是有影响的。因此,这样导致的最终分组结果实际上受到了家长的影响,使得分组结果不是真正的随机分配,两组学生在基本特征上也并不相同。这种情况可以通过工具变量法(Instrumentalvariable,IV)来解决。给定Di是分配结果,Zi是实验者初始的分配原则。Di因为受到家长等因素的影响而具有内生性,Zi则是完全外生变量,Di受Zi的影响,因此Zi可以作为Di的工具变量。因此,两阶段最小二乘法(2-StageLeastSquare,2SLS)的公式如下:其次,实验组的学生可能与对照组的学生私下交流他们接受干预的收获和感受,或者他们在其他场合(比如其他课堂)上的表现间接影响了对照组学生,从而产生溢出效应(spillovereffect)。如果这种情况发生,即便对照组的学生没有接受干预,但依然受到了干预的影响。这时候两组学生的差异比真正的干预效应要小。再次,随机试验的一个暗含假设是实验组和对照组的成员不会因为参与这个随机试验课题而对其行为和产出产生影响,但现实中往往不是这样。参与者因为参与实验本身而产生的行为上的变化叫做霍桑效应(Hawthorneeffect)。其中,对照组的成员可能因为自己在对照组而更加努力学习,以证明自己即便在对照组,也会表现很好,这就叫做约翰亨利效应(JohnHenryeffect)。如果这种情况发生,我们的估计值比真正的干预效应要小。上述这些问题都会影响随机试验法的内部效度(internalvalidity),即研究设计是否能从逻辑上保证其结果的可靠性。此外,由于随机试验往往只是针对一个较小的样本进行分析(例如:在一个学校内、一个学区内、或者某个年级内),因此其样本很难代表更广大的群体(例如:全国小学生)。这就使得随机试验法的外部效度(externalvalidity)受到影响,即无法把随机试验结论推广到更广大的群体。此外,随机试验的实施成本非常高,需要政府、学校、家长的支持和配合,且会涉及到研究伦理问题,这种方法在教育政策评估中并不是经常使用,而是作为研究设计的标准。已发表的教育研究中使用随机试验法的有Krueger(1)、Stem(2)、Lee(3)、Banerjee等(4)。2.干预效应的估计由于随机试验法在实施过程中往往很难实现真正的随机分配,而且家长和学校也不一定会支持这样的试验,研究者会寻找自然发生的试验或者用现有的观察数据(observationaldata,区别于实验数据,即实验过程中采集的数据)构造试验条件。前一种情况被称为自然实验,采用的估计方法是双重差分法。后一种情况被称为准实验(quasi-experiment),包括断点回归(Regressiondiscontinuity),倾向分数配对法(Propensityscorematching)等。自然实验所需要的外部变化来自于不受人为控制的大事件的发生,使得被研究对象被迫的被随机分成实验组和对照组。比如自然灾害导致政策的变化,使得一部分人受到影响,而另一部分人没有受到影响;或者某项政策/法案在一个地区实施,但没有在另一个类似的地区实施。我们仍然把这个事件称为干预,把受到干预影响的人群称为实验组,把没有受到干预影响的人群称为对照组。如果已有的观察数据在干预前后、对实验组和对照组都有记录,那么我们就可以用双重差分法估计干预效应。如图1所示,横轴代表时间,纵轴代表产出Y,干预发生时间为ti,观察数据在干预前后的观测时间分别为t1和t2。真正的干预效应应该是Ya-Yb,但研究者能观测到的数据只有Yt1和Yt2。如果我们用Yt1-Yt2作为干预效应的估算值,则这个值是有偏的(biased)。Yt1-Yt2和Ya-Yb之间的差异是由Y随时间变化的趋势引起的,这个时间趋势指的是即便没有干预发生,Y仍然随时间变化而产生的变化。为了解决这个问题,我们只要把时间趋势从Yt1-Yt2中剥离掉即可。假设我们能够找到一个对照组,这个对照组的产出随时间变化的趋势与实验组一样,这样我们就可以通过对照组估算出时间效应(Y随时间变化的程度)。如图2,Yc1和Yc2是在时间点t1和t2时对控制组的观测值,则Yc1-Yc2是控制组的时间效应。由于除了没有接受干预以外,控制组和实验组随时间变化的趋势一样,Yc1-Yc2也是实验组的时间效应。这样,干预效应=(Yt1-Yt2)-(Yc1-Yc2),即两个差分的差分。直观上讲,我们只不过通过对照组构造了一个没有接受干预时的实验组,即红色虚线所表示的部分。其中,ΔΔY就是干预效应。因此,我们在用双重差分法时,可以把相应的均值和标准差填入上表,并把均值比较以及t检验的结果填到“做差”这一列,即可得到估算结果。当然,我们也可以用回归的方法实现这个估算过程。其中,α是常数项,Si是指示实验组的虚拟变量(当某个样本点来自实验组时,Si=1,否则Si=0),ti是指示干预发生的虚拟时间变量(ti=1表示干预发生后,ti=0表示干预发生前),则Si·ti只有当第i个观测值属于干预发生后的实验组时等于1。β代表实验组和对照组不随时间变化的永久性差异,γ代表时间效应,δ代表干预效应,ε代表残差项。与简单的均值做差法相比,回归方程的优点包括可以加入控制变量、引入多期、多组模型等。可以证明,在没有引入控制变量时,方程回归系数与上表中的均值比较结果一致。表2列出了在双重差分法中,回归系数与期望值之间的关系。可以看到,参数δ与期望值双重差分的结果ΔΔY是相等的。双重差分法的关键假设是实验组与对照组的时间效应一样。这个假设只有通过足够长的时间序列数据才能检验。需要指出的一点是,即使干预发生之前两组时间序列一致,也不能保证干预发生后两组时间序列是一致的。有可能在干预发生的同时在实验组或者对照组中又发生了其他影响产出的事件,则干预发生后两组的时间趋势是不一致的。简单的双重差分估计是有偏的。如图3所示,如果对照组是红色虚线所示,则双重差分估计是无偏的。但如果对照组是上方的黑色实线,则双重差分估计法是有偏的,偏差部分是在t2时刻,该黑色实线与红色虚线之间的距离。解决这个问题有两个思路:第一个是寻找更多的对照组,把多个对照组加权构造成一个虚拟的对照组,使得虽然每个对照组都与实验组的时间趋势不一样,但加权后的虚拟对照组的时间趋势与实验组的一样。这个方法被称作综合控制法(Syntheticcontrolmethod)。Abadie&Gardeazabal(2003)(1)用这个方法研究了恐怖冲突对经济发展的影响。解决这个问题的第二个思路是估算出这个因为时间趋势不同而带来的偏差,然后从双重差分结果中减去这个偏差即可。这被称作三重差分法(Difference-in-differences-in-differences,DDD)。三重差分法的思路是,既然两个地区(分别指实验组和对照组)的时间趋势不一样,那么我们可以分别在两个地区寻找一个没有受到干预影响的人群/行业,通过对这两组的双重差分估算出时间趋势的差异,然后再从原来实验组和对照组的双重差分估算值中减去这个时间趋势差异。Gruber(2)就使用了这种方法。由于篇幅所限,本文不再对上述方法以及其他双重差分法的延伸模型进行探讨。3.断点回归virt断点回归是一种准实验设计。如果政策在一个关于个人背景的连续的变量(例如考试成绩、家庭人均收入等)上设定一个临界值(cutoff/threshold),使得在临界值一侧的个体接受政策干预,而在临界值另一侧的个体不接受干预,则在临界值附近就构成了一个准实验。我们把这个决定了是否接受干预的连续变量叫做强制变量(forcingvariable),由于强制变量是连续的,所以在临界值两侧的个体应该是类似的、可比的,则这两侧的个体在产出上的差异就应该是干预造成的差异。当个体是否接受政策干预由强制变量值与临界值之间的关系决定时,我们可以用如下数学表达式:如果分配机制能严格按照这个强制政策来执行,则我们称之为清晰的断点回归(sharpRD)。为了使后续的解释比较形象,我们通过Angrist&Pischke(2009)(3)中的一个例子来讨论。美国的高中生会根据他们的PSAT成绩决定是否能获得一个全国优秀奖学金,我们的研究问题是获得奖学金是否能够提高高中毕业生上大学的概率。首先,假设没有设立这个奖学金,那么给定考试成绩xi,上大学的期望概率可以通过下公式(9)表达:现在假设设立了奖学金,且只有成绩高于一个临界点的学生才能获得,则获得这个奖学金对上大学概率的影响可以用公式(10)来表达:公式(9)和公式(10)和在一起即为:则ρ即为我们感兴趣的干预效应。断点回归方程(11)与普通的回归方程不同的是Di不仅与xi相关,而且是由xi确定的方程。我们通过区分非线性、不连续的函数Di=1(xi≥x0)与平滑的线性函数xi来识别干预效应。应用断点回归的一个经典研究是Lemieux&Milligan(2008)(1)。他们研究社会救助会不会影响就业率。劳动力经济学家根据理论推测,增加社会救济会减少接受救济的人群工作的必要性,从而减少劳动力供给、降低就业率。Lemieux&Milligan(2008)研究的这个社会救助项目规定30岁以下的人只能获得185美元,而一旦超过30岁,就可以获得507美元,这是一个巨大的差额。因此年龄就是这个政策的强制变量,临界点是30岁。图4展示了1986年人口普查时30岁以下和30以上的人群获得社会救助的额度。可以看到在临界点两侧,人们的救助收入有一个飞跃。因此,实际情况完全符合政策设计。图5展示了人口普查当天在临界点30岁附近,就业率的情况。可以看到,在30岁附近的就业率确实有一个跳跃。这就是在30岁时大幅增加社会救助的干预效应———降低就业率。断点回归的分析必须经受多方面的假设检验,才能保证其内部有效性。比如,我们应该检验临界值两侧的两群人是否在一些重要的背景变量上分布连续,强制变量本身在临界值附近是否连续。此外,由于断点回归是在临界值附近构建准实验,因此,我们要界定“附近”的区域到底有多宽。如果这个区域太窄,则样本量很小,可能影响估计的精确度和统计推断力。如果这个区域太宽,则我必须控制其他因素,以保证两边人群的可比性。顺便指出,因为断点回归是在一个临界值附近估算干预效应,而不是在整个定义域内估计平均的干预效应(AverageTreatmentEffect,ATE),因此这个估计值是局部平均干预效应(LocalAverageTreatmentEffect,LATE)。断点回归包括参数回归和非参数回归。参数回归主要强调对临界点附近的函数类型做出正确的假设。如图6(1)所示,第一张图是线性模型,第二张图是非线性模型,在临界点附近都有一个跳跃,因此可以用断点回归来识别这个干预效应。但第三张图实际上是一个在临界点附近没有跳跃的非线性模型,如果把这个非线性方程错当做线性方程对待,而且使用断点回归模型去估计,也能估算出一个跳跃,但这个估计结果是一个严重的错误。因此,在断点回归中,观察散点图的形状非常重要,而且我们往往把方程(11)写成一个更笼统的函数形式:Yi=f(xi)+ρDi+ηi(12)只要f(xi)在x0附近连续,我们就可以进行估计。一般来说,一个比较灵活的模型可以用xi的的p次多项式来表示:Yi=β0+β1xi+β2xi2+…+βpxip+ρDi+ηi(13)但P次多项式往往对奇异值比较敏感,而且假定xi对产出的影响在临界点两边是相等的(事实上可以不相等)。非参数回归则不对临界点附近的函数形式做出假设。最简单的非参数回归就是选择一个临界点附近的区域,分别计算临界点之上和之下的观测点的平均产出,然后比较均值。这种方法不够精确,且忽略了强制变量本身对产出的影响。其改进方法是Kernel方法,即在选定的区域中对观测点进行加权平均,权重大小由不同的分布函数来表示。第三种非参数回归则是局部线性回归,即在临界点左侧的局部区域和临界点右侧的局部区域分别进行线性回归,根据回归系数计算两个方程在临界点的估算值,估算值之差即为干预效应。这种方法的基础是随着强制变量从两边逼近临界值,临界值两边的方程形式已经不重要,而且可以用线性函数来近似。如果在政策执行过程中,强制变量对Di的影响不是绝对的,即对于方程(8)而言,当xi≥x0时,出现Di=0的情况,或者当xi<x0时,出现Di=1的情况,这时的断点回归称作模糊断点回归(fuzzyRD)。此时,Di不是完全外生,而是一个内生变量,可以通过类似随机试验中的工具变量法来解决。其他应用断点回归评估教育政策的有:Angrist(2)、Barrera-Osorio(3)、Black(4)、Hahn等(5)。4.干预效应的估计倾向分数配对法是利用观测数据(而非实验数据)通过构造控制组来解决自选择偏误问题。回顾等式(2),我们观测到的接受干预的人群与没有接受干预的人群在产出上的差异E[Y1i|Di=1]-E[Y0i|Di=0]之所以与真正的干预效应E[Y1i|Di=1]-E[Y0i|Di=1]不相等,就是因为E[Y0i|Di=1]-E[Y0i|Di=0]这一项不为零,即两组人群在本质上具有显著差异,在都没有接受干预的情况下,产出本来就会不同。这就是自选择偏误带来的偏差。如果我们能从没有接受干预的人群中找出一组人,使得这组人在主要特征上与接受干预的人群在统计上没有差异,则我们就构造了一个模拟的对照组。这个模拟的对照组和实验组在产出上的差异,就应该是干预效应。那么,如何定义和寻找模拟的对照组成员呢?一般来讲我们都希望模拟对照组与实验组在一组变量上的统计值都无显著差异。这是比较难做到的。因为,当两组人在第一个变量上无显著差异时,可能在第二个变量上显著不同;当调整模拟对照组成员使得两组人在第二变量上无显著差异时,可能又在第三个变量上显著不同。因此,我们主要通过分析样本中的每个人选择接受干预的概率来进行配对。个体选择接受还是不接受干预,可以通过Probit模型或者Logit模型来估算,我们所关心的主要特征变量都应该是影响接受干预概率的变量。其中,Di是指示是否接受了干预的虚拟变量,珝xi是配对时所认为的重要的变量组。通过估算模型(14),我们可以为每一个个体估算出一个选择接受干预的概率Pi,则称这个估计概率为倾向分数,即倾向于选择接受干预的程度。如果在没有接受干预的人群中有一组人,其倾向分数与接受干预的人群中的一部分人的倾向分数非常接近,则这两组人应该是可比的。这两组人在产出上的差异就是干预效应。这个配对的理念虽然比较简单,但具体的配对方法却比较复杂。例如,用于计算倾向分数的选择模型(14)是否有效?在配对时,如果一个没有接受干预的个体已经被配给某个接受干预的个体作为其对照,那么这个个体能否再配给另一个接受干预的个体?如果一个接受干预的个体在未接受干预的群体中找到若干个倾向分数相近的个体,是否都要把他们作为对照、或者只是随机选一个?如果都选为对照,给每个人赋予的权重是多少?Heckman(1)、Dehejia(2)等对倾向分数配对法都做了详细而深入的讨论。Altonji等(3)应用倾向分数配对法评估了天主教学校是否比公立学校更能提高学生的学业表现。读者可以参考。5.对数据的选择和处理除了上述从实验的思路出发构建的因果推断模型,为了使得统计分析结果真实可靠,定量研究者还需在研究设计和数据分析中考虑以下几个重要问题:(1)教育研究中的数据往往是聚类数据(cluster)或称为多层级数据(hierarchicaldata,nesteddata)。这种数据结构会增大估计值的标准差,减小统计推断力。因此,我们必须在模型估算中考虑这种数据结构,采用多层级模型中的随机效应模型或者固定效应模型(4)。(2)当产出变量不是连续随机变量,而是分类变量(categoricalvariable)时,则应考虑OLS之外的模型,如Tobit,Probit,Truncateddatamodel(5)。(3)如果干预效应针对处于不同分布的人群并不相同,即具有异质性(heterogeneity),则要使用分位点回归(quantileregression)等方法来解决(6)。(4)如果数据中的缺失值较多,且很难证明是随机缺失时,应在估算模型前采用多重填充法(MultipleImputation)来处理(1)。(5)如果样本不是具有代表性的样本,则需要通过抽样权重来调整。总之,由于教育领域研究对象(学生、家长、学校、教师等)的行为的复杂性,尤其面对各种政策和教育干预的自选择性,用定量研究的方法评估教育政策的效果必须非常谨慎。要根据政策的执行方案、数据结构等恰当选择模型,并对模型的假设做出严谨的检验。否则数据分析的结果可能是有偏的,有时候这种偏误是非常隐蔽的,不易被发现。基于这样的结果做出的政策建议也是不可靠的。四、混合方法面向全社会当然,定量研究方法并不是万能的,甚至存在很多陷阱和误区。本文第三部分已经点出了部分定量研究方法的假设,一旦数据不满足假设,结果就是有偏的,甚至严重背离真实情况。此外,教育定量研究中的一个重要难题是测量问题。在经济学领域,很多变量是在生产和经济活动中自然发生、并有确切数字记录的,比如资金投入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论