PSM理论与R软件应用_第1页
PSM理论与R软件应用_第2页
PSM理论与R软件应用_第3页
PSM理论与R软件应用_第4页
PSM理论与R软件应用_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TOC\o"1-5"\h\z上篇:倾向匹配法基本理论2一、因果推论的基本难题2(一)基本难题2(二)平均处理效用3二、处理变量选择3(一)处理变量的类型3(二)处理变量的可操作性3(三)财务与会计研究应用中处理变量的选取3三、因果推论的相关假定4(一)单元同质性假定4(二)可忽略的处理分配假定4(三)控制混淆共变量5(四)稳定单元处理值假定5(五)共变量分布平衡与重合假定6四、使用倾向值匹配法估计因果效用7(一)倾向值的基本要义7(二)倾向值匹配法的步骤8(三)倾向值8下篇:倾向值匹配法R软件应用12一、Matchit12二、Matching23上篇:倾向匹配法基本理论一、因果推论的基本难题(一)基本难题一个二元处理变量,有两个因果态,会产生两个实际结果,两个反事实结果。无论结果

是实际观察到的,或是无法观察到的,对应到两个因果态,两种结果以随机变量Y表示为丫和Y0,1通常代表接触到处理,0代表未接触到处理。用z来表示这个二元变量或处理变量,则两个因果态的数学表达式为:TOC\o"1-5"\h\zY=YifZ=11.1Y=YifZ=01.2某个单元实际被观测到的结果,通常以小写字母表示,y1和y:。而这个二元处理对于该受测单元的个体处理效用则为:ITE=i=y1-yi:1.3处理效用都是比较实验组和对照组间的线性差。表1因果推论的基本难题Y丫。实验组Z=1实际结果Y反事实结果对照组Z=0反事实结果实际结果Y1.1和1.2可以表不TOC\o"1-5"\h\zY=ZY+(1—Z)Yo1.4对照组可以观测到的,是实验组无法观测到的反事实结果;实验组可以观测到的,是对照组无法观测到的反事实结果。对任何一个受测单元来说,不可能获得它的个体处理效用,101因为,它或是在实验组被观测到y1,或是在对照组被观测到y,由于无法同时得到y1和y:,当然也不可能获得个体处理效用*。这就是因果推论的基本难题。从1.4可以得到,当接触处理时Z=1,(1-Z)Y0=0,Y0的信息便缺失了;当没有接触处理时Z=0,ZY=。,Y的信息便缺失了。(二)平均处理效用由于无法获得每一个受测单元的个体处理效用,即处理效用是无法在个体层面上估计,只能从集体层面上估计平均处理效用(AT日:ATE=E(t)=E(丫-K)=E(Y)-E(Yo)1.5二、处理变量选择(一)处理变量的类型受测单元接受一个二元的处理实验,产生两种状态:接触到处理的状态和未接触到处理的状态,前者属于实验组,后者属于对照组,比较受测单元在两种状态下的差别,所得到的就是处理效用。如果处理不是二元的,而是多元的(例如受教育程度:小学、中学、大学),可以用多元逻辑处理;如果是连续性的处理变量,则是广义的倾向值匹配。连续性的处理变量应用更加广泛。(二)处理变量的可操作性因果推论中,并非任何一个变量都可以置于回归方程的右侧,成为处理变量;处理变量必须能够在受测单元上实现不同程度的实验。如探索身高与收入的因果关系是没有意义的,因为一个人身高是固定的。但如果这个人通过穿增高鞋,那么穿增高鞋可以看成一个处理变量,它改变了身高。性别也不适合作为处理变量。单亲母亲也不适合作为处理变量。另外,人为把一个变量按照均值(或中位数)分类,大于均值(或中位数)为1,否则为0,从而构建一个虚拟二元变量。在分配受测单元于处理组和对照组时,强调?随机?分配,即接受处理的受测单元不是因为其他因素而选择处理的。因此,人为构造一个虚拟二元变量作为处理变量也是不可取的,但可以把这个变量作为连续性的处理变量。(三)财务与会计研究应用中处理变量的选取附表1中对国内使用PSMT法中处理变量选取进行了一个归纳。国内在财务与会计研究中,从2010年开始出现PSMT法的应用,一直到2017年,该方法的应用并不多。其中,处理变量涉及股权激励、发行债券、公司违规、交叉上市、银行授信、政府补贴、税收激励、审计意见、事务所选择、媒体报道、研发投入等二元变量,还涉及一些连续性处理变量,如债务集中度、研发强度等。三、因果推论的相关假定(一)单元同质性假定单元同质性假定就是说,各个受测单元基本上是一样的,是同质的。不能或避免比较类似苹果和橘子的对象,尽可能比较同一种苹果,最好是使用同一个基因复制出来的苹果。在实验中,复制相同的个体,如在同一个环境等因素下,培养类似的小白鼠,然后分相同的两组,一组接触处理一组不接触处理。培养200只基因完全相同的小白鼠,100只接受紫外线照射,另外100只不接受。6个月后,观察两批小白鼠皮肤病变的数量,假设我们观测到实验组中有20只老鼠皮肤癌变,病变率为20%而对照组只有5只病变,病变率为5%所以实验处理的效用就是20%-5%=15%平均来说,过度照射紫外线的小白鼠,相比没有照射紫外线的小白鼠,皮肤癌变的概率增加了15%单元同质性假定,我们可以这样认为,接触组的个体和非接触组的个体尽量相同。所以在匹配中,一些研究是在同年、同行业、同地区或者同规模等几种匹配规则,以一种匹配规则进行匹配;也有的以几种规则一起限制进行匹配。(二)可忽略的处理分配假定在实验室里,处理分配可以做到随机化,即接触和非接触处理变量的个体不是人为分配的。但是在社会科学等方面不可能做到处理分配的随机化。在分配受测单元于处理组与对照组时,强调是?随机?分配。随机分配处理是为确保接触处理的受测单元不是因为其他因素而选择接触处理。比如参加数学补习的学生,如果一些成绩好的学生对自己的成绩要求更高,那么参加补习班的这些成绩好的学生,也就是实验组的学生,他们的数学平均成绩高于对照组就不足为奇了。成绩高可能不是来自于补习班的教学效果显著,而是本来这些学生成绩就好。所以,若果能够?随机?分配学生参与补习班,则可以排除这些可能造成实验组学生和对照组学生基本差异的因素。实验结果必须与处理分配是独立的,即,(Y1,K)-Z1.6分配处理Z必须?联合?独立于",《):在一个设计合理的随机分配处理的实验中,分配机制并不能让我们预测实验效果的大小。分配处理z?联合?独立于(丫,丫0)时,处理分配是随机化的,因此处理分配是可忽略的,所以1.6称为严格可忽略的处理分配假定。处理变量Z?联合?独立于(丫,丫0),但不表示Z与丫是独立的。由于社会科学的研究多属于观测性研究,与实验研究的最大差别在于,研究者无法控制处理是如何分配到各个受测单元的,研究者所进行的观测性研究,往往是发生在处理分配后,结果已经发生,研究者才观测到受测单元的行为以及反应,只有通过合理的假定以及建模来了解处理的分配机制,借此从中分离处理与因果态的关系,从而达到独立的条件。鉴于观测性研究无法随机分配处理,研究者使用问卷调查模拟实验室随机分配处理的机制,确保处理效用大小与处理分配无

关。关。严格可忽略的处理分配假定可以减弱到弱可忽略的处理分配假定,分配处理Z分别与(¥,,丫0)独立,1.7满足1.7,则有ATE=E()1.8=E(Y/Z=1)-E(Yo|Z=0)1.8=E(Y|Z=1)-E(Y|Z=0)1.8表明处理分配等概率的。(三)控制混淆共变量我们可以模仿实验的研究,但是无法复制相同的受测者与受测环境。比如,参加补习班的硬件条件比较好,硬件条件既影响处理?参加补习班?,又影响补习成绩。因此,在因果推论的研究中,如果无法控制影响处理分配和实验结果的混淆共变量,则分配处理Z必须联合?独立于(Y,Y0)就不成立,所以我们在研究中要尽量控制可能影响处理分配和实验结果的共变量X,让联合独立性成立,即:TOC\o"1-5"\h\z四,K),Z|X1.9假设在控制可观察到X的条件下,分配处理的机制是严格可忽略的。这个假定放宽了等概率分配处理的条件,处理分配不再要求是等概率的,只要满足在控制共变量的条件下,处理分配是等概率的即可。式1.9改变为Ate=e()=E(丫|X,Z=1)-E(Y0|X,Z=0)1.10=E(Y|X,Z=1)-E(Y|X,Z=0)因此,我们需要知道E(Y|X,Z=1)和E(Y|X,Z=0),在接触处理时,共变量对受测单元的影响;在非接触处理时,共变量对受测单元的影响。估计这两部分可以使用倾向得分匹配方法。(四)稳定单元处理值假定稳定单元处理值假定:一是指处理对于所有受测单元的效果是一致的,是稳定的。比如,如果参加补习班可以使得成绩提高10%那么在其他变量不变的情况,我们可以推测,对于其他学生参加补习班也应该提高成绩,如果成绩反而下降了,这表示参加补习班这个处理,其效用可为正,也可以为负,则处理值是不稳定的。二是指受测单元彼此不受对方干扰;未接触到处理的受测单元,不会因为另一个受测单元接触到处理而受影响;所以同群效应和溢出效应都是违反稳定单元处理值的假设。比如,参加补习班的学生进入没有课后补习的班上,参加补习班的学生由于补习使得他们的能力提高,能够积极准确地回答老师的问题,但可能造成老师误判自己的教学效果,本来尚未解释清楚的概念,可能不再解释了。因此,未参加补习班的学生因此受到了影响,于是他们成绩的低落不是因为没有参加补习,而是老师没有尽到授业解惑的责任。对于这点问题,可能的解决方式是以班级为单元,随机决定哪个班级的学生参与补习,而不是决定哪些学生参加补习。比如:选择?股权激励?处理,一个公司选择这些处理可能是受到其他公司选择的影响,所以企业绩效的增加,我们也无法得出?股权激励?提高了企业绩效的结论。原因之一是?股权激励?并非一项随机选择,而是参考其他企业的行为,结合本企业条件所作出的决定;选择又受到其他企业的干扰,是在参考其他企业经验后,才推出本企业的股权激励模式,所以处理实施的方式可能是经过改良的。(五)共变量分布平衡与重合假定在控制适当共变量后,可以忽略处理变量分配与潜在结果的关系,但还有相应的假定:共变量在实验组和对照组的分布必须是平衡的、重合的。1、平衡以股权激励为例,假设我们控制的共变量包括财务变量和公司治理变量:企业规模、资产负债率、营业收入增长率、资本支出率、市场力量、总资产周转率、资产收益率、两职合一、企业实际控制人以及第一大股东持股比例,典型的实验组和对照组共变量分布不平衡的情况可能是这样的:实施股权激励的大规模企业比小规模多,实施股权激励的资产负债率较高、国有企业较多,如此以来,两个组别无法对比,我们可以怀疑,除了实施股权激励造成的组间差异外,这些共变量可能也是造成这些差异的因素之一。所以,检验假设1.9成立与否,检查共变量在组间的分布是否平衡是重要的方法之一。在实践中,是通过比较这些共变量在组间的均值和标准差的差异来判断是否平衡。2、重合实验组和对照组分布必须重合,重合的区域氛围称为共同支持域。图1模拟了参加补习班前后数学成绩的差异。黑实点是实验组,灰实点是对照组。黑实线和灰实线分别为实验组和对照组的回归线。实验组有数学成绩特别高的学生,对照组有数学成绩特别低的学生,在图1的左图,从左图的左侧两条垂直线和右侧两条垂直线可以看出,对照组的低分学生不能与实验组匹配,而实验组的高分学生不能与对照组匹配,也就是说这两个区域不能重合。而图1的右图,虽然回归线拟合的更好,但还是存在两个区域不重合。不重合会造成估计处理效用的偏差。解决不重合的方法之一就是删除这些不重合的区域,也就是只保留重合部分。图1重合性分析平衡和重合是两个完全不同的概念,平衡了共变量在组间的差异,并不代表各个共变量的分布就是重合的;重合也不代表平衡。比如高管特征变量中,实验组和对照组中高管的受教育程度可能都分布在本科以下、本科、本科以上等三个层次,实验组和对照组在受教育程度上完全重合,但分布不平衡,即实验组受教育程度在三个层次的人数都比较少,而对照组则比较多。实验组中高管的年龄可能只分布在45-55岁之间,而对照组中高管年龄可能分布在30-60岁之间,所以在年龄上缺乏重合,但实验组和对照组年龄分布的均值是平衡的。四、使用倾向值匹配法估计因果效用(一)倾向值的基本要义从?控制?的角度出发,倾向值匹配十分巧妙地完成了对多个共变量的控制。我们可以从一个共变量的情况谈起:假定只有个人智力水平混淆了大学教育和收入之间的关系。一个比较直观的控制个人智力的办法是将个人智力这一变量细分(sub-classification)成不同层次以保证每一个层次中的人的个人智力水平近似。然后我们在各个层次内部观察大学教育和收入的关系,最后将这些关系综合起来(Rubin,1997)。如果存在两个共变量(例如家庭经济背景好坏和个人智力高低),我们可以将这两个变量交互分成2x2个小组,组个体在这两个变量上的取值都是一样的(家庭背景好且智力高、家庭背景好且智力低、家庭背景不好且智力高,以及家庭背景不好且智力低),在每组内部观察大学教育和收入的关系然后综合起来。至此,通过细分的方法,我们完成了?控制?共变量的工作。但随着共变量越来越多,这种细分法就变得十分不方便了。例如,如果我们要控制5个共变量,每个变量有5个取值水平,我们就需要划分5A5=3125个小组。很快我们的数据样本量就不够保证每一组都有个体。倾向值匹配的办法巧妙地解决了这个多共变量下的?多维?(multipledimensional)问题:它不再关注每个需要控制的共变量的具体取值,而是转而关注将这些变量纳入Logistic回归方程后预测出来的倾向值取值,倾向值就是某一个样本接受到处理的概率。只要保证倾向值匹配,这些所有需要控制的共变量就都考虑到了(Rosenbaum&Rubin,1983)。这样做实际上是将对多个共变量的控制转为对倾向值的控制从而达到?降维?(dimensionreduction)的目的。换句话说,无论有多少需要控制的共变量,我们都能够通过倾向值匹配的方法将它们控制,从而帮助我们得出因果性结论。因此,从?控制?的角度出发,倾向值匹配法很好地解决了多共变量时的控制问题,从而支持了因果推论。(二)倾向值匹配法的步骤分3个主要步骤:估计倾向值、匹配、估计处理效应。任何一项检验不能通过,则必须从头开始。(三)倾向值倾向值e(XJ是某一个样本接受到处理的概率,假定这个处理是个二元变量,则倾向值就是一个接受或不接受处理的指标变量。e(Xi)=Pr(乙=")1.11当Xj包括不止一个共变量时,倾向值e(Xi)可以降维,把多维的共变量简化成一维的概率值。1、倾向值的性质对于非随机的实验,或社会、经济科学研究中,我们必须借助平衡方法来平衡两组间的差距,比较平衡国的组间所得的处理效用。倾向值能平衡实验组和对照组之间的差异。一个实验组和一个对照组的样本,一旦拥有相同的倾向值,这个两个样本在可观察到的共变量Xi上的分布是一样的,两者在共变量Xj上的差异是平衡的。同时,两个样本有相同的倾向值,不代表两个样本有相同的共变量Xj。在控制倾向值的情况下,共变量是独立于处理分配的,X-Z|e(X)1.12因此,对于相同倾向值的单元来说,实验组和对照组间结果变量的均值的差,是该倾向值上平均处理效用的无偏估计。2、估计倾向值Z处理变量不外乎是二元型、连续型、定序型等几类,求解1.11函数,都可以通过统计软件来实现。参数回归来求解倾向值过程中,由于Z和Xj关系的模型无法得知,所以往往被要求加入对参数设定的稳定性检验,说明使用不同的参数设定,对研究结果的影响不大。非参数回归求解倾向值,摆脱了对参数假定的依赖。如果Z是二元型变量,可以使用PROBIT或Logistic回归模型来计算。如果Z是连续型变量,可以使用多元线性回归来计算。如果Z是定序型变量,可以使用有序Logistic回归来计算。如果Z是类别型变量,可以使用多项Logistic回归来计算。3、匹配法(1)精确匹配法实验组和对照组,寻找相同的倾向值进行匹配。问题:很难找到相同的倾向值,最终可能导致样本量的丢弃。(2)最近邻匹配法实验组和对照组,寻找相似的倾向值进行匹配。不可替代匹配:造成匹配度不高的问题。可替代匹配:可能扩大处理效用的偏差。修正:卡尺匹配法,即限制了实验组和对照组倾向值的最大可容忍差距,超过这个差距,应选择放弃。因此,陈述因果推论,应如实报告。半径匹配法属于卡尺匹配法的一种,任何对照组样本与某一实验组样本的倾向值的绝对值差值小于设定的半径大小,那么这些对照组样本都会被选择来匹配实验组样本。一般软件里设置为0.01(3)区间匹配法区间匹配法又称子分类匹配、分层匹配法。首先使用分位数法将估计得到的倾向值分层或分类,建议最佳5分位点或6分位点。在5个区间内进行5个独立的匹配,得到5个处理效用,最后在加权平均得到最终的处理效应。(4)核匹配法核匹配法是使用权重调整所有匹配到实验组样本的对照组样本,更合理地调整每个对照组样本与任一实验组样本之间的距离(倾向值)。(5)马氏距离匹配法首先使用共变量计算实验组样本与对照组样本的马氏距离;其次,从中挑出马氏距离最小的对照组样本进行匹配,直到实验组样本都有匹配的对照组样本。问题:共变量数量的增大,会加大马氏距离,增加寻找匹配的难度。马氏距离是匹配共变量,倾向值匹配是匹配倾向值。(6)贪婪匹配与最佳匹配法为实验组寻找最相近的对照组样本进行匹配。问题:只关心单一样本最近距离的匹配样本,不关注所有匹配的总距离是否为最佳选择。最佳匹配:最小化所有匹配间距离的总和。4、匹配后的检验使用倾向值匹配法的主要功能是消除选择性偏差,为了得到更加可靠的处理效用,从而避免选择性偏差,需要对共变量分布进行平衡与重合检验,以及是否存在选择性偏差的敏感性分析。(1)共变量分布不平衡分析检验方法一:共变量在实验组和对照组均值的差值是否显著:T检验。原假设:两个均值相等,备择假设:两个均值不相等。检验结果是统计显著的,则拒绝原假设,接受备择假设,则两均值是有差异的,共变量的分布是不平衡的。问题:T检验只检验了均值的差异,无法检验分布的其他特征。检验方法二:Kolmogorov-Smirnov检验方法使用不同的分布特征检验两个分布的差异。原假设:两个分布的累积密度函数相等;备择假设:不相等。检验结果是统计显著的,则拒绝原假设,接受备择假设,则两分布是有差异的,共变量的分布是不平衡的。经验:两种方法一起使用,更好地确认共变量的分布是平衡的。(2)共变量分布不重合分析方法:用共变量分布的柱状图判断共变量分布的重合性,或者贝叶斯非参数回归模型。经验:丢弃不重合的部分这两个必须进行检验。(3)选择性偏差与敏感性分析选择性偏差:比如,处理变量是促进就业的政策,影响就业的共变量为性别、教育程度、学历专业,证书等。拥有数个证书的就业者,可能会比其他人更为积极地参与提升就业机会的活动,进而选择加入受测(自我选择偏差)。这属于显性的共变量造成的显性偏差,可以通过控制共变量解决。如果存在隐藏的共变量,则就是隐藏性偏差。分析结果在存在选择性偏差的合理范围内是否依然稳健有效,这就是所谓的敏感性分析。敏感性分析即假定单元j和k拥有相同的共变量,它们接触处理发生比的比率(oddsratio)会介于1/「和r之间,其中r>1o敏感性分析判断标准:当「数值越大,则该研究的敏感性越低;当「数值越小,则该研究的敏感性越高。一般来说,只要r>2,则该研究就可以声称已免除隐藏性偏差的影响。敏感性分析,需要进行无效假设检验。重点检验在逐步增加「后,处理效用7还是有效的。原假设:T=0不存在处理效应;备择假设:T>0存在处理效用。统计软件中Wilcoxon符号秩检验法、Hodges-Lehmann点估计和信用区间检验法,都可以进行敏感性分析。任一项敏感性分析验证研究的因果推论不受潜在选择性偏差的影响,就是一项完整且可信赖的研究。例子:儿童血液含铅水平与他们父母职业的关系由于只选择两个共变量:儿童年龄和居住环境,可能存在隐藏性偏差。敏感性分析结果如表2所示,表2儿童血铅水平的敏感性分析结果rSig+Sig-?十?一ci+ci—1<0.0001<0.000115159.520.520.0018<0.000110.2519.54.527.530.0136<0.0001823132.540.0388<0.00016.525-1374.250.0468<0.0001625-1.538.54.350.0502<0.0001625.5-238.550.0740<0.0001526.5-342Sig+和Sig-分别是Wilcoxon符号秩检验显著性水平的上界和下界。p+、?一分别是Hodges-Lehmann点估计的上界和下界。CI弋CI9别是Hodges-Lehmann95%言用区间的上界和下界。r=1表明匹配的单元接触处理发生比是相同的,表示该研究无隐藏性偏差。Wilcoxon符号秩检验的上界和下界的显著性水平都小于0.0001(只要小于0.05即可),表示拒绝==0不存在处理效应原假设,因此处理效用是有效的。直到「>4.35时,Wilcoxon符号秩检验显著性水平的上界才大于0.05,才能接受原假设,处理效用是无效的,隐藏性偏差的影响,致使匹配的两个单元接触处理发生比的差异超过4.35倍时,才能改变原先对于处理效用的结论。因此,该研究对于隐藏性偏差影响的敏感性是非常低的,研究结论是可靠的。对于?*、P一分别是Hodges-Lehmann点估计的上界和下界。CI*、CI一分别是Hodges-Lehmann95%言用区间的上界和下界。一直到检验厂>4时,点估计的上界和下界分别是6.5和25,95%的信用区间的上界和下界[-1,37]包含0,表示这个点估计是统计不显著的,接受了原假设,因此,该研究对于隐藏性偏差影响的敏感性是非常低的,研究结论是可靠的。(4)匹配后估计平均处理效用平均处理效用ATE由实验组平均处理效用ATT和对照组平均处理效用ATC组成。1.13n1ATT+n°ATC1.13n1和n0分别是实验组和对照组样本量。1.13的平均处理效用也可以通过简单的回归方程获得,依照结果变量的类型,使用不同的回归方程来估计处理效用,如果结果变量Y是连续型变量,、二7LX1.14如果匹配后的共变量是平衡和重合的,则式1.14与1.13的处理效应?在理论上是完全一致的。(5)平均处理效用的标准误差一般使用Bootstrap重复抽样的方式获得标准误差,一般建议5000次的重复抽样。下篇:倾向值匹配法R软件应用卜面几种常用的R程序包,包括Matchit、Matching、optmatch和rbounds一、Matchit可以实现的匹配方法有最近邻匹配、马氏距离匹配、卡尺匹配、精确匹配、子分类匹配、最佳匹配和完全匹配法,同时可以实现若干匹配后的检验,匹配后的处理效用需要Zelig软件包。Matchit软件包已经升级到3.0.1版本,包含以下7个程序,其中matchit是主程序。get_matcheshelp.matchitis.matchitlalondematch.datamatchit:主程序mpt.1、matchitmatchit(formula,data,method="nearest",distance="logit",distance.options=list(),discard="none",reestimate=FALSE,...)2、程序讲解(1)数据的读写(建议整理好后放在TXT里)改变工作路径,把TXT文件放在工作路径里。rt<-read.table("exam.txt",head=TRUE)(读取TXT文件,第一行为标题行所以head=TRUE把exam.TXT文件转换名为rt的r数据文件)rt(显示数据)lm.sol<-lm(Weight~Height,data=rt)(提取weight和Height两列)summary(lm.sol)(最小二乘法)matchit(应用Lalonde数据)library(Matchit)##调用Matchit程序包data(lalonde)##loadtheLmpt()##Press<return>tocontinue##matchit使用的匹配方法,使用Logit逻辑回归进行匹配(Thedefaultislogisticregression)#performnearestneighbormatchingm.outl<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit")

#method="subclass"系统默认分6个子类m.outl<-matchit(treat〜re74+re75+age+educ,data=lalonde,method="subclass",distance="logit")#method="exact"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="subclass",distance="logit")#method="full",m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="full",distance="logit")#method="genetic"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="genetic",distance="logit")#method="optimal"m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="optimal",distance="logit")mpt()#使用马氏距离进行匹配m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="mahalanobis")mpt()#1:1匹配和1:2匹配m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=1)m.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=2)#显示1:1最近邻匹配法结果的程序m.out1结果为:Call:matchit(formula=treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",ratio=1)Samplesizes:ControlTreatedAll429All429185TOC\o"1-5"\h\zMatched185185Unmatched2440Discarded00由于只有185个实验组样本,使用1:1最近邻匹配法进行匹配,对照组样本也是185个#obtainmatcheddata获得匹配数据m.data1<-match.data(m.out1)m.data1#显示处理组、对照组中匹配的各185个数据。有了匹配数据,就可以在使用DID方法。#summarizetheresultingmatcheddata对匹配数据进行统计summary(m.data1)(3)匹配检验平衡检验:统计量使用summary。语句计算各个共变量的平衡统计值,standardize=TRUE语句表示标准化这些平衡统计彳K,主要使用Std.MeanDiff这个统计值进行诊断。library(MachIt)data(lalonde)mpt()#1:1Nearestneighbormatchingm.out<-matchit(treat~re74+re75+educ+black+hispan+age,data=lalonde,method="nearest")#balancediagnosticsthroughstatistics平衡的统计诊断s.out<-summary(m.out,standardize=TRUE)print(s.out)mpt()检验结果分析Summaryofbalanceforalldata:匹配前各个共变量在实验组和对照组差异的描述,distance和black两个变量的差异性较大MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.56580.18720.23081.79190.4017re742095.57375619.23656788.7508-0.72110.2335re751532.05532466.48443291.9962-0.29030.1355educ10.345910.23542.85520.05500.0228black0.84320.20280.40261.75680.3202hispan0.05950.14220.3497-0.34890.0414age25.816228.030310.7867-0.30940.0827eCDFMeaneCDFMaxdistance0.37340.6435

re740.22480.4470re750.13420.2876educ0.03470.1114black0.32020.6404hispan0.04140.0827age0.08130.1577Summaryofbalanceformatcheddata:匹配后各个共变量在实验组和对照组差异的描述,distance和black两个变量的差异性依然较大,hispan变量的差异在变大。可以说明匹配后的这三个共变量的改善程度不好。需要做模型、匹配方法等方面的在调整。MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.56580.36490.25980.95090.2378re742095.57372466.30394245.6943-0.07590.0432re751532.05531960.35482948.2552-0.13300.0703educ10.345910.47033.2067-0.06180.0405black0.84320.47030.50051.02310.1865hispan0.05950.27570.4481-0.91180.1081age25.816226.054110.1910-0.03320.0649eCDFMeaneCDFMaxdistance0.21170.3892re740.07800.2919re750.07620.2000educ0.04950.1459black0.18650.3730hispan0.10810.2162age0.07060.1784PercentBalanceImprovement:Std.MeanDiff.eCDFMedeCDFMeaneCDFMaxdistance46.935840.796043.310039.5219re7489.478881.483265.285634.7050re7554.164648.145043.174930.4700educ-12.4957-78.0576-42.7023-31.0442black41.763641.763641.763641.7636hispan-161.3463-161.3463-161.3463-161.3463age89.258021.608013.2585--13.0931平衡检验:图形##balancediagnosticsthroughgraphics使用图形法进行检验plot(m.out)##默认为QQ>位数对分位数图下图显示6个共变量匹配前后的QQ分位数对分位数图,除了black和两个变量外,其他4个变量在匹配后都靠近了45度线,都有所改善。45c77ueedrreQQPlotsQWMW28W0IoQRB2Qsw—o51-^50npaO1OQUOAU^zu-ageControlUnits卜面是散点图的程序,对照组三个点与实验组匹配程度较差,凸显了两组样本倾向值分布不平衡的情况,也显示了这个区域两组样本分布缺乏重合。plot(m.out,type="jitter")mpt()DistributionofPropensityScoresPropensityScore下面是柱状图的程序,匹配前和匹配后的实验组和对照组(左侧上下,与右侧上下),两组倾向值分布极为不同,说明平衡状况不佳。plot(m.out,type="hist")mpt()RawTreatedPropensityScoreMatchedTreatedPropensityScore0.00.8PropensityScoreRawControl9nulno0.00.20.4RawTreatedPropensityScoreMatchedTreatedPropensityScore0.00.8PropensityScoreRawControl9nulno0.00.8PropensityScoreMatchedControl下面是匹配前后各二个共变量组间差值绝对值的变化,多数共变量在匹配后,组间差值的绝对值都有明显的减少,只有hispan和educ这两个变量的差值的绝对值在增加。plot(s.out)##s.out,是匹配数据的平衡检验统计量的结果

anan/AllDataMatchedDataeduc(4)平衡性修正修正1,删除平衡性差的共变量blacklibrary(Matchlt)data(lalonde)mpt()##1:1NearestneighbormatchingwithMahalanobismatchingonre74andre75andexactmatchingonmarried,另外,没有选择black这个变量。m.out2<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",mahvars=c("re74","re75"),exact=c("married"),caliper=.25)mpt()##balancediagnosticsthroughstatistics在进行平衡统计诊断s.out2<-summary(m.out2,standardize=TRUE)print(s.out2)结果如下:Std.MeanDiff在匹配后除了educ这个变量差值的绝对值有所增加外,其他的都在降低,修正效果较好。Summaryofbalanceforalldata:MeansTreatedMeansControlSDControlStd.MeanDiff.eCDFMeddistance0.35360.27880.12560.82990.2226re742095.57375619.23656788.7508-0.72110.2335

re751532.05532466.48443291.9962-0.29030.1355age25.816228.030310.7867-0.30940.0827educ10.345910.23542.85520.05500.0228married0.18920.51280.5004-0.82410.1618eCDFMeaneCDFMaxdistance0.19440.3398re740.22480.4470re750.13420.2876age0.08130.1577educ0.03470.1114married0.16180.3236MeanDiff.eCDFMedSummaryofbalanceformatcheddata:MeanDiff.eCDFMed##balancediagnosticsthroughgraphics了##balancediagnosticsthroughgraphics了45度线,修正效果较好。plot(m.out2),QQ图显示5个共变量经过匹配后都靠近MatchededucmarriedMatchededucmarrieddistance0.35360.34490.08880.09600.0649re742095.57372282.05864476.6831-0.03820.0162re751532.05531373.92252429.89390.04910.0162age25.816224.25419.98070.21830.0432educ10.345910.12972.47910.10750.0162married0.18920.18920.39270.00000.0000MeansTreatedMeansControlSDControlStd.eCDFMeaneCDFMaxdistance0.06140.1459re740.05710.2595re750.03470.1622age0.08870.3189educ0.02560.0649married0.00000.0000ControlUnitsControlUnitsControlUnits##散点图,经过匹配后,效果改善也比较明显。plot(m.out2,type="jitter")DistributionofPropensityScoresPropensityScore卜面是匹配前后只有educ这个变量的差值的绝对值在增加。plot(s.out)##s.out,是匹配数据的平衡检验统计量的结果DistributionofPropensityScoresPropensityScore卜面是匹配前后只有educ这个变量的差值的绝对值在增加。plot(s.out)##s.out,是匹配数据的平衡检验统计量的结果80604020oosnaeMtfIDdeamrosbA修正2,删除平衡性差的样本点library(MatchIt)data(lalonde)mpt()#1:1Nearestneighbormatchingwithunitsoutsidethecommonsupportdiscardedm.out3<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",discard="both")mpt()

#printashortsummaryprint(m.out3)mpt()m.out3的运行结果为:ControlTreatedTOC\o"1-5"\h\zAll429185Matched184184Unmatched2420Discarded31然后再进行平衡统计量检验与图形检验,程序如上。修正3,使用1:2匹配法#Nearestneighbormatchingwithreplacementm.out4<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",replace=TRUE,ratio=2)修正3,使用子分类法#Nearestneighbormatchingfollowedbysubclassificationm.out5<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit",subclass=5)(5)处理效果估计可以下载MatchItSE_1.0与Rcpp_0.12.14(低版本)两个程序包一起安装后,就可以简单计算平均处理效用及其标准误差了。library(MatchIt)library(MatchItSE)#调用MatchItSE程序data("lalonde")m.out<-matchit(treat~age+educ+black+hispan+married+nodegree+re74+re75,data=lalonde,method="nearest",distance="logit")#计算倾向值zelig_se(obj=m.out,丫=lalonde$re78)##计算re78的平均处理效应。结果如下:estsdatt.estatt.se5220.49692183.84091128.6466562.1904平均处理效应att的标准误差mdata<-match.data(m.out,group="all")#从匹配后的m.out结果中抽取匹配后的数从匹配后的m.out结果中抽取匹据。从匹配后的m.out结果中抽取匹mdatatreated<-match.data(m.out,group="treat")#配后的实验组数据。mdatacontrol<-match.data(m.out,group="control")#从匹配后的m.out结果中抽取匹配后的对照组数据。(5)敏感性检验安装rounds程序包,进行敏感性分析。按照抽取的实验组和对照组数据,使用psens()程序进行wilcoxon符号秩检验。library(MatchIt)library(rbounds)library(Matching)data(lalonde)##loadtheLalondedata##matchit使用的匹配方法,使用Logit逻辑回归进行匹配(Thedefaultislogisticregression)##performnearestneighbormatchingm.out1<-matchit(treat~re74+re75+age+educ,data=lalonde,method="nearest",distance="logit")m.data1<-match.data(m.out1,group="all")Ytreated<-match.data(m.data1,group="treat")Ycontrol<-match.data(m.data1,group="control")psens(x=Ycontrol,y=Ytreated,Gamma=2,GammaInc=0.1)#wilcoxon符号秩检验wilcoxon符号秩检验结果如下:Unconfoundedestimate....0.7435GammaLowerboundUpperbound1.00.74350.74351.10.53870.88731.20.34050.95771.30.18960.98611.40.09440.99591.50.04270.99891.60.01780.99971.70.00690.99991.80.00251.00001.90.00091.00002.00.00031.0000wilcoxon符号秩检验,当Gamma=1.5寸,下界的显著TfcK平就小于0.05,说明了当匹配的两个单元接触处理发生比为1.5时,就可以改变原先对于处理效用的结论:这个隐藏性偏差的影响不必太大就可以改变原来的结论,结论非常敏感,不可靠的。二、Matching能够基于单变量和多变量平衡检验的统计量,实现自动化匹配样本选择。主要采用i对多、样本可替代或不可替代的方法,包含卡尺匹配法、精确匹配法。同时可以实现匹配后的处理效用和变异量估算。Lalonde数据说明变量名称变量内容Age出生年Educ受过几年教育Black指标变量,1为黑人,0为非黑人Hisp指标变量1为西班牙商,0为非西班牙商Married指标变量,1为已婚,0非已婚Nodegr指标变量,1为拥有高中学历证书,0则无Re74参与者1974年收入Re75参与者1975年收入Re78参与者1978年收入,结果变量Treat指标变量,1为实验组,0为实验组,处理变量程序步骤:1、本地安装Matching包打开r软件,在菜单栏才T开:程序包-Installpackagesfromlocalfiles,弹出一窗口,找到下载的ZIP压缩安装包,确定后,出现?程序包'Matching'打开成功,MD林口检查也通过?,则表明安装成功。2、调用Matching包library("Matching")data("lalonde")attach(lalonde)#记入存储器里便于使用3、Logistic回归模型估计倾向值m1<-glm(treat〜age+educ+black+hisp+married+nodegr+re74+re75,family=binomial(link="logit"))m14、匹配使用程序包Match()程序进行1:1样本(M=。可替代(replace=TRUE)和1:1样本不可替代(replace=FALSE)的最近邻匹配法,并要求返回ATT估值(estimated="ATT')。可替代匹配pm1<-Match(丫=re78,Tr=treat,X=m1$fitted,estimand="ATT",M=1,replace=TRUE)summary(pm1)Estimate...2624.3AISE……802.19

T-stat.....3.2714p.val......0.0010702说明估计的实验组平均处理效用具有统计显著性。5.平衡检验mb<-MatchBalance(treat〜age+educ+black+hisp+married+nodegr+re74+re75,match.out=pm1,nboots=1000,data=lalonde)MatchBalance(),nboots=1000一般建议大于1000。匹配方法最近近邻法,处理组匹配前后的均值是不变的;控制组均值,以age变量为例,从匹配前的25.054变成了25.692。age变量匹配后的控制住均值与处理组均值更接近了。T-testp-value表示均值差异是否是统计显著的,匹配前后,age组间的均值差的数值均大于0.05,说明匹配前后实3^组和控制组age的均值在统计上是无差异的;匹配前后,二个KS^计量(KSBootstrapp-value,KSNaivep-value)都大于0.05,说明了使用KS佥验法检验age在实验组和对照组的分布,在统计上也是无差异的。stdmeandiff代表的则是标准化后的组间均值差,可以用来比较不同共变量平衡值的差异。例如,age标准化后的组间均值差为1.73,而educ均值差为9.97,说明了匹配后,age较educ更为平衡。nodegr、re74、re75这三个变量平衡性较差,其中re74匹配后变的更差了。*****(V1)age*****BeforeMatchingAfterMatchingmeantreatment25.81625.816meancontrol25.05425.692stdmeandiff10.6551.7342meanraweQQdiff.....0.940540.73837TOC\o"1-5"\h\zmedraweQQdiff.....10maxraweQQdiff.....79meaneCDFdiff0.0253640.021893medeCDFdiff0.0221930.020349maxeCDFdiff0.0651770.061047varratio(Tr/Co).....1.02781.083T-testp-value0.265940.84975KSBootstrapp-value..0.4910.374KSNaivep-value......0.74810.54314KSStatistic0.0651770.061047*****(V2)educ*****BeforeMatchingAfterMatching10.34610.14610.34610.1469.96640.23256020.0166110.0101740.0610471.23440.18420.20.543140.061047AfterMatching0.843240.86847-6.91940.026163010.0130810.0130810.0261631.15720.40214meantreatment10.346meancontrol10.088stdmeandiff12.806meanraweQQdiff.....0.40541medraweQQdiff0maxraweQQdiff2meaneCDFdiff0.028698medeCDFdiff0.012682maxeCDFdiff0.12651varratio(Tr/Co)1.5513T-testp-value0.15017KSBootstrapp-value..0.014KSNaivep-value0.062873KSStatistic0.12651*****(v3)black*****BeforeMatchingmeantreatment0.84324meancontrol0.82692stdmeandiff4.4767meanraweQQdiff.....0.016216medraweQQdiff.....0maxraweQQdiff1meaneCDFdiff0.0081601medeCDFdiff0.0081601maxeCDFdiff0.01632varratio(Tr/Co)0.92503T-testp-value0.64736*****(V4)hisp*****BeforeMatchingmeantreatment0.059459meancontrol0.10769stdmeandiff-20.341meanraweQQdiff0.048649AfterMatching0.0594590.049554.17920.011628medraweQQdiff.....00maxraweQQdiff.....11meaneCDFdiff0.0241160.005814medeCDFdiff0.0241160.005814maxeCDFdiff0.0482330.011628varratio(Tr/Co).....0.582881.1875T-testp-value0.0640430.46063*****(v5)married*****BeforeMatchingmeantreatment0.18919AfterMatching0.18919*****(v5)married*****BeforeMatchingmeantreatment0.18919AfterMatching0.18919meancontrol0.153850.18423stdmeandiff8.99951.2617meanraweQQdiff0.0378380.026163medraweQQdiff00maxraweQQdiff11meaneCDFdiff0.0176720.013081medeCDFdiff0.0176720.013081maxeCDFdiff0.0353430.026163varratio(Tr/Co)1.18021.0207T-testp-value0.334250.89497*****(V6)nodegr*****BeforeMatchingmeantreatmentmeancontrolstdmeandiff*****(V6)nodegr*****BeforeMatchingmeantreatmentmeancontrolstdmeandiffmeanraweQQdiffmedraweQQdiffmaxraweQQdiffmeaneCDFdiffmedeCDFdiffmaxeCDFdiffvarratio(Tr/Co)0.70811

0.83462-27.7510.12432

010.063254

0.063254

0.126511.4998AfterMatching0.708110.76757-13.0430.043605010.0218020.0218020.0436051.1585T-testp-value0.00203680.0071385*****(V7)re74*****BeforeMatchingmeantreatment2095.6meancontrol2107*****(V7)re74*****BeforeMatchingmeantreatment2095.6meancontrol2107stdmeandiff-0.23437AfterMatching2095.62193.3-2.0004meanraweQQdiff.....487.98869.16medraweQQdiff00maxraweQQdiff.....841310305meaneCDFdiff0.0192230.054701medeCDFdiff0.01580.050872maxeCDFdiff0.0470890.12209varratio(Tr/Co)0.73810.75054T-testp-value0.981860.84996KSBootstrapp-value..0.581<2.22e-16KSNaivep-value0.970230.011858KSStatistic0.0470890.12209*****(V8)re75*****BeforeMatchingmeantreatment1532.1AfterMatching1532.1meancontrol1266.92179.9stdmeandiff8.2363-20.125meanraweQQdiff367.61590.34medraweQQdiff00maxraweQQdiff.....2110.28092.9meaneCDFdiff0.0508340.050338medeCDFdiff0.0619540.049419maxeCDFdiff0.107480.098837varratio(Tr/Co)1.07630.56563T-testp-value0.385270.079002KSBootstrapp-value..0.0430.013KSNaivep-value0.164490.069435KSStatistic0.107480.098837BeforeMatchingMinimump.value:0.0020368VariableName(s):nodegrNumber(s):6AfterMatchingMinimump.value:<2.22e-16VariableName(s):re74Number(s):76、匹配后的调整匹配后,共变量在实验组和对照组之间的平衡情况仍然不佳,特别是re75和re78,共变量在两组间的差异仍然不小,所以使用者并应该进行适当的调整。Sekhon(2011)等的Matching程序包的GenMatch()程序,可以自动进行调整,找寻最适合的匹配,最小化各个共变量在组间的差异。library("Matching")data("lalonde")attach(lalonde)<-lalonde$re78Tr<-lalonde$treat#propensityscoremodelglm1<-glm(Tr~age+educ+black+hisp+married+nodegr+re74+re75,family=binomial,data=lalonde)#estimandistheaveragetreatmenteffectonthetreated(ATT):rr1<-Match(Y=Y,Tr=Tr,X=glm1$fitted)R>m1=Match(Y=Y,Tr=Tr,X=glm1$fitted,estimand="ATT",M=1,ties=TRUE,replace=TRUE)#上面两个语句的结果相同。##下面只选择了re74进行了平衡性检验MatchBalance(Tr~re74,match.out=rr1,nboots=1000,data=lalonde)平衡性检验结果:BeforeMatchingAfterMatchingmeantreatment2095.62095.6meancontrol21072193.3stdmeandiff-0.23437-2.0004meanraweQQdiff.....487.98869.16medraweQQdiff00maxraweQQdiff.....841310305meaneCDFdiff0.0192230.054701medeCDFdiff0.01580.050872maxeCDFdiff0.0470890.12209varratio(Tr/Co)0.73810.75054T-testp-value0.981860.84996KSBootstrapp-value..0.564<2.22e-16

KSNaivep-value......0.970230.011858KSStatistic0.0470890.12209##re74匹配后的QQ图形,re74的平衡性并没有提高多少qqplot(lalonde$re74[rr1$index.control],lalonde$re74[rr1$index.treated])abline(coef=c(0,1),col=2)lalondeSre74[rr1$index.control]##GenMatch()程序的使用首先,在GenMatch()程序中,给定X和BalanceMatrix两参数由共变量组成的矩阵,一般情况下,X(用来估计倾向值的共变量)和BalanceMatrix(用来决定两组间哪些是需要平衡的共变量)是相同的。但BalanceMatrix可以提供部分共变量,当然也可以提供比X更多的共变量的变形,比如BalanceMatrix的变量包括二次项、交互项等。其次GenMatch()自动适配匹配后,将匹配的结果当成权重提供给Match()程序,得到的结果与先前的分析结果不同。再次,再使用MatchBalance检3GGenMatch程序匹配的结果是否改进了共变量的平衡状况。X<-cbind(age,educ,black,hisp,married,nodegr,re74,re75,u74,u75)BalanceMatrix<-cbind(age,I(ageA2),educ,I(educA2),black,hisp,married,nodegr,re74,I(re74A2),re75,I(re75A2),u74,u75,I(re74*re75),I(age*nodegr),I(educ*re74),I(educ*re75))gen1<-GenMatch(Tr=Tr,X=X,BalanceMatrix=BalanceMatrix,pop.size=1000)##需要安装rgenoud包,搜索需要花点时间将匹配的结果当mgen1<-Match(Y=Y,Tr=Tr,X=X,Weight.matrix=gen1)##成权重提供给Match()程序将匹配的结果当MatchBalance(Tr〜age+I(ageM)+educ+I(educA2)+black+hisp+married+nodegr+re74+I(re74A2)+re75+I(re75A2)+u74+u75+I(re74*re75)+I(age*nodegr)+I(educ*re74)+I(educ*re75),data=lalonde,match.out=mgenl,nboots=1000)MatchBalance(Tr〜nodegr+re74+I(re74A2),match.out=mgenl,nboots=1000,data=lalonde)##只检验nodegr+re74+I(re74A2)三个变量summary(mgenl)##平均处理效应检验qqplot(lalonde$re74[mgen1$index.control],lalonde$re74[mgen1$index.treated])##re74匹配后的QC@abline(coef=c(0,1),col=2)结果分析:我们只提供了re74匹配后的QQ相比上一图,平衡状况得到了很大的改观。本案例最大的特点是通过二次项和交互项的引入,以及采用GenMatch()提高平衡性状况。官网用官网用矍一玄vpu屏LulmEE」」印舞心puo_fD_0500010000150002000025000Iak)nde$re74[mgen1Sindexcontrol]7、敏感性检验安装rounds程序包,进行敏感性分析。按照抽取的实验组和对照组数据,分别使用psens()和hlsens()程序进行wilcoxon符号秩检验和Hodges-lehmann点估计检验。library(rbounds)psens(mgen1,Gamma=2,GammaInc=0.1)#wilcoxon符号秩检验wilcoxon符号秩检验结果如下:RosenbaumSensitivityTestforWilcoxonSignedRankP-ValueUnconfoundedestimate....0.0086GammaLowerboundUpperbound1.00.00860.00860.00120.04050.00010.12180.00000.26240.00000.44200.00000.62170.00000.76940.00000.87250.00000.93550.00000.96982.00.00000.9868wilcoxon符号秩检验,当Gamma=1.2寸,上界的显著T^水平就大于0.05,说明了当匹配的两个单元接触处理发生比为1.2时,就可以改变原先对于处理效用的结论:这个隐藏性偏差的影响不必太大就可以改变原来的结论,结论非常敏感,不可靠的。hlsens(mgen1,pr=0.1,Gamma=2,GammaInc=0.1)#Hodges-lehmann点估计检验Hodges-lehmann点估计检验结果Unconfoundedestimate....1338.42GammaLowerboundUpperbound1.3384e+031338.46.3652e+021343.53.8342e+021697.91.1582e+021986.3-7.9992e-022241.5-1.4498e+022478.6-3.7808e+022738.0-5.7178e+022955.8-7.5258e+023189.2-9.4858e+023339.6-1.0948e+033548.4Hodges-lehmann点估计检验,当Gamma=1.4寸,95%勺信用区间已经包含0,说明了当匹配的两个单元接触处理发生比为1.4时,就可以改变原先对于处理效用的结论:这个隐藏性偏差的影响不必太大就可以改变原来的结论,结论非常敏感,不可靠的。8、共同支持域检验(重合性检验)共同支持域检验会丢弃不重合的样本,一般把共同支持域检验作为稳健性检验用的。mgen2<-Match(Y=Y,Tr=Tr,X=X,Weight.matrix=gen1,CommonSupport=TRUE)summary(mgen2)结果分析:进行共同支持域检验与没有进行的平均处理效应分别为1578.4和1540.1,两者差异较小,剔除非重合的三个样本后,估计的平均处理效应比较稳健。进行共同支持域检验的平均处理效应Estimate...1578.4AISE......869.3T-stat.....1.8157p.val......0.06942TOC\o"1-5"\h\zOriginalnumberofobservations442Originalnumberoftreatedobs185Matchednumberofobservations185Matchednumberofobservations(unweighted).268没有进行共同支持域检验的平均处理效应Estimate...1540.1AISE872T-stat.....1.7662p.val0.077362Originalnumberofobservations445Originalnumbe

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论