心理辅导缺失数据管理的最佳实践_第1页
心理辅导缺失数据管理的最佳实践_第2页
心理辅导缺失数据管理的最佳实践_第3页
心理辅导缺失数据管理的最佳实践_第4页
心理辅导缺失数据管理的最佳实践_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、心理辅导缺失数据管理的最佳实践加布里埃尔lschlomer施瑞鲍曼和诺尔卡亚利桑那大学这篇文章敦促咨询心理学研究人员识别和报告丢失的数据处理,因为消费者的研究不能准确地解释发现不知道数量缺失的数据和模式或策略被用来处理这些数据。缺失的数据模式综述了,和一些常见的策略来处理他们。作者提供一个例子,数据模拟和评估3处理缺失数据的方法:意味着替代,多个归罪,完整的信息极大似然。结果表明,意味着替代是一个贫穷的方法处理缺失数据,而多个归责和完整信息极大似然推荐这种方法。作者建议,研究人员充分考虑并报告缺失数据的数量和模式和策略在心理咨询研究和处理这些数据,编辑建议研究人员期望。关键词:缺失数据、最佳实

2、践、咨询心理学、多个归罪,完整的信息最大似然缺失的数据出现在大多数研究行为科学(翘起的,2005;埃里森,2005;orme &里斯,1991;pigott,2001;史蒂文斯,1996;streiner,1996),apa特遣部队在统计推断(威尔金森&特遣部队在统计推断,1999)建议研究人员报告失踪的模式数据和统计技术用来解决问题这些数据创建。虽然适当的报告和处理缺失的数据对于理解至关重要的结果,这个元素从报告的研究数据分析通常省略(彭,哈维尔,宾利,&伊曼,2006;桑德斯et al .,2006)。与增加计算内存和处理速度、复杂现在可以通过对缺失数据的分析研究人员没有昂贵的专用软件。然

3、而,许多研究人员不知道报告的重要性和管理缺失的数据,和编辑基本上没有坚持作者提供这些基本信息。最佳实践与研究要求两个缺失的数据项目的基本信息,应该在每一个报道研究:(一)缺失数据的范围和性质和(b)程序用于管理缺失的数据,包括使用方法选择的基本原理。在本文中,我们首先检查最近完成的咨询psychologyto确定作者在这个杂志上有解决这两个项目。然后我们提出建议改善缺失数据报告的期刊文章。最后,我们提供一个对几种常见的管理方法缺失的数据为调整的方法和现在的指导方针处理缺失数据的具体情况研究。目前在网上的咨询心理学我们检查了所有的文章在最新的完整的卷(卷552008年)的咨询psychology

4、to定位文章定量数据分析报告。我们发现37(这样的文章46卷的文章),检查每一个决定缺失数据的比例是否报道,是否指定的方法来处理这些数据,是否方法提供了理论基础。只有14个文章报道缺失数据的百分比(其中一个指出没有失踪数据),尽管三其他物品丢失的数据的数量从其他资料可以推断。在11日的文章中,方法(陈述或推断)listwise删除;病例从分析与缺失的数据了。在一篇文章中,10%以上的情况下缺失的数据被删除listwise,但是中并未提及nonresponse项是如何处理的剩余的病例。另外,作者(年代)listwise的合理使用删除(9%的病例)指出,因为没有意义排除变量和之间的关系被发现感兴趣

5、的其他变量,下降情况下没有偏见的结果。listwise删除被用在另一项研究与解释缺失数据的数量并不可观,虽然没有指定的数量。在另一项研究中,意味着替代丢失的数据时使用小于预定的截止加布里埃尔lschlomer和诺埃尔卡,家庭研究和划分亚利桑那大学人类发展,施瑞鲍曼的残疾和心理教育研究,亚利桑那大学。作者要感谢黛博拉m卡斯珀托马斯c . debaca和阿什利c王对他们有用的评论本文的草稿。我们还要感谢保罗allison为他计算的建议吗本文的早期版本。通信有关这篇文章应该寄给雪莉鲍曼,残疾和心理教育研究,210069年邮政信箱,图森市亚利桑那大学阿兹85721 - 0069。电子邮件:sherib

6、.咨询心理学杂志2010美国心理协会2010年,57卷,1号,1 - 10 0022 - 0167/10 / 12.00美元doi:12.00 / a0018082schlomer、鲍曼和卡片率,例如果缺失数据的下降测量结果。在三篇文章中并未提及丢失数据,但建议所有与会者都包含在表所有的分析。在另一篇文章没有includens表,没有被提及的缺失数据文本;本研究涉及多个管理措施,它是很困难的想象,每一个项目完成了每一个参与者。在然而另一篇文章中,没有提到的丢失的数据文本,但是检查表显示,缺失数据的存在。中值替换使用在一项研究中,除了当一个大数量的丢失的数据点被发现在一个变

7、量中,这种情况下,回归归责方法;这些决定的理由是不提供的。一个额外的文章指出,缺失值成对地删除,没有解释这一决定。最引人注目的是,在只有一篇文章缺失数据的百分比报告,处理的方法这些数据描述,包括方法的理由。这个调查表明,尽管普遍缺失的数据全面考虑缺失的数据和建议,咨询心理学尚未采纳这些建议。我们建议研究人员报告缺失数据的数量在一项研究中,考虑的潜在来源和模式缺失的数据,并使用适当的方法来处理和报告缺失的数据分析。在附录中,总结了这些建议,我们详细说明这些建议下一个。最佳实践在报道缺失的数据丢失的数据量至少,研究者应该报告的比例缺失的数据(见附件)。正如报道的响应利率在考虑潜在的调查研究是很重要

8、的普遍性,丢失的数据量的报告参与者是很重要的。框架报告的数量缺失的数据,研究人员应该考虑两个常见的来源missingness。在很多研究中,将丢失的数据项nonresponse。这里,参与者完成一项调查,但是测试或其他措施不给回应每一个项目。在这种情况下,它是理想的报告失踪的比例为每一个项目的反应测量,可以包含在表连同手段和标准偏差等基本的描述性数据。然而,如果空间限制和物品的数量使这个选项不切实际,至少,缺失数据的范围应该报道(见附件为例)。当数据项级的比例缺失的数据不是报道的一篇文章中,我们鼓励作者在项目级别报告缺失的数据在网上补充表。第二个缺失的数据来源是参与者磨损。为在纵向研究,数据收

9、集多次从相同的参与者,有些人可能不可用数据收集的至少一个波。这可能发生摩擦无论是纵向自然的研究(如。,在一个学校调查中,一个孩子在第一年可能已经离开了学校第二年)或实验/准实验设计,采用多种措施(如。,一些参与者退出预防计划pre -和期末测验)。参与者摩擦也可以发生在摄取横断面设计。在这种情况下,参与者常常无法完成整个调查问卷由于疲劳或无聊。在任何设计中,这是至关重要的报告的比例在每个波,在整个磨损研究(见附录)。专家关于比例并没有达成共识缺失的数据,成为问题。谢弗(1999)推荐的5%,截止。然而,班尼特(2001)建议当超过10%的数据缺失,统计分析可能有偏见,和其他人(如使用20%。彭

10、,et al .,2006)。在显示一个特定的截止日期的人相比,我们相信两个因素确定确定missingness是有问题的。第一个是合成数据集有足够的统计能力检测的影响的兴趣。我们稍后将讲述nonstochastic归责方法部分和随机归责方法部分,现代归责程序保留的最大数量可能的统计力量,因此比删除方法。第二个需要考虑的因素是missingness的模式。我们接下来讨论,missingness说话的模式潜在的偏压对数据的影响。缺失数据的模式研究人员应该考虑,除了和数量缺失的数据来源,缺失数据的模式。这种考虑涉及以下问题:是数据失踪的随机的,还是非随机的和潜在的偏置?定量研究者扩展这个基本问题描述

11、三个missingness模式:完全缺失随机(mcar),随机缺失(3月),而不是失踪随机(nmar)。失踪的完全随机。有mcar数据没有缺失数据的模式和缺失值任何变量相关研究(歪斜着,2005;班纳特,2005;罗斯,1994)。如果一个检查一个大表的所有数据的数据集,丢失的数据点是随机分布的在桌子上。的含义完全随机missingness缺失数据的情况下,相当于整个样本的随机子集。在实践中,很难确定数据是否mcar;然而,小(1988)开发了一个综合的统计测试mcar(见附录)。谢弗和格雷厄姆(2002)认为mcar是3月的一个特例,描述下一个。失踪的随意。randomis误导的termmi

12、ssing不随机丢失,数据拟合这一模式至少不完全。3月数据的概率缺失的数据点相关数据集,但另一个变量与感兴趣的变量(allison,2001)。把不同,在3月,缺失数据与观测数据相关(另一个变量的数据集),但不丢失数据(graham& elek-fisk cumsille,2003;罗斯,1994;谢弗和格雷厄姆,2002)。在这种情况下,研究者必须包括观察变量的分析,以避免偏见。例如,在一个问卷完成的咨询心理学家,假设一个项目要求受访者表示他们的兴趣进行家长教育项目。关于这个项目反应失踪一些受访者表示在调查(另一个变量)是否有特定的培训deliver-2 schlomer,鲍曼和卡片荷兰国际

13、集团(ing)的教育项目。如果反应项询问父母教育的兴趣3月在每个组(培训与没有培训),然后他们失踪随机的,即使数据没有丢失以同样的速度集团(罗斯,1994)。换句话说,如果丢失的数据家长教育项目相关参与者的反应在培训经验变量(观察)但不相关感兴趣的家长教育水平变量(失踪),然后3月数据(歪斜着,2005)。这可能是那些没有培训取消了这个项目,但在两个模式是随机的组。可以区分mcar和mar计算一个虚拟变量代表数据是否丢失感兴趣的一个变量,然后检查这是否哑变量与其他变量在模型中(见附录)。如果这哑变量(missingness)无关其他变量,那么这个模式不被认为是3月而mcar或nmar(参见下一

14、节)。然而,如果哑变量确实是与其他相关变量,然后我们结论3月而不是mcar,虽然我们仍然不能完全排除nmar。这种可能性的nmar意味着研究人员不能确定3月或明确数据mcar。但是,正如我们描述下,研究人员通常认为3月或mcar没有相反的迹象。不是随机缺失。当有一个模式失踪数据,这样的可能性missingness分数有关相同的变量有参与者回应,这些数据nmar,也称asnonignorable nonresponse。最明显的很难确定nmar之间的联系missingness和参与者如何回应不能被评估,因为我们没有缺失值。所以,nmar成为概念的可能性考虑:就是参与者可能高(或低)的变量更有可能

15、缺失的数据(例如,跳过项或离开研究)?虽然无法实证评估nmar是不满意,这并不意味着我们可以忽视这种可能性。例如,我们可能会注意到,有一个高速度缺失的数据项询问参与者的年收入。可能的情况是,参与者与高收入更容易忽略这个项目,因为他们是不舒服与别人知道他们的收入。我们鼓励研究人员总是考虑nmar的合理性和承认这一点当这个模式是合理的可能性。处理缺失数据的方法有很多策略来处理缺失数据,和最常见的将这里描述。这些方法可以完成标准统计软件包(如sas spss),可用的免费软件(如。阿梅利亚,规范),或包专门为特定类型的分析(如。,mplus结构方程建模)。没有一个最好的策略;这一战略将取决于数据和分

16、析。我们描述这些方法与连续变量。特殊的问题出现在处理缺失数据分类,和处理这些问题超出了本文的范围。我们邀请读者参考其他专门的现有文献处理分类缺失的数据(如。爱丽森,2001;陈&astebro,2003;格雷厄姆,2003)。删除方法删除方法不一样的策略处理缺失的数据是对缺失数据的方法。这些方法通常不推荐,所以我们检查它们只是短暂的。listwise删除。在这种方法中,用例与任何失踪从分析值删除。这种方法有时是calledcomplete案例分析(pigott,2001),因为只有病例完整的数据保留。这是默认的程序(如许多统计项目。spss),但这通常不是一个明智的方法。这种策略的一个问题是,

17、如果例缺失值从那些没有以某种方式不同(即缺失值。他们不是mcar),然后剩下的情况下将会是一个有偏见的子样品的总样本和分析将因此产生偏见的结果(班纳特,2001)。一方面,前面提到的,当mcar缺失数据,观测数据本质上是一个随机的完整的数据子集。因此,参数来源于mcar listwise删除以下数据相当于那些来自完整的数据。另一方面,listwise删除会导致损失的统计能力。谢里鲍曼58-item调查收集的数据来自302名受访者进行主成分分析的目的这些物品。虽然大多数情况下丢失的数据失踪的只有一个条目,使用spss中的listwise选项了仅在154例被用于分析。换句话说,近一半的数据收集dr

18、opped-a相当大的损失数据和资源用于收集这否则大数据集。成对地删除。在这种方法中,最大数量的可用数据被保留,因此这种方法有时被称为可用的案例分析(pigott,2001)。情况下被排除在外从业务数据丢失的变量是必需的(班纳特,2001;罗斯,2001)。在一个相关矩阵,一个案例,是一个变量不会丢失的数据被用来计算变量之间的相关系数,另一个,但将被包括在所有其他的相关性。这意味着,不同情况下用于计算不同双变量的相关性。在数据集在前面节中,每个变量的病例数从271年不等302年。两两的问题删除来自使用不同的情况下对于每个相关,这导致困难比较相关性和经常无法使用这些相关性的多元变量分析(由此产生

19、的相关矩阵可以得到基本的矩阵代数)。nonstochastic归责方法以下方法归责(我们使用的策略当与adjectivenonstochasticwill变得清晰随机方法在随机归责方法部分)。imputationinvolves用一个合理的值代替数据失踪。基于平均替代或非难标准统计回归替换很容易完成软件。这些使他们易于使用,但他们都有必须考虑的问题。意味着替代。在这种方法中,缺失值估算与该变量的平均值的基础上常数的值的变量。该方法假设数据mcar和结果偏见意味着这种假设是什么时候吗3缺失的数据假的。此外,往往改动平均值为例减少变量的方差,这也变弱变量与其他变量的协方差。这个方法产生偏见意味着数

20、据3月或nmar和低估了方差和协方差(合成)的相关性。专家们强烈反对这种方法班纳特(allison,2001;2001;格雷厄姆et al .,2003;pallant,2007)。回归替换。回归方法包括基于常数数据回归方程预测的预期缺失数据的值。换句话说,失踪的值结果变量与其他变量的数据集作为预测因子。这种方法是最好的“猜测”的参与者会在失踪的变量。这种方法还在mcar或产生公正的手段然而,3月这种方法是有问题的,因为它产生偏见的方差和协方差,因此专家(如。,格雷厄姆等,2003)反对使用这种方法。模式匹配的污名。有两个其他的方法文献中所描述的,嫁祸于值基于匹配缺失数据的情况有类似案件没有失

21、踪数据:hot-deck和cold-deck非难。这些不需要专门的程序和使用调查数据(罗斯,1994)。然而,这些方法受到相同的缺点其他nonstochastic归责方法刚刚描述,它们不可避免地包含一个值减少变化的数据量。在hot-deck归罪,值估算通过寻找参与者匹配在其他变量缺失数据的情况。班尼特(2001)观察到,这种方法比listwise少偏见删除或意味着非难。然而,强有力的证据该方法的准确性没有生产(罗斯,1994)。进一步,在大多数的应用这种方法,连续的数据(分数衡量)陷入类别(如。高,中、低),牺牲信息(如。maccallum,张,传教士,&洛克,2002)。cold-deck归

22、责是一个从外部变体这一策略的信息源用于确定匹配的变量。的方法和hot-deck归责原则的问题也依赖于先前的研究和可用性外部信息。随机归责方法是有用的指出,这里有一个明显的区别归责之间的模型和分析模型。的归责模式是模型用于归罪于缺失值和可能包括变量不包括在分析中模型(如。、回归分析、方差分析、t检验;看到柯林斯,谢弗,讨论&金,2001年)。这些变量,都包含在归责模式而不是分析模型被称为asauxiliary变量。辅助变量在归责方法有用,因为他们提高的精度(a)的归责模式包括变量占缺失数据的模式和(b)改善预测包括变量的缺失值与缺失数据的变量(s)。在每个接下来的四个部分中描述的方法(以及回归归

23、罪前面描述的那样),归责模型和分析模型可能有所不同,取决于研究者包括辅助变量的归责模式。柯林斯et al。(2001)表明,包括辅助变量可以是非常有益的成本和风险小。随机回归。这种方法的一个变体回归方法的随机或随机值添加到估算预测价值。这些随机值集中在零,所以他们不系统地改变意味着;因此,他们提供相同的无偏意味着回归归罪一样。然而,这些随机值中引入方差估算数据,结果无偏方差估计,从而克服这种限制nonstochastic回归非难。1期望最大化(em)。该方法最大似然(ml)的方法之一。在所有毫升策略,观测数据被用来估计参数,然后使用估计丢失的分数。删除这些毫升策略演示了优越性,nonstoch

24、astic归罪,和随机回归归责方法(罗斯,1994)多元正态分布。新兴市场策略是基于一个递归过程:失踪的数据信息,估计是有用的各种参数,和估计参数信息是有用的找到最可能的缺失数据的价值(班纳特,2001)。因此,他们的方法是一个迭代过程有两个步骤每次迭代:期望步骤,过程是相似的回归非难。首先,启动参数的值(如。,这意味着,协方差)得到可用的数据。用于嫁祸于回归方法,这些最初的基础上值、缺失数据的值。当这一步完成后,在最大化步骤新参数的值计算与新估算连同原始数据观测数据。然后用期望过程重新开始一步,一直持续到估计的变化从一个很少迭代到下一个(即。,直到估计收敛,埃里森2001)。em方法提供了“

25、公正、高效”(格雷厄姆等,2003年,p . 94)等过程参数和特别有用探索性因素分析和内部一致性计算,不需要假设检验。因为探索性因素分析需要相对较大的样本大小,的能力推定无偏和保留所有丢失的数据参与者是一个巨大的优势,强烈推荐。他们的缺点是,标准误差和信心间隔不提供,因此需要获得这些统计数据额外的步骤。推理分析,这些都是必不可少的,他们可能是不够的。多个归责(mi)。这是最复杂的程序描述到目前为止。这是一个改善方法,因为它涉及的相似程度或差异数估算数据集作为附加信息的标准误差参数估计,从而解决方案是减少偏见比单独一个数据集与em估算(翘起的,2005)。具体地说,是随机抽样的随机元素正态分布

26、平均值为零,方差等于剩余,或无法解释的方差的回归方程归责。4 schlomer、鲍曼和卡片mi的第一步是创建一些估算数据集。三个五个罪名通常是足够的(1997年开始),与当前计算机速度和程序自动化这个过程中,几乎没有缺点选择更多。然后,在每个数据集,进行分析与参数估计(如。因子载荷,集团平均分歧,相关性、回归系数)和保存他们的标准错误每个数据集。最终结果是平均获得的参数在多个分析估计,无偏的参数估计结果。mi是最后的优势标准错误的这些参数的估计是基于(一)每个数据集的分析的标准错误和(b)色散参数估计的数据集。这些组合标准误差的估算数据集用于繁殖测试和/或置信区间的建设意义在这些参数估计。由会

27、计随机的每个归罪运行之间发生的波动,mi过程提供了准确的标准错误,因此准确推论的结论。参数估计的精度和准确度的标准错误让mi处理缺失数据的最佳选项之一。(如mi也优于基于模型的方法。,满在下一节中描述的信息极大似然)这很容易包括所有变量的归责算法然后选择一个子集的变量进行分析。另一方面一方面,mi与此,很难结合数据集对分析后的多个数据集生成。然而,在sas,这可以在proc mianalyze完成(稍后解释软件sas和下节在线补充材料)。完整信息最大似然(fiml)。fiml是一个直接基于模型参数估计方法的缺失数据(olinsky、陈&哈洛,2003)。的fiml方法计算casewise与观测

28、似然函数变量为每个案例(见阿尔布克尔,1996年,技术细节)。与mi,fiml并不归咎于失踪到新值创建数据集(因此不是技术上的归责方法)而是估计参数的基础上可用完整的数据以及隐含的价值观缺失的数据考虑到观测数据。例如,考虑两个变量x安迪,数据丢失yvariable andxandyare在某种程度上相关。从概念的角度来看,fiml本质上是“借”ofy信息可能的值的基础上,有条件的期望ofygivenx(恩德斯&bandalos,2001)。这个过程在概念上类似于回归非难和产生结果类似于em和mi(&麦金农graham霍弗尔,1996;olinsky et al .,2003)。fiml已经在归

29、责技术,使这两个主要优势过程吸引研究人员:(一)归责过程进行了对比和分析,在相同的步骤(b)与em,fiml产生准确的标准错误通过保留样本大小。模拟研究比较与其他归责fiml技术证明fiml过程产生近似无偏结果在各种参数估计,特别是在小样本大小(其他),产生结果类似于em和mi(恩德斯& bandalos,2001;格雷厄姆et al .,1996;olinsky et al .,2003)。鉴于这些属性,fiml是首选方法之一来处理缺失数据。管理缺失的数据,进行分析的能力比多个归罪一步使这种方法要简单得多。此外,估计准确的标准误差和的能力置信区间通过保留样本的大小是不同的优势。另一方面,重要

30、的是要确保变量,预测缺失值包含在分析模型;如果他们不包含在感兴趣的模型,然后他们必须添加fiml执行以及心肌梗死或em(graham,2003)。软件从这些描述像人们所预料的那样,最好的方法改动失踪的值是计算密集型的,和一个所以肯定没有尝试这样的努力没有专门的软件。幸运的是,存在一系列的软件缺失数据的归责。这里我们简要回顾一下两个流行的商业软件包的功能(spss和sas)专用包(mplus)和两个免费下载程序专门设计用于处理缺失数据(阿米莉亚和格兰vaccspssspss的基本版本(我们评估版本16.0;注意现在spss pasw)可以用来计算百分比失踪而计算基本的描述性信息(输出报告有效的数

31、量,常数的情况下,可以使用计算总额的比例情况下)。评估的模式missingness-specifically mcar之间的实证评价和3月(回想一下,nmar必须评估概念上)你可以创建一个虚拟变量通过选择“重新编码不同的选择从下拉菜单中,将变量”缺失值1和其他值为0,然后比较这些值在其他变量数据集。一旦研究员确定缺失数据的模式,然而,基地吗版本的spss提供了可怜的选项来处理缺失数据,只包括listwise和成对地删除或替换。spss的确提供了一个额外的包,缺失值分析(mva)模块,在额外的成本。这个模块提供了简化的步骤来确定missingness和探索missingness模式(使用小的,1

32、988年,missingness测试)。它还提供了更多可接受的归责方法,包括随机回归和非难。的伏安模块版本17现在包括一个mi的选择。的时候撰写本文时,我们没有选项,因此无法评估评论这个模块的可用性。情景应用程序sas-stat系统(我们评估版本9.2)允许相同的百分比计算(即失踪。感兴趣的,请求变量描述性统计),评价失踪(即数据模式。,创建虚拟代码区分mcar和mar)和spss基本系统。然而,情景应用程序(即包含两个过程。处理器),提供了更多选择spss,即使有额外的mva选项。首先,proc mi(见sas研究所,2008年,页。3738 -3831)提供了更多的算法对于数据归责,包括随

33、机回归,em,5缺失的数据更复杂的方法称为马尔可夫链蒙特卡洛算法。2proc mi还允许用户指定多个罪名(mis)。创建多个估算数据集然后用proc mianalyze进行分析(见sas研究所,2008年,页3833 - 3884),与这些多个执行很多常见的分析估算数据集和结合这些结果提供无偏的参数估计与准确标准错误。mplusmplus(我们评估版本5.21)是一个统计建模项目主要用于评估结构方程模型,虽然足够灵活,能够执行最基本的(例如。(例如,回归)和复杂。分类数据,潜在类别分析)分析(muthen & muthen,1998 -2007)。mplus也有能力进行mi和fiml。从5.0

34、版本开始,当命令typemissing成为默认的过程分析数据缺失值。在这种默认和使用estimatorml(最大似然),缺失的数据fiml处理,这使得它容易的新用户程序来实现。应该注意,mplus不是只有程序fiml功能;其他专门的软件如阿莫斯和采(结构方程建模)和高级别(多级建模)也可以与fiml估计参数。免费下载软件阿梅利亚ii(honaker、王&布莱克威尔,2009)和规范(版本2.02;网站还包含包含在参考列表类似的包missingness可能的其他类型的数据在场)免费下载的程序,执行mi。虽然有一些小的差异可用性和潜在的污名算法这两个项目,对于大多数用户来说非常相似的目的。两个程序

35、都可以使用创建多个估算数据集,并结合参数估计这些多个数据集,但必须执行大多数分析这些估算数据集(获得的参数估计在每个估算数据集)在单独的程序。阿梅利亚接口与r(免费),与s-plus和标准接口(必须购买),使这些多个分析合理这些程序的简单用户。总结五个软件包,我们简要回顾了没有捕获的全部范围的可能性。几乎每一个统计分析包有一些功能总结的失踪数据、评估missingness模式和执行某种类型的缺失的数据归责。可能软件中最可变性包来自归责过程。我们建议使用软件,至少执行随机回归归责,他们是更好的。最好的方法是mi和fiml程序,虽然这些可以更难以使用和/或不是包括在一些包(如。,sas这些功能;s

36、pssmi选项添加到mva模块版本17)。幸运的是,免费下载的软件可以执行mi即使平常软件的选择不。一个说明方法为了说明上述方法之间的差异,我们模拟一个数据集的60个参与者。相对较小的样本大小选择反映了适度的样本大小的咨询心理学的研究。提供上下文对于这个例子,我们可以想象,这些数据来自60岁以下的客户21年大型大学心理咨询中心被称为院长咨询的学生由于侵犯未成年人饮酒。虚拟咨询中心随机分配的学生两种治疗方案之一,它使用的危害之一还原方法,和其他基于12步模型。(即结果。因变量)可能分数衡量清醒的自我效能感。在这个虚构的示例中,我们参与者的态度也有一个衡量权威更高的分数代表更大尊重权威。这些虚构的

37、数据用spss,这样生成的特征数据。我们指定的大小产生影响通常被认为是大型(r.50)组(伤害的影响减少与12步)的结果(清醒的自我效能感)。然而,我们也创造了协变量(态度)与大型协会组(r . 50)和一个非常大的相关的结果(r.70)。这些参数估计可以被确认的数据集可以在在线补充这篇文章中,“说明样本的语法分析”(请参阅在线补充材料)。我们接受这个虚构的数据集各种模式和missingness率来说明不同结果。具体来说,数据是(a)随机删除(mcar)利率为10%,10%,和50%或(b)删除概率的基础上协变量的值(mar)的缺失值的结果强烈的可能性负相关(r -.70)协变量,3月的利率考

38、虑missingness的10%、20%和10%。这3月的情况代表了一个似是而非的场景在我们的说明,它是可能的学生用更少的尊重权威和强制参加咨询不太可能完成的测量这些项目的研究比那些有更多的尊重权威。数据被删除,之后失踪的数据处理三个策略:意味着替换(一个贫穷的处理方法缺失的数据),心肌梗死,fiml(mi和fiml推荐方法)。利用spss归咎于对的意思替代分析。mi,10个罪名被用于sas、协变量,占missingness的机制包括在归责模式。因为fiml是基于模型的,我们使用一个饱和关联建模技术3(见格雷厄姆,2003年)包括协变量(权威)的态度预测(条件)和结果变量在模型中。使用fiml

39、 mplus被用来估计参数。2马尔可夫链蒙特卡罗(采样)算法是数学复杂,充分的描述超出了本文的范围(见sas研究所,2008年,页。2008 -3784)。获得优势超过他们缺失的数据模式,是任意的,而不是单调(见sas研究所,2008年,p . 3766)。3协变量是包含在模型通过允许它共变预测和剩余的结果。6 schlomer、鲍曼和卡片对于每个数据集,我们回归结果(清醒的自我效能感)到集团来评估不同的大小参与者接受康复治疗(编码为0)那些收到的伤害减少治疗(编码为1),每组30参与者。请注意,这是回归分析相当于执行一个独立samplest测试中两组比较结果(见如。科恩,1968);unst

40、andardized回归系数在这里报道int和相当于意味着差异测试。比较每个方法在不同的相对有效性(10%、20%、50%)和类型的missingness(mcar mar)总结在表1。在表1和在随后的讨论中,偏见在parametersis定义为不同的百分比完整的数据结果失踪(0%)和使用结果不同的方法处理缺失数据的六种不同数据集与缺失的数据。差异转化为百分比来帮助读者当比较不同方法。结果意味着替代。表1中可以看出,意味着替代了回归系数和相当大的偏见标准错误,即使在低水平的missingness,并系统地低估了平均值差异和标准错误。令人惊讶的是,意味着替代倾向于执行更糟糕的是,平均而言,在mc

41、ar(回归coefficient27.55%;标准error13.42%)与3月相比(回归系数25.00%;标准error9.59%)。这可以归因于异常表现不佳mcar 50%。条件下极度缺失的数据(例如50%),意味着替代执行极其糟糕的mcar和3月的情况整体导致45.31%的偏差计算回归系数和23.23%偏差在标准错误。此外,意味着替换更常见的大量缺失的数据(如。,不含缺失数据50%)继续导致相当大的偏差回归系数(16.76%)和标准错误(5.64%)。多个归责。正如所料,mi表现良好常见的大量缺失的数据,在严重的相当不错大量的丢失的数据。在常见的大量缺失的数据(如。、10%和20%),心肌梗死导致平均偏差为11.42%回归系数和标准误差为7.3%。缺失的数据极端时,回归系数是有偏见的12.05%和12.05%的标准误差平均水平。比较mcar下的偏见与3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论