关于效应量的计算_第1页
关于效应量的计算_第2页
关于效应量的计算_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于效应量的计算

虚拟无虚假检测(nhst)是心理学研究中常见的统计程序。然而,在NHST存在的70余年间,人们围绕其逻辑、功效等问题争议不断。虽然期间有不少观点主张取缔NHST,但近年来研究者们趋于认为如果合理利用NHST,同时辅以其他数据信息,NHST仍有其实用性。其中估计结果的ES大小是常见的改进方案之一。美国心理学会(AmericanPsychologyAssociation,APA)召集成立的统计推断专责小组曾呼吁研究者“无一例外地将ES估计值作为主要的结果呈现”,并强调这类数据有助于今后进一步的效力分析(poweranalysis)**和元分析。之后第五版和第六版APA写作手册也提醒笔者:“为了使读者意识到研究结果的重要性,有必要在结果部分对ES进行测量”。据Kirk(1996)总结,统计学家已经发展出了至少40多种ES估计指标,并对估计结果的报告和解释形成了一定规范。遗憾的是,这些方法学期刊中的知识对国内心理学工作者的影响似乎不大。国内研究报告中,基于NHST的数据分析仍占统治地位。对于这种不尽人意的情况,存在两种可能的解释:第一,应用工作者对NHST的结果尚存在一定程度的误读,如将统计显著性(statisticalsignificance)曲解为实际重要性(practicalsignificance)。第二,在有关ES的国外文献中,很多涉及高度专业的术语和操作,对那些有意愿作出改进的非统计专业人员来说,学习这些知识需花费不少精力。而国内仅有胡竹菁(2010)、权朝鲁(2003)等少数学者专门关注此问题,介绍ES的意义和基本估计原理。总而言之,ES在国内所获得的关注度与其重要性远不相匹配。有鉴于此,文章在整理国外已有成果的基础上,继续对ES的概念、计算操作、报告和解释原则加以阐述,旨在推进国内研究者的统计分析和数据挖掘工作。1nhst或结果的证据强度Cohen(1988)将ES定义为“总体中存在某种现象的程度”;具体到NHST体系中,ES即“虚无假设H0错误的程度”。这种错误程度可形象理解为虚无假设H0和备择假设H1所代表的两抽样分布分离程度或面积重叠程度。如图1所示,ES越大,H0偏离H1而犯错误的程度越明显,两分布的分离程度越高,重叠面积越小,反之亦然。这样,对ES的考察能告诉读者一些不同于NHST结果的信息。NHST仅能回答抽样所得均值差异“是否”由偶然误差引起,或结果“是否”具备统计显著性之类的方向性信息。如总体均值间的差异到底有多大,变量间的关联强度如何,自变量能在多大程度上解释因变量等,而这类证据强度信息正是人们在推断总体参数时所希望了解的。对每种具体的NHST而言,都有与其相适应的ES估计指标,如均值差异显著性检验中的g值,方差分析中的ˆη2等。这些统计量具备以下特性:1)尺度不变性(scalefree)。如果观测数据的尺度单位发生变化,ES估计值仍保持不变。2)绝对值大小与证据强弱相一致。ES指标的绝对取值是一个从零开始的连续变量,其大小与结果的实际重要程度相对。当虚无假设H0为真时,ES理想的估计值为零。3)非样本量依赖性。通常,ES指标较少受样本容量的影响,从而能为各列观测数据的关系程度提供更为稳定可靠的考察。在此,文章并不对所有的ES指标逐一介绍,而是在目前通用的分类框架下,探讨那些最常用且易于理解的估计指标,具体分为标准差异型和关联强度型两类。1.1差异es指标的计算顾名思义,标准差异型(standardizeddifferencestype)指标以标准化的差异单元来衡量总体ES。在某些情况下,测量单位本身具有实际意义,各组别原始分数差异(如实验组与控制组的日吸烟量之差)可直接用于反映ES大小,且它比那种标准化的测量指标所传递的信息更生动。但在心理学中,大多数研究现象较为抽象,其测量单位由人为设定,且同一构念的各种度量标尺会因操作定义的不同而难以直接比较。此时研究者必须借助标准化的差异指标来衡量效应大小,甚至比较不同参照体系中的ES。表1总结了均值差异显著性检验中,组间设计和组内设计情况下几种典型标准差异ES指标的计算公式及适用条件。SPSS软件尚未提供这些指标的计算机生成程序,因此还需研究者手动计算。总体而言,Cohen的d值、Glass等人的Δ值及Hedges的g值是三种常见的标准差异型ES估计指标。在具体计算中,这三种指标的分子相同,分母部分略有差异。不同的设计类型及统计前提下,基于不同的理论思考,各指标对总体标准差异单元的估计策略有所不同。另外,在选择指标时,除了关注表1所列条件,一般建议在满足方差齐性的前提下,更多地考虑g指标。因为相比d或Δ,g值对总体ES的估计偏差更小(lessbiased),估计更有效(smallervariance),且充分利用了全部的观测数据。鉴于该指标对参数的良好估计特性,表2进一步给出了g-t和g-r的转换公式。在整理那些缺乏足够描述信息(如未报告样本平均数或标准差)的二手数据时,以下公式尤为便利。然而,在大样本研究中,对d、Δ和g的计算结果相近,且估计偏差变得十分微小,选用何种指标争议不大。也正因如此,在大样本情况下,使用未经矫正的公式便足以估计总体ES。1.2非直径尺度或协调尺度关联强度型(strengthofassociationtype)或变异解释率型(variance-accounted-fortype)指标考察的是两个或多个变量间的共变(covariance)关系,在表达上可区分为非平方尺度(unsquaredmetric)和平方尺度(squaredmetric)两种形式。表3根据这两种尺度形式对各种经典NHST所对应的关联强度型ES指标进行了介绍,并给出这些指标在SPSS(15.0版本)中的操作途径。Rosnow和Rosenthal(2009)指出,在能使用非平方尺度ES指标的情况下,尽量不用平方尺度指标,因为平方后的数据很可能变得极小,进而使研究者将结果误判为不重要。并且,平方的过程也损失了结果的正负方向信息。即便如此,这种基于变异解释率原理的平方尺度指标通常比非平方尺度指标更易理解,因此它仍广受青睐。2es的区间估计:未来的中性关系把握在前人所提各种ES报告规则中,需要强调两点注意事项。首先,指明所计算的ES指标。如表1和表3所示,存在众多的ES估计指标。即使是相同NHST的同一设计类型下所得数据,也存在不止一种ES指标可供选择。对于某些指标(如d值),甚至存在不同的计算公式。为了使读者能进一步评判ES大小,研究者须明确指出所采用的具体为何种ES指标,在必要的情况下,还需出示详细的计算公式。其次,尽可能地呈现ES的置信区间。文中所介绍的各种指标公式均是出于对ES的点估计,而对ES的区间估计则将使读者额外获得估计精度(即抽样误差)方面的信息,这或许是目前研究结果的最佳报告方式。Cumming和Fidler(2009)曾详细介绍了ES置信区间的计算方法,另外也有专门的软件来估计ES区间,此问题另当别论。在明确了特定ES指标及其取值后,需要对总体ES进行推断,或对结果的实际重要性进行评判。表4是Ferguson(2009)总结的社会科学领域小、中、大三种参数水平所对应的各类ES指标临界参考值,这比Cohen(1992)提出的标准更为严格。就d值而言,Cohen早期所给小、中、大的ES判定标准分别为0.2、0.5、0.8;就rpearson而言则依次为0.1、0.3、0.5。该表意味着,对标准差异型指标而言,具备重要现实意义所建议的取值在2.70以上;如果计算的是测定系数R2,当其取值超过0.64时也可认为结果很重要,预测变量能解释结果变量中大部分(64%以上)的变异。然而,表中数据仅能视作一种粗略的参照标准。正如Thompson(2001

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论