3心理测量3-测量的误差及其检验_第1页
3心理测量3-测量的误差及其检验_第2页
3心理测量3-测量的误差及其检验_第3页
3心理测量3-测量的误差及其检验_第4页
3心理测量3-测量的误差及其检验_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2本章主要内容:3.1 测量的误差测量的误差3.2 测量的信度(测量的信度(reliability)3.3 测量的效度(测量的效度(validity)43.1.1 测量误差的含义和种类测量误差的含义和种类3.1.2 测量误差来源测量误差来源3.1.3 真分数真分数53.1.1 测量误差的含义和种类测量误差的含义和种类 测量误差指的是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。如下示意图: (a) (b)(c)6 随机误差 所谓随机误差,是由与测量目的无关的、偶然因素引起的、而又不易控制的误差。它使多次测量产生不一致的结果,其方向和大小的变化完全是随机的(如图

2、a).系统误差 所谓系统误差,是那种由与测量目的无关的因素引起的一种恒定而有规律的效应。这种误差稳定地存在于每一次测量中。尽管多次测量的结果一致,但实测结果仍与真实值有所差异,结果不准确(如图b). 7 系统误差只影响测量的准确性、不影响稳定性。而随机误差既影响稳定性又影响准确性。3.1.2 测量误差来源测量误差来源 (P.38) 欲使测量准确可靠,必须减小误差。要减小误差,就要分析误差的来源。 误差来源主要是三方面:测量工具本身的问题、施测过程的问题、受测者的问题。8测验工具方面 测验工具本身造成的误差主要来源于测验的编制过程。 (1)其中项目取样影响最大。测验所要测量的内容是什么,测验的项

3、目能否代表这些内容是至关重要的。 (2)题目用词模棱两可或叙述不清也都会带来误差(系统误差)。9测验过程方面 P.38 产生测量误差的原因主要是一些偶然的因素。 P.38 (1)测试环境 (2)测试时间 (3)主试因素 (4)意外干拢 (5)评分记分10受测者(被试)方面 P.39 一般地说,受测量者的某种心理特质水平是相对稳定的,但是他在接受测量时的生理和心理状态会影响其水平的正常发挥。 (1)应试动机 (2)测验焦虑 (3)测验经验 (4)练习效应 (5)反应倾向 (6)生理变因11 在测量学中,真分数是指反映被试心理特质真正水平的那个数值,即无误差的值。测量误差越小,实得分数越接近真分数

4、,测验结果越可靠有效。真分数是一个理论上构想出来的抽象概念,在实际测量中是无法得到的。因为任何一种测量,无论它有多么科学,总会存在误差。我们只能通过改进测量工具、完善操作方法等办法来使测量到的实得分数接近真分数。 133.2.1 信度信度的含义的含义3.2.2 估计信度的主要方法估计信度的主要方法3.2.3 信度系数的应用信度系数的应用3.2.4 影响测验影响测验信度的因素信度的因素143.2.1 信度信度的含义的含义 一个好的测量工具对同一事物反复多次测量或由不同的人使用,其结果应保持不变。人们通常把测量结果的可靠性称为信度。 信度:是指测量结果的可靠性或一致性的程度。 在测量学中,信度用信

5、度系数r来表示。 根据造成测量随机误差的来源不同,信度的估计方法也有多种多样。使用时要注意它的含义及适用范围。153.2.2 估计信度的主要方法再测信度 test-retest reliability 用同一测验对同一组被试前后施测两次,两次测验分数之间的相关系数为再测信度。再测信度反映的是两次测验结果有无变动,因此又称稳定性系数。 用皮尔逊的积差相关公式计算:P.43 再测信度系数值较大说明两次测量结果较一致,测量工具比较稳定。16 使用再测信度的前提条件: (1)所测量的心理特质必须是稳定的。 一般来说,人的某些心理特质如智力、性格、气质等较为稳定,在较短时间内不容易改变,检验此类测验常使

6、用再测信度。 但,如儿童的识字量,是极不稳定的,只要两次施测的间隔时间稍长,儿童的识字量就会有很大变化。测量结果的不一致很可能是儿童的识字量有了变化,而不能说明测量工具不稳定。因此,再测信度不能用于这种情况。17 (2)遗忘和练习的效果基本上相互抵消。 (3)两次施测期间,被试在所要测查的心理特质方面没有获得更多的学习和训练。 再测信度受再测间隔时间的影响,它随间隔时间增长会逐渐减小。在报告一个测验的再测信度时,应说明两次施测的间隔时间。 另外,选择再测的间隔时间也很重要。间隔时间不能太长,一般不超过6个月。儿童比成人的再测间隔时间应更短。因为儿童在一个月甚至更短的时间里,心理的变化是很大的。

7、18复本信度 (Alternate-form reliability) 用两个等值测验对同一组被试进行测量,两个等值测验分数之间的相关系数便为复本信度。又称等值性系数。 用皮尔逊的积差相关公式计算 P.4319 所谓等值测验,即两个测验是测量相同的心理特质且在题目素材、数量题型、难度、区分度等方面均能逐一匹配的测验。两个等值测验可以连续施测,也可以间隔一段时间施测。采用复本信度的前提条件是必须能编制出两个等值测验。 它也有一定的局限性:它不能完全排除练习和记忆的影响,一些解题的策略等技能技巧会产生迁移效应;编制真正的等值测验(复本)相当困难,许多测验没有复本。20半分信度(split-half

8、 reliability) 用一种测验施测,然后把测验分成两个等值的一半,所有被试在两半测验上得分的相关系数(计算方法同前)便为半分信度。 由于计算出来的相关系数只是半个测验的相关系数,要得到整个测验的信度估计,还需用斯尔皮曼布朗公式加以校正 (P.45)。21 但前提条件是两个分半测验的方差必须相等。当两个半测验方差明显不等时,应采用弗朗那根(P.45)或卢仑(P.46)两个等价公式之一来估计半分信度。 计算半分信度时,首先遇到的问题是如何把测验分成等值的两半。一般采用奇偶分半法。当测验项目按难度顺序排列时,奇偶分半就可以得到等值测验。22 使用奇偶分半法时应注意,一组项目涉及同一个问题,例

9、如一组题目都与某段文章或某个图画有关,应把整组题目分在同一半,否则会高估信度值。 半分信度通常用在只能施测一次或没有复本的情况下。当一个测验无法分成对等的两半时,就无法使用半分信度。速度测验也不宜采用半分信度。23同质信度 同质信度又称内部一致性信度,是指测验中所有题目所测内容的一致性。这里“题目所测内容的一致性”含有两层意思,其一是指所有题目都测的是同一种心理特质,其二是指所有题目之间的得分具有较高的正相关。 值得注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其题目之间不具有较高的正相关,则不能认为它们具有同质性。24 半分信度实际上是对内部一致性的一种粗略估计方法,但因半分的方

10、法多种多样,用每种半分方法求得的信度值会有所不同。一般采取其它方法来估计内部一致性信度。(p.46、47) 即通过估计测验各项目的得分与测验总分之间的总体相关,去推断测验的内部一致性。25评分者信度 在一些测验如投射测验、创造力测验中,主观题的评分依赖于评分者的判断,不同的评分者评判结果往往不一致。这也是产生测量误差的重要来源之一。因此有必要考虑评分者信度。 评分者信度是指不同评分者对同一份测验评分的一致性。当测验结果是由评分者主观评定时,评分者信度尤为重要。 例:P.4826 在心理测验中,评分者信度的计算,通常是随机抽取若干试卷,由至少两位受过训练的评分者按计分规则评分,然后计算它们的相关

11、。相关越高即评分者信度越高,评分越一致,测验结果越可靠。若是2位评分者,可采用积差相关或等级相关方法求相关,若2位以上,就必须采用肯德尔和谐系数求相关(P.48)。27 信度系数是衡量测验好坏的一个重要指标。一个测验的信度系数要达到多少才被认为是可靠的呢? 一般认为,标准化的能力测验或成就测验的信度应达到0.90以上,人格测验的信度应在0.8以上,教师自编的学绩测验的信度能达到0.60以上,就应认为是较高信度的测验了。28 信度是测验过程中随机误差大小的反映。随机误差大,信度就低,随机误差小,信度就高。 因此,在测验过程中凡能引起测量随机误差的因素被试、主试、测量工具本身、施测情境等都会影响测

12、验的信度(前面已有所提到)。除此之外,被试样本团体的性质、测验题数的多少、测题的难度等也是重要的影响因素。29被试样本团体的性质 由于被试团体的平均水平和内部差异均会影响信度,在编制和使用测验时,一定要根据测验的使用目的来选择被试。 测验的长度 一般来说,测验题数越多,信度值越高。因为题数多,测题的取样范围就广,可以提高测题取样的代表性。题数多,测量的随机误差容易相互抵消。提高信度的一个常用方法是增加测验的长度。但必须适度,数量过多有可能引起被试的疲劳和厌烦,降低信度。30测验的难度 测验难度适中即难度水平越接近0.5,信度值越高。测验太难或太易,测验分数普遍偏低或偏高,测验分数的分布范围较窄

13、,会降低信度 。使测验中的所有测题的难度接近正态分布,并控制在中等水平。尽可能提高测题的区分度。31测量学中把测量结果的可靠性、一致性的程度称为测量的 。估计信度的方法主要有 、 、 、 等五种。信度用信度系数 r 来表示。所谓“再测信度”,又称稳定性系数,指的是 分数之间的 。 分数之间的相关系数,即为复本信度,又称等值性系数。 32同质信度又称内部一致性信度,是指测验中所有题目所测内容的一致性。这里“题目所测内容的一致性”含有两层意思,其一是指所有题目都测的是 ,其二是指所有题目之间的得分具有较高的 。 实际上是对内部一致性的一种粗略估计方法。评分者信度是指 对同一种测验评分的一致性程度的

14、估计。343.3.1 效度的含义和种类效度的含义和种类3.3.2 估计效度的主要方法估计效度的主要方法3.3.3 提高测量效度的方法提高测量效度的方法353.3.1 效度的含义和种类效度的含义和种类效度的含义 效度是指测量结果的有效性,即一个测验对它所要测量的特质准确测量的程度。 判断测验效度的高低,首先要看它达到测验目的的程度。如果能正确测量出所要测的东西,那么它就是高效度的测验。一个好的智力测验用来度量智力是有效的,如果用它来度量性格,则是无效的测验。 (可信的测验必定是有效的吗?)36 测量的效度除受随机误差的影响外,还受系统误差的影响。可信的测验未必有效,而有效的测验必定可信。 信度是

15、效度的必要条件。37效度的种类 效度的分类方法很多,目前被广泛采用的弗兰士和米希尔提出的分类方法。他们将效度分为: (1)内容效度 (2)构想效度 (3)效标(预测、实证)效度 这三种效度是从不同方面考察测验的有效性,在效度的评定中,不应该把它们看着是可以相互替代的等值效度,而是互为补充的。383.3.2 估计效度的主要方法内容效度 内容效度是指测验的项目对欲测的内容或行为范围取样的适当程度。 内容效度主要用于评价成就测验。因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。测验不可能包含某门课程的所有内容,必须从中选出一个有代表性的题目样本,编制测验,然后根据考试分数推断学生对

16、该门课程范围内知识技能的掌握情况。39 如果测题不是该范围内有代表性样本,或者过难或者过易,那么由此作出的推论,其效度必然很差。因此,在成就测验中,题目取样的代表性是一个重要的因素。这就是内容效度所涉及的问题。 内容效度也适合于评价某些用于选拔和分类的职业测验,但不适用于评价能力倾向测验和人格测验。40 内容效度的建立依赖于两个条件: (1)要明确测验的内容范围,并使测验项目均在此范围内。 (2)测题取样应具有代表性。即测验项目包含欲测内容的主要方面,且比例适当。 对内容效度的评估目前还没有令人满意的定量分析方法,主要采用逻辑分析方法。通常采用下面几种方法:41 (1)专家经验判断法 请有关专

17、家对测题与原定的内容范围的吻合程度作出判断。这是一种定性分析的方法。 为了使内容效度的确定过程更客观,可以采用如下步骤(P.54、16) 。 确定内容范围; 编制双向细目表; 制定评定量表;42 (2)复本法 两个独立的但取自同样内容范围的测验得分的相关(即复本信度)来评估内容效度。若两者相关高,表明它们具有内容效度;若相关低,这两者中至少有一个缺乏内容效度。43 (3)再测法 先将测验施测于某团体,该团体由于对测验内容了解甚少,因而得分较低,然后,让这个团体参加相关内容的系统学习,当达到较好地掌握程度时,再施测一次。如果成绩有较大的提高,说明该测验所测的内容确实是前面通过系统学习的内容,表明

18、该测验对所学的内容而言具有较高的内容效度。 这与信度检验中的再测信度有何不同?44 (4)经验法 检查不同年级的被试的测验总分和每题分数变化的情况。如果随年级增高,被试的总分和每题的通过率也随着升高,就可以推测该测验基本测量了教学的内容和目标。 总的来说,内容效度尚缺乏可靠的数量指标来衡量。45构想效度 构想效度是指测验对理论上的构想或特质的测量程度。 构想是指心理学理论所涉及的抽象且属假设性质的概念或特质如:智力、焦虑、自我、外向、攻击性等等。它们通常用某种可操作的特性来定义,并编制测验来测量。 46 例如:吉尔福特认为创造力是发散性思维的外部表现,是人对一定刺激产生大量的、变化的、独创性的

19、反应能力。根据这一理论,他认为创造力测验应重点测量人的思维的流畅性、灵活性和独创性。 若有足够的证据证明一个新编制的创造力测验确实能测到这些特性,那么该测验就是一个具有较高构想效度的创造力测验。构想效度主要用于评价智力测验和人格测验。47 用于评估测验的构想效度的方法有: (1)测验内法 通过研究测验内部结构,如测验的内容以及测题间的关系等来分析测验的构想效度。 首先,可以考察该测验的内容效度(P.55),因为有些测验对所测内容和行为范围的定义或解释类似于理论构想的解释,所以,内容效度高实质上也说明构想效度高。48 其次,考察测验项目的同质性。通过计算测验项目的同质性信度的方法来检测构想效度,

20、若该测验不同质,则可以断定测验的构想效度不高。 再次,了解分析被试的作答(反应)过程。若某一测题的作答除了反映所要测的特质外,还反映着其他因素的影响,则说明该题没有较好地体现理论构想,该题的存在会降低构想效度。 49 (2)测验间法(测验间相关分析法) 测量相同特质的不同测验彼此之间应有高相关。而测不同特质的测验彼此之间应呈现较低相关。分析不同测验间的相关性能从一个方面考察测验的构想效度。 评估测验的构想效度可将测验作比较。 考察新编测验与测同类特质且具有较高构想效度的其它测验之间是否相关。如果相关高,说明新编测验具有较好的构想效度。用这种方法确定的效度称为相容效度相容效度;50 考察新编测验

21、是否与测不同特质的其它测验无关,若相关低,说明该测验测量了与其它特质无关的心理特质。用这种方法确定的效度称为区分效度区分效度。 例如,羞怯测验的分数,应与一个人出现在聚会上的次数、团体中的发言多少以及父母和朋友的评价有高相关,而与度量其他构想的测验分数如空间知觉、推论能力等基本无关。51 (3)因素分析法 评估测验构想效度最为常用的方法是因素分析法。用新编测验进行测量,对测量结果进行因素分析,分析该测验实际上测到了几个因素或特质,它们彼此之间的相对比重如何,即各类测验项目与相应共同因素的相关,称作测验的因素效度因素效度。 专家曾用因素分析方法对艾森克人格问卷进行分析,结果表明艾森克人格问卷测量

22、了三种人格因素。52 (4)实验操作法 p.57 为了考察一个测验是否具有构想效度,我们可以根据实际经验选择两组被试,其中一组为实验组,即被专家认为是具有某种心理特征的人;另一组是对照组,他们被认定很少具有这种心理特征的人。然后用测验施测于这两组被试,并以有效的统计方法处理和比较这两组数据。看看该测验能否有效地区分这两组不同类型的被试,以便对测验的效度进行判断。此即实验操作法,又称实证分析法。其相应的效度证据,称为实证效度实证效度。53 为了考察一个测验是否具有构想效度,我们可以根据实际经验选择两组被试,其中一组为实验组,即被专家认为是具有某种心理特征的人;另一组是对照组,他们被认定很少具有这

23、种心理特征的人。然后用测验施测于这两组被试,并以有效的统计方法处理和比较这两组数据。看看该测验能否有效地区分这两组不同类型的被试,以便对测验的效度进行判断。此即实验操作法,又称实证分析法。其相应的效度证据,称为实证效度实证效度。54效标效度 效标效度是指测验能预测个体在某种特定情境中行为表现的有效性程度。也就是说测验对我们所感兴趣的行为能够预测到什么程度。 如果一个测验的预测与将来实际发生的情况非常一致,即预测准确性高,便说明它是一个好的测验。55 由于个体在测验上的表现应与某种外在标准进行比较,所使用的外在标准被作为考察测验有效性的参照标准,因而简称为“效标效标”。通常是指我们所要预测的行为

24、。 估计测验效标效度的首要条件是必须具有效标,效标的测量必须是有效可靠、客观适用的。在心理与教育测量工作中,常用的效标主要有学业成就、等级评定、临床诊断、特殊训练成绩、实际工作表现、以及其他现成的有效测验成绩等。56 效标效度可以分为同时效度和预测效度两种。 同时效度:若测验的效度资料是与测验分数同时搜集到的,称为同时效度。同时效度主要用于诊断现状,其优点在于能够用更简单、更迅速和更经济的测验分数来取代不易搜集的效度资料。 如效度资料可能是在医院连续几个星期的观察,而测验经证明与观察结果很一致,显然可以直接用测验分数来决策;(P.58)57 预测效度:若测验的效标资料需经过测验之后的一段时间才

25、能够搜集到,称为预测效度。 预测效度的信息大多用于人员的选拔、分类和安置。 效标效度的确定方法大体上可以分为以下几个步骤: 明确观念效标(P.58) 确定效标测量 考察测验分数与效标测量的关系58 估计效标效度常用的方法主要有: (1)相关法 计算测验分数与效标测量的相关。根据变量的性质不同,分别采用不同的相关计算方法(参见P.43)。59 (2)分组法 在被试接受某种测验后,让他们从事与测验所测的内容有关的工作,一段时间后,再根据工作成绩(效标)的好坏把被试分为两组。如果工作成绩好的那组原先的测验分数高,而工作成绩不好的那组原先的测验分数就低,说明该测验能较好的预测工作成绩,有较高的效度。 例,P.5960 (3)命中率法 当用测验作取舍决策时,决策的总命中率和正命中率是测验有效性的较好指标。 总命中率是根据测验选中的人当中工作合格(成功) 的人数,以及根据测验淘汰人当中工作不合格(失败)的人数之和与总人数之比(P.60)。 若总命中率高,则说明测验的效度高。这种测验在区别合格和不合格方面是有效的。 有些测验只关心被选中者成功有多少,而不关心被淘汰者中是否有成功者。这时测验的效度应该用测验的正命中率来评价

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论