版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
测量信度与随机误差控制心理测量第1页,课件共61页,创作于2023年2月学习目标:1.什么是信度?信度与测量随机误差的关系?2.信度的统计定义?3.描述信度的指标有哪些?4.分析测验信度应注意哪些问题?5.信度的标准与作用?6.经典测量理论信度系数的估计方法。7.提高测量信度的主要方法有哪些?第2页,课件共61页,创作于2023年2月第一节信度概述解答本章学习目标中的第1-5个目标。第3页,课件共61页,创作于2023年2月一、信度与测量误差1.经典测量理论的假设式中,X为观察分数,T为一般真分数,E为随机误差分数,V为目标真分数,I为非目标真分数(系统误差)。
第一节信度的概述第4页,课件共61页,创作于2023年2月一、信度与测量误差2.信度的定义测量追求的初步目标:T占X的比例越大越好。测量追求的终极目标:V占X的比例越大越好。第一节信度的概述当T占X的比例很大时,那么测值就会是稳定的。一般来说,稳定的测值是可靠的、可信的,因此,信度可被认为是测量结果的稳定性程度。第5页,课件共61页,创作于2023年2月一、信度与测量误差2.信度的定义第一节信度的概述信度(reliability)是指在不同时间,使用同一测验,或者使用两个不同项目的等值测验,抑或在其他不同的测试条件下,对同一组被试实施两次或多次测试所得分数的一致性。测验信度表示测验分数中个体差异可归因于所测特质中“真实”差异的程度,以及可归因于随机误差的程度。第6页,课件共61页,创作于2023年2月二、信度的统计定义1.经典测量理论假设的推论第一节信度的概述第7页,课件共61页,创作于2023年2月二、信度的统计定义2.信度的统计定义定义1:信度是被试团体真分数方差与实得分数方差之比定义2:信度是被试团体真分数与实得分数相关系数的平方定义3:信度是一个测验X(A卷)与它的任意一个平行测验(B卷)的相关系数第一节信度的概述第8页,课件共61页,创作于2023年2月三、描述信度的指标1.经典测量理论的信度系数信度系数是表示测量结果的稳定性程度的指标。记为:第一节信度的概述信度系数的值域:[0,1]没有百分之百可靠的测量,因此,rXX=1只是理论上的值,实际当中是不会存在的。?相关系数的值域是[-1,+1],信度系数的值域:[0,1],为什么?第9页,课件共61页,创作于2023年2月三、描述信度的指标1.经典测量理论的信度系数(1)重测信度(test-retestcoefficients),是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的相关系数。(2)复本信度(alternative--formcoefficients),是指两个平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。(3)内部一致性系数(internalconsistencycoefficients)也叫同质性信度(homogeneityreliability),是指测验内部所有题目间的一致性程度,主要的计算方法有KR20公式、KR21公式、克龙巴赫α系数,以及荷伊特信度等。第一节信度的概述第10页,课件共61页,创作于2023年2月三、描述信度的指标
(4)分半信度(split-halfreliability)指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程。(5)评分者信度(scorerreliability)指的是多个评分者给同一批人的答卷进行评分的一致性程度。第11页,课件共61页,创作于2023年2月三、描述信度的指标2.经典测量理论的测量标准误测量标准误差(standarderrorofmeasurement)是测量误差的假设分布的标准差。用下列公式能够容易地计算测量标准误差:第一节信度的概述式中,SDt表示测验分数的标准差,rXX表示信度系数。3.概化理论的概化系数(generaliabilitycoefficients)4.IRT的测验信息函数(testinformationfunction)第12页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题1.针对测验类型选用恰当指标(1)传统的信度概念适合于常模参照测验,这种测验的主要目的是为了区分个体在特定特征上所表现出的差异性。个体在测验分数中表现出的差异范围越大,该测验的信度也就越高。第一节信度的概述第13页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题1.针对测验类型选用恰当指标(2)标准参照测验(内容参照或领域参照测验)的目标是要确定被试是否达到或未达到某个标准,从而将个体分到不同的组别:“达标”和“未达标”。这种情况下,传统的重测信度、复本信度以及内部一致性系数就不再适用。标准参照测验可根据具体情况分别采用如下指标:适用于简单的掌握与否的两分决策,即所有的分类误差都被认为同样严重而不管它们离开临界分数的距离。在这种情况下,可以使用平行型式进行再测,以便得出在两次测验上得到相同决策的个体的百分比,进一步可算得分类一致性系数(coefficientofagreement)。
第一节信度的概述第14页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题1.针对测验类型选用恰当指标不仅仅关心对掌握者和未掌握者的质的区分,同时也在分数连续体上描述了关于掌握和未掌握的量的差异。这类信度主要采用K2(X,T)指标:
第一节信度的概述式中,、分别为被试总体在测验上的真分数方差和观测分数方差;、分别为真分数和观测分数的平均值;ng为测验题目数,c是以做对题目百分比表示的区分标准。第15页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题1.针对测验类型选用恰当指标K2(X,T)值越大,说明观测分与区分标准分数(划界分数)之间的差异代表真分数的对应差异量的可能性越大,因而观测分与划界分数的差异就越能反映真实能力上的差异。换言之,测验就更可信。就单个测验的结果而言,K2(X,T)的计算公式如下:第一节信度的概述式中,是由库德-理查德KR20公式求出的信度系数,其余符号意义同前。第16页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题1.针对测验类型选用恰当指标(3)在纯速度测验(speedtest)中,个体差异完全取决于速度,此时,就无法恰当地解释施测一次测验的信度系数。如果条件许可,可采用重测法或是复本法,这是比较合适的。分半法也可以使用,但是此时的分半是按时间分半,而不是按照项目来分半。也就是,两半分数必须根据分别规定时间的两个半测验。例如,可以把奇偶项目分别印制在两张卷上,每组项目的用时为全测验的一半。这种方法等于在同一时间实施了两个等值测验。
第一节信度的概述第17页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题1.针对测验类型选用恰当指标还有一种替代实施两个半测验的方法,就是把总时间四等分,算出每段时间的分数。这种方法简便易行,施测时每当主试发出事先安排的信号,就要测验参加者在他们正在做的项目上打个记号。然后,把第一段和第四段时间内答对的项目数相加,得出一个半测验分数;把第二段和第三段时间内答对的项目数相加,得出另一个半测验分数。四段时间如此相加,往往可以平衡练习、疲劳和其他因素的累积效应。特别是当项目难度水平前后一致,而不是逐渐增加时,这种方法尤其令人满意。第一节信度的概述第18页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题2.信度的报告(1)任何一个信度系数是针对引起测验误差的特定因素而言的。有多少种影响测验分数的条件,就有多少种测验信度,因此,报告信度时,应该详细说明测试样本的特性和所报告的信度类型。在信度报告时只是报告信度系数,而缺乏说明估算系数的方法细节,推导系数时所用的被试群体的特征,以及获取数据当时的施测条件,等等,这种信度报告是不合格的。
第一节信度的概述第19页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题2.信度的报告(2)没有一个单一的、最优的方法来量化信度,没有一个单独的指数能恰当地表达所有的相关事实,没有一个单独的研究方法在所有的情形下都是最佳选择,且测验编制者也不应局限于将某一种方法运用到任何一种测量手段上去。所以,测验编制者在报告测验信度时,可以从多方面予以报告。
第一节信度的概述第20页,课件共61页,创作于2023年2月四、分析测验信度应注意的问题2.信度的报告(3)提供详细的信度分析报告,让了解相关知识的人能够对结果进行评定,并能够重复信度分析的过程。
例如,简单说一句“某测验的信度是0.92”是不能接受的。较恰当的说法是“某测验的信度系数为0.92,该数值是通过计算一份能力测验间隔两周两次测试成绩的相关系数得出的。数据来源是从某市随机抽取的500名小学5年级的学生施测……”。第一节信度的概述第21页,课件共61页,创作于2023年2月五、信度的标准与作用1.信度是评价测验质量的重要指标之一。测验类型
信度系数
低中高学业成就测验0.660.920.98学术能力测验0.560.900.97特殊能力倾向测验0.260.880.96人格测验0.460.850.97兴趣测验0.420.840.93态度测验0.470.790.98注:表中数据来源,LewisR.Aiken:Psychologicaltestingandassessment(eighthedition),AllynandBacon,Inc,1994.第一节信度的概述第22页,课件共61页,创作于2023年2月五、信度的标准与作用2.信度是测量过程中所存在的随机误差大小的反映。第一节信度的概述例如,我们已知高考文科试卷的总信度rXX
=0.965,文科考生总分的标准差为53.42,那么,文科考试成绩的标准误为:3.信度可以用来解释个人测验分数的意义——测量标准误。如果某生的考试成绩为495分,在置信度为0.95时,其真分数的置信区间为:第23页,课件共61页,创作于2023年2月五、信度的标准与作用4.信度可以帮助进行不同测验分数的比较。第一节信度的概述考察两个分数的差异是否可靠,是否真有差异的问题。比如,某人的物理成绩是否真的优于化学?某人的数学技能本学期是否真有进步?某人在韦氏智力量表上操作智商与言语智商的差异是否真有显著意义等。
当两测验的方差相等时,差异分数的信度系数可用如下公式求出:式中,rXXdiff是差异分数的信度系数;rXX和rYY是两个测验各自的信度系数;rXY是两测验间的相关系数。第24页,课件共61页,创作于2023年2月五、信度的标准与作用4.信度可以帮助进行不同测验分数的比较。第一节信度的概述差异分数的测量标准误可用如下公式求出:式中,SEdiff是差异分数的测量标准误;rXX和rYY是两个测验各自的信度系数;SD是两测验间使用的相同的标准差。在比较分数之前,必须将两个测验分数转为具有相同量表的标准分数。第25页,课件共61页,创作于2023年2月五、信度的标准与作用4.信度可以帮助进行不同测验分数的比较。第一节信度的概述例如,在韦氏成人智力量表中,言语和操作分测验的信度为0.97和0.93,而它们的智商的平均数为100,标准差为15,故言语和操作智商差数的标准误为:因为4.74×1.96=9.29,因此,言语和操作智商相差10分时,在0.05水平上,我们说存在显著差异。若要在0.01水平上作出差异显著的结论,就要相差13分。第26页,课件共61页,创作于2023年2月第二节信度的种类
与评估方法详细介绍第一节中提出的各种信度估计方法的计算。第27页,课件共61页,创作于2023年2月一、重测信度1.含义同一个测量工具在两个不同时间对同一组被试施测所得结果的一致性程度。重测信度主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,他反映了测量工具的结果受到时间间隔因素影响的大小。一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,重测信度系数就会越大。重测信度系数较大时,说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。第二节测验信度的种类与评估方法第28页,课件共61页,创作于2023年2月一、重测信度2.评估方法重测信度的大小可以通过计算测量工具的重测系数(test-retestcoefficient)或叫稳定性系数(coefficientofstability)来标志。具体来说,就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数。第二节测验信度的种类与评估方法第29页,课件共61页,创作于2023年2月一、重测信度3.应用条件测量工具所测量的个体心理特质在时间上应该是相对稳定的。测量工具所测量的个体心理特质应该不存在明显的练习效应和遗忘效应。在两次施测间隔期间不应该进行专门的训练和培训,以保证重测信度反映的是随机因素的影响效应。第二节测验信度的种类与评估方法第30页,课件共61页,创作于2023年2月一、重测信度4.使用重测信度时需要注意的问题两次施测时间间隔的长短会影响重测信度系数估计值的大小,因此,在报告重测信度系数时应该报告间隔的时间长度。应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度,以确定前后两次施测时间的间隔究竟应该多长比较合适时,不应该随便选择间隔时间的长短。第二节测验信度的种类与评估方法第31页,课件共61页,创作于2023年2月二、复本信度1.含义两个平行的测验(复本测验)测量同一批被试所得结果的一致性程度。复本信度反映了由于题目的不同以及时间间隔所导致的测量误差。平行测验或复本测验指的是两个在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似的测验。也就是用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。第二节测验信度的种类与评估方法第32页,课件共61页,创作于2023年2月二、复本信度2.评估方法复本信度的估计过程就是计算同一批被试在两个平行的复本测验上所得分数的相关系数,也叫作等价系数(coefficientofequivalence)。测试设计:同时测试和延时测试。同时测试是在同一个时间段内进行测试,而延时测试则是在两个时间段进行测试,同时测试可能会存在作答疲劳的效应,而延时测试则可能会存在学习或培训效应。第二节测验信度的种类与评估方法第33页,课件共61页,创作于2023年2月二、复本信度3.应用条件要构造出两份或两份以上真正平行的测验;计算复本信度需要对同一批被试测试两份平行测验,这就需要掌握一个合理的时间安排。应该尽量在测试结果报告中,详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。第二节测验信度的种类与评估方法第34页,课件共61页,创作于2023年2月三、内部一致性信度1.含义内部一致性信度主要评价了测验各随机组成部分之间是否测量了相同的心理特质,因此,它反映的是题目内容的抽样一致性程度。具体估计方法主要包括分半信度评估法、库德-理查森信度评估法、克龙巴赫Alpha系数评估法。与重测信度和复本信度不同,在估计测验的内部一致性信度时,只要用同一个测验对一批被试测试一次。第二节测验信度的种类与评估方法第35页,课件共61页,创作于2023年2月三、内部一致性信度2.分半信度含义我们总是可以把一个测验的所有题目随机地划分成对半的两个部分,然后估计所有被试在这两个部分题目上得分的一致性程度,这样得到的测验一致性估计称为分半信度。分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。第二节测验信度的种类与评估方法第36页,课件共61页,创作于2023年2月三、内部一致性信度2.分半信度评估方法计算出被试在测验两个随机组成部分的题目上得分之间的相关系数。由于在用分半测验得分计算相关系数时,测验题量被缩短,信度系数需要通过以下这个公式对分半相关系数进行矫正而得到。为两个分半测验之间的相关系数,为完整长度测验的信度系数估计值。第二节测验信度的种类与评估方法第37页,课件共61页,创作于2023年2月三、内部一致性信度2.分半信度评估方法另外一个估计分半信度系数的方法是Rulon公式,他只需要计算所有被试在两部分测验上得分之差的方差以及总分方差:式中,为完整测验的信度估计值,为被试在两部分测验上得分之差的方差,为完整测验总分方差。
Rulon公式中分子方差反映了由于题目不同等条件带来的误差方差,他与总方差之比反映了误差方差在总方差中所占的比例。第二节测验信度的种类与评估方法第38页,课件共61页,创作于2023年2月三、内部一致性信度2.分半信度使用时需注意的问题在估计测验的分半信度时,虽然要求把一个测验的所有题目随机地划分成对半的两个部分,但是在实践中对测验分半时,为了尽量减少无关因素的影响,通常需要考虑题型、题分、题目测试先后顺序等因素的平衡问题,比如按照题目顺序奇偶分半就是一个经常选择的方法第二节测验信度的种类与评估方法第39页,课件共61页,创作于2023年2月三、内部一致性信度3.库德-理查森信度含义在估计分半信度时,把一个测验的题目分成两半的方式是非常多的。而每种分半方式得到的信度估计值总会存在一些差异,但我们无法知道究竟哪种分半结果所得到的信度估计值是最合适的。估计所有可能的分半信度系数的平均数,作为完整测验的内部一致性最佳估计值。第二节测验信度的种类与评估方法第40页,课件共61页,创作于2023年2月三、内部一致性信度3.库德-理查森信度评估方法:所有分半信度系数的平均数的估计方法。第二节测验信度的种类与评估方法第41页,课件共61页,创作于2023年2月三、内部一致性信度3.库德-理查森信度使用条件Kuder-Richardson信度系数的估计只能针对1、0记分题型,对于其他题型需要使用更加一般化的估计方法。K-R21公式假设测验中所有项目的难度是相同的。Kuder-Richardson信度反映的是项目间一致性程度,他会严重地受到测验所测行为特质的同质性程度的影响。第二节测验信度的种类与评估方法第42页,课件共61页,创作于2023年2月三、内部一致性信度4.Cronbach’sAlpha系数含义是一种比Kuder-Richardson方法更加一般化的信度估计方法,它可以针对各种记分方式的题型进行估计。第二节测验信度的种类与评估方法第43页,课件共61页,创作于2023年2月三、内部一致性信度4.Cronbach’sAlpha系数评估方法第二节测验信度的种类与评估方法公式中,k是测验题目个数,是被试在题目i上得分的方差,是被试测验总分方差。第44页,课件共61页,创作于2023年2月三、内部一致性信度4.Cronbach’sAlpha系数使用条件可以估计各种记分方式的测验内部一致性信度系数,是更一般化的测验内部一致性信度系数估计方法。第二节测验信度的种类与评估方法第45页,课件共61页,创作于2023年2月四、评分者信度1.含义在评价通过主观评分方式得到的分数时,我们必须了解不同的评分者在评价被试作答反应时给的分数值的一致性程度(信度)。一般的客观型题目在评分时很少出现误差,然而,对于诸如作文测验、语言类测验、以及其他的评价性测验(如人格特质评级、投射测验评分等),这些测验类型的评分过程就显得非常主观。第二节测验信度的种类与评估方法第46页,课件共61页,创作于2023年2月四、评分者信度2.评估方法两个评分者时:计算这两个评分者评定分数之间的相关系数。多个评价者评价同一批被试:计算和谐系数。第二节测验信度的种类与评估方法第47页,课件共61页,创作于2023年2月五、信度系数及其估计方法小结1.测试次数和测试卷份数与信度系数估计方法第二节测验信度的种类与评估方法测试次数测试卷份数1份2份1次分半信度Kuder-Richardson信度Alpha系数复本信度(同时测试)2次重测信度复本信度(延时测试)第48页,课件共61页,创作于2023年2月五、信度系数及其估计方法小结2.各种信度估计方法的误差方差来源第二节测验信度的种类与评估方法复本信度(延时测试)复本信度(延时测试)重测信度复本信度(同时测试)复本信度(延时测试)分半信度Kuder-Richardson
和Alpha系数评分者信度时间间隔题目内容时间间隔与题目内容题目内容题目内容与心理行为特质的同质性评分者间差异第49页,课件共61页,创作于2023年2月第三节测量的随机误差控制第50页,课件共61页,创作于2023年2月一、影响测量信度的因素影响测量信度的因素施测间隔的时间被试主试施测情境测量工具第三节测量的随机误差控制第51页,课件共61页,创作于2023年2月二、提高测验信度的常用方法提高测验信度的常用方法规范施测程度、统一施测环境适当增加测验的长度控制试题的难度分布努力提高每道题的区分度维持测验的同质性努力提高测验在被试中各个同质亚团体上的信度保证被试有充裕的作答时间严格控制评分误差第三节测量的随机误差控制第52页,课件共61页,创作于2023年2月第四节评分者信度及
评分误差的控制第53页,课件共61页,创作于2023年2月一、评分误差存在的严重性严重到什么程度?历史教授的答案被评阅为“不及格”高考作文《一幅漫画的启示》,67位评阅者,6至25分都有,最高分与最低分相差19分1984年,高考作文评分调查,438位老师,4篇作文,。最高得分为41.25,最低分为20.75,标准差为2.98。1985年,对1984年的四篇作文再研究,347位老师(有部分年参加研究的老师),最高得分为42.5,最低分为24.75,标准差为3.3。第四节评分者信度及评分误差控制第54页,课件共61页,创作于2023年2月二、评分者信度定义:多个评分者对同一批答卷评分结果的一致性程度。估计方法:①两位评分者评同一批试卷;②三位或三位以上评分者评
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安装工程综合险种2024年保险协议
- 2024跨国劳务输出协议范例
- 2024食堂运营管理承包协议条款细则
- 2024年协议执行保证金协议格式指南
- 2024届THUSSAT北京市清华大学中学高三下学期领军考试数学试题
- 保姆服务协议:老年照护专项
- 2024年专业接驳车配件订购协议格式
- DB11∕T 1650-2019 工业开发区循环化技术规范
- 2024年工程现场工长职务聘用协议
- 2024年财务总监职业协议范本
- 各专业文件准备目录-内分泌科药物临床试验机构GCP SOP
- 2024年物业管理师(中级四级)考试题库大全-上(单选、多选题)
- 2024年人教部编版语文六年级上册期中测试题及答案(一)
- 2024年10月福建三明宁化县城市管理和综合执法局公开招聘非在编协管员11人笔试历年典型考点(频考点试卷)解题思路附带答案详解
- 2024年环保知识生态建设知识竞赛-环保基础知识竞赛考试近5年真题附答案
- 2024年食品生产企业食品安全管理人员监督抽查考试题库(含答案)
- 2024中国邮政集团河北省分公司春季校园招聘高频难、易错点500题模拟试题附带答案详解
- 部编版历史高一上学期期中试卷与参考答案(2024-2025学年)
- 人教版(2019)必修 第三册Unit 5 The value of money 单元集体备课教案
- 数据备份与恢复应急预案
- 20242025七年级上册科学浙教版新教材第1章第2节科学测量1长度测量讲义教师版
评论
0/150
提交评论