测验的质量鉴定信度_第1页
测验的质量鉴定信度_第2页
测验的质量鉴定信度_第3页
测验的质量鉴定信度_第4页
测验的质量鉴定信度_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章

测量信度第一节测验的信度鉴定

测验的信度

信度的估计方法

信度的相关问题测验的信度概述1定义:信度指的是测量结果的稳定性程度。一个测验,测同一个事物,多次测量的结果一致性程度,被称为测验的信度。信度乃是一个被试团体的真分数的变异数与实得分数的变异数之比。信度乃是一个被试团体的真分数与实得分数的相关系数的平方信度乃是一个测验与它的任意一个平行测验的相关系数测验的信度概述2

实测分数与有效分数、随机误差分数和系统误差分数的关系如下所示:XT=XV+XI+XE其中,XT是实测分数,XV是有效分数,XI是系统误差分数,XE是随机误差分数。XV

(有效分数)和XI

(系统误差分数)是稳定的,它们决定着测验结果的一致性,通常把这两项合并起来称为真分数(XTR),代表测量结果中稳定的部分。这们实测分数可以看作是真分数和随机误差分数之和:

XT

=XTR

+XE从以上分析可以看出,使测验产生稳定结果的是真分数,真分数是测验具有稳定性的根本原因。在测量理论中,信度被定义为真分数的变异数(方差)STR2与实测分数的变异数ST2的比率,即rtt=STR2/ST2测验的信度概述3其中,ST2是实测分数的方差,反映实测分数的的波动程度;STR2是真分数的方差,反映真分数的波动程度;SE2是误差分数的方差,反映误差分数的波动程度。SE2和STR2对于rtt的大小的贡献可由下图表示:

STR2

SE2可见误差变异数越大,信度系数越小,信度越低,误差变异数越小,信度越高。返回估计信度的方法

重测信度

复本信度

内在一致性信度评分者信度返回重测信度

定义重测信度也称稳定系数,是指对同一被试总体进行重复测量而得的两组数据之间的一致性程度的量化指标。用两次测验分数之间的相关系数表示。计算方法施测时间间隔再施测

相关系数图1重测信度图式重测信度例题例:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如下表。求该测验的重测信度。(0.97)测验被试1

2

3

4

5

6

7

8

9

10X1X2161513131110109871616141211911867重测信度的误差

测验本身:测验所测的特性身就不稳定,如情绪。被试方面:成熟、知识的发展并非人人等量增长,在练习因素、记忆效果也存在人体差异。施测中的偶发因素:如记时错误、情绪波动健康状况、动机变化等。返回施测A型最短时距施测B型

相关系数图2复本信度图式复本信度定义:复本信度又称等值系数,是指两假定相等的复份测验之间的一致性,是两个平等测验分数的相关。(当同一测验不能用来再次实施时,就需要给同一种测验编制两份平等的测验)计算方法:先实施测验的复份A,然后在最短的时距内实施复份B,再求再次测验分数的相关系数。

图式:

最短时距测验复份A测验复份B复本信度例题测验被试1

2

3

4

5

6

7

8

910X1X2201919181716141312102020181615171211139

例:假设用A、B两份创造力复本测验对初中一年级10个学生施测。结果列表如下,X1,X2分别代表A,B两测验成绩。计算其复本信度。(0.94)复本信度的误差来源及评价误差来源

一是若再次测验间隔时间很长,那么被试的第二次测验成绩亦难免受学习、练习等的影响。二是若两次施测连续进行,那么容易使被测疲劳,产生厌倦情绪,并且注意力分散,因而影响测量结果。

评价:它与重复测量不同,两次施测的是不同测验,因而可以连续施测,从而几乎避免由于时间而引起的被试特质的成长或变化。并且,复本法的练习效应小于再测法。因而复本法略优于再测法。然而,复本法同样也面临可行性的问题。首先它的两次施测也消耗相当的人力和物力,不够经济;第二,最重要的是复本法建立于真分数等值模型的基础之上,而建构符合该模型要求的两个平等测验非常困难。实际中很多时候纯粹为了信度指标的获得而耗费大量精力及财力去建构复本是不值得的,而且成功和可能性亦很小,因此,也很少有人采用此法估计信度。返回内在一致性信度

该系数反映的是测验内部的一致性,即项目同质性。当被试在同一测验里出跨项目的一致性时,就称测验具有项目同质性。也就是测验里各测题得分为正相关时,就可以从一个人在一个测验题上的作业预测其在其他测题上的作业。内在一致性系数不可避免地受到测试时被试成绩的临时波动、猜测、记分等测量误差的影响,除此之外上,测验内容抽样引起的误差对其也会产生影响,而后者更是研究内在一致性系数所需重视的误差来源。

返回内在一致性信度

估计内在一致性系数的方法通常有两类,

一类是分半法,另外一类方法需要对项目反应的方差或协方差进行分析。分半信度定义:将测验施测于某被试总体,然后将测验分半,再求被试在每一半测验上的分数的一致性程度。这是最常用的信度指标

分半方法:完全随机分半法;奇偶分半法;将测验分成若干内容块,再将各内容块的题目奇偶分半,所有的奇数题和所有的偶数题各组成一个分测验。这是最有效也是应用最广泛的分半方法。计算方法:若测验分半后得到的两个部分符合平等测量的条件,即符合真分数等值模型的假定,则可计算两半测验得分的皮尔逊相关系数。但所求得的相关系数只能代表半个测验而整个测验的信度,因而应对此系数进行矫正。一般用著名的斯皮尔曼-布朗公式。分半信度

误差来源:误差来源主要在于分半过程,以不同的方式对测验进行分半所得的分半信度值不同。但它基本避免了再测法和复本法的误差源及不可行性。分半信度的矫正公式(2)费拉南根公式:式中sa2,sb2分别为两个分半测验的方差,st2为整个测验的总分方差。(3)卢龙公式(Rulon)其中,sd2是两个分半测验分数之差的方差,st2是整个测验的总分方差。公式(2)和(3)不要求两个分半测验的变异相等返回基于项目协方差的方法

把测验划分为两半的方法实际上有多种,除了奇偶法以外,还有随机安置法、内容匹配法、难度排序奇偶法等等。而每一种划分方法产生的rtt估计值都有差别,因此,用分半法得到的信度估计值不具备唯一性。所以库德(Kuder)、理查德逊(Richardson)针对分半法的不足提出的。不过,与斯皮尔曼-布朗方法的假设相似,库德-理查德逊方法也要求测题的难度相等地,相关相等。(1)克伦巴赫(L.J.Cronbach)α系数(2)霍伊特(C.Hoyt)信度(3)库德-理查德逊20(K-R20)(4)库德-理查德逊21(K-21)返回克伦巴赫(L.J.Cronbach)α系数

这是应用最广的一种信度指标公式:

式中Si2为各部分测验分数的方差,St2为测验总方差。当将每一个测题作为一个分析单元时,n便是测验的题目总数。而当n=2时,即将测验分半时,不难证明此公式与分半信度的矫正公式相同。

克伦巴赫α系数例题例:有8名学生在5道题上的得分及有关统计量见下表,计算其信度。学生题目X1

2

3

4

5

16

6

7

2

728

24

0

5

4

215

36

7

5

6

428

44

4

2

4

721

53

2

0

4

413

66

7

2

5

222

76

3

7

3

726

88

4

5

5

325

Si1.492.322.321.172.06St2=28.44Si22.225.385.621.374.24∑Si2=18.33其返回霍伊特(C.Hoyt)信度

霍伊特(C.Hoyt)信度的主要原理就是把一组测验分数的总方差分解成三个来源:人与人的差异;项目之间的差异;以及人与项目之间相互作用的差异。真正方差用人与人的差异,MSp来估计,测量误差则用人与项目的相互作用与项目的相互作用MSr.来估计。计算公式为:由于这种方法的计算较之其他方法复杂的多,因而现在不常用,但是其运用方差分析估计信度的思想为现代测量理论之一的理论的诞生奠定了一定的基础。返回库德-理查德逊20公式(K-R20)式中,n是测验项目的数目,p是项目通过率,q是项目未通过率,St2是整个测验的总分方差。由于库德-理查德逊公式要求0,1计分,所以Σpq实际上就是每道题的方差之和。当各题目的难度相近时,可以用(K-R20)公式的简化形式即K-R21公式来计算:返回库德-理查德逊信度例题下表是10名学生在5道题目上的答题情况,请计算其信度。题目学生pqpq1

2

3

4

5

6

7

8

9

10123451

1

1

1

1

1

1

1

1

01

1

1

1

1

1

0

0

1

11

1

1

1

0

1

1

0

0

11

1

00

1

0

1

1

0

01

1

0

1

0

0

1

0

0

00.9

0.1

0.090.8

0.2

0.160.70.3

0.210.6

0.4

0.240.4

0.6

0.24XX26

6

4

5

4

3

5

2

2

23636162516925444ΣX=39Σpq=1.19ΣX2=175结果返回评分者信度

含义:评分者信度(Scorerreliability)指的是多个评分者给同一批人的答卷进行评分的一致性程度。计算:当评价者人数为2时,评分者信度等于评分者给同一批被试的答卷所给分数的相关系数(积差相关或等级相关)。当评分者人数多于两个人时评价者信度可以用肯德尔和谐系数计算。公式分别为:评分者信度的公式及例题肯德尔和谐系数公式:式中K是评分者人数,N是被试人数或答卷人数,Ri是每个被试所得等级的总和。例:假设有三位专家给六篇论文评等级,结果如下表,请计算其评分者信度。专家1

2

3

4

5

61

2

4

1

5

6

22

3

4

1

5

5

23

3

4

1

4

6

2Ri

8

12

314176ΣRi=8+12+3+14+17+6=60

ΣRi2=64+144+9+196+289+36=738W=0.88返回信度的相关问题

影响信度的因素

提高测量信度的常用方法几点说明影响测量信度的主要因素被试方面主试方面施测情境方面测量工具方面两次施测的间隔时间返回被试方面

就单个被试而言,被试的身心健康状况、动机、注意力、耐心、求胜心、作答态度等,会影响测量误差,因为这些因素往往会影响被试心理特质水平的稳定性。被试方面就被试团体而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。这是因为,我们所计算的信度估计值大都是以相关为基础的,而相关系数的大小往往取决于全体被试得分的分布情况。当被试团体异质(即团体内水平彼此差异大)时,全体被试的总体分布必然较广,以相关为基础计算的信度值必然会大,这就很有可能高估实际的信度值。当团体内部水平相差不大(同质)时,其得分分布必定会较窄,以相关为基础计算的信度值必然会小。这时又有可能低估信度值。此外,若团体的平均水平太高(大家都得高分)或太低(大家都得低分),同样会使测验人总分的分布变窄,低估测量的真正信度。返回主试方面

就施测者而言,若他不按指导手册规定施测,或故意制造紧张气氛,或给考生一定的暗示、协助等,则测量信度会大大降低。就阅卷评分者而言,若评分标准掌握不一,或前紧后松,甚至是随心所欲,则也会降低测量信度。返回施测情境方面

在实施测验时,考场是否安静,光线和通风情况是否良好,所需设备是否齐备,桌面是否合乎要求、空间阔窄是否恰当等等都可能影响到测量的信度。返回测量工具方面以测验为代表的心理与教育测量工具是否性能稳定是测量工作成败的关键。因此,弄清楚影响测量工具稳定性的因素是十分重要的。一般地,试题的取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的主要因素。返回试题的取样试题的取样如果一个测验的试题取样不当(或题目数目太少,或考察的方面不全面),则难以测查到被试心理特质的全面情况。若是被试采取押题方式应考,则所得结果的随机性更大。既然心理特质被考察的方面是随机的、测查的结果也是随机的,那么这种测量的信度就必然不高。相反,当一份测验中的同质性的题目数量增多之后,同一心理特质被考察到的次数就会增多,被试的成绩也就被有效地拉开。整个团体的测验分数分布就会更广,从而,提高测量的信度。试题的取样例如,有一个测验,由5道是非题组成。如果学生知道其中4题的正确答案,那么猜对另外1题的概率为0.5,凭猜测获得20%分数的可能性就很大。但是,另有一个测验,由50道是非题组成。如果学生知道其中40题的正确答案,那么猜对另外10题的概率为0.5的10次方,凭猜测获得20%分数的可能性就很小。试题的取样这种效果可用斯皮尔曼-布朗公式计算。公式中,n为改变后的测验长度与原来长度之比。R11为原测验信度,rnn为测验长度增加n倍后的测验的信度。下面看一个例子。例子某一测验有10个项目,信度为0.60,问测验应增加到多少个项目,才能使信度达到0.90?解:由公式得:即测验项目应增加到60个才能满足要求。返回试题之间的同质性程度如果一个测验内部的试题之间彼此异质(即测查的是不同的心理特质),则无法使测量的内部一致性系数提高。返回试题的难度

测验的难度与信度之间没有直接的关系。然而,当测验分数范围缩小时,信度将降低。因此,如果测验太难,大部分学生得高分;测验太易,大部分学生得低分。这两种情况都会减少分数分布范围而降低信度。一般说来,测题难度在0.3-0.7之间,且平均难度为0.5的测验,最有利于提高测验的信度。返回两次施测之间的间隔时间在计算重测信度和稳定性与等值性系数(复本信度之一)时,两次施测之间的间隔时间越短,其信度值越大;间隔时间越长,其他因素带来的影响的机会就越多,因而其信度值就可能越小。返回提高测量信度的常用方法适当增加测验长度(有两点要注意:新增项目与试卷中原有项目同质;新增项目的数量必须适度)使测验中所有试题难度接近正态分布,并控制在中等水平。这样测分也接近正态分布,标准差会较大。努力提高测验试题的区分度选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。主试者严格执行实测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论