第5讲:测验信度问题定稿_第1页
第5讲:测验信度问题定稿_第2页
第5讲:测验信度问题定稿_第3页
第5讲:测验信度问题定稿_第4页
第5讲:测验信度问题定稿_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第五讲:测验的信度第五讲:测验的信度2第五讲:测验的信度第五讲:测验的信度5.1 经典真分数理论经典真分数理论5.2 估计信度的方法估计信度的方法5.3 影响信度的因素影响信度的因素5.4 信度系数的用途信度系数的用途3前言前言n信度即可靠性,是指测量结果的一致性程度。信度即可靠性,是指测量结果的一致性程度。 n分数受到测量误差的影响。测量误差有两类,分数受到测量误差的影响。测量误差有两类,一类是一类是随机误差随机误差,另一类是,另一类是系统误差系统误差。随机误。随机误差对测验分数的影响的方向是不定的差对测验分数的影响的方向是不定的 ,系统误系统误差对分数的影响是稳定的差对分数的影响是稳定的

2、 。随机误差的来源有随机误差的来源有许多,如猜测、测验环境、评分的错误等。系许多,如猜测、测验环境、评分的错误等。系统误差来源于人的或测验的某些与所测能力无统误差来源于人的或测验的某些与所测能力无关的因素。关的因素。 4 A B C55.1真分数(真分数(true score)模型)模型5.1.15.1.1真分数模型及其基本假设真分数模型及其基本假设n真分数模型真分数模型: 对于任何一个观测分数,都可以把它看对于任何一个观测分数,都可以把它看成是由两部分组成的,一部分是真分数,成是由两部分组成的,一部分是真分数,即被试的真实能力,另一部分是误差分即被试的真实能力,另一部分是误差分数,即由随机误

3、差造成的分数。这个模数,即由随机误差造成的分数。这个模型用公式表示就是:型用公式表示就是: XTE;其中其中 X是观测分数,是观测分数,T代表真分数,代表真分数,E 代表随机代表随机误差误差。6n例:有一个例:有一个10个题的测验,被试有三个,他个题的测验,被试有三个,他们答题的具体情况是:们答题的具体情况是: X1725 X2437 X3808 7n基本假设一:误差分数是随机的、非系统的,因基本假设一:误差分数是随机的、非系统的,因此它和真分数之间没有相关,即真分数和误差分此它和真分数之间没有相关,即真分数和误差分数是零相关。数是零相关。n基本假设二:对一组被试来说,误差分数的平均基本假设二

4、:对一组被试来说,误差分数的平均分等于零。因为误差的作用有正有反。分等于零。因为误差的作用有正有反。n基本假设三:基本假设三:两次测量的误差分数之间的相关为两次测量的误差分数之间的相关为零。因为误差是随机出现的,因而两次测量所产零。因为误差是随机出现的,因而两次测量所产生的误差应当是相互独立的,它们之间没有必然生的误差应当是相互独立的,它们之间没有必然联系。联系。 8n根据三个基本假设,根据三个基本假设,可以推出可以推出观测方差中观测方差中包含了真分数方差和包含了真分数方差和误差的方差:误差的方差:95.1.2 信度系数信度系数n信度概念说的是测验分数中有多少是稳定的,也信度概念说的是测验分数

5、中有多少是稳定的,也就是说真分数在总分中所占的比例有多大。相应就是说真分数在总分中所占的比例有多大。相应的,也就是真分数方差在总分方差中所占的比例的,也就是真分数方差在总分方差中所占的比例有多大,因此,我们用有多大,因此,我们用r来代表这个比例,即:来代表这个比例,即:22xtr221xer105.1.3 平行测验概念的引进平行测验概念的引进n假定有两个测验,所测的是同一种能力,同一组被试假定有两个测验,所测的是同一种能力,同一组被试在这两个测验上具有相同的真分数,而且,两测验的在这两个测验上具有相同的真分数,而且,两测验的误差的方差也相同,这样的两个测验是平行测验。误差的方差也相同,这样的两

6、个测验是平行测验。n由于随机误差的存在,平行测验的观测分之间不可能由于随机误差的存在,平行测验的观测分之间不可能完全相关,其相关程度取决于误差的大小。完全相关,其相关程度取决于误差的大小。n根据平行测验的概念和真分数理论的三个基本假设根据平行测验的概念和真分数理论的三个基本假设,平行测验观测分之间的相关,等于其中任一测验真分平行测验观测分之间的相关,等于其中任一测验真分数方差与总方差的比值,即:数方差与总方差的比值,即:22xtXXr11能 力tXtXeXeXXX125.2 估计信度的方法估计信度的方法n在真分数模型里,估计信度的方法分为三在真分数模型里,估计信度的方法分为三类,每一类所侧重的

7、误差来源不同。对内类,每一类所侧重的误差来源不同。对内部一致性程度的估计,侧重测验自身和评部一致性程度的估计,侧重测验自身和评分程序的误差;对稳定性的估计侧重不同分程序的误差;对稳定性的估计侧重不同时间得出的分数间的一致性;对等价性的时间得出的分数间的一致性;对等价性的估计侧重同一测验的不同形式是否对等。估计侧重同一测验的不同形式是否对等。135.2.1再测信度再测信度n概念:同一测验让同一组被试做两次,概念:同一测验让同一组被试做两次,两次测验中间隔一段时间。计算两次测两次测验中间隔一段时间。计算两次测验分数之间的相关,其相关系数表明该验分数之间的相关,其相关系数表明该测验随着时间的推移是否

8、保持稳定。测验随着时间的推移是否保持稳定。 n使用再测信度时要注意练习效应和学习使用再测信度时要注意练习效应和学习效应,注意选择合适的时间间隔。效应,注意选择合适的时间间隔。145.2.2复本信度复本信度n复本测验是指在性质、内容、题型、难度复本测验是指在性质、内容、题型、难度等方面都一致的两份或多份测验。同一组等方面都一致的两份或多份测验。同一组被试在复本测验上所得结果的相关系数就被试在复本测验上所得结果的相关系数就是复本信度。是复本信度。155.2.3 内部一致性信度内部一致性信度n内部一致性是指同一测验里的各题目或各部分题内部一致性是指同一测验里的各题目或各部分题目是否测了同一个东西。如

9、果测验的各个题目测目是否测了同一个东西。如果测验的各个题目测的都是同一个东西,这些题目间就有一致性,反的都是同一个东西,这些题目间就有一致性,反之,题目之间则没有一致性。之,题目之间则没有一致性。n估计内部一致性信度的方法有很多种,这些方法估计内部一致性信度的方法有很多种,这些方法大致可以归为两类。一类是通过测验两半的相关大致可以归为两类。一类是通过测验两半的相关来估计,另一类是通过题目的方差来估计。来估计,另一类是通过题目的方差来估计。 160/1计分测验的内部一致性信度计分测验的内部一致性信度n 分半信度:分半信度:n概念:将每一个被试的测验分数按测题分成两概念:将每一个被试的测验分数按测

10、题分成两部分计分,然后用每个被试在两半测验上的得部分计分,然后用每个被试在两半测验上的得分求出整个测验的信度。分求出整个测验的信度。一般的做法是奇数题一般的做法是奇数题为一半,偶数题为另一半。为一半,偶数题为另一半。 n计算分半信度的方法计算分半信度的方法(1)Spearman-Brown 预测公式预测公式 rxx= krii / 1+(k-1)rii17分半信度是上式的一个特殊应用分半信度是上式的一个特殊应用 。计算分半信度计算分半信度时,我们先把一个测验的题目随机地分成相等的时,我们先把一个测验的题目随机地分成相等的两部分,计算两半题目之间的皮尔逊积差相关,两部分,计算两半题目之间的皮尔逊

11、积差相关,所得相关系数代入下式:所得相关系数代入下式:12iiiiXXrrr18(2)Rulon公式估算法公式估算法 rxx=1 - (d d2 / t t2 ) d d2 表示每个被试两半测验分数之差的方差表示每个被试两半测验分数之差的方差 t t2 表示测验总分的方差表示测验总分的方差(3)Flanagan 公式估计法公式估计法 rxx=21- (a a2 + b b2 ) / x x2 a a2 和和b b2 分别表示两个分半测验的分数的方差分别表示两个分半测验的分数的方差 x x2 表示总分方差表示总分方差19用用KR-20公式计算内部一致性信度公式计算内部一致性信度 nK-R即即Ku

12、der-Richardson二人的名字缩写二人的名字缩写nKR-20KR-20公式要求题目难度相等或相近。公式要求题目难度相等或相近。 22011XpqkkKR2X k 是题目数,是题目数,p 是通过率,是通过率, q是是 1-p, 是全卷方差是全卷方差 20非非0/1计分测验的内部一致性信度计分测验的内部一致性信度n上面的方法只适用估计上面的方法只适用估计0/1计分的测验信度。计分的测验信度。Cronbach 1951发表发表了题为了题为AlpherAlpher系数和系数和测验内在结构测验内在结构的文章,的文章,提出一个公式,用来计提出一个公式,用来计算测验的内部一致性信算测验的内部一致性信

13、度,叫度,叫AlpherAlpher系数系数。2211Xikk2i2XK:题目数:题目数:测验各部分方差的总和:测验各部分方差的总和:总分方差:总分方差21评分者信度评分者信度n主观性测验的评分受评分者主观因素的影响而产主观性测验的评分受评分者主观因素的影响而产生误差。因此这类测验的信度是以评分者所评分生误差。因此这类测验的信度是以评分者所评分数之间的相关系数来表示的,故称为评分者信度。数之间的相关系数来表示的,故称为评分者信度。n对于一个评分者来说,我们要知道他打出的分数对于一个评分者来说,我们要知道他打出的分数稳定性有多高,这就是评分者内信度(稳定性有多高,这就是评分者内信度(intra-

14、intra-rater reliabilityrater reliability)。对于若干个评分者来说,)。对于若干个评分者来说,我们需要知道,他们给出的分数一致性有多高,我们需要知道,他们给出的分数一致性有多高,这 就 是 评 分 者 间 信 度 (这 就 是 评 分 者 间 信 度 ( i n t e r - r a t e r i n t e r - r a t e r reliabilityreliability)。)。22评分者内信度评分者内信度n产生误差的原因产生误差的原因:改变了评分标准或对标改变了评分标准或对标准的掌握不能始终如一。准的掌握不能始终如一。n方法:方法: 首先要

15、得到两个独立的样本。做法是,对一组被首先要得到两个独立的样本。做法是,对一组被试的表现先由评分者评一次分,然后,还是这组试的表现先由评分者评一次分,然后,还是这组被试,打乱顺序,由这个评分者再评一次分。被试,打乱顺序,由这个评分者再评一次分。 接接着着把这两组样本当做平行测验,计算它们之间的把这两组样本当做平行测验,计算它们之间的SpearmanSpearman等级相关,其相关系数就是信度值。等级相关,其相关系数就是信度值。23评分者间信度评分者间信度n产生误差的原因产生误差的原因:评分标准和对标准的掌评分标准和对标准的掌握,在不同的评分者之间会不一致。握,在不同的评分者之间会不一致。 n方法

16、:方法:n若只有若只有2位评分员位评分员 可以计算两人所给分数之间的相关,相关可以计算两人所给分数之间的相关,相关系数就是两个评分员所给分数的信度系数。系数就是两个评分员所给分数的信度系数。 24n若有若有2位以上的评分员位以上的评分员1)当用连续计分法对测验结果进行评定时,当用连续计分法对测验结果进行评定时,用用系数来估计系数来估计2 2)当)当K K个评分员用等级对个评分员用等级对n n个测验结果进行评个测验结果进行评定时用肯德尔和谐系数来估计。定时用肯德尔和谐系数来估计。 W =W =K是评分员的人数,是评分员的人数,N是被试人数或答卷数,是被试人数或答卷数,Ri 是每个被试所得等级的总

17、和。是每个被试所得等级的总和。 232112121NNKNRNiNiiiR25速度测验的信度估计速度测验的信度估计 n从再测信度和复本信度的角度去估计速度从再测信度和复本信度的角度去估计速度测验的信度是比较合适的。测验的信度是比较合适的。 n估计复本信度时,可以采用分半时间的办估计复本信度时,可以采用分半时间的办法,即把测验的一半题制作成一份试卷,法,即把测验的一半题制作成一份试卷,另一半制作成另一份试卷,每份试卷的答另一半制作成另一份试卷,每份试卷的答题时间是原答题时间的一半,然后计算被题时间是原答题时间的一半,然后计算被试两份子测验得分的相关。试两份子测验得分的相关。 265.3 影响信度

18、的几个因素影响信度的几个因素n被试的异质性程度被试的异质性程度 被试的异质性程度越高,真分数的方差就越大,被试的异质性程度越高,真分数的方差就越大,信度也就越高。信度也就越高。n时间限制时间限制 在严格的时间限制下,被试的答题速度对分数有在严格的时间限制下,被试的答题速度对分数有明显的影响,也就是说被试真分数的方差不仅包明显的影响,也就是说被试真分数的方差不仅包括被试对题目反应的差异,括被试对题目反应的差异,也包含了被试答题速也包含了被试答题速度的差异。在这种情况下,信度系数度的差异。在这种情况下,信度系数就就被高估了。被高估了。27 题目数量越多,信度越高。这从题目数量越多,信度越高。这从S

19、pearman-Brown 预测公式可以看出,预测公式可以看出, rxx= krii / 1+(k-1)rii 因为因为各平行测验的信度都相等,总信度系数的大各平行测验的信度都相等,总信度系数的大小就取决于小就取决于k k 的大小,的大小,k k 越大,也就是题数越多,信越大,也就是题数越多,信度越高。利用这个关系,我们可以估计试题增加后新度越高。利用这个关系,我们可以估计试题增加后新的信度系数会是多少。的信度系数会是多少。n假定我们有一个假定我们有一个30题的测验,其信度系数是题的测验,其信度系数是0.6,如果我们把,如果我们把题数增加到题数增加到90 题,也就是使题,也就是使 k3 ,根据

20、上式,我们就可以算,根据上式,我们就可以算出新的信度系数。出新的信度系数。 = = 0.82n测验的长度测验的长度) 1(1iiiiXXrkkrr6 . 0) 13(16 . 0328 估计要得到一定的信度系数,测验需要增加多少。估计要得到一定的信度系数,测验需要增加多少。 如:原信度如:原信度0.5,题目题目20个,要达到个,要达到0.8的信度需要的信度需要多少题目。多少题目。 K K = r= rkkkk(1-r(1-rxxxx)/ r)/ rxxxx(1-r(1-rkkkk)=)= 0.8(1-0.5)/0.5(1-0.8)=4; 0.8(1-0.5)/0.5(1-0.8)=4; 20

21、20* *4=804=80。当题目为。当题目为8080个时信度可达个时信度可达0.80.8。 测验长度与测验信度的函数关系可以表示为一条单测验长度与测验信度的函数关系可以表示为一条单调递增的渐进曲线,也就是说,测验的信度(内部一致性调递增的渐进曲线,也就是说,测验的信度(内部一致性信度)随题目数量的增加而提高,但提高的幅度渐趋缓慢。信度)随题目数量的增加而提高,但提高的幅度渐趋缓慢。在实际情况中,如果测验题目过多会引起被试的疲劳效应,在实际情况中,如果测验题目过多会引起被试的疲劳效应,甚至会使被试产生厌烦心理而影响到测验的信度,因此一甚至会使被试产生厌烦心理而影响到测验的信度,因此一个可靠的测

22、验应当是长度合适的测验。个可靠的测验应当是长度合适的测验。29n测验难度测验难度 测验难度与信度没有直接对应关系,但是当测验难度与信度没有直接对应关系,但是当测验太难或太容易时,分数的范围就会缩小,从测验太难或太容易时,分数的范围就会缩小,从而降低信度。当测验难度水平为而降低信度。当测验难度水平为0.50.5时,信度最高。时,信度最高。n题目区分度题目区分度 题目的区分度与测验信度关系密切。区分度题目的区分度与测验信度关系密切。区分度好的试题对被试的真分数估计得较准确,测量误好的试题对被试的真分数估计得较准确,测量误差较小。如果一份试卷中题目的区分度都很好,差较小。如果一份试卷中题目的区分度都

23、很好,测验的信度就会很高。测验的信度就会很高。305.4 信度系数的用途信度系数的用途 一评价测验一评价测验 信度系数是衡量测验好坏的一个重要信度系数是衡量测验好坏的一个重要技术指标。一般水平测验和成绩测验的信技术指标。一般水平测验和成绩测验的信度应在度应在0 0.9以上。性格、兴趣、态度等人格以上。性格、兴趣、态度等人格测验的信度系数通常在测验的信度系数通常在0 0.80.85之间。之间。 31二二. .解释分数解释分数n测验的标准误差(标准误测验的标准误差(标准误SEMSEM):):是测量误是测量误差分布的标准差,表示测量误差的大小。差分布的标准差,表示测量误差的大小。 计算公式为:计算公式为: SEMxn测验信度越高,标准误越小测验信度越高,标准误越小)1 (r32n由于测量误差的存在,被试在测验中的得分有可由于测量误差的存在,被试在测验中的得分有可能高于真分数,也有可能低于真分数。为了解释能高于真分数,也有可能低于真分数。为了解释被试所得分数的真正含义,我们需要利用测量的被试所得分数的真正含义,我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论