![第三章 教育测量与评价的质量特性课件_第1页](http://file4.renrendoc.com/view/58d1ef5b53576a7edcbfb7ae4a851120/58d1ef5b53576a7edcbfb7ae4a8511201.gif)
![第三章 教育测量与评价的质量特性课件_第2页](http://file4.renrendoc.com/view/58d1ef5b53576a7edcbfb7ae4a851120/58d1ef5b53576a7edcbfb7ae4a8511202.gif)
![第三章 教育测量与评价的质量特性课件_第3页](http://file4.renrendoc.com/view/58d1ef5b53576a7edcbfb7ae4a851120/58d1ef5b53576a7edcbfb7ae4a8511203.gif)
![第三章 教育测量与评价的质量特性课件_第4页](http://file4.renrendoc.com/view/58d1ef5b53576a7edcbfb7ae4a851120/58d1ef5b53576a7edcbfb7ae4a8511204.gif)
![第三章 教育测量与评价的质量特性课件_第5页](http://file4.renrendoc.com/view/58d1ef5b53576a7edcbfb7ae4a851120/58d1ef5b53576a7edcbfb7ae4a8511205.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章教育测量与评价的质量特性内蒙古师范大学教育科学学院2012年11月12日296957701第三章教育测量与评价的质量特性内蒙古师范大学教育科学学院1第一节教育测量与评价中常用的统计参数一、平均数和标准差平均数表示原始分数的总和N表示分数的个数第一节教育测量与评价中常用的统计参数一、平均数和标准差表示2平均数和标准差方差:也称变异数、均方。用符号表示标准差:即方差的平方根,用S或SD表示。平均数和标准差方差:也称变异数、均方。用符号表示3二、相关及相关系数(一)什么是相关1.事物之间的相互关系因果关系共变关系相关关系二、相关及相关系数(一)什么是相关42.相关的类别正相关负相关零相关,即无相关2.相关的类别5(二)相关系数是两例变量间相关程度的数字表现形式,或者说是用来表示相关关系强度的指标。常用r表示。相关系数的取值范围:-1≤r≤1(二)相关系数是两例变量间相关程度的数字表现形式,或者说是用6(三)积差相关简称皮尔逊相关,又称为积距相关。揭示两个变量线性相关方向和程度最常用和最基本的方法。需要满足一下条件:要求成对的数据。两例变量各自总体的分布都是正态。两个相关的变量是连续变量。两例变量之间的关系是直线性的。(三)积差相关简称皮尔逊相关,又称为积距相关。揭示两个变量线7利用原始数据计算积差相关的公式利用原始数据计算积差相关的公式8例:10名中学生身高与体重的测量结果,问身高与体重的关系如何?被试编号身高(X)体重(Y)X2 Y2 XY 1 170 50 28900 2500 8500 2 173 45 29929 2025 7785 3 160 47 25600 2209 7520 4 155 44 24025 1936 6820 5 173 50 29929 2500 8650 6 188 53 35344 2809 9964 7 178 50 31684 2500 8900 8 183 49 33489 2401 8967 9 180 52 32400 2704 9360 10 165 45 27225 2025 7425 Σ 1725 485 298525 23609 83891
例:10名中学生身高与体重的测量结果,问身高与体重的关系如何9(四)斯皮尔曼等级相关则是皮尔逊相关系数的延伸。是等级相关的一种。常用符号rR或rs表示。主要用于解决名称数据和顺序数据的相关问题。对于属于等距或等比性质的连续变量数据,若按其取值大小,赋以等级顺序,转化为顺序变量数据,亦可计算等级相关,此时不必考虑是否正态。适用于连续变量数据小于30,精确度稍差于积差相关(四)斯皮尔曼等级相关则是皮尔逊相关系数的延伸。是等级相关的10斯皮尔曼等级相关的计算公式斯皮尔曼等级相关的计算公式11例:现有10人的视、听两种感觉通道的反应时,问视听反应时是否具有一致性被试编号 身高(X)体重(Y)Rx RYD=Rx-RY D2 RxRY
1 172 179 7 5 2 4 35 2 140 162 2 2 0 0 4 3 152 153 5 1 4 16 5 4 187 189 8 8 0 0 64 5 139 181 1 6 -5 25 6 6 195 220 9 10 -1 1 90 7 212 210 19 1 1 90 8 164 182 6 7 -1 1 42 9 149 178 4 4 0 0 16 10 146 170 3 3 0 0 9 Σ 55 55 48 361 例:现有10人的视、听两种感觉通道的反应时,问视听反应时是否12第二章教育测量的质量指标衡量教育测量的质量,可采用四个指标:信度主要对整个测量而言。效度
难度主要对测量的项目而言。区分度第二章教育测量的质量指标衡量教育测量的质量,可采用四个指13一、信度概述(一)什么是信度信度是指测量结果的稳定性或可靠性程度。必须从以下两个方面去理解测量的信度:
信度指实测值(X)真值(T)相差的程度信度指同一个测验(或相等的两个、多个测验)对同一组被试施测两次或多次,所得结果的一致性程度,也即测验的可靠性。两次重复测量或等值测量之间的关联程度。一、信度概述(一)什么是信度14(二)信度的估计方法1、重复信度(再测信度)指的是同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。(二)信度的估计方法1、重复信度(再测信度)15例一用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?序号123456789101112X202021222323232425262627Y202121202323252526262729例一用一个算术四则的速度测验12个小学生,得分记为X,为了考16在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为[0,1],当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、应注意提高被试者的积极性。在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值17再测信度的优缺点优点:(1)它最符合重复测验的涵义(2)比编制两套等值测验题目要省力、省时(3)所测量的属性是完全相同的。缺点:(1)使第二次测验分数有系统地增加(2)如果两次施测时间太长,被试身心的发展、新知识的获得,导致两次测验结果的不相同(3)容易失去被试的兴趣(4)收到被试在两次施测时的主观状态(5)两次施测的环境不同而产生测量误差。再测信度的优缺点优点:(1)它最符合重复测验的涵义(2)比编18再测信度的适用范围适用于异质性测验适用于速度测验而不适用于难度测验还适用于运动技能的测验,如跑、跳、掷等项目测验。再测信度的适用范围适用于异质性测验192、复本信度指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。2、复本信度指的是两个平等的测验测量同一批被试所得结果的一致20例二以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212例二以A、B两型英语复本测验对初中三年级10个学生施测,为避21复本信度的优缺点表现:优点:1、一个测验有两个或几个复本,这意味着对于测验同一种属性具有两个或几个行为样本。2、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;3、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。复本信度的优缺点表现:优点:22缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分23复本信度的适用范围不仅适用于难度测验,也是估计速度测验信度的最好方法。在作追踪研究或探讨某些影响测验成绩的因素时,大多使用复本测验。复本信度的适用范围不仅适用于难度测验,也是估计速度测验信度的24(三)内在一致性信度内在一致性信度主要是指测验内部(即测题之间)的一致性程度,主要包括分半信度和同质性信度。(三)内在一致性信度内在一致性信度主要是指测验内部(即测题之251、折半信度(分半信度)就是将一个测验分成对等的两半后,再求被试在每一半测验上所得分数的一致性程度(相关系数)。首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼—布朗公式加以校正。斯皮尔曼—布朗公式为1、折半信度(分半信度)就是将一个测验分成对等的两半后,再求26斯皮尔曼—布朗公式为整个测验的信度系数为两个“半测验”上得分的相关系数斯皮尔曼—布朗公式27例:一个测验向15名被试施测,被试在奇偶数分半测验上的得分如表所示,计算该测验的分半信度系数。被试123456789101112131415奇数题2018232117182017161314131288偶数题2022192218151417151614121076计算两个“半测验”得分的积差相关系数为0.86
=0.92例:一个测验向15名被试施测,被试在奇偶数分半测验上的得分如282.同质性信度同质性信度是指测验内部所有题目间的一致性程度。所有题目测的是同一种心理特质所有题目得分之间都具有较高的正相关也就是说,同质性信度就是一个测验所测内容或特质的相同程度。2.同质性信度同质性信度是指测验内部所有题目间的一致性程度。29(1)二分法计分测验的同质性信度库德—理查逊信度KR20为测验信度;K为题目数;Pi和qi分别表示答对和打错第i题的被试人数比例;为测验总分的方差。测验的信度;是全体被试测验总分的平均数。(1)二分法计分测验的同质性信度库德—理查逊信度30例:三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错得0分,其测验结果如下表,试估计该测验的折半信度学生序号题序123456总分110000012100100230110002411001035100100261110115711110158110110490110013101111116P0.80.70.50.50.40.4q0.20.30.50.50.60.6pq0.160.210.250.250.240.24∑=1.35例:三对初中一年级学生进行地理成绩测验,每答对1题得1分,答31(2)非二分法记分测验的同质性信度克龙巴赫a系数,计算公式为:
表示所有被试在第i题上的方差;表示所有被试各自总分的方差,K为题目数。(2)非二分法记分测验的同质性信度克龙巴赫a系数,计算公式为323.内在一致性信度的优缺点优点(1)应用方便,避免再测信度的缺点;(2)具有同时性复本信度的优点;(3)在使用K-R20时,对测题的假定或前提条件,要求相对较少,它不仅是信度的近似值,而且是决定测验信度非常正确的方法。缺点:(1)将一个测验分成内容、形式、题数、平均数、标准差、分布形态都相等的两部分,实际上是很困难的;(2)分半的方法不同,估计出的信度系数也有所不同;(3)若用斯皮尔曼—布朗公式对分半信度进行校正,会高估了测验的信度。3.内在一致性信度的优缺点优点(1)应用方便,避免再测信度的334.内在一致性信度的适用范围适用于同质性测验,而不适用与异质性测验适用于难度测验,而不适用于速度测验。4.内在一致性信度的适用范围适用于同质性测验,而不适用与异质34(四)评分者的信度是指多位评分者对同一组被试作答反应评分的一致性程度。两位评分者时,采用积差相关或等级相关的方法来进行计算。三人以上,而且等级记分时,采用肯德尔和谐系数来求评分者信度。(四)评分者的信度是指多位评分者对同一组被试作答反应评分的一35(五)标准参照测验的信度分析百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。(五)标准参照测验的信度分析百分比一致性指标是指同一测验或两36(六)提高信度的方法1、影响测量信度的主要因素(1)被试方面(2)主试方面(3)施测情境方面(4)测量工具方面(5)两次施测的间隔时间方面(六)提高信度的方法1、影响测量信度的主要因素372、提高测量信度的常用方法(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差2、提高测量信度的常用方法(1)适当增加测验的长度38二、效度的概念(一)什么是效度效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。(1)测量的效度是相对一定的测量目的而言的(2)测量的效度是相对测量的结果而言的2、一种测量的效度只是高或低的问题测量结果总是有一定效度的,只是效度高低不同罢了。二、效度的概念(一)什么是效度39(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。1、内容效度就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效402、内容效度的估计(1)逻辑分析法其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(2)统计分析法从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。2、内容效度的估计(1)逻辑分析法41例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?学生序号12345678910教学前X34403230313544334236教学后Y52645054586372626250例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元42结论然后根据自由度df=N-1=9,查t值表,寻得0.01显著性水平t的双侧临界值为t(9)0.01=4.781,而实际计算出的[t]=13.9>4.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,《社会发展史》中该单元测验的内容具有有效性,或内容效度较高。结论然后根据自由度df=N-1=9,查t值表,寻得0.01显43内容效度的适用范围内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。内容效度的适用范围内容效度主要应用于成就测验、学科测验、选拔442、结构效度是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。2、结构效度是指测验对于人的心理特性或理论概念测量到的程度。45(2)建立结构效度的步骤A、提出理论假设;B、根据假定结构拟定测题,编制测验;C、以测验结果为根据来验证假设结构中的各种因素是否成立。(2)建立结构效度的步骤46(3)结构效度的估计A、因素分析法其目的是把一些具有复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。B、多元特质多重方法矩阵法是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。(3)结构效度的估计A、因素分析法47结构效度的估计从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方法测量不同特质的相关次之;以不同方法测量不同特质的相关为最低。与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。结构效度的估计从理论上说,以不同方法测量同一特质的相关应当为483、效标关联效度是以测验分数和效标之间的相关系数来表示测验效度高低的方法。例如:某年全国高考物理学科的测验效度,可用高三物理学科的会考分数为效标,然后求同一组学生高考物理得分与高三会考物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零相关有显著性差异时,相关系数的值(正值)越大,效度就越高;相关系数的值越小,效度就越低。3、效标关联效度是以测验分数和效标之间的相关系数来表示测验效49效标关联效度效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。教育测验的效标,可采用各学科成绩和教师评定的结果;智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。效标关联效度效标不仅随测验的种类不同而不同,而且可能随时间而50效标关联效度的估计方法(1)相关法由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。积差相关法:适用于两个变量为连续变量进行显著性检验:自由度df=N-2,检验的是两个变量,都减去2;置信度取0.05,查相关系数界值表,寻找临界值;结论:r>临界值,说明显著相关,效度高;r<临界值,说明无相关,效度低。效标关联效度的估计方法(1)相关法51(三)提高测量效度的方法1、影响测量效度的因素测验的构成(要素)测验实施方面(过程)被试主观状态方面估计效度所依循的效标样本方面(三)提高测量效度的方法1、影响测量效度的因素522、提高测量效度的方法控制系统误差精心编制测验量表扩充样本的容量和代表性合理处理效度和信度的关系妥善组织测验适当增加测验长度2、提高测量效度的方法控制系统误差53第三章教育测量与评价的质量特性课件54测量误差及其来源(一)测量误差的含义测量误差指的是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。测量误差及其来源(一)测量误差的含义55(二)测量误差的种类1、随机误差:由与测量目的无关的、偶然因素引起的、而又不易控制的误差。2、系统误差:那种由与测量目的无关的变因引起的一种恒定而有规律的效应。(二)测量误差的种类56
系统误差:只影响测量的准确性,不影响稳定性。随机误差:既影响稳定性,又影响准确性。系统误差:只影响测量的准确性,不影响稳定性。57(三)测量误差的来源测量工具、被测对象、施测过程1、测量工具:所编制的测验是否稳定、是否真正测到了我们所要测的东西,是测量工具造成误差的两种主要原因。(三)测量误差的来源582、测量对象:受测者真正水平是否得到正常发挥。
3、测量过程:主要是一些偶然因素。2、测量对象:受测者真正水平是否得到正常发挥。59三、难度难度是指试题的难易程度。一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关,由于学得不清楚或者因被试没学过,一个本来容易的题可能变难。这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。三、难度难度是指试题的难易程度。60难度的计算(一)基本公式1、客观题难度的计算P=R/NR为答对该试题人数,N为参加测验总人数例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难?难度的计算(一)基本公式612、主观题难度的计算P=X/XmaxX为所有被试在该项目上的平均得分;Xmax为该项目的满分。例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度?例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度?例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?2、主观题难度的计算P=X/Xmax62(2)极端分组法步骤:将测验总分进行高低排序(由高到低)进行高低分组(各取27%),并计算某题的得分率求两组的平均值公式:P=(PH+PL)/2PH为高分组答对该题的百分比;PL为低分组答对该题的百分比。(2)极端分组法步骤:63例5某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度?如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度?例5某区域1000人参加考试,试卷第一题高分组180人答对,642、难度的分析与控制(1)难度分析进行难度分析的主要目的是为了筛选题目。A、测验题目难度水平的确定测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试做最大的程度的区分。但在实际工作中,若每一题的难度值均为0.50,那么此测验很可能只能区分出好与差两种极端被试的差异,却不能对各种被试作更精确的区分。因此,一般各题的难度可在0.50+20之间。2、难度的分析与控制(1)难度分析65B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。由于多数人的心理特性多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题662、难度的控制一般说来,影响题目难度的主要因素有:考察知识点的多少;考察能力的复杂程度或层次的高低;考生对题目的熟悉态度;命题的技巧。难度控制:正确估计考生水平;弄清弄懂各知识点;掌握命题技巧。2、难度的控制一般说来,影响题目难度的主要因素有:67四、区分度(一)区分度的含义指测验题目对考生实际水平的区分程度或鉴别能力。如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。区分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。区分度(D)的取值范围介于-1.00—+1.00之间,值越大,区分度的效果越佳。区分度D>0为正区分,D<0为负区分,D=0为零区分四、区分度(一)区分度的含义68(二)区分度的计算1、极端分组法(1)客观性试题D=PH-PLPH为高分组的难度,PL为低分组的难度例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?(二)区分度的计算1、极端分组法69(2)主观题D=(XH-XL)/N(H-L)XH为高分组得分总数XL为低分组得分总数H为该道题的最高分L为该道题的最低分N为应试总人数的27%。(2)主观题D=(XH-XL)/N(H-L)70(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适中题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。2、着重考察复杂的学习结果使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。3、掌握区分度的评价标准。(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适71作业1、用某量表测验10名学生,得分记为X,为了考察结果的可靠性,于15天后用原量表对这10个学生重测一次,得分记为Y,问测验结果是否可靠?学生序号12345678910X810961075794Y9101061084894作业1、用某量表测验10名学生,得分记为X,为了考察结果的可72第三章教育测量与评价的质量特性内蒙古师范大学教育科学学院2012年11月12日296957701第三章教育测量与评价的质量特性内蒙古师范大学教育科学学院73第一节教育测量与评价中常用的统计参数一、平均数和标准差平均数表示原始分数的总和N表示分数的个数第一节教育测量与评价中常用的统计参数一、平均数和标准差表示74平均数和标准差方差:也称变异数、均方。用符号表示标准差:即方差的平方根,用S或SD表示。平均数和标准差方差:也称变异数、均方。用符号表示75二、相关及相关系数(一)什么是相关1.事物之间的相互关系因果关系共变关系相关关系二、相关及相关系数(一)什么是相关762.相关的类别正相关负相关零相关,即无相关2.相关的类别77(二)相关系数是两例变量间相关程度的数字表现形式,或者说是用来表示相关关系强度的指标。常用r表示。相关系数的取值范围:-1≤r≤1(二)相关系数是两例变量间相关程度的数字表现形式,或者说是用78(三)积差相关简称皮尔逊相关,又称为积距相关。揭示两个变量线性相关方向和程度最常用和最基本的方法。需要满足一下条件:要求成对的数据。两例变量各自总体的分布都是正态。两个相关的变量是连续变量。两例变量之间的关系是直线性的。(三)积差相关简称皮尔逊相关,又称为积距相关。揭示两个变量线79利用原始数据计算积差相关的公式利用原始数据计算积差相关的公式80例:10名中学生身高与体重的测量结果,问身高与体重的关系如何?被试编号身高(X)体重(Y)X2 Y2 XY 1 170 50 28900 2500 8500 2 173 45 29929 2025 7785 3 160 47 25600 2209 7520 4 155 44 24025 1936 6820 5 173 50 29929 2500 8650 6 188 53 35344 2809 9964 7 178 50 31684 2500 8900 8 183 49 33489 2401 8967 9 180 52 32400 2704 9360 10 165 45 27225 2025 7425 Σ 1725 485 298525 23609 83891
例:10名中学生身高与体重的测量结果,问身高与体重的关系如何81(四)斯皮尔曼等级相关则是皮尔逊相关系数的延伸。是等级相关的一种。常用符号rR或rs表示。主要用于解决名称数据和顺序数据的相关问题。对于属于等距或等比性质的连续变量数据,若按其取值大小,赋以等级顺序,转化为顺序变量数据,亦可计算等级相关,此时不必考虑是否正态。适用于连续变量数据小于30,精确度稍差于积差相关(四)斯皮尔曼等级相关则是皮尔逊相关系数的延伸。是等级相关的82斯皮尔曼等级相关的计算公式斯皮尔曼等级相关的计算公式83例:现有10人的视、听两种感觉通道的反应时,问视听反应时是否具有一致性被试编号 身高(X)体重(Y)Rx RYD=Rx-RY D2 RxRY
1 172 179 7 5 2 4 35 2 140 162 2 2 0 0 4 3 152 153 5 1 4 16 5 4 187 189 8 8 0 0 64 5 139 181 1 6 -5 25 6 6 195 220 9 10 -1 1 90 7 212 210 19 1 1 90 8 164 182 6 7 -1 1 42 9 149 178 4 4 0 0 16 10 146 170 3 3 0 0 9 Σ 55 55 48 361 例:现有10人的视、听两种感觉通道的反应时,问视听反应时是否84第二章教育测量的质量指标衡量教育测量的质量,可采用四个指标:信度主要对整个测量而言。效度
难度主要对测量的项目而言。区分度第二章教育测量的质量指标衡量教育测量的质量,可采用四个指85一、信度概述(一)什么是信度信度是指测量结果的稳定性或可靠性程度。必须从以下两个方面去理解测量的信度:
信度指实测值(X)真值(T)相差的程度信度指同一个测验(或相等的两个、多个测验)对同一组被试施测两次或多次,所得结果的一致性程度,也即测验的可靠性。两次重复测量或等值测量之间的关联程度。一、信度概述(一)什么是信度86(二)信度的估计方法1、重复信度(再测信度)指的是同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。(二)信度的估计方法1、重复信度(再测信度)87例一用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?序号123456789101112X202021222323232425262627Y202121202323252526262729例一用一个算术四则的速度测验12个小学生,得分记为X,为了考88在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为[0,1],当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、应注意提高被试者的积极性。在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值89再测信度的优缺点优点:(1)它最符合重复测验的涵义(2)比编制两套等值测验题目要省力、省时(3)所测量的属性是完全相同的。缺点:(1)使第二次测验分数有系统地增加(2)如果两次施测时间太长,被试身心的发展、新知识的获得,导致两次测验结果的不相同(3)容易失去被试的兴趣(4)收到被试在两次施测时的主观状态(5)两次施测的环境不同而产生测量误差。再测信度的优缺点优点:(1)它最符合重复测验的涵义(2)比编90再测信度的适用范围适用于异质性测验适用于速度测验而不适用于难度测验还适用于运动技能的测验,如跑、跳、掷等项目测验。再测信度的适用范围适用于异质性测验912、复本信度指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。2、复本信度指的是两个平等的测验测量同一批被试所得结果的一致92例二以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212例二以A、B两型英语复本测验对初中三年级10个学生施测,为避93复本信度的优缺点表现:优点:1、一个测验有两个或几个复本,这意味着对于测验同一种属性具有两个或几个行为样本。2、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;3、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。复本信度的优缺点表现:优点:94缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分95复本信度的适用范围不仅适用于难度测验,也是估计速度测验信度的最好方法。在作追踪研究或探讨某些影响测验成绩的因素时,大多使用复本测验。复本信度的适用范围不仅适用于难度测验,也是估计速度测验信度的96(三)内在一致性信度内在一致性信度主要是指测验内部(即测题之间)的一致性程度,主要包括分半信度和同质性信度。(三)内在一致性信度内在一致性信度主要是指测验内部(即测题之971、折半信度(分半信度)就是将一个测验分成对等的两半后,再求被试在每一半测验上所得分数的一致性程度(相关系数)。首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼—布朗公式加以校正。斯皮尔曼—布朗公式为1、折半信度(分半信度)就是将一个测验分成对等的两半后,再求98斯皮尔曼—布朗公式为整个测验的信度系数为两个“半测验”上得分的相关系数斯皮尔曼—布朗公式99例:一个测验向15名被试施测,被试在奇偶数分半测验上的得分如表所示,计算该测验的分半信度系数。被试123456789101112131415奇数题2018232117182017161314131288偶数题2022192218151417151614121076计算两个“半测验”得分的积差相关系数为0.86
=0.92例:一个测验向15名被试施测,被试在奇偶数分半测验上的得分如1002.同质性信度同质性信度是指测验内部所有题目间的一致性程度。所有题目测的是同一种心理特质所有题目得分之间都具有较高的正相关也就是说,同质性信度就是一个测验所测内容或特质的相同程度。2.同质性信度同质性信度是指测验内部所有题目间的一致性程度。101(1)二分法计分测验的同质性信度库德—理查逊信度KR20为测验信度;K为题目数;Pi和qi分别表示答对和打错第i题的被试人数比例;为测验总分的方差。测验的信度;是全体被试测验总分的平均数。(1)二分法计分测验的同质性信度库德—理查逊信度102例:三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错得0分,其测验结果如下表,试估计该测验的折半信度学生序号题序123456总分110000012100100230110002411001035100100261110115711110158110110490110013101111116P0.80.70.50.50.40.4q0.20.30.50.50.60.6pq0.160.210.250.250.240.24∑=1.35例:三对初中一年级学生进行地理成绩测验,每答对1题得1分,答103(2)非二分法记分测验的同质性信度克龙巴赫a系数,计算公式为:
表示所有被试在第i题上的方差;表示所有被试各自总分的方差,K为题目数。(2)非二分法记分测验的同质性信度克龙巴赫a系数,计算公式为1043.内在一致性信度的优缺点优点(1)应用方便,避免再测信度的缺点;(2)具有同时性复本信度的优点;(3)在使用K-R20时,对测题的假定或前提条件,要求相对较少,它不仅是信度的近似值,而且是决定测验信度非常正确的方法。缺点:(1)将一个测验分成内容、形式、题数、平均数、标准差、分布形态都相等的两部分,实际上是很困难的;(2)分半的方法不同,估计出的信度系数也有所不同;(3)若用斯皮尔曼—布朗公式对分半信度进行校正,会高估了测验的信度。3.内在一致性信度的优缺点优点(1)应用方便,避免再测信度的1054.内在一致性信度的适用范围适用于同质性测验,而不适用与异质性测验适用于难度测验,而不适用于速度测验。4.内在一致性信度的适用范围适用于同质性测验,而不适用与异质106(四)评分者的信度是指多位评分者对同一组被试作答反应评分的一致性程度。两位评分者时,采用积差相关或等级相关的方法来进行计算。三人以上,而且等级记分时,采用肯德尔和谐系数来求评分者信度。(四)评分者的信度是指多位评分者对同一组被试作答反应评分的一107(五)标准参照测验的信度分析百分比一致性指标是指同一测验或两平行测验先后两次施测,其对被试的分类结果一致的比例。(五)标准参照测验的信度分析百分比一致性指标是指同一测验或两108(六)提高信度的方法1、影响测量信度的主要因素(1)被试方面(2)主试方面(3)施测情境方面(4)测量工具方面(5)两次施测的间隔时间方面(六)提高信度的方法1、影响测量信度的主要因素1092、提高测量信度的常用方法(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差2、提高测量信度的常用方法(1)适当增加测验的长度110二、效度的概念(一)什么是效度效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。(1)测量的效度是相对一定的测量目的而言的(2)测量的效度是相对测量的结果而言的2、一种测量的效度只是高或低的问题测量结果总是有一定效度的,只是效度高低不同罢了。二、效度的概念(一)什么是效度111(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。1、内容效度就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效1122、内容效度的估计(1)逻辑分析法其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(2)统计分析法从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。2、内容效度的估计(1)逻辑分析法113例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?学生序号12345678910教学前X34403230313544334236教学后Y52645054586372626250例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元114结论然后根据自由度df=N-1=9,查t值表,寻得0.01显著性水平t的双侧临界值为t(9)0.01=4.781,而实际计算出的[t]=13.9>4.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,《社会发展史》中该单元测验的内容具有有效性,或内容效度较高。结论然后根据自由度df=N-1=9,查t值表,寻得0.01显115内容效度的适用范围内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。内容效度的适用范围内容效度主要应用于成就测验、学科测验、选拔1162、结构效度是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。2、结构效度是指测验对于人的心理特性或理论概念测量到的程度。117(2)建立结构效度的步骤A、提出理论假设;B、根据假定结构拟定测题,编制测验;C、以测验结果为根据来验证假设结构中的各种因素是否成立。(2)建立结构效度的步骤118(3)结构效度的估计A、因素分析法其目的是把一些具有复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。B、多元特质多重方法矩阵法是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。(3)结构效度的估计A、因素分析法119结构效度的估计从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方法测量不同特质的相关次之;以不同方法测量不同特质的相关为最低。与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。结构效度的估计从理论上说,以不同方法测量同一特质的相关应当为1203、效标关联效度是以测验分数和效标之间的相关系数来表示测验效度高低的方法。例如:某年全国高考物理学科的测验效度,可用高三物理学科的会考分数为效标,然后求同一组学生高考物理得分与高三会考物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零相关有显著性差异时,相关系数的值(正值)越大,效度就越高;相关系数的值越小,效度就越低。3、效标关联效度是以测验分数和效标之间的相关系数来表示测验效121效标关联效度效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。教育测验的效标,可采用各学科成绩和教师评定的结果;智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。效标关联效度效标不仅随测验的种类不同而不同,而且可能随时间而122效标关联效度的估计方法(1)相关法由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。积差相关法:适用于两个变量为连续变量进行显著性检验:自由度df=N-2,检验的是两个变量,都减去2;置信度取0.05,查相关系数界值表,寻找临界值;结论:r>临界值,说明显著相关,效度高;r<临界值,说明无相关,效度低。效标关联效度的估计方法(1)相关法123(三)提高测量效度的方法1、影响测量效度的因素测验的构成(要素)测验实施方面(过程)被试主观状态方面估计效度所依循的效标样本方面(三)提高测量效度的方法1、影响测量效度的因素1242、提高测量效度的方法控制系统误差精心编制测验量表扩充样本的容量和代表性合理处理效度和信度的关系妥善组织测验适当增加测验长度2、提高测量效度的方法控制系统误差125第三章教育测量与评价的质量特性课件126测量误差及其来源(一)测量误差的含义测量误差指的是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。测量误差及其来源(一)测量误差的含义127(二)测量误差的种类1、随机误差:由与测量目的无关的、偶然因素引起的、而又不易控制的误差。2、系统误差:那种由与测量目的无关的变因引起的一种恒定而有规律的效应。(二)测量误差的种类128
系统误差:只影响测量的准确性,不影响稳定性。随机误差:既影响稳定性,又影响准确性。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省惠州市惠城区第一中学2025届中考生物适应性模拟试题含解析
- 浙江省宁波市江北中学2025届中考五模生物试题含解析
- 全国市级联考湖南省邵阳市重点中学2025届中考考前最后一卷生物试卷含解析
- 四川省泸县2025届中考生物全真模拟试卷含解析
- 安装承包合同协议
- 金融借款合同集合年
- 会计外包服务合同范本正规范本
- 安装铝合金门窗协议书
- 民间装修合同范本
- 技术支持与维护协议
- 锂离子电池健康评估及剩余使用寿命预测方法研究
- c30混凝土路面施工方案
- 颈椎骨折的护理常规课件
- 电商运营销售计划Excel模版
- 2022-2023学年上海市杨浦区上海同济大附属存志学校七年级数学第二学期期中综合测试模拟试题含解析
- 稿件修改说明(模板)
- GB/T 33107-2016工业用碳酸二甲酯
- GB/T 16604-2017涤纶工业长丝
- 劳动合同法经典讲义
- 工时定额编制标准(焊接)
- 三位数乘一位数练习题(精选100道)
评论
0/150
提交评论