教育测量与评价测量指标课件_第1页
教育测量与评价测量指标课件_第2页
教育测量与评价测量指标课件_第3页
教育测量与评价测量指标课件_第4页
教育测量与评价测量指标课件_第5页
已阅读5页,还剩127页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育测量与评价——测量的质量指标教育测量与评价——测量的质量指标1教育测量的质量指标衡量教育测量的质量,可采用四个指标:信度主要对整个测量而言。效度难度主要对测量的项目而言。区分度教育测量的质量指标衡量教育测量的质量,可采用四个指标:2一、信度概述(一)什么是信度信度是指测量结果的稳定性或可靠性程度。一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度:信度指实测值(X)和真值(T)相差的程度;信度指两次重复测量或等值测量之间的关联程度。一、信度概述(一)什么是信度3(二)信度的估计方法1、重复信度(再测信度)指的是同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。(二)信度的估计方法1、重复信度(再测信度)4例一用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?学生序号123456789101112X202021222323232425262627Y202121202323252526262729例一用一个算术四则的速度测验12个小学生,得分记为X,为了考5在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为[0,1],当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、应注意提高被试者的积极性。在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值62、复本信度指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。2、复本信度指的是两个平等的测验测量同一批被试所得结果的一致7例二以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212例二以A、B两型英语复本测验对初中三年级10个学生施测,为避8复本信度的优缺点表现:优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。复本信度的优缺点表现:优点:9缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分103、折半信度(分半信度)就是将测验分半,再求被试在每一半测验上所得分数的相关系数。首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼—布朗公式加以校正。斯皮尔曼—布朗公式为3、折半信度(分半信度)就是将测验分半,再求被试在每一半测验11例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的折半信度?学生序号题序12345611000002000100310100041100105100100611101171111018110110901100110111111例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错12(三)提高信度的方法1、影响测量信度的主要因素(1)被试方面(2)主试方面(3)施测情境方面(4)测量工具方面(5)两次施测的间隔时间方面(三)提高信度的方法1、影响测量信度的主要因素132、提高测量信度的常用方法(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差2、提高测量信度的常用方法(1)适当增加测验的长度14二、效度的概念(一)什么是效度效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。(1)测量的效度是相对一定的测量目的而言的(2)测量的效度是相对测量的结果而言的2、一种测量的效度只是高或低的问题测量结果总是有一定效度的,只是效度高低不同罢了。二、效度的概念(一)什么是效度15(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。1、内容效度就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效162、内容效度的估计(1)逻辑分析法其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(2)统计分析法从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。采用求统计量的公式进行计算,其公式有以下三种形式:2、内容效度的估计(1)逻辑分析法17例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?学生序号12345678910教学前X34403230313544334236教学后Y52645054586372626250例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元18结论然后根据自由度df=N-1=9,查t值表,寻得0.01显著性水平t的双侧临界值为t(9)0.01=4.781,而实际计算出的[t]=13.9>74.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,《社会发展史》中该单元测验的内容具有有效性,或内容效度较高。结论然后根据自由度df=N-1=9,查t值表,寻得0.01显19内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。202、结构效度是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。2、结构效度是指测验对于人的心理特性或理论概念测量到的程度。21(1)结构效度的特点结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。(1)结构效度的特点结构效度的大小完全取决于事先假定的心理特22(2)建立结构效度的步骤A、提出理论假设;B、根据假定结构拟定测题,编制测验;C、以测验结果为根据来验证假设结构中的各种因素是否成立。(2)建立结构效度的步骤23(3)结构效度的估计A、因素分析法其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。B、多元特质多重方法矩阵法是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。(3)结构效度的估计A、因素分析法24从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方法测量不同特质的相关次之;以不同方法测量特质的相关为最低。与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方253、效标关联效度是以测验分数和效标之间的相关系数来表示测验效度高低的方法。例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零相关有显著性差异时,相关系数的值(正值)越大,效度就越高;相关系数的值越小,效度就越低。3、效标关联效度是以测验分数和效标之间的相关系数来表示测验效26效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。教育测验的效标,可采用各学科成绩和教师评定的结果;智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是27效标关联效度的估计方法(1)相关法由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。A、积差相关法:适用于两个变量为连续变量进行显著性检验:自由度df=N-2,检验的是两个变量,都减去2;置信度取0.05,查相关系数界值表,寻找临界值;结论:r>临界值,说明显著相关,效度高;r<临界值,说明无相关,效度低。效标关联效度的估计方法(1)相关法28例二用一套高中数学成就测验对某校高一10个学生施测,其测验分数X如下,并以这些学生的物理学科考试成绩为效标,试估计高中数学成就测验的效标关联效度系数,且检验数学和物理两成绩变量是否相关?效度如何?学生序号12345678910数学X88806860963232646475物理Y94785648703862787082例二用一套高中数学成就测验对某校高一10个学生施测,其测验分29B、等级相关法如找不到效标分数,可用等级分数(即排名的次数)来替代适用于连续变量数据小于30,精确度稍差于积差相关B、等级相关法30例三高中一年级学生10个学生数学测验与物理学科成绩如下表,试计算数学测验的效标关联效度系数?学生序号12345678910原始分X88806860963232646475数学等级Rx235819.59.56.56.54原始分Y94785648703862787082物理等级Ry13.5895.51073.55.52例三高中一年级学生10个学生数学测验与物理学科成绩如下表,试31C、点二列相关法当测验分数和效标分数其中一个变量为连续变量,而另一个为真正的二分变量时,测验的效标关联效度系数用点二列相关系数来表示。适用于两变量:一列变量为连续变量;另一列变量为二分名义变量。C、点二列相关法当测验分数和效标分数其中一个变量为连续变量,32例四对16个学生的某一学科进行测验,所得测验分数如下,并从中探求学生的这次考试的成绩与其预习与不预习的关系如何,也就是试估计学科成绩测验的效标关联效度?(其中预习用1表示,不预习用0表示)学生12345678910111213141516成绩97927568749978807064879654869380预习1010110101010110例四对16个学生的某一学科进行测验,所得测验分数如下,并从中332、区分法该方法的思路是:被试接受测验后,让他们工作一段时间,再根据工作成绩好坏分成两组,然后再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。2、区分法该方法的思路是:被试接受测验后,让他们工作一段时间34(三)提高测量效度的方法1、影响测量效度的因素测验的构成(要素)测验实施方面(过程)被试主观状态方面估计效度所依循的效标样本方面(三)提高测量效度的方法1、影响测量效度的因素352、提高测量效度的方法控制系统误差精心编制测验量表扩充样本的容量和代表性合理处理效度和信度的关系妥善组织测验适当增加测验长度2、提高测量效度的方法控制系统误差36三、难度难度是指试题的难易程度。一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关,由于学得不清楚或者因被试没学过,一个本来容易的题可能变难。这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。三、难度难度是指试题的难易程度。37难度的计算(一)基本公式1、客观题难度的计算P=R/NR为答对该试题人数,N为参加测验总人数例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难?难度的计算(一)基本公式382、主观题难度的计算例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度?例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度?例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?2、主观题难度的计算例2:某道论述题满分12分,所有考生在这39(2)极端分组法步骤:将测验总分进行高低排序(由高到低)进行高低分组(各取27%),并计算某题的得分率求两组的平均值公式:P=(PH+PL)/2PH为高分组答对该题的百分比;PL为低分组答对该题的百分比。(2)极端分组法步骤:40例5某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度?如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度?例5某区域1000人参加考试,试卷第一题高分组180人答对,412、难度的分析与控制(1)难度分析进行难度分析的主要目的是为了筛选题目。A、测验题目难度水平的确定测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试做最大的程度的区分。但在实际工作中,若每一题的难度值均为0.50,那么此测验很可能只能区分出好与差两种极端被试的差异,却不能对各种被试作更精确的区分。因此,一般各题的难度可在0.50+20之间。2、难度的分析与控制(1)难度分析42B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。由于多数人的心理特性多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题432、难度的控制一般说来,影响题目难度的主要因素有:考察知识点的多少;考察能力的复杂程度或层次的高低;考生对题目的熟悉态度;命题的技巧。难度控制:正确估计考生水平;弄清弄懂各知识点;掌握命题技巧。2、难度的控制一般说来,影响题目难度的主要因素有:44四、区分度(一)区分度的含义指测验题目对考生实际水平的区分程度或鉴别能力。如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。区分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。区分度(D)的取值范围介于-1.00—+1.00之间,值越大,区分度的效果越佳。区分度D>0为正区分,D<0为负区分,D=0为零区分四、区分度(一)区分度的含义45(二)区分度的计算1、极端分组法(1)客观性试题D=PH-PL例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?(二)区分度的计算1、极端分组法46(2)主观题D=(XH-XL)/N(H-L)XH为高分组得分总数XL为低分组得分总数H为该道题的最高分L为该道题的最低分N为应试总人数的27%。(2)主观题D=(XH-XL)/N(H-L)47例7高分组低分组得分X人次f得分X人次f545043413231212310140004例7高分组482、相关法点二列相关法例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度?学生123456789101112131415测验657031498050351081697855779042第一题0101101001101102、相关法点二列相关法49二列相关例9:已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试20人总分的标准差为16,求该题的区分度?二列相关50(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适中题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。2、着重考察复杂的学习结果使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。3、掌握区分度的评价标准。(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适51第三章教育测验的编制与实施一、教育测验编制的一般程序(一)确定测验目标1、什么是测验目标测验目标是测验编制者所编制的测验所要达到的某种具体的目的。它明确规定测验所要达到的预期结果或标准。确定测验目标是编制测验的首要前提。第三章教育测验的编制与实施一、教育测验编制的一般程序522、测验目标与教育目标分类测验目标的确定是以教育目标分类理论为基础的。(1)布鲁姆的认知目标领域知识:这是最低等级的认知目标。主要指记忆知识。对学过的知识和有关材料的识别和再现。理解:这是最低层次的理解。主要是对知识的掌握,其特点是脱离了“死记硬背”。应用:指的是将学过的材料(知识)应用到新的具体情景中去。分析:指能将知识进行分解,找出组成要素,并分析其相互关系及组成原理。综合:与分析相反,指把各个元素或部分组成新的整体。评价:指根据一定的标准对事物给予价值判断。2、测验目标与教育目标分类测验目标的确定是以教育目标分类理论53布氏上述六类目标是有层次、有顺序的,知识是最低层次,是最基本的要求。其余依次是理解、应用、分析、综合、评价。评价为认知领域的最高层次,是前面五种目标的综合并增加了价值标准。这六类目标,由简单到复杂,由低级到高级依次排列,组成层次结构。布氏上述六类目标是有层次、有顺序的,知识是最低层次,是最基本54(2)我国认知目标的分类A、五分法知识理解应用分析综合创造B、四分法识记理解简单运用综合运用(2)我国认知目标的分类A、五分法55(二)确定测验内容测验内容的确定,实际上也就是内容抽样的决定和测验目标的确立相结合而成。这一结合过程必须通过命题双向细目表来确定。命题双向细目表由3个要素构成:测验目标测验内容测验目标和测验内容的比例(二)确定测验内容测验内容的确定,实际上也就是内容抽样的决定56比例确定标准每一内容范围的比例应与该内容项目在整个教学领域里的相对重要性相符合,这种相对重要性可由该内容项目的教学课时的多少来体现;每一目标层次所要求的比例应当与测验编制者认为这个目标对所受测学生的水平所具有的重要性相符。测验双向细目表,是编制测验的蓝图,它详细说明了测验的内容、测验目标,对试题数量、考试时间安排、测验分数分配等,都起着重要作用,因此,它是编制测验必不可少的一环。比例确定标准每一内容范围的比例应与该内容项目在整个教学领域里57测验材料的收集必须遵循的原则:1、测验材料要适合测验目的2、测验材料要能够代表该教材的全部内容3、测验材料要有普遍性4、测验材料要适合学生程度并能鉴别学生的学习水平5、测验材料要能激发学生的进取心测验材料的收集必须遵循的原则:1、测验材料要适合测验目的58(三)测验设计1、测验形式的确定2、测验题目形式的确定3、测验具体题型的确定与题目编制4、测验题目量的确定5、测验时间的确定6、测验题目的编制先按试题的形式及内容分类从易到难排列(三)测验设计1、测验形式的确定59二、测验题目编制技术1、客观性测验题目的编制(约占60%左右)试题应反映教学内容的重点或教学过程中要求学生掌握的有意义的内容和知识点;务必使每道试题自成一体,不可互相牵扯;试题文字力求浅显易懂,题意明确;试题的答案应该是明确且唯一的;试题应按教育目标的要求,内容不能超过受测者的知识和能力。二、测验题目编制技术1、客观性测验题目的编制(约占60%左右602、主观性测验题目的编制(大约占40%左右)试题应考查教育内容中的重要问题;把问题和实际情景结合起来,强调知识的应用;要给被试发挥自己创造力的余地;要使答案的复杂程度与被试的成熟程度相符。2、主观性测验题目的编制(大约占40%左右)试题应考查教育内61三、教育测量分数的整理和分析编制频数分布表求组中值求全矩求组数求组限画频数分布曲线图三、教育测量分数的整理和分析编制频数分布表62分析频数曲线图1、常态分布即成绩中等的多,优秀和差的少,俗称“中间大,两头小”。学生的学业成绩呈常态分布,表明能正确、客观地反映学生真实的知识程度和能力水平。这是因为学生智力及其差异,一般是呈常态分配的;另外,教学大纲的制定、教材的编写、考试命题都是从大多数中等程度学生的实际出发,为大多数中等水平的学生经过努力能接受的。2、正偏态分布即低分人数很多,高分人数很少。学生的学业成绩呈正偏态分布,表明测试难度过大,考试要求过高,超越大纲和教材的要求;或者学生的基础差,应调整试题的难度或教学进度。3、负偏态分布即高分人数很多,低分人数很少。学生的学业成绩呈负偏态分布,表明测试较易,考试要求低于大纲或教材要求;或学生的基础好,应加大试题的难度和教学的进度。分析频数曲线图1、常态分布634、驼峰型分布即低分高分人数很多,中分人数很少。学生的学业成绩呈驼峰型分布,表明试题难度过大和过小的题较多,中等难度的太少;或表明学生基础相差悬殊,好的和差的学生多,中等程度的学生较少。5、平波型分布即中低高分人数差不多。学生的学业成绩呈平波型分布,表明大中小几种难度的试题比较接近,或学生的基础相差不大,试题区分度低,需要提高区分度。6、陡峭型分布即中分人数很多,低高分人数极少。学生的学业成绩呈陡峭型分布,表明难度中等的试题比例过大,缺乏区分度或学生的基础相差不大,要提高试题的区分度。4、驼峰型分布64学生的成绩分布曲线的形态多种多样,是教学过程中多种现象的反映,这些现象都是通过原因与结果的连续和交织形成的。造成这种现象的原因是复杂的,往往与教师的教学态度、教学水平、教学经验有关,与学生的学习态度、学习基础、学习方法、学习习惯有关,与学校的思想政治工作和行政管理工作质量有关,与社会因素和家庭教育有关。学生的成绩分布曲线的形态多种多样,是教学过程中多种现象的反映65逐题分析法就是对试卷中每一道题的得分和失分情况进行分析,将每题的高分率(指该题高于应得分数的90%的人数的百分比)、及格率、不及格率和零分率统计出来,以便分析学生对每道试题的掌握情况和存在问题。逐题分析法66教育测量与评价——测量的质量指标教育测量与评价——测量的质量指标67教育测量的质量指标衡量教育测量的质量,可采用四个指标:信度主要对整个测量而言。效度难度主要对测量的项目而言。区分度教育测量的质量指标衡量教育测量的质量,可采用四个指标:68一、信度概述(一)什么是信度信度是指测量结果的稳定性或可靠性程度。一般地说,一个好的测量必须具有较高的信度,也就是说,一个好的测量工具,只要遵守操作规则,其结果就不应随工具的使用者或使用时间等方面的变化而发生较大的变化。必须从以下两个方面去理解测量的信度:信度指实测值(X)和真值(T)相差的程度;信度指两次重复测量或等值测量之间的关联程度。一、信度概述(一)什么是信度69(二)信度的估计方法1、重复信度(再测信度)指的是同一个量表对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数,一般采用皮尔逊积差相关的公式来计算。(二)信度的估计方法1、重复信度(再测信度)70例一用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?学生序号123456789101112X202021222323232425262627Y202121202323252526262729例一用一个算术四则的速度测验12个小学生,得分记为X,为了考71在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值范围为[0,1],当信度值较大时,说明前后两次测量结果比较一致;2、两次测验之间的时间间隔要适宜。应由测验的性质、测题类型、测题数量和被试特点所决定;3、重测法适用于速度测验而不适用于难度测验;4、应注意提高被试者的积极性。在使用重测法计算稳定性系数时,应注意以下问题:1、信度的取值722、复本信度指的是两个平等的测验测量同一批被试所得结果的一致性程度。其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓复本测验是指在性质、内容、题型、题数、难度等方面都一致(或相等)的两份或多份测验。2、复本信度指的是两个平等的测验测量同一批被试所得结果的一致73例二以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212例二以A、B两型英语复本测验对初中三年级10个学生施测,为避74复本信度的优缺点表现:优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。复本信度的优缺点表现:优点:75缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分763、折半信度(分半信度)就是将测验分半,再求被试在每一半测验上所得分数的相关系数。首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;然后计算每个被试在两个分半测验分数的积差相关系数,再用斯皮尔曼—布朗公式加以校正。斯皮尔曼—布朗公式为3、折半信度(分半信度)就是将测验分半,再求被试在每一半测验77例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1题得0分,其测验结果如下表,试估计该测验的折半信度?学生序号题序12345611000002000100310100041100105100100611101171111018110110901100110111111例三对初中一年级学生进行地理成绩测验,每答对1题得1分,答错78(三)提高信度的方法1、影响测量信度的主要因素(1)被试方面(2)主试方面(3)施测情境方面(4)测量工具方面(5)两次施测的间隔时间方面(三)提高信度的方法1、影响测量信度的主要因素792、提高测量信度的常用方法(1)适当增加测验的长度(2)测验的难度要适中(3)测验的内容应尽量同质(4)测验的程序应统一(5)测验的时间要充分(6)测验的评分要尽量做到客观化,减少评分误差2、提高测量信度的常用方法(1)适当增加测验的长度80二、效度的概念(一)什么是效度效度是指测量结果的准确性和有效性的程度。也可以说是测量是否达到了预期的目的。1、效度是一个相对的概念。(1)测量的效度是相对一定的测量目的而言的(2)测量的效度是相对测量的结果而言的2、一种测量的效度只是高或低的问题测量结果总是有一定效度的,只是效度高低不同罢了。二、效度的概念(一)什么是效度81(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效性程度的过程。1、内容效度就是指测验内容对所要测量的内容的代表性程度。也就是说,测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合;测验中测题所引起的行为是否是所要测量的属性的明确反应;测验的结果是否是一个有代表性的行为样本。为了使测验的内容具有有效性,成为所欲测量内容的一个具有代表性的行为样本,在编制测验时,就要考虑建立内容效度的问题。(二)效度的估计效度估计就是多方寻找证据来证明一个测验的有效822、内容效度的估计(1)逻辑分析法其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。(2)统计分析法从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关高,表明测验内容效度较高;若相关低,表示测验的内容效度较低。采用求统计量的公式进行计算,其公式有以下三种形式:2、内容效度的估计(1)逻辑分析法83例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元内容的测验。教学之后,再以复本测验施测,两次测验分数如下,试检定测验的内容效度?学生序号12345678910教学前X34403230313544334236教学后Y52645054586372626250例一在《社会发展史》某一单元教学之前,对学生进行有关这一单元84结论然后根据自由度df=N-1=9,查t值表,寻得0.01显著性水平t的双侧临界值为t(9)0.01=4.781,而实际计算出的[t]=13.9>74.781=t(9)0.01,于是可以说,教学前后学生在两个复本测验上得分的平均数有极显著性差异,从而可以作出判断,《社会发展史》中该单元测验的内容具有有效性,或内容效度较高。结论然后根据自由度df=N-1=9,查t值表,寻得0.01显85内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。内容效度不适合用于能力倾向和人格测验。内容效度主要应用于成就测验、学科测验、选拔和分类职业测验。862、结构效度是指测验对于人的心理特性或理论概念测量到的程度。通常用某种操作来定义,并用测验来测量。例如:人的创造力可以分解为人的思维流畅性、灵活性和创造性三大特性,并根据这三大特性编制测验,若有足够的证据来证明该测验确实可以测到这些特性,则认为该测验是个结构效度较高的创造力测验。2、结构效度是指测验对于人的心理特性或理论概念测量到的程度。87(1)结构效度的特点结构效度的大小完全取决于事先假定的心理特质理论,一旦人们对同一种心理特质有着不同的定义或假设,则会使得关于特质测验的结构效度的研究结果无法比较。当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度高。因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检查等情况,这就使得结构效度的获取更为困难。(1)结构效度的特点结构效度的大小完全取决于事先假定的心理特88(2)建立结构效度的步骤A、提出理论假设;B、根据假定结构拟定测题,编制测验;C、以测验结果为根据来验证假设结构中的各种因素是否成立。(2)建立结构效度的步骤89(3)结构效度的估计A、因素分析法其目的是把一些具有错综复杂关系的因素归结为数量较少的几个综合因素或称共同因素,并以此测验所测之特质对测验分数作出解释。B、多元特质多重方法矩阵法是由肯贝尔和菲斯克1959年提出的最受欢迎的一种结构效度的评估方法。这种方法的设想:若采用两种方法以上的方法去测量两种以上的特质,那么这些测量结果之间可以形成一个多元特质多重方法矩阵。(3)结构效度的估计A、因素分析法90从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方法测量不同特质的相关次之;以不同方法测量特质的相关为最低。与内容效度不同,结构效度主要用于智力测验、人格测验等一些心理测验方面。从理论上说,以不同方法测量同一特质的相关应当为最高;以相同方913、效标关联效度是以测验分数和效标之间的相关系数来表示测验效度高低的方法。例如:某年全国高考物理学科的测验效度,可用大学一年级物理学科的测验分数为效标,然后求同一组学生高考物理得分与大一物理得分之间的相关,此相关系数就是该年高考物理测验的效标关联效度系数。当这个相关系数与总体零相关有显著性差异时,相关系数的值(正值)越大,效度就越高;相关系数的值越小,效度就越低。3、效标关联效度是以测验分数和效标之间的相关系数来表示测验效92效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是一个好的成功的效标,将来就不一定是。所以,为某个测验选择一个最有效的效标,这是最重要的事情。教育测验的效标,可采用各学科成绩和教师评定的结果;智力测验的效标,可采用学科成绩、教师评判的结果、学生总成绩、受教育年限、年龄以及其他事物;能力倾向测验的效标,可采用特殊课程或特殊训练的成绩;职业兴趣测验的效标,可采用从业人员实际服务成绩或记录;人格测验的效标,可采用编制者的主观标准,或以被试以后行为或临床资料。效标不仅随测验的种类不同而不同,而且可能随时间而改变,现在是93效标关联效度的估计方法(1)相关法由于测验分数和效标分数这两个变量的类型不同,二者相关系数的计算方法也就不同。A、积差相关法:适用于两个变量为连续变量进行显著性检验:自由度df=N-2,检验的是两个变量,都减去2;置信度取0.05,查相关系数界值表,寻找临界值;结论:r>临界值,说明显著相关,效度高;r<临界值,说明无相关,效度低。效标关联效度的估计方法(1)相关法94例二用一套高中数学成就测验对某校高一10个学生施测,其测验分数X如下,并以这些学生的物理学科考试成绩为效标,试估计高中数学成就测验的效标关联效度系数,且检验数学和物理两成绩变量是否相关?效度如何?学生序号12345678910数学X88806860963232646475物理Y94785648703862787082例二用一套高中数学成就测验对某校高一10个学生施测,其测验分95B、等级相关法如找不到效标分数,可用等级分数(即排名的次数)来替代适用于连续变量数据小于30,精确度稍差于积差相关B、等级相关法96例三高中一年级学生10个学生数学测验与物理学科成绩如下表,试计算数学测验的效标关联效度系数?学生序号12345678910原始分X88806860963232646475数学等级Rx235819.59.56.56.54原始分Y94785648703862787082物理等级Ry13.5895.51073.55.52例三高中一年级学生10个学生数学测验与物理学科成绩如下表,试97C、点二列相关法当测验分数和效标分数其中一个变量为连续变量,而另一个为真正的二分变量时,测验的效标关联效度系数用点二列相关系数来表示。适用于两变量:一列变量为连续变量;另一列变量为二分名义变量。C、点二列相关法当测验分数和效标分数其中一个变量为连续变量,98例四对16个学生的某一学科进行测验,所得测验分数如下,并从中探求学生的这次考试的成绩与其预习与不预习的关系如何,也就是试估计学科成绩测验的效标关联效度?(其中预习用1表示,不预习用0表示)学生12345678910111213141516成绩97927568749978807064879654869380预习1010110101010110例四对16个学生的某一学科进行测验,所得测验分数如下,并从中992、区分法该方法的思路是:被试接受测验后,让他们工作一段时间,再根据工作成绩好坏分成两组,然后再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。2、区分法该方法的思路是:被试接受测验后,让他们工作一段时间100(三)提高测量效度的方法1、影响测量效度的因素测验的构成(要素)测验实施方面(过程)被试主观状态方面估计效度所依循的效标样本方面(三)提高测量效度的方法1、影响测量效度的因素1012、提高测量效度的方法控制系统误差精心编制测验量表扩充样本的容量和代表性合理处理效度和信度的关系妥善组织测验适当增加测验长度2、提高测量效度的方法控制系统误差102三、难度难度是指试题的难易程度。一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。一个题目的难度大小,除了所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关,由于学得不清楚或者因被试没学过,一个本来容易的题可能变难。这就是说测验的难度具有相对性,正因为此,必须让试题通过实践来对难度作出检验。三、难度难度是指试题的难易程度。103难度的计算(一)基本公式1、客观题难度的计算P=R/NR为答对该试题人数,N为参加测验总人数例1:在100个学生中,答对第一题的30人,答对第二题的60人,求第一、二道题的难度?比较这两道题谁比谁难?难度的计算(一)基本公式1042、主观题难度的计算例2:某道论述题满分12分,所有考生在这道题上的平均得分为3.6分,求该题的难度?例3:语文测验第五题最高得分为12分,这道题考生的平均得分是8.5分,求该题难度?例4:60人参加考试,某题满分为12分,正确得分累积是480分,求该题难度?2、主观题难度的计算例2:某道论述题满分12分,所有考生在这105(2)极端分组法步骤:将测验总分进行高低排序(由高到低)进行高低分组(各取27%),并计算某题的得分率求两组的平均值公式:P=(PH+PL)/2PH为高分组答对该题的百分比;PL为低分组答对该题的百分比。(2)极端分组法步骤:106例5某区域1000人参加考试,试卷第一题高分组180人答对,低分组60人答对,求该题难度?如果该题满分为10分,高分组得分总数为2100分,低分组得分总数为830分,求该题难度?例5某区域1000人参加考试,试卷第一题高分组180人答对,1072、难度的分析与控制(1)难度分析进行难度分析的主要目的是为了筛选题目。A、测验题目难度水平的确定测验题目难度水平的适当与否,取决于测验的目的、性质和题目的形成。当P值接近于0或接近于1时,即被试在该题上全部答对或全部答错,则该题无法提供个体的信息。而只当P值接近于0.50时,题目才能把被试做最大的程度的区分。但在实际工作中,若每一题的难度值均为0.50,那么此测验很可能只能区分出好与差两种极端被试的差异,却不能对各种被试作更精确的区分。因此,一般各题的难度可在0.50+20之间。2、难度的分析与控制(1)难度分析108B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题目的难度,通过考察测验分数的分布,可以对测验的难度做出直观检查。由于多数人的心理特性多数呈正态分布,因此当测验目的在于测量个体差异时,若被试样本具有代表性,则其结果应呈正态分布。测验分数背离正态分布有两种情况:其一是题目难度普遍较大,被试得分普遍较低,使得低分端出现高峰,呈正偏态;其二是题目难度普遍较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。B、测验难度对分数分布的影响测验的难度直接依赖于组成测验的题1092、难度的控制一般说来,影响题目难度的主要因素有:考察知识点的多少;考察能力的复杂程度或层次的高低;考生对题目的熟悉态度;命题的技巧。难度控制:正确估计考生水平;弄清弄懂各知识点;掌握命题技巧。2、难度的控制一般说来,影响题目难度的主要因素有:110四、区分度(一)区分度的含义指测验题目对考生实际水平的区分程度或鉴别能力。如一道题,学业水平、实际能力都较高的考生都答对了;而学业水平、实际能力都较低的考生都答错了,则可认为该题目有好的区分度。区分度分析主要以效能为依据,考察考生在每个题目上反应与其在效标上的表现之间的相关程度。区分度(D)的取值范围介于-1.00—+1.00之间,值越大,区分度的效果越佳。区分度D>0为正区分,D<0为负区分,D=0为零区分四、区分度(一)区分度的含义111(二)区分度的计算1、极端分组法(1)客观性试题D=PH-PL例6:有道试题,高分组有70%学生通过,低分组有30%的学生通过;而另一道题,高分组有40%学生通过,低分组有70%学生通过,求两题的各自区分度?(二)区分度的计算1、极端分组法112(2)主观题D=(XH-XL)/N(H-L)XH为高分组得分总数XL为低分组得分总数H为该道题的最高分L为该道题的最低分N为应试总人数的27%。(2)主观题D=(XH-XL)/N(H-L)113例7高分组低分组得分X人次f得分X人次f545043413231212310140004例7高分组1142、相关法点二列相关法例8:15个学生在数学测验中得分记录如下,计算数学测验中第一题的区分度?学生123456789101112131415测验657031498050351081697855779042第一题0101101001101102、相关法点二列相关法115二列相关例9:已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试20人总分的标准差为16,求该题的区分度?二列相关116(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适中题目的难度适中可使区分度达到最大值,因此,使难度适中是提高区分度的重要方法。2、着重考察复杂的学习结果使高能学生得高分或低能学生得低分,使分数尽量分布在整个分数量尺上。3、掌握区分度的评价标准。(三)提高区分度的方法1、使题目的难度适中,使整个考试难度适117第三章教育测验的编制与实施一、教育测验编制的一般程序(一)确定测验目标1、什么是测验目标测验目标是测验编制者所编制的测验所要达到的某种具体的目的。它明确规定测验所要达到的预期结果或标准。确定测验目标是编制

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论