版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、细说试题的难度、 区分度、信度和效度以及对高考复习的启示一.试题的难度(一)什么是难度难度是指试题的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。客观题难度计算公式 :P(难度指数)试题答对人数 /考生人数;主观题 难度计算公式 :P试题平均得分 /试题满分。试卷难度计算公式: P 为平均分, K 为试卷满分值。易、中、难的标准为:易: P0.7,中: 0.4 P0.6,9难: P0.39;P 值越大,难度越低, P 值越小,难度越高。一般来说,难度值平均在0.5 最佳,难度值过高或过低
2、,都会降低测验的信度。当然,在实际的评价过程中,测验的难度水平多高才合适,也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验,为了真实、准确地了解学生的知识掌握情况,测验难度大一点也是正常的。(二)难度的计算(1) )客观性试题难度 P(这时也称通过率)计算公式: P=k/N (k 为答对该题的人数, N 为参加测验的总人数)(2) )主观性试题难度 P 计算公式:P=X/M ( X 为试题平均得分; M 为试题满分)(3) )适用于主、客观试题的计算公式:P=(PH+PL)/2(PH、PL 分别为试题针对高分组和低分组考生的难度值)在大群体标准化中,此法较为方便。具体步
3、骤为:将考生的总分由高至低排列;从最 高分开始向下取全部试卷的 27%作为高分组;从最低分开始向上取全部试卷的27%作为低分组;按上面的公式计算。例 1:一次生物测试中,在 100 名学生中,高低分组各有 27 人,其中高分组答对第一题有 20 人,低分组答对第一题的有 5 分,这道题的难度为:PH=20/27=0.74 PL =5/27=0.19 P=(0.74+0.19)/2=0.47整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。(三)试题难度的一般要求就高考来说,难度以适中为宜,单个试题的难度以0.3-0.7 之间为好,整卷以 0.5-0.6 之间为最佳。一般将难度值大于和
4、等于 0.7 的试题定为容易题;大于 0.4 和小于 0.7 的定为中档题;小于和等于 0.4 的试题定为难题。命题时难度一般要按一定比例分配,如3:6: 1 或 3:5:2,一般说来,容易题、难度系数为 0.95-0.75,中档题为 0.74-0.6,难题为 0.59-0.20。二.试题的区分度(一)什么是区分度区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度高的考试,优秀、一般、差三个层次的学生都有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多的考试,区分度则低。Page 8 of 7(二)区
5、分度的计算1.单个选择题目区分度的计算将全体考生总分从高到低排列,将总分最高的27%考生定为高分组,总分最低的27%考生定为低分组,分别计算两组考生在某道题目上的通过率,两个通过率之差就是这道题的区分度(又叫鉴别指数)。计算公式为: D=PH-PL. PH 和 PL 分别为高分组和低分组的通过率。2 整个试题的区分度计算(常用) 计算公式为: D=2( XH XL) /W其中 D 为试卷区分度, XH 为 27%高分组平均分, XL 为 27%低分组平均分, W 为试卷总分。一般也将全体考生总分从高到低排列,将总分最高的27%的考生定为高分组,总分最低的 27%考生定为低分组,再分别计算各组的
6、平均分。如:一份满分 100 分的试卷,高分组平均得分 90 分,低分组平均得分 60 分,则区分度为 2(90-60) /100=0.6一道题值 2 分的试题,高分组平均得分 1.5 分,低分组平均得分 0.5 分,则区分度为 2(1.5-0.5)/2=1(三)试题区分度的一般要求区分度( D)的取值范围介于 -1.00 至+1.00 之间。通常 D 为正值,称为积极区分; D 为负值称为消极区分; D 值为 0 称为无区分作用。具有积极区分作用的试题,其 D 值越大,区分的效果越好。试题的区分度在 0.4 以上表明此题的区分度很好, 0.30.39 表明此题的区分度较好, 0.20.29
7、表明此题的区分度不太好需要修改, 0.19 以下表明此题的区分度不好应淘汰。高考的区分度一般要求在 0.3 以上,表示高分组的学生比低分组的学生能多得30%的分数。一般认为,区分度的数值达到了0.3,便可以接受;低于 0.3 的题目,区分能力就差了。三.试题的信度信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。信度除了要说明成绩的真实性之外,还要说明题目涉及的内容与教学的相关程度。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误差可能导致不
8、致性,从而降低信度。信度可以定义为随机误差R 影响测量值的程度。如果 R=0, 就认为测量是完全可信的,信度最高。信度的定义信度主要是指测量结果的可靠性、一致性和稳定性, 即测验结果是否反映了被测者的稳定的、 一贯性的真实特征。 和信度相关的一个概念是效度,信度是效度的前提条件。信度只受随机误差的影响,随机误差越大,信度越低。因此,信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应,不影响信度。测试信度 (test reliability) 也叫测试的可靠性,指的是测试结果是否稳定可靠。也就是说, 测试的成绩是不是反映了受试者的实际语言水平。例如,如果同一套测试在对同一测试对象(即
9、受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。当系数为 1.00 时,说明测试的可靠性达到最高程度;而系数是0.00 时,则测试的可靠性降到最低程度。在一般情况下,系数不会高到1.00,
10、也不会降到 0.00,而是在两者之间。对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在 0.90 以上,例如“托福”的信度大致为 0.95,而课堂测试的信度系数则以 0.70-0.80 之间为可接受性系数。测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:1) 重测法( the retesting method)。用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。但是若该试题是比较可靠的,每个学
11、生在两次测试中的排名次序应该是基本不变的。2) 交替形式法( the alternative method)。对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关 系数。3) 对半法( the split half method )。测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用SpearmanBrown 的公式计算整份试卷的信度系数。具体计算步骤是:将两组分数的相关系数乘以2,再除以 1 加两组分数的相关系数。每一个测试的实得分数(X )总是由真实分数 (T) 和误差 (E)
12、 两部分构成的,用公式表示如下:X=T+E如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式:S2( x) =S2(t)+S2(e)公式中, S2( x)是实得分数的方差,S2(t) 是真分数的方差, S2(e) 是误差的方差在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。即:r(xx)=S2(t)/S2( x)由于真实分数的方差是无法统计的,因此转化为:r(xx)=S2(x)-S2(e)/S2(x)=1-S2(e)/S2(x)因此,信度也可以看做是总方差中非测量误差的方差所占的比例信度的指标一、信度系数与信度指数大部分情况下,信度是以信度系数为指
13、标,它是一种相关系数。常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为:r(xx)=r2(xt)=S2(t)/S2( x)公式中 r2(xt) 是真分数标准差与实得分数标准差的比值,称作信度系数,公式为:r(xt)=S(t)/S(x)可见信度指数的平方就是信度系数。二、测量标准误信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测,于是有了信度的另一个指标,公式为:SE=S(x) 1-r(xx)公式中 SE 为测量的标准误, S(x) 是所得分数的标准差,r
14、(xx) 为测验的信度系数, 从公式我们可以看出测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小,信度越低,标准误越大。影响信度的因素一、样本特征1、样本团体异质性的影响2、样本团体的平均能力水平的影响二、测量长度一般来说,在一个测试中增加同质的题目,可以使信度提高。需注意的是,增加测验长度的效果应当遵循报酬递减原则。通过斯皮尔曼- 布朗公式的导出公式可以计算出最少应增加的题目:K=r(kk)*(1-r(xx)/r(xx)*(r(kk)-1)K 为改变后的长度与原长度之比,r(xx) 为原测试的信度, r(kk) 为测验长度是原来的K 倍时的信度估计。三、测验难度理论上说,只有测验
15、难度为50% 时,才能使测验分数分布范围最大,求得的信度也最高。事实上,难度为0.50 只适合于简答型题目,对于选择题目由于猜测因素,难度值应当提高,洛德提出在学习成绩中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测,0.70 ;四择一测, 0.74 ;三择一测, 0.77 ;是非题。 0.85在实际情况下, 如果某个测验适用范围广,其难度水平通常适用于中等能力水平的 被试,而对较高水平的被试和较低水平的被试可能较易或较难,使得分数分布范围缩小, 信度水平降低,因此一个标准化的测验,应根据不同能力水平的报告测验的难度,以作为选择测验的参考四、时间间隔时间间隔只对重测信度和不同时测量时
16、的复本信度有影响,对其余的信度来说, 不存在时间间隔问题。注:我们对一套问卷的信度检验值(一般是指克隆巴赫阿尔法信度系数)有时会出现过低的情况,可能的原因有:1、试卷本身设计不合理,不是围绕一个主题或是有矛盾的题目。如果试卷中有题目让完全相同的人选择不同的答案,试卷的信度会降低。2、题目区分度过低,特别指有对错之分的题目。如果一道题正确率或错误率达到90%,可以从新审视题目设计是否合理。区分度过低的题目中真实偏差的成分较少,随机偏差的成分相对较多,试卷的信度会降低。3、无关变量进入信度检验。除了重测信度,其他信度检验方法都只考虑有序变量, 无序变量,如出身城市,喜好颜色等,如果我们没有对城市或
17、颜色排序的话,带入信度检验意义难明,可能会导致试卷的信度降低。4、题目选项反序。对有序变量,如果变量值之间序的意义相反,会降低甚至得出负的信度。比如检验老师对学生评分的信度,如果一个老师的评分以10 分为最高分, 1分最低,另一个以1 分最高, 10 分最低。如果不经处理带入信度计算,信度会降低。信度评估的方法一、 重测信度 ,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时,必须注意重测间隔的时间。对于人格测验,重测间隔在两周到6 个月之间比较合适
18、。在进行重测信度的评估时,还应注意以下两个重要问题:重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。不同的行为受随机误差影响不同。二、复本信度 ,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。 复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。复本信度的主要优点在于:能够避免重测信度的一些问题,如记忆效果、练习效应等;适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;减少了辅导或作弊的可能性。复本信度
19、的局限性在于:如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响;有些测验的性质会由于重复而发生改变;有些测验很难找到合适的复本。三、内部一致性信度 ,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。测验愈长,信度系数愈高。同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似
20、。四、评分者信度 ,是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。四.试题的效度效度是指考试有效性或正确性的质量指标,即是否考了要考的内容,试题难度、区分度是否适宜,考试最终是否达到了它的预定目的等。测试效度 (test validity) 亦称测试的有效性,指一套测试对应该测试的内容所测的程度。也就是说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。例如:“Is photography an art orscie
21、nce?Discuss ”这种题目以摄影的知识为前提和主要内容,用来考语言能力,就不具有效性。又如用听写来测量学生的听觉能力,其效度也是不理想的,因为书 面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。测试的效度一般可分为以下几类:1) 表面效度( face validity)。指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为 这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。2) 内容效度( content validity)
22、。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。3) 编制效度( construct validity)。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如,以结构主义语言理论为基础,认为系统的语言习惯是通过 句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。4) 经验效度( empirical validity )。经验效度是一种衡量测试有
23、效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种:一是共时效度(concurrent validity ),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度( predictive validity ),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有
24、效性大。课堂测试的效度应在 0.4-0.7 之间,规模较大的测试其效度应在 0.7 以上。五、高考题的信度、效度、难度和区分度高考的性质最主要的在两个方面:一、高考是一种选拔性考试,高考成绩是高等学校录取新生的依据,这是高考的选拔性质。二、高考是一种导向性考试,高考是中学教学的指挥棒,起着对中学教学的引导作用,这是高考的引导性质。高考性质的这两方面决定了高考试题应有的信度、效度、难度和区分度,而这些是我们进行高考复习首先要清楚的,能够避免我们在复习时的盲目。信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。效度是指考试有效性或正确性的质量指标,
25、考试效度的高低反映着考试是否达到它的预定目的,是否考了要考的内容。难度指试卷 (题)的难易程度。一般用试卷 (题)的得分率或答对率表示,所以难度事实上是容易度或通过率。其值在 01 之间,数值越大,说明试卷 (题)越容易。区分度是指试题对不同考生的知识、能力水平的鉴别程度。如果一个题目的测试结果使水平高的考生答对 (得高分),而水平较低的考生答错 (得低分),它的区分能力就很强。题目的区分度反映了试题这种区分能力的高低。一般认为,区分度的数值达到了0.3,便可以接受; 低于 0.3 的题目,区分能力差。高考的性质决定了高考试题首先要保证信度,缺少信度或信度较低都无法向几百万考生交代,无法向考生家长交代,无法向社会交代。从这一角度看高考试题所考查的一定是确定性和稳定性的内容,对于现在还没有被确定的内容或者说有争议内容是不能作为高考命题依据的。复习时,不要让这样的问题浪费你的精力!同时要注意,有些题目看起来让你回答的是假设和猜想,你可不要忘记高考试题的确定性,不要得意忘形呀,还是老老实实从学科的基本原理来回答,只有这样你才能得分。高考的效度要求高考试题是有效和正确的,考查的是考纲规定的内容。你想想牵动着百万考生、千万家庭、亿万人员,如果哪位命题大人在命题中出了错误或者超出了考试
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小数点位置移动引起小数大小的变化课件
- 新生儿气道管理课件
- 焊接工艺课件-焊条电弧焊V形坡口板对接横焊
- 《慢阻肺gold指南》课件
- 《草帽图解析话术》课件
- 《心理学章》课件
- 【课件】发现你的优势
- 【大学课件】建筑电气安装工程定额计价
- 单位管理制度展示汇编【人力资源管理】
- 单位管理制度展示大全职工管理篇
- 无锡市区2024-2025学年四年级上学期数学期末试题一(有答案)
- 血液净化中心院内感染控制课件
- 年产1.5万吨长链二元酸工程建设项目可研报告
- 纺织厂消防管道安装协议
- 【MOOC】思辨式英文写作-南开大学 中国大学慕课MOOC答案
- 期末测试卷(试题)-2024-2025学年五年级上册数学北师大版
- 2024年下半年中国石油大连石化分公司招聘30人易考易错模拟试题(共500题)试卷后附参考答案
- 国有企业品牌建设策略方案
- 2024年河南省公务员考试《行测》真题及答案解析
- 家政培训讲师课件
- 广东省深圳市龙华区2023-2024学年八年级下学期期中数学试题
评论
0/150
提交评论