教育测量的质量指标与测验的编制

上传人：a*** IP属地：河南上传时间：2021-10-12 格式：DOC 页数：8 大小：60KB 积分：14 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、教育测量的质量指标与测验的编制一、教育测量的质量指标 (一) 信度信度的概念信度指的是测量结果的稳定性或可靠的程度，亦即测量的结果是否真实、客观地反映了考生的实际水平。信度是任何一个测量的必要条件，对于教育测量来说，它具有更为重要的意义。只有高信度的测量才能成为教育工作有用的工具。否则，测量的结果是无意义的、无效的。（1）信度指实测量值和真值的相差程度。由于种种原因，实测值一般不会完全等于真值，两者之差称为测量误差，测量的误差越小，测量的信度就越高。用一个等式表示如下：X=T+E式中，X为实测值，T为真值，E为误差。由于测量的真值是未知的，误差也就无法求出，所以，这种理解无法求出信度。（2）

2、信度指统计量与参数之间的接近程度。统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征（如样本的平均数、标准差等）；参数是指总体上的各种数字特征（如总体的平均数、标准差等）。统计量越接近参数，其可靠性越高，信度就越高。但这种理解也无法求出信度。（3）信度指两次重复测量或等值测量之间关联程度。如果对同一对象进行两次重复测量或等值测量后，计算两次测量的相关系数，相关系数越高，说明测量的信度越高；相关系数越低，说明测量的信度越低。对于信度的这种理解，有利于信度的计算。但重复测量会受被测对象经验、知识增长等因素的影响，等值测量又较难编制，因此用这种方法计算信度也是有误差的。信度的理论公

3、式根据实得分数的分解，可将实得分数的方差分解为真分数的方差与随机误差的方差之和，信度等于真分数的方差与实得分数的方差之比或减去随机误差的方差与实得分数的方差之比。所以，随机误差的方差越小，测量的信度越高。信度的取值范围为01。信度的类型（1）稳定性系数。稳定性系数又称重测信度。它是指用同一测验试卷，在先后两个不同时间内对同一组被试进行测验，两次测验实得分数的相关系数。（2）等值性系数。等值系数又称复本信度。其方法是，先实施第一次测验，然后在最短的时间内实施第二份等值测验，再求它们得分的相关系数。这个相关系数即为信度的等值性系数。（3）内部一致性系数。内部一致性系数是用一次测验来计算测验的信

4、度。按照分成两个部分的不同，计算内部一致性系数有两种方法。一是分半信度：这种方法是将一次测验分成假定相等而独立的两部分来记分，通常是以题目的奇数为一组，偶数为一组，计算两组的相关系数，最后用斯皮尔曼布朗公式校正，求得整个测验的信度系数。二是库德尔理查森公式法：这种方法只要测验一次，然后以各个问题的正确反应数为基础（此可视为各题难度的信息），或根据各个总分的平均数和标准差，计算信度系数。（4）论文式测验的信度系数。论文式测验的评分没有严格的评分标准，以致同样一个题目，不同应试者的回答和得分都不一样，所以无法用前面的公式，而要用克龙巴赫所创的系数公式。（5）评分者的信度系数。一般论文式测验，只能提

5、供参考答案而无标准答案，因而不同的评分者对同一份试卷往往给分不同，甚至差别很大。评分者间的评分不一致，说明评分信度不高，评分者所评的分数越一致，评分信度越高。要计算评分者的一致性系数，需区分评分者的人次数。若为2人评N份试卷，可用斯皮尔曼等级相关的公式计算；若三个以上的评分者评N份试卷时，则需计算肯德尔和谐系数（参见有关教育统计学的教材）。4提高信度系数的方法（1）信度系数以多大为宜。信度系数究竟以多大为好，没有明确的标准，要看测验的目的和类型。对于学科测验，信度系数要求达到0.9以上。（2）误差的来源。误差的来源基本可以分为三类：一是测验本身所引起的误差，如：测验的题型、题数、难度、时间、题

6、目一致性等。二是测验的实施所引起的误差，如：环境、程序、主考、主考、评卷等。三是被试所引起的误差，如动机、心理、生理、经验、身体等。（3）提高测验信度的方法。根据上述影响测量误差的因素，我们可以采用如下方法提高信度：适当增加测验题目的数量；尽量使测验的难度适中；测验的内容应尽量同质；测验的程序应统一；测验的时间要充分；评分要做到客观化，养少评分误差。（二）效度1 效度的概念效度是指测量结果的准确性和有效性的程度，对所要评价的事物实际上评价到的程度，也就是测量是否达到了预期的目的。我们可以从以下几个方面来理解效度：首先, 测量的效度始终是对一定的测量目的而言；其次, 测量的效度也是对测量的结果而

7、言；第三，测量的效度只是高或低的的问题；第四，在教育测量中，效度问题比在其他领域的测量更为重要。2 效度的理论公式实得分数的方差可以进一步分解为潜在真分数的方差、系统误差的方差和随机误差的方差之和，效度等于潜在真分数的方差与实得分数的方差之比。由效度的计算公式可以看出，如果随机误差的方差和系统误差的方差之和越小，则效度越高。由以上实得分数方差的分解，可以看出信度和效度之间有三种关系：第一种是高效度、高信度；第二种是高信度、低效度；第三种是低信度、低效度。因此，在效度与信度之间，首先要重点保证是高效度，因为，高效度必然高信度；反之，则不然。特别是对于教育测量而言，效度问题尤为重要。效度的估计效

8、度有内容效度、效标关联效度和结构效度三种，在学科测验中一般采用内容效度。内容效度是指测验目的代表所想测量的内容和引起预期反应所达到的程度，也就是测量内容的代表性程度，或者说实际评价的内容、范围与所要评价的内容、范围相符合的程度。在编制测验时，内容效度是一个相当复杂和不易解决的问题。估计内容效度的方法有两个：（1）逻辑分析的方法。就是根据教育学和心理学理论，以及教学大纲的要求，勾画出学生应掌握知识内容的范围和深度，提出应形成的技能名称等，然后以逻辑分析的方法估计测验在多大程度上代表了这些内容，在多大程度上能够测量出所要测量的特性和功能。（2）用测验题目与教材内容比较的方法。这需要先制定两个双向

9、细目表：一个是测验的双向细目表，要分别列出各单元教材内容在测验中所占的百分比和所要求的各种行为反应在全部反应中的百分比；另一个是测验试题分类双向细目表，要根据各单元教材内容列出试题，并注明各题所要求的行为反应及所占的百分比。然后对照双向细目表，根据各部分的复合程度，判断内容效度的高低。提高效度的方法（1）各种效度系数的要求。不同的测验对效度系数有不同的要求。对效度系数大小的要求，也受原测验与获得效标的测验之间相似性的制约。若两者不相似，则效度系数偏低；若相似，则效度系数会高些。所以，有的测验效度系数达到0.35即已符合要求，有的测验却要达到0.65 0.77才能被认为是有效的。（2）影响效度的

10、因素。效度的高低受到很多因素的影响：测验的组成方面：如测验的取材、长度，试题的难度、区分度及编排方式等；测验的实施方面：如考场的布置、材料的准备、答题的说明和时间的限制等；考生主观状态方面：如考生的兴趣、动机、情绪、态度和健康状况等；估计效度所依循的效标：如选择效标不当等；样本方面：如样本的大小及代表性等。总之，为了增进测验的效度，必须要求测验编制和实施程序的标准化，注意考生在测验情境中的行为反应，并顾及适当样本和效标的选择，以建立符合测验目的和功能的效度。（3）提高效度的方法。控制系统误差：如仪器没有校准、题目和指导语有暗示性、答案有明显组形等；精心编制试题：如测验内容要能反映测验目的，

11、题目表述要清晰、简明，所用字、词、句能为考生理解，排列应该由易到难，题目难度要合适，并有足够的区分度，试卷印刷要清晰无误等；妥善组织测验：如严格按照考试手册进行，不作超出规定的解释，掌握好考试时间，遵照评分标准评分，认真仔细登分等；扩充样本的容量和代表性：加大样本的容量，可增加样本对总体的代表性，减小随机误差，使测验更加可靠；合理处理效度和信度的关系：因为信度高效度不一定高，但效度高信度一定高，所以在处理效度和信度的关系上，首先要保证效度；适当增加测验的长度：增加测验的长度可以提高信度，而效度的最大值与信度有关，所以也可以提高效度。（三）难度1 难度的概念难度是指测验试题的难易程度。难度是试题

12、对学生知识和能力水平适合程度的指标。试题的难度不仅对题目的区分度有很大的影响，而且对试卷的信度和效度也有较大的影响。难度是一个相对的概念，难度的高低与考生的水平直接相关。也就是说，难度是由参与测验的考生群体的整体水平决定的。难度的计算客观试题的难度为答对该题的人数与总人数之比，即试题的通过率。难度系数越大题目越容易；主观试题的难度为所有考生对该题的平均分与该题的满分之比。同样，难度系数越大题目越容易。难度对测验的影响（1）测验难度影响测验分数的分布形态。难度系数过大或过小，都会造成测验分数的偏态分布。难度系数越接近0，测验的难度越大，答对题的人数越少，测验分数就越集中在低分段，其分数呈正偏态分

13、布。相反，难度系数越接近1，测验的难度越小，答对题的人数越多，测验分数就越集中在高分段，其分数呈负偏态分布。（2）测验难度影响测验分数的离散程度。因为难度系数过大或过小，测验分数都呈偏态分布，从而缩小了考生的差距，所以难度系数直接影响测验分数的离散程度。（3）测验难度影响测验的鉴别能力。难度系数过大或过小，会使考生都得高分或低分，从而不能区分考生的实际水平，影响测验的鉴别能力。测验的适宜难度从难度的计算公式，我们可以得出难度的取值范围为：0P1，当P=0时，试题的实际困难程度最大（所有的考生都得0分）；当P=1时，试题的实际难度最小（所有考生都全对）。在常模参照性测验中要求试题难度适中，即题

14、目的难度在0.30.7之间，少数题目可以在这一范围之两边且题数（或题分）大体相当，使整个试卷的平均难度为0.5左右（0.45 0.55之间）。对于其他类型的测验，目的不同对难度的要求也不同。控制题目难度的基本方法一般说来影响题目难度的主要因素有：（）考查知识点的多少；（）考查能力的复杂程度或层次的高低；（）考生对题目的熟悉程度（如本来较易的题目会因考生均未注意而造成很难，或本来较难的题目会因为考生普遍练习而变得较容易）；（）命题的技巧性（如对同一个问题，可以命得容易，也可以命得较难）。除了上述因素，还可以通过其他方法来控制。如预测或教师在比较了解情况时的主观经验等。（四）区分度1. 区分度的

15、概念区分度是指测验对考生实际水平的区分程度，用符号D表示。具有良好区分度的测验，实际水平高的学生应该得高分，实际水平低的学生应该得低分。所以区分度又称为鉴别力。它是评价试题质量，筛选试题的主要指标和依据。区分又分为正区分（D），零区分（）和负区分（），正区分又称为积极区分，负区分又称为消极区分。2 区分度与测验信度、难度的关系（1）区分度与信度的关系。区分度越高，测验的信度越高。当区分度为0.1225时, 信度系数为0, 当区分度为0.5时, 信度系数为0.949。（2）区分度与难度的关系。题目的难度系数过大或过小，都会降低区分度，只有难度系数适中的题目，才会有较高的区分度。当难度系数为0或1

16、时, 区分度的值为0，当难度系数为0.5时, 区分度的值会达到1。（3）区分度的计算。一是用极端分组法计算；二是用内部一致性系数计算。在标准化或大规模测验中，一般采用相关分析法分析试题的区分度。计算时可以采用点二列相关、两列相关、相关系数等方法。点二列相关系数适用于计算客观题的区分度；二列相关系数适用于计算多重选择题的区分度；相关系数系数适用于计算二个变量都是二分名义变量的区分度。3 提高区分度的方法（1）使题目的难度和整个测验的难度适中。使难度适中是提高区分度的重要方法。（2）着重考察复杂的学习结果。着重考察复杂的学习结果，使实际水平高的学生得高分或最高分，实际水平低的学生得低分甚至最低分，

17、使分数尽量分布在整个分数量尺上。这样，可以提高区分度。4 区分度的评价标准区分度当然是越高越好，但做到这一点较难。对于有些要求不高的测验，有些试题的区分度低一些也是允许的。二、测验的编制（一）测验目标的确定1教育目标的分类美国的布卢姆把教育目标分为认知领域、动作技能领域和情感领域；又把认知领域分为知识、理解、应用、分析、综合、评价五个类目，把动作技能领域分为观察、模仿、练习、适应四个类目，把情感领域分为接受、反应、形成价值观念、组织价值体系、形成价值情结五个类目。我国把认知领域的教育目标分为知识、理解、应用、分析与综合、创造五个类目，或分为知识、理解、简单应用、综合应用、创造五个类目，还有的

18、分为知识、理解、简单应用、综合应用四个类目。2 确定测验目标应注意的问题。（1）深入分析课程教学目标。确定测验目标时，应在深入研究并弄清课程教学目标的基本上进行，做到测验目标与教学目标或学习目标相一致。教学目标是指教学活动所预期达到的标准，它是进一步具体化的教育目标。行为目标是教学设计中一种更具体的、可观察的教学目标，又称为学习目标，是对学生通过教学以后能做什么的一种明确的、具体的表述。行为目标是目标教学系统的一个有机组成部分，不能脱离目标教学系统的整体，孤立地编写行为目标。行为目标的陈述应十分具体明确，具有可观察、可测量的性质。它包括：行为、条件、标准三要素。（2）选择目标领域及其类目。这个

19、问题实质上是对不同的学科应确立什么样的测验目标的问题。是否所有学科的测验目标都包括认知、技能、态度三个目标领域和相同的目标类目？应根据社会要求和学科课程的性质去确定，学科性质不同，着眼点也不同。类目数的确定，常与最高测验目标的确定以及目标分类的粗细有关。由此可见，根据教学大纲中的教学目标去选择测验领域和设计类目层次，关键在于测验编制者对教学目标内涵理解的准确程度和透彻程度。理解越准确、越透彻，测验目标的确定就越有效。（3）正确理解各类目标之间的关系。当我们在某一目标领域进行分类时，要充分考虑各类目标之间的叠层性或序层性。在各类目标中，起基础作用的因素，由单一到多元，重叠递进，形成一定类别层次，

20、这就是目标类目的叠层性。所谓序层性，是指各类目标按一定的逻辑顺序排列，形成一定的类别层次。序层性与叠层性共同之处是：前一类目标是后一类目标的基础，而后一类目标是前一类目标的必然发展和高层；前一类目标较容易达到，而后一类目标则较难达到。区别是：序层性强调的是前一类目标内容对后一类目标的正迁移作用，后一类目标内容是前一类目标内容作用下的必然发展结果，往往显示一种质的跳进；而叠层性强调的是后一类目标的基础因素是前一类目标的基础因素的重复、积累和扩展，显示出量的叠加。（二）测验题型的确定1封闭式（1）选择型：是非题、配对题、选择题（单向选择题、多向选择题）。（2）提供型：填空题、改错题、名词解释题、简

21、答题。2开放式（1）计算题（2）证明题（3）论述题（4）写作题（5）设计题（6）翻译题（三）命题设计1命题双向细目表命题双向细目表是设计试卷的蓝图。它包括两个纬度（双向）的表格。较常见的双向细目表有：（1）反映测验内容与测验目标关系的。（2）反映测验内容与测验目标、题型之间关系的。（3）反映题型与难度、测验内容之间关系的。（4）反映题型与难度、测验目标之间关系的。2命题设计的实施（1）内容类测验目标模型的构建。内容类测验目标模型有三部分组成：内容类维、目标层次维、两维之交叉。“内容类”是指将测验内容分成若干不同特质的类型，一般分为35类。如分为“实事”、“概念”、“技能”、“原理”、“问题”

22、等五类。不同学科，其分类可能有差异。“目标层次”是指测验目标的高低层次。一般以布卢姆的教育目标分类法为基础，分为36类。“两维之交叉”是指内容与目标层次的纵横交接处，它表明各类测验内容（教学内容）应达到的测验目标（教学目标）层次。如何设计两维之交叉，关键是准确地确定各类测验内容应达到的最高目标层次。这要根据教学大纲所规定的教学目标去确定。根据以上论述，不同学科不同教学目标，所构建的内容类模型是允许有差异的。内容类模型是测验命题设计的重要工具，它的科学设计和构建，是提高试题效度的第一步。（2）内容点测验目标表的确定。内容点测验目标表由教学内容和测验目标两个系列构成。教学内容的设计应以教学内容的分

23、析为基础。教学内容主要指教科书的内容，此外，还包括与学科课程有关系的其他内容。为了便于设计和测量，可将教学内容总体分成内容快，然后再分解为内容点。无论内容总体、内容快，还是内容点，都包含着教科书知识和其他内容。所以说，教学内容总体不等于单纯教科书知识，内容块不等于知识块，内容点不等于知识点。一个内容点可能只设计一个层次的测验目标，也可能设计几个层次的测验目标，这要在分析内容点内涵特质的基础上去确定。设计内容系列的测验目标时必须依据教学大纳、内容类模型和考生实际。之所以要依据教学大纲，是因为教学大纲是命题的出发点，是根本依据。内容点表是教学大纲中教学内容和目标的具体反映或有效细化（将“大”纲转变

24、成“细”目）。之所以要依据内容类模型，是因为内容类模型是教学大纲与内容点表之间的中介，它是抽象概括的教学内容和目标转化为具体细致的内容点表的桥梁。它将教学内容过渡到测验内容，将宏观的类层界线过渡到微观的类层界线，将模糊的教学目标过渡到精确的测验目标。之所以要依据考生的实际，是因为将教学大纲转化为“内容点表”并不意味着将教学大纲中设定的教学内容全盘照搬或机械转运到内容表中。教学目标是通过教学效果来体现的，教学的良好效果表现在教学内容给学生的增益，因为不是所有教学内容都会对学生产生增益，只有对学生产生增益的那些内容点，才可能测量到教学目标的实现程度。所以，应从考生实际出发，在充分分析考生原有水平的

25、基础上去确定测验内容点及其目标层次。在设计程序上，要首先从考生实际出发，分析哪些内容点该确定为测验目标，哪些内容点该忽略。只有对考生产生增益值的内容点，才按上述方法设计测验目标层次。同时，根据教学内容的性质类别按内容类模型的设计去确定的测验目标，有时不一定与教学大纲中规定要达到目标相一致，因为教学大纲制定者在确定教学总目标及教学内容时，存在着误差，教学内容可能不完全为教学目标服务，因此，我们不能机械地使用内容类模型。内容点测验目标层次的确定，首先依据的应是教学大纲中规定的教学目的和任务，然后才灵活地使用内容类模型。当初步拟定各内容点的测验目标后，应将各内容点测验目标综合起来，整体上分析评价所拟

26、定的测验目标与教学大纲规定的教学目标和任务是否一致，若不一致，则应根据内容类模型与考生情况进行适当调整，经反复调查，最后才将每个内容点的测验目标确定下来。3 命题方案表的设计内容点表的设计，只是从定性分析和主观判断上去寻求测验内容与教学内容的一致性及测验目标与教学目标的一致性，但试卷总是以一定的量化形式出现，如分值、题量等，所以，测验内容与教学内容的一致性及测验目标与教学目标的一致性，还应以一定的量化形式表现出来，命题方案表的设计就是要解决这个问题。命题方案表是内容点表的继续。应结合内容类模型和内容点表，依次设计出如下两种命题方案表：（1）反映测验内容与测验目标关系的设计细目表。（2）反映测

27、验内容与题型、目标关系的设计细目表。表中内容比例的确定有两种方法：一种是计算法。即根据在测验内容系列上或测验目标层次上各项所用的教学时数确定各项的比例。各项比例的计算方法可根据各内容快的实际教学时数或教学大纲中规定的教学时数。一般来说，学校平时的测验可根据内容快的实际教学时计算，统考可根据教学大纲中规定的教学时数计算。另一种是判断法。即根据内容系列上各项在整体上的重要性来确定各项测验内容的比例。这种方法要求命题设计者不仅要熟悉教学大纲，深入研究教材和测验目标，而且要有丰富的命题经验。（四）试题的编制1试题编制的质量要求（1）明确测验目标。要根据教学大纲的要求去确定测验目标，应以测验考生的基本

28、知识、基本理论和基本技能为主，注重考生分析问题和解决问题能力，以及理论知识的应用能力和科学创造能力。整份试题的结构要有合理的目标层次。一份试卷中，试题一般包括三个至五个层次水平。例如，根据布卢姆的有关分类，结合我国教育的实际，我们将试题分为如下五个层次：知识；理解；简单应用；综合运用；创新。各层次试题的比例可根据不同课程的特点和要求而具体确定。（2）题量尽可能大、试题的盖面尽量宽。测验是从课程全部内容中抽取部分样本考查考生对本门课程的掌握情况，从课程中抽取的样本数量越大，试题越有代表性。因此，一般而言，题数多一点比少一点好。为了确保测验题目的代表性，提高测验的内容效度，要扩大考查面，各章、节，

29、各方面知识都兼顾到。同时，还要突出重点，加大重点内容题量和覆盖密度，做到试题的测验重点与课程教学的重点相一致。（3）掌握好试题的区分度和难度。试题的区分度尽可能大，应基本上能区分出考生的上、中、下三种水平。从总体来说，平时用功、复习花时间多、水平较高的考生应考出高分数，而平时不用功、复习花时间少、水平较低的考生应考低分数，中等生应考出中等分数。试题应把不同水平考生在相同知识点上掌握程度的差异区分出来。试题难度的掌握，大体上可分为较易、适中、较难和最难四等。在一般情况下，较易的试题占20%左右，适中和较难的试题各占30%，最难的试题约占20%左右。（4）注意改进题型。一套试题的题型一般不应少于四种，分值比例要恰当，客观题约占60%左右，主观题约占40%左右，题型尽可能灵活多样，要灵活运用教材中已阐明的原理或公式，联系实际命题，以便于考查考生了解和应用知识的能力。一道题，既可以只测验一个内容点，也可以测验不同章节的几个内容点；对于同一个测验内容点，也可以从不同角度选用不同题型去编制试题。（5）每道试题的编写要讲究科学性。试题的内容要正确，不能出现知识性的错误。有争议的问题不要编入试题；文字表达明确、简练、规范、通顺，标点符号正确；图表清晰，计算条件充分；不能出现语法上或用词上的错误；试题的分值要合理；各题必须彼此独立，不能出现相同或近似的试

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

教育测量的质量指标与测验的编制

文档简介

温馨提示

最新文档

评论

教育测量的质量指标与测验的编制

文档简介

温馨提示

最新文档

评论

相关文档