已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教育测量与评价 测量的质量指标 教育测量的质量指标 衡量教育测量的质量,可采用四个指标: 信度 主要对整个测量而言。 效度 难度 主要对测量的项目而言。 区分度 一、信度概述 (一)什么是信度 信度是指测量结果的稳定性或可靠性程度。 一般地说,一个好的测量必须具有较高的信度, 也就是说,一个好的测量工具,只要遵守操作 规则,其结果就不应随工具的使用者或使用时 间等方面的变化而发生较大的变化。 必须从以下两个方面去理解测量的信度: 信度指实测值(X)和真值(T)相差的程度; 信度指两次重复测量或等值测量之间的关联程度 。 (二)信度的估计方法 1、重复信度(再测信度) 指的是同一个量表对同一组被试施测两次 所得结果的一致性程度。 其大小等于同一组被试在两次测验上所得 分数的相关系数,一般采用皮尔逊积差 相关的公式来计算。 例一 用一个算术四则的速度测验12个小学生,得 分记为X,为了考察测量结果的可靠性,于3 个月后再测一次,得分记为Y,问测验结果 是否可靠? 学生序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 23 24 25 26 26 27 Y 20 21 21 20 23 23 25 25 26 26 27 29 在使用重测法计算稳定性系数时,应 注意以下问题: 1、信度的取值范围为0,1,当信度值较 大时,说明前后两次测量结果比较一致 ; 2、两次测验之间的时间间隔要适宜。应由 测验的性质、测题类型、测题数量和被 试特点所决定; 3、重测法适用于速度测验而不适用于难度 测验; 4、应注意提高被试者的积极性。 2、复本信度 指的是两个平等的测验测量同一批被试 所得结果的一致性程度。 其大小等于同一批被试在两个复本测验 上所得分数的相关系数。 所谓复本测验是指在性质、内容、题型 、题数、难度等方面都一致(或相等) 的两份或多份测验。 例二 以A、B两型英语复本测验对初中三年级10个 学生施测,为避免由测验施测顺序所造成的误 差,其中5个学生先做A型测验,休息15分钟后 ,再做B型测验;而另5个学生先做B型测验, 休息15分钟后,再做A型测验。10个学生A型 测验结果记为X,B型测验结果记为Y,其测验 的复本信度如何? 学生序号 1 2 3 4 5 6 7 8 9 10 X 19 19 18 17 16 15 15 14 13 12 Y 20 17 18 18 17 15 13 15 12 12 复本信度的优缺点表现: 优点: 1、测验的两个复本,如果在不同的时间使用 ,其信度既可以反映在不同时间的稳定性,又 可以反映对于不同测题的一致性; 2、两个复本在同时使用时,可以避免再测信 息的一些缺点,如首测时再测在记忆、练习、 效果的影响,间隔期间获得新知识的影响,两 次施测的环境不同和被试主观状态不同的影响 ,以及为了应付测验所作训练的影响等。 缺点: 1、编制两个完全相等的测验是很困难的,如 果两个复本过分相似,则变成再测形式,而过 分不相似,又使等值的条件不存在; 2、两个复本测验有可能在某种程度上测量了 不同的性质,这就会低估测验的信度; 3、被试同时接受性质相似的两个测验,可能 减少完成测验的积极性; 4、虽然两个复本测验的题目材料不同,但被 试一旦掌握了解题的某一模式,就能触类旁通 ,有可能失去复本的意义。 3、折半信度(分半信度) 就是将测验分半,再求被试在每一半测验上所 得分数的相关系数。 首先根据内容、形式、题数、平均数、标准差 、难度、测题间相关以及分布形态相等的原则 ,将试题分成两半,或者将从易到难排列的测 题,按照测题序号,奇数测题为一组,偶数测 题为一组,分成两半; 然后计算每个被试在两个分半测验分数的积差 相关系数,再用斯皮尔曼布朗公式加以校正 。 斯皮尔曼布朗公式为 例三 对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1 题得0分,其测验结果如下表,试估计该测验的折半信度? 学生序号 题 序 1 2 3 4 5 6 1 1 0 0 0 0 0 2 0 0 0 1 0 0 3 1 0 1 0 0 0 4 1 1 0 0 1 0 5 1 0 0 1 0 0 6 1 1 1 0 1 1 7 1 1 1 1 0 1 8 1 1 0 1 1 0 9 0 1 1 0 0 1 10 1 1 1 1 1 1 (三)提高信度的方法 1、影响测量信度的主要因素 (1)被试方面 (2)主试方面 (3)施测情境方面 (4)测量工具方面 (5)两次施测的间隔时间方面 2、提高测量信度的常用方法 (1)适当增加测验的长度 (2)测验的难度要适中 (3)测验的内容应尽量同质 (4)测验的程序应统一 (5)测验的时间要充分 (6)测验的评分要尽量做到客观化,减少 评分误差 二、效度的概念 (一)什么是效度 效度是指测量结果的准确性和有效性的程度。也 可以说是测量是否达到了预期的目的。 1、效度是一个相对的概念。 (1)测量的效度是相对一定的测量目的而言的 (2)测量的效度是相对测量的结果而言的 2、一种测量的效度只是高或低的问题 测量结果总是有一定效度的,只是效度高低不同 罢了。 (二)效度的估计 效度估计就是多方寻找证据来证明一个测验的有 效性程度的过程。 1、内容效度 就是指测验内容对所要测量的内容的代表性程度 。也就是说,测验的内容范围、材料与所要测 量的内容范围、教育目标是否相符合;测验中 测题所引起的行为是否是所要测量的属性的明 确反应;测验的结果是否是一个有代表性的行 为样本。 为了使测验的内容具有有效性,成为所欲测量内 容的一个具有代表性的行为样本,在编制测验 时,就要考虑建立内容效度的问题。 2、内容效度的估计 (1)逻辑分析法 其工作思路是请有关专家对测验题目与原定内 容范围的吻合程度作出判断。 (2)统计分析法 从同一个教学内容总体中抽取两套独立的平行 测验,用这两个测验来测同一批被试,求其相 关。若相关高,表明测验内容效度较高;若相 关低,表示测验的内容效度较低。 采用求统计量的公式进行计算,其公式有以下 三种形式: 例一 在社会发展史某一单元教学之前,对 学生进行有关这一单元内容的测验。教 学之后,再以复本测验施测,两次测验 分数如下,试检定测验的内容效度? 学生序号 1 2 3 4 5 6 7 8 9 10 教学前X 34 40 32 30 31 35 44 33 42 36 教学后Y 52 64 50 54 58 63 72 62 62 50 结论 然后根据自由度df=N-1=9,查t值表,寻得 0.01显著性水平t的双侧临界值为t(9) 0.01=4.781,而实际计算出的 t=13.974.781=t(9)0.01,于是可以说 ,教学前后学生在两个复本测验上得分 的平均数有极显著性差异,从而可以作 出判断,社会发展史中该单元测验 的内容具有有效性,或内容效度较高。 内容效度主要应用于成就测验、学科测验 、选拔和分类职业测验。 内容效度不适合用于能力倾向和人格测验 。 2、结构效度 是指测验对于人的心理特性或理论概念测 量到的程度。通常用某种操作来定义, 并用测验来测量。 例如:人的创造力可以分解为人的思维流 畅性、灵活性和创造性三大特性,并根 据这三大特性编制测验,若有足够的证 据来证明该测验确实可以测到这些特性 ,则认为该测验是个结构效度较高的创 造力测验。 (1)结构效度的特点 结构效度的大小完全取决于事先假定的心理特质 理论,一旦人们对同一种心理特质有着不同的 定义或假设,则会使得关于特质测验的结构效 度的研究结果无法比较。 当实际测量的资料无法证实我们的理论假设时, 并不一定就表明该测验结构效度高。因为还有 可能出现理论假设不成立,或者该实验设计不 能对该假设作适当的检查等情况,这就使得结 构效度的获取更为困难。 (2)建立结构效度的步骤 A、提出理论假设; B、根据假定结构拟定测题,编制测验; C、以测验结果为根据来验证假设结构中 的各种因素是否成立。 (3)结构效度的估计 A、因素分析法 其目的是把一些具有错综复杂关系的因素归结为 数量较少的几个综合因素或称共同因素,并以 此测验所测之特质对测验分数作出解释。 B、多元特质多重方法矩阵法 是由肯贝尔和菲斯克1959年提出的最受欢迎的一 种结构效度的评估方法。 这种方法的设想:若采用两种方法以上的方法去 测量两种以上的特质,那么这些测量结果之间 可以形成一个多元特质多重方法矩阵。 从理论上说,以不同方法测量同一特质的 相关应当为最高;以相同方法测量不同 特质的相关次之;以不同方法测量特质 的相关为最低。 与内容效度不同,结构效度主要用于智力 测验、人格测验等一些心理测验方面。 3、效标关联效度 是以测验分数和效标之间的相关系数来表示测验 效度高低的方法。 例如:某年全国高考物理学科的测验效度,可用 大学一年级物理学科的测验分数为效标,然后 求同一组学生高考物理得分与大一物理得分之 间的相关,此相关系数就是该年高考物理测验 的效标关联效度系数。当这个相关系数与总体 零相关有显著性差异时,相关系数的值(正值 )越大,效度就越高;相关系数的值越小,效 度就越低。 效标不仅随测验的种类不同而不同,而且可能随时间而 改变,现在是一个好的成功的效标,将来就不一定是 。所以,为某个测验选择一个最有效的效标,这是最 重要的事情。 教育测验的效标,可采用各学科成绩和教师评定的结果 ; 智力测验的效标,可采用学科成绩、教师评判的结果、 学生总成绩、受教育年限、年龄以及其他事物; 能力倾向测验的效标,可采用特殊课程或特殊训练的成 绩; 职业兴趣测验的效标,可采用从业人员实际服务成绩或 记录; 人格测验的效标,可采用编制者的主观标准,或以被试 以后行为或临床资料。 效标关联效度的估计方法 (1)相关法 由于测验分数和效标分数这两个变量的类型不同 ,二者相关系数的计算方法也就不同。 A、积差相关法:适用于两个变量为连续变量 进行显著性检验: 自由度df=N-2,检验的是两个变量,都减去2; 置信度取0.05,查相关系数界值表,寻找临界值 ; 结论:r临界值,说明显著相关,效度高;r0为正区分,D0为负区分,D=0为零区分 (二)区分度的计算 1、极端分组法 (1)客观性试题 D=PH-PL 例6:有道试题,高分组有70%学生通过, 低分组有30%的学生通过;而另一道题 ,高分组有40%学生通过,低分组有 70%学生通过,求两题的各自区分度? (2)主观题 D=(XH-XL)/N(H-L) XH为高分组得分总数 XL为低分组得分总数 H为该道题的最高分 L为该道题的最低分 N为应试总人数的27%。 例7 高分组 低分组 得分X 人次f 得分X 人次f 5 4 5 0 4 3 4 1 3 2 3 1 2 1 2 3 1 0 1 4 0 0 0 4 2、相关法 点二列相关法 例8:15个学生在数学测验中得分记录如下 ,计算数学测验中第一题的区分度? 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 测验 65 70 31 49 80 50 35 10 81 69 78 55 77 90 42 第一题 0 1 0 1 1 0 1 0 0 1 1 0 1 1 0 二列相关 例9:已知一测验中某选择题的通过率为 0.5,答对者的测验总分平均为76分,答 错者的测验总分平均为63分,全体被试 20人总分的标准差为16,求该题的区分 度? (三)提高区分度的方法 1、使题目的难度适中,使整个考试难度适中 题目的难度适中可使区分度达到最大值,因此, 使难度适中是提高区分度的重要方法。 2、着重考察复杂的学习结果 使高能学生得高分或低能学生得低分,使分数尽 量分布在整个分数量尺上。 3、掌握区分度的评价标准。 第三章教育测验的编制与实施 一、教育测验编制的一般程序 (一)确定测验目标 1、什么是测验目标 测验目标是测验编制者所编制的测验所要 达到的某种具体的目的。它明确规定测 验所要达到的预期结果或标准。 确定测验目标是编制测验的首要前提。 2、测验目标与教育目标分类 测验目标的确定是以教育目标分类理论为基础的。 (1)布鲁姆的认知目标领域 知识:这是最低等级的认知目标。主要指记忆知识。对 学过的知识和有关材料的识别和再现。 理解:这是最低层次的理解。主要是对知识的掌握,其 特点是脱离了“死记硬背”。 应用:指的是将学过的材料(知识)应用到新的具体情 景中去。 分析:指能将知识进行分解,找出组成要素,并分析其 相互关系及组成原理。 综合:与分析相反,指把各个元素或部分组成新的整体 。 评价:指根据一定的标准对事物给予价值判断。 布氏上述六类目标是有层次、有顺序的 ,知识是最低层次,是最基本的要求。 其余依次是理解、应用、分析、综合、 评价。评价为认知领域的最高层次,是 前面五种目标的综合并增加了价值标准 。这六类目标,由简单到复杂,由低级 到高级依次排列,组成层次结构。 (2)我国认知目标的分类 A、五分法 知识 理解 应用 分析综合 创造 B、四分法 识记 理解 简单运用 综合运用 (二)确定测验内容 测验内容的确定,实际上也就是内容抽 样的决定和测验目标的确立相结合而成 。 这一结合过程必须通过命题双向细目表 来确定。 命题双向细目表由3个要素构成: 测验目标 测验内容 测验目标和测验内容的比例 比例确定标准 每一内容范围的比例应与该内容项目在整个教 学领域里的相对重要性相符合,这种相对重要 性可由该内容项目的教学课时的多少来体现; 每一目标层次所要求的比例应当与测验编制者 认为这个目标对所受测学生的水平所具有的重 要性相符。 测验双向细目表,是编制测验的蓝图,它详细 说明了测验的内容、测验目标,对试题数量、 考试时间安排、测验分数分配等,都起着重要 作用,因此,它是编制测验必不可少的一环。 测验材料的收集必须遵循的原则: 1、测验材料要适合测验目的 2、测验材料要能够代表该教材的全部内容 3、测验材料要有普遍性 4、测验材料要适合学生程度并能鉴别学生 的学习水平 5、测验材料要能激发学生的进取心 (三)测验设计 1、测验形式的确定 2、测验题目形式的确定 3、测验具体题型的确定与题目编制 4、测验题目量的确定 5、测验时间的确定 6、测验题目的编制 先按试题的形式及内容分类 从易到难排列 二、测验题目编制技术 1、客观性测验题目的编制(约占60%左右) 试题应反映教学内容的重点或教学过程中要 求学生掌握的有意义的内容和知识点; 务必使每道试题自成一体,不可互相牵扯; 试题文字力求浅显易懂,题意明确; 试题的答案应该是明确且唯一的; 试题应按教育目标的要求,内容不能超过受 测者的知识和能力。 2、主观性测验题目的编制(大约占40% 左右) 试题应考查教育内容中的重要问题; 把问题和实际情景结合起来,强调知识的应 用; 要给被试发挥自己创造力的余地; 要使答案的复杂程度与被试的成熟程度相符 。 三、教育测量分数的整理和分析 编制频数分布表 求组中值 求全矩 求组数 求组限 画频数分布曲线图 分析频数曲线图 1、常态分布 即成绩中等的多,优秀和差的少,俗称“中间大,两头小”。学生的学 业成绩呈常态分布,表明能正确、客观地反映学生真实的知识程 度和能力水平。这是因为学生智力及其差异,一般是呈常态分配 的;另外,教学大纲的制定、教材的编写、考试命题都是从大多 数中等程度学生的实际出发,为大多数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高考语文复习知识清单第2章文学类文本阅读(一)小说专题07写小说文学短评(学生版+解析)
- 各种培训课件教学课件
- 二年级数学计算题专项练习1000题汇编集锦
- 肉鸭采购合同(2篇)
- 望庐山课件教学课件
- 南京工业大学浦江学院《实验艺术》2021-2022学年第一学期期末试卷
- 钢结构施工组织设计【超完美版】
- 多细胞生物体说课稿
- 《长方形的面积》说课稿
- 《小数的加减法》说课稿
- 中国航天发展史主题班会 课件
- 一 《改造我们的学习》(同步练习)解析版
- 2024-2025学年北京市海淀区名校初三第二学期期中练习化学试题含解析
- 孙中山诞辰纪念日主题班会主题班会
- 内科知识练习题库(附答案)
- 物业反恐应急演练方案(2篇)
- 扬州邗江区2023-2024六年级英语上册期中试卷及答案
- 2024年辽宁石化职业技术学院单招职业适应性测试题库含答案
- 2024年燕舞集团限公司公开招聘公开引进高层次人才和急需紧缺人才笔试参考题库(共500题)答案详解版
- 互联网+远程问诊
- 2024年仓储与配送管理形成性考核答案大揭秘
评论
0/150
提交评论