第七章 教育测验与评价_第1页
第七章 教育测验与评价_第2页
第七章 教育测验与评价_第3页
第七章 教育测验与评价_第4页
第七章 教育测验与评价_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章第七章 教育测验与评价教育测验与评价 第一节第一节 教育测验教育测验 一 教育测验的概念 一 概念界说 测量是给事物的某种属性给定数值的过程 回答了 有多少 的问题 教育测量包括了从身体身体素质到 兴趣态度等多个方面 测验是对于知识水平 情意状态 运动技能等的数量化测定 有广义和狭义之分 狭义的测验仅指一份测 验卷子 而广义的测验指编制试题 施测 评分到报告成绩的全过程 在教育领域 测验只是测量的一种 形式 主要用来测量学生的学业成绩和心理特点 如果说测量回答了 有多少 的问题 只考察量的大小 测验则回答了 某个人做的怎么样 的问题 包含了对测验结果的解释和评判 规范的考试是教师在教学过程中编制试题 评定学生学业成绩的过程 如期中 期末考试 它与测验的区 别有两种看法 第一种是从教育测量学中引出 认为测验更为规范 从试题编制 实施测验测验到评分过 程都有严格的程序 而考试则是教师可自行安排 相对灵活 技术要求不高的测验形式 另一种观点与第 一种正好相反 认为测验比较随意 而考试则较为正式 本书主要采用第一种观点 评价是对某种教育活动的价值判断 评价包含定性描述或价值判断 更多的时候是两者兼而有之 二 测验的功能 测验具有以下功能 1 激励功能 2 诊断功能 诊断性测验主要考察两个方面 一个是看基础打得好不 好 可否满足学习某种新知识的需要 另一个是看理解和掌握上有什么错误及其原因所在 它为教学提供 了丰富的反馈信息 使教师能及时调整教学 3 区分和选拔功能 升学考试就体现了测验的选拔功能 如高考 4 评定功能 二 测验的类型 从测验目的上考虑 可以分成安置性测验 形成性测验 诊断性测验和总结性测验 从测验内容上考虑 可以分成成就测验和学能测验 从规范程度上区分 可以分成标准化测验和教师自编测验 从结果解释所 参照的标准区分 又可以分成常模参照性测验和标准参照性测验 一 安置性测验 形成性测验 诊断性测验和总结性测验 安置性测验的根本目的是分班 分组 安置性测验涉及的范围比较窄 难度也比较低 形成性测验针对某一教学单元而设计 在教学过程中进行 其目的不在于评定学生 而是为了调控教学 诊断性测验能够反映学习中常见的错误 诊断学习困难 特别是找到困难的成因 诊断性测验的目的是发 现问题 评分不作为正式成绩 总结性测验用于对学生学习情况的阶段性总结分析 在一个段落或一门课结束后 教师会编制一套试题 全面考察学生的掌握情况 现行小学学科测验多采用闭卷形式 有时候也要求学生完成实践性课题 二 标准化测验和教师自编测验 标准化测验在试题编制 施测和评分过程中有着严格的规范 标准化测验是由测验专家和教师共同编制的 试题质量较有保障 最典型的标准化测验是智力测验 如 比奈智力量表 教师自编测验是教师自己编制的测验 是在教学过程中针对教学实际引用现代测验原理编制的 教师自编 测验针对性 灵活性强 能反映实际教学中遇到的特殊问题 三 成就测验和学能测验 成就测验是对学生学业成绩的检查 常结合具体学科而设 学校平时的课堂测验 期中 期末考试等 都 是成就测验 学能测验 又称学能倾向测验 它考察学生在课程学习中所获得的能力 与学业成就有较大关系 学能测 验不局限于某门课程 关心各门课程都需要具有一般能力 主要包括文字推理测验和数字推理能力测验 学能测验一般在小学毕业前进行 能在一定程度上预测学生的发展潜力 学能测验与成就测验的区别在于 成就测验针对具体的教学内容而定 着重考察知识的掌握情况 而学能 测验的测验内容比较宽泛 侧重于能力考察 四 常模参照性测验和标准参照性测验 常模参照性测验是按照在特定群体中的相对位置决定成绩的好坏 选拔性考试一般是典型的常模参照性测 验 如高考 常模参照性测验要在所定教学内容中 选出一些能区分出学生水平的题目 它不一定要面面 俱到 但应该能拉开分数距离 题目难度以中等为宜 特别难和特别简单的题目要少一些 标准参照性测验是考察是否达到了预先规定的标准 类似于各种执照考试 如驾驶执照考试 这种测验只 关注考生是否达到了应该达到了应该达到的水平 而不去管别的考生怎么样 确定 合格 或 掌握 的 标准是标准参照性测验能否取得成功的关键 标准参照测验往往是针对某几个特殊的知识点而设计 题目 覆盖面广 并尽可能把所学的重要知识都反映出来 标准参照性测验不去刻意拉开学生间的距离 题目该 难就难 该易就易 完全随知识点的要求而定 常模参照性测验和标准参照性测验的区别是 前者着重同学间的比较 后者关心有没有达到预定的学习目 标 常模参照性测验适用于选拔性考试和总结性评定 而标准参照性测验适用于诊断和发现学生的不足 从而为改进教学提供反馈信息 三 良好测验的标准 好的测验都应当符合一定的要求 通常用实用性 信度 效度 难度和区分度等指标衡量测验质量 1 实用性 实用性反映了试题的基本质量 其基本要求是便于组织 便于实施 节时省力 便于组织 2 测验便于 实施 3 容易评分 4 结果要容易解释 2 可信度 可信度又称信度 指测验结果的前后一致程度 表示了分数的稳定性和可靠性 具体要求是 先后两次用 同样的试卷测查同一批学生 则两次测验的分数应该比较相近 对同样的答卷组织两次评分 评分结果相 近 如果上述评分结果相差悬殊 就表示可信度很低 评分的客观性常用评分者信度来说明 3 有效性 有效性在测量学上也称为测验的效度 指一个测验能测到预先想测的知识和能力的程度 估计测验效度的 方法主要有两种 1 内容效度 反映了题目对所考察内容的代表性问题 2 效标关联效度 反映了测验 分数和所选择的效标分数之间的一致程度 和信度相比 测验的效度更为重要 因为效度高的测验信度一 定高 4 难度 难度即测验的程度 提供了试题平均通过率的信息 一份试卷的难度取决于每一道题的难度 难度用全体 被试在某题的得分率 P 表示 如果全部通过 难度为1 如果谁都没有通过 难度为0 难度值在0到1之 间 难度值越大 表示题目越容易 高分段人数少 低分段的人数多 表示难度较高 高分段的人数多 低分段的人数少 表示难度较低 难度中等时 最容易拉开考生间的档次 不同的测验对难度有不同的要 求 如选拔性考试难度以中等为宜 否则很难筛选 一般来说 某一道试题答对的学生少于20 时便是过 深 答对的多于80 时则是偏浅 5 区分度 区分度是测验能否拉开分数距离的指标 试题的区分度也称为鉴别力 表示某道题目能够将不同程度的学 生鉴别开来的能力 试题难度直接影响区分度 特别难的题目大家都不会做 特别容易的题目大家都会做 这两种题目区分度都很低 反之 中等难度的试题的区分度比较高 难度为0 5的题目 区分度最大 四 测验的编制和实施 一 确定试题内容 在选择试题内容时 应设计测验蓝图 测验蓝图包括确定测验目的 测验内容以及编制双向细目表等内容 1 确定知识点 2 确定认知水平 3 设计双向细目表 双向细目表是由教学内容和教学目标构成的的 二 选择试题类型 课堂测验的题型有客观题和论文题两种 客观题包括填空 判断正误和多项选择等题型 论文题包括简答 题和论述题 因为客观题和论文题各具优缺点 所以搭配使用效果最佳 三 评分 计分方法可分为等级分和百分制两类 等级分在中国隋唐一代就广为使用 百分制则是20世纪初教育测量 学的发展产物 等级制的计分方法除五分制和 A B C D E 外 还有许多变形 使用等级分的好处是避 免了在同一分数等级上同学间的攀比 会减轻过分的分数竞争 但缺点在于 等级分比较粗略 不容易反 映个体间细微的差别 评分尺度也较难把握 在评分时 教师要注意到自己对学生的看法可能会影响到评 分过程 和百分制相比 等级制能避免 分分计较 的学习心理 减轻学生的考试负担 四 测验分数的解释 分数只有经过解释具有实际意义 解释分数时 既可以和其他同学的学习表现相比较 也可以和考核标准 相对照 分数的意义是在比较中获得的 如同样考85分的两个同学 其分数值虽然相同 但反映出的水平 和存在的问题并不完全相同 第二节第二节 中小学教育评价中小学教育评价 一 中小学教育评价概述 最早的有组织的教育评价可以回溯到中国的科举考试 西方直到19世纪末期才开始实行正规的教育评价活 动 早期评价研究主要集中在美国 赖斯的拼写测验是经典的评价研究 这项研究是在1895年到1905年的 十年间在美国全面开展的 20世纪初 教育评价和教育测验发展很快 此期最有影响力的桑代克被称为现 代教育测验之父 到了20世纪30年代 这一时期研究成为教育评价的里程碑 20世纪50年代 布鲁姆建立 了教育目标分类学 直到现在 布鲁姆的教育目标分类学仍然是测验的重要指标体系 如果说测量给定了 量的大小 评价则体现了价值判断的过程 评价是一种较主观的活动 广义的教育评价包括对于教育活动一切方面的评价 狭义的教育评价主要是对学生发展的评价 又称为学 生评定 广义的评价较为笼统 狭义的评价关注教育效果而不看过程 二 中小学教育评价的类型 从评价的严格程度上考虑 可以分成正式评价和非正式评价 从解释评价结果的标准上考虑 可以分成相 对评价和绝对评价 从评价的功能上区分 可以分成形成性评价和总结性评价 一 相对评价和绝对评价 对应于常模参照性测验和标准参照性测验 评价可分为相对评价和绝对评价 相对评价是在群体中进行对 比 这时衡量标准是相对的 如 矮子里拔高个 水涨船高 绝对评价要和预定的标准相比较 只要 达到了标准 就称为合格 如某种资格认证考试 二 形成性评价和总结评价 对应于形成性测验和总结性测验 评价可分为形成性评价和总结性评价 形成性评价是指在活动过程中 以改进工作为目的而开展的评价 通过揭示问题和反馈信息 这种评价对改进工作质量很有帮助 总结性 评价是对活动结果的评价 它的目的在于评判活动效果 形成性评价和总结性评价在评价技术上并没有差 别 只是实施过程不同 前者贯穿于活动的全过程 以改进工作为目标 后者要等到活动结束时才进行 目的是为了鉴定分等 三 中小学教育评价的内容 在宏观范围 教育评价涉及教育目标 教育结构 教育管理体制等方面 在中观层面 包括教育队伍 办 学条件 学校各项工作 微观层面则关注学生的学习和发展 在小学教育活动中 学生发展评定 教师授 课质量评价 课程和教材评价是最主要的评价活动 此外 诊断学校中存在的特殊问题 评价教改实验 评估学校的总体表现也较为常见 一 学生发展评定 学生发展是衡量学校办学水平的关键指标 评定学生要考虑许多方面 最基本的有学业成就 行为表现和 身体状况三方面 即德育 智育和体育 学业成就不仅包括学生在知识领域的学习成绩 还包括技能和情 意领域的学习表现 行为表现评价也就是操行评定 用以考察学生在道德品质和行为处事上的优点与不足 操作评定应考察学生在伦理道德 品德修养和性格特点三方面的特征和表现 身体状况评价包括体质 体 力 精力 卫生习惯和良好的生活方式等方面 二 教师授课质量评价 进行授课评价时 首先要确定评价的标准 这个标准要明确 具体 相对独立 要能够全面衡量教学的各 个方面 实施授课质量评价标准一般有以下方面 1 教学目标完成情况 2 学生的课堂参与 3 内容 安排 4 教学方法 5 语言表达 6 教学原则 具体到每一个方面还应当具体化 教师授课质量评价 包括专家 同行 学生和自我评价 现代教育评价强调教师要增强自我评价意识 加强评价的形成性功能 在中小学教学实际中 多采用听课 评课的深入交流形式评价授课质量 不是局限于固定的评价指标 要 能够结合具体的情况分析教学的特色和问题 对中小学教师来说 评课是很重要的一种能力 因为评课是 教学常规的一部分 三 课程和教材评价 四 中小学教育评价的基本步骤 评价的关键是建立评价目标 并在此基础上通过收集和整理资料 判断目标的达成情况 要想评价小学生 的作文能力 就要分析小学作文教学的目标 并在此基础上建立评价标准 然后选择一些学生 考察他们 的作文水平 最后要比较学生实际作文水平和教学目标的差距 分析作文教学中到底存在哪些问题 一 建立评价目标 现代教育评价的总目标可概括成以下类别 1 直接与学业成就有关的评价目标 包括知识和技能目标 情意目标 2 间接与学业成就有关的评价目标 包括学生的智能 性向等 学生的环境 身体的评价目 标 二 选择评价样本 收集评价信息的方法主要有观察 问卷调查和访谈 检查作业 考试 家访和轶事记录法等 四 报告评价结果 要具备以下内容 评价目标 时间 人员 方法 结果和建议 五 当今评价的问题与发展 一 现存问题 测验和评价的应用以激励学生和改进教学为目标 但实际教学中 某些教师往往用测验一个尺度 从学业 成绩一个方面衡量学生的发展水平 这样不仅会妨碍学生的全面发展 也会对教学改革形成阻力 有以下 问题 1 重知识轻能力 2 片面追求分数 3 影响学生心理健康 4 制约教学改革 二 发展和改革对策 现代教育评价具有以下特点 1 注重评价的形成性功能 2 注重定性和定量相结合的评价方法 3 倡 导自我评价 4 尊重评价对象的感受 1 从侧重一元评价到多元评价 以测验成绩为主要尺度 这样的评价模式就是一元评价 从多视角 采用多种方法评价学生就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论