教育评价与测量课件_第1页
教育评价与测量课件_第2页
教育评价与测量课件_第3页
教育评价与测量课件_第4页
教育评价与测量课件_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、教育评价与测量教育评价与测量教育评价与测量的发展历史一、中国是考试的故乡,是考试制度的发源地。 现在学者一般认为,考试制度在西周初见端倪,西周选士是我国考试制度的萌芽阶段。 “一年视离经辨志,三年视敬业乐群,五年视博习亲师,七年视论学取友,谓之小成;九年知类通达,强立而不返,谓之大成。”学记教育评价与测量的发展历史一、中国是考试的故乡,是考试制度的发“古之教育,家有塾,学有庠,术有序,国有学。比年入学,中年考校,” 古代教育制度规定,20户人家设一私塾,500户的县设一学堂,12500户的行政区设学校,国都设大学。大学每年招收学生,每隔一年考查一次,第一年考查学生分析课文的能力和志趣;第三年考

2、查学生的专业思想是否巩固,同学之年能否相亲相助;第五年考查学生的知识是否广博,对教师是否敬爱;第七年考查学生研究学问的本领和识别朋友的能力,合格的就叫“小成”。到第九年,学生对于学业已能触类旁通,他们的见解行动已能坚定不移,这就叫做“大成”。“古之教育,家有塾,学有庠,术有序,国有学。比年入学,中年考二、从教育测量走向教育评价1教育测量学科的诞生 1904年美国心理学家桑代克出版了论著精神与社会测量导论,被公认是教育统计学、教育测量学、教育评价学等学科的第一本著作,首次较系统地介绍了教育统计方法及编制测验的基本原理,标志着教育测量理论的诞生。2进入教育评价的时代 泰勒在1940年的“八年研究”

3、报告书中,首次提出“教育评价”的概念。他认为评价是一种确定行为实际变化程度的过程,并形成了泰勒“行为目标评价模式”,他本人因此被称为当代教育评价之父。二、从教育测量走向教育评价三、第四代教育评价理论1测量时代:1900-19302描述时代:1930-19403判断时代:1950、1960-19894应答性模式:1989至今三、第四代教育评价理论教育测量的一般原理一、测量理论1经典测验(Classical Test Theory,CTT)2概化理论(Generalizability Theory, GT)3项目反应理论(Item Response Theory,IRT)教育测量的一般原理一、测量

4、理论二、测验的类型1常模参照测验2标准参照测验二、测验的类型三、测量的数据类型1称名量表和称名量表数据2顺序量表和顺序量表数据3等距量表和等距量表数据4比率量表和比率量表数据离散型数据和连续型数据三、测量的数据类型四、数据的数字特征1集中量数:众数、中位数、均值2离散量数:全距、四分位差、方差、标准差、差异系数五、数据的正态分布形态1正态分布是一种连续型随机变量的概率分布,也称其为常态分布。2负偏态分布也称为右偏态分布3正偏态分布也称为左偏态分布四、数据的数字特征六、原始分数转换1百分等级和百分位数2Z标准分数和T分数六、原始分数转换教育评价的标准一、影响评价标准的因素 教育目标、评价对象和条

5、件、科学理论、评价需要与意图二、评价指标设计的方法1特尔斐法2关键特征调查法3层次分析法教育评价的标准一、影响评价标准的因素教育评价信息的处理一、常用数据的处理方法1针对类别数据的处理方法:计算次数、众数、百分比、卡方检验、列联相关2等级数据的处理:计算中位数、百分位数、肯德尔和谐系数、等级相关3等距数据的处理:计算平均数、标准差、积差相关、t检验、F检验教育评价信息的处理一、常用数据的处理方法 x2检验(Chi-square Test):既可用于推断某个变量是否服从某种特定分布的拟合度检验,也可用于推断两个离散型变量是否存在依从关系的独立性检验或推断几次重复试验的结果是否是相同的同质性检验。

6、例:某位老师调查了32位学生最喜欢的媒体类型:报刊、电视、电影、网络,结果是依次受欢迎人数是4、5、8、15。如果理论上每类媒体期望的人数应该都是8。 此类问题中要检验的假设是: H0:四类媒体同样受欢迎 H1:某类媒体比较受欢迎 x2检验(Chi-square Test):既可用于肯德尔和谐系数(Kendalls W):是一种应用平均秩检验法的结果。首先将多个样本数据混合按升序排列,并求出每个观测值的秩,然后对各个样本的秩分别求平均值,再计算Kendalls W。 Kendalls W和谐系数检验主要用于分析若干个评判者的评判标准是否一致。例如,在一次普通话比赛中,三名评委A、B、C对40名

7、选手的评分如表所示,试检验三名评委的评分标准是否一致。肯德尔和谐系数(Kendalls W):是一种应用平均秩t检验是一种参数检验,主要涉及两个样本所来自的两个总体的方差是否相等。 如果是比较两组测试结果的均值时,可以用 检验。当涉及多组样本的均值比较问题时,还用 检验进行两两比较是不合适的,因为它会大大降低检验的可信度,此时应当用到方差分析。F检验,与t检验直接比较两组平均数的做法不同的是,方差分析把“平均数之间差异是否显著”的问题转化为“平均数组间变异是否显著”的问题,通过“组间变异”与“组内变异”的对比,进行F检验,从整体上同时比较多组的平均数之间是否存在显著差异。由于F分布统计量是一个

8、方差比,故称这种检验方法为方差分析。t检验是一种参数检验,主要涉及两个样本所来自的两个总体的方差二、评价信息的统计推断 统计推断是运用样本信息来推断总体情况的有效方法,它包括参数估计和假设检验两个基本部分。(样本的数字特征称为统计量,总体的数字特征称为参数。)1参数估计 常用的置信区间: 0.95置信区间=0.05显著性水平,其意思是,估计正确的概率为95%,出现错误的概率为5%,此时Z值为1.96。 0.99置信区间=0.01显著性水平,其意思是,估计正确的概率为99%,出现错误的概率为1%,此时Z值为2.58。2参数假设检验二、评价信息的统计推断零假设:即假设两组数据的参数(如平均数)无本

9、质差异,用表达式表示则为: H0:u1=u2备择/研究假设:即假设两组数据的参数有本质差异。用表达式表示则为: H1:u1 u2注意事项: 当样本数量N30时,采用Z检验,反之采用t检验。 如果评价者只关心两个平均数之间是否存在显著差异,而不关心差异的方向,可采用双侧检验法。如果评价者可预测某一平均数应大于或小于另一平均数时,则可采用单侧检验法。如,样本的平均数大于总体平均数时,则采用左侧检验;样本平均数小于总体平均数时,可采用右侧检验。零假设:即假设两组数据的参数(如平均数)无本质差异,用表达式教育评价的质量一、信度 测验的信度是指测验结果的可靠性或可靠程度。所谓可靠性是指对同一组对象进行两次相同测量所得结果的一致性和稳定性程度。常用的信度估计方法有:(1)计算测验内部各项目的得分的一致性,得到同质性信度;(2)用同一测验对同一组被试,前后测验两次,据两次测验分数计算其相关系数,得到再测信度;(3)当一种测验只能施行一次且没有复本时,可按测验题目的奇偶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论