版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
教育测量与评价的质量特性工欲善其事,必先利其器。测量与评价的成效在很大程度上取决于评价自身的质量!评价是一把双刃剑。科学的评价能对教育产生良好的促进作用,而低劣的评价不仅耗费了宝贵的教育资源,还会导致种种不良的后果。属于教育评价再评价返回问题一:教育测量的结果是否真实、客观的反映了考生的实际水平?教育测量与评价的信度信度的理论定义实际值和测量值之间相差的程度测量分数=真分数+测量误差真分数如何获得?多次测量?返回教育测量与评价的信度信度的理论公式:获得分数方差=真分数方差+误差方差假设:误差是随机的,误差的平均数等于零误差与真分数之间无相关存在返回教育测量与评价的信度测量误差的来源:测验本身测验的实施被试本身返回教育测量与评价的信度决定系数:定义:存在相关的两个变量,在因变量的方差中由自变量方差所造成的比率值:两个变量相关系数的平方信度系数=决定系数?返回教育测量与评价的信度信度的操作性定义同一测验对同一测试施测两次或多次,所得结果的一致性程度。每次的测量结果实际包含被测的实际水平和测量误差两部分。物理测量:皮尺、钢尺、台秤、天平;教育和心理测量:各种测验量表;测量的一致性程度越高说明测量结果越稳定,由此人们在使用所得测值时就会感觉其可靠性越高。返回
教育测量与评价的信度信度的计算
在教育测量学中对信度的估计或计算,一般采用相关分析的方法,即计算出两种变量的相关系数(例如:计算两次测验同一对象的分数的相关系数),用相关系数的大小来表示一致性程度的高低。可根据测试结果分数的形式,是连续变量还是二分变量等,可采用不同的相关系数计算公式。
根据信度计算的不同方法,可将信度分为重测信度、复本信度、同质性信度、评分者信度。返回教育测量与评价的信度重测信度指用同一量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度。其大小等于同一组被试在两次测验上所得分数的相关系数。重测信度的基本假设:假设某测验所要测量的潜在特质,短期内不会随时间推移而改变。故重测信度的高低和测量时间间隔长短密切相关。间隔多久恰当呢?无固定标准,一般来说,在间隔时间内,被试的遗忘和练习的效果基本上相互抵消,即为适度的时间间隔。返回再测信度的计算公式用原始数据计算再测信度的计算公式用平均值、标准差计算再测信度的计算公式用平均值和总体标准差计算再测信度的特点简单内容重复时间间隔被试积极性测试环境被试主观状态再测信度的适用范围适用异质性测验适用速度测验不适用难度测验适用于运动技能测验
教育测量与评价的信度复本信度有些测验不适合施测两次,这时我们可以编制两份等值但并不相同的量表对被试施测(其时距尽量短,可短到两次测验接着进行),两个平行测验测量同一批被试所得结果的一致性程度称为复本信度,其大小等于同一批被试在两个复本测验上所得分数的相关系数。所谓测验的等值(或平行)是指:
&试题题型、题数、难度、指导语说明、施测要求等方面都相当
&用来测量相同潜在特质或属性
&试题不相同。两种方式:同一时间连续施测;间隔一段较短的时间后施测。返回复本信度的计算公式用原始数据计算复本信度的计算公式用平均值、标准差计算复本信度的计算公式用平均值和总体标准差计算复本信度的特点题目多,准确性高即反映不同时间的稳定性又反映不同试题的一致性避免再测信度的记忆性效应完全相同的试题比较难相似的两套测试可能影响积极性复本信度的适用范围适用于难度测验适用于速度测验教育测量与评价的信度重测信度和复本信度在使用的方法上分别属于跨时间和跨类型的,实际操作中存在困难,均需测验两次,复本不易做到等值,很难用同一测验对同一组被试重复进行测验等,于是引入内部一致性信度来计算测验的信度。内部一致性信度也叫同质性信度,是指测验内部所有题目间的一致性程度。题目间的一致性含有两层意思:其一是指所有题目测的是同一种心理特质;其二是指所有题目得分之间都具有较高的正相关。
同质性信度基于的假设是:当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个心理特质,由于众多的题目测试了同一心理特质,那么实测结果就是该特质水平的反映。估计同质性信度的方法主要有:分半信度、库德-理查逊信度、克龙巴赫α系数、荷伊特信度。返回教育测量与评价的信度分半信度指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。计算不难,把对等的两半测验看成是在最短时间距离内施测的两个平行测验。难的是,如何将测验分成相等的两半。
按题号的奇偶分半、按题目的难易程度分半、按题目的内容分半等等。实际应用中,由于题目一般依据难度大小排列,采用奇偶分半可使两半测验的题目在难度上基本相等,因此常被采纳。
如果一个测验无法分成对等的两半,则不宜使用分半信度。返回分半信度的估计方法一相关系数斯皮尔曼-布朗公式校正分半信度的估计方法二卢农公式估计每个被试两半测验分数之差的方差测验总分的方差分半信度的估计方法三弗拉南根公式估计法两个分半测验分数的方差同质性信度库德-理查深公式正误率内在一致性信度的特点避免再测同时性、同质性好分半困难分半方法不同信度不同教育测量与评价的信度评分者信度含义:指多个评分者给同一批人的答卷进行评分的一致性程度。教育与心理测量工作中,客观题无所谓,主观题常常存在误差,有时误差甚至较大。评分者信度的计算当评分者人数为两人时,评分者信度等于两个评分者给同一批被试的答卷所评分数的相关系数,依据数据形式,采用不同的相关系数计算方法。返回影响信度的因素测量的长度测试的难度测试内容的同质性程度测试程序的统一测试时间充分评分标准统一
教育测量与评价的效度返回效度的概念测量的有效程度一个测验或量表实际能测出其所要测量的特性或功能的程度任何测量都存在效度的问题效度是针对一定测量目的而言的效度是针对测量结果而言的效度只有程度上的差异评价一个测量是否有效要多角度、多方面地收集证据效度与信度的关系观察分数的方差表示信度的统计定义:效度的统计定义:效度系数不会大于信度系数的平方根信度高是效度高的必要条件
效度的类别效度的种类内容效度结构效度效标关联效度测验题目样本对于应测内容与行为领域的代表性程度侧重于测验题目取样的代表性,考查这些题目对所欲测量的内容和行为反应测量的有效程度结构:心理学或社会学上的一种理论构想或特质侧重于一个测验能够测量到心理学和教学理论上的抽象概念或特质的程度效标:检验测验效度的参照标准,实际上是本测验所想测量或要预测的特性或功能测验分数与作为效标的另一独立测验结果之间的一致性程度LOOP内容效度及其验证方法内容效度的概念内容效度:测验内容对所要测量的特性、功能等的代表性程度也就是说:测验的内容范围、材料与所要测量的内容范围、教育目标是否相符合,测验中测题所引起的行为是不是所要测量的属性的明确反映,测验的结果是不是一个具有代表性的行为样本内容效度多用于学科成绩测验之中因为学科测验的主要目的在于测量学生对于某门学科知识、技能的掌握程度内容效度及其验证方法逻辑分析法(定性的方法)依靠有关专家对测验题目与应测内容范围的吻合程度作出判断依据教材内容、教学大纲的范围以及教学目标分析测验内容,检查测验内容究竟在体现教材内容和教学目标方面达到多大程度对每一道题目逐一进行审查,以此形成“题目双向细目表”与“命题双向细目表”加以对照,以确定试卷的效度内容效度及其验证方法量化分析方法将专家的判断综合为一个内容效度系数的统计方法专家在仔细审阅测验目标的基础上,独立地对测验每个题目作出判断:该题目实际测到的内容与其欲测量的目标内容之间相关程度如何,并用四点量来表示如:1:完全无关;2:有点相关;……结构效度及其验证方法结构效度的概念测验对于人的假设属性或理论概念测量到的程度这些假设属性或理论概念是决定人们外部行为的内隐或潜在的特性但这种特性不能予以操作性的定义,它所支配的行为也不能直接观察到结构效度及其验证方法结构效度建立的示例建立理论框架从理论框架出发,提出各种假设根据假设编制测验以逻辑及实证的方法,检验结果是否符合心理学的理论框架及其假设比如:中学生数学能力的研究数学能力由分析能力、综合能力、归纳和演绎能力、运算能力、空间想象能力构成;数学能力与早期教育有关;数学能力与智力正相关。编制测验,施测并收集测验结果分析测验结果,考查测试的结构效度,考查测验结果是否支持理论构想结构效度及其验证方法结构效度的验证方法(1)测验内部寻找证据法①内容效度:有些测验对所测内容或行为范围的定义或解释类似于理论构想的解释。②作答过程分析:对被试作答过程进行分析,如果作答过程中有非目标因素的影响,那么测验的结构效度就不高。(2)测验之间寻找证据法①相容效度:考察新编测验与某个能有效测量相同特质的旧测验之间的相关,若二者相关较高,则说明新测验有较高的效度。②聚合效度:即求同效度,两个测验如果是测量同一特质的,即使采用不同的方法进行测量,它们之间的相关应该也是高的③区分效度:即求异效度,两个测验如果是测量不同特质的,即使采用相同的方法进行测量,它们之间的相关应该也是低的效标关联效度及其验证方法效标关联效度的验证方法效标:检验测验效度的外在的、客观的标准,即效度的标准效标效度,也称为效标关联效度,也称为实证效度验证方法是指一个测验对处于特定情境中的个体行为进行预测时的有效性例:高考成绩预测大学学习成绩能力倾向测验预测工作成效分类:同时效度:测验分数与效标资料的取得约在同一时间内连续完成,这两种资料的相关系数即为同时效度目的:诊断现状预测效度:测验分数取得一段时间后才获得效标资料,计算这两种资料间的相关系数目的:预测某个个体将来的行为效标关联效度的估计方法相关法直接计算测验分数与效标分数的相关系数积差相关、等级相关、二列相关等显著差异法根据效标测量将被试分为两个极端组,检验这两个组测验分数是否具有统计学上的差异显著性命中率当测验用作取舍决策时,常使用命中率相关概念:总命中率、正命中率、负命中率总命中率高,则测试的效度高例:70人参加的考试,通过测验选取了50人,淘汰了20人;选出的人中有40人合格,淘汰的人中有8人不合格。该测验的总命中率、正命中率和负命中率分别是多少?教育测量与评价中题目(项目)的难度一、难度的含义难度是指测验项目的难易程度刻画被试作答一个题目所遇到的困难程度的量数,叫做题目的难度系数,用符号P表示在教育测量中,P=正确回答试题的人数/参加测验的总人数二、难度的计算客观试题(二分法记分):P=R/NR:答对该题的人数;N:参加测验的总人数对选择题的解答,因被试可猜测,故需对难度系数加以校正CP:校正后的难度值;P:实际得到的通过率;K:选项数目教育测量与评价中题目(项目)的难度难度的计算主观题的平均数法主观题的极端分组法公式:步骤按测验总分依次排序,确定比例各为25%的高分组和低分组为高分组、低分组分别编制每题得分的分析表(试题分析表)用上述难度公式计算难度值教育测量与评价中题目(项目)的难度公式的含义:XH:高分组所得总分;XL:低分组所得总分;H:该题最高分;L:该题最低分;N:考生总人数的25%难度的转换难度指出的仅仅是题目的相对难度,不能客观地指出题目难度之间差异大小一般情况下,测验分数呈正态分布利用正态分布表,可将P转换成具有相等单位的等距变量P向Z的转换假定每个试题所要测量地潜在特质或能力是呈正态分布的,可将P值作为正态曲线下的概率面积,以此转换成Z分数。教育测量与评价中题目(项目)的难度难度对测验的影响难度对测验分数分布的影响过易、过难会造成测验分数偏离正态分布,使测验分数离散程度变小难度对测验鉴别力的影响测验的主要功效是鉴别考生实际水平的高低适宜难度可以加大考生得分的差异,从而提高测验的鉴别力项目难度的适宜值为0.5左右时,测验得分的方差才可达最大值难度与测验目的的关系项目难度应根据测验目的来确定常模参照评价:区分学生能力或成就的高低标准参照评价:了解学生达到教学目标规定的掌握程度教育测量与评价中题目(项目)的区分度一、区分度的概念区分度是测验对被试实际水平的区分程度是测验项目分析的重要内容是作为评价项目质量、筛选项目的主要指标与依据通常用D表示,取值范围为+1.00至-1.00D越高时,试题的质量越好D为正时,试题积极区分高分组通过率高,低分组通过率低D为负时,试题消极区分高分组通过率低,低分组通过率高教育测量与评价中题目(项目)的区分度二、区分度计算方法极端分组法客观性试题区分度的计算公式:D=PH-PL按测验总分从高到低排序确定测验总分最高的27%的被试作为高分组,最低的27%的被试为低分组分别求出这两组被试通过试题的百分比将算得的有关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国医疗改革过程
- 危险源辨识管理培训
- 人工肛门便袋护理
- 介入治疗并发症
- 2024变压器维修合同
- 2024年达美航空项目成效分析报告
- 2024至2030年中国照相机透明部品数据监测研究报告
- 2024至2030年中国鸡用霉菌毒素强力清除剂数据监测研究报告
- 2024至2030年中国隐蔽天线数据监测研究报告
- 2024至2030年中国纯香花生油行业投资前景及策略咨询研究报告
- GB 12955-2024防火门
- 集装箱购销协议合同范本示例
- 求职面试技巧培训
- 室内装修施工安全方案
- 直播电商代运营服务协议(GMV计费模式)
- 工程询价合同模板
- 事业单位招聘《综合基础知识》考试试题及答案
- 2024年中国瓦楞包装纸箱市场调查研究报告
- 无锡风机吊装施工方案
- 第九章 职业健康安全与环境管理课件
- 2024年保安员证考试题库及答案(共260题)
评论
0/150
提交评论