教育测量与评价0001_第1页
教育测量与评价0001_第2页
教育测量与评价0001_第3页
教育测量与评价0001_第4页
教育测量与评价0001_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一章、 教 育量与评价学科发展教育测量与评价一.教育测量(史蒂文斯 )1、测量 : 根据法则给事物赋予数量。测量: 客观事物及其属性;所依据的规则或方法;数量化的结果。2、教育测量:广义: 对于教育领域内的事物或现象,根据一定的客观标准,作缜密地考核,并依据一定的规则将考 核的结果予以数量的描述。狭义: 是指对学生某些学科经过学习和训练之后,所获得的知识、技能的测量。又称成就测量、学业 成绩测量或学科测量。3、教育测量的特点:1. 间接性和推断性2. 测量对象的模糊性和测量误差的不可避免性3. 量表具有多样性 ,结果具有相对抽象性4. 测量目的的针对性二.教育评价 评价:评:评定; 价:价值

2、教育价值 教育评价:注重效果:美国的泰勒; 注重资料的获得:美国的克龙巴赫、斯塔弗尔比姆;注重评价方法、手段:中国的张秀理、日本的长谷川容1、教育评价的概念: 教育评价是评价者对教育活动或行为主客体价值关系、价值实现过程、结果及其意义的一种认识 活动过程,其核心内容是揭示教育活动或行为中的客体对主体的需要、目标的价值意义。 三.教育测量与评价的关系联系 : 教育测量就是指根据一定的理论、规则,运用一定的测量工具对教育现象进行数量化描述的过程 教育评价是对教育现象状态和价值的判断,这一判断是以对评价对象的客观描述为前提的,没有对 评价对象的客观描述,就不会有对评价对象价值的客观判断.同时,教育测

3、量是教育评价的基础,教育评价要在教育测量所获得的客观信息的基础上进行 教育测量的结果要通过评价才能获得实际意义教育测量与评价的区别: 第一,测量是对事物数量特征的获得。而教育评价则是对教育现象客体的价值进行判断 第二,教育测量是一种纯客观的过程,其突出特点是客观性。而教育评价则具有两种属性,即 客观性和主观性第三,测量的任务是对事物的量的认识 ,而评价作为一种认识活动,是人的意识对实践活动 及其结果的综合反映,它反映的是活动的过程和终点,又是新的实践活动的起点。教育测量与评价的产生与发展过程:一.教育测量的产生1904 年以前(教育测量的萌芽期) 中国的科举制(隋炀帝大业二年,公元606 年)

4、科举制的特征:逐级考核、制度完备、考场严格、命题规范 科举制的考核方法:口试、贴经、墨义、策间、诗赋产生在中国、发展在西方美国贺拉斯曼 1845 年将“笔试 ”引入美国英国费舍在 1864 年作业量表集美国赖斯在 1897 年的拼字实验1904 1915 年教育测量的开拓期 : 美国桑代克的巨着精神与社会测量导论问世。标志着以科学理论为指导的教育测量理论的 诞生。桑代克在这本巨着中提出:无论什么东西,只要存在,总存在于数量之中 麦克尔提出:任何东西,存在于数量中的,都可以被测量 这就是后来人们说的 “凡存在的东西必有数量;凡有数量的东西都可以测量 这两句话,看成是构成一切测验和量化评价的公理。

5、1909 年,桑代克根据 “等距原理 ”发明了编制量表的单位,编制了标准化的测验量表。1915-1930 年教育测量的兴盛期: 在桑代克的影响下,教育测量的运动轰轰烈烈的开展 测验品种有算术测验、书法测验、学科测验、智力测验、个性测验、兴趣测验等,在数量上已 有 3000 多种 标准化测验的问世1930-1940 年教育测量的批判期:对教育测量批判的原因:教育测量虽然能使教育成就定量化、客观化、标准化;但毕竟不能测量出人的学力和人格的全 部内容。第一次大战以后,人们的教育观点发生了很大的变化,不在将教育看成是单纯的传授知识,而 是将人的全面发展作为教育目标。而人的全面的重要因素如:社会道德、人

6、的情绪态度、动机 兴趣、鉴赏力等是不能光靠测量的。教育测量存在的弊端:为测量而测量,盲目追求量化,忽视教育服务对象的整体目标与价值。 教育测量的理论基础只有心理学、统计学和测量学,而没有教育学原理。 二.教育评价的产生1、教育评价产生的社会背景:1929 1933 年席卷美国、波及全球的经济大萧条 社会与教育危机四起生产过剩、工厂倒闭、工人下岗 学校因经济不景气,部分学校关闭,有些学校的班级减少。整个社会和教育皆处于反省之中1930 年美国有 25%的失业,青年近乎 100%找不到工作, 1910 年 1417 岁的青年 17%上大学, 而到 1930 年上升到 51% 。有相当一部分人上高中

7、并不想上大学,而当时的美国高中设课就是为了上大学服务的,为此中 学设课与失业青年的需求就产生了尖锐的矛盾2、教育评价的起源: 美国进步主义联盟负责人艾钦于1933 1940 年领导了中学课程改革实验研究,其中课程评价委员会由俄亥俄州的州立大学教授泰勒主持,这就是美国教育历史上着名的 “八年研究 ”,也是教育评价问 世的开始。八年研究的内容:泰勒教授选了 30 所参加实验的高中学生,对这些学生进行了究,历时 “八年 ”,这也是 “八年 ”研究的由来。当时选进步学校和和传统学校学生各 1475 人,按性别、年龄、种族、学业能力倾向、家庭、 社会环境、职业兴趣和嗜好等基本原则进行一一配对,进行比较。

8、评价是八年研究的有机组成部分,泰勒认为课程计划和编制必须回答以下四个基本问题 应帮助学生达到什么目标?为达到目标应帮助学生学习那些预期的知识? 怎样组织学习过程才能使学生的学习成效最大? 怎样评价教学方案1、2、3、4 年中学、 4 年大学学习的追踪研4、 结果发现: 来自实验的学生在大学四年中,每年获学术性荣誉略多; 具有更强的理智、好奇心和学习动机; 思维更精密、更系统、更客观; 对教育的意义有更清晰的看法; 对新情况有更强的应变能力; 具有更有效的解决问题的办法; 更多的参加有组织的学习团体; 获得非学术的荣誉更多些; 对职业的选择有更好的定向; 更积极的关注全国和全世界的事物。新旧课程

9、比较结论: 前三项经统计检验均存在显着性差异 记忆活动传统的高于进步学校,但经统计检验两者没有显着性差异 教育评价的问世:八年研究后泰勒等人的研究结论是: 旧课程及其教育测验是教科书主义,测验内容只是要求学生记诵教材中的知识,是片面的,不能 反映学生的全面发展。课程编制原理和评泰勒提出:以全面发展的教育目标为核心和依据的两条相互依存的原理,即 价活动原理 ,也就是 泰勒原理教育评价的创始人 泰勒: 在八年工作报告中第一次提出教育评价 这个报告被称为 “划时代的教育评价宣言 ” 宣布了教育评价的诞生 给出了教育评价的原理、方法和手段 奠定了泰勒 - 教育评价之父的地位 同时也迎来了美国教育史上

10、“泰勒时期的到来 ”3、评价的发展: 1940 1957 年教育评价的平稳期: 特点:筹划与享受生活的时代 ”教育评价的理论在不断的进行深入研究 布鲁姆完成教育目标分类学 教育评价活动没有普及 这与当时美国的历史背景有关,二战后,美国处于 社会对教育的发展很少提出新的要求。1957 1972 批判泰勒模式时期: 特点:1957 年前苏联的人造卫星上天 引发美国对教育的不满 开始批判泰勒教育模式1972 现在 专业化时期特点:高等学校出现了许多教育评价的硕士、博士、博士后专业点 各类教育评价研究中心纷纷建立 如:美国有西密执安大学评价中心、洛杉矶加里福尼亚大学研究中心等 教育评价专着、杂志大量出

11、版如:评价研究评价评论评价信息等4、教育测量与评价的发展趋势及特点教育测量的政治性得到强化教育测量的重心发生了变化 教育测量的理论得到飞跃发展 计算机技术的发展提高了测验的效率 测验的统计模型为教育测量学科发展提供强有力的理论支持 更加重视测量结果的解释教育测量内容的发展:评价方法由注重相对评价转向重视绝对评价重视教育目标研究 教育评价研究中不断引入新的研究方法 越来越重视发展性教育评价理念和被评价者的参与 越来越重视元评价越来越重视对评价结果的全面解释和慎重处理 第二章、教育测量与评价的基本原理 教育评价与测量的类型 一、教育评价的 分类1、根据评价对象的层次和内容来划分:宏观评价: 指对影

12、响到全社会的那些指导、规范教育活动的各种因素进行的评价。 微观评价: 指对某项具体的教育活动过程,对实施、管理教育活动的组织与个人对教育活动指 向的具体对象等内容进行的评价2、按评价内容的复合程度来划分:单项评价: 指针对教育评价对象某一方面状况进行的评价。综合评价: 指对评价对象状况的方方面面作整体评价。3、按评价的功能及用途来划分:诊断性评价: 为使教育活动的形式、内容、过程等更适合活动对象的自身条件及需要而进行的评 价。如:摸底考试。形成性评价: 在教育活动过程中为不断了解活动进行的状况以便能及时对活动进行调整,进而提 高活动质量进行的评价。如:单元测验。终结性评价: 指对教育活动的效果

13、进行的评价。如:期末考试4、按评价参照的标准来划分:相对评价: 根据评价对象的实际状况设定评价标准。评价标准在被评对象群体内部产生。 绝对评价: 依据某种需要或要求设定评价标准。评价标准在被评对象群体外部产生,且标准固 定。个体内差异评价: 以评价对象某一状况作为设定评价标准依据的评价。5、按评价主体来划分:他人评价:由活动 实施者以外 的人作为评价主体进行的评价。 自我评价:由 活动实施者 作为 评价主体 进行的评价。6、按评价方法来划分:定性评价: 采用开放的形式来获取评价信息、对评价结果的性质进行说明的评价活动。 定量评价: 采用结构式的方法,预先设定操作化的评价内容,收集评价对象可以量

14、化的信息,得 出数量化结果的评价活动。二、教育测量的分类1、根据测验目标来划分成就测验 :目标在于测量学生在各学习阶段学到了什么,旨在检测教育目标希望学生能达到的具体 行为。 如 : 学科测验如:教学阶段测验(诊断和总结性测验)智力能力测验: 旨在测量个体的不因外界环境影响而轻易改变的、较稳定的、表现在认知能力方面的 心理特质 .比如观察力、记忆力、理解力、概括力、空间能力、判断推理能力等等。也被称为 测验 ”。能力倾向测验: 目的在于测量学生的潜在学习能力及学术发展趋向。 潜在能力是指个体从未来教育或训练中可能受益的能力。这类测验主要用于预测学生的未来成就和能力,从而可以帮助决策者和学生自己

15、选择合适的学 校、专业及最佳职业。能力倾向测验分为:一般学习能力测验、特殊能力倾向测验。2、根据测验分数的解释标准来划分常模参照测验: 目的在于考查被试的个体差异,一般用于衡量被试相对水平的,以选拔为目的的 大规模测验 。标准参照测验: 目的在于考查被试是否已达到某种标准。一般用于以教学目标为标准考查学生实 际水平的测验。常模团体总体要明确常模团体必须是被试总体的一个代表性样本样本的大小要适当 注意常模团体的更新 测验手册中必须详尽描述取样过程 常模参照测验与标准参照测验的比较:1、从考试的目的和用途来看,它们都通过测量学生的学习成绩,考查其优劣,但常模参照性测验 将考生成绩做横向比较,着眼于

16、个别差异,主要用于选拔性测验和总结性测验等。2、从考核目标的陈述来看,都明确具体,为编制测验提供依据,但常模参照性测验可采用一般目 标或具体目标,而标准参照性测验必须采取非常具体且详细的目标。3、 的样本; 序排列;从题型的选择和题目的分配来看,都需采用各种不同题型,试题必须是教学目标的有代表性 常模参照性测验 多采用选择题,题目分散在全学科的全部知识领域内,题目按从易到难的顺 标准参照性测验 较少依赖选择题,题目分别分布在一定目标中,题目按教学目标顺序排列即 可。4、从考试及考题的质量要求来看,它们都按照标准化考试的编制原则,保证考试有较高的信度和 效度; 常模参照测验题目要求难易适中,强调

17、题目的鉴别力,测验信度的估计适合用统计方法; 标准参照测验的题目和学习结果直接联系,不强调题目的鉴别力,测验信度的估计不适合用统计方 法。5、从解释考试结果的依据及分数的意义来看,两种考试各有其依据; 常模参照性测验的常模是解释分数的标准,用地位量数表示考生在团体中的相对位置; 标准参照性测验中教学目标是解释分数的标准,以考生完成题目数量的百分比来表示考生的学习效 果。3、根据教育测量的标准化程度来划分:标准化测验: 指测验的编制、实施、记分、分数的解释有统一标准和严格规定的大规模的测验 标准化测验的程序: 确定考试目的;编制考试蓝图(命题双向细目表);命题、组卷、试测、入 库;实测;评分,统

18、计分析;写出指导书。教师自编测验: 教师根据教学情况自己编制测题对学生进行的测验。4、以测量人数多少来划分:团体测验个人测验5、根据所使用的材料和形式来划分:语言文字测验非语言文字测验教育测量与评价量表 心理学家史蒂文斯根据测量的精确程度把量表从低级到高级分成名称量表、顺序量表、等距量表 和比率量表。名称量表:意义:依照某种法则给事物及属性指派名称或类别的量表。功能:区分性。 数量化结果的含义:不能比较大小。 适用的统计方法:次数的统计,如次数、众数、百分比、离散相关、卡方检验等。顺序量表: 含义:依照某种法则给事物或人的心理现象指派名称或类别,还可以将分类结果按数量大小进 行排序。功能:区分

19、性、顺序性 数量化结果的含义:比较大小,不能进行运算。 适用的统计方法:中位数、百分位数、等级相关系数、肯德尔和谐系数以及秩次的方差分析。等距量表(区间量表 ): 含义:在给事物及属性指派数字和符号时,要求各数字或等级之间的差距是相同的,即具有相 等的单位 。功能:区分性、顺序性、等距性 数量化结果的含义:不仅能分类、排序,还可以进行加减运算。 适用的统计方法:均数、标准差、相关系数,t、F 检验等比率量表:含义:有相等单位和绝对零点的量表。功能:区分性、顺序性、等距性、绝对零点。 数量化结果的含义:可以进行加减乘除四则运算。 适用的统计方法:均数、几何平均数、标准差、相关系数,变异系数、 教

20、育测量与评价的基本原则1、 教育测量与评价原则的性质(1) 的。(2)(3) 2、基本原则 (1)方向性原则:指通过评价内容和标准等的制定、评价过程的侧重、评价结果的肯定与否定等推动 教育活动贯彻国家的教育方针,进而满足社会需求,保持良性发展的方向。( 2 )客观性原则 :指评价主体要以真实的资料为基础,对教育活动过程和成果作出客观的价值判 断。(3)激励性原则:指教育评价应促使评价对象形成继续努力或在进一步的活动中改善不足之处,提高 活动效果的动机或期望 。( 4)计划性原则 :指教育评价活动的开展及教育评价活动过程应根据教育活动的开展而有计划有序地 进行。(5)实效性原则:指教育评价过程应

21、根据评价的目的与内容、评价对象的具体情况、具体的社会环境 背景等作出切合实际的评价计划,采用适宜的评价方法使评价能有效地对教育活动提供指导与帮助 ( 6)平等性原则 :指教育评价实施者应以与评价对象共同探讨教育活动得失的平等身份进入评价活 动,使评价对象将评价者作为朋友接受其评价,采纳其意见或建议。 第三章、编制教育测验的一般原理和方法 布鲁姆的 教育目标分类系统 把 教育目标 分成三个领域: 1、认知领域; 2、情感领域; 3、动作技能领域。1、认知领域目标分类: 布卢姆把认知领域的教育目标分为六级 价。1、知道: 指对先前学习过的知识材料的简单回忆 果,它所要求的心理过程主要是记忆。t、

22、F 检验等。教育测量与评价原则是在教育测量与评价实践活动中总结出来的具有普遍性问题基础上提出教育测量与评价原则反映了人们对开展教育测量与评价活动的总体要求。教育测量与评价原则具有相对稳定性。.“知道 ”又叫2、领会 领会亦称理解或领悟,是指将一种语言准确地转化成另一种语言。种。:知道、领会、运用、分析、综合、评知识 ”,是认知领域中最低水平的认知结它又可分为转化、解释和推断三3、运用 指在具体的情境中使用抽象概念,是对所学知识的初步运用 元一次方程解答工程性质的应用题,又如把其它文献中已经提出来的新论点用来引证自己类似的实验 结果。.运用代表了较高水平的理解,比如用二4、5、分析 指将一种传播

23、内容分解成为它的组成因素和组成部分,以便弄清各种观念之间的关系。综合指将各种要素及组成部分组成一个整体,以构成更为清楚的模式或结构。综合强调的是创造能力。 评价指为了一定的目的,对某些观念和方法等的价值作出判断。包含根据内部准则判断和依据外部准则6、判断两方面的内容。2、对布鲁姆教育目标分类的评价:? 从教育目标划分标准来看,布鲁姆所用的标准是测量学的,无论是知识、领会、应用、分析、 综合还是评价每一个教育目标都是围绕着如何测量或操作的角度提出的。? 布鲁姆的教育目标分类便于全面描述教学目标和评定教学,但未揭示各级层次的智力技能的心 理机制,因而无法指导教师用什么方法或提供什么学习条件来实现教

24、学目标。? 总结:教育目标分类系统对认知领域中的教学目标由低到高进行划分,符合能力由简单到复杂 发展原则。认知领域分类标准是测量学的,有利于指导学习结果的测量与评价。3、测验题目类型与测量功能 :? 测验题目分类 :选择型 和 供答型 。? 选择型一般要求被试在几个选项中选择正确的答案,如是非题、匹配题、选择题等,后者要求 被试自己提供答案,如论文题、简答题、填空题等。? 若根据被试作答的范围和评分方法不同,又可分为 主观性试题 和 客观性试题 。 客观性试题 主要是因为评分客观而得名,它的正确答案在测验前就已准备好,不同评分者各自 独立评分,所得结果基本上是相同的。客观性试题一般适用于测量知

25、识的掌握、理解、应用、分析 几个层次的教学目标。客观性试题的答案明确,作答简便,因而在限定的时间内测验可以包含足够 数量的试题,能保证对知识内容的覆盖。主观性试题 主要包括论述题、操作题和作文题等。它们适合于测量较高层次的教学目标,尤其 适合于测量综合、评价等目标层次。主观性试题鼓励被试积极地组织所学的资料,表达自己的观 点。被试在作答时,耗费的时间较长,在限定的时间内,试题数量不可能太多,对知识的覆盖面较 小。由于没有明确统一的标准答案,评分易受评阅者的主观因素影响,因而误差较大。一、客观性试题的类型及其编写技巧(一)选择题1结构选择题是由一个题干和几个选项组成。 题干一般是问题或待完成的句

26、子,选项是几个真假不明的答案,让被试从中选出正确的答案。2优缺点优点: (1) 可以用来测量学生各种不同层次的学习结果。(2) 评分标准统一、客观,可以利用电脑评卷,提高评卷的速度和自动化水平。(3) 可以加大试题容量,抽取广泛有效的代表性样本,使试题覆盖的知识范围广。(4) 有利于考查被试思维的敏捷性和准确的判断力。(5) 采用大量的似真选择项使结果易于诊断,通过对学生错误选项的分析便于发现学生在学习 中存在的问题,以便及时纠正。缺点 :(1) 编制选择题较花费时间,且需要专门的命题技巧。(2) 难以考核被试完全的推理能力、综合运用所学知识的能力、有效的总结能力、严密的表述能力 和写作能力和

27、被试的发散思维 (或求异思维 )能力。(3) 无法测量被试的思维 (解题 )过程。(4) 被试可以凭猜测而选中正确答案。3编写原则(1) 题干意义完整并能表达一个确定的问题。(2) 题干简明,尽量不使用过于复杂的字词与语句结构,也不要使用过长的语句。(3) 题干尽量不使用否定结构。(4) 诱答项应具有似真性。 使用学生共同的错误观念或过失来作为诱答项。 以学生惯用的模糊性用语叙述诱答项。 在正确选项和诱答项中使用同样“精确的 ”、 “重要性 ”等词语来叙述。 诱答项的长度和措辞的复杂性与正确选项相似。 在诱答项中使用额外的线索。如固定的用词,具有科学味道的答案,以及和题干有语义上的联 系等。

28、? 保持选项之间的同质性。(5) 不能对正确答案有任何暗示(6) 同一测验中每一个测验试题之间应相互独立避免牵连(7) 选项的文字表述,力求简短精炼。(8) 应尽量避免 “以上皆是 ”、“以上皆非 ”的选项 (二)是非题 是非题又叫做二项选择题,它通常是给被试一个句子要被试作出正误的判断。1、优点 :(1) 编制容易。(2) 记分客观,取样广泛。缺点 :(1) 仅能测量知识层次中最基本的结果,无法测量高层次的学习结果。(2) 受猜测因素的影响很大。2编写原则(1) 考核的内容应是重要的知识,应有考核价值。(2) 题目应多是测量理解能力,而不应测验记忆性的知识,更不要直接抄录教科书中的句子。(3

29、) 一个题目中只能有一个中心问题,或一个重要概念,避免两个以上的概念在同一题中出现。(4) 试题应做到是非界限分明,用词准确,避免模棱两可的语句。(5) 题目陈述应简单明了,避免使用复杂的句子结构,以减少因被试的阅读能力而对测量产生的不良 影响,应尽量采用正面叙述,避免用否定和双重否定的语句。(三)填空题1、优缺点: 填空题可用来考查被试对知识的记忆和理解能力,在诊断性测验中特别适用。受被试猜测的影响小, 评分比较客观。但填空题偏重于测量被试的知识记忆程度,使用过多容易养成被试死记硬背的习惯。2、编制原则:(1) 题意要明确、限定要严密,使空白处应填的答案是唯一的。(2) 空白中所填写的应是关

30、键词语,并且要和上下文有密切的关系(3) 题目中空白地方不能太多,以免句子变得支离破碎,不利于被试理解题意。通常一个填空题不应超 过两个空白。(4) 尽量将空白放在句子的后面或中间,而不要放在句子开头。(5) 所有空白处的线段长度应当一致,不能随正确答案文字的多少而长短不一,以免产生暗示作用。(6) 若答案是数字,应指明单位和数字的精确程度。(四)简答题1特点 简答题适合测量被试对基本知识、概念和原理的掌握、记忆情况。编制较为简单、灵活,可以从 不同角度、不同方向考虑,增大对知识考核的准确度和深度,并且不受猜测因素的影响。但其无法考核综合、分析、评价等高层次的教学目标;且评分也不够客观,有不同

31、程度的正确或部分正确的答案而影响评分的客观性。2编制原则:(1) 问题的叙述要明确,要确实能使被试用简单的语言来回答。(2) 问题的答案应该只有一个,并且答案要简短具体。(3) 避免出只考机械记忆的题,应注重知识的应用。(4) 在考查某公式的应用时,不要给太复杂的数字,以免给计算带来麻烦。(5) 尽可能使用直接问句来提出问题。、主观性试题的类型及其编写要领(一)论述题 论述题就是向被试提出问题,需要被试用自己的语言组成一份较长答案的试题。1、优点 :(1) 可以用来进行高层次的、复杂的学习结果的测量,可以用在各种学科领域,特别适用于社会科 学、人文科学等。(2) 可以增进学生的思考、应用及解决

32、问题的能力,对于被试的学习态度和学习方式可以产生积极 的影响。(3) 可以促进学生写作能力的提高。(4) 试题的编制比较容易,并且受猜测因素的影响很小。缺点:(1) 由于论述题一般都比较大,在一次考试中试题的数量不可能有很多,因此,其取样范围比较小 且不均匀,影响测验的效度。(2) 评分的主观性强。(3) 因被试回答过于自由,回答方向又不尽相同,难于测得预期结果,重点容易失控。(4) 被试作答和评分阅卷都相当费时。2编制原则 :(1) 试题应该用来测量较高层次的教学目标。如要求学生提出理由、解释变量间的关系、描述与评 价资料、有系统地陈述结论等。(2) 要明确而系统地陈述问题,使被试能清楚地了

33、解题目的要求。(3) 应采用答案具有统一定论的试题。(4) 一般不允许被试选择问题回答。(5) 为避免被试将时间集中在某一个他所不会做的题目上而影响对其他题目的回答,因此而影响考 试成绩的真实性,最好在题目中能给出回答本题所需的参考时间。(二)作文题 作文是对人的逻辑思维、形象思维、书面表达等多种能力的一种综合考查。编制原则:(1) 根据考试的目的和需要确定考试作文的文体要求。(2) 根据社会的需要、现实生活和学生的实际设计命题。(3) 要根据被试的特点确定选材范围与写作意图,在确定选材和写作意图时,要考虑对所有被试都 是公平的,并且试题应符合被试的心理特征。(4) 要给被试以发挥的余地。第四

34、章 试卷质量分析与评价 质量分析: 项目分析:难度、区分度 整体分析:信度、效度p表示。1、难度的含义:指测题的难易程度,是指题目对学生知识和能力水平的适合程度的指标。用 难度的计算:平均得分 満分1、题目分数为二分变量:正确率 P=R/N 答对人数/全体人数 适用题型:选择题、填空题、判断题等2、题目分数为多分值:得分率适用题型:填空题、简答题、论述题、计算题、作文题等难度取值范围:0-1之间卷面难度:试卷包含的所有试题难度的平均数。常模参照测验难度取值范围:试题:0.3-0.7之间;卷面:0.5-0.6(0.6-0.7)之间基于难度的题目分析:,需重新命题,提高命题的难度?难度过低与过高的

35、题目原则上要淘汰,但属于必考的知识点?由于岀现科学性错误而导致难度不符,需重新命题?命题、内容均无大问题但难度不符的题目需进行详细分析找岀原因所在2、区分度的含义:是指测验题目对学业水平不同的考生的区分程度或鉴别能力。 区分度的计算方法:1、点二列相关:兀乂t一P为该题答对人数比例;sq为该题未答对人数比例为该题答对者总分的平均分平均分为所有考生总分的标准差适用题型:选择题、判断题等例、已知一测验中某选择题的通过率为0.5,答对者的测验总分平均为76分,答错者的测验总分平均为63分,全体被试总分的标准差为16分,对计算得到的区分度值应该再进行统计检验试题区分度的高低。为该题未答对者总分求该选择题的区分度。(根据测验人数,查相关系数显着性临界值表),才能说明2、积差相关:dXYSx 3丫填空题、简答题、论述题、计算题、作文题等X表示所有被试的测题得分丫表示所有被试的测验得分3、两端分组法:D=PH- PL D为鉴别指数为高分组在该题的难度L为低分组在该题的难度高分组:总分排序前 27%的人低分组:总分排序后 27%的人适用范围:被试人数太多时测验的区分度的估计例、10000名,成绩排序前 2700名的学生在第三题回答正确的人数为2500人,成绩排序后 2700名的学生在第三题回答正确的人数为500人,按照两端分组法计算第三题的区分度。鉴别指数的评价标准:2500500

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论