0144《教育测量与评价》2020年6

上传人：t*** IP属地：天津上传时间：2023-03-05 格式：DOCX 页数：18 大小：56.88KB 积分：15 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

0144《教育测量与评价》2020年6-7月期末考试指导一、考试说明（一）考试说明满分为100分，考试时间为90分钟，考试形式为闭卷。（二）包含的题型及各题型相应的答题技巧单选题答题技巧：选择你认为正确的一个选项到括号里，答案与讲义与课件中的知识点一致。简答题答题技巧：答出讲义与课件中的重要知识点要点即可。论述题答题技巧：答题时注意结合相关的知识点，首先找到题目对应的知识点，再阐述自己的认识，然后围绕此观点从几方面展开论述，阐述对某一问题的认识和看法，需要比较详细的展开论述。二、复习重点内容第一章教育测量与评价的学科发展1.测量的含义所谓测量，就是根据某些法则与程序，用数字对事物在量上的规定性予以确定和描述的过程测量的要素测量的量具、测量的单位和测量的参照点，是测量的三个基本要素或三个基本条件。用数字对事物在量上的规定性予以确定，就需要有一个测量或计算的起点，这个起点叫参照点。教育测量的特点（1）测量结果的间接性（2）度量单位的相对性（3）测量对象的复杂性（4）测量目的的针对性教育测量和教育评价（1）教育测量：就是针对学校教育影响下学生各方面的发展，侧重从量的规定性上予以确定和描述的过程。（2）教育评价：按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。（3）“评价”概念的重点在于以教育目标为标准的价值判断。（4）教育评价的特点包含如下几个共同的要点：第一，强调以教育目标为标准的价值判断过程。第二，强调用多种方法（测量和非测量）系统收集资料与信息。第三，教育评价的内容既可以是教育计划，也可以是课程；既可以是学生的学习结果，也可以是某种教育现象、教学活动、教育目的或教育程序。第四，强调为学生发展和教育决策服务。“行为目标评价模式”和“当代教育评价之父”美国心理学家桑代克的论著《精神与社会测量导论》一书，首次较系统地介绍了教育统计方法及编制测验的基本原理，标志着教育测量理论的诞生。泰勒在1940年的“八年研究”报告书中，首次提出“教育评价”的概念，被称为“当代教育评价之父”。第二章教育测量与评价的类型和功能教育测量与评价的类型（1）按测评在教学中运用的时机分类：形成性测量与评价、诊断性测量与评价、终结性测量与评价。诊断性测量与评价是对经常表现出学习困难的学生所做的测量与评价，它的目的是对个人的问题行为及其原因进行诊断。（2）按解释测评结果时的参照点分类：常模参照测量与评价、标准参照测量与评价、潜力参照测量与评价。常模参照测量与评价是将被试水平与测验常模相比较，以评价被试在团体中的相对地位的一种测量与评价类型。潜力参照测量与评价，是将被试实际水平与其自身潜在水平（潜力）相比较，以评价被试有无充分发挥自身潜力为目的。（3）按测量与评价的内容分类：智力测量与评价、能力倾向测量与评价、成就测量与评价、人格测量与评价。成就测量与评价常见的有两种类型：一是学科成就测验，旨在测量与评价被试在某一科目上的学习成就；二是综合成就测验，旨在测量与评价被试在多个学科或综合学科上的学习成就。人格测量与评价也称为个性测量与评价，其目的在于测量与评价被试的人格心理特征，诸如气质、性格、兴趣、态度、动机、适应性等方面的心理特征。（4）按照测量与评价被试行为表现的性质分类：最佳行为测量与评价、典型行为测量与评价。（5）其它分类：按测量对象可分为个别测量与评价和团体测量与评价；按测验材料可分为文字测验和非文字测验；按量具的标准化程度可分为标准化测验和非标准化测验。非文字测验的内容是通过图形、仪器、工具、实物、模型等形式表现的，被试通过指认、手工操作向主试提供答案，所以也称为操作测验。标准化测验是指由测量专家严格按照测验编制程序而编成的一种测验。教育测量与评价的主要功能（1）实现教育判断的功能教育测量与评价的最基本、最原始、最现实、最普遍的功能，就是实现教育判断。教育测量与评价具有测量评定的功能，是因为这种判断过程不是主观随意的。问题判断的功能，如对学生学习困难的诊断；对学生心理问题的诊断；对儿童智力发展的诊断；对教师教学问题的诊断；对课程设置、课程计划、课程实施的诊断；对教育管理机制的诊断；对办学问题的诊断等。由于教育测量与评价具有问题诊断的功能。（2）改进教师教学的功能（3）促进学生学习的功能主要体现在如下几个方面：①激励学生的学习动机②帮助学生的记忆和促进迁移③促进学生自我评价。（4）行使教育管理的功能教育测量与教育评价概念辨析教育评价最根本的特征是做出价值判断。而教育测量过程的完结，在给出数量事实的描述与判断之后，不一定都要做出价值判断。教育测量是教育评价的基础；而教育评价往往是教育测量过程的延续，是对测量结果的解释与应用。第三章教育测量与评价的质量特性衡量测验质量的四个指标从教育测量的理论上来讲，一个良好的测验应该具备恰当的难度和区分度，具备较高的信度和效度，也就是说，测验的信度、效度、难度和区分度是衡量测验质量的基本指标。其中，前两个指标主要是对整个测验而言，后来两个指标主要是对测量的项目而言。•信度（reliability）简单地说就是测量结果的可信程度，指的是测量结果的稳定性程度，记为rxx。具体地说，测验的信度是指同一组学生用同一测验实施两次后所得分数的一致性，或者同一组学生经过一次测验后，用另一个同质的测验再测一次，这两次测验所得分数的一致性。估算测验的信度有三种方法：重测信度、复本信度、同质性信度。•效度是指测量结果的准确性和有效性的程度，亦即测量是否达到了预期的目的，理解为测量的结果正确反映所欲测量的特性或功能的程度。效度分为三大类：内容效度、效标关联效度和结构效度。内容效度是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。预测效度是指测验与将来的效标之间的关联程度。所谓结构效度，是指一个测量能实际测量出理论上的构念或心理特性的程度。不同的测验对效度系数有不同的要求。例如，智力测验分数与教师对学生的等级评定之间的效度系数一般在0.30〜0.50的范围内；两种不同的智力测验或标准测验之间的相关系数应达到0.60—0.80，才能符合要求。•难度是指测验的难易程度，是试题对学生知识和能力水平的适合程度的指标。在教育测量中，某测验的难度一般是用正确解答该测验题的人数与参与测验的学生数的比值来刻画的。用公式表示即：P=R/N,其中,P表示某测验题的难度，R表示答案对该测验题的人数，N表示参加测验的人数。测验题目的难度必须根据测验的目的确定和评价。难度是试题对学生知识和能力水平的适合程度的指标，是由参与测量的被试群体的整体水平决定的。•区分度，又叫鉴别力，是指测验对考生实际水平的区分程度，用符号D表示。区分又分为正区分（D〉0）、零区分（D=0）和负区分（D〈0）,正区分又称积极区分，负区分又称消极区分。所谓正区分是指实际水平高的考生得了高分，实际水平低的考生得了低分；信度的估算方法根据统计学的基本原理，估算测验的信度有三种方法：重测信度、复本信度和同质性信度。重测信度也叫稳定性系数，它指的就是用同一量表（测验或评价表）对同一组被试施测两次所得结果的一致程度，其大小等于同一组被试在两次测验上所得分数的相关系数。一般而言，时间间隔越长，可能由于被试的身心成长发展、遗忘、施测情境改变等因素，而容易使信度降低。重测信度适用于速度测验而不适用于难度测验。所谓异质性测验就是说一个测验包括几个不同的部分，这几个部分分别测量几个不同的心理特质，它们之间可能并不存在相关或相关较低。所谓复本测验是指在试题格式、题数、难度、指导语说明、施测要求等方面都相当，并且都用来测量相同潜在特质或属性，但试题又是不相同的测验。复本测验也称作平行测验。复本信度指的是两个平行测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的相关系数。同质性信度也叫内部一致性信度，它是指测验内部所有题目间的一致性程度。分半信度的计算方法和等值复本信度的方法类似，必须用斯皮尔曼一布朗公式加以校正：rxx=2rhh/（l+rhh）式中，rxx为整个测验的信度系数；rhh为两个“半测验”上得分的相关系数。注意：由于对实施指导语的错误理解，对答案纸的错划，时间记录的错误以及一些不能预见的干扰等，都会产生误差。对一组被试实施测验不是同一个主试，而是由很多的主试实施，以及主试本身在安排测验上有较多的余地，这些也会引起误差。此外，记分也会产生误差，如论文式的测验和其他自由反应的测题格式，记分就很难做到完全客观，从而产生误差。提高测验信度的方法（l）适当增加测验题目的数量；（2）测验的难度要适中（测验的难度适中，能使测验的信度达到最大，也能使测验的区分度达到最大，所以，必须使测验的难度适中）；（3）测验的内容应尽量同质；（4）测验的程序应统一；（5）测验的时间要充分；（6）评分要尽量做到客观化、减少评分误差；（7）应试者参加测验的动机水平、积极性、疲劳程度也会影响测验分数，从而影响信度。引起应试者参加测验的强烈动机，提高其积极性，使其保持旺盛的精力，都对提高测验信度有一定作用。信度和效度的关系在效度和信度之间，首先要重点保证是高效度，因为，高效度必然高信度；反之，则不然。特别是对于教育测量而言，效度问题显得更为重要。在处理信度与效度的关系问题上，首先要保证高的效度。因为，高效度必然高信度；反之，则不然。信度是效度的必要条件。虽然信度高的测验效度不一定高，但效度高的测验，信度却一定比较高。效度和信度的关系是：效度的最大值等于信度的平方根。难度（1）难度对测验的影响：影响测验分数的分布状态、影响测验分数的离散程度、影响测验的鉴别能力。难度值过大或过小，都会造成测验分数的偏态分布。难度值越接近0，测验的难度就越大，正确回答试题的人数就越少，测验分数就越是集中在低分段，其分数分布呈正偏态。测验难度直接影响测验分数的离散程度，因为难度过大或过小，测验分数的分布都呈偏态分布，亦即测验分数都分布在高分段或低分段，这样，测验分数的离散程度就变小了。适中的难度可使试题的区分度达到最大。（2）影响题目难度的因素：考查知识点的多少、考查能力的复杂程度或层次的高低、考生对题目的熟悉程度、命题的技巧、利用经验判断或者通过预测调整难度。对于其他类型的测验，目的不同对难度的要求也不同。区分度与测验信度、难度的关系（1）区分度与信度的关系：提高区分度可以达到理想的测验信度。（2）区分度与难度的关系：难度适中，可使区分度达到最大值。难度为1时，区分度为0。第四章编制教育测验的一般原理与方法1.测验题目基本上分为两大类：选择型和供答型。前者一般要求被试在几个选项中选择正确的答案，如是非题、匹配题、选择题等，后者要求被试自己提供答案，如论文题、简答题、填空题等。根据被试作答的范围和评分方法不同，测验题目又可分为主观性试题和客观性试题。在编制配合题时，相对于选项而言，题干的词语应较长些。并且每一试题的配对数目不能超过10个，通常以4到7个配对数目最为合适。填空题可用来考查被试对知识的记忆和理解能力，在诊断性测验中特别适用。布卢姆的教育目标分类布卢姆等人首先把教育目标分为认知、情感和动作技能三个领域。认知领域的目标分类布卢姆将认知领域的目标分为六个类别，按照由低级到高级的难易程度形成一种递进的等级关系，前一类别是后一类别的基础，后一类别又涵盖了前面的类别。（1）知识/知道。这是最低等级的认知目标。此处的知识是指对具体事物和普遍原理的回忆，对方法和过程的回忆，或者对一种模式、结构或框架的回忆。（2）领会。这是最低层次的理解，指个人把某种材料与其他材料联系起来，也不必弄清它的最充分的含义，便知道正在交流什么，并能够运用正在交流的这种材料和观点。（3）运用。运用是指将抽象概念用于特定、具体的情境。这些抽象的概念，可能是以一般的观念、程序的规则或概括化的方法等形式表现出来的，也可能是那些必须记住、能够专门运用的原理、观念和理论。（4）分析。分析是指把材料分解成各个组成部分，弄清各部分之间的相互关系及其构成的方式，以指出那些用来传递意义或确定交流结果的技术和手段。（5）综合。综合是指将各种要素和组成部分组合起来，以形成一个整体。它是对各种要素和组成部分等进行加工的过程，是一个用这种方式将它们组合起来，以构成一种原先不那么清楚的模式或结构的过程。（6）评价。评价是指为了某种目的，对观念、作品、答案、方法和资料的价值及符合准则的程度作定量和定性的判断。情感领域的目标分类（1）接受（2）反应（3）价值评价（4）组织（5）由价值或价值复合体形成的性格化，是情感领域教育目标的最高境界。表述得当的教育目标必须符合下列要求：（1）以学生为行为主体。如“培养学生的能力”、“促进学生技能的提高”这样的目标表述是不恰当的（2）表述明确、具体（3）反映学习结果的层次性（4）表达教育工作者的意图确立教育目标的原则（1）服务性原则（2）适应性原则（3）层次性原则（4）阶段性原则（5）可测性原则对于标准化测验而言，编制测验的最后一步，就是编写测验说明书，也称作测验手册。第五章教育测验的常模及其建立方法数据的种类（1）按照数据的来源分，可将数据分为点计数据和度量数据度量数据是指用一定的工具或一定的标准测量所获得的数据。例如，用某种智力测验测得学生智商的数据，用某学科测验获得学生该科知识、能力情况的数据，用米尺测得学生身高的数据。（2）按照数据的连续与否，可将数据分为间断性数据和连续性数据取值个数无限的（不可数的）数据，称为连续型随机变量的数据。学生的身高、体重、智商、用百分制分数表示的学科成绩等，都属于连续型随机变量的数据。（3）按照数据的精确性程度，可将数据分为类别数据、等级数据、等距数据和比率数据。等距变量具有等级变量的特征，还要求连续数量之间的差距相等，亦即具有相等的单位。因此，等距变量可以作加减运算，不能作乘除运算（因为等距变量并没有绝对零点）。教育测量数据的特点（1）教育科学研究中绝大部分数据属于等级变量，可以比较大小，不能加减更不能乘除。（2）教育测量的多数数据从本质上说是主观的。（3）教育测量的数据还具有随机性。（4）教育测量的数据也具有模糊性。加权求和权重是指各分变量在总变量中所占的比例或比重的大小。加权求和是将各次测量的结果按照一定的权重相加，采用所得结果作出判断。根据权重的不同可分为下列几种情况。（1）等权相加等权求和是加权求和的一种特殊情况，它是将各变量（题目、分测验或测验）的得分直接相加而获得一个合成分数。（2）加权求和（3）多科测验分数加权平均的标准化一个与被试同类的团体在相同测验上得分的分布状况与结构模式，成为常模。测验的常模可分成两类，一是发展常模，二是组内常模。发展常模有年级常模和年龄常模之别。所谓年级常模，就是不同年级学生在某种测验上的正常的一般的表现水平。常模参照测验与标准参照测验在教育与心理测验中，可依据解释测验分数的参照点不同，把测验分成常模参照测验和标准参照测验。即参照测验的常模，对测验的分数进行解释与评价的测验，称为常模参照测验；参照测验的“标准”，对测验的分数进行解释与评价的测验，称为标准参照测验。百分等级常模百分等级是一个地位量数，能够反映某个测验分数在一个次数据中的相对地位。它是把学生的原始分数放在该学生所在群体的成绩中进行比较，以确定该学生在群体中的相对地位之高低。百分等级常模就是基于某个常模团体，为某种测验的原始分数与百分等级之间建立起对应关系的组内常模类型。标准分数常模标准分数是以标准差为单位表示测验成绩与平均分数之间的距离标准分数的使用是基于常模数据服从正态分布的假设。标准分数本身是关于原始分数的一种线性变换，因此，标准分数Z分数不改变原始分数的分布形态。标准分数Z分数具有较好的可比性和可加性。在现行试点使用的高考标准分数转换方案中，一律采用正态化转换方案。教育测量量表分类按照测量的精确程度，将测量量表从低到高分为称名量表、顺序量表、区间量表/等距量表和比率量表。等距变量等距变量具有等级变量的特征，还要求连续数量之间的差距相等，亦即具有相等的单位。因此，等距变量可以作加减运算，不能作乘除运算（因为等距变量并没有绝对零点）。测验蓝图的设计一般采取的步骤测验的蓝图一般用反映测验内容和学习水平的命题双向细目表表示。设计测验蓝图主要采用以下步骤：（1）确定测验内容要目。如何确定测验内容要目，必须依据课程标准或教学大纲、教学目标和学生的实际而定。（2）确定该科目应考查的目标层次。把这些目标层次从低级到高级依次安排在表中顶端第一行的有关格上。（3）确定各项测验内容要目下的权重。根据课程标准或教学大纲所规定的教学时间和分配比例，以及测验性质和其他因素，对列入测验范围的内容要目或内容点，赋以合适的相对比重即权重。该比重是测验试题数量、测验时间、分数分配的依据。（4）形成命题双向细目表。把每一项考试内容的分数比重逐一分配到若干必要的测验目标层次上去，形成网格状的分数分配方案，即命题双向细目表。第六章教育测验的标准及其建立方法教育测验标准的含义教育测验的“标准”指的是教育测验的成就标准，它对于编制标准参照测验以及解释标准参照测验的分数具有重要的意义。领域参照测验是建立在一套完善的题目汇编或内容领域规范汇编基础上用以检查被试的素质及发展水平的测验。正确百分数正确百分数是以学生在标准参照测验中答对题目的比例来解释测验分数或描述学生取得成就的方法。计算公式为：正确百分数=答对题目数/总题目数X100第七章制定教育评价表的一般方法和步骤教育评价表教育评价表是根据教育教学的特性编制而成的，它由评价指标、评价项目（条目）、评价标准、评定等级、指标权重等构成。它是进行教育测量与评价的工具，为了使评价的结果更为可靠，需要对教育评价表进行更深入的研究。制定教育评价标的原则（1）科学性与导向性原则所谓科学性和导向性原则是指所建立的指标和标准必须能反映教育的发展目标和教学的客观规律，找出影响和制约教育教学的关键性因素。（2）完备性与独立性原则（3）发展性与整体性原则（4）操作性与可测性原则（5）可行性与可比性原则（6）超前性与持续性原则教育评价表的构成要素（1）评价指标：就是根据评价的目标，由评价指标的设计者分解出来的，能够反映评价对象某方面本质特征的具体化、行为化的主要因素，是对评价对象进行价值判断的依据。（2）指标权重：就是表示每项评价指标在指标体系中所占的重要性程度，并赋予相应的值，这个数值就叫做对应指标的权数，或叫做权重。（3）评价标准：衡量评价对象达到评价指标要求的尺度，是由强度和频率、标号、标度三个要素构成。强度是指指标达到项目要求的程度或各种规范行为的优劣程度，又称定性标准。例如，在等级评定中，达到什么要求评为好、较好、一般或差，都要有一定的规定。评价标准一般确定3—5个等级为宜。提出初拟评价指标的方法主要有以下几种：（1）头脑风暴法（2）因素分解法。因素分解法是一种将评价指标按照评价对象本身的逻辑结构逐级进行分解，把分解出来的主要因素作为评价指标的方法。（3）理论推演法（4）典型研究法期望评语式编写法这种编写方法是指根据理想的要求，将评价指标体系的末级指标分为若干因素，又将每一个因素分为若干个等级，每个等级编制相应的期望评语。6.在评价中，根据所获信息的性质来分，调查又可分为：证实性调查、疑问性调查、评估性调查与经验性调查四种类型。评估性调查则要了解被调查者对某一事物或客体的主体感受与价值判断。第八章学生评价学生评价概述学生评价的类型按照在课堂教学活动中的作用，学生评价又有：定位性评价、形成性评价、诊断性评价与总结性评价等多种类型。（1）定位性评价：又称安置性评价、预备性评价，主要是在特定的教学活动之前，判断学生的前期准备。在这种评价里面要解决的问题是学生是否已经掌握了参加预定活动所需要的知识和技能，在多大程度上已经达到教学目标，学生的兴趣等基本情况等等。（2）形成性评价：主要是指不断地反映学生学习成功或者是失败的信息，特别注重强化学生学习的成功之处，显示学生学习过程中需要改进的具体的错误。（3）诊断性评价：诊断性评价对学生的学习进行进一步的评价，对于学习中错误的深层诊断。（4）总结性评价：在某个期末教师对学生的测验和评价。对教学目标达到程度的判断，同时也提供教学目标适当性和教学策略有效性的信息。现代学生评价的特点（1）强调了评价功能的形成性现代教育评价的目的中强调参与和推动教育的发展。现代的学生评价，主要是用来诊断问题，改进教育，其目的则是创造适合儿童的教育。对评价形成性功能的重视又反过来是现代教育评价发展的一个重要动因。（2）重视评价内容的全面性教育工作者要求评价须全面地反映教育目标，对学生认知、情感以及动作技能的发展做出全面的评价，以促进学生的全面发展。因而，评价活动对教育活动能提供更大的帮助。（3）重视评价类型的多样性根据现代教育的需要，现代教育评价注意为教育提供全方位的服务，逐步地发展了包括定位性评价、形成性评价、诊断性评价在内的多种评价。这种多样性的评价，在学校教育的不同阶段提供不同的评价服务，使得评价在推动教育的发展中能起到越来越大的作用。学生评价的原则现代学生评价的原则，是在现代教育评价观指导下对评价工作者的要求；评价的基本步骤则是根据这一评价观提出的操作程序。掌握现代教育评价的原则与步骤，对正确地开展评价具有重要意义。学生评价的基本原则：（1）发展性原则。学生评价要围绕学生的发展，为学生的发展服务，这是发展性原则的核心思想。（2）全面性原则。学生评价要紧扣教育目标，全面地反映教育目标。学生评价不全面，必然会把学校教育引向片面。（3）明确性原则。评价的目的要明确，评价的要求也要明确，这是明确性原则的基本涵义。（4）过程性原则。学生评价作为促进学生发展的工具，要贯穿学生学习活动的全过程。要充分利用定位性评价、形成性评价、诊断性评价与总结性评价的不同功能，在学生学习的各个过程提供各种不同类型的评价服务。课业考评所谓课业考评，是指对学生的课程学业所取得的发展进步进行考核评价。在课业考评过程中，考试是最基本也是最常用的一种测量与评价手段。课业考评对学生发展起的作用：课业考评对促进学生发展起着重要的作用，尤其是以现代教育理念和教育评价理论为指导而建立起来的课业考评制度与方法。首先，合理的课业考评制度为学生发展提供较明确的目标和努力的方向。确立教育目标，这不仅是现代教育评价活动的起点，而且是现代课程教学活动的重要特点，它在教学过程中起着重要作用。其次，合理的课业考评制度将有助于评价学生的发展进步，从而对教与学双方活动起着重要的控制、调节和促进等作用。再次，课业考评为学生心理发展和学习进步创造必要的背景和空间，诱发学生的学习动机和自主发展的动力。最后，课业考评在中小学生个体社会化进程中起着控制、调节、促进和加速的作用。档案袋评价法档案袋评价是“教师依据教学目标与计划，请学生持续一段时间主动收集、组织与省思学习成果的档案，以评定其努力、进步、成长情形”的一种评价方法。目前正在进行的课程改革对教育评价的要求是“建立促进学生全面发展的评价体系。对学生的评价不仅要关注学生的学业成绩，而且要注重发现和发展学生多方面的潜能，了解学生发展中的需求，帮助学生认识自我，建立自信。”学生认知过程基本能力发展的测量与评价认知过程涉及心理过程的全部范围，但观察能力、记忆能力、思维能力和想象能力是其中的四种基本能力。•观察是一种有目的、有计划、持久的知觉活动，是知觉的高级形态。•想象是在原有的感性材料基础上，经过重组联合等加工改造而创造出新形象的活动。想象按其目的性、意识性的程度，可以分为无意想象和有意想象两种。想象过程，按照创造性的程度不同，可分为再造想象和创造想象。想象能力的测量与评价方法测量与评价学生的想象能力，大致有两类常用的方法：一是作品分析评价法；二是心理测验评价法。作品分析评价法：常见的有作图法、完成法、课堂作业观察评估法人格人格即指人与社会性联系最为密切的心理特质的总和。人格特征可以是外在的，也可以是隐藏在内部的。人格的形成是由先天的遗传因素和后天的环境和教育因素相互作用的结果。人格是在先天遗传因素的自然基础上形成和发展的，又主要由个体的生活史所决定，它受社会历史条件的影响。人格有其不同的侧面，通常包括：气质、性格、适应性、兴趣、态度等，所以说人格很重要的方面是自我与现实之间的和谐，以及自我和理想的自我之间的和谐。（1）气质。气质是每个人独特的行为心理特征，它决定于人的高级神经活动，是人格形成的心理基础。人们常常把气质分为四种典型的气质，即：胆汁质、多血质、粘液质、抑郁质。胆汁质的人的特点：兴奋和抑制反差大，是不均衡型。多血质的人的特点：兴奋和抑制是平衡型。属于多血质的人反应迅速，有灵活性，性情活泼，较善于交际，语言流利，易适应环境，情绪不稳定，注意力易转移，较粗枝大叶。自陈量表法，也称问卷测验法，多是以被试提供关于自己人格特征的自我报告的形式出现，所以称为自陈量表，是人格测验最常用的方式。人格测验的种类繁多，不同类型的测验有不同的测验目的，适应不同的年龄范围，各自描述不同方面的人格功能，也各有利弊。在现代社会中，具有健康人格的学生具有的特征：在现代社会中，青少年学生所具有的健康人格应是：能客观地认识自我和外部世界；情感和态度上是开放的；对所承担的学习和其他活动有胜任感；充分发挥自己潜能；对父母、朋友有显示爱的能力；有安全感；喜欢创造；有能力管理自己的生活；有责任感等。课业考评存在的问题近几年来，校内考试制度与方法有许多重要的改进，但就学校教育整体来看，课业考评仍存在一些较严重的问题，主要表现在如下几个方面：首先，课业考评指导思想与学校教育理念、目标不相适应，在考试设计及考试结果的使用过程中过分强调区分和选拔功能。许多学校的教育人员还常常利用考分去夸大学生之间的差异和许多低考分学生的弱点，并把低考分的学生列为差生或落后生，使其蒙受许多羞辱。在这样一种以考试为导向的教学及其评价模式中，学生从小学开始便经常接受考试的磨练，自觉不自觉地把学习的注意点和动机几乎全押在考试之上。可以想到，在学生成长过程中，一旦有些个体在考试历程中屡遭挫折和失败，这意味着激烈竞争的现实在学校中是以考试作为唯一标准对他们进行淘汰，也意味着现实教育价值观体系及学校教育实践对他们的否定，更意味着教育追求和教育模式在这些学生个体身上的失效。更令人痛心与不安的是，考试失败给这些学生带来“少年新烦恼”及意志消沉，而且他们还常因影响所在学校的升学率而遭一些人的嫌弃。所有这些极端的现象，与学校教育的理念、目标尤其是与基础教育的性质及要求是格格不入的。其次，课业考评方法单一，把考试的教育功能简单化，考试的评定功能绝对化。长期以来，许多学校把书面考试作为学生课业和心智发展的唯一测评手段，而且考试设计和考试方法多局限于那些能够用纸笔材料加以测评的知识技能，对于那些没被测到的或者难以用纸笔测到高级心智技能，则在日常教学中不够重视。这无形中强化了“分数至上”的人才评价观，使教师、学生乃至家长都在为高分而努力；使学校的课程内容变得更加狭窄，考试和教学关系异化；考试其他种种积极的教育功能受到弱化，背离了基础教育所应秉持的教育理念。再次，课业考评抽象化和表征化。长期以来，学校课业考评只重视考试结果量化的分数表达，不重视分析研究每个学生的试卷，不重视学习过程和发展进步在质性方面的描述评价；只重视对认知领域可测性内容的考试测量，忽视了学校教育目标的广泛性和学习内容的丰富；只重视用抽象概括化的考分来评价学生的学习结果，不重视采用多种方法对学生发展进步作实质性的描述评价；只注意学习的共性目标，不重视对学生学习特点、发展进步以及潜能结构作个别化的评价。在这种单调和抽象的课业考评方法下，必然丢失学习过程及考试过程业已显示出来的大量有用信息，并且把相同考分的学生看成相同的发展，忽视了学生心理发展和智能结构差异的多面性和客观性。第九章教师评价教师评价的种类成果评价、教学行为评价、素质评价教师认知发展评价模式：由加利福尼亚州立大学科斯塔等人开发的评价方法，以不可观察的教学技能作为被评因素。教师评价的方法研究结果表明，有多种途径可用于教师评价：自我评价、家长评价、学生评教、同行评议、书面材料的收集与观察以及教学成果等等。目前常用的教师评价方法主要有教师自评、学生评教、同行评议以及观察与会谈等。教师自评是教师评价中一个重要的方面，这不仅因为它是收集必要的信息的一个途径，而且因为它也是教师自我诊断的一个重要方面。在一定意义上，甚至可以说，教师自我评价的过程就是教师自我激励与自我提高的过程。在这多种资料的收集途径中，学生对课堂教学的评价也是最有力的材料。同行评议不仅在形成性评价中有很大的潜在价值，而且对在教师中创造一种专业发展的气氛也有重要意义。使用同行评议这一方法的基本观点，是在评价教师能力方面同行具有较大的发言权。现场观察在教师评价中一直占有重要的位置，因为它具有相当的可靠性。但研究表明，课堂观察的可靠性与有用性，直接地依赖于观察者在观察之前所掌握的信息量与信息的类型。在实践中还没有任何一种方法，已被证明对总结性的判断来说，已达到必要的信度的要求。然而，多渠道地收集信息，有助于提高评价的信度。投射效应：人们有一种倾向，往往假设他人与自己是相同的，特别在他人某方面的特点与自己相似时，这种倾向就更加强烈。心理学上把这种将自己的特性归属到他人身上的现象称为投射效应。首因效应：这种最先获得的信息对认识的影响，在心理学上称为“首因效应”。近因效应：最后留下的信息常常给人以强烈的印象，并在相当程度上决定着人们的认识。首因效应与近因效应在认识中起作用，都有条件制约。在认识中，当信息资料较少时，首因效应起主要作用；如果信息资料较多的话，则近因效应起主要作用。第十章课程方案评价课程方案评价的内容（1）课程计划的评价；（2）学科教学大纲的评价；（3）教材的评价教材是教学大纲的具体化，因此，对教材的评价核心是教材与教学大纲的一致性、科学性与可读性。课程方案评价的基本模式（1）梅特费赛尔模式梅特费赛尔模式是由美国学者在60年代后期提出的一种模式。这一模式在泰勒模式基础上加以补充与完善，本质上仍然是一种目标评价的模式，然而，它更强调了课程评价的持续性与课程的全面整体效果。这一模式是以目标为中心的，但是它强调了全体成员的参与、目标的宽泛性与对课程效果的持续观察，这就使它在泰勒模式的基础上有了进步。（2）CSE评价模式CSE评价模式是一种与CIPP最为接近的评价模式。包括四个步骤：需要评定、方案计划、形成性评价、总结性评价。（3）反对者模式反对者模式是一种为了揭示方案正、反两方面长短得失，而采取准法律过程评委会审议形式的评价模式。反对者模式十分重视听取关于教育方案和教育活动的争议意见，尤其是反对者的意见，这对各方面的情况能得到充分的反映提供保证。一般地说，这一评价的基本特点是它充分反映了各类人员“多元的”价值认识，是依靠人们直觉与经验的评价。（4）应答模式应答评价是通过评价者与同教育活动有关的各种人员接触，了解他们的愿望，然后把它同实际活动进行比较，对教育决策或立案做出修改，对大多数人的愿望做出应答，以使教育能满足各种人的需要。与泰勒模式相比，应答模式强调了“多元现实性”和价值观念的发散性。在方法上，它注重与科学主义相对的自然主义方法，强调了非正式的观察、交往、描述性的定性分析方法。（5）消费者导向模式消费者导向模式（consumer-orientedevaluation）是由斯克里文提出的。这里的“消费者”可以是教育活动的参与者或受教育者。根据斯克里文的观点，评价是对事物的价值和优缺点所作的系统判断，而非只测量事物或决定目标是否达成。依照斯克里文的观点，评价者不应接受制订者提供的目标，而是要判断所达成的目标是否对消费者的利益有贡献。评价者须从消费者的观点来确认真正的成果，以及这一成果的价值。这一评价模式与泰勒模式、CIPP模式的最大区别就在于：它做出评价结论的依据不是方案制订者的目标，而是活动参与者的意图。西方的评论家认为，这是一种较为民主的评价模式。教材评价的原则教材评价的原则有科学性原则、教育性原则、思想性原则、学科先进性和艺术性原则、技术性原则等。第十一章教学工作评价教学工作评价的功能教学工作评价的功能可以从不同角度去考察，主要有以下几个方面：（1）检查：教学工作评价是检查教学工作的重要手段。（2）反馈：教学工作评价可以给教学工作提供科学的反馈信息，从而有利于教学工作的改进。（3）激励：加强教学工作评价，也有利于激发教师的活动动机。（4）研究：教学工作评价有利于开展教育研究活动。（5）定向：教学工作评价的指标对教学工作具有指挥定向作用。（6）管理：教学工作评价中对教师的教学工作给予鉴定或评分，使教学管理部门更好地了解教师的教学质量和水平，可作为教师晋升、评优及使用的重要依据。教学工作评价应注意的问题（1）关于教学工作量与质的关系问题在教学工作评价中，首先涉及的当是教学工作量与教学工作质的关系问题，如何合理地将两者综合评价，难度相当大。所谓教学工作量，是指教学工作中所付出的劳动量，它大多表现在工作过程中，如教师出勤率，备课所付出的时间，教学时数，评改作业和课外辅导学生人次数和时间，学科实践活动人次数和付出的时间，命题考试评卷所付出的时间，以及完成其他教学任务所付出的劳动时间。所谓教学工作质，是指教师完成教学工作的好坏或优劣程度，它既反映在教学工作过程中，也反映在教学工作的结果上，即反映在工作质量与工作效果上。由于教学工作量和工作质难以精确评价，一般只作大体估计和模糊描述。在教学工作评价中，注重教学工作量和工作质的分析评价的同时，还要考察教师工作的态度、自觉性、积极性等评价的隐性内容（这些内容也是影响教师工作过程和效果的中介变量），综合分析与教学工作量和工作质密切相关的各种因素，令教学评价逐步迈向科学化。（2）关于他评价和自评价的关系问题他评价是一种外部的显性的评价，它通过外人对教师教学工作进行明显的（或看得见的众所周知的）统计分析或文字描述，可给教师教学工作进行“写真”。自我评价的过程有时是内隐性的，它通过思想内部的“反省”、“自查”、“检讨”、“总结”、“自判”等方式来进行；但有时也具有外显性，如给自己的教学工作评分，或写出自评报告，给自己的思想品德写出自我鉴定，等等。由于评价结果与被评者的荣誉或利益息息相关，加上许多人都有其不诚实的思想因素，因而自评往往不如他评结果可靠。总之，他评价与自评价各自有其独特的功能。它们的局限性可以互补。开展教学工作评价应将他评价与自评价有机地结合起来。发展性教学评价的基本认识（1）教师唱主角的课不是好课（2）面面俱到的课不是好课（3）没有教师教学机智的课不是好课（4）只是“教教材”，没“用教材教”的课不是好课（5）中评不中用的课不是好课网络教学评价具有传统教学评价的所有因素，而且还包括特有的对学习支持与服务系统的评价，具有评价及时、评价对象广泛、针对性强等特点。第十二章学校办学评价学校教育质量评价最重要的是办学水平评价。学校办学评价的特点有：（1）地区性、（2）综合性、（3）复杂性。办学评价与学生思想品德评价和教学工作评价相比，它具有地区性、综合性和复杂性等特点。学校办学水平的评价学校办学水平的评价包括办学条件、办学水平、社会评价和获奖情况等四方面的评价。它基本上涵盖了教育质量评价的主要指标。第十三章现代教育测量与评价的发展趋势经典测验理论（简称CTT）是最早的测验理论，也是最实用的测验理论。题目反应理论现代测验理论有许多模式，其中题目反应理论最具优越性。题目反应理论认为：一个人的行为举止就好像处于自身某些心理品质的定量控制之中，要定量地估计个体在每一种特质上的位置是心理测量的任务。反之，也可用所估计到的特质的量去预测和解释个体在相应情境中将会产生的行为反应。题目反应理论是建立在如下的假设中的：假设1：一维性（即考生的某一测验结果只取决于一种潜在特质或称能力，其他能力的影响均可忽略）；假设2：局部独立（即考生答题时不受其他试题影响）；假设3：适合的数学模型（须经拟合度检验）。经典测验理论与现代测验理论的比较（1）参数稳定性经典测验理论使用的题目分析法所得的题目统计量数受样本的抽样影响较大。现代测验理论IRT的方法具有局部独立和参数独立等特点。题目参数估计是独立于被试样本和题目样本。（2）能力的比较经典测验理论对被试能力间的比较只能在相同的测验或平行复本的情况下进行。而现代测验IRT是自适性测验或电脑自适应测验，它的处理较方便且灵活。（3）平行复本难实现经典测验理论最基本的概念是测验的信度。而信度的设定来自平行复本的假设。但事实上平行测验是很难达到的，被试不可能在两次测验中得到完全相同的结果。影响测验结果的因素很多，如遗忘、学习新知识技能、动机及焦虑程度等。经典测验理论常依赖平行复本的假设，所以研究者在现实实施中只能接受下限的信度估计或具偏差的信度估计。（4）缺乏预测力经典测验理论无法预测被试在一个新的测验中可能的表现。现代测验IRT就是使用概率的观念来表示被试能力与项目的关系表示具有某种能力的被试答对某题的概率P。（5）测量标准误经典测验理论是假定所有被试的测量标准误都是相等的。事实上，不难发现，不同能力组表现在测验上的稳定性是不同的。如施测几个复本，可能高能力组比中能力组稳定性高。良好的测验模式应能针对某一测验得分或被试能力进行精确的估计，不同的得分或能力有其不同的概率误差，而非统一的测量标准误。除此之外，经典测验理论在测验的设计、偏误题的认定、测验的等值问题上还没有得到满意的解决。三、重点习题（一）单选题测量的要素包括量具、（）和参照点。测量单位 B.测量环境 C.测量程序 D.测量时间与物理测量不同，教育测量数据大多数属于等级变量，是主观的，具有随机性和（）。A.确定性 B.重复性 C.模糊性 D.多样性网络教学评价具有传统教学评价的所有因素，而且还包括特有的（），具有评价及时、评价对象广泛、针对性强等特点。学习资料评价 B.对学习支持与服务系统的评价C.学习方式评价 D.学习平台评价

4•由加利福尼亚州立大学科斯塔（Costa,A.L.）等人开发的，以不可观察的教学技能作为被评因素的教师评价的模式是（）。教师职责评价模式 B.教师活动评价模式C.教师教学评价模式 D.教师认知发展评价模式教育评价表在结构上由评价指标、（）和评价标准三部分构成，其中构建评价指标是比较关键的内容。评价方式 B.评价维度 C.指标权重 D.评价目标课程方案评价主要包括课程计划的评价、学科教学大纲的评价和（）。A.课程结果评价 B.教材的评价 C.教学设计评价 D.教学评价（）是对经常表现出学习困难的学生所做的测量与评价，它的目的是对个人的问题行为及其原因进行诊断。A.形成性测量与评价 B.诊断性测量与评价C.典型行为测量与评价 D.终结性测量与评价同一组学生用同一测验实施两次后所得分数的一致性，或者同一组学生经过一次测验后，用另一个同质的测验再测一次，这两次测验所得分数的一致性，这是测验的（）。A.内容效度 B.难度 C.信度 D.区分度（）是指在试题格式、题数、难度、指导语说明、施测要求等方面都相当，并且都用来测量相同潜在特质或属性，但试题又是不相同的测验。复本测验也称作平行测验。A.同质性测验 B.异质性测验 C.重复测验 D.复本测验一个测量能实际测量出理论上的构念或心理特性的程度，称为（）。A.结构效度 B.效标关联效度 C.同时效度 D.内容效度以下哪一项不是人格评价的内容（）。A.气质 B.性格 C.适应性 D.交际人们有一种倾向，往往假设他人与自己是相同的，特别在他人某方面的特点与自己相似时，这种倾向就更加强烈。心理学上把这种将自己的特性归属到他人身上的现象称为（）。A.投射效应 B.首因效应 C.近因效应 D.参照效应已知测验的分半信度为0.6，原测验的信度为（）。A.0.85 B.0.80 C.0.75 D.0.70将被试实际水平与其自身潜在水平（潜力）相比较，以评价被试有无充分发挥自身潜力为目的测量与评价称为（）。A.形成性测量与评价 B.潜力参照测量与评价 C.诊断性测量与评价 D.终结性测量与评价两种不同的智力测验或标准测验之间的相关系数应达到（）。A.0.60—0.80 B.0.30—0.5016.年龄常模是属于（）。A.0.60—0.80 B.0.30—0.5016.年龄常模是属于（）。A.发展常模 B.组内常模C.0.60—0.70C.百分等级常模D.0.50-0.70D.标准分数常模将评价指标按照评价对象本身的逻辑结构逐级进行分解，把分解出来的主要因素作为评价指标的方法，称为（）。A.头脑风暴法理论推演法因素分解法A.头脑风暴法理论推演法因素分解法典型研究法要了解被调查者对某一事物或客体的主体感受与价值判断的调查方式是（）。A.评估性调查 B.证实性调查以下哪一项不属于作品分析评价法（）要了解被调查者对某一事物或客体的主体感受与价值判断的调查方式是（）。A.评估性调查 B.证实性调查以下哪一项不属于作品分析评价法（）A.拼图法 B.作图法C.疑问性调查C.完成法在现行使用的高考标准分数转换方案中，采用的是（）。A.对比参照方案 B.百分等级方案 C.常模参照方案D.经验性调查D.课堂作业观察评估法D.正态化转换方案教育测验可以按照分数解释的参照体系不同，分成常模参照测验与（）两大类。A.标准参照测验 B.A.标准参照测验 B.认知测验C.诊断性测验D.实验参照测验（）是试题对学生知识和能力水平的适合程度的指标。A.信度 B.效度 C.难度 D.区分度与物理测量相比,以下属于教育测量特点的是（）。A.它一般是间接测量 B.它的度量单位是绝对的C.它的目的是特为测量服务的 D.它的作用是单一的用同一个量表（测验或评价表）对同一组被试测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数，这一概念是（）。A.复本信度 B.重测信度A.复本信度 B.重测信度25.衡量测量题目质量的两个重要指标是（A.信度与区分度 B.效度与信度C.同质性信度）。C.难度与效度D.分半信度D.难度与区分度对于平均数来讲，下列哪句表述是正确的？（）A.平均数易受极端数值的影响B.平均数计算不准确A.平均数易受极端数值的影响B.平均数计算不准确C.平均数位于数据的正中间D.平均数本身没有意义TOC\o"1-5"\h\z根据题目答案的范围和评分误差的大小，可把测验题目分成（）。A.选择题和填空题 B.选择题和简答题C.论文题和操作题 D.客观题和主观题下列哪一项不属于连续型随机变量的数据？（）A身高体重 C.用百分制分数表示的学科成绩 D.A身高（）是将各变量（题目.分测验或测验）的得分直接相加而获得一个合成分数。A.等权相加 B.加权求和 C.加权平均 D.直接加权在现代测验理论的诸多模式中，最具有优越性的是（）。A.经典测验理论 B.题目反应理论 C.心理测验理论 D.智力测验理论（）是将被试水平与测验常模相比较，以评价被试在团体中的相对地位的一种测量与评价类型。A.常模参照测量与评价A.常模参照测量与评价潜力参照测量与评价标准参照测量与评价诊断性测量与评价［答案］：A内容是通过图形、仪器、工具、实物、模型等形式表现的，被试通过指认、手工操作向主试提供答案，这种测验是（）。A.文字测验 A.文字测验 B.非文字测验［答案］：B教育测量与评价具有促进学生学习的功能A.激励学生的学习动机促进学生自我评价［答案］：D两个平行测验测量同一批被试所得结果的得分数的相关系数，这种信度成为（）。A.重测信度 B.同质性信度［答案］：C测量的实施所引起的误差不包括（）。A.测验题目的格式C.对答案纸的错划标准化测验 D.计算机测验以下几种体现中不准确的是（）。帮助学生的记忆和促进迁移促进学生的班级管理致性程度，其大小等于同一批被试在两个复本测验上所复本信度 D.—致性信度B.对实施指导语的错误理解论文式测验的记分［答案］：A（）是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。A.效标关联效度 B.结构效度 C.内容效度 D.测量效度［答案］:CA.知识B.领会C.运用D.分析［答案］：A38.用米尺测得学生身高的数据，属于（）。A.点计数据B.度量数据C.类别数据D.间断性数据［答案］：B39.（）是将各次测量的结果按照一定的权重相加，采用所得结果作出判断。A.加权求和B.等权相加C.多重回归D.加权平均的标准化［答案］：A40.（）是以学生在标准参照测验中答对题目的比例来解释

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

0144《教育测量与评价》2020年6

文档简介

温馨提示

最新文档

评论

相关文档