




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、素质测评的质量分析素质测评的质量分析一项测评是否可靠、可信?一项测评是否可靠、可信?一项测评是否准确、有用?一项测评是否准确、有用?一项测评是否公正、公平?一项测评是否公正、公平?一项测评是否经济、合理?一项测评是否经济、合理?第九章第九章 素质测评的质量分析素质测评的质量分析l 教学内容教学内容10-1 10-1 测评的信度测评的信度10-1-1 10-1-1 信度及其影响因素信度及其影响因素10-1-2 10-1-2 信度的评估方法信度的评估方法10-2 10-2 测评的效度测评的效度10-2-1 10-2-1 效度及其影响因素效度及其影响因素10-2-2 10-2-2 效度的评估方法效度
2、的评估方法10-3 10-3 项目分析项目分析10-3-1 10-3-1 测评的难度分析测评的难度分析10-3-2 10-3-2 测评的鉴别度分析测评的鉴别度分析10-3-3 10-3-3 测评的公平性分析测评的公平性分析10-3-4 10-3-4 测评的经济效益分析测评的经济效益分析10-1 10-1 测评的信度测评的信度l信度是标准化素质测评的基本要求之一,信度是标准化素质测评的基本要求之一,如果测评工具的信度不理想,测量结果就如果测评工具的信度不理想,测量结果就无法被认为能代表应试者的一致、稳定和无法被认为能代表应试者的一致、稳定和可靠的行为表现,就可能误导对应试者的可靠的行为表现,就可
3、能误导对应试者的评价。评价。10-1-1 10-1-1 信度及其影响因素信度及其影响因素l 如果我们用一个游标卡尺来测量一个钢管的外直径,每次测量时都难免会有一定的误差。l 首先,游标卡尺作为一种测量工具是有一定精度限制的,也就是说,测量工具本身存在误差测量工具本身存在误差。当然这种误差是必然存在的,而且误差是在一定范围中有规律的变动的,这种误差在测量工作中被称之为系统误差(系统误差(systematic errorsystematic error)。l 其次,我们每一次测量都可能出现操作上的差异,或者由于不可预见的外界因素的影响,产生测量误差测量误差。这些误差是很难控制的,而且无规律可循,有
4、时大有时小,这种误差被称为随机随机误差(误差(random errorrandom error)。l 前者在一定程度上可以控制,而后者很难控制,一个好的测量工具应该不仅要有尽可能高的精确度(与系统误差相关),还能够把误差控制在一个有规律的范围以内,这样才能够得到稳定可信的测量结果。信度实际上就是对随机误差的一种度量。信度实际上就是对随机误差的一种度量。1、信度的概念、信度的概念l 信度(reliability)是指测验结果的可靠性、稳定性和可靠性、稳定性和一致性一致性,即指测验结果是否反应了被试的稳定的、一贯的真实特征。l 随机误差越大,信度就越低。反之,信度就越高。l 通常任何测验都存在某种
5、程度的不一致性(同一受试者在不同时间或在不同的测验条件下做同一测验)l 因为误差的存在,我们永远不可能完全揭示人的心理特点,只能无限接近真实分数。 例如:例如:l 所有测验都有误差,心理测验分数也不例外。如果一个人连续两天接受同一测验,或者完成同一测验被认为是等值的两个版本,如果得分相同会让人感到惊讶,如果分数有相当大的变化可能让人吃惊,但是有一点可以肯定,这是由于偶然或随机因素影响了每次测验的成绩。l 然而,对于儿童,如果同一测验在半年或一年之后测第二遍,分数有很大的差异是不足为奇的,因为他们的成长导致测验成绩的变化非常自然。问题将是确定有多少变化是由于成绩的随机变化引起的,又有多少可以归因
6、于个人在这段时间内所发生的变化。测量结果的稳定性:测量结果的稳定性:l 测验分数一致性的程度(不同时间、测验条件下所得分数之间的一致性)l 一个人获得分数与“真实分数”之间的接近程度l 测量结果的一致性是否达到实际应用的程度影响稳定性的原因:影响稳定性的原因:l 什么因素造成了这种差异(误差的来源)l 这些效应的相对作用如何(分数的实际含意)在研究信度时,主要应考虑两方面的问题:在研究信度时,主要应考虑两方面的问题:信度的计算:信度系数信度的计算:信度系数l 测验的结果:测验分数(观察值) = 真实分数(要测量的特质)+ 测量误差(不一致) 或者: Xt = T + Xel 信度的高低通常以相
7、关系数表示,称为信度系数(reliability coefficient)。信度系数一般是同一样本所得的两组资料的相关性,l 假设:误差与真分数相互独立;测量误差是随机的,即误差的平均值为0,这是信度理论的核心假设;不同测量产生的误差是独立的,l因此有:测验分数方差 = 真实分数方差+ 误差分数方差 X2 = T2 + e2l信度系数: rxx= T2 / X2 = T2 / ( T2 + e2 )l信度系数即是真实分数方差(变异数)与测验分数总方差(变异数)之比。2、信度的作用、信度的作用l 测验信度要能够区分出:导致一致性的因素:个体稳定的特性(测量对象)导致不一致性的因素:可能影响测验,
8、但又与测验对象没有关系的个体和环境的特性 l 在素质测评中,对信度系数进行确定通常有以下作用:解释真实分数与实得分数之间的相关说明可以接受的信度水平解释真实分数与实得分数之间的相关l 信度可以解释为总的方差(标准差的平方的缩略语)中有多少比例是由真实分数的方差决定的,即测量分数的变化中有多少是真正反映了被测者分数的变化。l 例如:当r rxy xy = 0.100= 0.100时,我们可以说,实得分数中有时,我们可以说,实得分数中有100%100%的方差是来自真实分数的变化,仅有的方差是来自真实分数的变化,仅有10%10%是来自是来自测量的误差。测量的误差。l 信度系数的分布是从信度系数的分布
9、是从0.00-1.000.00-1.00的正数范围,代表了的正数范围,代表了从缺乏信度到完全可信的所有状况。从缺乏信度到完全可信的所有状况。l 思考:思考:如果如果r rxy xy = 1.00= 1.00表示什么?表示什么? r rxy xy = 0.00= 0.00表示什表示什么?么?答案: r rxyxy = 1.00表示完全没有测量误差,所有的变异(即分数的变化)均来自真实分数; r rxyxy = 0.00表示所有的变异和差别都反映的是测量误差。说明可以接受的信度水平l信度的理想水平是1.00,但是实际上是达不到的。l一般能力与成就测验的信度系数在0.100以上;人格、兴趣等测验的信
10、度通常在0.80-0.85之间。l一般来说,当rxxxx 0.70时,可用于团体间比较;当rxxxx 0.85时,可用于鉴别个人。3、信度的影响因素l 受试者个体持久而泛化的特性:进行测验的一般技能水平理解测验指示语的一般能力水平进行类似测验的一般的人格特质l 受试者个体持久而特殊的特性:进行某项测验(或其形式)需要的特殊的技能、能力 和特质;以及稳定的反映定势;对某个测验项目内容的熟悉程度l 受试者个体短时而泛化的特性:健康、疲劳、动机、情绪状态、测验自如性;温度、 光亮、通风等测验外部条件l 受试者个体短时而特殊的特性对特殊测验的理解,测验所需要的特殊技巧;为做测验所进行的练习;对测验项目
11、内容的注意、记忆等的飘忽不定。l 影响测验过程和解释的外部因素系统改变测验条件;对测验的各种限制;干扰程度;指示语的清晰度;受试者在个性、性别、种族等与测验主试的交互作用;对测验结果的不一致或有偏差的评判。l 无法解释的变化(随机因素)猜测、运气,以及暂时的干扰10-1-2 10-1-2 信度的评估方法信度的评估方法l 针对不同的误差来源,信度可以有不同的确定方法。信度系数类型信度系数类型误差来源误差来源重测信度时间取样复本信度(连续施测)内容取样重测复本信度时间和内容取样分半信度内容取样同质性信度内容的异质性评分者信度评分者间差异1 1、重测信度、重测信度(test-retest relia
12、bility)l 又称为稳定性系数,是采用重测法计算信度的方法,即用同一测验在不同时间对同一对象施测两次,两次测量分数的相关系数即为重测系数。也即测评结果与以同样的测评工具、测评方式与测评对象再次测评的结果间的差异程度。r=Nxy-x?yNx2-(x)2 Ny2-(y)2式中:N表示两次测评结果数据配对总数; x表示被分析的测评结果(分数); y表示重复测评得到的测评结果(分数)。r 越接近1,则说明测评结果(x)越准确可靠,否则就说明测评结果越不准确、不可信。l 人事测量所测查的特质中,有相当多的内容具有一定的稳定性,如人格、能力倾向等,因此,对于这些内容而言,重测信度对于衡量测量工具的质量
13、是很重要的指标。l 例如:如果用一个智力测验测量某人的智力,第一天测量得到100分,表示智力中等;第二天测量却变成了150分,这个分数意味着这个人在一夜之间变成了天才,如果没有特殊原因,这种事绝对是小概率事件,不太可能发生,可信度极低。不能用这个结果帮助决策。l 在日常生活中,你也许常常到市场上去买东西。如果你买了5斤瘦肉后觉得比上次少了点,没有那么重,那么你可以自己再用秤称一下。如果也是5斤,那么你可能就会觉得确实有5斤。这是因为两次称得的结果完全一致,变异度为0。l 人的素质测评没有这么简单,因为素质本身又是无法精确定义,因而我们常常把对个体测评结果的准确性检验,置于群体测评结果的相互关系
14、之中,转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后,其顺序位置关系变异很小时,则说明测评结果比较准确。l 例如:在技能测评中A分数88,在全体被测者中排名第一。这是否可靠可信?我们可以再测一次,结果A分数105,还是排名第一,而且其他被测的位置顺序变化很小。这时我们可以说第一次的技能测评结果是可靠的(信度高)。重测信度的考察对象l 重测信度所考察的误差来源是时间的变化所带来的随机影响(气候、噪音的干扰、疾病、疲劳、情绪的影响等),根据重测相关系数的高低,可以得知测量结果在经过一段时间之后的稳定程度。重测信度表示测量能够应用于不同时间的程度,信度越高说明测量结果
15、受环境中日常的随机因素影响越小,测量结果越稳定、可靠。l 评估重测信度时,要注意重测间隔的时间,时间太短被试对测试题记忆犹新,必然会造成假性相关;时间太长,测验结果又会受应试者的身心特质改变的影响,使相关系数降低。间隔时间的长短必须根据测验的性质和目的来确定。如果希望测量结果能预测较长时间的变化,则重测间隔时间应该长一些。例如人格测验一般间隔2-6个月比较合适。重测信度的评估重测信度的评估l1.在进行重测信度评估时要注意:(1)重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化;(2)不同行为受随机误差的影响不同。l2.重测信度的假设前提(1)每一被试对前一次测验的遗忘程度相同
16、;(2)每一被试在重测的间隔期内没有学习与测验有关的其他材料。l3.注意:解决问题型的测验不适合采用重测的方式来考察其信度;而感觉-运动型测验或人格测验较适合采用重测的方式来考察其信度。例如被测者智力的发展与能力的提高,不是重测信度考察的因素。这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。例如手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。应用重测信度应注意:l 重测信度一般只反映由随机因素导致的变化,而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高,不是重测信度考察
17、的因素。这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。l 不同行为受随机误差影响不同。例如手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。l 只有不大容易受重复影响的测验,如感觉-运动测验或人格测验,才比较适合用重测法计算信度系数。因为被测者一旦知道答案就不容易忘记,从而造成假性相关。2、复本信度、复本信度(alternative-form reliability)l 又称为等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一对象,然后求得被测者在这两个测验上得分的相
18、关系数。复本信度反映了两个测验复本在内容上的等值性程度。也即测评结果相对另一个非常相同的测评的结果的变异程度。r=6D2式中:N表示测评结果的总个数(被测人数); D表示对应同一个被测两次评定等级(名次)的差,一般以被检验的测评结果为被减数。1 -N(N2-1)l 复本信度考虑的是内容取样误差的影响问题,计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。l 例如同样是测量数学运算能力的测验,如果一个测验复本侧重于考核加减法的运算,而另一个复本侧重乘除法的运算,两者之间的相关必定不会抬高,即复本信度低,说明必定有一项测验复本的取样有问题。l优点:能够避免重测信度的一些问题,
19、如记忆效果、练习效应等;适用于进行长期追踪研究或调查某些干涉变量对测验成绩的影响;减少了辅导或作弊的可能性。l缺点:如果测量的行为受练习的影响,复本信度只能减少而不能消除这种影响;有些测验的性质会由于重复测量而发生改变,例如某些问题解决型的测验,如果掌握了解题原则就有可能产生迁移,尤其当复本只是在题目具体内容上有改变时,这种正迁移的作用会很强;有些测验很难找到复本。3、一致性信度、一致性信度Consistency Reliabilityl 一致性信度是指所测素质相同的各测评项目分数间的一致性程度。l 同质性是保证测评只测量同一特质的必要条件。也就是说,评估一组测验题目内部一致性程度,对于确定测
20、验题目是否测量了同一事物很重要。如果同质性差,则表示测评混淆了不同的测评内容,其结果就无从判断究竟是否反映了被测者的某一特质。l 如果被测者在第一个项目上比其他人分数高,在第二个项目上又比其他人高,在第三个项目上也比其他人高相反另一个人在第一个项目上比其他人分数低,在第二个项目上又比其他人分数低,在第三个项目上也比其他人分数低那么毫无疑问,我们会认为测评结果比较可靠。一致性信度的作用一致性信度的作用l 重测信度和复本信度分别注重考虑测量跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度用内部一致性系数表示,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的
21、内容或特质。l 同质性的测验,其结果的解释较为明确。例如:在一个同质性的语言逻辑推理能力测验中,应试者的得分可以反映其语言逻辑推理能力的高低;而如果一个测验既包含有测查逻辑推理能力的试题,又含有测查数量分析能力的试题,那么在应试者得分低的情况下,就无法说明被测者到底哪种能力不足。一致性信度应用实例l 例如:在人格测评中,乐观情绪特质和外向特质是两个容易混淆的内容,这就要求测评设计时能够找到相应的题目把二者区分开来。l 再例如:在考察管理技能时,预测和决策、监督和控制等都是不太容易区分的,对题目设计的要求就相当高,否则就会把不同技能混淆,导致结论错误和用人失误。l 在设计测评题目时,所有测评题目
22、都要保证只测量一种特质或内容,如果需要在一个测评中测量不同内容,就应该将测评设计为几个分测评进行分别测评。例如16PF人格测评就包括16个分测评,每个分测评量表只对一种人格特质进行测评。一致性信度的计算方法l 分半信度项目折半分析,是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。通常的方法是在测验实施后将测验分为等值的两半,并分别计算每位被测者在两半测验上的得分,再求出这两个分数的相关系数。这个相关系数就代表了两半侧眼内容取样的一致性程度。l 同质性信度系数分析,是指测验内部的各题目在多大程度上考察了同一内容,即所有测验题目测量的只是单一特质或内容,表现为所有测验题目得分的一
23、致性。rt=2r1+r式中:r表示两半项目分数相关系数; rt越大,则说明测评结果越可靠。式中:n表示测评项目数; st2表示测评结果的方差; vi2表示第i个项目得分的方差。rt=nn-1St2-vi2St24、评分者信度(raters reliability)l 在有些测量情形中,评分者的评判也是误差的来源之一。例如投射测验、创造力测验、无领导小组讨论、管理者情境模拟等,都依赖于评分者的判断,这种判断的主观性往往造成不同评分者的评分很不一致,因此有必要考虑评分者信度。l 评分者信度是指不同评分者对同一对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再
24、求每份答卷两个评判分数的相关系数。评分者的评分越一致,评分者信度越高。(等级相关)式中:n表示测评者人数; m表示测评项目个数; Ri 表示第 i 个项目上所有被测者等级之和或分数之和(这里分数只限正整数)112W=(Ri)2Ri2-mn2(m3-m)W越大,说明测评结果越可靠。越大,说明测评结果越可靠。信度小结:l各种信度评估的适用情景:重测信度评估侧重考察测评跨时间的一致性和稳定性;复本信度评估侧重考察测评跨形式的一致性和等值性;内部一致性信度评估主要反映的是一个测评内部题目之间的关系,揭示测评的各个题目是否测量了相同的内容或特质。评分者信度评估主要是考察评分者的主观误差。思考题:l 与对
25、某人品德测评分数的可靠性进行考察,随机抽取其中10个被试的分数,分别是:74、71、80、85、76、77、77、68、74、74,再次测评后10个被试的分数分别是:82、75、81、810、82、810、88、84、80、87。请问可以用什么方法评价测评的可靠性?l 如果一个部门的三个经理分别给部门的几十位员工考核,你认为应当怎样检查三位评分者评定的可靠性?l 某面试考官对被试的7项素质进行测评,总共面试了8位被测者,其评定等级如下表,请考评一下这位面试考官的面试结果是否可靠 测评项目测评项目被测者被测者1234567A3651427B5641327C2751436D3672415E4762
26、315F4562317G3742516H2741635Ri2651411232144810-2 测量的效度l 效度是评价测量工具好坏的重要标准之一。较高的效度是一个良好的测量工具最重要的特性,是必要条件,也是选择和评价测量工具质量的重要依据。一般来说。效度的作用比信度的作用更为重要。如果一个测验效度很低,无论它的信度有多高,这项测验都没有应用价值。效度高的测量工具往往信度也高。l 通过对效度的分析,可以了解对所要测量的心理学变量的测量准确程度如何,以及对外在标准的预测能力怎样。效度高的测量工具,既能够准确的测量出目标心理特质,又能够根据测量结果做出正确的推论。10-2-1 10-2-1 效度及
27、其影响因素效度及其影响因素1、效度的概念、效度的概念l 测量结果的效度就是指测量的有效性,即能够测量到所要测量目标的程度,反映了测量结果对测量目标的体现程度。 效度是针对某种特定的测评目的而存在的; 效度是一个关于程度的估计。效度的高低只有程度上的差别,不存在完全没有或完全有的情况。l 效度可以看作为对有用性和准确性的测量,回答的是“对什么有用?”或“我怎么知道这个测验是否值得用?”的问题,一般被定义为测验能测量到所要测量东西的程度。在评价任何测验时这都是最重要的考虑。Sco2Ssp2Se2St2S2 Sco2:由所测量的心理特性引起的主要变差,或与所测量的心理特性有关:由所测量的心理特性引起
28、的主要变差,或与所测量的心理特性有关的共同因素所引起的变差(这部分变差是我们真正希望了解和测量的);的共同因素所引起的变差(这部分变差是我们真正希望了解和测量的);Ssp2:由与所测量的特性无关的其他个别特性所造成的变差(系统误差引起由与所测量的特性无关的其他个别特性所造成的变差(系统误差引起的变差);的变差);Se2:误差变差,是测量误差分布的变差误差变差,是测量误差分布的变差St2Val=Sco2效度与信度的关系l 二者的区别:信度与效度的差别在于所考虑的误差不同所考虑的误差不同。信度考虑的是随机误差的影响;效度考虑的误差包括随机误差和对测验目的无关的变量引起的系统误差。l例如游标卡尺的精
29、度,可能由于设计原因或者工具制作工艺、刻度刻画、金属材料的温度特性等因素的影响,卡尺对长度的反映会出现误差。这些误差现象是由于测量工具本身的原因造成的,具有稳定性,不管什么人、什么时间使用都会出现。而另一方面,每次使用卡尺,不同的人造成的误差不同,这种误差是随机误差,是偶然性的不稳定的,属于信度考察的内容,指的是测量结果的一致性如何。l 二者的联系:信度是效度的必要条件,但不是充分条件。换句话说,信度高不一定效度必然高。但效度高通常信度高。信度系数的平方根是效度系数的最高限度2、效度的作用l就好像用磅秤测量身高,每次测量的结果都很一直稳定(信度很高),但它并不能代表身高,也就是说其测量值并不反
30、映身高这一属性(效度很低),所以说,磅秤不是身高这一测量对象的适宜测量工具。l例如例如,一个数学测验可能对学生的数学成绩的预测效度很好,但对学生整体智力的预测效度就没有那么好,对学生的性格可能根本就没有预测效度。3、效度的影响因素l 一个测验效度的高低,很大程度上取决于该测验受无关因素影响的程度。凡是能造成测验结果误差的因素,都会影响测验效度。 (1)测验的因素l 测验题目的质量:难易程度、暗示性、题意表达、试题内容取样的代表性l 实施测验时的干扰因素:指导语、计分错误l 被试的影响因素:反应定势、测验动机、情绪l 测验的长度:增加测验题目往往能增加测验的信度和效度。 (2)样本团体的性质l
31、同一测验对不同团体所测量的功能可能不同;l 同一测验,样本团体的性质不同,效度就可能不同;l 样本团体的异质性对效度也会有影响。10-2-2 效度的评估方法l 对测量效度的考察反映在下面两个问题之中:该测验能够很好的预测我们感兴趣的成绩吗?该测验真正测量的是什么?l 第一个问题集中于效标,也就是判断一个测验预测的成功性的标准。这就要求建立测验成绩与那个标准之间的关系。(预测效度)l 第二个问题集中于测验,要求明确关于测验所测量目标的内在理论或心理构想。(内容效度)l 测验效度不能按笼统的方式去测量,而只能根据测验所考虑的特定用途去测量,在决定是否使用测验时,我们需要了解从已知测验结果做出某种推
32、论的有效性,也就是说,我们是证实测验的有效性,还是证实我们希望对测验结果进行推论的有效性。对于一个特定问题,测量目的决定了所用的效度评定方法,问题是关于使用测验成绩来预测在效标上的成绩,还是关于研究测验实际测量的内容或构想。1、内容效度content validityl 内容效度是一个测验实际测到的内容与所要测量的内容之间的吻合程度,是检查测验内容是否是所预测量的行为领域的代表性取样的指标。l 当实际测评到的内容与我们事先所相测评的内容越一致时,则说明测评结果的内容效度越高,测评结果就越有效。l 在实际工作中我们编制的测验不可能包含所要测量的行为领域的全部可能的材料或情境,只能选择一个有代表性
33、的样本,通过观察被试对个别题目的反应,来推测他的总体行为表现。l 通常用内容范围来对内容效度加以说明。l内容范围特点:边界:它包含了一些内容,同时也要将另外一些不相关的东西排除在外。只有具备明确的边界,才能确保测验测量了要测量的特性。结构:内容范围是结构化的。通常内容范围中的内容总是被归为几个类别,对于每个类别,又有详细的说明。l 应用范围:内容效度适合于选拔和分类人事测验,因为这类测验内容是实际工作的一个样本,应包含实际工作所需要的技能和知识,通过内容效度的分析来确定测验是否测量了实际工作中需要的知识和技能。内容效度一般不适用于能力倾向测验和人格测验,因为这类测验不太要求与所取样的行为领域的
34、内在相似性,其测验题目的选择更多的受某种假设的指导。此外,能力倾向和人格测验与成就测验不同,他们不是建立在某种课程或知识基础上,在对相同的题目做出反应时,每个被试使用的方法和心理过程是很不相同的,同一测验对不同被试来说测量的是不同的心理过程。在这种情况下,不可能从检查测验的内容来确定测验测量的功能。l 内容效度的评价可以回答:该测验是否是应考察的某种技能和知识的代表性样本测验成绩是否不受无关因素的影响内容效度对效标参照测验尤为重要,因为在校标参照测验中,被试的表现往往以测验内容来解释。确定内容效度的方法l蓝图对照分析法: 年全国硕士研年全国硕士研究生入学考试英语试卷结构框架究生入学考试英语试卷
35、结构框架l专家比较判断法:C C(n(nN N2)2)N N2 2(N N为专家总数,为专家总数,n n为肯定人数)为肯定人数)部分节 考试内容试题形式试题量分值权重考试时间语法结构与词汇A语法填空(单句) 四选一1052020%35B语法辨错(单句) 四选一105C词语填空(单句) 四选一2010完形填空完形填空(1篇短文)四选一101010%15阅读理解阅读理解(5篇短文)四选一204040%60英译汉正确理解英语原文并用汉语表达原文所述内容五段译文51515%30短文写作根据所给题目或素材写出叙述、说明或议论性的短文一篇作文11515%40总计76100100%1802、效标关联效度cr
36、iterion-related validityl 效标关联效度又称为准则关联效度,指测评结果与某种标准结果的一致性程度,反映的是测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。(效标是考察测验效用的外在参照标准。)l 例如一个机械能力倾向测验,其效度的标准(效标)可以是成为机械师之后的表现;对于一个管理能力测验而言,其效标可以是将来从事管理工作的绩效。l 效标关联效度往往用于预测性测验,在这些测验中,测验分数一般用于甄选决策,只有当证明测验分数确实能够预测所研究的行为时,这种决策才可能正确。效标效度的种类l 根据效标结果与测评分数获得的时间是否相同可
37、分为预测效度预测效度和同时效度同时效度。同时效度的效标材料可以和测验分数差不多同时收集。把一组人的测评分数和其绩效分数求相关系数就得到同时效度;预测效度的目的是决定决策前得到的测评分数和决策后得到的准则分数之间相关性。其效标资料是在测量结束后相隔一段时间才取得的,它反映的是由测验分数对任一段时间间隔后被试行为表现的预测程度。适用于对人员进行选拔、分类、安置的人事测量,这些测量需要对应试者将来的工作绩效进行可靠的预测。l 二者的差异根源不在于收集效标的时间,而是在于预测目的的不同,预测效度多用于预测未来的结果,同时效度多用于诊断现在的状态。“某人成功了吗?”或“某人患病了吗?”“某人会成功吗?”
38、或“某人会患病吗?”常见效标种类l 学术成就前提是“智力高的人,学术成就应该越大” 。如:在校成绩、学历、研究成果等。l 特殊训练成绩能力倾向测验成绩常用某种特殊训练中取得的成绩做效标。如:言语智商用语文成绩做效标;机械能力用技术培训成绩做效标等。l 实际工作表现与成绩。如产品量、晋升速度、劳模表扬情况等。l 团体特征用两个在效标表现上有差别的团体比较他们在预测源分数上的差别。如:一个音乐倾向测验的效度,可以由比较音乐学院学生的分数与一般大学生分数获得。l 等级评定结果必须是由权威的专家或主管人员作出的,或者是广大群众作出的。l 先前被证明是有效的测评结果。如用明尼苏打机械性向测验得到的结果。
39、3、构想效度construct validityl 构想效度也称结构效度、建构效度,是指实际所测评的结果与所想测评素质的同构程度,是测验能够测量到理论上的构想或特质的程度,它表明了在多大程度上,实际的测评结果能够被看作是所要测评的素质在结构上的替代物。l 所谓构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。这些构想无法直接测量,具有抽象性。但是每个构想都有其心理上的理论基础和客观现实性,都和具体的可观察的事件相联系,可以通过各种可观察的材料加以确定。例如言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。l 适用范围:适用于智力测验、人格测验
40、等。确定构想效度的方法1、提出理论假设,并将其分解成细目;2、依据理论框架,推演出有关测验成绩的假设(操作化定义);3、用逻辑的和实证的方法来验证假设(排除法、咨询法、相关法、逻辑分析法、多元分析法)。l 例如:例如:韦克斯勒首先假设“智力是一个人去理解和应付他周围世界的总的才能”,然后,他依据这一定义,编制11个分测验从十几个方面来说明智力,编好测验又从多个角度加以验证,最后,用因素分析法验证,该测验实际测量了三类共同因素,即A因素(言语理解)、B因素(知觉组织)、C因素(记忆和注意集中)。10-3 项目分析l 测评结果(分数)几乎都是由各个项目得分直接累加而成的,因此项目质量的好坏直接影响
41、到测评结果的真实性、正确性和准确性。l 项目分析是指根据试测结果对组成测验的各个题目(项目)进行分析,从而评价题目好坏、对题目进行筛选的程序和方法。l 效度与信度分析是直接对测评结果质量的考评,而项目分析则是间接地对测评结果作微观性的解剖。l 通过项目分析,对测验题目进行选择和修改,可以提高测验的信度和效度。了解项目分析的概念和方法,能够帮助测验使用者评价现有的各种测验。l 定性分析:主要考虑内容效度,即题目表达的恰当性和有效性等方面。l 定量分析:主要考察题目难度和鉴别度是否适当。10-3-1 测量的难度分析l 难度分析就是对题目的难度进行估计以确定适宜的难度,难度的指标通常以“通过率”表示
42、,即答对或通过该题目的人数百分比。通过人数越多题目越容易。l 测验难度的确定,要依据测验的目的、性质和题目的形式而定。测验目的:难度极大或难度极小时,都不容易区分个体差异。难度中等的题目比较适合区分个体差异。测验作用:选拔性测验应使难度接近录取率。题目形式:选择题的难度一般应大于概率水平(如四选一题目难度0.63最合适);是非题难度应该为0.75最合适。10-3-2 测量的鉴别度分析l 项目鉴别度是指测验项目对于所测查的心理特性的鉴别能力和区分程度,可以从项目效度和内部一致性方面进行考虑。l 项目效度分析主要以效标为依据,考察被试在每个试题上的反应与其在效标上表现的相关程度,即每个试题所测查的行为是否反映了被试在效标上的表现。l 内部一致性分析有时进行项目分析难以找到合适的效标,这是就用测验总分代替效标,考察每个试题与总分的一致性。10-3-3 测验的公平性分析l 掷色子或扔硬币帮助做决策你认为公平吗?l 结果的公平性:在职业选拔中,结果公平指选用了“最好” 的人。如何定义“最好” 以及怎样确保“最好” 能够被测量决定结果的公平性,这主要由测验的技术性方面来确定,是测验过程和测量效标过程二者的函数。l 过程的公平性:指的是某些人的测验分数受到误差的影响不会与其他人显著不同。因为受测者的表现总是发生在一定情境中,测验成绩必然反映一定情境的作用。测验选择时要考虑文化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单人船舶出售合同范本
- 萌芽课题申报书
- 提升编导能力课题申报书
- 和学校超市合作合同范本
- 卖场出租租赁合同范本
- 为课题申报书
- 劳动合同范例 海南
- 产品竞拍合同范本
- 劳务与员工合同范本
- 加氢原料采购合同范本
- 泛读2unit2-music
- 中学生防溺水安全教育课件(PPT 44页)
- ISO-IEC17025-2017实验室管理体系全套程序文件
- 2019版外研社高中英语选择性必修二Unit 1 Growing up 单词表
- 重庆危险性较大的分部分项工程安全管理实施细则
- 三菱 PLC FX2N-4AD 4DA 模拟量模块教材(课堂PPT)
- 有机金属化学1
- JIT标准作业作业指导书
- 安徽省2020-2021学年七年级语文下学期期末测试卷[含答案]
- 混凝土面板堆石坝接缝止水
- 人教版三年级数学下册各单元教材分析(全册共九个单元)
评论
0/150
提交评论