版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十二章素质测评质量分析12-1测评的信度信度是标准化素质测评的基本要求之一,如果测评工具的信度不理想,测量结果就无法被认为能代表应试者的一致、稳定和可靠的行为表现,就可能误导对应试者的评价。12-1-1信度及其影响因素如果我们用一个游标卡尺来测量一个钢管的外直径,每次测量时都难免会有一定的误差。首先,游标卡尺作为一种测量工具是有一定精度限制的,也就是说,测量工具本身存在误差。当然这种误差是必然存在的,而且误差是在一定范围中有规律的变动的,这种误差在测量工作中被称之为系统误差(systematicerror)。其次,我们每一次测量都可能出现操作上的差异,或者由于不可预见的外界因素的影响,产生测量误差。这些误差是很难控制的,而且无规律可循,有时大有时小,这种误差被称为随机误差(randomerror)。前者在一定程度上可以控制,而后者很难控制,一个好的测量工具应该不仅要有尽可能高的精确度(与系统误差相关),还能够把误差控制在一个有规律的范围以内,这样才能够得到稳定可信的测量结果。信度实际上就是对随机误差的一种度量。1、信度的概念信度(reliability)信度是标示测验一致性高低的统计指标。主要指测量结果的可靠性、稳定性和一致性,可以定义为测验结果不受测验情境或测验过程中无关变量影响的程度。实际上就是指测验分数不受测量误差影响的程度。可以指出测验出的个体差异在多大程度上是真正的差异,又在多大程度上是由于随机误差造成的。随机误差越大,信度就越低。反之,信度就越高。通常任何测验都存在某种程度的不一致性(同一受试者在不同时间或在不同的测验条件下做同一测验)因为误差的存在,我们永远不可能完全揭示人的心理特点,只能无限接近真实分数。所有测验都有误差,心理测验分数也不例外。如果一个人连续两天接受同一测验,或者完成同一测验被认为是等值的两个版本,如果得分相同会让人感到惊讶,如果分数有相当大的变化可能让人吃惊,但是有一点可以肯定,这是由于偶然或随机因素影响了每次测验的成绩。然而,对于儿童,如果同一测验在半年或一年之后测第二遍,分数有很大的差异是不足为奇的,因为他们的成长导致测验成绩的变化非常自然。问题将是确定有多少变化是由于成绩的随机变化引起的,又有多少可以归因于个人在这段时间内所发生的变化。测量结果的稳定性:测验分数一致性的程度(不同时间、测验条件下所得分数之间的一致性)一个人获得分数与“真实分数”之间的接近程度测量结果的一致性是否达到实际应用的程度影响稳定性的原因:什么因素造成了这种差异(误差的来源)这些效应的相对作用如何(分数的实际含意)在研究信度时,主要应考虑两方面的问题:信度的计算:信度系数信度指标的一般公式:测验分数=真实分数+测量误差或者:X=T+e信度的高低通常以相关系数表示,称为信度系数(reliabilitycoefficient)。信度系数一般是同一样本所得的两组资料的相关,因此有:测验分数方差=真实分数方差+误差分数方差
X2=T2+e2信度系数:rxx=T2/X2=T2
/(T2
+e2
)信度系数即是真实分数方差(变异数)与测验分数总方差(变异数)之比。2、信度的作用测验信度要能够区分出:导致一致性的因素:个体稳定的特性(测量对象)导致不一致性的因素:可能影响测验,但又与测验对象没有关系的个体和环境的特性在素质测评中,对信度系数进行确定通常有以下作用:解释真实分数与实得分数之间的相关说明可以接受的信度水平解释真实分数与实得分数之间的相关信度可以解释为总的方差(标准差的平方的缩略语)中有多少比例是由真实分数的方差决定的,即测量分数的变化中有多少是真正反映了被测者分数的变化。例如:当rxx时,我们可以说,实得分数中有90%的方差是来自真实分数的变化,仅有10%是来自测量的误差。信度系数的分布是从的正数范围,代表了从缺乏信度到完全可信的所有状况。思考:如果rxx表示什么?rxx表示什么?说明可以接受的信度水平信度的理想水平是,但是实际上是达不到的。一般能力与成就测验的信度系数在以上;人格、兴趣等测验的信度通常在之间。一般来说,当rxx
时,不能用测验对个人进行评价,也不能在团体间作比较;当rxx时,可用于团体间比较;当rxx时,可用于鉴别个人。3、信度的影响因素
受试者个体持久而泛化的特性:进行测验的一般技能水平理解测验指示语的一般能力水平进行类似测验的一般的人格特质受试者个体持久而特殊的特性:进行某项测验(或其形式)需要的特殊的技能、能力和特质;以及稳定的反映定势;对某个测验项目内容的熟悉程度受试者个体短时而泛化的特性:健康、疲劳、动机、情绪状态、测验自如性;温度、光亮、通风等测验外部条件
受试者个体短时而特殊的特性对特殊测验的理解,测验所需要的特殊技巧;为做测验所进行的练习;对测验项目内容的注意、记忆等的飘忽不定。影响测验过程和解释的外部因素系统改变测验条件;对测验的各种限制;干扰程度;指示语的清晰度;受试者在个性、性别、种族等与测验主试的交互作用;对测验结果的不一致或有偏差的评判。无法解释的变化(随机因素)猜测、运气,以及暂时的干扰12-1-2信度的评估方法针对不同的误差来源,信度可以有不同的确定方法。信度系数类型误差来源重测信度时间取样复本信度(即时)内容取样重测复本信度(延迟)时间和内容取样分半信度内容取样同质性信度内容的异质性评分者信度评分者间差异1、重测信度(test-retestreliability)又称为稳定性系数,是采用重测法计算信度的方法,即用同一测验在不同时间对同一对象施测两次,两次测量分数的相关系数即为重测系数。人事测量所测查的特质中,有相当多的内容具有一定的稳定性,如人格、能力倾向等,因此,对于这些内容而言,重测信度对于衡量测量工具的质量是很重要的指标。在日常生活中,你也许常常到市场上去买东西。如果你买了5斤瘦肉后觉得比上次少了点,没有那么重,那么你可以自己再用称称一下。如果也是5斤,那么你可能就会觉得确实有5斤。这是因为两次称得的结果完全一致,变异度为0。人的素质测评没有这么简单,因为素质本身又是无法精确定义,因而我们常常把对个体测评结果的准确性检验,置于群体测评结果的相互关系之中,转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后,其顺序位置关系变异很小时,则说明测评结果比较准确。例如:在技能测评中A分数88,在全体被测者中排名第一。这是否可靠可信?我们可以再测一次,结果A分数95,还是排名第一,而且其他被测的位置顺序变化很小。这时我们可以说第一次的技能测评结果是可靠的(信度高)。重测信度的考察对象重测信度所考察的误差来源是时间的变化所带来的随机影响(气候、噪音的干扰、疾病、疲劳、情绪的影响等),根据重测相关系数的高低,可以得知测量结果在经过一段时间之后的稳定程度。重测信度表示测量能够应用于不同时间的程度,信度越高说明测量结果受环境中日常的随机因素影响越小,测量结果越稳定、可靠。评估重测信度时,要注意重测间隔的时间,时间太短被试对测试题记忆犹新,必然会造成假性相关;时间太长,测验结果又会受应试者的身心特质改变的影响,使相关系数降低。间隔时间的长短必须根据测验的性质和目的来确定。如果希望测量结果能预测较长时间的变化,则重测间隔时间应该长一些。例如人格测验一般间隔2-6个月比较合适。应用重测信度应注意:重测信度一般只反映由随机因素导致的变化,而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高,不是重测信度考察的因素。这些因素导致的重测相关系数的降低,不能说明测验的重测信度低。不同行为受随即误差影响不同。例如手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时,重测信度的解释才有效。只有不大容易受重复影响的测验,如感觉-运动测验或人格测验,才比较适合用重测法计算信度系数。因为被测者一旦知道答案就不容易忘记,从而造成假性相关。2、复本信度(alternative-formreliability)又称为等值性系数,它是以两个测验复本(功能等值但题目内容不同)来测量同一对象,然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性程度。复本信度考虑的是内容取样误差的影响问题,计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。优点:能够避免重测信度的一些问题,如记忆效果、练习效应等;适用于进行长期追踪研究或调查某些干涉变量对测验成绩的影响;减少了辅导或作弊的可能性。缺点:如果测量的行为受练习的影响,复本信度只能减少而不能消除这种影响;有些测验的性质会由于重复测量而发生改变,例如某些问题解决型的测验,如果掌握了解题原则就有可能产生迁移,尤其当复本只是在题目具体内容上有改变时,这种正迁移的作用会很强;有些测验很难找到复本。3、一致性信度ConsistencyReliability一致性信度又称为同质性信度,是指一个测评活分测评中各个题目所测内容的一致性。同质性是保证测评只测量同一特质的必要条件。也就是说,评估一组测验题目内部一致性程度,对于确定测验题目是否测量了同一事物很重要。如果同质性差,则表示测评混淆了不同的测评内容,其结果就无从判断究竟是否反映了被测者的某一特质。一致性信度的作用重测信度和复本信度分别注重考虑测量跨时间的一致性(稳定性)和跨形式的一致性(等值性),而内部一致性信度用内部一致性系数表示,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质,即测验内部各部分之间具有同质性(测验同一特性的各个项目的得分呈正相关)。同质性的测验,其结果的解释较为明确。例如:在一个同质性的语言逻辑推理能力测验中,应试者的得分可以反映其语言逻辑推理能力的高低;而如果一个测验既包含有测查逻辑推理能力的试题,又含有测查数量分析能力的试题,那么在应试者得分低的情况下,就无法说明被测者到底哪种能力不足。一致性信度应用实例例如:在人格测评中,乐观情绪特质和外向特质是两个容易混淆的内容,这就要求测评设计时能够找到相应的题目把二者区分开来。再例如:在考察管理技能时,预测和决策、监督和控制等都是不太容易区分的,对题目设计的要求就相当高,否则就会把不同技能混淆,导致结论错误和用人失误。在设计测评题目时,所有测评题目都要保证只测量一种特质或内容,如果需要在一个测评中测量不同内容,就应该将测评设计为几个分测评进行分别测评。例如16PF人格测评就包括16个分测评,每个分测评量表只对一种人格特质进行测评。一致性信度的计算方法分半信度——项目折半分析,是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。通常的方法是在测验实施后将测验分为等值的两半,并分别计算每位被测者在两半测验上的得分,再求出这两个分数的相关系数。这个相关系数就代表了两半测验内容取样的一致性程度。同质性信度——α系数分析,是指测验内部的各题目在多大程度上考察了同一内容,即所有测验题目测量的只是单一特质或内容,表现为所有测验题目得分的一致性。4、评分者信度(ratersreliability)在有些测量情形中,评分者的评判也是误差的来源之一。例如投射测验、创造力测验、无领导小组讨论、管理者情境模拟等,都依赖于评分者的判断,这种判断的主观性往往造成不同评分者的评分很不一致,因此有必要考虑评分者信度。评分者信度是指不同评分者对同一对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。评分者的评分越一致,评分者信度越高。(等级相关)信度小结:各种信度评估的适用情景:重测信度评估侧重考察测评跨时间的一致性和稳定性;复本信度评估侧重考察测评跨形式的一致性和等值性;内部一致性信度评估主要反映的是一个测评内部题目之间的关系,揭示测评的各个题目是否测量了相同的内容或特质。评分者信度评估主要是考察评分者的主观误差。12-2测量的效度效度是评价测量工具好坏的重要标准之一。较高的效度是一个良好的测量工具最重要的特性,是必要条件,也是选择和评价测量工具质量的重要依据。一般来说。效度的作用比信度的作用更为重要。如果一个测验效度很低,无论它的信度有多高,这项测验都没有应用价值。效度高的测量工具往往信度也高。通过对效度的分析,可以了解对所要测量的心理学变量的测量准确程度如何,以及对外在标准的预测能力怎样。效度高的测量工具,既能够准确的测量出目标心理特质,又能够根据测量结果做出正确的推论。12-2-1效度及其影响因素1、效度的概念测量结果的效度就是指测量的有效性,即能够测量到所要测量目标的程度,反映了测量结果对测量目标的体现程度。效度的高低只有程度上的差别,不存在完全没有或完全有的情况。效度可以看作为对有用性和准确性的测量,回答的是“对什么有用?”或“我怎么知道这个测验是否值得用?”的问题,一般被定义为测验能测量到所要测量东西的程度。在评价任何测验时这都是最重要的考虑。“效度指从分数进行推论的证据的程度。”——英国《教育和心理测验标准》效度与信度的关系二者的区别:信度与效度的差别在于所考虑的误差不同。信度考虑的是随机误差的影响;效度考虑的误差包括随机误差和对测验目的无关的变量引起的系统误差。二者的联系:信度是效度的必要条件,但不是充分条件。换句话说,信度高不一定效度必然高。但效度高必定信度高。2、效度的作用就好像用磅秤测量身高,每次测量的结果都很一直稳定(信度很高),但它并不能代表身高,也就是说其测量值并不反映身高这一属性(效度很低),所以说,磅秤不是身高这一测量对象的适宜测量工具。例如,一个数学测验可能对学生的数学成绩的预测效度很好,但对学生整体智力的预测效度就没有那么好,对学生的性格可能根本就没有预测效度。3、效度的影响因素一个测验效度的高低,很大程度上取决于该测验受无关因素影响的程度。凡是能造成测验结果误差的因素,都会影响测验效度。测验题目的质量:难易程度、暗示性、题意表达、试题内容取样的代表性实施测验时的干扰因素:指导语、计分错误被试的影响因素:反应定势、测验动机、情绪测验的长度:增加测验题目往往能增加测验的信度和效度。12-2-2效度的评估方法对测量效度的考察反映在下面两个问题之中:该测验能够很好的预测我们感兴趣的成绩吗?该测验真正测量的是什么?第一个问题集中于效标,也就是判断一个测验预测的成功性的标准。这就要求建立测验成绩与那个标准之间的关系。(预测效度)第二个问题集中于测验,要求明确关于测验所测量目标的内在理论或心理构想。(内容效度)测验效度不能按笼统的方式去测量,而只能根据测验所考虑的特定用途去测量,在决定是否使用测验时,我们需要了解从已知测验结果做出某种推论的有效性,也就是说,我们是证实测验的有效性,还是证实我们希望对测验结果进行推论的有效性。对于一个特定问题,测量目的决定了所用的效度评定方法,问题是关于使用测验成绩来预测在校标上的成绩,还是关于研究测验实际测量的内容或构想。1、内容效度contentvalidity内容效度是一个测验实际测到的内容与所要测量的内容之间的吻合程度,是检查测验内容是否是所预测量的行为领域的代表性取样的指标。在实际工作中我们编制的测验不可能包含所要测量的行为领域的全部可能的材料或情境,只能选择一个有代表性的样本,通过观察被试对个别题目的反应,来推测他的总体行为表现。应用范围:主要应用于成就测验、职业选拔和分类人事测验。内容效度适合于选拔和分类人事测验,因为这类测验内容是实际工作的一个样本,应包含实际工作所需要的技能和知识,通过内容效度的分析来确定测验是否测量了实际工作中需要的知识和技能。内容效度一般不适用于能力倾向测验和人格测验,因为这类测验不太要求与所取样的行为领域的内在相似性,其测验题目的选择更多的受某种假设的指导。此外,能力倾向和人格测验与成就测验不同,他们不是建立在某种课程或知识基础上,在对相同的题目做出反应时,每个被试使用的方法和心理过程是很不相同的,同一测验对不同被试来说测量的是不同的心理过程。在这种情况下,不可能从检查测验的内容来确定测验测量的功能。内容效度的评价可以回答:该测验是否是应考察的某种技能和知识的代表性样本测验成绩是否不受无关因素的影响内容效度对效标参照测验尤为重要,因为在校标参照测验中,被试的表现往往以测验内容来解释。2、效标关联效度criterion-relatedvalidity效标关联效度又称为效标效度,指测评结果与某种标准结果的一致性程度,反映的是测验分数与外在标准(效标)的相关程度,即测验分数对个体的效标行为表现进行预测的有效性程度。(效标是考察测验效用的外在参照标准。)效标关联效度往往用于预测性测验,在这些测验中,测验分数一般用于甄选决策,只有当证明测验分数确实能够预测所研究的行为时,这种决策才可能正确。效标效度的种类根据效标结果与测评分数获得的时间是否相同可分为预测效度和同时效度。同时效度的效标材料可以和测验分数差不多同时收集。预测效度的效标资料是在测量结束后相隔一段时间才取得的,它反映的是由测验分数对任一段时间间隔后被试行为表现的预测程度。适用于对人员进行选拔、分类、安置的人事测量,这些测量需要对应试者将来的工作绩效进行可靠的预测。二者的差异根源不在于收集效标的时间,而是在于预测目的的不同,预测效度多用于预测未来的结果,同时效度多用于诊断现在的状态。“某人成功了吗?”或“某人患病了吗?”“某人会成功吗?”或“某人会患病吗?”常见效标种类学术成就——前提是“智力高的人,学术成就应该越大”。如:在校成绩、学历、研究成果等。特殊训练成绩——能力倾向测验成绩常用某种特殊训练中取得的成绩做效标。如:言语智商用语文成绩做效标;机械能力用技术培训成绩做效标等。实际工作表现团体特征——用两个在效标表现上有差别的团体比较他们在预测源分数上的差别。如:一个音乐倾向测验的效度,可以由比较音乐学院学生的分数与一般大学生分数获得。等级评定结果前期测评结果3、结构效度constructvalidity结构效度是指测验能够测量到理论上的构想或特质的程度。所谓构想通常指一些抽象的、假设性的概念或特质,如智力、创造力、言语流畅性、焦虑等。这些构想无法直接观察。但是每个构想都有其心理上的理论基础和客观现实性,可以通过各种可观察的材料加以确定。例如言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。适用范围:适用于智力测验、人格测验等。确定构想效度的方法1、提出理论假设,并将其分解成细目;2、依据理论框架,推演出有关测验成绩的假设(操作化定义);3、用逻辑的和实证的方法来验证假设(排除法、咨询法、相关法、逻辑分析法、多元分析法)。例如:韦克斯勒首先假设“智力是一个人去理解和应付他周围世界的总的才能”,然后,他依据这一定义,编制11个分测验从十几个方面来说明智力,编好测验又从多个角度加以验证,最后,用因素分析法验证,该测验实际测量了三类共同因素,即A因素(言语理解)、B因素(知觉组织)、C因素(记忆和注意集中)。12-3项目分析项目分析是指根据试测结果对组成测验的各个题目(项目)进行分析,从而评价题目好坏、对题目进行筛选的程序和方法。通过项目分析,对测验题目进行选择和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 图书馆消防安全管理协议
- 潍坊市二手房急售合同模板
- 员工关系管理图解
- 2022年大学环境科学专业大学物理下册期末考试试卷-含答案
- 2022年大学水产专业大学物理下册月考试题C卷-附解析
- 制造执行系统操作与应用课件 3-2-2生产任务派工
- 糖尿病视网膜病变宣教
- 2022年大学心理学专业大学物理二月考试题C卷-附解析
- 颈椎病分型及临床表现
- 2022年大学环境与安全专业大学物理下册月考试卷A卷-含答案
- 福建省福州市2023-2024学年六年级上学期英语期中试卷(含答案)
- 学习解读2024年《关于深化产业工人队伍建设改革的意见》课件
- 2024年中国汽车基础软件发展白皮书5.0-AUTOSEMO
- 车站调度员(高级)技能鉴定理论考试题及答案
- 期中综合测试(试题)-2024-2025学年语文三年级上册统编版
- 【新教材】2024-2025学年统编版语文七年级上册 第四单元综合性学习《少年正是读书时》课件5
- 河北省衡水市枣强县2024-2025学年九年级上学期10月月考化学试题
- 航空危险品运输练习题练习试题及答案
- 演讲比赛评分表和计分表
- 初二体育与健康(400米跑)教学设计
- 2024年中国纺织品原材料市场调查研究报告
评论
0/150
提交评论