版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2007凯程心理学基础强化班辅导讲义(心理测量部分)第一章心理测量的基本理论一、心理测量的理论基础(一)心理测量的基本概念1. 心理测量的定义心理测量是根据一定的法则用数字对人的行为加以确定。即根据一定的心理学理论,使用测验对人的心理特质和教育成就进行定量描述的过程。测验是心理测量的一种工具和手段,是根据一定法则对人的行为用数字加以确定的方法;心理测量测的是人 的行为,即是一个人对测量题目所进行的反应。一个测量不可能包含所要测量的行为领域的所有可能的题目,它所包含的只是全部可能题目的一个样本。另外,在编制、实施、评分和解释方面依据一套系统的程序,依照严格的科学程序去编制和使用的测验称为标准化测
2、验。标准化有3点好处: 可以减少无关因素对测验目的的影响,使测量准确客观。 有统一标准便于对不同的人的测验成绩进行比较和交流。 同一份测验可用于许多人并可反复使用,较为经济。2. 心理测量的性质 心理测量的间接性:研究者无法直接测量人的心理,只能测量人的外显行为,也就是说,只能通过一个人 对测量题目的反应来推论他的心理特质。 心理测量的相对性:在对人的行为作比较时,没有绝对的标准,也就是没有绝对的零点,有的只是一个连 续的行为序列。所谓测量就是看每个人处在这个序列上的什么位置。 心理测量的客观性:测量的客观性实际上就是测量的标准化问题。首先测量用的题目或作业、施策说明、 施策者的言语态度及施测
3、时的物理环境等均要经过标准化,其次,评分记分的原则和手续要经过标准化,最后, 分数的转换和解释都要经过标准化。(二)心理测量的特征分类1. 按测验的功能分类能力测验:分为一般的智力水平测验及特殊能力测验。学绩测验:主要用于测量个人或团体经过某种正式教育或训练之后对知识和技能掌握的程度。人格测验:主要用于测量性格、气质、兴趣、态度等个性特点2. 按测验的对象分类个体测验:通常是一个主试与一个被试面对面进行。团体测验:在同一时间内由一位主试对多数人施测。3. 按测验的材料分类文字测验:所用测验材料是文字,受测着用文字做答。非文字测验:也称操作性测验,测验的材料多是图片、实物、工具、模型。受测者用手
4、操作。4. 按测验的目的分类描述性测验:测验的目的在于对个人或团体的能力、性格、兴趣、知识水平等进行描述。诊断性测验:目的在于对个人或团体的某种行为问题进行诊断。预示性测验:目的在于从测验分数预示一个人将来的表现和所能达到的水平。5. 按测验的难度和时限分类速度测验:题目数量多,并严格限制时间,主要测量反应速度。难度测验:包含各种不同难度的题目,由易到难排列,测量被试解答难题的最高能力。6. 按测验的要求分类最高行为测验:要求被试尽可能做出最好的回答。典型行为测验:要求被试按通常的习惯方式做出反应。7. 按测验的性质分类 构造性测验:在测验中,所呈现的刺激和受测者的任务是明确的。透射性测验:在
5、测验中,刺激没有明确意义,问题模糊,对被试的反应也没有明确的规定。8. 按测验的应用分类教育测验:是测验应用最广的领域,用得最多的是学绩测验。职业测验:主要用于人员选拔和安置,可以是能力和学绩测验,也可以是用人格测验。临床测验:主要用于医务部门。许多能力和人格测验可用来检查智力障碍或精神疾病,为临床诊断和心理咨 询工作服务。(三)经典测量理论和真分数理论模型1. 实得分数、真分数及测验误差的关系真分数为被试在无数个平行的测验上得分的平均值(或期望值)。CTT对实得分数、真分数和测验误差的假定: 实得分数与真分数存在线性关系:这种线性关系可以用一个简单的公式表达出来,即X=T+E式中X表示实得分
6、数或观测分数,即某被试在一个测验形式上的得分;T表示真分数;E表示测验误差,即在测验某一具体形式上产生的随机误差。 测验误差的期望为零,或误差的平均数为0,即E( E)=0上式是对一组被试而言的,对一组被试,其测验误差的和为0,平均数也为0。由上面两个假定可得一组被试真分数的平均数与实得分数的平均数相等。 误差与真分数独立:E是测验中产生的随机误差,只与偶然因素有关,而与真分数T的大小无关,也就是说,测验误差并不随被试能力或心理特质水平的变化而出现有规律的变化,即真分数与误差分数的相关系数为0。用片?表示被试真分数与误差分数的相关系数,则有Irjy=,该式也可表示为真分数与误差的协方差为0,即
7、Cov(T,E)=0。 实得分数方差等于真分数方差与随机误差方差之和:若以忙:表示实得分数方差,以表示真分数的方差, 以卜.:表示误差方差,则有2. 平行测验的假定与测验信度平行测验指两个测验内容相似,测验长度、平均分、难度、标准差均相同的测量同一特质的两个测验形式, 对参加两个平行测验的每一被试者,其真分数相同,误差分的条件方差相同,且Sr(超坷)0 Ccv(LJ T)=Ot由这些假设,可推得:由此可得,一个测验两个平行形式之间的相关系数就是该测验的信度,实践中我们可以通过构建平行测验来 计算测验的信度。二、测量的信度(一)信度的定义1信度的一般定义:信度指测量的一致性或可靠性程度,是测量结
8、果的稳定性程度。换句话说,若能用同一测量工具反复测量某 人的同一种心理特质,则其多次测量的结果间的一致性程度就叫信度。一个好的测量工具必须稳定,每次测量的结果要保持一致,否则便不可信。由于系统误差对测量的影响是恒定的,所以信度只考随机的、偶然的误差影响,如被试样本、实施条件、动机水平和注意力等因素的影响。随机误差越大,信度越低。在研究信度时主要考虑两方面的问题:一是测验分数的一致性程度,即不同时间、不同测验条件下所的分数 之间的一致性有多大;一个人的“获得分数”和“真实分数”之间接近程度如何;测验的测量一致性是否可以达到实际应用的程度。一是关于分数不一致的原因:什么因素造成了这种差异,这些效应
9、的相对作用如何。2信度的等价定义定义一:一组测验分数的真实变异与总变异数(实得变异数)的比率。即:该定义有两点要注意:信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性。真分数的变 异数是不能直接测量的,因而信度是一个理论上构想的概念,只能根据一组实得分数作出估计。定义二:信度乃是一个被试团体的真分数与实得分数的相关系数的平方。即:定义三:信度乃是一个测验 X( A卷)与它的任意一个“平行测验”(B卷)的相关系数其中,定义一和定义二只具有理论意义,定义三则具有实际意义(二)信度系数的估计1. 重测信度重测信度(test-retest reliability)指的是用同一量表对同一组
10、被试施测两次所的结果的一致性程度。重测信度的大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。使用的前提条件: 所测量的心理特性必须是稳定的。如一个成人的性格特点一般是稳定的,所以许多人格测验常使用重测信 度,而刚入学儿童的识字量是极不稳定的,只要两次施测的间隔时间稍长,儿童的识字量就会有很大的变化,因 此,重测信度不能由于这种情况。 遗忘和练习的效果基本上互相抵消。在做第一次测验时,被试可能会获得某种技巧,但只要间隔的时间适 度,这种练习效果会基本上被遗忘掉,至于两次测验的间隔时间要视问题的性质和测量目的而定。 在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习
11、和训练,以保证被试具有 稳定的心理特质。2. 复本信度复本信度指的是两个平行的测验测量同一批被试所的结果的一致性程度,其大小等于同一批被试在两个复本 测验上所得分数的皮尔逊积差相关系数。首先要构造出两份或两份以上真正平行的测验(即A、B卷)。真正平行测验要求复本测验之间必须在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似。换验。句话说,平行测验就是那种用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测被试要有条件接受两个测验。这一条件取决于时间、经费等几个方面。在使用复本信度时,被试在作第二测验时仍会受到练习和记忆等因素的影
12、响、一些解题的策略等技能技巧也 会产生迁移效应。对于稳定性与等值性稀疏,在报告结果时,也应报告两次施测的间隔,以及在此间隔内被试的 有关经历。3. 分半信度分半信度指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。分半信度可以和等值性系数一样解释,即可以把对等的两半测验看成是在最短时间内施测的两个平行测验。此外,由于分半信度描述的是两半题目间的一致性,所以它有时也被称作内部一致性系数。分半信度通常是在只能施测一次或没有复本的情况下使用。而且,在使用斯皮尔曼一布朗公式时,要求全体 被试在两半测验上得分的变异数要相等。4. 同质性信度同质性信度也叫内部一致性系数,它是指测验
13、内部所有题目间的一致性程度。题目间的一致性含义有两层:一是指所有题目都测的是同一种心理特质,其二是指所有题目得分之间都具有较高的正相关。当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个心理特质,实测结果就是该特质水平的反映。5. 评分者信度 评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。(三)信度的影响因素与改进1. 影响因素受试者方面就单个被试而言,其身心健康状况、动机、注意力、持久力、求胜心、作答态度等会影响测量误差。就团体被试而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度,当被试团体异质时,全体被试的总分分布必然较广,以相关为基础计算出来
14、的信度值必然会大,这就很有可能高估实际 信度值。当团体内部水平相差不大时,其得分分布必定会较窄,以相关为基础计算出来的信度值必然会小,这是 又有可能低估真正的信度值。此外,若团体的平均水平太高或太低,同样会使测验总分的分布变窄,低估测量的真正信度。主试者方面一一不按规定实施测验,制造紧张气氛,给以特别协助,评分主观等。测验内容方面一一试题取样不当,内部一致性低,题数过少,题意模糊等。施测情景方面一一测验现场条件,如通风、温度、光线、噪音、桌面好坏、空间宽窄等。测量工具方面一一试题的取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的主要因素。如果一个测验的试题取样不当,则难以测查到被试心
15、理特质的全面情况。若是被试采取押题方式应考,则所 的结果的随机性更大。这是的测量的信度就必然不高。相反,当一份测验中的同质性的题目数量增多之后,同广,一心理特质被考察到的次数就会增多,被试的成绩也就能被有效的拉开,整个团体的测验分数分布就会更 从而提高测量的信度。如果一个测量内部的试题之间彼此异质,则无法使测量的内部一致性系数提高。如果测验的题目太难,则会引起被试的随机猜答,并使得大部分人的得分偏低,整个分数的分布变窄,从而 影响测量的信度。如果题目太容易,则大部分被试都将获得高分,同样会使测验分数的分布变窄,影响测量的信 度。间隔时间一一以再测法或副本法求信度,两次测验相隔时间越短,其信度系
16、数越大;间隔时间越久,其他变 异介入的可能性越大,受外界的影响也越多,信度系数便越低。2.改进: 适当增进测验的长度。由于项目数量太少会降低测量的信度,所以,提高测量信度的一个常用方法是增加一些与原测验中项目具有 较好的同质性的项目,增大测验长度。这时要注意两点:新增项目必须与试卷上原有项目同质,新增项目的数量必须适度。因为,测验过长有可能引起被试的疲劳和反感,降低测量信度。若已知测验的现有信度,而且 道所要求的信度标准,则可以带入公式a:I.1 卄:-1 求出K值,得到一个适当的增加数目。 使测验中所以试题的难度接近正态分布,并控制在中等水平。这样,被试团体的得分分布也会接近正态分 布,且标
17、准差会较大,以相关为基础的信度值必然也会增大。 努力提高测验试题的区分度。 选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。在编制和使用测验时,一定要弄清楚常模团体的年龄、性别、文化程度、职业、爱好等等因素。一个特别异质的团体上获得的信度值并不等于其中某些较同质的亚团体的信度值。只有各亚团体上信度值都合乎要求的测验才具有广泛的应用。 主试者严格执行施测规程,评分者严格按标准给分,施测场地按测验手册的要求进行布置,减少无关因素 的干扰。三、测量的效度(一)效度的定义1. 效度的一般定义:效度指的是测量的正确性,即一个测验或量表能够测量出其所要测量的东西的程度。效度要回答的两个基本 问
18、题是:一个测验测量什么性质?它所要测量的特性测得有多准?在选用标准测验或自行设计编制测量工具,必须首先评鉴其效度,考虑其目的和功能,检验所测得的结果是否符合该测验的目的。关于效度的概念,要特别注意以下几点: 效度是一个相对的概念,其相对性表现在,一是效度是相对于一定的测量目的而言的,测量某一特质有效的量表,若用它来测量另一种特质,则必然会无效或效度很低,一是心理特质是较隐蔽的特性,只能通过他的行为表现来进行推测,因此心理测量不可能达到百分之百的准确,而只能达到某种程度上的准确。 效度是测量的随机误差和系统误差的综合反映,当一个测验随机误差较大时,实测结果当然会偏离真值, 造成结果的不准确,如果
19、测量中还存在系统误差,则系统误差也会加大测量误差。 判断一个测量是否有效要从多方面收集证据。心理特性是未知的,通常也是比较抽象和隐蔽的,因此不能 直接拿来与结果比较,而必须先从多种角度把这种特性描述清楚,可以从理论上也可以从实践上描述。2. 效度的统计定义:在测量理论中,效度被定义为:在一组测量中,与测量目的有关的真实变异数(由所要测量的变异引起的有 效变异)与总变异数(实得变异数)的比率,即:效度 =Sy/Sj =Riy,其中,R.代表测量的效度系数,表有效变异数,代表总变异数(一个测验分数的总变异包括三部分:真实地、稳定的、与测量目的有关的变异; 真实的、但出自无关来源的变异;随机误差的变
20、异)。一个测验的效度表明,在一组测验分数中,有多大比例的 变异数是由测验所要测量的变因引起的。(二)效度的估计1. 内容效度内容效度( ContentValidity )是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个 测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行 为领域。而所要测量的内容或行为领域是 依据测量的目的而定的,它通常包括预测的知识范围以及该范围内各种知识点所要求掌握的程度两方面。内容效度主要以应用于成就测验,某些用于选拔和分类的职业测验,但是不适合用于能力倾向测验和人格测 验,还要避免与表面效度(某个测验从表面上看好像实测某种心理特质的一种现象)
21、相混淆。内容效度的确定方法主要是逻辑分析法,其具体步骤是: 明确欲测内容的范围,包括知识范围和能力要求两个方面,这种范围的确定必须具体详细,并要根据一定 目的规定好各纲目的比例。 确定每个题目所测的内容,并与测验编制这所列的双向细目表相对照,逐题比较自己的分类与制卷者的分 类并作记录。 制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察 各种题目数量和分数的比例以及题目形式对内容的适当性等等,对整个测验的有效性作出总的评价。此外,克龙巴赫(Cron bach)还提出过内容效度的统计分析方法。其具体方法是:从同一个教学内容总体中 抽取两套独立的平行测验,
22、用这两个测验来 测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺 乏内容效度;若相关高,则测验可能有较高的内容效度。还有一种判断内容效度的方法是再测法,其操作过程是:在被试学习某种知识之前作一次测验,在学过该知 识后再做同样的测验,这时若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明 该测验对这部分内容而言具有较高的内容效度。2. 结构效度结构效度( ConstructValidity )是指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指 测验分数能够说明心理学理论的某种结构或特质的程度。其中,构想或结构是指心理学理论所涉及到的抽象而属 假设性
23、的概念或特质。结构效度的大小首先取决于事先假定的心理特质理论。 当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验结构效度不高。因为还有可能出现理 论假设不成立,或者该实验设计不能对该架设作适当的检验等情况。结构效度是通过测量什么、不测量什么的证据累积起来给以确定的,因而不可能由单一的数量指标来描述结 构效度。结构效度主要用于智力测验、人格测验等心理测验。结构效度的估计可以有以下一些方法: 测验内部寻找证据法。首先可以考虑该测验的内容效度;其次可以分析被试的答题过程,若有证据表明某一题目的做答除了反映着所要测的特质以外,还反映 着其他因素的影响,则说明该题没有较好的体现理论构想,
24、该题的存在会降低结构效度;再次,可以通过计算测验的同质性信度的方法来检测结构效度,若证据表明该测验不同质,则可以推断该测验结构效度不高。 测验之间寻找证据法。首先可以去考察新编测验与某个已知的能有效测量相同特制的旧测验之间的相关,若二者相关较高,则说明新测验有较高的效度,这种方法叫相容效度法;其次,可以起考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关,若二者相关较高,则说明新测验效度不高,这种方法叫区分效度法;再次,还可以通过因素分析的方法来了解测验的结构效度,其原理是:通过对一组测验进行因素分析,找出 影响测验的共同因素,每个测验在共同因素上的负 荷量(即测验与各因素的相关)就是
25、测验的因素效度,测验 分数总变异中来自有关因素的比例既是该测验结构效度的指标。 考察检验的实证效度法。有两种做法:其一是根据效标把人分成两类,考察得分的差异,另一是根据测验 得分把人分成高分组和低分组,考察这两组人在所测特质方面是够确有差异,若两组人在所测特质方面差异显著, 则说明该测验有效,具有较高的结构效度。 多种特质多种方法矩阵法。万法I特质Al Bl Cl A2 S2 C2I;.才不同方法,相同特质相同方法,不同特质A1 o4不同方法,不同特质该方法的实质是相容效度和区分效度法的综合运用,其原理是若用多种极不同的方法测量同一种特质相关很 高(用极为相似的方法测量不同特质相关很低),贝U
26、说明测量效度较高。于是,若有多种特质都接受了多种方法的测查,就可以分别计算出任意两种方法测量同一特质的相关和测量不同特质的相关,以及任意两种特质接受同一方法和不同方法的相关,并以这些相关系数为元素构成一个矩阵,从而得到测验效度的指标。3. 实证效度实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性,也就是说,一个测验是否有效应 该以实践的效果来作为检验标准。而被估计的行为是检验测验效度的标准,简称为效标。实证效度主要重视那些与测验独立的效标行为,而不太注重测验内容或结构。实证效度也称效标关联效度。根据效标资料搜集的时间差异,实证效度可以分成同时效度和预测效度两种。当效标资料是与测
27、验分数同时 搜集的,所以它是同时效度。而当效标资料是在测验之后根据实际工作成绩来确定的,就叫预测效度。实证效度的确定方法大体上可以分为以下几个步骤: 明确观念效标; 确定效标测量; 考察测验分数与效标测量的关系。实证效度估计方法: 相关法,即计算测验分数与效标测量的相关系数。 区分法,即被试接受测验后,让他们工作一段时间再根据工作成绩(效标测量)的好坏分成两组。在回过 头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。 命中率,当用测验做取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标,其中,总命中率是指根据测验选出的人当中工作合格的人
28、数,以及根据测验淘汰的人当中工作不合格的人数之和与总人数之比。若总命中率高,则说明测验的效度高,这种测验适用于:区别合格与不合格的测验。正命中率是指用测验选出的人中合格者所占的比例,此比例越高,则测验越有效,这种测验适用于:只关心被选者中合格者有多少,而不关心被淘汰者中是否有合格者。(三)效度的影响因素与改进凡能产生随机误差和系统误差的因素都会降低测验的效度。1. 效度的影响因素:测验组成方面一一试题是构成测验的要素,测验之效度取决于试题性能。凡测验的取材、测验长度、试题的 区分度、难度及其编排方式等皆与效度有关。要想提高测验的效度,须谨慎选择测验材料,适当安排测验的长度, 使试题具有相当的鉴
29、别力而且难易程度适中。测验实施方面一一测验的实施程序是影响效度的重要因素。若主试能适当控制测验情景,遵照测验手册的各 项规定而实施,就能避免外在因素对测验结果的影响。在测验实施的过程中,如果场地的布置、材料的准备、做答方式的说明、时间的限制等任何一方面不遵照标准化的程序进行,都会使效度降低,失去测验的意义。被试反应方面一一被试的兴趣、动机、情绪态度和身心健康状况等,都能影响他在测验情境中的行为反应。 被试是否充分合作,也会影响测验结果的可靠性与正确性。所选效标的性质一一由于同一个测验可以有不同的效标,同一个观念效标也可以有不同的效标测量,所以在评价测量效标时,所选效标的性质是很重要的考虑因素。
30、2. 提高效度的方法: 要想提高测量效度,就必须设法控制随机误差、减小系统误差、,同时还要选择好特别恰当的效标,把效 度系数准确的计算出来。具体讲,有以下方法: 精心编制测验量表,避免出现较大的系统误差。 妥善组织测验,控制随机误差。在测验实施过程中,系统误差一般不太明显,但随机误差确有可能失控。 这就要求测验实施者一定要严格按手册指导语进行操作,要尽量减少无关因素的干扰。 创设标准的应试情景,让每个被试都能发挥正常的水平。让被试调整好应试心态,让他们从生理上、心理 上、学识上做好应有的准备,避免焦虑的产生。 选好正确的效标、定好恰当的效标测量,正确的使用有关公式。(四)信度和效度的关系根据公
31、式迟;-令第;,可以得到信度与效度的关系:1信度高是效度高的必要而非充分的条件当随机误差的变异数减小时,真实分数的变异数增加,测验信度随之提高。信度的提高只给有效变异数 的增加提供了可能,至于是否能提高效度还要看系统误差变异数的大小。可见,信度高不一定效度高。但一个测验要想效度高,真分数的变异数必须占较大的比重,其信度必须高。也就是说,一个测量工具具有一定的信度,但对某一目的并不一定是有效的;而一个测量工具如果对于某一 目的是有效的,那么它一定是可信的。2. 测验的效度受到信度的制约根据效度和信度的定义(效度= R Jy,E疋)以及公式; = 十硏可得到:忌叫理品)囲y:说v 0这就是说,一个
32、测验的效度总是受它的信度所制约。四、心理测量的误差一)测量误差的定义1. 定义:测量误差是在测量中与目的无关的变异所引起的不准确或不一致的效应,即,误差是由与测量目的无关的变 异引起的,而且是不准确或不一致的测量结果。2. 种类:误差有两种形式:随机误差和系统误差。随机误差,是由与测量目的无关的偶然因素引起而又不易控制的误 差,它使多次测量产生了不一致的结果,这种误差的方向和大小的变化完全是随机的,无规律可循。系统误差,是由与测量目的无关的变异引起的一种恒定而又规律的效应,稳定地存在于每一个测量中,此时测值虽然一致,但不正确。系统误差只影响测值的准确性,而随机误差既影响准确性又影响一致性。系统
33、误差只与效度有关,而 随机误差与效度、信度都有关。(二)测量的随机误差来源及控制1. 来源与施测过程有关的误差:(1)物理环境,如施测现场的温度、光线、声音、桌面好坏、空间宽窄等;(2)主试者方面,主试者的年龄、性别、外表、施测时的言谈举止、表情动作等;(3)意外干扰;(4)评分的不客观和计分的出错等由受测者本身引起的误差: 测验的经验,如受测者对测验的程序和技能的熟悉程度; 练习因素,任何一个测验在第二次应用时,都会有练习效应而使成绩提高。在能力测验方面,对于智力较高者练习效果较为显著。着重速度的测验,练习效果较明显。再做同一个测验比作复本的练习效果明显。两次测验之间的时距越大,练习效果越小
34、,相距3个月以上,练习效果可忽略不计; 应试动机,被试的动机会引起偶然的不稳定的反应,造成随机误差; 测验焦虑,是指受测者在应试前和测试中出现的一种紧张的不愉快的情绪体验,对测验的焦虑会影响被试 的成绩; 定势反应,也称反应的方式或反映风格,是指独立于测验内容的反应倾向,即由于每个人回答问题习惯的 不同,而使有相同能力的被试获得不同的分数; 生理因素,如生病、疲劳、失眠等生理因素也会影响测验成绩。2.控制:(三)测量的系统误差来源及控制1. 来源:其主要来源是题目取样的不当:当测验题目较少或取样缺乏代表性时,被试的反应受机遇影响较大,当几个 测验复本不等值时,接受不同的题目,就会获得不同的分数
35、。其来源还有题目用词的模棱两可,对反应步骤说得不清,题目过难引起猜测,时间短使被试仓促做答等。2. 控制(四)测量误差的估计3. CTT对实得分数、真分数和测验误差的假定: 实得分数与真分数存在线性关系:这种线性关系可以用一个简单的公式表达出来,即X=T+E式中X表示实得分数或观测分数,即某被试在一个测验形式上的得分;T表示真分数;E表示测验误差,即在测验某一具体形式上产生的随机误差。 测验误差的期望为零,或误差的平均数为0,即E( E)=0上式是对一组被试而言的,对一组被试,其测验误差的和为0,平均数也为0。由上面两个假定可得一组被试真分数的平均数与实得分数的平均数相等。 误差与真分数独立:
36、E是测验中产生的随机误差,只与偶然因素有关,而与真分数T的大小无关,也就是说,测验误差并不随被试能力或心理特质水平的变化而出现有规律的变化,即真分数与误差分数的相关系数为0。用琢表示被试真分数与误差分数的相关系数,则有,该式也可表示为真分数与误差的协方差为0,即Cov(T,E)=0。 实得分数方差等于真分数方差与随机误差方差之和:若以碳表示实得分数方差,以呼表示真分数的方差,以表示误差方差,则有S;幹s; +跨五、心理测验的项目分析项目分析是指根据被试的反应对组成测验的各个题目(项目)进行分析,从而评价其功用的程序和方法, 主要包括定性分析和定量分析,定性分析包括考虑内容效度,题目编写的恰当性
37、和有效性等;定量分析主要是指题目的难度和区分度的测量。通过项目分析,研究者可以选择和修改测验题目,以提高测验的信度和效度。(一)题目的难度1. 定义难度的指标通常以通过率表示,即以答对或通过该题的人数的百分比来表示:F=/?/7Vrx00%式中,P代表试题难度;N为全体被试人数;R为答对或通过该题的人数。2. 计算二分法记分的项目若试题为二分法项目(即答对给1分,答错记0分)时,难度可以直接采用公式计算。当被试人数较多时,则可以根据测验总成绩将被试分为三组:分数最高的27%勺被试为高分组,分数最低的27%的被试为低分组,中间46%的被试为中间组。分别计算高分组和低分组的通过率,再求试题的难度:
38、* -応;現门疋其中P代表难度,、分别代表高分组和低分组的通过率。非二分法记分的项目当测验项目为问答题或其他不能用二分法记分的形式时,常对部分正确的反应也给一定分数。对于这类项目, 一般用下面的公式计算难度:式中X为全体受测者在该题上的平均分,为该题的满分。3. 难度水平的确定进行难度分析的主要目的是为了筛选项目,项目的难度水平多高合适取决于测验的目的的项目形式以及测验 的性质。在教育工作或实际工作中,若测验的目的是为了了解被试在某方面知识技能的掌握情况,可以不必过多地考 虑难度,只要教育者认为重要的内容就可以选用,甚至那些100%通过或通过率为0的项目都可以采用。如果测验的目的是用于选拔录用
39、人员,就应该将项目的难度控制在接近录取率左右,即较多地采用那些难度 值接近录取率的项目。4. 测验的难度作为一个整体的测验的难度,直接依赖于组成测验的项目的难度。对整个测验的难度的综合性检查,可由分 数的分布提供。当分数分布是正偏态时,分数密集在低端,表明测验的难度偏高。当分数分布是负偏态,分数密 集在高端,表明测验的难度偏低。(二)题目的区分度1. 概念区分度是指测验项目对所测量的心理特性的区分程度或鉴别能力,也就是项目的效度。2. 确定区分度的方法 项目特征曲线项目反应与效表(或测验总)分的基本关系可以用项目特征曲线来表示。项目特征曲线描述了效标分数不同 的受测者在该项目上的通过率。如果该
40、项目的通过率在效标分数的低端很低,在效标分数的高端很高,则说明这个项目能将不同水平的受测者做出有效区分。曲线坡度越陡,鉴别能力越好,预测的误差越小。当坡度为900时,区分度为1.00 (最高),当坡度为 00时,区分度为0。 项目与效标的相关相关法是确定区分度的常用方法,计算项目分数与效标分数的相关,以此作为项目区分度的指标,相关越高, 区分能力越好。二列相关:适用于两个可以连续测量的变量,但其中有一个由于某种原因被分成两个类别。当一个测验的项 目是连续的,而效标或测验总分被分为高、低或及格、不及格两个类别时,就可以用二列相关法。有时效标或测验总分是连续的,而项目分数被人为分成对、错或通过、不
41、通过两类,也可用此法。点二列相关:点二列相关适用于一个变量为连续变量,另一个变量为二分变量的资料。当一个变量是双峰分 配时,尽管它并不是真正的二分变量,这种统计方法也适用。四分相关:四分相关适用于两个常态的连续变量均被人为二分的资料。如果一个题目分数被二分为通过不通 过,效标成绩也被分成通过与不通过,这时就会得到四个类别,从而可组成一个四格表。相关:相关的统计方法适用于两个变量都是点分配的资料,即两个变量都是二分名义变量。 鉴别指数鉴别指数的计算:比较两个极端效标组通过一个项目的个案的比例。当效标测量是一个连续变量时,可从分布的两端选出高分 组和低分组,然后将高分组和低分组通过每个项目的人数用
42、百分比表示出来,这两个百分数之间的差异就提供了 题目区分度的指标。d = ph-p其中, D为鉴别指数,务为高分组通过人数百分比, 号为低分组通过人数百分比。极端组的划分:两个组越是处于极端,二者之间的差异越是明显,但很极端的分组(如最高10%与最低10%,由于个案太少,会减低结果的可靠性。在常态分布中,使以上两个方面平衡的最佳点是上下27%,以此为分界点,既可以使两个对比组间的差异尽可能大,又能使两组人数尽可能多。3. 区分度与难度的关系难度和区分度都是相对的,是针对一定团体而言的,绝对的难度和区分度是不存在的。一般说来,较难的项 目对高水平被试区分度高,较易的项目对水平低的被试区分度高,中
43、等难度的项目对中等水平的被试区分度高。这与中等难度的项目区分度最高的说法并不矛盾,因为对被试总体是较难或较易的项目,对水平高或水平低的 被试则成了中等难度。由于人的多数心理特性呈常态分布,所以项目难度的分布也以常态为好,即特别难与特别 容易的题目较少,越接近中等难度的题目越多, 而所有项目的平均难度为 0.50 。(三)题目的综合分析和筛选1. 根据难度挑选项目项目难度为 0.50 左右是测验的信度和区分能力都达到最高水平,但并不是所有的测题难度都必须是 0.50 。 因为测验一般要求有较高的同质性,那么答对 某一题的被试很可能在其他题目上也答对,而答错该题的被试在 其他题目上也答错,这样一部
44、分被试的测验分数就偏向高分一端,另一部分则偏向低分一端,使测验分数出现双峰分布,而非正态分布。这样测验分数就不能与心理特质的分布吻合,测验的效度就不是最理想的。因此在编 制测验是一般要求题目的难度值要位于 0.2.-0.80 之间,而所有题目的平均难度则要在 0.50 左右。挑选项目的难度还要考虑测验的目的,当测验是为了选拔少数能力高的被试时,项目的难度就应大一些,当 筛选少数不合格的被试时,测验就应容易一些。2. 根据区分度挑选项目 项目区分度的提高会显著地提高测验的信度和效度,因此应尽量选择区分度高的项目,根据测量学家伊贝尔( Ebel,I )的判断测题优劣的项目鉴别度标 准,鉴别度在 0
45、.30 以上就比较理想了,但有些区分度在 0.20-0.30 之间的项目如果很好地体现测验目的,也可酌情保留。六、心理测验的编制技术(一)心理测验编制的基本程序 编制心理测验一般有经过以下几个步骤:确定测验的目的,制定编题计划,编辑题目,题目的试测与分析, 集合成测验,将测验标准化,对测验的鉴定,编写测验说明书。(二)测验目标与命题双向细目表1. 测验目标 测验目标指所编测验是用来测量什么心理变量或行为特征的。测验目标必须具有操作定义,即目标要非常具 体,如测量语文理解能力的目标可定为测量阅读时了解文义的能力。2. 命题双向细目表 命题双向细目表,即编题计划,它指出测验所包含的内容和要测定的各
46、种技能,以及对每一个内容、技能的 相对重视程度。编制命题双向细目表有以下两个用途: 在编题阶段,命题双向细目表指出应该写多少和写那些种类的题目;题目编好后可将题目的实际分布情况 与命题双向细目表对照,以确定测验题目是否恰当地代表了所要测量的领域,核对重要方面的内容是否有遗漏。 在记分时可按表中百分比确定每类题目的分数。(三)题目编制技术 所谓测题编写时将测验材料编拟成测题的形式,按照测验题目评分客观性程度可分为主观性试题和客观性试 题两大类。题目编制的一般原则:测题要反映测验的目的,并对所测量的内容有代表性; 测题适合于被试的能力水平,且能区分出不同水平的被试; 测题所提供的信息不能对答案有暗
47、示作用;测题之间互相独立,不能互相暗示;题干要简明,以一横行为宜,以免被试找不到重点; 避免双重否定的语法; 题目的叙述要简明易懂,杜绝使用晦涩的语言;题目要有唯一的正确答案;避免使用性别歧视、种族歧视和攻击性的用语,涉及社会禁忌和个人隐私的内容;一个测题测量一个内容或一个概念。七、心理测验的施测(一)测验的设计 编制一个可供使用的标准化的心理与教育测验,一般要经过以下几个步骤:确定测验目的、制定编题计划、 编辑测验项目、预测与分析、合成测验、测验标准化、鉴定测验、编写测验说明书。1. 确定测验目的 这一步主要解决3个问题: 明确测验对象,即明确测量哪些个人或团体,通常以年龄、 性别、职业、受
48、教育程度、经济状况、民族、文化背景的指标来区分测量对象,适用于不同对象的测验应该有其不同的特征。 明确测量目的,即明确测量什么心理功能,同时还要进一步把目标具体化,给出操作定义。 明确测量用途,即明确编制的测验干什么用,是用于描述受测者的心理特质,还是用于诊断心理是否异常, 是用于选拔人员,还是用于验证某个理论假设。用途不同,编制测验时的取材范围以及测题的难度也不尽相同。2. 制定编题计划编题计划是编制测验的总体构思。3. 编辑测验项目在编辑测验项目时需要解决 3 个问题: 其一,收集测验资料。其二,选择项目形式其三,编写测验项目4. 预测与项目分析 初编的测验项目是否具有适当的难度和区分度,
49、必须通过预测进行测验项目分析,以便进一步修改。 预测的目的在于获得被试对测验项目作何反应的资料。它既能提供那些题目意义不清、容易引起误解的信息,又能提供测验项目优劣的量的指标。测验项目分析就是对预测结果进行统计分析,确定项目的难度和区分度,由于预测的受测者样本小可能会存 在取样误差,由此获得的项目分析结果未必完全可 靠,所以需要对来自同一总体的两个样本施测,然后分别进 行测验项目分析,看对两个样本的分析结果是否一致。5. 合成测验 合成测验就是把经过预测以后证明有价值的项目排成有组织的测验。它要解决的问题有:测验项目的选择,测验项目的编排,编制复本。6. 测验标准化指测验的编制、施测、评分以及
50、解释测验分数的程度的一致性。测验内容的标准化: 标准化的首要前提,是对所有受测者实施相同的或等值的题目,测验内容不同,所测得的结果无法比较。施测过程的标准化: 标准化的第二个条件是所有受测者必须在相同的条件下施测,其中包括: 相同的测验情景,如统一的采光条件、统一的桌椅高度、统一的桌面面积、统一的场所布置 相同的指导语,指导语必须事先拟好,印在测验项目的前面,并且力求清晰、简单、明了,不致引起误解, 对受测者不熟悉的测题类型,应当有一至二个例题; 相同的测验时限,确定时限一般采用尝试法,即通过预测来解决。测验评分的标准化: 评分要有客观性,即两个或两个以上的评分者对同一份测验试卷的评定是一致的
51、。要求:对反应要及时清楚 地记录;要有一张标准答案或正确反应的表格,作为记分键;将受测者的反应与记分键比较,c 得的分数。测验分数的解释: 某一测验分数只有与一定的参照标准相比较,才能显现出它所代表的意义。7. 鉴定测验 对于测验的鉴定主要是确定其信度系数和效度系数与常模。8. 编写测验说明书(二)施测的程序和步骤1. 施测前的准备工作2. 指导语3. 测验情景4. 测验焦虑5. 与受测者建立良好得协调关系6. 评分技术八、测验常模(一)常模与常模团体1. 常模团体 常模团体是由具有某种共同特征的人所组成的一个群体,或是该群体的一个样本。由于个人相对等级随着有作比较的常模团体的不同而又很大的变
52、化,所以任何一个测验可能有许多常模团 体,故在制定常模时,首先确定常模团体,在做常模参照分数的解释时,也必须首先就考虑到常模团体的组成。(二)分数转换和合成1. 分数的转换(1)原始分数与导出分数原始分数:被试在接受测验后,根据测验的记分标准,对照被试的反应所计算出的测验分数。它反映了被试 答对题目的个数或作答正确的程度,但是却不能直接反映出被试之间的差异状况,不能刻画出被试相互比较后所处的地位,也不能说明被试在其他等值测验上应获得什么样的分值。导出分数:在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位,且 可以相互比较的分数。常用的导出分数有百分等级、标准分数
53、、T分数。分数的转换:按某种规则将原始分数转化为导出分数的过程即为分数转换。(2)百分等级分数百分等级是应用最广的导出分数。一个原始分数的百分等级是指在一个群体的测验分数中,得分低于这个分 数的人数的百分比。也就是说,如果将某一被试群体分为一百个等级,则每位被试所占的等级数就是百分等级。评价:优点:百分等级是一种相对位置量数,具有可比性,且具有易于计算、解释方便等优点,易于理解,较适用 于不同的对象和性质不同的测验,另外,百分等级不受原始分数分布状态的影响,即是分数分配不是正态的,也 不会改变百分等级常模的解释能力。缺点: 单位不等,尤其在分配的两个极端。如果原始分数的分配是正态或近似正态分布
54、,则靠近中央的原始分数转换成百分等级时,分数之间的差异便夸大了,对接近两极端的原始分数,百分等级反应迟钝,即使原始分数发生较大的变化,也不能引起百分等级的相应变化,使得其差异被缩小了。 百分等级只具有顺序性,而无法用它来说明不同的被试之间分数差异的数量。(3)标准分数标准分数是一种具有相等单位的量数,又称作 Z分数,它是将原始分数与团体的平均数之差除以标准差所得 的商数,是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。它是一个抽象值,不受原始测量单位的影响,并可接受进一步的统计处理。计算:Li 标准分数的计算公式为:Z:标准分数;X原始分数;:团体
55、所有被试的原始分数的平均数;S:原始分数的标准差(4)正态化的标准分数:正态化标准分数的原因:Z分数与原始分数得分布形态相同,所以只能在两个原始分数分布形态相同或相似时才能运用Z分数进行比较,否则仍然无法作直接比较分析。为了使来源于不同分布的分数进行比较,可将非正 态分布的分数强制性的扭转成正态分布。正态化标准分数的做法:首先将每个原始分数转换为百分等级,然后使用正态分布表,将对应的百分等级直 接看成是正态分布曲线下的面积值,找出所对应的Z值,这种方式所得到的分数叫做正态化的标准分数。标准分数的变式T分数的不足:由于Z分数常常带有小数和出现负值,使用起来常觉不便,也易出错,并且与日常生活中的评
56、分形式不一致, 不直观。因此产生了多种将Z分数做线性变换,使负号与小数消失,全部变为正数的转换方法。T分数的计算:1939年美国测量学家麦柯尔建议将 Z分数扩大10倍(以消除小数)再加上 50 (消除负号),为纪念推孟与 桑代克,这种转换后的分数命名为T分数。即:T=10Z+50式中,T为T分数,Z为标准分数。其他形式:按建立T分数的思想,在Z分数的基础上,进行线性变换,导出了多种不同需要的标准分数形式。其通式为: 厂二心;,式中 为由Z导出的导出分数, A B为常数。常见的变化形式有:美国大学入学考试委员会使IQ=15Z+100。用的标准分数 CEEB=100Z+500,500为平均数,100为标准差;韦氏智力测验采用的离差智商对标准分数的变式的评价:优点:具有等单位的特点,便于工作进一步的统计分析;正态分布下,可以利用正态分布表将各种导出分数 与百分等级分数做换算;正态分布下,运用某种变式分数可以将几个测验上的分数做直接的比较,即使是非正态
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025有关合伙合同协议书范本
- 2025年度高端电子产品市场定价保密合同3篇
- 二零二五年度GPS个人GPS定位手表销售与安装服务合同3篇
- 粮食行业购销合同签订流程
- 影剧院空调系统安装合同
- 二零二五年空调销售奖励制度合同范本3篇
- 学校建设挖机租赁合同
- 汽车维修师傅聘用合同
- 湖泊景观苗圃施工协议
- 投资项目合同管理
- 航空工程材料(第3版)课件 6有色金属
- 印刷厂厂长年终小结
- MOOC 工程图学-天津大学 中国大学慕课答案
- 园林景观工程关键施工技术、措施
- 谈谈微电影创作课件
- 《变革管理》课件
- 各元素离子半径
- 小学五年级数学上册寒假作业天天练30套试题(可打印)
- 地下管道三维轨迹惯性定位测量技术规程
- 特种设备锅炉日管控、周排查、月调度主要项目及内容表
- 浅谈如何提高小学生计算能力讲座课件
评论
0/150
提交评论