心理测量(小白修订版).doc_第1页
心理测量(小白修订版).doc_第2页
心理测量(小白修订版).doc_第3页
心理测量(小白修订版).doc_第4页
心理测量(小白修订版).doc_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

考研专业课大纲解析心理测量学心理测量大纲解析一、心理测量的基本理论(一)心理测量的理论基础1.心理测量的基本概念心理测量:根据一定的法则用数字对人的行为加以确定,即依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的值,是一种间接的测量。早期探索者:高尔顿:人类测量实验室 应用统计方法到对个别差异的资料中卡特尔:首次提出“心理测验”这个术语桑代克是现代教育测验运动之鼻祖心理量表的要素有:1.参照点;2.单位(单位要有意义,有价值)“心理测量”与“心理测验”的区别这两个概念在很大程度上是重叠的,但他们又存在显然的区别。心理测验是了解人心理的工具和手段,主要在名词意义上使用;而心理测量则是运用测验来了解人类心理的时间活动,主要在动词意义上使用。因此相对而言心理测量的意义范围更广一些一个心理测验必须具备以下三个要素:行为样本测验必须有特定的目标和对象,这些被测量的与心理特性有关的行为代表就称行为样本标准化测验的编制、实施、记分等过程必须是具有一致性的,这样对不同结果的比较才有意义记分原则测量必须有结果,这些结果的记录和解释规则必须是清晰明确的,以便不同人进行施测2.心理测量的特征与分类(1)心理测量的特征间接性心理属性是内在的不可直接测量到的特质,但可表现为一系列具有内在联系的外显行为,测量者可以通过一定的方法测量这些外显行为,并由这些行为判别特质的性质。相对性对人的行为进行比较,没有绝对的标准,亦即没有绝对零点,有的只是一个连续的行为序列。所有的心理测量都是看每个人处在这个序列的什么位置上,也就是只有顺序量表的特征。客观性实际上就是测验的标准化问题。测验用的项目,说明、言语、态度、评分、分数转换、解释都需要标准化。(2)心理测量的分类按所测量的对象(心理特征)分类:智力测验 能力倾向测验(即能力测验)成就测验(即学绩测验)人格测验 按接受测量的人数分类:个别测验 团体测验 按测验目的分类:描述性测验 诊断性测验预示性测验 按测验材料分类:文字测验 非文字测验(即操作性测验) 按评价所参照的标准分类:常模参照测验 目标参照测验 潜力参照测验按测验的难度和时限分类:速度测验(测反应速度)难度测验(测最高能力)按测验的要求分类:最高行为测验(要求作出最好的回答)典型行为测验(按习惯做题)按测验的性质分类:构造性测验(任务明确)投射性测验(问题模糊,如TAT)按测验的应用分类:教育测验 职业测验 临床测验各类量表所对应数据处理方法表量表类型称名量表顺序量表等距量表比率量表单位和零点无(名字)无(名次)有相等单位(温度)有相等单位,绝对零点(时间)四则运算无无加减加减乘除统计方法百分比、次数、众数、卡方检验中位数、百分位数均数、标准差、积差相关、t检验等几何平均数、变异系数*注:高级量表可运用比其低级的量表的所有统计方法进行数据处理(二)经典测量理论1.经典测量理论及其模型(1)基本定义真分数:反映被试某种心理特质真正水平的数值,这是一个在理论上构想出来的抽象概念,在实际测量中很难得到观察分数:实测到的分数,即我们希望通过改进和完善测量工具及方法的方式来使得观察分数尽量接近真分数。可测性假设:心理特质是一种客观存在,凡客观存在的事物都有其数量,凡有数量的东西都可以测量CTT数学模型: 其中X表示观察分数;T表示真分数;E表示随机误差(不包含系统误差)(10单)(2)CTT模型的三个假设公理测量误差的均值为零;即 E(X)=T或E(E)=0 ;真分数和误差分数之间的相关为零,即(T,E)=0 ;各平行测验上的误差分数之间相关为零,即(E1,E2)=0 ;平行测验:题目不同的测验测的是同一特质,且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布一致(3)CTT模型的方差关系在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和真分数变异还可以分成与测量目的有关的变异和与测量目的无关的变异这就是说,一次测验中,一个团体的实测分数之间的变异性是由与测量目的有关的变异数(SV2)、稳定但出自无关来源的变异数(SI2)和测量误差的变异数(SE2)决定的。(4)经典测量理论的局限对信度的估计精度不高,平行测验难以实现误差指标笼统单一,难以精确计算个体被试的独立误差各种参数的估计对样本抽样的依赖太大,而获得代表性样本却很困难参数指标之间的配套性较差,与被试水平参数之间关系模糊(参数与被试水平不在同参照系上)真分数与观测分数之间存在线性关系的假定不合理(5)经典测量理论的优点1.CTT以随机抽样理论为基础,建立在简单的数学模型之上,直观易懂,易于被人理解和接受,计算也简便,容易推广2.理论假设较弱,对实施条件要求不严格,适用性广,对许多测验结果都能方便分析3.多数情况下CTT还是足够精确的,测验结果是可信的。2.测量的信度与效度测量的信度(1)信度的定义信度:指测量结果的稳定性程度,若能用同一测量工具反复测量某人的同一种心理特质,则多次测量的结果间的一致性程度就叫信度。信度的三个等价操作定义:信度是一个被测团体的真分数的变异数与实得分数的变异数之比信度是一个被试团体的真分数与实得分数的相关系数的平方信度是一个测验与其任意一个平行测验的相关系数(这个定义具有实际意义)信度的作用:信度是测量过程中所存在的随机误差大小的反应信度可以用来解释个人测验分数的意义信度可以帮助进行不同测验分数的比较 (2)信度系数的估计 重测信度 重测信度:用同一个量表对同一组被试施测两次所得结果的一致性程度(主要是被试特质的稳定性问题); 计算:其大小等于同一组被试两次测验所得分数的皮尔逊积差相关系数;使用前提:所测量的心理特性必须是稳定的(难度测验无法使用重测信度)遗忘和练习的效果基本上互相抵消两次测验的间隔期内被试的特质没有变化*注:重测信度是几个信度系数中最接近信度内涵,考虑因素最全面的一个信度系数。 复本信度复本信度:两个平行的测验测量同一批被试所得结果的一致性程度(主要是测验间的等值性问题);计算:其大小亦等于两次测验分数的皮尔逊积差相关系数。前提:有条件构造出两份或以上真正平行的测验被试有条件接受两个测验*注:复本信度是最严格的一个,其值相比其它信度最低。 分半信度分半信度:将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度,也可以把对等的半测验看作是在最短时距内施测的两个平行测验。计算:先按照复本信度的方式计算出两个半测验各自的信度,然后用斯皮尔曼-布朗公式校正:(rhh两半分数间的相关系数,rxx为整个测验的信度值)若两个分半测验分数变异不等时则用弗朗那根公式:或卢伦公式:(Sa2与Sb2分别为各半的变异数;Sd2为两半测验得分之差的变异数)前提:通常在只能施测一次或没有复本的情况下使用,测验无法分半时不可用;由于将测验分半的方法很多,因此一个测验有多个分半信度值; 同质性信度同质性信度:也叫内部一致性系数; 测验内部所有题目间的一致程度这里的一致性指有两层含义:一是所有题目都测的都是同一种心理特质,二是所有题目得分之间都具有较高的正相关;测量单一特性是同质性高的必要条件,而非充分条件;反过来,同质性高才是测验的单一特性的充分条件;计算:KR20公式:,为题目数,为答对答错题的比例,Sx为总分数的变异;(仅适用于0,1记分) 克龙巴赫系数: ,表示所有被试在题上的分数变异;注意:只是测验信度的下界的一个估计值,即值大,必有较高的信度;但值小,却不能断定信度不高;(不要求测验题目只是0,1记分,可以处理任何测验的内部一致性系数的计算问题) 荷伊特信度: 评分者信度评分者信度:多个评分者给同一批人的答卷进行评分的一致性程度计算:评分者为2用积差相关或等级相关,大于2用肯德尔和谐系数进行估计 (3)信度的影响因素与改进(07、11简答)信度的影响因素:(随机误差大,信度就低,随机误差小,信度就高)1.被试方面:单个被试而言:被试的身心健康状态,应试动机,耐心等会影响测量误差; 被试团体而言:被试团体异质时,全体被试的总分分布必然较广,以相关计算出来的信度就必然会大;(,分数的分布越广,分母越大,从而越大)2.主试方面:主试不按照指导手册中的规定施测,故意制造紧张气氛,则会使信度大大降低;3.施测情境方面:考场是否安静,光线,通风情况都可能影响信度;4.测量工具方面:试题的取样,试题之间的同质性程度,试题的难度(难度也会造成分布形态的问题,因此不能太难或太易)等是影响测验稳定性的主要因素;5.两次施测的时间间隔:时间间隔越短,其信度越大,时间间隔越长,信度可能越小;提高信度的方法:适当增加测验的长度:(K表示扩大的倍数,为现测验信度)可将公式转化记忆:新增题目必须与试卷中原有题目同质,数量必须适度(报酬递减规律)使测验中试题的难度接近正态分布,并控制在中等水平提高测验试题的区分度 选取恰当的被试团体,提高在同质性较强的亚团体上的信度 主试严格执行实测规程,评分者严格按标准给分,实测场地按测验手册要求进行布置,减少无关因素的干扰(社会敏感度高效度必须高,不同测验信度要求不同。几个例子见课本)注:目标参照测验的信度必须以概化理论为基础才能较好处理,详见对应章节。测量的效度(1)效度的定义效度:指一个测验能否测出其所要测量的心理特质和测量到这种特质的程度。使用效度时应注意:(1)效度是一个相对的概念,这种相对性表现在两个方面效度是相对于一定的测量目的而言的;心理测量不可能达到100%的准确,只能达到某种程度上的准确;而由于任何量表的编制都有目的,正常情况下效度也不会为0。 (2)效度是测量的随机误差与系统误差的综合反映; (3)判断一个测量是否有效要从多方面收集证据;效度=r2xy =S2v/S2x;其中,r2xy为效度系数;S2v代表有效变异数,S2x代表总变异数;效度的操作定义:效度是总变异中由所测量的特性造成的变异所占的百分比; (2)效度的估计 内容效度内容效度:一个测验实际测到的内容与所要测量的内容之间的吻合程度;其中所测量的内容包括:欲测的知识范围以及该范围内各知识点所要掌握的程度两方面;(注意区别表面效度:外行人看来的测验的题目与测验目的的相符程度,基本上不能算是一种效度;最佳行为测验往往表面效度高,其他测验则希望表面效度低)确定方法:主要是逻辑分析法,即请专家对测验项目与原定内容范围的吻合程度做出判断适用范围:内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验,而不适合能力和人格测验明确欲测内容的范围,包括知识范围和能力要求两个方面(双向细目表)确定每个题目所测得内容,并与测验编制者所列的双向细目表对照制定评定表,考察题目对内容的覆盖率及其比例和内容的适当性并判断题目难度与能力要求间差异统计法(克隆巴赫提出):从同一内容中抽两套平行测验对一批被试测验,两次相关高说明有较高效度(除非两个测验偏向同一方面);也可以用再测法,通过后测成绩与前测成绩比较,如果后测成绩显著优于前测成绩,说明所测内容正是被试新近学习的内容; 结构效度结构效度:测验能说明心理学上的理论结构或特质的程度,或用心理学上某种结构或特质来解释测验分数的恰当程度结构指用来解释人类行为的理论框架或心理特质,是心理学中抽象的假设性概念、特性或变量。特点:结构效度的大小首先取决于实现假定的心理特质理论,因此结构效度的结果有些不能比较当实际测量的资料无法证实我们的理论假设时,不一定表明该测验结构效度不高结构效度是通过对测量内容的选择的证据累计起来确定的,不是靠单一数量指标描述的确定方法:提出理论假设,并把假设分解成一些细小的纲目依据理论框架,推演出有关测验成绩的假设用逻辑的和实证的方法来验证假设应用范围:主要用于智力测验、人格测验等估计方法:从测验内部寻找证据,先考察测验的内容效度;其次分析被试的答题过程;再次,计算同质性信度来检验结构效度,当然测验同质只是结构效度高的必要条件;在测验间寻找,相容效度法(将新编测验与已知有效的测验比较);区分效度法(考察新编制测验与某个已知能有效测量与新测验不同特质的旧测验的相关)以及因素分析法(通过对一组测验进行因素分析,找出影响测验的共同因素)考察测验的实证效度:有两种做法,一种是根据效标把人分为两类,考察其得分的差异;另一种是根据测验的得分把人分为高分组和低分组,考察这两组人在所测特质方面是否确有差异;多种特质多种方法矩阵法(多种极不相同的方法测量同一特质相关很高说明效度较高); 实证效度实证效度(效标效度):一个测验对处于特定情景中的个体的行为进行估计的有效性,即以实践效果作为检验有效性的标准被估计的行为是检验测验效度的标准,简称效标,根据效标资料搜集的时间差异,实证效度可分为同时效度(效标与测验分数同时收集,诊断现状)和预测效度(效标在测验后据工作成绩确定,预测某个个体未来的行为)两种。*效标选择的要求:有效、可靠、客观、实用估计方法:相关法计算测验分数与效标测量(如高考分数)的相关系数区分法被试接受测验后,让他们工作一段时间,再根据工作成绩的好坏分成两组。这时再回过头来分析这两组被试原先分数的差异,若两组人测验分数差异显著,则说明测验效度较高命中率有两种:总命中率是指选出的合格人数与不合格人数在总数中的比例;正命中率是指用测验选出的人中在后续工作中合格者所占的比例,比例越高测验越有效(3)效度的影响因素与改进影响因素:1.测验的构成:一般而言,增加测验长度可以提高信度,从而为提高效度提供了可能(测验长度与效度的公式) 、其中是测验增长至原来的K倍后,新测验与效标的相关;K为增长的倍数; 为原测验的效度;为原测验的信度;)2.测验的实施过程:实测过程如不按标准化进行或出现意外,则效度降低3.被试情况:被试状态会造成随机误差从而影响效度;团体被试若缺乏必要的同质性(比如测老人智力混进几个年轻的),则很可能得到不恰当的效度资料。 测验偏倚:不适当的测验施测在不适当的人群上所产生的偏差。4.所选效标的性质:效标与测验分数间必须符合线性关系,否则皮尔逊积差相关计算将得出错误结论,而采用不同效标所导致的效度差异也应重视。5.测量的信度:信度高是效度高的必要条件提高方法:精心编制测验量表,避免出现较大的系统误差妥善组织测验,控制随机误差创设标准的应试情景,让每个被试都能发挥正常的水平选择正确的效标、定好恰当的效标测量,正确地使用有关公式;信度和效度的关系根据公式,可以得到信度与效度的关系如下:信度高是效度高的必要而非充分条件信度系数的平方根是效度系数的最高上限3.心理测量的误差(1)测量误差的定义测量误差:在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应;心理测量的误差包括以下两种:随机误差:由与测量目的无关的、偶然因素引起的、而又不易控制的误差,它使多次测量产生不一致的结果,其方向和大小的变化完全是随机的,只符合某种统计规律。系统误差:由与测量目的无关的变量引起的一种恒定而又规律的效应,这种误差稳定的存在与每次测量之中,尽管多次测量结果一致,但仍与真实值有所差异。系统误差只与效度有关,随机误差与效度、信度都有关(08单选)测量的随机误差来源及控制(1)来源测试环境温度、光线、噪音等测试时间时间安排不统一,或测试时间过短主试因素年龄、性别、穿着、言谈举止、表情等,主试的数量过多也会造成压力意外干扰停电、巨响、有人生病、作弊、测验用品出问题、粮食涨价、火星人入侵评分计分主观题评分不客观,有个人偏好(2)控制测验准备尽可能充分细致,实测个方面尽量标准化;测量的系统误差来源及控制(1)来源测验难度过高或过低测验内容选题不当、题数太少、模棱两可、表述不清被试因素应试动机变化、测验焦虑、测试经验、学习与发展、反应倾向、生理因素(2)控制题目编制认真用心,标准化测量误差的估计(10单选)实际应用中,我们常用两次团体测验得出差异分布的标准差数据计算测量标准误对误差进行估计测量标准误:某一测验中体现测验分数分布的标准差,亦即个体随机误差变异的程度。公式为:,由此,只要知道测验分数分布的标准差和测验的信度系数,就可对个体测验分数做进一步的区间估计4.心理测量的项目分析(2)题目的难度(2!)(1)难度的定义难度:测验项目的难易程度,一个测验项目,如果大部分被试都能答对,则该项目的难度就小,反之亦然测验的记分方法不同,项目难度的计算方法也不同。(2)计算 二分法记分项目的难度以通过率来表示(注:这里通过率的概念和我们通常理解的难度相反)其中代表项目难度;为全体被试数;为答对通过该项目的人数当被试人数较多时,将被试依照测验总分从高到低排列,用总分最高的27%作为高分组,总分最低的27%作为低分组其中和分别代表高分组合低分组的通过率 非二分法记分项目(主观题)的难度其中为被试在某项目上的平均分;为该项目的满分(3)难度水平的确定进行难度分析的主要目的是为了筛选项目,项目的难度水平需要多高,取决于测验的目的及性质:水平考试:目的在于了解被试某方面知识技能的掌握情况,不必过多考虑难度,认为重要的内容都可选用,甚至极高极低通过率的题选拔考试:目的在于选拔并录用人员,项目难度易控制在录取率左右,即较多地采用那些难度值接近录取率的项目(4)难度的等距变换普通难度指数是顺序变量,无法指出难度之间差异的大小,我们设法将其转变为等距量数:根据正态分布曲线将难度P作为正态曲线下的面积,转换成Z分数为避免小数和负值,再用公式进行变换等距量表(5)难度对测验的影响难度过大,分数集中在低分端,呈正偏态分布;难度过小,分数普遍较高,集中在高分端,呈负偏态分布;过难或过易题目的存在都会使得测验分数相对集中,造成分数全距缩小题目的区分度(1)区分度的定义区分度:测验项目对被试心理品质水平差异的区分能力,具有良好区分度的项目,能将不同水平的被试区分开来,反之则不能。评价测验项目区分度高低依赖于被试水平的测量,称作效标分数。区分度多用测验总分作为效标,亦称为内部效标。(2)计算 鉴别指数法适合于二分法记分的项目其中和分别代表高分组合低分组的通过率(从分数分布的两端各取27%的被试,若选出来的被试两组过于极端,会人为夸大区分度)注意:当项目和效标之间不呈直线线性关系时,使用极端分组法就会丧失很多有用的信息。当分布为正态分布时,27%的区分很有效,但当效标分布较正态分布平坦时,比率应在33%左右;而当样本太小时,则只能将其分为两半,以50%为界。样本量太小,统计值便越不可靠,被试团体同质性越大,区分度值就越小,区分度也是相对于不同被试团体而言的。 常用的区分度判断标准:D 0.4 很好D 0.3-0.39 良好,修改会更好D 0.2-0.29 尚可,仍需修改D 0.19以下 差,必须淘汰注:-1D1,负值称消极区分,当效标与项目间不呈线性关系时不可用 相关法以项目分数与效标分数或测验总分的相关作为项目区分度的指标常用的有:点二列相关二分变量、二列相关及格不及格、相关高分组低分组or通过未通过、积差相关论文式题目专用;(3)题目的综合分析和筛选难度越接近0.5,项目潜在区分度越大,因此整个测验的难度平均应保持在0.5左右测验中各项目之间有一定相关,为使成绩分布均匀,项目难度的应广一些,梯度大一些,最好呈正态分布每项题目理想的区分度都应在0.3以上,至少是0.2(4)区分度与难度的关系 难度和区分度都是相对的,是针对一定团体而言的,绝对的难度和区分度是不存在的。一般来说,较难的项目对高水平被试区分度高,较易项目对水平低的被试区分度高。由于人的多数心理特性呈常态分布,因此特别难与特别容易的题目应较少,中等难度的题目应较多,使难度分布广一些,梯度大一些,使整个难度分布呈正态分布,且所有项目平均难度最好应为0.5。(5)区分度的相对性不同的计算方法所得的区分值不同;样本容量大小影响相关法区分度的大小;分组标准影响鉴别力指数值;被试样本的同质性程度影响区分度值的大小。题目的综合分析和筛选(1)根据难度挑选项目一般要求项目难度位于0.20.8之间,而所有题目的平均难度则应在0.5左右。而当测验是为了选拔少数能力高的被试时,项目难度就应大些,当筛选少数不合格的被试时,测验就应容易些(2)根据区分度挑选项目根据测量学家伊贝尔的判断标准,鉴别度在0.30以上就比较理想,但有些区分度在0.20.3之间的项目若能很好地体现测验目的,也可酌情保留(3)对选项反应模式的分析如果正确的备选答案被所有受测者所选择,说明该项目太容易或者是项目中提供了某种暗示若某个错误答案没有任何被试选择,则说明该选项不具有迷惑性。一般说来,除非有20%以上的人选择,否则该备选答案应该修改或删掉如果所有被试都选择了同一个错误答案,可能是编制测验时把答案搞错了,也可能是在教学中发生了错误如果高分组被试的选择集中在两个答案上,两者选择率相近,则该题可能本来就有两种正确答案,或者在某种意义上另一个也有道理如果高分组对正确答案的选择率与低分组相等或低于后者,说明该题所考察的东西与被试水平无关,即不具有鉴别力,此题应删除或作修改如果一个题目未作答的人数较多(速度性测验除外),或者选择几个备选答案的人数基本相等,说明该项目可能过难或题意不清,被试无法作答或仅凭猜测作答。(三)项目反应理论1.单维性假设与项目特征曲线(1)项目反应理论概述潜在特质:被试某种相对稳定的、支配其对相应的测验项目做出反应,并对反应表现出一致性的内在特征,由于不能被直接观察到,因此称为潜在特质。项目反应理论:建立在潜在特质论的基础上,其研究的主要内容就是被试在测验项目上的反应行为与测验所测的被试潜在特质之间的关系。项目反应理论认为,个体的某个潜在特质与测量该特质的项目反应之间存在函数关系,随着潜在特质的提高,正确反应该项目的概率P()也会提高。理论中用项目特征曲线来反应存在的函数关系,从这一曲线上能看出各种参数指标。项目难度值b即为正确反应概率P()为0.5时所对应的潜在特质值,而项目区分度则为曲线在b处的切线斜率的函数。b点处常是曲线的拐点,也是曲线的中心对称点,曲线在此处越陡峭,值越大,意味着潜在特质在b值附近稍有变化,则在该题目上正确做对的概率差别就很大。参数C为伪机遇水平参数,C值就是实际测验中被试纯凭机遇作答而成功的概率。高质量的题目应有较小的C值。项目反应理论的优点:题目参数的跨群体不变性(题目的特征函数是固定的)潜在特质量表的可选择性(为测验等值提供了理论基础)参数设计的科学性(难度与定义在同一参照系上,区分度与b独立,可得到被试猜测的概率)信息函数概念的引进与信息函数的可加性(可加合成整个测验的信息函数,一个测验的信息函数越大,其标准误就越小)项目反应理论在心理与教育科学的研究中主要应用于测验中的项目分析、成绩评估量表的设计、态度问卷的设计、题库的设计等。(2)单维性假设单维性假设是指测验能够只测量被试的某一种能力(如计算能力),而可以忽略其他能力对测验结果的影响(如阅读能力)。(3)项目特征曲线项目特征曲线(ICC)是指用能稳定反映被试水平的潜在特质变量替代卷面总分作为回归曲线的自变量的曲线,记作P()。用来拟合项目特征曲线的函数,称为项目特征函数(ICF)。项目特征曲线具有以下形态特点:人的潜在特质量表应该是定义在正负无穷的区域内的;被试在试题上正确作答的概率,记为P(),无论其处于什么特质水平上,取值都在0,1内如果试题的测验质量较好,则被试正确作答概率应随被试特质水平的提高而提高。2.单参数模型、双参数模型和三参数模型(1)项目反应模型确定了项目特征曲线的形态之后,要给项目特征曲线配上函数解析式项目特征函数,亦即项目反应模型,一个优良的模型除了要能拟合所确认的项目特征曲线的形态,还应该包括以下特征:首先,这个模型必须假设:被试在一个测验上的行为完全一句被试在潜在特质空间各特质分量上的地位来解释与预测,与其他任何因素无关;其次,这个项目反应模型能揭示被试行为与相关心理特质之间的真实关系;第三,一个成功的项目反应模型应该提供测验被试估计特质分数的方法,即必须用数学解析式揭示被试行为与特质分数之间的关系,而且这种解析式是能够被参数化,能够被数学方法处理的;第四,被试的特质分数必须由且也只能由被试在一组测验项目上的行为来估计。(2)Logistic模型(简单说其实就是用log函数去对数据进行拟合)单参数模型(1PLM)只有“难度”一个参数(通常以符号b表示)。项目特征曲线上答对试题概率50%的一点便是曲线的拐点,即P()= 0.50,其横轴坐标即为=b。理论上,难度的范围从负无限大到正无限大,就logit值换算的概率而言:+5logit = 99%,+3logit = 95%,-5logit = 1%,-3logit = 5%.因此一般设定范围-3, +3,较大样本设定为-5, +5。由于单参数模型只有难度变化影响到曲线的位置,因此外形都相同。双参数模型(2PLM)除“难度”外增加了“鉴别度”参数,也就是项目特征曲线上的点的切线斜率(通常以表示)。鉴别度表示被试在能力量尺上的位置。项目特征曲线中间部分越陡峻,该试题便越具有鉴别力,因为在陡峭的曲线中,横轴上的数值只要改变一点就会引起纵轴数值的大幅度变化。理论上鉴别度范围从负无限大到正无限大,而实际应用时,理想的鉴别度约在+0.50, +2.00。三参数模型(3PLM)为“难度”、“鉴别度”和“猜测度”三个参数。三参数项目特征曲线在低能力一端如果出现非0的渐进线,其与Y轴交点即为猜测度(通常以c表示)。它代表猜对试题的随机概率,不因被试能力不同而变化,其理论值范围是0, 1。认知测验因为考虑“猜测”因素,因此比较偏好三参数模型,估计时,如果是是非题,则猜测度的其实估计值定为0.5。3.项目信息函数与测验信息函数项目信息函数反映了不同特性(参数)的项目在评价不同被试特质水平时的信息贡献关系。项目信息量的大小由项目参数和被试特质水平决定。项目提供的信息量越大,表明这个项目在评价此被试特质水平时越有价值。测验信息函数则是项目信息函数的累加和。测验信息函数反应了整个测验在评价不同被试特质水平时的信息贡献关系。测验提供的信息量越大,则该测验在评价被试特质水平时越精确。测验和项目信息函数有如下重要性质:每个项目所提供的信息量是它所测被试特质水平的函数,因而项目及测验信息函数值均是针对某一被试特质水平来说的,随被试特质水平取值的不同而变化;每个项目在某一特质水平处能提供的信息量还受项目自身特性的影响:鉴别度越大、猜测度越小,所能提供的信息量越多;每个项目所提供的信息不受其他项目的影响,测验中各项目均独立地对测验总信息作贡献,项目信息函数具有可加性,测验信息函数等于全部项目信息函数的累加;测验信息函数在某一特质水平上的值的平方根的倒数,就是该点特质水平估计值的估计标准误。求出了测验信息函数值,就可以确定估计标准误SE()。当测验信息函数增加时,估计标准误随之减少,但很快趋于稳定。估计标准误SE()的大小具体说受三个方面的影响:测验所含项目的个数:越多就有可能越小;测验项目的质量:鉴别度越大、C越小则会越小;测验项目难度跟被试水平的对比关系:被试水平略高于难度时,测验所提供的信息量最大,太难或太易,信息量都会小。(四)概化理论1.方差分量的估计(1)概化理论的基本概念概化理论的基本思想:任何测量都是依赖于特定的测验情景关系的,测验情景关系中的测量目标、测量侧面、测量侧面的水平都是会变化的,它们的变化会引起测验误差的来源、测验误差的大小、真分数的种类以及测验信度的变化,同时测验分数的解释范围也发生变化,由此测验编制者可以通过将测量值的总方差分解成各个方差分量,考察测量情境关系下各种测量条件的影响,从而就可以有针对性地来控制和提高测量精度。测量情境关系是概化理论的一个核心概念,它是测量目标与测量工作所处的情境条件亦即测量侧面的统一结合(即“测什么”和“怎么测”的统一)。它决定和制约着什么是目标什么是侧面,同时又由测量的社会目的与功用所决定。测量目标:测量者希望通过测量用测量数据描绘的那些实体测量侧面:某个方面的一组测量条件,也就是除测量目标自身方差以外其余误差的各种不同来源。一个侧面可以有不同水平。 随机侧面:某一测量侧面的所有水平是该侧面可能的全部水平的一个随机样本,这样的侧面就叫随机侧面 固定侧面:如果侧面实有的水平都是严格相同的几个水平,这样的侧面就叫固定侧面,亦即经典测量理论中的标准化。测量侧面被固定也就是被标准化后,它就称为了测量目标的一个部分。在测量中,测量侧面被固定得越多,其信度、效度也就越高,但是,一旦所有侧面均被固定,测量误差没有了,测量也就失去了实际意义。当所有的测量条件都被标准化,所有的测量侧面被固定,那么,所有误差来源就都被控制,没有误差可言。测验也就仅能实测一次,同时也无使用价值可言。因此,从概化理论看来,在实际测量工作中,至少有一个测量侧面是随机的。与CTT相比,概化理论也认为测量要测查的被试均抽样来自某一总体,但却不假设一定来自正态总体。同时,测量总是要处于一定的情境条件下的,因而总是有一定个数的测量侧面存在,测量工作中可能存在着的测量侧面的全体,就构成了测量侧面的全域。就每一个侧面而言,还会存在许多水平,某侧面可能存在的水平的全体,也称为全域。注意“全域”是针对侧面而言的,而“总体”只对被试而言。 (2)交叉设计与嵌套设计在交叉设计中,所有测量目标要在侧面的被选用的所有水平下进行测量。因此,交叉设计可以取得很丰富的信息。(组内)例如要测验学生的作文能力,交叉设计就要求所有学生都完成所有的作文测验,而所有作文的每一篇都要由所有教师进行评阅,详见右图:如图,双侧面交叉设计中收集到的测量分数,其总变异可以分解成七个方差分量。其中三个是被试(S)、项目(I)和阅卷者(R)所带来的主效应;还有三个是双向交互作用方差,即2SI(被试与项目的交)、2SR(被试与阅卷者的交)、2IR(项目与阅卷者的交);另有一个三向交互作用方差,即2SIR。其中,只有被试方差2S是真方差,其余六个方差则是产生自各种来源的方差分量。 在嵌套设计中,测量目标是处在一个或多个侧面的某些而非所有被选用的水平下进行测量。与交叉设计相比,嵌套设计所获信息更少(组间)。例如一批学生参加演讲比赛,由四位评委给分。其中一部分学生是由评委A和评委B给分,而另一部分由评委C和评委D给分,即评委嵌套于学生侧面之中,记作:R:S。其中“:”代表“嵌套”。其设计如右图所示:嵌套设计中,无法把阅卷者的主效应从被试和阅卷者的交互作用中划分出来。因此,总变异就只能分解成两个方差分量,即:被试方差2S和混合误差方差2R:S(单侧面的嵌套设计类似于实验中的混合设计,嵌套的侧面类似于组间变量,而交叉设计基本上就是被试内设计了)(3)概化理论对CTT的突破与发展第一、在理论观念上,提出了测量情境关系概念,并由此出发来界定与考察真分数、测量误差及其来源的问题,改变了真分数固定不变,测量误差只是个含混不清的随机误差,求测验新都就是计算相关系数等传统做法。第二、工作方法上,提出了“G研究”加“D研究”两步走,以便“拓广”与“概括化”误差控制认识成果这样一个工作框架。2.概化系数与可靠性指数在D研究中,将会得出两个比较优劣的误差指标:相对误差方差是所有与测量目标有关的交互效应方差之和,记作,用于常模参照测验编制.绝对误差方差是除开测量目标效应方差之外的所有方差之和,记作,用于目标参照测验编制中。进一步研究可以将两个误差指标进行运算,得出两个综合的信度指标:一个是衡量常模参照测验质量的概化系数,即G系数;另一个则是衡量目标参照测验质量的可靠性系数,即系数。G系数是测量目标效应方差与测量目标效应方差加相对误差方差之和的比,是对常模参照测验的信度的度量。系数是测量目标效应方差与总效应方差之比,是对目标参照测验的信度和效度两种程度的度量。3.G研究与D研究概化理论的统计分析分为两个阶段,即G研究和D研究。注意:1.应用者必须保证样本数据的代表性;2.测验侧面不宜过多(1)G研究G研究就是在一定的测量情境条件下,进行收集资料的设计,并实际进行试验性测试,以获得实测数据,求出各种方差分量的阶段。其目的是要定量估计观察领域中测量目标的方差以及各测量侧面所产生的测量误差方差。从统计角度说就是要分解观察数据总体方差,估计各因素期望方差,采用的方法是方差分量分析法,把总体方差分解为测量目标主效应方差、测量侧面主效应方差、各种交互效应方差。G研究的主要任务是估计出各方差的估计量,这种估计量反应了可能存在而又可实际观察的全域中,这些估计量具有一定的估计标准误。要使估计标准误缩小,就应在试验性测试中,使所用的各侧面的随机样本容量尽可能大。观察领域:研究者设计的测验情景关系及用一定方法采集的测验数据(2)D研究D研究称作决策研究,其目的是利用G研究的结果数据,在原设计的测验情况关系范围之内,分析比较各种可能的测验方案,测验工作者可以根据分析结果,结合可能的实施条件,尽可能提高测量信度,改进测量效度,进而优选实际测验方案。D研究最终提供各种测验方案下的测验误差估计值。概化理论研究分析的全过程示意图测量目标测量侧面测量设计收集数据方差分析及方差分量估计D研究情形ID研究情形II真方差及误差方差真方差及误差方差概化系数或 可靠性系数概化系数或 可靠性系数改进措施及决策结果二、心理测验及其应用(一)心理测量的编制技术1.心理测验编制的基本程序(1)确定测验目的:明确测量对象(测哪些个体或团体);确定测量目标(是测什么心理功能,是能力,人格还是其他);明确测量用途(是描述性的,还是诊断性的);(2)制定编题计划(即测验目标与命题双向细目表):制定编题计划时要明确的信息有两个:第一,全面而具有代表性的测验内容,不致使测题偏离了应测量的范围;第二,对各个内容点的相对重视程度,通常用百分比来表示;编题计划作用:明确指明了应该编写哪些方面的测验项目以及编多少个项目;在计分时,可按计划中百分比确定每类测验项目的分数标准;(3)编辑测验项目(题目编制技术):收集测验资料(丰富,具有普遍性,有趣味性);测验项目形式(考概念,原理用简答题,考察综合运用知识,论文题等);编写测验项目:编写的测验项目应对所预测的心理品质具有代表性; 取材范围与编题计划中所列范围相一致; 测验项目应具有一定的难度分布范围; 测验项目的初编数量应大于最终所需数量,以便于筛选与编制复本; 测验项目的说明要简洁; 编写测验项目的用于应浅显明了;(4)预测与项目分析:用小样本先进行试测,对预测结果进行分析从而筛选题目 预测:目的在于或的被试对测验做何反映的资料注意的问题:测验的被试样本应取自正式施测的总体; 预测时的情景应与正式测验的情境一致; 测试的时间可以适当延长,以便使被试能将所有试题答完; 对被试的反应应加以记录;(5)合成测验:测验项目的选择:测验的性质,选择那些能够测量所要测量的东西的项目;测验项目的难度,选拔性的要求难度大些,考察性的难度不可太高,人格测验不要求有难度;测验的区分度,越高越好;测验项目的编排:总体编排原则是,先易后难,避免被试在难题上耽误时间,以影响后面的答题过程,在测验最后可以有少量难度较大的题目,以测出被试的最高水平。项目的编排方式有:并列直进式;混合螺旋式;编制测验复本(6)测验的标准化:测验内容标准化;施测过程标准化;测验评分标准化;测验分数的解释标准化;(7)鉴定测验:信度、效度、测验量表及常模;(8)编写测验说明书:向使用者说明如何使用以保证信效度2.测验目标与命题双向细目表测验目标:指所编测验是用来测量什么心理变量或行为特征的。测验目标必须有操作定义,即目标要非常具体双向细目表:测验编制过程中的重要依据,相当于编题的计划清单,是包括两个维度的表格指出测验所包含的内容与要测定的各种技能,以及对每一个内容和技能的相对重要程度。双向细目表可以使命题工作避免盲目性而具有计划性;使命题者明确测验的目标,把握试题的比重和分量,提高命题的效率和质量。同时还对审查试题的效度和覆盖面也有重要指导意义。3.题目编制技术 题目编制的一般原则如下: (1)测试题要反映测验目的,并对所测量内容有代表性(2)测试题要适合被试水平,且能区分出不同水平的被试(3)测试题所提供的信息不能对答案有暗示作用(4)题目之间相互独立,不能互相暗示(5)题干简明,重点突出(6)题目的叙述要简明易懂,杜绝晦涩语言语法(7)题目尽量有唯一且没有争议的正确答案(8)避免使用歧视和攻击性用于及设计禁忌和个人隐私或带有社会评价色彩的内容(9)一个测试题测量一个内容或概念(10)测题数目比正式题目要多一倍,便于筛选4.测验标准化测验的标准化是指对影响测验目的的无关变量的控制过程,具体包括四个方面:(1)内容标准化有两层含义:其一,测验题目必须能测量所要测量的目标,题目内容应是总体的代表性取样;其二,对所有的被试必须实施相同的或等值的测验。(2)施测标准化是指让所有的被试都在相同的情绪条件下接受测验,产生真是的行为反应。这就要求施测时必须有统一的指导语和统一的时间限制。(3)评分标准化是指评分的客观性。客观性意味着在两个或两个以上的受过训练的评分者之间有一致性。如对主观试题的评分,要有标准答案和评分细则,使评分有客观依据,不同评分者间一致性需达到90%以上。(4)建立常模是为了能标准化地解释测验分数,常模分数是使用测验的人用来解释被试分数的唯一依据。个人的分数只有在和常模分数作比较中,才能显示出它所代表的真正意义。常模的编制见下文。5.测验等值技术(1)定义测验等值:通过对考核同一心理品质的多个测验形式做出测量分数系统转换,使得这些不同测验形式的测验分数之间有可比性注:测验分数等值与项目参数等值只有在项目反应理论的指导下才可进行。测验等值与导出分数之间的差异等值转换的目的是为了比较两个不同测验形式之间的实测分数,是两个或多个不同测验系统的转换;而导出分数转换是为了将一个实测分数转换到一个可评价个体相对位置的分数系统上去,是一个测验形式不同分数系统的转换。测验等值关系与两测验之间的预测关系也不同测验等值关系是测验同一种心理品质的多个不同测验、测验分数之间的转换关系,各个测验之间处于平等地位;而预测关系是从预测源的测试出发来预估预测目标的水平,预测源与预测目标之间的关系是不平等的(2)测验等值的条件同质性被等值的不同测验形式所测的必须是同一种心理品质且内容与范围基本相同等信度被等值的不同测验形式必须有相等的测验信度公平性考生参加被等值的不同测验形式中的任一个测试,等值后的结果都是一样的可递推性测验X与测验Y之间的等值关系以及测验Y与测验Z之间的等值关系,可以递推出测验X与测验Z之间的等值关系。对称性从等值的两个测验中的任何一个出发,得到的等值结果都应该是相等的样本不变性两测验的转换关系是内在的,不随所使用样本的变化而变化注:实际研究中,可能会有个别条件得不到满足,但可以用一些方法进行补救,但严格讲这已经不能算等值了,只能叫“测验校准”。(3)计算方法等百分位等值:如果两个分数对于任何一个被试群体都有相同的百分等级,那么这两个分数就被认为是等值的。具体操作是寻找与x分数有相等百分等级的y分数。线性等值:如果两个分数在各自的群体内标准分数相等,这两个分数被认为是等值的 改写成: y=Ax+B 其中 ,A和B被称为等值常数。等值结果的表示方法:1.表列法;2.公式法;3.图示法(4)一些基本概念水平等值:被等值的测验难度水平大体相当,受测团体的能力分布也相似垂直等值:被等值的测验难度水平有明显差异,受测团体的能力水平也不同测验分数等值:各测验间原始分数的等值项目参数等值:各测验间项目参数的等值(只有在项目反应理论指导下才能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论