戴海崎旧版 心理与教育测量1-3课件_第1页
戴海崎旧版 心理与教育测量1-3课件_第2页
戴海崎旧版 心理与教育测量1-3课件_第3页
戴海崎旧版 心理与教育测量1-3课件_第4页
戴海崎旧版 心理与教育测量1-3课件_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第三章经典测验理论的基本假设经典测验理论的基本假设2第一节 心理特质及其可测性假设 心理特质心理特质表现在一个人身上所特有的相对稳定的行为方式表现在一个人身上所特有的相对稳定的行为方式 一组内部相关的行为的概括,如善良、聪明;一组内部相关的行为的概括,如善良、聪明; 比较稳定,对不同的刺激做相同的反应;比较稳定,对不同的刺激做相同的反应; 特质可以分为多个层次,智力可以分语言和操作,语言可以分为词汇特质可以分为多个层次,智力可以分语言和操作,语言可以分为词汇和文法。和文法。 通过特质可以对人的行为作出预测;通过特质可以对人的行为作出预测; 心理特质的可测性心理特质的可测性 Thorndike

2、“Thorndike“凡客观存在的事物都有其数量。凡客观存在的事物都有其数量。” McCall“McCall“凡有数量的东西都可以测量。凡有数量的东西都可以测量。”3第二节 测量误差及其来源 测量误差测量误差 在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应或不一致的测量效应 种类种类 系统误差:由与测量目的无关的变因引起的一种恒定而有规律的效应系统误差:由与测量目的无关的变因引起的一种恒定而有规律的效应 随机误差:由与测量目的无关的、偶然因素引起而又不易控制的误差随机误差:由与测量目的无关的、偶然因素引

3、起而又不易控制的误差4 测量误差的来源测量误差的来源 测量工具测量工具 题目取样题目取样 指导语指导语 难度难度 时限时限 测验复本不等值测验复本不等值 被测对象被测对象 测验的经验测验的经验 练习因素练习因素 应试动机应试动机 测验焦虑测验焦虑 生理因素生理因素5 施测过程施测过程 物理环境物理环境 主试者方面主试者方面 意外干扰意外干扰 评分计分评分计分6第三节 真分数及其有关的假设 真分数的含义真分数的含义 真分数(真分数(True ScoreTrue Score,T T分数)反映被试某种心理特质真正水平的那分数)反映被试某种心理特质真正水平的那个数值,一个测量工具在没有测量误差时,所得

4、到的纯正值。个数值,一个测量工具在没有测量误差时,所得到的纯正值。 操作定义:经过无数次测量所得到的平均值。操作定义:经过无数次测量所得到的平均值。 观测分数(观测分数(Observed ScoreObserved Score)实测分数)实测分数7 二、数学模型及其假设二、数学模型及其假设 X X = = T T + + E E 观测分数观测分数= =真分数真分数+ +随机误差随机误差8 测量误差的假设:测量误差的假设: 1 1. . 如果一个人的某种心理特质可以用如果一个人的某种心理特质可以用平行平行的测验的测验反复测量足够多次,则其观测分数的反复测量足够多次,则其观测分数的平均值会接近于真

5、分数。平均值会接近于真分数。 即即 (X X)= = T T 或或 (E E)= 0= 09 2. 2. 真分数和误差分数之间的相关为零。真分数和误差分数之间的相关为零。 即即 (T T,E E)= 0= 010 3. 3. 各平行测验上的误差分数之间的相关各平行测验上的误差分数之间的相关为零。为零。 即即 (E E1 1,E E2 2)= 0= 011 第第2.32.3条假设意在说明条假设意在说明E E是一个随机误差,没有是一个随机误差,没有包含系统误差在内,包含系统误差在内, 第第1 1条假设则在于说明条假设则在于说明E E是个服从均值为零的是个服从均值为零的正态分布的随机变量。正态分布的

6、随机变量。12 对于经典真分数理论(对于经典真分数理论(CTTCTT)的理解:)的理解: (1 1)在问题的研究范围之内,反应个体某种心理特质水平)在问题的研究范围之内,反应个体某种心理特质水平的真分数是假定不会变的,测量的任务就是估计这一真分数的的真分数是假定不会变的,测量的任务就是估计这一真分数的大小。大小。 (2 2)观测分数被假定等于真分数与误差分数之和,即假定)观测分数被假定等于真分数与误差分数之和,即假定观测分数与真分数之间是线性关系,而不是其他关系。观测分数与真分数之间是线性关系,而不是其他关系。 (3 3)测量误差是完全随机的,并服从均值为零的正态分布。)测量误差是完全随机的,

7、并服从均值为零的正态分布。 13 平行测验:平行测验: 如果两个题目不同的测验测的是同一特质,并且题目形式、如果两个题目不同的测验测的是同一特质,并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的,则这两个测验称作彼此平行的测验。一致的,则这两个测验称作彼此平行的测验。14根据根据CTTCTT模型和假设,推导如下关系:模型和假设,推导如下关系: (1 1)在一次测量中,被试观测分数的方差等于其真分数方)在一次测量中,被试观测分数的方差等于其真分数方差与误差分数方差之和差与误差分数方差之和 即即 S SX X2 2 =

8、 S = ST T2 2 + S + SE E2 2 (2 2)真分数分为两部分:与测量目的有关变异和与测验目的)真分数分为两部分:与测量目的有关变异和与测验目的无关的变异无关的变异 即即S ST T2 2 = S = SV V2 2 + S + SI I2 2 (3 3)由)由 (2 2)带入()带入(1 1)得)得 S SX X2 2 = S = SV V2 2 + S + SI I2 2 + S+ SE E2 2 在一次测验中,一个团体的实测分数之间的变异性是由在一次测验中,一个团体的实测分数之间的变异性是由与测验目的有关的变异数、稳定的但出自无关来源的变异数和与测验目的有关的变异数、稳

9、定的但出自无关来源的变异数和测量误差的变异数所决定的。测量误差的变异数所决定的。15第四章测量信度测量信度16第一节 信度概述 什么是信度?什么是信度? 信度(信度(reliabilityreliability)是指测量结果的稳定性程度,也叫测量的可靠)是指测量结果的稳定性程度,也叫测量的可靠性。性。 操作定义:操作定义: r rxxxx=S=ST T2 2 / S / Sx x2 2 r rXXXX=TXTX2 2 r rXXXX=XXXX 注意:注意: 信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特信度指的是一组测验分数或一系列测量的特性,而不是个人分数的特性;性; 真分数的

10、变异数是不能直接测量的,因此信度是一个理论上构想的概真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。念,只能根据一组实得分数作出估计。17 信度系数与信度指数信度系数与信度指数 信度指数:相关系数信度指数:相关系数 信度系数:相关系数的平方信度系数:相关系数的平方 注意:注意: 信度系数有多种。信度系数有多种。 同一种信度系数也会因样本、测查时间不同而有多个。同一种信度系数也会因样本、测查时间不同而有多个。 信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。信度系数只是对测量分数一致性的估计,但并没有指出不一致的原因。 获得较高的信度只

11、是测验有效的必要条件。获得较高的信度只是测验有效的必要条件。18 三、信度的作用三、信度的作用 信度是测量过程中所存在的随机误差大小的反映信度是测量过程中所存在的随机误差大小的反映 信度可以用来解释个人测验分数的意义信度可以用来解释个人测验分数的意义 SE=SSE=SX X1 - r1 - rXXXX 真分数的置信区间(真分数的置信区间(95%95%)=X=X1.96SE1.96SE 信度可以帮助进行不同测验分数的比较信度可以帮助进行不同测验分数的比较19 假设在一个智力测验中,某个被试的假设在一个智力测验中,某个被试的IQIQ为为100100,这是否反映了他,这是否反映了他的真实水平?如果再

12、测一次他的分数将改变多少?已知该测验的真实水平?如果再测一次他的分数将改变多少?已知该测验的标准差为的标准差为1515,信度系数为,信度系数为0.840.84、 某被试在韦氏成人智力测验中言语智商为某被试在韦氏成人智力测验中言语智商为102102,操作智商为,操作智商为110.110.已知两个分数都是以已知两个分数都是以100100为平均数,为平均数,1515为标准差的标准分数。假为标准差的标准分数。假设言语测验和操作测验的分半信度分别是设言语测验和操作测验的分半信度分别是0.870.87和和0.88.0.88.问其操作问其操作智商是否显著高于言语智商呢?智商是否显著高于言语智商呢?20 一个

13、测验可以有多个信度估计值,因而其误差估计值也会有多一个测验可以有多个信度估计值,因而其误差估计值也会有多个,在实际工作者要注意选择。个,在实际工作者要注意选择。 本理论假定同一个团体中所有人的测量误差都是相同的,但实本理论假定同一个团体中所有人的测量误差都是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。际上水平高的人与水平低的人在做测量时会有不同的随机误差。 测量的结果不能僵硬地看成一个点,而应看成是一个以该点为测量的结果不能僵硬地看成一个点,而应看成是一个以该点为中心,以中心,以SESE的某个倍数为半径上下波动的一个范围(区间估计)的某个倍数为半径上下波动的一个范围(区

14、间估计)21第二节 信度的估计方法 一、重测信度一、重测信度 含义和计算含义和计算 重测信度(重测信度(test-retest reliabilitytest-retest reliability)是指用同一量表对同一组被)是指用同一量表对同一组被试施测两次所得结果的一致性程度。试施测两次所得结果的一致性程度。 皮尔逊积差相关系数皮尔逊积差相关系数 ( (教材教材p48)p48) 使用的前提条件使用的前提条件 所测量的心理特质必须是稳定的;所测量的心理特质必须是稳定的; 练习和遗忘的效果基本上相互抵消;练习和遗忘的效果基本上相互抵消; 在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获

15、在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。得更多的学习和训练。22 使用重测信度时应注意使用重测信度时应注意 两次测验的时间间隔要适当(研究报告中需要说明)。两次测验的时间间隔要适当(研究报告中需要说明)。 再测信度适用于速度测验或人格测验,不适用于难度测验。再测信度适用于速度测验或人格测验,不适用于难度测验。 重测时应注意提高被试的积极性。重测时应注意提高被试的积极性。 优缺点优缺点 用再测法估计信度的优点是能提供测验结果是否随时间而变化的用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。资料,可作为预测被试将来行

16、为的依据。 其缺点是易受练习和记忆的影响。其缺点是易受练习和记忆的影响。23SPSS计算 求出两次测量的总分求出两次测量的总分 Analyze-Correlate-BivariateAnalyze-Correlate-Bivariate24 二、复本信度二、复本信度 1 1含义和计算含义和计算复本信度(复本信度(Alternate-form reliabilityAlternate-form reliability)指的是两个平行的测验测量)指的是两个平行的测验测量同一批被试所得结果的一致性程度,其值等于同一批被试在两个复本测同一批被试所得结果的一致性程度,其值等于同一批被试在两个复本测验上所

17、得分数的积差相关系数。复本信度又称为验上所得分数的积差相关系数。复本信度又称为等值性系数等值性系数 测验实施的时间不同,复本信度所表达的含义略有不同。测验实施的时间不同,复本信度所表达的含义略有不同。 如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数数。 如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数为稳定性与等值性系数。25 使用的前提条件使用的前提条件 两测验真正平行;两测验真正平行; 被试要有条件接受两个测验。被试要有条件

18、接受两个测验。 优点优点 避免记忆效果和学习效应避免记忆效果和学习效应26 复本信度的局限性复本信度的局限性 如果所考虑的行为机能受到练习的影响很大,那么使用复如果所考虑的行为机能受到练习的影响很大,那么使用复本只能减少但不能消除这种影响。本只能减少但不能消除这种影响。 测验的性质会由于重复而有所改变,比如迁移的影响测验的性质会由于重复而有所改变,比如迁移的影响 编制真正的等值测验实际困难重重,因此许多测验没有复编制真正的等值测验实际困难重重,因此许多测验没有复本。本。27内部一致性信度(1) 三、分半信度三、分半信度 含义和计算含义和计算 分半信度(分半信度(split-half relia

19、bilitysplit-half reliability)是指将一个测验分)是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性成对等的两半后,所有被试在这两半上所得分数的一致性程度。由于分半信度描述的是两半题目间的一致性,所以程度。由于分半信度描述的是两半题目间的一致性,所以有时也被称作内部一致性系数有时也被称作内部一致性系数。 计算方法:皮尔逊积差相关 校正公式:斯皮尔曼校正公式:斯皮尔曼- -布朗公式布朗公式 r rxxxx= 2 r= 2 rhhhh / /(1+ r1+ rhhhh)28 斯布公式只有在两半测验分数的斯布公式只有在两半测验分数的时才能使用,否时才能使用,

20、否则,应选择下面两个等价的公式之一:则,应选择下面两个等价的公式之一: 弗郎那根(弗郎那根(FlanaganFlanagan)公式:)公式:r rxxxx = 2 1 - = 2 1 -(S Sa a2 2 + S + Sb b2 2)/ S/ Sx x2 2 , S Sa a2 2 ,S Sb b2 2 ,S Sx x2 2 分别为分半测验的方差和总分的方差分别为分半测验的方差和总分的方差 卢仑(卢仑(RulonRulon)公式)公式r rxxxx = 1 - S = 1 - Sd d2 2 / S / Sx x2 2 , S Sd d2 2 是两分半测验之差的方差是两分半测验之差的方差29

21、 应用前提及范围应用前提及范围 分半信度通常是在只能施测一次或没有复本的情况下使用。分半信度通常是在只能施测一次或没有复本的情况下使用。 30 常见的分半方法是按测题序号奇偶分半:常见的分半方法是按测题序号奇偶分半: 测验题目按某种顺序(如难度)排列;测验题目按某种顺序(如难度)排列; 如果是随机排列的题目,则必须是所有题目是平等的(要如果是随机排列的题目,则必须是所有题目是平等的(要么难度相等,要么性质一致,是测同一个心理特质的);么难度相等,要么性质一致,是测同一个心理特质的); 如果测验有多个分量表,应在分量表内部排好顺序,再把如果测验有多个分量表,应在分量表内部排好顺序,再把各分量表的

22、两半组合起来求相关。各分量表的两半组合起来求相关。31SPSS计算第一种算法第一种算法 题目排序,分半题目排序,分半 求积差相关求积差相关 进行斯进行斯- -布公式校正布公式校正第二章算法第二章算法 直接求分半系数直接求分半系数32内部一致性信度(2) 四、同质性信度四、同质性信度 含义含义 同质性信度(同质性信度(homogeneity reliabilityhomogeneity reliability)也叫内部一致)也叫内部一致性系数,它是指测验内部所有题目间的一致性程度。性系数,它是指测验内部所有题目间的一致性程度。 同质性信度是指一个测验所测内容或特质的相同程度。同质性信度是指一个测

23、验所测内容或特质的相同程度。33 题目间的一致性含有两层意思:其一是指所有题目题目间的一致性含有两层意思:其一是指所有题目都测的是同一种心理特质都测的是同一种心理特质,其二是指所有题目得分其二是指所有题目得分之间都具有较高的正相关之间都具有较高的正相关。 值得注意的是,一些表面上看起来是测量同一种心值得注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其题目间不具有较高的正相关,理特质的题目,如果其题目间不具有较高的正相关,则不能认为它们具有同质性。则不能认为它们具有同质性。34 计算及适用范围计算及适用范围r rxxxx = K r = K rijij / 1 + / 1 +(K -

24、 1K - 1)r rijij ,其中其中K K为一个测验的题目个数,为一个测验的题目个数, r rijij 为项目间相关系数的平均数为项目间相关系数的平均数 (1 1)KRKR2020公式:公式: r rxxxx = K / = K /(K - 1K - 1) 1- 1-(ppi iq qi i)/ S/ Sx x2 2 p pi i为答对第为答对第i i题的人数的比例;题的人数的比例;q qi i为答错第为答错第i i题的人数的比例。题的人数的比例。K K为题目数,为题目数, S Sx x2 2为测验总分的变异。仅适用于(为测验总分的变异。仅适用于(0 0,1 1)记分的测验。)记分的测验

25、。 (2 2)KRKR2121公式:公式: r rxxxx = K / = K /(K - 1K - 1) 1 - 1 -(K p q K p q )/ S/ Sx x2 2 只有当所有题目的难度接近时才适用只有当所有题目的难度接近时才适用35 (3 3)克龙巴赫)克龙巴赫系数:系数: = K / = K /(K - 1K - 1) 1 - 1 -(SSi i2 2)/ S/ Sx x2 2 克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。克伦巴赫系数可以处理任何测验的内部一致性系数的计算问题。 实际上,实际上,K-RK-R 20 20 和和K-RK-R 21 21 只是只是系数的特例

26、。系数的特例。 系数是所有可能的分半信度的平均值。系数是所有可能的分半信度的平均值。 是测量信度的下界的一个估计值。即是测量信度的下界的一个估计值。即值大,必有测量信度高,但值大,必有测量信度高,但值小时,却不能断定测量信度不高。值小时,却不能断定测量信度不高。36 计算步骤:计算步骤: 按一定要求抽取按一定要求抽取n n个被试的试卷,计算几个人测验总分的方差个被试的试卷,计算几个人测验总分的方差 这几个人在每一个题上都会有一个得分,分别求出这几个人在每道题这几个人在每一个题上都会有一个得分,分别求出这几个人在每道题上得分的方差。上得分的方差。 代入公式,最后求出代入公式,最后求出。37SPS

27、S计算 Analyze-Scale-Reliability AnalysisAnalyze-Scale-Reliability Analysis 单击单击“Statistics”Statistics”出现出现reliability Analysisreliability Analysis:StatisticsStatistics 在在Descriptives for Descriptives for 方框中选取方框中选取 “ “item”item”、“scale”scale”、“scscale if item deleted”ale if item deleted” 在在“inter-item

28、”inter-item”,单击,单击“correlations”correlations”,单击,单击“continue”continue”按钮回到按钮回到“reliability Analysis”reliability Analysis”对话框,单击对话框,单击“ok”ok”按钮。按钮。38 当研究者采用试题的标准分数总和作为量表分数时,此情况应当研究者采用试题的标准分数总和作为量表分数时,此情况应该选用标准化该选用标准化系数;系数; 当研究者采用试题的标准分数总和作为量表分数时,则不选用当研究者采用试题的标准分数总和作为量表分数时,则不选用标准化标准化系数系数39 (4 4)荷伊特信度)

29、荷伊特信度 测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互测试分数的总变异可分解为被试间变异、项目间变异和人与试题交互作用三部分。荷伊特认为可用作用三部分。荷伊特认为可用MSMS人人作为被试方差估计值,用作为被试方差估计值,用MSMS人人题题作作为误差方差估计值。为误差方差估计值。 R Rxxxx=1-MS=1-MS人人题题/MS/MS人人 一般用于预测的测验或学绩测验可不考虑同质性。而验证理论一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此,同质性不但与信度有关,还与构想时必须考虑同质性。因此,同质性不但与信度有关,还与效度有关。效度有关。40

30、五、评分者信度五、评分者信度 含义含义 评分者信度(评分者信度(scorer reliabilityscorer reliability)是指多个评分者给同一批人的答)是指多个评分者给同一批人的答卷进行评分的一致性程度。卷进行评分的一致性程度。 计算计算 2 2人时:相关系数人时:相关系数 多人时:肯德尔和谐系数多人时:肯德尔和谐系数 W=12 R W=12 R i i2 -2 -(R R i i)2 / N / K22 / N / K2(N3 -NN3 -N) (K=3K=32020;N=3N=37 7时,查时,查W W表检验)表检验) K K是评分者人数,是评分者人数,N N是被评的对象数

31、,是被评的对象数,R R I I为第为第i i个被试被评的水平等级个被试被评的水平等级之和之和41 将数据导入到将数据导入到SPSSSPSS中,点击:中,点击:analyse-nonparametrics testsanalyse-nonparametrics tests-K related samples -K related samples 把所有变量选中(所有作品的列)把所有变量选中(所有作品的列) 再选中再选中Kendalls W , Ok Kendalls W , Ok 结果出来了,结果出来了, 主要看最下面一个表的数据,一个是主要看最下面一个表的数据,一个是Kendalls Wa

32、, Kendalls Wa , 这个数字这个数字应该在应该在0.70.7以上,另一个是以上,另一个是Asymp ,Asymp ,这个数字应该小于这个数字应该小于0.05,0.05,如果如果结果不是符合这两个规则的话,一致辞性检验不通过,成绩要结果不是符合这两个规则的话,一致辞性检验不通过,成绩要重新打分。重新打分。 42重测信度重测信度在两个时间点上对同一在两个时间点上对同一群人实施测验群人实施测验皮尔逊积差相关皮尔逊积差相关复本信度复本信度对同一群人实施一个测对同一群人实施一个测验的两个版本验的两个版本皮尔逊积差相关皮尔逊积差相关内部一致性(分半)内部一致性(分半)一次性施测,然后分为一次性

33、施测,然后分为两半计分两半计分皮尔逊积差相关,用斯皮尔逊积差相关,用斯皮尔曼皮尔曼- -布朗公式校正布朗公式校正内部一致性(同质性)内部一致性(同质性)一次施测,然后比较所一次施测,然后比较所有可能的分半法有可能的分半法系数或系数或KR-20KR-20评判间信度评判间信度一次施测,由两个评分一次施测,由两个评分者或两种方法评分者或两种方法评分皮尔逊积差相关皮尔逊积差相关评判间信度评判间信度一次施测,由多个评分一次施测,由多个评分者或两种方法评分者或两种方法评分肯德尔和谐系数肯德尔和谐系数43 评判间一致性系数评判间一致性系数 给出一个评分说明,让两个或更多人来打分,分数是顺序或者称名给出一个评

34、分说明,让两个或更多人来打分,分数是顺序或者称名(等级或者是(等级或者是/ /否)否) 公式公式 Cohens kappaCohens kappa 参考参考心理测量心理测量骆方骆方 孙晓敏译孙晓敏译 中国轻工业出版社中国轻工业出版社 评分者内部一致性系数评分者内部一致性系数 计算一个评分者在给不同测验打分时分数的一致性计算一个评分者在给不同测验打分时分数的一致性 系数或系数或KR-20KR-2044各种信度系数相应误差变异的来源信度信度误差变异来源误差变异来源重测信度时间取样复本信度(连续施测)内容取样复本信度(间隔施测)时间与内容取样分半信度内容取样同质性信度内容取样和内容的异质性评分者信度

35、评分者间的差异45几种心理测验的信度系数测验类型测验类型低信度低信度中信度中信度高信度高信度成套成就测成套成就测验验0.660.660.920.920.980.98学术能力测学术能力测验验0.560.560.900.900.970.97成套倾向性成套倾向性测验测验0.260.260.880.880.960.96客观人格测客观人格测验验0.460.460.850.850.970.97兴趣测验兴趣测验0.420.420.840.840.930.93态度量表态度量表0.470.470.790.790.980.9846第三节 提高测量信度的方法 影响测量信度的主要因素影响测量信度的主要因素 被试方面被

36、试方面 被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。被试团体同质性越高(个体差异越小),所得相关系数(信度)就越低。 被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高被试团体异质性越高(个体差异越大),所得相关系数(信度)就越高。 主试方面主试方面 指导语、态度、期望等指导语、态度、期望等 施测情境施测情境47 四)测量工具四)测量工具 测验长度:测验越长,信度越高。测验长度:测验越长,信度越高。 测验难度:过难或过易都会使个体间得分差异减小,降低信度。显然测验难度:过难或过易都会使个体间得分差异减小,降低信度。显然只有当测验难度水平可以使测验分数的分布范围最

37、大时,测验的信度只有当测验难度水平可以使测验分数的分布范围最大时,测验的信度才会最高。通常这个难度水平为才会最高。通常这个难度水平为0.500.50。 测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。测验内容:试题取样不当,内部一致性低,题意模糊,信度则低。 (五)两次施测的间隔时间(五)两次施测的间隔时间 间隔时间越短,信度越高;间隔时间越短,信度越高; 间隔时间越长,信度越低。间隔时间越长,信度越低。48斯皮尔曼布郎公式 公式中,公式中,K K为改变后长度与原长度之比为改变后长度与原长度之比 r rxxxx为原测验的信度为原测验的信度 r rkkkk为测验长度是原来为测验长度是原

38、来K K倍时的信度估计倍时的信度估计 xxxxkkrKrKr1149 例:某一测验有例:某一测验有1010个项目,信度是个项目,信度是0.600.60,问测验应增加到多少个项目,才能使信问测验应增加到多少个项目,才能使信度达到度达到0.900.90?50 解解: :xxxxkkrKrKr11kkxxxxkkrrrrK11690. 0160. 060. 0190. 0 即,应扩大为原来的即,应扩大为原来的6 6倍,才能满足要求。倍,才能满足要求。 调整后的测验长度应是调整后的测验长度应是6060个项目。个项目。51 提高测量信度的常用方法提高测量信度的常用方法 适当增加测验的长度适当增加测验的长

39、度 使测验中所有试题的难度接近正态分布,并控制在中等水使测验中所有试题的难度接近正态分布,并控制在中等水平平 努力提高测验试题的区分度努力提高测验试题的区分度 选取恰当的被试团体,提高测验在各同质性较强的亚团体选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度上的信度 主试者严格执行施测规程,评分者严格按照标准给分,施主试者严格执行施测规程,评分者严格按照标准给分,施测场地按测验手册的要求进行布置,减少无关因素的干扰测场地按测验手册的要求进行布置,减少无关因素的干扰52洛德(Lord)提出学绩测验难度题型题型难度难度五选一五选一0.700.70四选一四选一0.740.74三选一三选一0

40、.770.77是非题是非题0.850.85简答题简答题0.50.553几点说明 提高测量信度的方法还有很多。提高测量信度的方法还有很多。 本章所讨论的各种信度计算方法仅适用于常模参照性测验。本章所讨论的各种信度计算方法仅适用于常模参照性测验。 目标参照性目标参照性测验的信度必须以测量的测验的信度必须以测量的概化理论概化理论为基础才能进行为基础才能进行很好的处理。很好的处理。 信度的标准信度的标准 信度高低的标准:标准化能力或学绩测验:信度高低的标准:标准化能力或学绩测验:0.900.90;人格测验:;人格测验:0.800.80;教师自编学绩测验:教师自编学绩测验:0.600.60 测验解释的标

41、准:一般来说,当信度测验解释的标准:一般来说,当信度0.700.70,测验不能用于对个人作,测验不能用于对个人作出评价与预测,而且不能作团体间比较;当出评价与预测,而且不能作团体间比较;当0.700.70信度信度0.850.85时,可时,可用于团体比较;当信度用于团体比较;当信度0.850.85时,才能用来鉴别或预测个人成绩。时,才能用来鉴别或预测个人成绩。54速度测验的信度 对于速度测验,不存在评分者信度,也无法计算同质性信度,对于速度测验,不存在评分者信度,也无法计算同质性信度,而重测信度和复本信度均可按传统的方法求得,只有分半信度而重测信度和复本信度均可按传统的方法求得,只有分半信度不能

42、按传统方法估计不能按传统方法估计 要估计速度测验的分半信度,不能按题目的奇偶项来划分测验,要估计速度测验的分半信度,不能按题目的奇偶项来划分测验,而应按测验时间划分相等的两部分,再求出两部分测验的相关,而应按测验时间划分相等的两部分,再求出两部分测验的相关,才是分半信度。才是分半信度。 将测验分成两部分,然后以总测验的一半时间分别进行施测,将测验分成两部分,然后以总测验的一半时间分别进行施测,计算两部分得分的相关系数。计算两部分得分的相关系数。 整个时限分为四部分,并求出在每个时限内的得分。计算第一整个时限分为四部分,并求出在每个时限内的得分。计算第一部分和第四部分的总分数;第二部分和第三部分

43、的总分数,然部分和第四部分的总分数;第二部分和第三部分的总分数,然后计算相关。后计算相关。55第五章测量效度测量效度56 效度(效度(validityvalidity)是指一个测验或量表实际能测出其所要)是指一个测验或量表实际能测出其所要测的心理特质的程度。测的心理特质的程度。 在测验的众多质量指标中,效度是一个最重要的指标。在测验的众多质量指标中,效度是一个最重要的指标。57 效度是一个相对的概念:每个测量工具都有自己的目的;内隐效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质是通过外显行为间接测得的。特质是通过外显行为间接测得的。 效度是测量的随机误差和系统误差的综合反映。效度是

44、测量的随机误差和系统误差的综合反映。 判断一个测量是否有效要从多方面收集证据判断一个测量是否有效要从多方面收集证据58在测量理论中,效度被定义为:在一列测量中,与测量在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率。即:异)与总变异数(实得变异数)的比率。即: 公式中,公式中,r rxyxy表示测量的效度系数;表示测量的效度系数; S SV V2 2表示有效变异数,表示有效变异数, S SX X2 2 表示总变异数表示总变异数222xyxvrSS效度59 效度与

45、信度的关系效度与信度的关系 信度高是效度高的必要而非充分的条件信度高是效度高的必要而非充分的条件 测验的效度受它的信度制约测验的效度受它的信度制约 信度高,效度未必高,信度高,效度未必高, 信度低,效度必然低;信度低,效度必然低; 效度高,信度必然高,效度高,信度必然高, 效度低,信度未必低。效度低,信度未必低。60第二节 效度的估计 测量效度是就测量结果达到测量目的的程度而言的,测量效度是就测量结果达到测量目的的程度而言的,所以测量效度的估计在很大程度上取决于人们对测所以测量效度的估计在很大程度上取决于人们对测量目的的解释。量目的的解释。 常见的解释角度主要有三种:常见的解释角度主要有三种:

46、 测验内容测验内容 内容效度内容效度 理论结构理论结构 构想效度构想效度 工作实效工作实效 实证效度实证效度61内容效度 1. 1. 含义及应用范围含义及应用范围内容效度(内容效度(content validitycontent validity)是指测验题目对有关内容或行为)是指测验题目对有关内容或行为取样的适当程度,即一个测验实际测到的内容与所要测量的内取样的适当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。容之间的吻合程度。因此,一个测验要有内容效度必须具备两个条件:因此,一个测验要有内容效度必须具备两个条件:(1 1)要有定义完好的内容范围)要有定义完好的内容范围(2

47、2)测验题目应是所界定的内容范围的代表性取样。)测验题目应是所界定的内容范围的代表性取样。62 内容效度主要应用于成就测验。内容效度主要应用于成就测验。 因为成就测验主要是测量被试掌握某种技能或学习因为成就测验主要是测量被试掌握某种技能或学习某门课程所达到的程度。某门课程所达到的程度。 在这种测验中,题目取样的代表性问题是内容效度在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。的主要考察方面。 63 内容效度也适合于某些用于选拔和分类的职业测验。内容效度也适合于某些用于选拔和分类的职业测验。 这种测验所要测的内容就是实际工作中所需的知识这种测验所要测的内容就是实际工作中所需的知识和

48、技能,编制这种测验应首先对实际工作做较细的和技能,编制这种测验应首先对实际工作做较细的分析,否则,题目取样的代表性就难以令人满意。分析,否则,题目取样的代表性就难以令人满意。 64 内容效度不适合用于能力倾向测验和人格测验。内容效度不适合用于能力倾向测验和人格测验。 此外,在使用内容效度时,要避免与表面效度(此外,在使用内容效度时,要避免与表面效度(surface validitysurface validity)相混淆。相混淆。 表面效度是外行人对某个测验从表面上看好像是测某种心理特质的一表面效度是外行人对某个测验从表面上看好像是测某种心理特质的一种现象。种现象。 表面效度可以取得被试者的合

49、作表面效度可以取得被试者的合作 最佳行为测验往往表明效度高;典型行为测验表面效度低最佳行为测验往往表明效度高;典型行为测验表面效度低 职业兴趣测验;成就测验职业兴趣测验;成就测验 人格测验人格测验652 2内容效度的确定方法内容效度的确定方法(1 1)逻辑分析法:专家判断根据自己的知识经验对量表的有效性)逻辑分析法:专家判断根据自己的知识经验对量表的有效性(逻辑性)作出判断,也称逻辑效度。(逻辑性)作出判断,也称逻辑效度。为使内容效度的判断过程更客观,一般采用下列步骤:为使内容效度的判断过程更客观,一般采用下列步骤:确定测验内容的总体范围;确定测验内容的总体范围;编制双向细目表;编制双向细目表

50、;编制评定量表,从测验内容所测的技能、题目对所定义的范围编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。等方面,对测验作出总的评价。66(2 2)统计方法:用两个测验复本来测同一批被试,若相关高,则)统计方法:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。效度。(3 3)再测法:)再测法:前测前测教学教学后测后测如果后测成绩优于前测成绩,说明该测

51、验具有一定的内容效度。如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。67 内容效度既具有一定的优点,也有一定的局限。其内容效度既具有一定的优点,也有一定的局限。其主要缺点是缺乏可靠的数量指标,因而妨碍了各测主要缺点是缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。验间的相互比较。68结构效度 含义、特点与应用范围含义、特点与应用范围 结构效度(结构效度(structure validitystructure validity)是指一个测验实际测到所要)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理测量的理论结构或特质的程度,或者说测验分数能够说明心理

52、学理论的某种结构或特质的程度。学理论的某种结构或特质的程度。 特点:特点: 构想效度的大小首先取决于事先假定的心理特质理论。构想效度的大小首先取决于事先假定的心理特质理论。 当实际测量的资料无法证实我们的理论假设时,并不一定当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验构想效度不高就表明该测验构想效度不高 。 不可能有单一的数量指标来描述构想效度。不可能有单一的数量指标来描述构想效度。 69 结构效度的确定方法结构效度的确定方法(1 1)提出理论框架;)提出理论框架;(2 2)依据理论框架推演出有关测验成绩的假设;)依据理论框架推演出有关测验成绩的假设;(3 3)用逻辑或实证的

53、方法来证明假设。)用逻辑或实证的方法来证明假设。70 确定构想效度的基本方法确定构想效度的基本方法 (1 1)测验内部寻找证据法)测验内部寻找证据法 分析测验的内容效度:若内容效度高,说明其结构效度也高;分析测验的内容效度:若内容效度高,说明其结构效度也高; 分析被试对题目反应的特点:分析被试对题目反应的特点: 有无社会称许性的题目,如有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。当事情不顺我意时,我时常动怒。”对该题对该题的回答,也许反映不了要测的性格。的回答,也许反映不了要测的性格。 计算测验的同质性信度:分半信度、计算测验的同质性信度:分半信度、系数、系数、KR20KR20、K

54、R21KR2171 (2 2)测验之间寻找证据法)测验之间寻找证据法 相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。相关高,则说明新测验可能有较高的效度。 区分效度:新老测验之间的相关(两测验测的不是同一心理特质),区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。若相关低,则说明新测验可能有较高的效度。 因素分析法:得出的因素符合理论的构思,说明效度高。因素分析法:得出的因素符合理论的构思,说明效度高。72 (3 3)考察测验的实证

55、效度法)考察测验的实证效度法 根据效标把被试分组,考察其得分差异。根据效标把被试分组,考察其得分差异。 根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。73 (4 4)多种特质)多种特质- -多种方法矩阵法多种方法矩阵法 方法:方法:1 1、2 2、3 3 特质:特质:A A、B B、C C74A1A1B1B1C1C1A2A2B2B2C2C2A3A3B3B3C3C3A1A10.900.90B1B10.500.50 0.890.89C1C10.350.35 0.410.410.810.81A2A20.580.58 0.2

56、50.250.100.100.950.95B2B20.210.21 0.590.590.090.090.630.630.910.91C2C20.140.14 0.130.130.500.500.570.570.530.530.850.85A3A30.550.55 0.200.200.130.130.690.690.320.320.300.300.930.93B3B30.110.11 0.600.600.190.190.200.200.680.680.290.290.500.500.960.96C3C30.150.15 0.200.200.700.700.210.210.190.190.670.

57、670.530.530.510.510.920.9275 (5 5)验证性因素分析)验证性因素分析(confirmatory factor analysisconfirmatory factor analysis)76 对构想效度的评价对构想效度的评价 77 三、实证效度三、实证效度 1 1含义、种类及作用含义、种类及作用 实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有是指一个测验对处于特定情境中的个体的行为进行估计的有效性。效性。 被估计的行为是检验测验效度的标准,简称被估计的行为是检验测验效度的标准,简称效标。 所以,实证效度又称所以,实证效度又称效标关联效度(criteri

58、on-related validitycriterion-related validity)。)。 同时效度:测验分数与效标资料是同时收集的。同时效度:测验分数与效标资料是同时收集的。 预测效度:先获得测验分数,隔一段时间后,再收集效标资料。预测效度:先获得测验分数,隔一段时间后,再收集效标资料。7879 2 2效标效标 (1 1)效标与效标测量)效标与效标测量 效标(criterioncriterion)就是衡量一个测验是否有效的外在标准,独立于)就是衡量一个测验是否有效的外在标准,独立于测验并可以从实践中直接获得我们所感兴趣的行为。测验并可以从实践中直接获得我们所感兴趣的行为。 常用的效标

59、:学业成就、临床诊断、实际工作表现、特殊训练成绩、常用的效标:学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。不同团体的总体表现、先前有效的测验、等级评定。 观念效标:理论定义,如:理论定义,如“大学的成功大学的成功” 效标测量:操作定义,如:操作定义,如“大学成绩大学成绩”80 (2 2)效标的特性)效标的特性 a.a.多样性:多样性: 一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。标测量。 b.b.复杂性:复杂性: 几乎每一种效标行为都由多种特质构成,包含复杂的成分。几乎每一种效标行为都由多种特质构成,包含复杂的成分。 c.c.特殊性:特殊性: 即使一个普通的效标,在应用时也有特殊性。即使一个普通的效标,在应用时也有特殊性。 d.d.时间性:时间性: 近期效标与最后效标近期效标与最后效标81 (3 3)效标测量的条件)效标测量的条件 a.a.有效性:效标测量能真正反映观念效标。有效性:效标测量能真正反映观念效标。 b.b.可靠性:有较高的信度可靠性:有较高的信度 c.c.客观性:客观性: 效标测量必须能真正反映观念效标,防止效

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论