特殊儿童教育评估第三章心理计量评估基本知识_第1页
特殊儿童教育评估第三章心理计量评估基本知识_第2页
特殊儿童教育评估第三章心理计量评估基本知识_第3页
特殊儿童教育评估第三章心理计量评估基本知识_第4页
特殊儿童教育评估第三章心理计量评估基本知识_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、特殊儿童教育评估第三章心理计量评估基本知识第一节 信度与效度信度和效度是衡量测验性能的两个重要指标,反应测验的质量。一、信度(reliability)(一)含义:同一被试者在不同时间内用同一测验重复测量,所得结果的一致程度。是指测量结果的稳定性和可靠性程度。信度只受随机误差的影响。理论上: 真分数 实得分数 随机误差信度=真分数方差/实得分数方差实际中:一组受测着在同一个测验上两次施测所取得的两组分数之间的相关系数来表示,这个相关系数为信度系数。方差是各个数据与其算术平均数的离差平方和的平均数。信度的作用信度是测量过程中所存在的随机误差大小的反映。信度低,测量随机误差大,测量结果就会与真分数发

2、生较大偏离。信度是衡量一个测验好坏的重要指标之一,测验的信度达到多少才可以接受呢?一般来讲,能力与成就测验的信度应该在0.90以上,人格测量信度系数应该在0.80 以上。测量中的系统误差与信度无关。(二)检验方法1.稳定性系数:又称再测信度。使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数。其大小等于同一组被试在两次测验上所得分数的积差相关系数。一般是两周到四周较宜,间隔时间最好不超过六个月。重测信度使用的条件(1)所测量的心理特质必须是稳定的(2)遗忘和练习的效果基本上相互抵消(3)在两次测试时间间隔内,被试在所要测查的心理特质方面没有其他的学习和练习2.复本

3、信度(Alternate-form reliability)含义与计算是指两个平行测验测量同一批被试所得结果的一致程度,其大小等于同一组被试在两个复本测验上所得分数的积差相关系数。计算公式同重测信度。两个复本测验实施的时间不同,复本信度所表达的含义略有不同。(1)等值性系数如果两个复本测验是同时连续测试的,则称这种复本信度为等值性系数。等值性系数的大小主要反映着两个复本测验的题目差别带来的变异情况。()稳定性与等值性系数如果两个复本测验是相距一段时间分两次测试,则称这种复本信度为稳定性与等值性系数。此时两个题目间的差别、两次施测情境、被试特质水平等方面的差别都会成为测验结果不一致的原因。复本信

4、度使用的条件(1)两个测验必须在项目的内容、形式、数量、难易、时限、指导语等方面相同或相似。(2)两次测验的时间间隔要适当。局限:(1)复本法只能减少而不能排除练习和记忆效应。(2)对于许多测验来说要建立复本是非常困难的。3.分半信度(Split-half reliability)含义与计算是指将一个测验分成对等的两半后,所有被试在这两半上得分的一致性。分半信度信度与等值性系数的解释一样,即可以把对等的两半测验看成是最短时距内施测的两个平行测验。分半信度描述的是两半题目间的一致性,所以也叫内部一致性系数。注意题目分半的方法:按题号奇偶性分半、按题目难度分半、按题目内容分半等。计算方法与复本信度

5、类似,但被试在两半测验上得分的相关系数只是半个测验的信度,所以必须用斯皮尔曼布朗公式加以校正: 使用的前提条件和范围分半信度通常是在只能施测一次或没有复本的情况下使用。其中使用斯皮尔曼布朗公式时要求全体被试在两半测验分数的变异数相等。当测验无法分成对等的两半时,无法使用。4.同质性信度(Homogeneity reliability)含义同质性信度也叫内部一致性系数,它是测验内部所有题目间的一致性程度。这里的一致性有两种含义:一是所有题目都测的是同一种心理特质,二是所有题目得分之间都具有较高的正相关。同质性信度就是一个测验所测内容或特质的相同程度。5. 评分者信度(Scorer reliabi

6、lity)含义与计算评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。对于主观试题,不同的评分者给出的分数是不等的,这样会造成误差,如何降低评分者信度是心理测量的重要任务之一。二、效度(validity)(一)含义效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。测量的效度既受随机误差的影响,同时也受系统误差的影响。效度是随机误差和系统误差的综合反映。判断一个测量是否有效要从多方面收集证据。例如:一个小学数学测验的成绩若同时受到数学能力和语文能力(读懂题意的能力)的影响,测试结果成绩低,就不能认为实际所要测的数学能力这一心理特质水平不高。效

7、度的数学定义测验分数 = 有效分数 + 系统误差 + 随机误差测验分数的方差= 有效分数的方差+系统误差的方差+随机误差的方差效度为有效分数的方差与测验分数方差的比返回信度是指测试方法不受随机误差干扰的程度,反映测试结果的一致性和稳定性(consistency, and stability)。效度反映测试的准确性(accuracy),即在多大程度上测量了想要测的内容。信度和效度的共同点都是以相关系数来表示其大小的。都是整个运用问卷调查技术进行科研工作的可靠性保证。信度和效度的不同点涉及的误差不同 信度仅考虑随机误差占测验总变异的比例; 效度则还包括与测验无关但稳定的测量误差。研究的角度不同 信

8、度:测量的质量 效度:问卷的质量总而言之,信度和效度相互排斥又相互依存;没有信度就不可能有效度;没有效度,信度就毫无意义;高信度可能带来低效度;高效度也可能带来低信度。举例来说三、效度的种类内容效度效标关联效度结构效度返回1.内容效度(content validity)内容效度的含义 测验项目对所要测量的内容范围的代表性程度。估计一个测验的内容效度就是确定该测验在多大程度上代表了所要测量的心理特质。或者说内容效度就是测验的测题对测验内容范围的代表程度。(2)验证测验内容效度的一般程序以教育测验为例-专家判断的方法内容效度的确定方法主要是逻辑分析的方法。其工作思路是请专家对测验题目与原定内容范围

9、的吻合程度作出判断。步骤如下:1)明确测验目的及测验内容的范围。2)编制双向细目表,确定每个题目所测的内容,并与测验编制者所列的双向细目表对照3)确定每一小格中的测题数量。4)写出鉴定报告,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异等。双向细目表举例识记理解应用分析综合评价合计第一章8210第二章10621028第三章3624722第四章296125640合计13271418226100上页(3)内容效度的应用内容效度适合于测验所要测量的内容总体能够明确界定的情况: 标准参照测验 知识测验、技能测验等教育测验 工作表现可以界定的职业心理测验不适合:智力测验,人格测验内

10、容效度的局限性:1)内容效度缺乏可靠的统计指标,妨碍了测验间的可比性。2)内容效度由专家判断,带有主观性。3)双向细目表难以编制。2.效标关联效度(实证效度)(1)含义衡量测验有效性的一个很重要的方法是看根据测验所作出的预测能否被证实,如果一个测验的预测结果与将来实际发生的事情非常接近,那么这个测验就是一个好测验。效标关联效度:指测验分数与效度标准(被假设或定义为有效的某种外在标准)之间的相关。又称准则关联效度。即根据测验所作出的预测能否被实际的结果所证实。效标即效度标准: 指独立于测验结果,反映测验目的的行为参照。(2)效标关联效度的类型同时效度(concurrent validity) 测

11、验分数与几乎同时获得的效标分数之间的相关。 例如:在招聘应届毕业生时,可将应聘大学生的面试和笔试综合分数与其在校综合测评成绩(效标)进行相关性分析。预测效度(predictive validity) 测验分数与随后获得的效标分数之间的相关。 例如:对于被录用者,可以将招聘测试分数与一段时间(半年或一年)之后的工作业绩考核结果进行比较。若这些人的工作绩效和招聘测试分数呈现密切相关关系时,说明招聘方法是有效的,可以推广到人员甄选与选拔中去。同时效度主要用于诊断现状,预测效度在于预测个体将来的行为。返回例如,用大学入学考试来预测被试入学后的学习,如果入学考试成绩好的同学,入学后的学校能力强,取得了好

12、的成绩,那么说明大学入学考试是一个好测验。这里,被预测的行为,如被试入学后的学习,我们称为效标。所谓效标关联效度,是指测验分数与某一外部效标间的一致性程度,即测验结果能够代表或预测效标行为的有效性和准确性程度。因为效标效度需要有实际证据,所以又称为实证效度。如上例,若大学入学考试能较好地预测大学入学后的学习成绩,那测验就具有较高的效标关联效度。分析效标关联效度的通常作法是对问卷(量表)测量结果与有效标准进行相关分析,相关系数越大表示问卷(量表)的效标关联效度越好,一般认为相关系数在0. 40. 8 比较理想。若为连续型变量,计算Pearson 或Fisher相关系数,若为分类变量,则计算Ken

13、dall 或Spearman 等级相关系数。一般而言, 相关系数在0. 40. 8 比较理想。效标与效标测量估计测验效标关联效度首要条件是必须具有效标(准则)。 观念效标:概念阿斯汀(A. W. Astin)将效标 量化 效标测量 如对于大学入学考试这个测验来说,观念效标是“大学学习成功”,而大学学习成绩是效标测量。1效标的测量有效性:高效度 可靠性:高信度 客观性:实用性:方便,经济 2常用的效标学术成就(智力测验、标准化成就测验的效标) 实际工作表现(特殊能力测验、部分智力测验和人格测验的效标)团体差异(测验分数能将已经知道的团体差异区分开来) 临床诊断(人格测验的效标) 特殊训练的成绩(

14、特殊能力测验的效标)等级评定(人格测验中其他人的评定) 现有的测验返回三、效标关联效度估计的方法 相关系数法 分组检验法 命中率法 1相关系数法 方法: 积差相关、点二列相关、二列相关、等级相关等 优点: 提供了预测源与效标之间的数量关系; 可利用回归方程来预测效标分数。缺点: 预测源与效标是非线性关系时,会低估效度; 不能提供关于取舍正确性的指标。2分组检验法 基本思想: 根据被试在准则上的行为表现,将他们分为不同的组别,如果这些组的预测源分数有显著差异,那么,这个测验的预测效度是较高的。步骤:依据被试在准则上的行为表现进行分组: 成功与失败 或 合格与不合格 两独立样组测验分数的均数差异显

15、著性t检验计算重叠量3命中率法 分类决策的正确性 3.构想效度 一、构想效度的含义 构想效度(construct validity) 指测验分数在多大程度上测量或解释了某种理论构想。 又译构念效度。二、确定结构效度的基本步骤1建立理论框架 2提出假设 3检验假设测验构想效度的方法 1逻辑验证法 根据已有理论,考察测验数据是否符合逻辑推论。如:1.理论认为智力与年龄成正比。 2.IQ分数与学习成绩呈显著相关。2考察测验的内部一致性 内部一致性系数来评价某个测验构想效度的高低。3计算相关系数(效标关联法) 相容效度 计算新旧同类测验分数之间的相关。区分效度 计算不同结构的测验对不同特质的测验之间的

16、相关。汇聚效度 计算不同结构的测验对同一特质的测验之间的相关。4因素分析法 通过因素分析找到影响测验分数的共同因素,每个测验在共同因素上的负荷量即每个测验与共同因素的相关,称为测验的因素效度。第二节 常模 1. 原始分数不能反映考生相对于团体的位置信息 王明语文考试80分,你知道他的班级排名吗?以及班级其他同学的信息吗? 要正确的解释、评价和使用测验的分数,必须借助于某种参照标准才能解释测验分数的含义,从而作出正确的评价。最常用的方法是建立常模标准。 活动2:常模的概念 常模由标准化样本测试结果计算而来,即某一标准化样本的平均数和标准差,是一种供比较的标准量数。常模的构成要素为:1.原始分数;

17、2.导出分数;3.对常模团体的有关具体描述。常模可分为组间常模和组内常模两大类。前者有年级、年龄常模,反映不同群体在测验上表现的差异。后者有百分等级、标准分数、离差智商等常模。 被试在接受测验后,按照评分标准对其作答反应直接评出来的分数,叫原始分。 导出分是在原始分的基础上,按一定的规则推导出来的分数,其目的是为了更好、更科学地解释分数的含义。这种把原始分数转化为导出分的过程,称作分数转换。原始分与导出分1.百分等级含义:它是指把一个总体的所有分数按大小顺序排列后,把所有分数按个数等分为100等份,这每一个等份对应的百分数就是这个分数分布的百分等级,而刚好把所有分数个数分为100份的分数值则叫

18、百分位数。换句话说,百分等级是以百分率的形式来表示一个人的相对等级、即我们将常模样本分成100等份时这个人所占的等级。王晓宁在小学五年级语文书写能力测验中得到原始分数45分,此分数相对应的百分等级为77,这表示他的分数赢过百分之七十七的人,而输给百分之二十三的人。百分等级的计算百分等级的计算关键在于确定在常模样本中分数低于某一特别分数的人数比例,这可以分两种情况:一种情况是对没有分组资料的数据分布求百分等级,公式为:PR=100-100*(R-0.5)/N其中,R为排名顺序;N为总人数。全班50人,小明考了62分,排名第10,求其百分等级。分组的百分等级X=原始分数L=X组所在组下限f=X组所

19、在组次数Fb=X组所在组以下各组次数之和i=组距 N=总人数分组区间次数累加次数556045050556464550940404515313540816303558253023202511Lf53原始分数Fb另一种情况是对有分组资料的数据求百分等级。对这类资料中任一个分数计算百分等级的公式如下:评价:百分等级优点:1.容易计算,容易解释,甚至外行人也能看懂。2.对于各种测验和各种被试普遍适用。缺点:缺少相等单位,属于顺序量表,不能对它进行加、减、乘、除运算,因而使大多数统计分析无法运用。2.发展量表 (1)年龄量表智力年龄定义:智力年龄代表智力水平的年龄,即儿童在年龄量表上所得的分数。特点:智

20、龄单位不保持恒定,一般随年龄而减小。智力年龄计算:期坦福一比纳量表,上自5岁组下至14岁组,每组有6个测题,答对每个测题得智龄两个月。(2)年级当量含义:以各年级学生在某份测验上的平均原始分数,作为判断学生学习水平的一个指标。比如:四年级学生中解答问题的平均数为23,则原始分数23相当于4年级的年级当量;4.5就相当于四年级第5个月时的平均成绩。(2) 年级当量使用注意事项1)年级当量不等同于实际水平。2)不同领域中的相同年级当量,并不意味着在这两个领域能力相等。3)年级当量中的连续增长假设是不可验证的。4)年级当量在分数分布高端和低端的人来说,可能有问题。5)年级常模仅适用于测验所涵盖的年级

21、中所教的一般科目,一般不适用于高年级水平。3.商数比率智商(IQ)=智龄 /实足年龄*100实足年龄=测验日期-出生日期。30d/月。教育商数(EQ)=教育年龄/实足年龄*100(1)线性转换的标准分数Z分数 标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表,是最常用的一种等距量表。4.标准分数标准分数的性质 (1)任何一批原始分数,转化成Z分数后,平均值为0,标准差为1。 (2)标准分数的单位是相等的,零点是相对的。 (3)标准分数本身是关于原始分数的一种线性变换,其分布形状与原始分数相同 (4)在一般的情况下,标准分数的取值在-3到+3之间。评价:线性转换的标准分数优点:1.

22、标准分数是等距量表,能进行进一步统计分析。 2.可以对两个以上的测验分数进行比较。举例:某班语文、数学和英语成绩的平均数分别是80分、70分和85分,对应的标准差分别是10分、15分和12分。该班某生三科成绩分别是85分、82分和90分,问:该生这三科成绩哪一科最好? Z语文=(85-80)/10=0.5 Z数学=(82-70)/15=0.8Z英语=(90-85)/12=0.42评价:线性转换的标准分数缺点:1.不易理解,外行不易看懂。 2.线性转换后的标准分数只能用来比较两个分布形态相同的分数,如果分布形态相差很大,仍然不能进行比较。非线性转换的标准分数为了能将来源于不同分布形式的分数进行比

23、较,可使用非线性转换,将非正态分布转换成正态分布。 思考:怎样将原始分数转换成正态化的标准分数呢?原始分数百分等级查正态分布表Z分数正态化的标准分数。标准分数变形 在标准分数 Z 的应用中,由于标准分数Z分值过小,并往往带有小数和负值等缺陷,在许多情形下直接使用不大合乎人们表示分数的习惯,故通常把标准分数Z通过线性变换转到更大的标准分数量表上。 Z分数一般转换公式为 T=a+bz a和b为选定的两个常数,Z为标准分数,T为线性变换的标准分数。教育与心理测验中的T分数:T=50+10Z韦氏智力量表中各分测验的量表分:T=10+3Z 韦氏智力量表智商(离差智商):IQ=100+15Z美国大学入学考

24、试报告分数:CEEB=500+100Z为出国人员举行的英语水平考试:EPT=90+20Z美国教育测验中心举办“托福”考试:TOEFL=500+70Z举例二、常模标准化常模标准化是指常模团体具有代表性。常模来自一个团体,而非某个个体。常模团体的界定常模团体是由具有某种共同特征的人所组成的一个群体。通常选择一个能够代表总体的样组,该样组就叫做标准化样组,也就是常模团体。它用一个标准的、规范的分数表示出来,以提供比较的基础。常模团体建立的条件群体的构成必须明确界定常模团体必须是所测群体的代表性样本样本的大小要适当标准化样组是一定时空的产物为特殊群体制定特殊常模中国正常人SCL-90常模(N=1388

25、) 因子统计指标躯体化强迫人际敏感抑郁焦虑敌对恐怖偏执精神病状总均分平均分1.371.621.651.501.391.481.231.431.291.44标准差0.480.580.510.590.430.560.410.570.420.43全国青年SCL-90常模(N=781) 因子统计指标躯体化强迫人际敏感抑郁焦虑敌对恐怖偏执精神病状总均分平均分1.341.691.761.571.421.501.331.521.361.34标准差0.450.610.670.610.430.570.450.600.470.45全国部分地区大学生SCL-90常模(N=4141) 因子统计指标躯体化强迫人际敏感抑

26、郁焦虑敌对恐怖偏执精神病状总均分平均分1.451.991.981.831.641.771.461.851.631.45标准差0.490.640.740.650.590.680.530.690.540.49江西省全日制大学生SCL-90常模表(N=3422) 因子统计指标躯体化强迫人际敏感抑郁焦虑敌对恐怖偏执精神病状总均分平均分1.341.911.821.761.551.651.371.691.521.45标准差0.370.560.560.570.470.570.410.520.450.44常模团体必须是所测群体的代表性样本常模团体缺乏代表性,会使常模资料产生偏差而影响对测验分数的解释。 简单随

27、机取样 等距抽样 分层随机取样 两阶段随机取样样本的大小要适当依据统计取样的原理,样本愈大则所求得的统计量误差愈小,愈接近总体的统计量。在实际工作中,应从经济的或实用的可能性和减少误差这两方面来综合考虑样本的大小。总体数目小,只有几十个人,则需要100%的样本。如果总体数目大,相应的样本也大,一般最低不小于30或100个。全国性常模,一般应有20003000人为宜。 标准化样组是一定时空的产物 由于教育、时代变迁等多种因素的影响,几年前所编制的常模可能不再适合,因此常模必须定期地修订,要以批判的眼光看待旧的常模,并尽可能采用新近的常模。常模建立举例中国新兵SCL90常模的建立中国心理卫生杂志2

28、000年04期 全国大学生SCL-90新常模构建问题研究中国校医2009年03期37岁儿童气质量表全国城市常模的建立中国儿童保健杂志1998年04期 中国小学生基本数学能力测试量表常模的建立中国临床康复2006年30期中学生SCL-90信度、效度检验与常模建立中国心理卫生杂志1999年 01期Conners教师评定量表的应用性研究及壮族常模的建立右江民族医学院学报2005年02 期三、常模参照测验与标准参照测验常模参照测验:标准参照测验:第三节 其他有关测验的知识例1 某人在新入学的大学生中随机抽取40人,组织症状自评量表(SCL-90)测验,以了解新生心理健康的水平,及有针对性地进行心理教育

29、和疏导,避免意外事件的发生。试就量表测验结果,对此次测验的可靠性进行分析 SCL-90量表,包含90个题目,由受试者根据自己在最近一周以内的实际感受,在:没有、很轻、中等、偏重、严重各选项中选择一个答案,每个选项分别计为0,1,2,3,4分。 SCL-90分为9个因子,分别为躯体化、强迫症状、人际关系敏感、忧郁、焦虑、敌对性、恐怖、偏执和精神病性。分析对象为答卷者所选的五项答案得分,计算各因子得分和问卷总分。求各因子的各种信度系数和问卷总的信度系数。表11-2 各因子描述统计量在“Model:”选项中,SPSS提供5种信度分析模型:Alpha: Cronbach 系数Split-half: 分半信度,又称 Spearman-Brown系数,其应用的前提 条件是两个分半表的信度和方差均满 足齐性。Guttman: Guttman分半信度,可不满 足上述要求Parallel:平行模型Strict Parallel:严格平行模型量表的cronbach 系数 从菜单选择Analyze Scale Reliability AnalysisItem:a1/b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论