第三章 测量的误差及其检验_第1页
第三章 测量的误差及其检验_第2页
第三章 测量的误差及其检验_第3页
第三章 测量的误差及其检验_第4页
第三章 测量的误差及其检验_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章测量的误差及其检验

一、心理测量误差及其来源二、心理心理测验的基本指标三、心理测量的信度四、心理测量的效度请列举一些你所使用过或接触过的量表思考:量表的作用是什么?你如何解释下述现象?一个很聪明的孩子,测得智商是80分。一个学习很好的学生,考试成绩为60分。一个人缘很好的人,人际关系测量低于常模值。

尺子的数据与我们的目测更一致,而秤盘的数据则与我们的目测不一致。因此,尺子是测量身高的有效工具——效度。什么材料的尺子?——钢铁(热胀冷缩)涉及到一致性的问题。——信度总结:量表是我们用来了解心理特质的工具,但这个工具是有误差的。误差要控制在一个许可的范围内。第一节测量的误差一、误差种类及其含义系统误差:与测量目的无关的因素所引起的恒定的有规律的误差,稳定地存在与每一次测量之中,这种误差就叫做系统误差。随机误差:与测量目的无关的偶然因素所引起的变化无规律的误差,使得多次的测量结果不一致,其误差的大小和方向是随机的。这种误差叫随机误差。系统误差只影响测量的准确性,而随机误差既影响准确性,又影响一致性。

二、误差的来源1、测量工具:项目取样;表述的清晰与准确,及其可操作性;信度与效度的问题。2、测量对象——被试:情绪、动机、疲劳、经验(技能与技巧)、学习效应、反应倾向等;3、实测过程:由于一些恒定因素容易控制,故主要指一些偶然因素:如物理环境、时间安排、主试因素、意外干扰、评分等。

三、真分数真分数是一个理论上构想的概念,指测量没有误差时的所得到的值。任何一个测验分数都是真分数与测量误差的和,即:X=T+E

这里的误差E只是随机误差,而系统误差则包含在真分数T中。E可以是正的,也可能是负的。对团体来说,实得分数的变异数(方差)等于真分数的变异数加上误差的变异数,即SX2=ST2+SE2

而系统误差的变异数包含在真分数的变异数之中,所以真分数的变异数是由两部分组成:与测量目的有关的变异数,与测量目的无关的变异数。即:ST2=SV2+SI2

这样,一组分数的变异性就由三部分组成:与测量目的有关的变异数,与测量目的无关的变异数,以及随机误差变异数,即:SX2=SV2+SI2+SE2。SX2ST2

SE2SI2SV2四、心理测验的基本指标1、行为样本(behaviorsample):测查的是部分心理特质与特定的行为,而非全部,这与质检、水检、血检一样涉及抽样问题(根据心理理论抽样)。2、标准化3、信度(reliability):测验的可靠性,表示测量结果的一致性,通常用同一测验多次测量同一团体或个体的结果之间的一致程度来表示。4、效度(validity):有效性,实际测出所要测的心理特质的程度。5、难度或应答率难度:成就测验或能力测验要求项目难度值(天花板效应和地板效应),题目应由简到难、由易到繁排列——难度控制。第二节心理测量的信度一、什么是信度:稳定性、可靠性、一致性

1.信度指实测值和真值相差的程度

2.信度指统计量与参数之间的接近程度

3.信度是指一种测验对相同的应试者再次测验时引起同样反应的程度一个良好的心理测量,多次进行测量,其结果应该的是始终保持不变。

通常,心理测量的信度通过信度系数来衡量:

1、信度乃是一个被测团体真分数的变异数与实得分数的变异数之比。

rXX=ST2/SX2

2、信度乃是一个被测团体真分数与实得分数的相关系数的平方。

rXX=P2TX

3、信度乃是一个测验X与它的任意一个平行测验X’的相关系数。

rXX=PXX'二、信度的种类:

1、重测信度(test-retestreliability):也叫稳定系数,是一组被试在不同时间用同一测验测量两次(间隔一段时距)所得分数的相关系数。实质:表示测验结果的稳定性。故称之为稳定性系数(CoefficientofStability)形式:施测—适当时间—再施测重测信度的计算方法是积差相关法,因而rxx就是皮尔逊的积差相关系数。时间间隔的把握:间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。年幼儿童,间隔要小;年长群体,间隔可大。智力测验的间隔不能太短,成就测验的间隔不能太长。

一般间隔时间不超过六个月。(即不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘)。在一般情况下,间隔施测的副本信度最低,因为很多因素有机会影响到分数。相反,校正过的分半相关,因为影响的因素少,所得的信度估计为最高。使用重测信度应注意:不是所有测验都可以计算重测信度。并且重测信度只是反映了随机误差的影响,而不是反映被试心理特点的长期变化。

2、复本信度(alternate-formreliability):

两个平行测验,也叫等值系数,估计的是两个假定相等的复份测验之间的一致性,是两个平行测验分数的相关。当一个测验不能用来实施两次时,就需要给同一个测验编制两份平行的测验。定义:两个复本施测同一被试群体,求其相关。等值性系数:同时连续施测,反映内容变异。形式:复本A—最短时间—复本B稳定性与等值性系数:时间间隔施测,内容变异+重测信度误差形式:复本A—适当时间—复本B

复本等值要符合下列条件:各份测验测量的是同一种心理特性。各份测验具有相同的内容、形式、数量、难度、区分度、时限、指导语等。各份测验的题目不应重复。前后测验的时间间隔要适当,太长和太短都不好。各份测验的分数分布(平均数和标准差)大致相等。复本编好后,应再测一次,以确保各份测验的等值。优点:避免了重测带来的记忆效应和练习效应;可用于长期追踪研究前后测量;减少了作弊的可能性。缺陷:1、有些测验因正迁移效应使测验性质改变;如测量的内容很容易受练习的影响,复本信度也无法清除这种练习效应。

2、对许多测验来说,难以编制合适的复本。重测复本信度:即在不同的时间里施测两个等值的测验(复本),得到的相关就是重测复本信度,也叫稳定等值系数。它比单一的重测信度或复本信度都要严格、全面一些。

3、折半信度(split-halfreliability):

在测验没有复本且只能实施一次的情况下,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得分半信度。

计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值。为了使两半基本等值,可将项目按由易到难的顺序排列编号,然后按奇数和偶数序号将项目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半,否则会使信度值偏高。也不要出现前后直接分段.由于分半信度实际上只是半个测验的信度,测验越长、项目越多,两半分数的相关就越高。因此,对长度不同的测验,要用校正公式。当试卷中存在任选题或试卷为速度测验时,不宜采用分半法.

4、同质性信度(homogeneityreliability):所有题目间的一致性程度。同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强,如果相关很低或是呈负相关,则题目为异质。

因素分析的思路

分半信度是求测验两半之间的一致性或同质性,而同质性是求所有题目间的一致性。因此分半信度实际上是同质性信度的一种,可以作为测验同质性评价的粗略估计指标。因为可以根据测验得分来推论或验证某种概念或理论构思,因此同质性信度也是一种构思效度,或叫结构效度,它实际上介于信度与效度之间。

5、评分者信度:多个评分者对同一测验结果评分所得分数之间的一致性。评分者信度是指不同评分者之间在测验结果计分上的一致性。在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高.

估计信度的方法与测验复本的数目

以及施测次数的关系被试所需要施测的次数所需要复本的数目一二一分半信度同质性信度评分者信度复本信度(连续施测)二再测信度复本信度(间隔施测)在一般情况下,间隔施测的复本信度最低,因为很多因素有机会影响到分数。相反,校正过的分半信度,因为影响的因素少,所得的信度估计为最高。各种信度系数相应误差变异的来源信度系数的类型误差变异的来源再测信度复本信度(连续施测)复本信度(间隔施测)分半信度同质性信度评分者信度时间取样内容取样时间与内容取样内容取样内容的异质性评分者间的差异三、信度系数的应用

1、解释预测个人分数的意义。

2、解释真实分数与实得分数间的关系,明确告诉我们测验误差大小。

3、新编的测验信度应高于原有的同类测验或相似测验。

4、下结论说某测验比较可靠,必须是依据情境的,经多次证实的。

5、它是确定测验好坏的一个指标。一般的原则是:

当rxx<0.70时,测验不能用于对个人作出评价或预测,而且不能做团体间比较。

当0.70≤rxx<0.85时,可用于团体比较。

当rxx≥0.85时,才可以用来鉴别或预测个人成绩

实际上,有多少种误差来源,便有多少种估计信度的方法。一个测验哪种误差大,便应该用哪种误差估计。有时一个测验需要有几种信度系数,这样我们就把总分数的变异数分成不同的分支。假设对100个六年级学生以两个月的时间间隔先后施测一个创造力测验的A、B两个复本,所得的等值性与稳定性系数为0.70。我们还根据被试对每个复本的反应计算出分半信度为0.80(先计算每个复本的分半相关系数。将二者平均后再用斯皮尔曼-布朗公式校正)。同时,我们让另一个评分者随机抽取50份卷子另外评分,得到评分者信度为0.92。然后,我们对这三种方法所产生的误差变异进行分析。一个假想测验的误差变异来源分析信度类型误差变异量误差变异来源复本信度(间隔施测)1-0.70=0.30时间与内容取样分半信度1-0.80=0.20内容取样上述二者差异0.30-0.20=0.10时间取样评分者信度1-0.92=0.08评分者差异误差变异总和0.20+0.10+0.08=0.38真实变异1-0.38=0.62一个假想测验的误差变异来源分析真实变异误差变异时间上的稳定性,复本之间的一致性,评分者之间的一致性内容取样误差时间取样误差评分者间差异62%20%10%8%

四、影响信度的因素:

1、被试样本与同质程度:个体身心状况,如应试动机、注意力、耐心、求胜心、作答态度等会影响测量的误差。团体被试:团体内部的离散程度以及团体的平均水平;被试的样本。

(1)样本团体得分分布的影响:求信度的样本团体得分分布如果比较窄小的话信度就低。

(2)样本团体异质性的影响:样本团体异质的话,测验分数的分布就比同质样本的要广,分数的离差就大,样本的方差就大,信度就高。实际上,高信度可能是假性高信度,是由样本团体的异质造成的。但如果常模总体要求各种各样的人,则异质的信度样本求得的信度就是真信度。这时,相反的情况就需要校正信度。(3)样本团体平均能力水平的影响。由于信度也会因样本间团体平均能力水平的不同而不同,因此在求信度时,一定要注意信度样本与常模总体间是否一致。

2、测验的长度:在其他条件均等的情况下,测验越长,信度越高。原因在于:(1)测验越长,即题目越多,测验的内容取样就越有可能有代表性。(2)测验越长,被试的猜测因素影响就越小。增加的项目须与原项目同质;增加的数目适当,过多——疲劳、反感,从而降低信度。3、测验的难度:难度对信度的影响只存在于某些测验中,如智力测验、成就测验、能力倾向测验、教育测验等。测验的难度对信度有间接影响,因为如果测验过难,被试的得分会集中在低分区。过于容易,分数则集中在高分区。两种情况都使信度样本的得分范围变窄,变异量降低,从而低估测验信度。因此,当难度为0.5时信度最高。4、测验的时间间隔:这一因素之对重测信度和不同时测量时的复本信度有影响,对其余的信度来说不存在时间间隔问题。

第四节心理测量的效度效度要回答的基本问题:要测量的是什么东西?或者说是否测到了它所要测的东西?测验对它所测量的东西测到什么程度?一. 效度的一般定义及其内涵效度是指测验的准确性,即测验能够测出他们所欲测的特质的程度。1、效度的性质:效度的真实含义是指测验结果的效度,也就是测验结果的准确程度。(1)效度具有相对性。(2)效度具有连续性。测验的有效性只有程度上的差别。(3)效度也不是直接就可以测量到的,它是从已有的证据推理而来的。2. 效度的统计与原理:P523. 效度和信度关系:两者所涉及的误差不同:信度仅考虑偶然的随机误差占测验总变异的比例,效度则还包括与测验无关的但稳定的测量误差。

(1)信度是效度的必要而非充分条件。(2)效度是受信度制约的。高效度,高信度高信度,低效度低信度,低效度

二、 效度的估计

1966年美国心理学会在《教育心理测验值标准》中将效度分为三大类:(一)内容效度(ContentValidity)内容效度指测验实际测到的内容与所要测量的内容之间的吻合程度。1、满足条件:要确定好内容范围,并使测验的全部项目均在此范围内;测验项目应是已界定内容范围的代表性样本。2、确定内容效度的方法:专家判断法定义好内容总体,并描绘出有关知识与技能的轮廓;划分细纲目,并根据重要性规划好各个纲目的加权比例,作出尽可能详细的描述;确定每道题目所测的知识与技能,将自己的分类与测验编制的纲目做比较;指定判定量表,从各方面对测验作出评定。

复本法再测法经验法3、内容效度应用:内容效度—表面效度(二)构想效度(ConstructValidity)构想效度是指测验对于被称作构想的某一理论概念或特质测量的程度。研究构想效度就是要搞清楚:测验测量的是什么构想(概念或特质)?测验分数的变异中有多少来自于测验的理论构想?构想效度是没有单一指标的,它是由各方面证据累积起来作出评价的。

1、构想效度的基本步骤:确定结构效度的基本步骤:建立理论框架、根据理论框架推演出有关测验成绩的假设、用逻辑或实证的方法来证明假设。

相关、因素分析2、确定构想效度的方法:测验内法:是通过研究测验内部结构来界定理论构想,从而为构想效度提供证据。确定测验的内容效度分析被试对项目作反应的过程考察测验的同质性测验间法:通过分析几个测验间的相关关系,找出其共同之处,进行推断这些测验测量的特质是什么,也可以确定这些测验构想效度如何。相容效度区分效度因素效度

效标关联法实验操作法(三)效标效度:指一个测验对处于特定情景中的个体的行为进行估计的有效性。1、预测效度与同时性效度2、效标和效标测量:

效标:指衡量测验有效性的外在标准,通常指我们所要预测的行为。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论