心理与教育测量第四章课件_第1页
心理与教育测量第四章课件_第2页
心理与教育测量第四章课件_第3页
心理与教育测量第四章课件_第4页
心理与教育测量第四章课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

心理与教育测量主讲:邓稳根(博士)赣南师范学院教育科学学院E-Mail:dwengen@163.com第四章测量信度信度概述信度的估计方法提高测量信度的方法第一节信度概述信度的定义信度的作用一、信度的定义信度的描述性定义信度(reliability)指测量结果的稳定性程度,有时也叫测量结果的可靠性。信度系数()是表示测量信度高低的指标,其值域为[0,1]。世界上没有百分之一百可靠的测量。只是理论上的。信度也是多次测量同一对象的一致性程度。信度的统计定义(统计等价定义)信度是被试团体真分数方差与实得分数方差之比,即:信度是被试团体真分数与实得分数相关系数的平方,即:信度是一个测验与它的任意一个平行测验的相关系数,即:二、信度的作用信度是测量过程中所存在的随机误差大小的反映。测量中随机误差越大,测量的信度越低。(但信度与系统误差无关!)信度可以用来解释个人测验分数的意义。信度可以帮助进行测验分数的比较1、解释个人分数的意义测量标准误的作用:估计真实分数的范围;了解实得分数再测时可能的变化情形。真分数的估计,或再测时实得分数的变化范围计算:根据SE=Sx×sqrt(1-rxx)

,求SE。根据显著性水平α或置信水平(1-α)。则真分数的置信区间或再测时X的变化范围是:X-Zα/2SE<T≤X+Zα/2SE真分数估计举例在一个人格测验中,某个被试的外向性得分为20分,已知该分测验的标准差为10,信度系数为0.91。试问该被试外向性的真实水平处于什么范围(α=0.05)?如果对该被试重新施测,他的分数将不会落在什么范围外?2、比较不同测验分数的差异已知X,Y,求X,Y是否差异显著。根据SEd=S(2-rxx-ryy)1/2,求SEd,这里要求两个测验的标准差相同。比较|X-Y|/SEd和Zα/2的大小,如果|X1-X2|/SEd>Zα/2,则差异显著;反之,则差异不显著。不同测验分数的差异比较举例某被试在韦氏成人智力测验中言语智商为100,操作智商为105,已知两个分数都是以100为平均数,15为标准差的标准分数,假设言语分量表和操作分量表的分半信度为0.87和0.88,问言语智商和操作智商是否存在显著性差异(α=0.05)。需要注意的问题一个测验可以有多个信度估计值,因而其误差估计值也会有多个。本理论假定同一个团体中所有人的测量误差是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。测量的结果不能僵硬地看成是一个点,而应看成是一个以该点为中心,以SE的某个倍数为半径上下波动的一个范围。例如,真正IQ一般在实得IQ±5的范围内波动。第二节信度的估计方法重测信度复本信度分半信度同质性信度分半信度和同质性信度也叫内部一致性系数。评分者信度成套测验综合分数的信度一、重测信度定义:同一测验对同一批被试先后施测量两次所得结果的一致性程度,其大小为两次分数的积差相关系数。也叫稳定性系数。用于考查测量结果跨时间的稳定性。计算公式:举例:假设有一份考试焦虑调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。使用条件①所测心理品质相对稳定,否则无法判断是量具信度低,还是品质本身稳定性差。②前后间隔时间要恰当,遗忘和练习的效果基本上相互抵消。时间间距依问题的性质和测量目的而定。通常,以2-4周为宜。智力测验的间隔一般在6个月左右。③间隔期间被试在所测品质方面无更多学习和训练。④有被试的真诚合作。需要注意的问题当某个测验涉及多个年龄或年级等不同层次的考生(被试)时,重测信度不能直接用测验的原始分数进行估算,而必须使用经过常模量表转换之后的量表分数或其他类型的标准分数进行估算。否则会高估。当极少数考生的前测分数与后测分数相差特别明显时,应去除这些异常的极端值(控制在2%以内),以避免低估重测信度。评价优点:能提供有关测验是否随时间而变异的资料,可作为被试将来行为表现的依据。缺点:难以消除记忆和练习及学习的影响;难以取得被试的全面合作。二、复本信度定义两个平行测验测量同一批被试所得结果的一致性程度。其大小为两次分数的积差相关系数。分类等值性系数(通常指复本信度):两个复本测验同时连续施测。稳定性与等值性系数(通常指重测复本信度):两个复本测验相距一段时间分两次施测。是对信度的最严格的检验。实施平衡设计:将被试随机分成两半,一半先测A卷,再测B卷;另一半先测B卷,再测A卷。计算公式类似于重测信度。举例假设用A、B两型智力复本测验对五年级10个学生施测。结果见下表。试求该测验的复本信度。测验被试12345678910X1

1617181415131220119X2

1516191816121119108使用前提条件要命制出真正等值的平行测验。被试要有条件(时间、经费等)接受两个测验。评价优点:能减少练习和记忆效应。缺点:很难构造出两份以上的平行测验;只能减少而不能消除练习效应;无法消除迁移效应。三、分半信度定义:将一个测验随机分为对等的两半(常用奇偶分半),所有被试在这两半测验上得分的一致性程度。计算通常也采用积差相关系数求取。由于测验长度变短,通常需要校正,公式为:,其中为两半的相关系数。举例已知某量表的分半信度为0.63,请算出原长度的信度系数。上式为Spearman-Brown公式,使用条件为两半分数的方差(变异数)相等。如果不等,可采用下列两个等价公式直接计算。Flanagan公式:Rulon公式:其中、为两半测验分数方差,为两半测验分数之差数的方差,为总方差。使用条件随机分成的两半必须是对等的两半。通常在只能施测一次或没有复本的情况下使用。评价优点:只需施测一次便能求取信度。缺点:有些题目,很难分为对等的两半,比如语文考试里的作文,就没办法分半;分半方法很多,所估信度很可能有差异。四、同质性信度定义测验内部所有题目间的一致性程度。一致性包含两重含义:所有题目都是测同一种心理特质。所有题目得分之间都有较高的正相关。两者的关系:正相关高是同质性高的必要而非充分条件。计算求所有分半信度的平均值。缺点:分半的方法太多,有Cnn/2个,计算太麻烦。例如,有20个题目,则分半的数量有:C2010个。先求所有题目间相关系数的平均值,再用下列公式计算:其中K为一个测验题目个数,为所有题目间相关系数的平均值。Kuder-Richardson(K-R)公式K-R20公式(只适用于两级评分,例如0,1):其中K为题目数,为答对第i题的人数比例,为答错第i题的人数比例,为测验总分的变异。K-R21公式(在KR20基础上要求各题难度相同):其中为所有题平均答对率,为所有题目平均答错率。克龙巴赫

系数(适用所有题目):

其中,Si2为每个题目的方差。注意:大,信度必高,但小,信度不一定低。荷伊特信度(采用方差分量比方法):克龙巴赫

系数计算举例语文测验模拟资料如表,试求内部一致性系数α的值(注:第一行数字为被试编号,第一列为项目编号)。12345678910①②③④⑤35263436545416423562864957587589610786910712141015111313151512荷伊特信度举例五、评分者信度定义多个评分者给同一批人的答卷进行评分的一致性程度。计算两个评分者:采用积差相关或等级相关多个评分者:无相同等级情况:肯德尔W系数有相同等级情况:校正之后的肯德尔W系数。W系数的显著性检验:查W表(K:3~20人,N:3~7个);计算χ2值:χ2=K(N-1)W,df=N-1。肯德尔W系数校正后的W系数(略)评分误差产生的原因试题原因试题答案不唯一,评分标准还客观,要依赖于评分者主观经验,因此评分误差严重主要在自由反应性试题上,特别是论文式试题。评分者原因:①评分者专业知识水平不够;影响对试题和答案的理解,尤其是综合性试题,创造性答案。②评分者评判能力不够;缺乏评判能力,特别是缺乏计量评判能力,评分勿高忽低,或偏高、偏低。③评分者个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论