版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、关于心理与教育测量第四章第一张,PPT共四十六页,创作于2022年6月第四章 测量信度信度概述信度的估计方法提高测量信度的方法第二张,PPT共四十六页,创作于2022年6月第一节 信度概述信度的定义信度的作用第三张,PPT共四十六页,创作于2022年6月一、信度的定义信度的描述性定义信度(reliability)指测量结果的稳定性程度,有时也叫测量结果的可靠性。信度系数( )是表示测量信度高低的指标,其值域为0,1。世界上没有百分之一百可靠的测量。 只是理论上的。信度也是多次测量同一对象的一致性程度。 第四张,PPT共四十六页,创作于2022年6月信度的统计定义(统计等价定义) 信度是被试团体
2、真分数方差与实得分数方差之比,即:信度是被试团体真分数与实得分数相关系数的平方,即:信度是一个测验与它的任意一个平行测验的相关系数,即:第五张,PPT共四十六页,创作于2022年6月二、信度的作用信度是测量过程中所存在的随机误差大小的反映。测量中随机误差越大,测量的信度越低。(但信度与系统误差无关!) 信度可以用来解释个人测验分数的意义。信度可以帮助进行测验分数的比较第六张,PPT共四十六页,创作于2022年6月1、解释个人分数的意义测量标准误的作用:估计真实分数的范围;了解实得分数再测时可能的变化情形。真分数的估计,或再测时实得分数的变化范围计算:根据SE=Sxsqrt(1- rxx) ,求
3、SE。根据显著性水平或置信水平(1-)。则真分数的置信区间或再测时X的变化范围是:X-Z/2SE Z/2,则差异显著;反之,则差异不显著。第九张,PPT共四十六页,创作于2022年6月不同测验分数的差异比较举例某被试在韦氏成人智力测验中言语智商为100,操作智商为105,已知两个分数都是以100为平均数,15为标准差的标准分数,假设言语分量表和操作分量表的分半信度为0.87和0.88,问言语智商和操作智商是否存在显著性差异(=0.05 )。第十张,PPT共四十六页,创作于2022年6月需要注意的问题一个测验可以有多个信度估计值,因而其误差估计值也会有多个。本理论假定同一个团体中所有人的测量误差
4、是相同的,但实际上水平高的人与水平低的人在做测量时会有不同的随机误差。测量的结果不能僵硬地看成是一个点,而应看成是一个以该点为中心,以SE的某个倍数为半径上下波动的一个范围。例如,真正IQ一般在实得IQ5的范围内波动。第十一张,PPT共四十六页,创作于2022年6月第二节 信度的估计方法重测信度复本信度分半信度同质性信度分半信度和同质性信度也叫内部一致性系数。评分者信度成套测验综合分数的信度第十二张,PPT共四十六页,创作于2022年6月一、重测信度定义:同一测验对同一批被试先后施测量两次所得结果的一致性程度,其大小为两次分数的积差相关系数。 也叫稳定性系数。用于考查测量结果跨时间的稳定性。计
5、算公式:第十三张,PPT共四十六页,创作于2022年6月举例:假设有一份考试焦虑调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。 第十四张,PPT共四十六页,创作于2022年6月使用条件所测心理品质相对稳定,否则无法判断是量具信度低,还是品质本身稳定性差。前后间隔时间要恰当,遗忘和练习的效果基本上相互抵消。时间间距依问题的性质和测量目的而定。通常,以2-4周为宜。智力测验的间隔一般在6个月左右。间隔期间被试在所测品质方面无更多学习和训练。有被试的真诚合作。 第十五张,PPT共四十六页,创作于2022年6月需要注意的问题当某个测验涉及多个年龄或年级等不同层次的
6、考生(被试)时,重测信度不能直接用测验的原始分数进行估算,而必须使用经过常模量表转换之后的量表分数或其他类型的标准分数进行估算。否则会高估。当极少数考生的前测分数与后测分数相差特别明显时,应去除这些异常的极端值(控制在2%以内),以避免低估重测信度。第十六张,PPT共四十六页,创作于2022年6月评价优点:能提供有关测验是否随时间而变异的资料,可作为被试将来行为表现的依据。缺点:难以消除记忆和练习及学习的影响;难以取得被试的全面合作。 第十七张,PPT共四十六页,创作于2022年6月二、复本信度定义两个平行测验测量同一批被试所得结果的一致性程度。其大小为两次分数的积差相关系数。分类等值性系数(
7、通常指复本信度):两个复本测验同时连续施测。稳定性与等值性系数(通常指重测复本信度):两个复本测验相距一段时间分两次施测。是对信度的最严格的检验。实施平衡设计:将被试随机分成两半,一半先测A卷,再测B卷;另一半先测B卷,再测A卷。第十八张,PPT共四十六页,创作于2022年6月计算公式类似于重测信度。举例假设用A、B两型智力复本测验对五年级10个学生施测。结果见下表。试求该测验的复本信度。 第十九张,PPT共四十六页,创作于2022年6月测验 被试 1 2 3 4 5 6 7 8 9 10 X1 16 17 18 14 15 13 12 20 11 9 X2 15 16 19 18 16 12
8、 11 19 10 8第二十张,PPT共四十六页,创作于2022年6月使用前提条件要命制出真正等值的平行测验。被试要有条件(时间、经费等)接受两个测验。评价优点:能减少练习和记忆效应。缺点:很难构造出两份以上的平行测验;只能减少而不能消除练习效应;无法消除迁移效应。第二十一张,PPT共四十六页,创作于2022年6月三、分半信度定义:将一个测验随机分为对等的两半(常用奇偶分半),所有被试在这两半测验上得分的一致性程度。计算通常也采用积差相关系数求取。由于测验长度变短,通常需要校正,公式为: ,其中 为两半的相关系数。第二十二张,PPT共四十六页,创作于2022年6月举例已知某量表的分半信度为0.
9、63,请算出原长度的信度系数。 第二十三张,PPT共四十六页,创作于2022年6月上式为Spearman-Brown公式,使用条件为两半分数的方差(变异数)相等。如果不等,可采用下列两个等价公式直接计算。Flanagan公式:Rulon公式:其中 、 为两半测验分数方差, 为两半测验分数之差数的方差, 为总方差。 第二十四张,PPT共四十六页,创作于2022年6月使用条件随机分成的两半必须是对等的两半。通常在只能施测一次或没有复本的情况下使用。评价优点:只需施测一次便能求取信度。缺点:有些题目,很难分为对等的两半,比如语文考试里的作文,就没办法分半;分半方法很多,所估信度很可能有差异。 第二十
10、五张,PPT共四十六页,创作于2022年6月四、同质性信度定义测验内部所有题目间的一致性程度。 一致性包含两重含义:所有题目都是测同一种心理特质。所有题目得分之间都有较高的正相关。两者的关系:正相关高是同质性高的必要而非充分条件。第二十六张,PPT共四十六页,创作于2022年6月计算求所有分半信度的平均值。缺点:分半的方法太多,有Cnn/2个,计算太麻烦。例如,有20个题目,则分半的数量有: C2010个。先求所有题目间相关系数的平均值,再用下列公式计算:其中K为一个测验题目个数, 为所有题目间相关系数的平均值。第二十七张,PPT共四十六页,创作于2022年6月Kuder-Richardson
11、(K-R)公式K-R20公式(只适用于两级评分,例如0,1): 其中K为题目数, 为答对第i题的人数比例, 为答错第i题的人数比例, 为测验总分的变异。K-R21公式(在KR20基础上要求各题难度相同): 其中 为所有题平均答对率, 为所有题目平均答错率。第二十八张,PPT共四十六页,创作于2022年6月克龙巴赫系数(适用所有题目): 其中,Si2为每个题目的方差。注意: 大,信度必高,但小,信度不一定低。荷伊特信度(采用方差分量比方法):第二十九张,PPT共四十六页,创作于2022年6月克龙巴赫系数计算举例 语文测验模拟资料如表,试求内部一致性系数的值(注:第一行数字为被试编号,第一列为项目
12、编号)。 1234567891035263436545416423562864957587589610786910712141015111313151512第三十张,PPT共四十六页,创作于2022年6月荷伊特信度举例第三十一张,PPT共四十六页,创作于2022年6月五、评分者信度定义多个评分者给同一批人的答卷进行评分的一致性程度。 计算两个评分者:采用积差相关或等级相关多个评分者:无相同等级情况:肯德尔W系数有相同等级情况:校正之后的肯德尔W系数。W系数的显著性检验:查W表(K:320人,N:37个);计算2值:2 =K(N-1)W,df=N-1。第三十二张,PPT共四十六页,创作于2022
13、年6月肯德尔W系数校正后的W系数(略)第三十三张,PPT共四十六页,创作于2022年6月评分误差产生的原因试题原因试题答案不唯一,评分标准还客观,要依赖于评分者主观经验,因此评分误差严重主要在自由反应性试题上,特别是论文式试题。评分者原因:评分者专业知识水平不够;影响对试题和答案的理解,尤其是综合性试题,创造性答案。评分者评判能力不够;缺乏评判能力,特别是缺乏计量评判能力,评分勿高忽低,或偏高、偏低。评分者个性倾向影响:宽、严不同,导致评分不一致。评分者心理状况和工作态度不同。 第三十四张,PPT共四十六页,创作于2022年6月评分阅卷中各种客观效应的影响:“名片效应”“光环效应”“对比效应”
14、“先后效应”环境与组织管理的影响。 第三十五张,PPT共四十六页,创作于2022年6月控制论文式试题评分误差的方法。命题进尽量控制作答的发散范围,预先制定好评分规则,并尽是客观、精细,但不吹毛求疵。选择和培训阅卷人员,统一评分标准,规范阅卷行为。流水作业评分。分因素评分。 第三十六张,PPT共四十六页,创作于2022年6月组织复查。自觉防止各种客观效应的影响。在规模阅卷中可考虑采用统计手段控制和调整评分误差。均数、标准差。网上阅卷。电子阅卷员。 第三十七张,PPT共四十六页,创作于2022年6月六、成套测验综合分数的信度略第三十八张,PPT共四十六页,创作于2022年6月第三节 提高测量信度的
15、方法影响测量信度的主要因素提高测量信度的常用方法几点说明第三十九张,PPT共四十六页,创作于2022年6月一、影响测量信度的主要因素被试方面:单个被试心理的稳定性;团体被试水平的离散程度及平均水平的过高或过低。主试者方面施测人员不按规定施测或给学生加压、暗示。阅卷人员标准掌握一致、不准确。第四十张,PPT共四十六页,创作于2022年6月施测情境方面考场条件声、光、空间、桌面、仪器质量等。测量工具方面:量具性能是否稳定,包括试题取样代表性、稳定性,试题同质性,试题难度及其分布。两次施测估计信度的间隔时间。时间间隔会影响重测信度和稳定性与等值性系数(有时也叫重测复本信度)时间间隔越长则信度越低。
16、第四十一张,PPT共四十六页,创作于2022年6月二、提高信度的常用方法适当增加测验长度。(其本质是加大行为样本容量)注意:加长部分必须与原测题同质,而且不可无限加长。 加长测验的效果可用rkk=krxx/1+(k-1)rxx计算,其中k为改变后的测验长度与原来长度之比,rxx为原测量的信度,rkk为测验长度增加为k倍后的测量信度。加长效果遵循报酬递减律。第四十二张,PPT共四十六页,创作于2022年6月举例有一个包括20个题目的测验,信度为0.60,若把测验增加到50个题目,其信度将增加到多少?一个包含60个题目的测验信度是0.80,欲将信度提高到0.90,需要增加多少题目? 第四十三张,PPT共四十六页,创作于2022年6月控制试题难度分布为正态,并把难度控制在中等水平。此时,被试得分方差增大,会提高信度。努力提高每一试题的区分度。维持试题所测内容的同质性。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023-2024学年广东省广州市海珠区九年级(上)期末英语试卷
- 2024年广东省深圳市龙华区中考英语二模试卷
- 人教版九年级语文上册教案
- 第四单元《三国两晋南北朝时期:政权分立与民族交融》-2024-2025学年七年级历史上册单元测试卷(统编版2024新教材)
- 消防检查要点二十条
- 职业学院机电一体化技术专业人才培养方案
- 半导体芯片制造设备市场需求与消费特点分析
- 搁物架家具市场需求与消费特点分析
- 外科用肩绷带市场需求与消费特点分析
- 人教版英语八年级上册写作专题训练
- 全国职业院校技能大赛(航空服务赛项)备赛试题库(汇总)
- JGT368-2012钢筋桁架楼承板规范
- 启蒙思想家卢梭
- 诊所计划书范本
- 装配式围档施工方案
- 小学一年级新生学位申请表
- 浙教版劳动教育六年级上册项目三 任务一《班级生活共观察》教学课件
- 小学信息技术-声控的秘密教学设计学情分析教材分析课后反思
- 课程名称耳应用解剖学
- 安徽高中会考:《通用技术》2023年考试真题与答案解析
- 西泠印社小学三年级上册书法
评论
0/150
提交评论