版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
测量的信度和效度你如何解释下述现象?
一个很聪明的孩子,测得智商是80分一个学习很好的学生,考试成绩为60分一个人缘很好的人,人际关系测量低于常模值误差的含义在测量中与目的无关的因素所引起的不准确或不一致效应。不准确、不一致不准确、一致准确、一致测量的误差系统误差(systemerror)由与测量无关的变量引起的一种恒定而有规律的误差。测量误差的种类
随机误差(randomerror)由与测量无关的变量引起的一种无规律的误差,不易控制心理测量误差的来源测验本身测验题目取样不当;测验题目格式不妥;测题的难度过高或过低;测题的指导语用词不当;测验时限过短。测验实施
物理环境;主试方面;意外干扰;评分不客观,计算、登记分数出错。被试应试动机;焦虑;生理因素;学习、发展和教育;测验经验;反应倾向;生理变因。两种误差的关系系统误差只影响测值的准确性,与效度有关随机误差既影响准确性,又影响一致性。与效度和信度都有关。测量误差的关系经典测量理论:真分数理论测验分数=真分数+误差(X=T+E)
真分数T:被试不受任何因素影响的条件下应该得到的测验分数,不可直接测量;在统计上用无数次测量的平均值代替。误差E:引起测量结果不一致的偶然误差,可正可负。例:学绩测验得分=真实掌握程度或能力+随机误差(猜测、身体状况、动机水平、考试焦虑、环境影响、手表看错等)信度的概念信度(可靠性):测量的一致性程度
一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致。信度只受随机误差影响,系统误差产生恒定效应,不影响测量工具的信度。信度的操作性定义测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率,即:ST2:真分数的变异数;SX2:测验分数的变异数。SX2=ST2+SE2
ST2=SV2+SI2
(与测量目的有关的变异,与测量目的无关的变异)
SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2
信度的性质信度:一组测验分数或一列测量的特性,不是个人分数的特性;真分数的变异数不能直接测量,是理论上构想的概念,只能根据一组实得分数得出估计。估计信度的方法重测信度复本信度内在一致性信度(同质性信度)评分者信度重测信度(Test-RetestReliability)定义:同一量表,同一被试群体,在不同时间,两次施测,求其相关。实质:表示测验结果的稳定性。故称之为稳定性系数(CoefficientofStability)
形式:施测—适当时间—再施测时间间隔的把握间隔时间越长,稳定性系数越低。适宜时间间隔依照测验目的、性质及被试特点而定。几分钟至几年。年幼儿童,间隔要小;年长群体,间隔可大。智力测验的间隔不能太短,成就测验的间隔不能太长。一般间隔时间不超过六个月。(即不能让被试记住上一次测验的内容,又不能让其特质发生变化,或对所学知识产生遗忘)复本信度(Alternate-formraliability)因为任何测验只是所有可能题目中的一份取样(行为样本),所以可编制许多平行的等值测验,叫做复本。复本等值要符合下列条件:各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等,难度和区分度大体相同。各份测验的分数分布(平均数和标准差)大致相等。复本编好后,应再测一次,以确保各份测验的等值。A卷:你是一个喜欢热闹的人吗?1=绝对是2=是3=不一定4=不是5=绝对不是B卷:你是一个喜欢安静的人吗?1=绝对是2=是3=不一定4=不是5=绝对不是定义:两个复本施测同一被试群体,求其相关。等值性系数:同时连续施测,反映内容变异。形式:复本A—最短时间—复本B稳定性与等值性系数:时间间隔施测,内容变异+重测信度误差形式:复本A—适当时间—复本B
分半信度(Split-HalfReliability)定义:在测验没有复本且只能实施一次的情况下,可将测验项目分成对等的两半,根据被试在这两半测验中所得的分数计算相关系数,即得分半信度。计算分半信度先要对测验分半。不同的分半法可能会得到不同的信度值。分半信度(Split-HalfReliability)为了使两半基本等值,可将项目按由易到难的顺序排列编号,然后按奇数和偶数序号将项目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半,否则会使信度值偏高。由于分半信度实际上只是半个测验的信度,测验越长、项目越多,两半分数的相关就越高。因此,对长度不同的测验,要用校正公式。斯皮尔曼-布朗校正公式
rx1x2表示两半测验分数的相关系数分半信度的估计如果两半测验不等值,亦即两半测验分数没有相同的平均数和标准差弗朗那根公式:
Sa2
和Sb2
:两个半测验分数的变异数;Sx2:测验总分的变异数。卢龙公式:
Sd2:两半测验分数之差的变异数,
Sx2:测验总分的变异数。同质性信度(HomogeneityReliability)同质性指测验的所有题目测量的是同一种心理特质,表现为各个题目得分之间有较高的相关,相关越高则同质性越强。同质性信度的估计(1)测量同质性信度基本公式
K:构成测验项目数,:相关系数平均数,
Rkk:同质性信度值。同质性信度的估计(2)库德-理查逊公式(K-R20公式)
K:构成测验的题目数;
pi:通过第i题的人数比例;
qi:未通过第i题的人数比例;
Sx2:测验总分的方差。
同质性信度的估计(3)库德-理查逊公式(K-R21公式)K-R20/21公式仅适用于答对一题得一分、答错无分的测验;
同质性信度的估计(4)克伦巴赫系数对于多重记分的测验,用Alpha系数估计:
K:测验的题目数;
Si2:某一题目分数的变异数;
Sx2:测验总分的变异数。
评分者信度(ScorerReliability)评分者信度是指不同评分者之间在测验结果计分上的一致性。在心理测验中,评分者信度的计算,通常是随机抽取若干份试卷,由至少两位受过训练的评分者按计分规则分别判分,然后计算它们的相关。几个评分者的评分越一致,评分者信度越高。
评分者信度(ScorerReliability)最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。如果评分者在三人以上,而且又采用等级记分时,就需要用肯德尔和谐系数来求评分者信度。评分者信度:K个评价者对N件被评价的事物评定一致性程度的度量(肯德尔W系数):Ri:每一件被评价事物的K个等级之和;N:被评价事物的件数即等级数;K:评价者的数目或等级变量的列数。评分者信度(ScorerReliability)信度系数的类型误差变异的来源计算公式施测次数所需复本数目重测信度时间取样积差相关系数21复本信度(连续施测)内容取样积差相关系数12复本信度(间隔施测)时间取样、内容取样积差相关系数22分半信度内容取样积差相关系数(需校正,常用斯-布公式)11同质性信度内容的异质性α系数(非二分法)11评分者信度评分者间的差异积差相关系数斯皮尔曼等级相关系数,肯德尔和谐系数11在一般情况下,间隔施测的复本信度最低,因为很多因素有机会影响到分数。相反,校正过的分半相关,因为影响的因素少,所得的信度估计为最高。样本团体的性质相关系数受到团体中分数分布的影响信度系数受到团体异质性的影响不同团体间能力水平的影响
测验的长度测验越长,则试题取样或内容取样越恰当测验越长,测验结果越不易受猜测的影响测验的难度信度影响因素被试的同质性信度系数的应用信度系数主要用途:(一)评价测验
一般能力和学绩测验0.9
个性、价值观.75-.85<.7时,不能用测验来对个人做评价,也不能在团体间做比较。
>.75时,可用于团体间的比较。
>.85时,可用于鉴别个人。信度系数的应用信度系数主要用途:(二)解释分数
1.解释个人测验分数:谨防过分重视单一的数字分数
SE为测量标准误:一个人无数次重复施测一个测验所得到的标准差rXX为测验的信度,SX为测验分数的方差信度系数的应用若某智力测验信度为0.95,标准差为15,某儿童得分为120分,就可以估计其真分数的范围了。
SE=15×1-0.95=3.35
则他的真实智力测验分数的95%的置信区间为(113.4T126.6)。即他的智力测验分数有95%的可能是在113.4和126.6之间。如果要提高估计的把握度,则可求出99%的置信区间。效度的定义效度指的是测量的有效性,即一个测验对它所要测量特质准确测量的程度。在测量学中,效度被定义为与测量目的有关的变异(有效变异)与实测变异之比(Sv2/Sx2)。测量的效度除受随机误差影响外,还受系统误差影响。可信的测验未必有效,而有效测验必定可信。信度是效度的必要条件。SX2=ST2+SE2
ST2=SV2+SI2
(与测量目的有关的变异,与测量目的无关的变异)
SX2=SV2+SI2+SE2SV2SI2SE2SX2ST2
系统误差的影响系统误差可能是由以下几方面原因造成的:1)所要测量的特质有多方面的含义,而量表本身未能全部包含这些方面;2)测验题目中包含了与所测特质无关的题目;3)计分方面的问题,如选择题的备选答案是不全面的,即没有完全体现被试情况的差异,因此答案就不是足够准确的,而且各题目得分是简单累加而未经加权处理,不同题目的重要性程度就没有得到区分。效度的分类弗兰士和米希尔提出的分类方法:(1)内容效度(2)构想效度(3)效标效度内容效度(专家效度)-效度1定义内容效度是指项目对欲测的内容或行为范围取样的适当程度。条件:(1)确定好内容范围,并使测验的全部项目均在此范围内;(2)测验项目应是已界定的内容范围的代表性样本,即选出的项目能包含所测的内容范围的主要方面,并使各部分项目所占比例适当。内容效度-效度1内容效度的应用适合于测验所要测量的内容总体能够明确界定的情况:评价教育成就测验和职业选拔测验主要缺点缺乏可靠的数量指标妨碍各测验间的相互比较构想效度-效度2定义构念:心理学家为更好地描述人的具有内在一致性的行为和心理现象而构想出的抽象概念。比如,智力、创造力、内外向、成就动机、抑郁、焦虑等心理学的构念都是非常抽象的,但通过对一些外显行为的观察,将其拥有这种特质的程度数量化。对同一心理构念有不同有测量方法。但无论怎样去测量,对一种特质的测量结果必须与该特质的理论解释相符合。测验对理论上的构想或特质的测量程度;测验结果能够反映所要测量的心理构念的程度例子:智力测验的构想效度检验对智力的构念,目前较为流行的观点认为智力代表了一个人获得、保持知识的能力,推理能力及适应环境的能力
根据智力的定义,可以推演出以下几点假设,1)智力不同于后天获得的知识,因此与遗传因素有关,且更为稳定,2)智力会随着人的生理变化而发展变化,3)智力会影响人的学习成绩和事业成功。为验证以上假设,可以从三方面着手:1)计算同卵双生子、异卵双生子、其他同胞、非同胞间智商的相关,看相关系数是否依次降低;2)看智商与学业成绩间是否有高相关;3)智商是否随着年龄的增长而逐渐提高,在某一个阶段又是相对稳定的。如果以上假设都得到了证实,则说明所编的智力测验是有效的,如果假设得不到证实,则说明测验的效度不高。构想效度的评价优势:促使研究者把着眼点放在提出假设、检验假设上,使得测验成为理论研究的重要工具;主要缺点:有些构想概念模糊,没有一致的定义;确定效度时没有明确的操作步骤;没有单一的数量指标来描述有效程度。效标效度-效度3衡量测验有效性的一个重要方法:根据测验所作出的预测能否证实效标:被预测的行为,衡量测验是否有效的标准效标效度:考察测验分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工厂安全保卫系统加固合同
- 网站文学创作合同
- 搬运服务合同范本模板格式化示例
- 2024广东省劳动合同范本简易版
- 2024中外货物买卖合同进出口买卖合同范文
- 中药行业报告:中药国企改革的三部曲和六要素
- 海员物资采购合同范例
- 旅游商品合同范例
- 买地居间合同范例
- 开连锁店需要合同范例
- 2024年江西省财投供应链金融有限公司招聘笔试参考题库附带答案详解
- 2024年政府工作报告基础知识试题及答案(100题)
- JTG F80-1-2004 公路工程质量检验评定标准 第一册 土建工程
- 2023-2024苏教版小学五年级数学上册全册测评试卷(含答案)
- 小学英语就业能力展示
- 中医-艾灸治疼痛
- “安全风险分级管控”工作制度(2篇)
- 《艾滋病毒》课件
- 科普文化墙设计理念
- 管道保温计算公式
- 机械电子工程大一的职业生涯规划
评论
0/150
提交评论