第三章 误差及其检验_第1页
第三章 误差及其检验_第2页
第三章 误差及其检验_第3页
第三章 误差及其检验_第4页
第三章 误差及其检验_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章测量的误差及其检验第一节测量的误差测量误差指的是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。经典测验理论的基本假设(ClassicalTestTheory)

经典测验理论(CTT)的基本假设心理特质及其可测性假设真分数及其假设误差及其来源真分数及其假设真分数(TrueScore)又称T分数,是反映被试某种心理特质真正水平的那个数值,称为该特质的真分数。是一个在理论上构想出来的抽象概念。观察分数(observedScore)实际测得的分数称为被试该特质的实得分数或观察分数。

真分数假设经典测验理论假定:观察分数(X)与真分数T之间是一种线性关系,并只差一个随机误差(E)。即:X=T+E误差的种类系统误差:由与测量目的无关的变因引起的一种恒定而有规律的效应。随机误差:与测量目的无关的变因引起的一种偶然变因引起的,影响测试结果准确性和一致性。误差的来源心理测量的误差主要来自3个方面,即测量工具被测对象施测过程

测验自身引起的误差

主要来源是题目取样测验题目少或样本缺乏代表性测验复本不等值题目用词模棱两可反应步骤说明不清题目过难引起猜测时间短促仓促作答等被试应试动机测验焦虑学习发展与教育测验经验或练习效应反应倾向生理因素练习效应教育背景较差、经验较少或智力较高者,其受练习效应的影响较大着重速度的测验练习效应较为明显重复实施相同的测验,受练习效应影响的程度要大于复本的测验两次测验时距越大,练习效应越小,三个月以上可以忽略一般的练习效应,约在1/5标准差以下测验焦虑影响因素

1.能力高的人,测验焦虑一般较低,而对自己能力没有把握的人,测验焦虑较高2.抱负水平过高,求胜心切的人,测验焦虑较高;3,具有某种人格特点,如缺乏自信、患得患失、情绪不稳定的人易产生测验焦虑;4.测验成绩与被试的关系重大,或被试受到的压力过大,容易使其产生测验焦虑;5.经常接受测验的人焦虑较低,而对测验程序不熟悉,尤其是测验中采取了新的题目形式或实施程序会增加测验焦虑。

反应定势反应定势(responsesetsorstyles),是指独立于测验内容的反应倾向,即由于每个人回答问题的习惯不同,而使能力相同的被试得到不同的测验分数。常见的反应定势求“快”与求“精确”的反应定势喜好正面叙述的反应定势喜好特殊位置的反应定势喜好较长选项的反应定势猜测的反应定势被试应试动机测验焦虑学习发展与教育测验经验或练习效应反应倾向生理因素施测过程引起的误差测试环境测试时间主试因素意外干扰评分记分第二节测量的信度一.信度的定义二.信度的类型及估计方法三.影响信度的因素四.信度的应用五.信度的特殊问题一.信度的定义信度是指测量结果的可靠性和一致性.理论定义:一组测量分数的真实方差与实得方差的比,即真实方差占总方差的百分比.操作性定义:信度有是一个测验X与它的任意一个平行测验X’的相关系数.

二.信度的类型及估计方法2.1信度的类型2.1.1重测信度(test-retestreliability)2.1.2复本信度(alternative-formreliability)2.1.3分半信度(split-halfreliability)2.1.4同质性信度(homogeneityreliability)2.1.5评分者信度(scorerreliability)2.2信度的估计方法2.2.1重测信度指的是同一量表对同一组被试施测两测所得结果的一致性程度.其大小等于同一组被试在两次测验上所得分数的皮尔逊相关系数.重测信度误差来源测验内部:基本不影响测验条件:主要影响因素被试的差别:主要影响因素重测信度的使用条件所测量的心理特性必须是稳定的遗忘或练习的效果相同所测查的心理特质方面没有获得更多的学习和训练重测信度注意事项不是所有测验都可以计算重测信度注意重测的间隔时间注意提高被试的积极性2.2.2复本信度是指两个平行测验测量同一批被试所得结果的一致性程度,其大小等同于同一批被试在两个复本测验上所得分数的皮尔逊相关系数。复本(测验):在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式、和测验等其他方面都相同或相似。2.2.2复本信度计算公式:积差相关公式种类:

等值性系数稳定性与等值性系数误差来源前提条件:平行测验并有条件接受两测验注意事项:间隔时间适当优缺点2.2.3分半信度分半信度指的是将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。计算误差来源:题目取样使用条件:没复本且可分为等值两半分半信度的计算

基本公式斯皮尔曼—布朗公式补充公式弗朗南根公式Sa2和Sb2分别表示所有被试在两半测验上得分的变异数。Sx2表示全体被试在整个测验上总得分的变异数。卢伦公式Sd2表示同一组被试在两半测验上得分之差的变异数。使用的前提条件斯—布公式要求被试在两半测验上得分的变异数相等无法分成对等的两半的测验,不宜使用分半信度。使用奇偶分半的前提:按某种顺序排列(如按难度)所有题目相等(随机排列)各分量表分半求相关2.2.4同质性信度指测验内部所有题目间的一致性程度。基本公式:K为测验的题目个数为所有题目间相关系数的平均值库德—理查森公式KR20公式:适用于0,1计分K为题目数,pi为答对第i题的人数比例,qi为答错第i题的人数比例,Sx2为测验总分的方差KR21公式:克伦巴赫公式(ɑ系数)适用于多重计分的测验K为题目数,Si2为某一题目分数的变异数Sx2为测验总分的方差只是测量信度的下界的一个估计值注意事项并不是所有测验都要求有较高的同质性信度,取决于测量的目的用于预测的测验或学绩测验可不考虑同质性提出或验证某种心理学构想和假设时要求评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。评分者信度的计算两个评分者对被试评分,评分者信度等于两个评分者给同一批被试的评分分数的相关系数.所评分数为连续变量用积差相关公式所评分数为等级变量常使用斯皮尔曼等级相关公式.计算公式多个评分者评多份试卷,并以等级计分时用肯德尔和谐系数。K为评分者人数N为被试试卷数Ri为每份试卷被评等级之和评分中出现相等等级时t指某一评价者对所有被评价者评出相同等级的人数三.影响信度的因素3.1被试方面被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度等往往会影响被试心理特质水平的稳定性。被试团体的异质性被试团体异质性与信度被试团体的异质性是指构成团体所在被试的差异性。团体越异质,则信度越高。不同团体的信度系数不能直接应用,得重新估计。团体异质性与信度公式roo为原团体信度系数rnn用于异质程度不同的团体的信度系数So为信度系数已知的分数分布的标准差Sn为信度系数未知的分数分布的标准差3.2主试方面施测者:不按指导手册的规定施测,故意制造紧张气氛,给考生一定的暗示、协助等,则测量信度大大降低。阅卷评分者:评分标准掌握不一,前紧后松,甚至随心所欲,也会降低测量信度。3.3施测考场是否安静,光线和通风情况是否良好,所需设备是否齐备,桌面是否合乎要求,空间阔窄是否恰当等都可能影响信度。测量的时间间隔主要影响不连续施测的重测信度。一般时间越短,信度越高;时间间隔越长,信度越低。3.4测量工具3.4.1测验的长度

测验同质性题目数量多,则信度会提高。3.4.2测验的难度

测验难度对信度有间接影响。难度适中,测验分数分布范围最大,从而总分的总变异最大,提高测验稳定性。测验的长度与测验信度测验越长,即题目越多,测验的内容可能越有代表性测验越长,题目越多,加大分数分布范围,信度越高测验越长,题目越多,可以平衡机遇对被试的影响增加测验长度对信度的影响可用斯皮尔曼—布朗公式K为改编后长度与原长度之比rxx为原测验信度rkk为测验长度增加以后的信度估计例题:有一个包括10个题目的测验,信度为0.5,将其增加为50个题目,信度将会是多少?测验题目增加与测验信度提高遵循报酬递减的效益原则题目越多,信度越高,但题目过多,要进行缩短,以防被试厌倦疲劳。题数1050100200300400500r0.50.830.930.950.960.970.98缩短测验长度对信度的影响公式可不变,只是K为缩短后长度与原长度之比。公式可转化为:rxx为原测验信度rkk为改编后的测验信度k为改编后题目数目与原测验题目数目之比例题:一个50个题目测验,信度为0.75,若将其提至0.90,需增加至多少个题目?增加至50×3=150题。注意:新题目与原题目选自同一总体,即与原题目具有同质性时,增长测验长度才能改变信度。测验的难度测验的难度对信度有间接影响,过难或过易的测题会使被试的得分范围变窄,变异量降低,从而低估测验信度。题目难度适中,会使测验分数的分布范围最大,总分变异数SX2最大,提高测验稳定性。3.5提高信度的常用方法适当增加测验的长度使测验中试题的难度接近正态分布,并控制在中等水平。努力提高测验试题的区分度。选择恰当的被试团体主试者严格执行施测规程,评分者严格按标准给分,实测场地按测验手册的要求进行布置,减少无关因素的干扰。四.信度的应用4.1信度与误差变异的关系信度是测量过程中随机误差大小的反映。信度高,则误差变异小;反之,误差变异大。各种信度系数相应误差变异来源(见下表)可通过对测验多个信度来计算其误差总变异(见例题)各种信度系数相应误差变异的来源信度系数的类型误差变异的来源重测信度时间取样复本信度(连续施测)内容取样复本信度(间隔施测)时间与内容取样分半信度内容取样同质性信度内容的异质性评分者信度评分者间的差异4.2利用信度为被试真分数建立信赖区间∵∴例:若SX=15,=80,rxx=0.89,则SE=15分数,误差分数为正态分布则真分数68%在80±1×0.33295%在80±1.96×0.33299.7%在80±3×0.3324.3比较不同测验的分数4.4确定信度可接受水平一般的能力测验和成就测验的信度系数都在0.90以上,而人格测验、兴趣、态度、价值观等测验的信度一般在0.80-0.85或更高些。

一般原则是:当rxx﹤0.70时,测验不能用于对个人做出评价或预测,而且不能作团体比较;当0.70≤rxx﹤0.85时,可用于团体比较;当rxx≥0.85时,才能用来鉴别或预测个人成绩或行为。另一原则是:新编的测验信度应高于原有的同类测验或相似测验。五.信度中的特殊问题5.1速度测验的信度5.2标准参照测验的信度5.3分测验的信度5.4信度对变迁的测量不敏感5.1速度测验的信度只测一次求信度的估计法不适用(如分半、内部一致性)应以作答速度的一致性为依据,根据被试两次回答的题目数量的变化对速度的一致性作出估计按时间将测验分为两半或四等分测验时间5.2标准参照测验的信度几种方法:同一掌握水平上通过人数百分比两个测验的一致性百分(二分法)一致性百分比=合格人数+不合格人数/总人数第三节测量的效度效度(Validity)是指一个测验或量表实际能测出所要测量的心理特质的程度。从心理测量理论的角度,效度是与测量目标有关的真实分数方差(有效分数方差)与总分方差的比率。(SV2/SX2)信度与效度的关系信度是效度的必要而非充分条件效度是受信度制约的效度的性质效度是相对的,而不是绝对的效度是具体的效度不是直接测量的,是从已有证据推理而来的二.效度的种类2.1内容效度2.2构想效度2.3效标关联效度2.1内容效度内容效度(content-relatedvalidity)是指测验题目对有关内容或行为总体取样的适当性程度。因为这种效度主要是考察测验的内容,因此叫内容效度。内容效度高的两个条件:内容的范围或行为的总体必须界定明确测验题目应该是所界定的内容范围的代表性样本内容效度确定的方法专家判断法(逻辑效度)经验判断法统计分析法内容效度的适用是编制任何测验都要加以考虑的基本方面教育和职业成就测验是适合内容效度对于能力倾向测验和人格测验不大适合内容效度与表面效度(facevalidity)表面效度是指一个测验看起来好象是所要测量所要测东西的程度。换句话说,当那些未经过训练的被试或测验应用者认为某测验是有效的测验时,该测验就有表面效度。表面效度不是测验真实效度的指标,它的提高并不一定有利于测验实际效度的改善,也可能会降低实际效度。2.2实证效度/效标效度/效标关联效度(critreion-related)2.2.1实证效度是指一个测验对处于特定情景中的个体行为进行预测的有效性。也就是对于研究者感兴趣的行为预测得怎么样。被预测的行为是衡量测验是否有效的标准,简称效标。所谓效标效度,就是考查测验分数与效标的关系,看测验对效标的预测程度,因此叫效标效度。因为效标效度需要有实际证据,所以又叫实证效度。2.2.2效标效度根

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论