教育统计与测量第6章-信度_第1页
教育统计与测量第6章-信度_第2页
教育统计与测量第6章-信度_第3页
教育统计与测量第6章-信度_第4页
教育统计与测量第6章-信度_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

测验结果的可靠性称为测验的信度一般采用相关分析的方法,计算出两种变量的相关系数,用相关系数的大小来表示一致性程度的高低。相关系数大,则测验信度高;相关系数小,则测验信度低。信度(reliability):指的是测量结果的稳定性和可靠的程度,亦即测量的结果是否真实、客观地反映了考生的实际水平,可记为rxx。具体而言,可以从以下三方面来理解测量的信度:x=T+E

x表示实测值,T表示真值(是未知的,可以把多次测量的实测值的平均值作为真值的近似值),E表示误差。

E=x-T1、试比较以下两次测量结果(只进行一次)的信度:用尺子量100cm高的一个儿童,得到1cm的绝对误差;量185cm高的一位运动员,也得得到1cm的绝对误差。要比较两种测量结果的信度,一定要看误差分数(E)对于真分数(T)所占的百分数是多少。这个百分数表示该实得分数(x)的相对误差。其计算式如下:

相对误差=E/T×100%

把上述两次测量(设为甲和乙)和绝对误差分数和真分数代入上式,得:相对误差(甲)=1/100×100%=1%相对误差(乙)=1/185×100%=0.54%据此,度量乙的信度要比度量甲的信度高。

最大绝对误差=E/x×100%

判别两组数据谁好谁差,不能只靠对平均数的统计和比较,关键是确定这两组数据偏离各自的平均数的大小。为了消除数据容量的影响,我们借鉴研究加权平均数的方法,选用各个偏差的平方的平均数,来描述一组数据偏离其平均数的大小,这就是方差。根据假设,实得分数的方差应等于真分数的方差加上测量误差的方差。即:

于是,信度(rxx)可定义为真分数的方差与实得分数方差的比率。即:

)可见,越小,测量的信度就越高。信度的取值范围为[0,1]。表1-1测量5个学生的某种分数学生真分数误差分数实得分数A18-216B9+110C15+217D21+122E12-210

学生真分数误差分数实得分数

A

18-2

16

B

9+1

10

C

15+2

17

D

21+1

22

E

12-2

10

平均数15

0

15

方差18

2.8

20.8

统计量是指样本上的各种数字特征。(如样本平均数、标准差等);参数是总体上的各种数字特征(如总体平均数、标准差等)。在统计学中,统计量越接近参数,这个统计量的可靠性越高。而要知道统计量与参数的接近程度,可以对参数进行区间估计。我们不妨将测量的平均值看做平均数抽样分布中的一个平均数,真值视为平均数抽样分布的总平均数(μ),这样一来,只要能估计出实得分数分布的标准差——测量的标准误,就可以利用区间估计的公式,算出实测值与真值的接近程度,从而计算出测量结果的信度。例:根据对一组人(设n>30)进行某种智力因素测验的结果,计算出有关统计量如下,求真分数的置信区间(或真值在什么数值的范围内)。统计学中估计事物或现象间数量变动的一致性,主要采用相关分析的方法,即计算出两种变量的相关系数(rxy)。在使用相关系数表示信度的高低时,相关系数可称为信度系数(coefficientofreliability)。它是对相同应试者的同一特性的两次测量分数的相关系数,是测量结果的一致性的指标。(一)再测信度(稳定性系数)(二)复本信度(等值性系数)(三)内部一致性系数(四)评分者信度(五)目标参照测验信度(六)速度测验的信度又称重测信度,表示测验稳定性的方法,是指用同一量表对相同被试者(一组人)在不同时间测验两次的实得分数的相关系数。估计稳定性系数的基本程序:

测验A1

适当时距测验A2相关系数可以用不同方法计算,这取决于数据的性质。最为普遍的是皮尔逊积差相关系数:

X为第一次测验的实得分数;Y为第一次测验的实得分数;N为应试者数.用一个算术四则的速度测验12个小学生,得分记为X,为了考察测量结果的可靠性,于3个月后再测一次,得分记为Y,问测验结果是否可靠?序号123456789101112X202021222323232425262627Y202121202323252526262729

A1A2X2Y2XYXY010203040506070809101112202021222323232425262627202121202323252526262729400400441484529529529576625676676729

400441441400529529625625676676729841

400420441440529529625625650676702783

ΣX=280ΣY=286ΣX2=6594ΣY2=6912ΣXY=6420解:(1)把资料列表于后,计算出公式(1-10)所需的各种统计量:ΣX=280ΣY=286ΣX2=6594ΣY2=6912ΣXY=6420(2)把所计算的统计量代入公式:1、两次测验之间的时间间隔要适宜。2、两次测验试卷要等值,即在内容范围、题型、题数、难度、区分度等方面要基本相同。3、确定两测验是否等值,还要考察两次测验结果的平均数与标准差。4、重测法适用于速度测验而不适用于难度测验。5、测试应注意提高被试者的积极性。6、测试间隔期内,被试不能获得学习和训练复本信度是一种表示测验等值性的方法,是以两个等值(题型题数、难度、区分度相等)但具体内容不同的量表,在最短时距内,对相同应试者先后施测两次所获得的两组对应分数的相关系数。其模式是:以A、B两型英语复本测验对初中三年级10个学生施测,为避免由测验施测顺序所造成的误差,其中5个学生先做A型测验,休息15分钟后,再做B型测验;而另5个学生先做B型测验,休息15分钟后,再做A型测验。10个学生A型测验结果记为X,B型测验结果记为Y,其测验的复本信度如何?学生序号12345678910X19191817161515141312Y20171818171513151212优点:1、测验的两个复本,如果在不同的时间使用,其信度既可以反映在不同时间的稳定性,又可以反映对于不同测题的一致性;2、两个复本在同时使用时,可以避免再测信息的一些缺点,如首测时再测在记忆、练习、效果的影响,间隔期间获得新知识的影响,两次施测的环境不同和被试主观状态不同的影响,以及为了应付测验所作训练的影响等。缺点:1、编制两个完全相等的测验是很困难的,如果两个复本过分相似,则变成再测形式,而过分不相似,又使等值的条件不存在;2、两个复本测验有可能在某种程度上测量了不同的性质,这就会低估测验的信度;3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。1.量表的同质性和等值性。2.测验时距宜短。3.测验的信度系数有稍微偏大的倾向。4.确定测验是否等值,还要考察两次测验结果的平均数与标准差。采用复本法两次测验之间要求一个适当长的时距。注意:两个测试有较高的等值性时距要妥善规定又叫同质性信度。是同一测验量表的两个部分(例如分为奇数题和偶数题,或者量表的前一半和后一半)得分的相关系数。估计方法有两种:1、分半法:是将一次测验分成两个假定相等而独立的两部分来记分。通常是以题目的奇数为一组,偶数为一组,计算两级的相关系数,最后用斯皮尔曼-布朗公式校正,求得整个测验的信度系数。斯皮尔曼-布朗公式为:

rxy为两组测验分数的相关系数,rtt表示整个测验的信度系数。问题:为什么不直接用奇数题总分与偶数题的部分计算出的相关系数作为整个测验的信度系数而要加以校正?这是因为测验的长度(指量表中所包含的题目数)对信度的大小有一定的影响,测验越长,信度越高。而用分半法,实际上等于把整个测验长度减小了一半,所以按分成两半的资料求出的信度必然低于整个测验的信度。例:有一个由100题构成的量表施行于10个高三学生(分数见下表)。测验一次后,应试者即毕业离校。现在怎样评价测验结果的信度?得分被试奇数题总分偶数题总分XY010203040506070809103837384140363839403537373639393438393936方法:分半法得分被试奇数题总分偶数题总分X2Y2XYXY010203040506070809103837384140363839403537373639393438393936144413691444168116001296144415211600122513691269129615211521115614441521152112961406136913681599156012241444152115601260ΣX=382ΣY=374ΣX2=14624ΣY2=14014ΣXY=14311解:把有关统计量代入公式,求相关系数用斯皮尔曼-布朗公式校正,经校正后的信度系数很大(0.91),说明整个测验的信度高。用此法只需测验一次,然后以各个问题的正确反应数为基础(此可视为各题难度的信息),或根据各人总分的平均数和标准差,计算信度系数。此公式有几个,其中常用的有rKR20和rKR21

。(1)rKR20的用法:这个公式以每题能正确回答的人数占总人数的百分数为基础计算(每题只有通过或未通过两种分数)。例:有一种包含6个问题的测验,10个应试者得分如下表(答对得1分,答错得0分),试估计应试者反应的一致性程度。题得目被试分

1

2

3

4

5

6

ΣZ

001

002

003

004

005

006

007

008

009

010

1

0

0

0

0

0

1

1

0

0

1

0

0

2

0

0

0

0

1

1

2

1

1

1

0

0

0

3

0

1

0

0

1

1

3

1

1

1

0

0

0

3

1

1

1

1

0

0

4

1

1

1

1

0

0

4

1

1

0

1

1

1

5

1

1

0

1

1

1

5

ΣX

pqpq87

5

5

4

4

0.80.7

0.5

0.5

0.4

0.40.20.3

0.5

0.5

0.6

0.60.160.21

0.25

0.25

0.24

0.24Σpq=1.35解:1)列出得分矩阵,计算有关统计量:

这个测验的信度系数较低,说明内容一致性差,量表中的题目并非都可以测量相同的特性,即题目的同质性差或难度悬殊较大。这个公式以各应试者总分的平均数和方差为基础,无需各题的难度信息。公式如下:论文式测验的评分没有严格的评分标准,以致同样一个题目,不同的应试者的回答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫(Cronbach,1951)所创的α系数公式:被题号试ABCDEΣSi2171181111483.04269789391.363610689392.564811683366.96571181111483.04671181111483.04Σ4062415452例:有一种包含6个论文式题目的测验,对5个应试者施行,得分列入下表,试求该测验的信度。解:1)求每题各应试者得分的方差Si2(见表列)

2)求每题各应试者得分的方差之和ΣSi2

ΣSi2=3.04+1.36+……+3.04=18.65

3)求所有应试者各自的总分的方差ΣST2(表格最下一行各数据的方差)

ST2=68.96

4)代入公式(1-14)得信度系数

用分半法时,以按奇数题和偶数题为宜。速度测验不宜用分半法。客观试题与主观试题要计算评分者评分的一致性系数,需区分评分者的人次数。若为2人评N份试卷,可用斯皮尔曼等级相关的公式计算;若三个人以上的评分者评N份试卷,则需计算肯德尔和谐系数(以W表示)1、斯皮尔曼等级相关公式:试卷得分名次等级之差DD2甲评分乙评分甲名次乙名次ABCDEFGHIJ9490868672706866646193929270827665766860123.53.5567891012.52.5745.595.58100-0.51-3.510.5-22.51000.25112.2510.2546.2510解:1)计算所需统计量:D和D2(见表);N=10;

ΣD2=0+0.25+1+12.25+……+1+0=26

2)将统计量N和ΣD2代入公式答:甲乙两位教师阅卷的一致性系数较高,评分比较可靠。例:10个评委对7位参赛选手所评等级如下表所示,问这10位评委的评分是否具有一致性?选手N=7

评价者K=7RiRi21

2

3

4

5

6

7

8

9

10010203040506073

5

2

3

4

4

3

2

4

36676757766545766445411122221124344335635223111132177655765773363501540176210893969250022516002893844ΣRi=280ΣRi2=13516分析:从W=0.827来看,10人的评价较为一致。严格地讲,W值是否达到显著性水平,需要做统计假设检验。当K等于3∽20,N等于3∽7时,可根据K和N查“W显著性检验时S的临界值表”进行检验。在进行等级评定时,常会遇到两个或两个以上事物的等级相同,如果遇到这种情况,应采用下面的修正公式:例:三位教师评阅四份试卷,所评等级列入下表,他们所评的等级是否一致?N

K作文编号(N=4)

1

2

3

4张王李

3

1

4

2

2

1

4

1

2

2

3

2Ri

7

4

11

5解:本题因王老师给两份试卷评了相同等级,李老师给三份试卷评了相同等级,所以要用公式(1-17)计算W。目标参照性测验不是在于区分被试的差异,而是与一个既定的目标相比较,看被试是否达到了某一水平。前期目标预测测验和后期目标监测测验的比较法复本法:(两次都合格+两次都不合格)/总人数判断是否为速度测验:速度变异量占的比例=考生完成题数方差/测验分数方差0到1之间,0是难度测验,1是速度测验重测信度复本信度内部一致性系数分两半分四段

1.信度是任何一种测量的必要条件。因为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反应测验对象的某种特点,需要更加注意测量的信度,从而正确地判断

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论