




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 现在,越来越多的国内外专家注重教育与心理测量中的公平性问题的研究, 因此,项目功能差异研究( d i f ) 已经成为国内外教育与心理测量界的研究热点。 本文运用模拟研究,在2 p l m 模型下,在样本容量一致、d i f 量存在低、中、 高三种水平的条件下,比较了常用的三种d i f 侦测方法_ m i m 工c 方法、删方法 和l o g i s t i cr e g r e s s i o n 方法的检验能力。结果表明: l 、d i f 侦测方法对i 类错误有较显著的影响。三种方法中,m i m i c 方法的i 类错误率最低,姗方法的i 类错误率其次,l r 方法的i 类错误率最高。 2 、删方法侦测d i f 时,当d i f 值为0 5 5 时,统计检验力最高,当d i f 值 为0 8 5 时,统计检验力其次,当d i f 值为o 2 5 时,检验力最差。 3 、l o g i s t i cr e g r e s s i o n 方法在侦测d i f 时,统计检验力随着d i f 值的增 大,而增大。当d i f 值为o 8 5 时,统计检验力最高,当d i f 值为0 5 5 时,统计检验力其次,当d i f 值为0 2 5 时,统计检验力最差。 4 、m i m i c 方法在侦测d i f 时,当d i f 值为o 5 5 时,统计检验力最高,当d i f 值为o 8 5 时,统计检验力其次,当d i f 值为0 2 5 时,统计检验力最差。 5 、当d i f 值为o 2 5 时,m i m i c 方法的统计检验力最高,i 类错误率最低; l o g i s t i cr e g r e s s i o n 方法的统计检验力其次,i 类错误率其次;硼方 法的统计检验力最差,i 类错误率最高。 6 、当d i f 值为0 5 5 时,l o g i s t i cr e g r e s s i o n 和m i m i c 方法的统计检验力 不分伯仲,删方法的统计检验力相比之下,稍差一些,但是,l o g i s t i c r e g r e s s i o n 方法的i 类错误率最高,其次是姗方法,m i m i c 方法的i 类错误率最低。 7 、当d i f 值为0 8 5 时,肼方法的检验统计力稍差,l o g i s t i cr e g r e s s i o n 和m i m i c 方法的统计检验力差不多,但是对于i 类错误率,l o g i s t i c r e g r e s s i o n 方法的i 类错误率最高,其次是删方法,m i m i c 方法的i 类错误率最低。 究 关键词:d i f ;删方法;l o g i s t i cr e g r e s s i o n 方法;m i m i c 方法;模拟研 a b s t r a c t n o w , m o r ea n dm o r ee x p e r t si nd o m e s t i ca n do v e r s e a sf o c u s0 1 1t h ep r o b l e mo f f a i r n e s si np s y c h o l o g i c a la n de d u c a t i o n a lt e s t i n g s o ,t h es t u d yo fd i fh a sb e e nt h e h o t t e s tt o p i ci np s y c h o l o g i c a la n de d u c a t i o n a ld o m a i n i nt h i sp a p e r , w ew i l ld i s c u s st h r e eq u e s t i o n s f i r s t l y , w ew i l li n t r o d u c et h e d e v e l o p m e n ta n da p p l i c a t i o no fd i f ( d i f f e r e n t i a li t e mf u n c t i o n i n g ) t h e o r y s e c o n d l y , w ea l s oi n t r o d u c et h r e ed i f ( d i f f e r e n t i a li t e mf u n c t i o n i n g ) d e t e c t i n gm e t h o d s - - m h m e t h o d ,l o g i s t i cr e g r e s s i o nm e t h o d ,m i m i cm e t h o du s i n gi nt h i sp a p e r f i n a l l y , a s i m u l a t i o ns t u d yi su s e di nt h i ss t u d y , t h r o u g ht h ep o w e ra n dit y p eo fe r r o rr a t e , c o m p a r i n gt h et h r e ed i f ( d i f f e r e n t i a li t e mf u n c t i o n i n g ) d e t e c t i n gm e t h o d s i nt h i sp a p e r , w i t hm a n i p u l a t i o no f2 p l mm o d e l ,t h es a m en u m b e ro fe x a m i n e e s i nf o c a la n dr e f e r e n c eg r o u p s ,t h es a m em e a na b i l i t i e sb e t w e e nt h er e f e r e n c ea n df o c a l g r o u p s ,l e v e l so fd i fd i f f e r e n c e sb e t w e e nt h er e f e r e n c ea n df o c a lg r o u p s ,c o m p a r i n g t h et h r e ed i f ( d i f f e r e n t i a li t e mf u n c t i o n i n g ) d e t e c t i n gm e t h o d s r e s u l t si n d i c a t e : l 、t h ed i fd e t e c t i o nm e t h o d sh a v eas i g n f i c a n ti m p a c to nt h e t y p eo fir a t e i n t h r e em e t h o d s ,t h em i m i cm e t h o dh a v et h el o w e s tt h et y p eo fir a t e n l e l o g i s t i cr e g r e s s i o nm e t h o dh a v et h em o d e r a t et h et y p eo fir a t e t h e m a n t e l h a e n s z em e t h o dh a v et h eh i g h e s tt h et y p eo flr a t e 2 、a sf o rt h em a n t e l h a e n s z e lm e t h o d ,w h e nt h ed i fv a l u ei so 5 5 ,t h ep o w e r o fd e t e c t i o ni st h eh i g h e s t ,w h e nt h ed i fv a l u ei s0 8 5 ,t h ep o w e ro fd e t e c t i o n i si nt h em i d d l e ,w h e nt h ed i fv a l u ei s0 2 5 ,t h ep o w e ro fd e t e c t i o ni st h e l o w e s t 3 、a sf o rt h el o g i s t i cr e g r e s s i o nm e t h o d , w i t ht h ei n c r e a s i n go fd i fv a l u e ,t h e p o w e ro fd e t e c t i o ni sb e c o m i n gi n c r e a s e w h e nt h ed i fv a l u ei s0 8 5 ,t h e p o w e ro fd e t e c t i o ni st h eh i g h e s t ,w h e nt h ed i fv a l u ei s0 5 5 ,t h ep o w e ro f d e t e c t i o ni si nt h em i d d l e ,w h e nt h ed i fv a l u ei s0 2 5 ,t h ep o w e ro f d e t e c t i o n i st h el o w e s t 4 、a sf o rt h em i m i cm e t h o d ,w h e nt h ed i fv a l u ei s0 5 5 ,t h e p o w e ro f d e t e c t i o ni st h eh i g h e s t ;w h e nt h ed i fv a l u ei so 8 5 ,t h ep o w e ro fd e t e c t i o ni s i nt h em i d d l e ;w h e nt h ed i fv a l u ei s0 2 5 t h ep o w e ro fd e t e c t i o ni st h e l o w e s t i i 5 、w h e nt h ed i fv a l u ei s0 2 5 t h ep o w e ro fd e t e c t i o no fm i m i ci st h e h i g h e s t ,t h eit y p eo fr a t ei s t h el o w e s t ;t h ep o w e ro fd e t e c t i o no fl o g i s t i c r e g r e s s i o ni si nt h em i d d l e ,t h eit y p eo fr a t ei si nt h em i d d l e ;t h ep o w e ro f d e t e c t i o no fm a n t e l h a e n s z e li st h el o w e s t ,t h eit y p eo fr a t ei st h eh i g h e s t 6 、w h e nt h ed i fv a l u ei so 5 5 ,a sf o rl o g i s t i cr e g r e s s i o na n dm i m i c ,t h e p o w e ro fd e t e c t i o ni sa l m o s ts a m e c o m p a r i s o no ft h em a n t e l h a e n s z e l ,t h e p o w e ro f d e t e c t i o ns l i g h t l y l o w e r b u t ,t h eit y p eo fr a t eo fl o g i s t i c r e g r e s s i o ni st h eh i g h e s t ,s e c o n d l yi sm a n t e l - h a e n s z e l ,t h eit y p er a t e o f m i m i ci st h el o w e s t 7 、w h e nt h ed i fv a l u ei so 8 5 ,f i t sf o rl o g i s t i cr e g r e s s i o na n dm i m i c ,t h e p o w e ro fd e t e c t i o ni sa l m o s ts a m e ,c o m p a r i s o no ft h em a n t e l - h a e n s z e l ,t h e p o w e ro fd e t e c t i o ns l i g h t l y l o w e r b u t ,t h eit y p eo fr a t e o fl o g i s t i c r e g r e s s i o ni st h eh i g h e s t ,s e c o n d l yi sm a n t e l - h a e n s z e l ,t h eit y p e r a t eo f m l m i ci st h el o w e s t k e yw o r d s :d i f ;m hm e t h o d ;l o g i s t i cr e g r e s s i o nm e t h o d ;m i m i c m e t h o d ; s i m u l a t i o ns t u d y i i i m i m i c 、m h 和l r 方法在项目功能差异分析中的比较研究 1 1 引言 1测验偏差、项目功能差异及其研究综述 无论在哪个时代,哪个国家,测验已成为人们生活中不可或缺的一部分,长 久以来,测验作为评价、判断和筛选人才的重要衡量尺度,已经在生活中发挥着 十分重要的作用。而教育和心理测量作为测验的一部分,也在生活中发挥着越来 越重要的作用。 2 0 世纪2 0 年代,美国诞生了标准化测验,它的诞生对教育界和测量界产生 了巨大影响。但是,随着测验的应用范围越来越广,在其发挥重要作用的同时, 其公平性问题也受到了测验开发者,使用者和整个社会的关注,即一个广泛应用 的大规模测验能否做到真正公平的对待每一位测试者,不论测试者的性别、种族、 宗教、文化及语言背景有多大差异。因此,测验的公平性成为评价测验质量的重 要方面。到目前为止,测验的公平性依然是教育与心理测量界所关注的问题之一。 测验偏差现象是引起大家关注测验公平性的原因之一,在2 0 世纪初,人们在使 用智力测验时,发现本民族语言不是英语的儿童,其智力分数受到语言障碍的影 响。b i n e t 在使用他自编的智力测验时,也发现某些题目对于一些社会经济地位 较低的家庭和儿童来说,由于受到文化训练的影响,得分较低。他认为这并不是 由于这些儿童的智力有问题,而是测验有差异功能。其后,在第一次世界大战中, 随着团体测验的发展,陆军甲种、乙种测验( t h ea r m ya l p h aa n db e t at e s t s ) 的大规模使用,测验的偏差问题越来越受到人们的广泛关注。随着跨文化测验的 发展,测验分数在不同种族背景测试者中解释的公平性也引起了专家的注意。因 此,测量偏差成为了教育和心理测量学界的一个热门话题,那什么是“测量偏差 呢? 一般认为,如果来自不同组的特质( 包括能力) 水平相同的个体,对某个项目 测验有相同的答对率,那么测量工具具有等同性( m e a s u r e m e n te q u i v a l e n c e ) , 否则测验和项目有偏差( b i a s ) 。但实际上,测量偏差是一个十分复杂的问题。 经过了3 0 多年的努力研究,心理测量学家们尝试用各种具有客观标准的术语给 “偏差 下定义,但研究结果并不令人满意。因为测量偏差只要表现的形式和产 生的原因,或研究的角度不同就会产生不同的定义。从项目反应理论的角度来看, 可定义为:如果某个项目在不同子群体中的项目特征曲线不相同,则项目存在测 量偏差。项目反应理论中的项目特征曲线是由项目参数唯一确定的,因此项目偏 差也就是项目参数有差异。心理测量学家们在对测验偏差多年的研究过程中发 硕士学位论文 现,“偏差 一词有统计学和社会学两方面的含义。如果只是从统计的角度来定 义和侦查偏差,实际上是不可能的。因为某个项目存在偏差可能是由于项目中包 含了特定文化和社会背景有关的内容,或使用了某个团体的母语,而对另一个团 体则是第二语言,从而导致对另一个团体不利的情况。在实际研究和应用中,对 测验项目是否存在偏差的侦查首先是通过统计的方法计算出两组被试在某一项 目上的表现是否真的存在差异,其次由专家来分析项目是否真的对某一组被试不 公平。 因此,怎样才能将统计过程与整个偏差侦查的过程区分开呢? 1 9 7 2 年, a n g o f f 提出,有些项目虽然使不同群体成员的表现不同,但它们针对的是教育 结果,所以不能算是“偏差 ,于是将“偏差 与组间差异区分开了。1 9 8 2 年, a n g o f f 又提出了i t e md i s c r e p a n c ym e t h o d s ,其目的是为了把真正的组间差别 和偏差区分开来。 由于偏差具有一些负面的,消极的含义,在8 0 年代中期测量学家们提出了 一个更加中性的概念一一项目功能差异,即d i f ( d i f f e r e n t i a li t e m f u n c t i o n i n g ) ,用来代替测验偏差这一术语。研究者对项目偏差的研究更多的关 注于性别、种族的分数差异,使偏差带有了社会评价意义。而研究者使用项目功 能差异则表示纯粹统计学意义上的偏差。d i f 的定义为;在控制特质之后,一个 项目在不同组中显示的不同的统计特性。 但是,有些人仍将d i f 和b i a s 当作一回事,这是不正确的。d i f 只不过是 怀疑偏差的第一步,要作出偏差的结论,不仅需要统计的d i f 分析肯定的结果, 还需要找出被试有不同表现的原因,并加上对根源的探讨。但项目功能差异分析 作为一种统计方法,已经成为当前侦查测验公平性的重要手段。 众所周知,测验已成为广为流行的评价和选拔人才的工具。测验偏差也成为 广大心理测量学家所关注的问题。因此,项目功能差异的检测研究以及测验公平 性的保证成为了教育和心理测量界中最热门的话题。各国学者,特别是欧美的学 者,早从i 0 0 多年前就开始关注和研究测验公平性问题,从测验偏差到项目功能 差异,许多学者都提出了不同的检测方法。特别是针对项目功能差异,已经开发 出了许多针对不同题型的项目功能差异检测方法,并且在实际应用中取得了一定 的工作成绩。然而,这些并未完全解决测验公平性的问题。每年,在世界范围内, 尤其在欧美国家,考生因为测验不公平,状告考试命题机构的案例比比皆是。美 国教育测试服务中心曾在1 9 8 6 年规定,在编制试题的过程中,除了进行常规的 项目分析外,还必须进行项目功能差异研究,作为测试效度和公平性的证据之一。 美国教育测试服务中心的这一做法,迅速在世界范围内得到推广,再一次掀起了 各国学者对项目功能差异这一课题的研究热潮。但是,相比较之下,我国关于项 目功能差异的研究比较落后,且许多研究都是介绍性的,并且很多都没有应用到 m i m i c 、m h 和l r 方法在项目功能差异分析中的比较研究 实践中去。众所周知,我国不仅是个考试大国,还是一个历史悠久的考试大国。 从隋朝开创的科举到现代的高考,考试己成为我国选拔人才的重要举措。尤其是 在今天,测验已经成为人们的学习,生活和职业生涯中不可或缺的一部分。而事 实上,我国的大规模考试都实行全国统一考试,例如高考,英语四六级考试等, 因为考生之间性别、民族、背景等方面都存在较大差异,再加上我国幅员辽阔, 各地区经济和教育发展不平衡,城乡差别很大,在大范围内实行统考,许多潜在 因素都很有可能影响测验的公平性和有效性。然而,研究和检测测验中的项目功 能差异现象是保证测验公平性的重要环节。因此,展开对d i f 的研究及如何来保 证各项测验的公平性已然成为教育和心理测量界一个十分迫切的研究课题。因此 加强项目功能差异和测验偏差的研究,对于保证我国大规模考试的公平性具有重 要意义。 值得欣慰的是,自2 0 0 0 年以来,d i f 已逐步受到国内测量界的重视,如汉 考办( h s k ) 、医学考试中心等都开始关注d i f 分析,并取得了一定的成果。但是 我们并不能满足于这些成绩,只有更全面地展开对d i f 的理论,方法的研究和探 索并将其实际地应用到各领域中,才能更好地体现d i f 研究的价值和确保我国教 育和心理等各领域测验的公平性。值得我们注意的是,在我国开展d i f 研究的遥 程中,一方面,由于我们起步晚,所以我们应该充分地了解和吸取国外学者们的 优秀研究成果为我所用,以此来节省人力、物力和财力;另一方面,由于各国的 实际情况不一,政治,经济,文化等方面都存在较大差异,我们在借鉴国外研究 成果的同时,应该结合本国国情进行d i f 研究,并探寻造成d i f 的原因及对原因 的分析。因此,全面地介绍国外关于d i f 的研究理论和成果,选择和开发恰当啦 d t f 检测方法对我国的考试试题进行项目功能差异分析将是推动我国测验公平性 研究蓬勃发展的一个重要内容,是确保当前教育考试公平、高效向l i 发展的一项 重要工作。因此,对试题进行项目功能差异分析是十分必要的且重要的任务。 1 2 相关概念的界定 1 2 1 偏差的定义 “偏差”至今仍没有统一的定义。h e n n i n g ( 2 0 0 1 ) 认为,偏差是测量误差的非 随机分布,引起偏差的原因通常是由参加相同测试的一个( 或几个) 团体或种类 的受试比其他团体的受试具有不公平的优势造成的。而d a v i e s 等( 2 0 0 2 ) 认为, 测试中固有的一种或多种因素,它( 们) 能够对受试能力的有效测量产生系统性 的妨碍作用,偏差的结果是特定的目标组( f o c a lg r o u p ) 和参照组( r e f e r e n c e g r o u p ) 的成绩有系统性的差异。国际教育百科全书认为:“偏向( b i a s ) 的确 硕:仁学位论文 切意思是偏见或特殊的倾向。 漆书青等于2 0 0 2 年指出,如果一个测验有偏向, 那么这个测验对于和多数测验者有差别的那些群体或个体来说是有偏见的或不 公平的。目前,得到广泛认可的定义是,如果来自不同团体的具有相同能力和熟 练水平的受试个体对某题回答的概率不同,则该题存在偏差 ( a n g o f f ,1 9 9 3 :p a e & p a r k ,2 0 0 6 ) 。 1 2 2 项目功能差异( d i f ) 的定义 我国教育学会教育测量与统计分会对于项目功能差异的涵义是这样描述的: “项目功能差异指的是在控制团体能力之后,一个项目在不同团体中显示的不同 统计特征。”而如果项目在不同团体中的功能差异对一个团体产生了不公平的影 响,则该项目则是有偏差的。骆方、张厚粲( 2 0 0 6 ) 的说法是:“在控制特质之 后,一个项目在不同组中显示的不同统计特征。 曹亦薇( 1 9 9 9 ) 将之简单概括 为:“两集团的能力相同的被试们对某个项目的答对率有差异。 徐轶元( 1 9 9 8 ) 认为,项目功能差异,究其本质而言,就是一个测验公平性问题,即同- n 验对 于不同人群来说是否有偏向性。用统计语言说,就是一个测验的得分对于不同人 群而言,是否具有显著性差异( 王艳,2 0 0 6 ) 。 1 2 3 项目功能差异分析中的常用概念 1 2 3 1 参照组和目标组 在进行项目功能差异检验的时候,研究者通常会依据被试的性别、年龄、年 级、民族、种族、地域、母语背景、文化背景、职业和社会经济地位等等,人为 地将被试分为两个组。一般情况下的研究把可能受到不公平待遇的一组称为目标 组( f o c a lg r o u p ) ,比如说女性、少数民族、黑人、城郊学生等。而把与之相对 的测验者群体,比如说男性、多数种族、白人、城区学生等,称为参照组( r e f e r e n c e g r o u p ) ,用作比较的对象。通常用字母f 指代目标组,用字母r 来表示参照组。 1 2 3 2 匹配变量 在项目功能差异检测中,衡量参照组和目标组的被试是否具有相同能力水平 的变量称之为匹配变量。匹配变量的确定是项目功能差异检测的关键之一。理论 和实践证明,匹配变量的选择恰当,是对测验希望测试的能力的一种有效、可信 和无偏的测量。匹配变量的选择不恰当,则是对测验希望测试的能力的一种无效、 不可信和有偏的测量。因此,怎样确定匹配变量,如何判定两组测验者是否具有 相同能力,是检验项目是否存在项目功能差异的一个关键点。 一般来说,我们可以将观察分数,即测验总分x 作为匹配变量,也可以将潜 在能力值,或者是经典测验理论中的真分数t ,或者是i r t 模型估计出的0 值作 4 m i m i c 、m h 和l r 方法在项目功能差异分析中的比较研究 为匹配变量。在d i f 的分析中,首先根据被试的匹配变量的大小把参照组和目标 组分为几个能力( 分数) 水平小组,然后分别在各个能力( 分数) 水平组中,比 较参照组和目标组在某题上的正确率之差。 1 2 3 3d if 值( 量) 在项目功能差异的模拟研究中,当一个项目存在项目功能差异时,对于不同 组的被试,项目的a 或者b 参数之间存在的差异值就称为d i f 值。在项目功能差 异的实际研究中,当一个项目存在功能差异时,就i 兑明这个项目的a 或b 参数对 于不同组的被试之间存在着差异,这个差异值也称为d i f 值。 1 2 3 4 一致性d if 和非一致性d if 一致性d i f 和非一致性d i f 是项目功能差异研究过程中一对非常重要的概 念。 在8 0 年代以前,人们只发现一种d i f 。到1 9 8 2 年m e l l e n b e r g h 指出,在教 育测量“0 ”、“1 ”记分的项目中存在两种d i f 。一种就是之前常见的那种d i f , 即一致性d i f :另一种就是非一致性d i f 。当被试的能力水平与其组别( 男性组 女性组) 之间不存在交互作用时,则表现为一致性d i f ,即在所有能力水平上, 一组被试回答某一项目的j 下确率都大于另一组。当被试的能力水平与其组别之间 存在交互作用时,则表现为非一致性d i f ,即并非在所有能力水平上,男生回答 某一项目的正确率都大于女生,而是有可能具有能力a 的男女生中,男生回答某 项目的正确率大于女生,在具有能力水平b 的男女中,男生的正确率低于女生。 这就是说能力水平与组别发生了交互作用,这时该项目就具有非一致性d i f ( 黄 春霞) 。在标准化测验中,一致性d i f 比非一致性d i f 更常见,但是在实际资料 中也发现了非一致性d i f 的存在。 。 1 2 3 5 二级记分题的d l f 检测和多等级记分题的d i f 检测 按照项目的得分等级数,我们可以将项目区分为二级记分题和多等级记分 题。对于二级记分题,被试在该项目上的作答得分只可能有两种情况,o 或是1 或者说正确或是错误。这些题目基本是客观题,如选择题和判断题。而对于多等 级记分题,被试在该题上作答的得分就可能存在除了0 分和满分之外的多种情 况。对于这两种类型的题目,虽然很大一部分用于多等级记分题的d i f 检测方法 是0 、1 记分题的d i f 检测方法的扩展,其检测d i f 的方法还是有所不同的。 1 2 3 6 项目功能差异( d l f ) 与维度( d i m e n s i o n ) 的关系 对项目功能差异的研究,究其深层次的原因,则是希望能研究出项目或测验 存在项目功能差异的真正原因。并且对测验或项目做出适当的改造,使其符合我 们测验的目的,符合测验的公平性的要求。理论研究发现,项目功能差异的存在 与测验项目的多维度相关。一般来说,单一维度时是不会出现d i f 的,只有在出 现两个或两个以上维度时才有可能出现d i f ( 黄春霞,2 0 0 4 ) 。比如,在数学计 5 硕士学位论文 算题中的单纯的小数计算项目是单一维度,就不会出现d i f 。而如果在数学应用 题中出现音乐知识的问题,就使项目呈现数学知识和音乐知识两个维度。这样的 项目对于非音乐爱好者来说是不公平的,因此存在d i f 。但是,并不是说存在多 维度就一定存在d i f 。现在,随着教育中越来越重视综合素质的培养,测验项目 中大多都会出现两个或两个以上的维度,但是只要这些维度对所有被试都是平等 的,就可以忽略。例如,在高中的英语考试中有一道涉及立方体体积计算的题目, 从知识点来讲,这样的题目有两个维度,但它没有d i f 。因为,对于所有考生来 说都在小学学过立方体的体积如何计算,因此这个维度对所有考生来说都是平等 的,所以这个维度就可以忽略。因此,在d i f 项目所包含的两个维度中,如果第 二维度与第一维度无关,无益于测量第一维度,则这个项目具有不利的d i f ( a d v e r s ed i f ) ,即项目是有偏差的。如果第二维度与第一维度有关,是第一维 度的辅助维度,则这个项目具有有利的d i f ( b e n i g nd i f ) 。不利维度( 干扰维 度) 就应该被摒弃,有利维度( 辅助维度) 就应该被保留。所以,判断因为多维 度而产生的d i f 项目是否应予以修改或删除,就应该具体分析产生的d i f 项目的 维度是否属于我们的测验想要测量的结构的一部分,如果这样的项目测的正是测 验设计者想要测量的东西,则应予以保留;如果这些项目测的不是测验想要测量 的东西,而且能给部分被试带来不恰当的混淆,这样的项目就应该予以修改或删 除( 鹿士义,2 0 0 4 ) 。因此,在对测验的d i f 分析中,存在d i f 的项目是该保留 还是删除,应做进一步的分析。不能对存在d i f 的项目全盘否定,反之,也不然。 1 2 3 7d l f 与构想效度( c o n s t r u c tv a i d a t i o n ) 的关系 l o r r i ea s h e p a r d 于1 9 8 2 年认为:由于单个项目与整个测验没有本质的 区别,所以检测一系列项目是否有偏向的过程可以等同于建立测验构想效度的过 程。 从检验偏向过程可以看出d i f 与构想效度的关系。l o r r i ea s h e p a r d 指出, 检验偏向的过程如下:一、先对每一个项目与潜在的“心理特质 的关系作一个 逻辑分析。二、运用统计分析对一系列项目进行检验,找出异常的项目,进而找 出原来的逻辑分析和推断上的缺陷。三、再一次运用判断分析来解释统计检验出 来的项目产生偏向的原因,从而更准确地理解该测验的“心理特质”。在这里, 所指的“心理特质 ,是一种概念上的假设,其实就是“构想 。 关于d i f 与构想效度的关系,我们可以用c r o n b a c h 的观点来总结一下,他 于1 9 8 2 年认为:技术上的证据是证实一个测验解释上的合法性的有利支持。如 果一个测验或项目的功能有偏差,我们就认为这样的测验或项目是无效的,对某 些特殊的组来说测验结果的解释是有误导的。他的建议对偏向的研究是有指导意 义的,我们不能只是简单地对测验或项目做一些统计上的分析,在统计分析之前、 之后的关于构想效度的逻辑分析是必不可少的。 6 m i m i c 、m h 和l r 方法在项目功能差异分析中的比较研究 1 2 3 8 项目功能差异( d i f ) 与项目影响( 1 t e mi m p a c t ) 的区别 首先,对于我们来说,正确分开d i f 和项目影响是一件很重要的工作,d i f 和项目影响是完全不一样的两个概念。项目影响( i t e mi m p a c t ) 是指目标组与 参照组在某题上的差异真的是由于两者在测验所测的能力上的差异。而d i f 则是 指经过匹配后的组在项目功能上的差异。项目影响,是通过项目表现上的差异来 反映全体被试的能力分布;d i f 是比较经过匹配的两个组之间的差异,并且这一 差异不是测验编写者所期望的。 关于项目影响与d i f 的区别,其实可以用一个表格来直观的表现出来。假设 a 组和b 组是模拟参加同一次测验的两个被试组,其中,n m 是两个组在每一个水 平( 共有m 个水平) 的人数,n c m 是两个组在每一个水平上答对该题的人数,n c m n m 是两个组在每一个水平上答对该题的比率,我们设定考生能力有三个水平( 高、 中、低) 。根据这个表格可以发现:在a 组中的2 0 0 0 人中,有1 0 0 0 人答对该题, 总答对率是o 5 ;在b 组中的2 0 0 0 人中,有8 0 0 人答对该题,答对率是0 4 。那 么这道题的项目影响就是0 5 - 0 4 = 0 1 ,有利于a 组。但是,如果我们分别观察 高中低三个水平的答对率,我们就会发现b 组每一个水平的答对率都高于a 组, 所以实际的情况是该题有利于b 组,而不利于a 组( 黄春霞,2 0 0 4 ) 。 表1 :组问答对率的差异 a n g o f f ( 1 9 9 3 ) 指出:与d i f 理论相比,项目影响是“真正的”差异,而d i f 则是由于不恰当或不相关的含有d i f 的项目的存在而造成的差异,这些差异是 “人为的9 9 0h a m b l e t o n 和r o g e r s ( 1 9 9 1 ) 也指出:d i f 通常被当作检测是否存在 偏向的一个经验性的证据。 1 2 3 9 项目功能差异检验方法的检验力和i 型错误 统计学中把( 1 mb ) 称为统计检验力,反映着正确辨别真实差异的能力。 在d i f 检验中,它是指一种d i f 检验方法在对其测验项目进行项目功能差异检验 的过程中,正确判别项目功能差异的项目的能力,或者说是将有项目功能差异的 项目进行正确归类的能力。每种方法的检验力不是固定不变的,有一系列的因素 影响其检验力。除了方法本身之外,还有以下一系列因素: 1 、样本容量。以往的研究表明,样本的容量( n ) 是影响检验力大小最大的 一个因素,样本容量越大,检测力就越高。样本容量太小,则无法检验出有d i f 7 硕十学位论史 的项目。 2 、测验长度和d i f 项目比例。测验长度也会影响d i f 的检测力,因为长的 测验将测得更可靠的分数,因而对能力的估计就更准确,但是随着具有d i f 项目 的增加,会增加对匹配变量的污染,这将会影响d i f 检验力。所以测验长度增加 而d i f 项目比例减少时,d i f 方法的检验力才会增加。 3 、两子群体的总体分布差异。目标组和参照组的总体分布差异也会对d i f 检验力发生影响,研究表明:参照组与目标组具有相同总体能力分布时,d i f 检 验力较高,当参照组和目标组不具有相同总体能力分布时,d i f 检验力较低( 黄 春霞,2 0 0 4 ) 。 另外,项目的d i f 值大小也可能会影响各种方法对该项目的检测。n a r a y a n a n 和s w a m i n a t h a n 用模拟数据来控制项目的d i f 值大小,研究发现d i f 值越大的项 目越容易被检测出来,相反,d i f 值越小的项目越不容易被检测出来。 在项目功能差异研究中,i 型错误是指把一些本不存在d i f 的项目检测为是 存在d i f 的项目所犯的错误。如果检测d i f 的方法犯i 型错误的概率高,就会把 一些高质量的并不存在d i f 的项目检测为存在d i f ,影响了对d i f 的检测,也可 能影响试卷的信度和效度。 因此,d i f 的检测应该选择检验力高,犯i 型错误率较小的统计方法。 d i f 检测方法介绍 1 3 1 检测d lf 的常用方法 d i f 的检测方法有不同的分类,依据的角度不同,分类也就不同。 按d i f 分析所依赖的测验理论来分,可以分为经典测量理论和项目反应理 论。基于经典测量理论的方法包括方差分析法、相关法、转化题目难度或d e l t a 方法和部分相关法。这些方法基本上都是在观察分数的基础上,对题目的难度值 进行比较,直观性强,也较容易操作。因为经典测量理论项目参数对样本有较强 的依赖性,导致这些方法所分析的结果过份依赖于被试样本,使d i f 分析结果容 易发生变化。这个潜在的问题使d i f 研究的结果不能有效地推广到被试总体上 去。因而,研究者不断的对d i f 进行研究,项目反应理论的出现,使d i f 研究得 到了突破。研究者发现基于项目反应理论的d i f 分析方法比基于经典测量理论的 d i f 分析方法好。因为基于项目反应理论的d i f 分析方法有两个优势:第一,i r t 的题目参数不依赖于被试样本、被试能力估计不依赖于题目样本:第二,i r t 的 能力估计能更好的用于将被试匹配。 按照题目的记分方式,也可分为两类。一类为二级记分题,即为0 、1 记分 8 m i m i c 、m h 和l r 方法在项目功能差异分析中的比较研究 题,0 分为错误反应,1 分为正确反应。此类题目的d i f 检验方法包括:删方法、 l o r d 的卡方检验法、项目特征曲线面积法,s t n d 方法、s i b t e s t 方法和l r d i f 方法。一类为多级记分题,即0 分和满分之间还有多种可能得分。此类题目的 d i f 检验方法大多都是在前者的基础上衍生出来的,例如用于检验多级记分方法 的h “h 方法,就是检验二级记分题目的姗方法的发展与延伸。所检验的测验 题目的特点也影响了检验方法的选择。我们在做d i f 检验时,应根据测验和题目 的特点来选择适当的检验方法。 按照匹配变量来分,也可以分为两类。一类是以观察分数作为匹配变量,此 类的d i f 检验方法包括:s t n d 方法、姗方法和l r d i f 方法等。一类是以潜在特 质作为匹配变量,此类检验方法包括s i b t e s t 方法、r a j u 面积测度等。其实, 这两类方法都假设测验项目与匹配变量之间具有相同的维度。但是,前者使用观 察分数作为匹配变量,而后者使用观察分数的函数一估计的潜在特质水平作为匹 配变量( p o t e n z a ,d o r a n s ,1 9 9 5 ) ,这是两者的本质区别所在。m a r i a n e i l ( 1 9 9 5 ) 指出,这一区别常常错误地引导人们,认为以潜在特质作为匹配变量的方法使用 了参数形式,而以观察分数作为匹配变量的方法没有使用。而实际上,以观察分 数作为匹配变量的方法有不使用参数形式的方法,也有使用参数形式的方法,以 潜在特质作为匹配变量的方法亦然。使用了参数形式的方法,是指在项目分数和 匹配变量之间的关系采用了一个参数形式,也就是有确定的测量模型。而非参数 的方法没有。对这一点的正确认识,可使我们对检测d i f 的方法有更深入的认识。 表2 就是d i f 检测方法的分类情况。 表2 - d i f 检测方法的分类 下面介绍一下本研究中采用的三种d i f 检验方法: 1 3 1 1m a n t e i h a e n s z e i 方法 m a n t e l - - h a e n s z e l 方法,简称删方法。是检验d i f 的固定参数假设模型。 它是由m a n t e l 和h a e n s z e l 于1 9 5 9 年首先提出,后来,h o l l a n d 以及h o l l a n d 9 硕上学位论文 和t h a y e r 把这种方法用于对项目功能差异的检验。现在,这种方法已成为世界 上用于检验d i f 最广泛的方法。如果我们要对几种d i f 检验的方法进行比较,这 种方法是比较的基准。删方法用于侦查两级记分项目的d i f ,他所关心的是目标 组与参照组之间的差异,通常采用测验总分作为匹配变量的指标。m h 方法统计 量的计算建立在一张sx 2 2 的列联表中,其中s 是测量总分的水平数,对于其 中的任一水平k ,可构成一个来自于两子群体在项目上得、失分数的2 2 列联 次数表。 表3 :姗方法s 2 2 列联表 该方法的虚无假设是:观察分数相匹配的目标组和参照组被试在同一项目上 的正确作答几率相等。 根据样本数据完成上述的s 2 2 列联表,则可根据表中数据计算q 姗,公 式如下: 仅删= ( ( f t r k 木f o f l ) n l ) ( ( f o r k 半f t f k ) n k ) ( 1 ) 其中,如。、f 。,。分别表示在第k 个能力水平组中,参照组答错该项目的人数 和答对该项目的人数;f 0 舢f 。,。则分别表示在第k 个能力水平组中,目标组答错 该项目的人数和答对该项目的人数。 q 删的取值介于0 至正无穷之间。qm h = i 0 时,表示该项目无d i f :qm h 1 0 时,表示所研究项目对参照 组有较低难度。 姗x 2 = 1 f l r k 一e ( f - r k ) l o 5 2 y v 时( f i r k ) ( 2 ) k - lk = lk = l 其中: e ( f l ,k ) = n l k n ,k n k ( 3 ) v 盯( f l 。k ) = n l k n o k n r k n f k e r a 2 ( n k - 1 ) ( 4 ) 姗方法采用眦x2 检验统计量来判断d i f 是否显著。旧x2 被认为是服从自 由度为1 的x2 分布的,如果经检验删x2 值处于显著性水平,则认为项目存在 d i f 。美国e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西新建二中2025届高三下学期期末复习检测试题(一模)生物试题含解析
- 四川文化传媒职业学院《室内设计及原理》2023-2024学年第二学期期末试卷
- 广西质量工程职业技术学院《民乐合奏》2023-2024学年第一学期期末试卷
- 江苏安全技术职业学院《数字合成技术》2023-2024学年第二学期期末试卷
- 2025年福建省泉州聚龙外国语校中考化学试题仿真卷:化学试题试卷(4)含解析
- 山东服装职业学院《系统解剖学》2023-2024学年第二学期期末试卷
- 上海对外经贸大学《海洋生物学B》2023-2024学年第二学期期末试卷
- 2025年江苏省南京师大附中中考英语试题命题比赛模拟试题含答案
- 浙江汽车职业技术学院《兽医免疫学》2023-2024学年第二学期期末试卷
- 2025届浙江省温州十五校联合体高三下学期大联考卷Ⅱ历史试题试卷含解析
- 《岩土工程勘察安全》课件
- 《宫颈癌防治》课件
- 小学数学:时间教材
- 220V直流容量计算书
- 脑卒中康复临床路径(PT)
- 铁路客运段QC小组运用PDCA循环减少旅客列车乘降问题发生次数现场型成果汇报
- 红外测温培训课件
- 四百字作文格子稿纸(可打印编辑)
- 医院培训课件:《基于医院感染防控的安全注射》
- 私募股权投资PE
- 【抖音直播带货模式研究国内外文献综述3200字】
评论
0/150
提交评论