已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 考试制度的创设虽然源自中国,绵延数千年后,世界各国争相采用,以作为 建立文官制度的选拔依据,但是中国却一直没有针对考试进行比较科学化的量化分 析,致使近代的心理计量学( p s y c h o m e t r i c s ) 发展且发扬于外国,西风东渐后, 才传入中国。心理计量学是门研究心理测验( p s y c h o l o g i c a lt e s t i n g ) 与评判 ( a s s e s s e m t ) 的科学,是- - f - j 包括量化心理学( q u a n t i t a t i v ep s y c h o l o g y ) 、 个别差异( i n d i v i d u a ld i f f e r e n c e s ) 和心理测验理论( m e n t a l t e s tt h e o r i e s ) 等研究范围的学问。心理计量学的发展经历了两个主要的阶段:经典测量理论 ( c l a s s i c a lt e s tt h e o r y ,简称c t t ) 阶段和现代测验理论( m o d e r nt e s tt h e o r y ) 阶段。在经典测量理论中,研究者以分数的真值理论为基础,发展了信度、效度、 难度以及区分度等概念系统,用以衡量一个测量工具或考试题目的质量。自2 0 世 纪6 0 7 0 年代以来,以项目反应理论为核心的现代测量理论,成为心理计量学研 究的核心内容。相对于经典测量理论,项目反应理论具有明显的优势,它所采用 的项目参数( 如;难度、区分度、猜测指数等) ,是一种不会受样本影响的指标。 这些参数的获得,不会因为接受测验的被试样本的变化而不同;同时,对被试的 能力的估计不会因为试题的不同而不同,等等。正是由于项目反应理论的这些优 势,它在心理测量和考试领域有了广泛的应用。 虽然项目反应理论具有经典测量理论所不可比拟的优势,但是,由于项目反 应理论每一个项目的每一等级又对应其难度和区分度,参数估计十分复杂,从而 加大了估计的难度,因此一直未能得到很好的应用。本文将通过对被试的分组, 克服参数估计的难度,对这一问题进行初步探讨。 关键词:项目反应理论;多级评分;项目参数;似然函数 a b s t r a c t a l t h o u g ht h ee s t a b l i s h m e n to fe x a m i n a t i o ns y s t e mo f i g i u sf r o mc h i n a , a n da f t e r s e v e r a lt h o u s a n dy e a r so fp r a c t i c e s ,e a c hc o u n t r yt h r o u g h o u tt h ew o r l da d o p t e dt h i s s y s t e mo n e a f t e ra n o t h e r , a n da sac h o o s i n gb a s i sf o rt h ec i v i lo f f i c i a ls y s t e m c h i n a h a v eu e v e rb e e nc a r r i e do u tr e l a t i v e l ys c i e n t i f i cq u a n t i f i e s t i o n a la n a l y s i sa i m e da t e x a m i n a t i o n , w h i c hr e s u l t i nt h a tt h ed e v e l o p m e n to fm o d e r np s y c h o m e 仃i e sw a s d e v e l o pi nf o r e i g nc o u n t r ya n dd i dn o tb r i n gi nc h i n au n t i lt h ew e s t e r n i z ec u l t u r e p r e v a i l i n gi nt h ee a s t p s y c h o m e t r i c si sa s c i e n c es t u d i e di nt h ea s p e c t so fp s y c h o l o g i c a l t e s t i n ga n da s s e s s m e n t , a n d i st h ek n o w l e d g ei n c l u d i n gt h er e s e a r c hr a n g eo f q u a n t i t a t i v ep s y c h o l o g y , i n d i v i d u a ld i f f e r e n c e sa n dm e n t a lt e s tt h e o r i e sa n ds oo n t h e d e v e l o p m e n to fp s y c h o m e t r i c sh a sg o n et h r o u g ht w om a j o rp h a s e :c l a s s i c a lt e s tt h e o r y p h a s e ( s h o r t e df o rc r na n dm o d e mt e s tt h e o r yp h a s e i nt h et h e o r y o fc n r e s e a r c h e r sd e v e l o pt h ec o n c c p t u a ls y s t e ms u c ha sr e l i a b i l i t y , v a l i d i t y , d i f f i c u l t ya n d d i s c r i m i n a t i o ne t c w i t ht h eb a s i so ft h et r u t hv a l u et h e o r yo fs c o r e s w i t hw h i c ht ot e s t t h eq u a l i t yo fm e a s u r i n gt o o l so rt h ee x a m i n a t i o nq u e s t i o n s s i n c et h e1 9 6 0 st o1 9 7 0 s , t h em o d e r nt e s tt h e o r yw i t ht h ei t e mr e s p o n s et h e o r ya tt h ec o r eh a sb e a :0 m et h en u c l e u s c o n t e n to ft h ep s y c h o m e t r i c sr e s e a r c h c o m p a r i n gt ot h ec t t 9t h ei t e mr e s p o n s et h e o r y h a so b v i o u sa d v a n t a g e s ,t h ei t e mp a r a m e t e ri ta d o p t s ( s u c ha sd i f f i c u l t y , d i s c r i m i n a t i o n a n dg u e s si n d e xa n ds oo u ) i sak i n do fi n d i c a t o rw h i c hn o ta f f e c t e db ys a m p l e t h e o b t a i n m e n to ft h e s ep a r a m e t e r si sn o td i f f e r e df r o mt h ec h a n g e si nt h es u b j e c t ss a m p l e w h or e c e i v et h et e s t ;m e a n w h i l e ,t h ee s t i m a t i o nt ot h ea b i l i t yo fs u b j e c tw i l ln o td i f f e r f r o mt h ed i f f e r e n c eo ft h ee x a m i n a t i o nq u e s t i o n s e t c a sar e s u l to ft h e s ea d v a n t a g e si n t h ei t e mr e s p o n s et h e o r y , i ti sw i d e l yu s e di nt h ep s y c h o l o g i c a lt e s ta n di nt h ef i e l d so f e x a m i n a t i o n hs p i t co ft h a tt h ei t e mr e s p o n s et h e o r yh a si n c o m p a r a b l ea d v a n t a g e sw h i c hn o t a s s u m e db yt h emt h ee s t i m a t i o no fp a r a m e t e ri nt h ei t e mr e s p o n s et h e o r yi sv e r y c o m p l e xa se a c hg r a d a t i o no fe v e r yi t e mi sc o r r e s p o n d e n c ew i t h i t sd i f f i c u l t ya n d d i s c r i m i n a t i o n , t h u sa d d st h ed i f f i c u l t yi ne s t i m a t i o n t h e r e f o r e ,t h i st h e o r yi sn o t a p p l i e dv e r yw e l l 棚t h et i m e 皿ct h e s i sw i l lt r yt oo v e 枷et h ee s t i m a t i o nd i f f i c u l t y t h r o u g hd i v i d i n gt h es u b j e c t si n t og r o u p s ,a n dg i v ep r e l i m i n a r yd i s c u s s i o na n dp m b e i n t ot h i sp r o b l e m k e y w o r d s :i t e mr e s p o n s et h e o r y ;m u l t i l e v e ls c o r i n g ;i t e mp a r a m e t e r ;, l i k e l i h o o d f u n c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东北师 范大学或其他教育机构的学位或证书而使用过的材料与我一同工作的同 志对本研究所傲的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:镒日期:型z ! 垒2 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位 论文的规定,即:东北师范大学有权保留并向国家有关部门或机 构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权东北师范大学可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编 学位论文 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:z i 丝盈指导教师签名: 日 期;趔z 生j 日 期: 学位论文作者毕业后去向: 电话: ! 2 丝! z 1 2 通讯地址: 邮编: 1 3 q 鲤2 引言 m 考试在教学中起着“指挥棒”的作用,科学化的考试对学生的发展有许多积 极作用,使用考试手段能够检测教育质量,规范和引导教师的教学行为,促进学 生积极努力地学习,而且对培养学生分析问题、解决问题等综合素质能力可以发 挥非常重要的鞭策作用。如何客观、科学地反映和评价每一位学生的专业理论水 平和实际应用能力,定量化比较不同学校、不同老师、不同教学模式的教学质量 和效果,在检测标准上与国际接轨,充分发挥考试对改进教学的反馈功能以及考 试对教学的“指挥棒”作用,为社会培养高质量人才,是我国高等教育必须解决 的一个重要课题。项目反应理论( i t e mr e s p o n s et h e o r y ,简称i r t ) 是近十年来 发展起来的一种比较先进的心理与教育测试理论,受到国内外许多学者的关注, 对于促进我国高等教育考试评价方式的改革和发展具有很大的指导意义。而多级 评分模型的参数估计问题,历来都是i r t 理论面临的一个重要问题,由于这一问 题一直未能得到很好的解决,使得i r t 理论在测验中的应用受到很大限制。本文 将采用一种方法讨论在i r t 框架下,多级评分模型的参数估计,旨在为试题质量 评估和试题库建设提供参考资料。 第一章、历史背景 1 2 1 考试制度的创设虽然源自中国,绵延数千年后,世界各国争相采用,以作 为建立文官制度的选拔依据,但是中国却一直没有针对考试进行比较科学化的量 化分析,致使近代的心理计量学( p s y c h o m e t r i c s ) 发展且发扬于外国,西风东渐 后,才传入中国。心理计量学是- 1 3 研究心理测验( p s y c h o l o g i c a lt e s t i n g ) 于 评判( a s s e s s e m t ) 的科学,是一门包括量化心理学( q u a n t i t a t i v ep s y c h o l o g y ) 、 个别差异( i n d i v i d u a ld i f f e r e n c e s ) 和心理测验理论( m e n t a lt e s tt h e o r i e s ) 等研究范围的学问。 目前, 3 1 国内外的试题质量分析理论主要有经典测量理论( c l a s s i c a lt e s t t h e o r y ,简称c t t ) 和项目反应理论两种。c 厂r 主要是以真实分数模式( 亦即,观 察分数等于真实分数与误差分数之和,数学公式为z r + 占) 为理论架构,依据 弱势假设( w e a ka s s u m p t i o n ) 而来,其理论模式的发展已为时甚久,且发展得相 当规模,所采用的计算公式简单明了、浅显易懂,适用于大多数的教育与心理测 验数据,以及社会科学数据的分析,为目前测验学界使用与流通最广的理论依据。 然而,除上述各项优点外,c t t 却有许多不足之处( g u i o n i r o n s o n ,1 9 8 3 : w r i g h t ,1 9 7 7 ) : l 、c t t 理论所采用的指标,诸如:难度( d i f f i c u l t y ) 、鉴别度 ( d i s c r i m i n a t i o n ) 、和信度( r e l i a b i l i t y ) 等,都是一种样本依赖( s a m p l e d e p e n d e n t ) 的指标;也就是说,这些指标的获得会因接受测验的受试者样 本的不同而不同,因此,同一份试卷很难获得一致的难度、鉴别度、或信 度。 2 、铘理论以一个相同的测量标准误差( s t a n d a r de r r o ro fm e a s u r e m e n t ) , 作为每位受试者的测量误差指标,这种作法并没有考虑受试者能力的个别 差异,对高、低能力两极端组的受试者而言,这种指标极为不合理且不准 确,致使理论假设的适当性受到怀疑。 3 、c t t 理论对于非复本( n o n p a r a l l e l ) 但功能相同的测验所测得的分数间,无 法提供有意义的比较,有意义的比较仅局限于相同测验的前后测分数或复 本测验分数之间。 4 、c t t 理论对信度的假设,是建立在复本( p a r a l l e lf o r m s ) 测量的概念假设 上,但是这种假设往往不存在于实际测验情境里。道理很简单,因为不可 能要求每位受试者接受同一份测验无数次,而仍然假设每次测量间都彼此 2 独立不相关,况且,每一种测验并不一定同时都有制作复本,因此复本测 量的理论假设是行不通的,从方法学逻辑观点而言,它的假设也是不合理 的、矛盾的 5 、c t t 理论忽视受试者的试题反应组型( i t e mr e s p o n s ep a t t e r n ) ,认为原始 得分相同的受试者,其能力必定一样;其实不然,即使原始得分相同的受 试者,其反应组型亦不见得会完全一致,因此,其能力估计值应该会有所 不同 正是基于c t t 理论的缺陷,才有了新的测验理论一i 盯理论的产生一般 认为,美国心理与教育测量专家i j 洛德( l o r d ) 和北欧科学家嘲瑞查( r a s c h ) 的工作对i r t 理论具有开创性的意义。他们首先在上个世纪5 0 年代建立了i r t 理论的数学模型,并提出了估计参数的相应方法。从7 0 年代起到现在,i r t 理 论已经在美国、西欧、北欧、日本以及澳大利亚等西方国家,成为心理与教育 铡量专家们研究工作的主要课题。研究工作已集中在连续变量资料和多维情况 下的数学模型,最优参数估计方法以及在测验编制、题库建设、测验等值和计 算机自适应测验等实际问题的应用方面。 i r t 理论最大的优点是题目参数的不变性,即题目参数的估计独立于被试 组。它假定,被试在某一试题上的成绩不受他在测验中其他试题上的成绩影响; 同时,在试题上各个被试的作答也是彼此独立的,仅由各被试的潜在特质水平 所决定,一个被试的成绩不影响另一被试的成绩,这就叫做局部独立性假设。 i r t 理论所做出的一切推论都必须以局部独立性假设为前提。 3 第二章、二级评分 在i r t 理论中,根据评分的方式,可分为二级评分和多级评分。目前,二级 评分理论已经发展得比较成熟,所谓二级评分,是指被试对项目的反应要么是对, 要么是错。对于二级评分,构造模型的方法很多,通常采用的是二参数l o g i s t i c 模型,即能力为0 的被试答对该题的概率为p ( 0 ) = i ( 1 + e x p ( - i 7 0 2 a ( o - b ) ) 1 其中b 为题目的难度,是使p ( p ) = 的能力参数值,一* 6 0 ,4 越大表示在 0 b 附近题目区分被试能力的作用越大总的来说, 6 h n 级评分模型的参数估 计有以下四种: 1 2 1 条件极大似然估计( c m l e ) ;联合极大似然估计( j m l e ) ;l 廿】边 际极大似然函数( 删l e ) 与【1 4 i 雕算法;边际贝叶斯估计。 c m l e 估计根据已知参数的不同分为:能力参数的条件估计;项目参数的 条件估计。第一种情况,已知项目参数4 b 估计能力参数0 ,此时需要用 n e w t o n r a p h s o n 迭代方法进行求解,在求解过程中可能有些值的估计会越界,可 以将它们约束到( 一3 ,3 ) 区间内。用n - r 方法必须保证分母不为o ,遇到分母为 0 时,应输出迭代失败的提示。对于所有项目全答对或全答错的被试( 称之为特殊 反应模式) ,c 札e 不能正确估计其能力,我们可在迭代开始前将这些特殊反应模式 剔除;第二种情况,已知能力参数口,估计项目参数a , b ,同样使用n r 方法求解, 但在求解过程中,我们经常会用- e ( j ) 来代替j ( 称之为f i s h e r 得分迭代法) , 与第一种情况类似,对于所有被试都答对( 或都答错) 的项目,c 札e 估计也不能 正确估计项目参数,也需要在迭代前将这些项目剔除。 c 1 4 l e 估计是基于一定条件下估计参数,能力的条件估计特别适用于由题库项 目测试被试能力时估计被试能力,但在题库建立前,被试的能力参数和项目参数 均未知,欲对这些参数进行估计,例忱就不适用了。 ”l b i r nb a u m 提出了联合极 大似然估计( 眦e ) ,j m l f 含有太多的不确定因素,为了减少这种不确定性,我们 可以把j m l e 分化为能力参数的条件估计和项目参数的条件估计,二者是一个不断 互相校正的过程,将这两部分反复迭代求稳定值。这正是j m l e 估计求解参数的重 4 要思想方法,但j m l e 估计也存在不足,其最大缺陷就是,项目数固定时,能力参 数的个数是随被试人数的增加而增加( 称之为伴随参数) 只有消除了伴随参数,才能消除j m l e 估计固有的缺陷,这就需要采用能力参 数边际化的手段,即删l e 估计但用删l e 估计对项目参数求解,只能对很少量 项目才能得到项目参数的估计值。1 9 8 1 年b o c k 和a i k t i n 提出了用雕算法实施 i 她i l e ,尉算法在一般条件下可以收敛,计算也比较简单,但它的收敛速度较慢, 并且对于特殊的反应模式( 全答对,全答错) 也无法正确估计其项目参数,而且 迭代过程可能使a 的值很大,从而使估计值越界, b 前面几种参数估计都有不能解决的问题,共同之处是不能处理特殊反应模式, 解决这个问题可用b a y e s 方法,在b a y e s 估计中最重要的一点是必须先给出所要 估计参数的先验信息。引入b a y e s 方法后就能够处理特殊反应模式,对m m l e e m 估计中出现的越界估计也会自动调节。但由于使用b a y e s 估计需要先给出参数的 先验分布,那么,如果这个分布比较符合实际情况,计算所得的参数值是比较接 近真值的,而先验分布一旦偏离实际很远,那么所得结果可能远离真实值。 当然,以上几种估计方法还不是很完善,有待进一步研究。但总的来说。二级 评分模型的参数估计已经得到了很完善的研究,也已经得到了很广泛的应用。 s 第三章、多级评分 1 6 1 ”1 项目反应理论是心理与教育测量领域中的一个新的发展方向。它建立在 潜在心理特质理论的基础上,以要研究的被试潜在心理特质与被试在测验项目上 的反应行为之间的关系作为自己的核心内容,这就使得被试潜在心理特质与项目 的特性( 比如说难度、区分度等) 之间的相互影响成为一种可以被分析出来的因 素。它的这些优良性质在教育与心理测量领域开辟了广阔的应用前景。 目前,模型的研究是当前项目反应理论研究中重要的方面之一。本文利用的 是项目反应理论中假定心理特质单维条件下刻划多级评分项目的重要模型之 - - s a m e j i m a 模型“1 。 参数估计是应用i r t 的前提,。实施项目反应理论依赖于对项目参数和被试能 力估计的统计技术”,但与二级评分模型相比,由于在多级评分模型中,每一个项 目的每一等级又对应其难度和区分度,这就使其参数估计十分复杂,从而加大了 估计的难度,因此一直未能得到很好的应用。本文将通过对被试的分组,克服参 数估计的难度,对这一问题进行初步探讨。 【l b 】假设在一次测试中有n 个项目,试卷总分为l 分,有n 个被试参加测试, 其卷面总分为,厶,k ( o 巧s m ,j - 1 ) ,设总分为i j 的被试的能力为吼, 这里假设总分相同的被试的能力相同,显然这种假设具有合理性。 设总分她的被试的能力为嘭= 警, 其中心和吼分别是总分的均值和方差。 若n 个被试共有g ( g m ) 种得分,则被试按能力可分成g 组,巳是每一 个能力区间g 的中点,g - - - 1 ,2 ,g ,设每一组被试的数目分别为f 1 ,f 2 , 岛t 则荟,l 假设每个项目有m 种反应类型,那么每组中选择每一个类型的人数依次为 气,眨,气,一,而且荟。居 其中选芋反应类型为k 的频数为p t 。去,薹p i 1 因此p 。一1 - 薹p i t - i 能力为巳的被试对k 类反应做出正确反应的概率为 最p 。) 一e ( p r ) ,且 荟只( 巳) 。1 。 因此己( 巳) _ 1 一荟最( 巳) 令r 是一个g 1 1 的矩阵 r - 眩) 一 若能力为巳的被试答对k 类级别以上的概率为 最( 巳) 一 其中a k , b , 分别为区分度和难度 令( 巳一) 一最+ 巳 1 l + e x p 卜t 蛾一钆) 】o 假定4 。- 口2 一- 吒- 4 ,即i n 个等级的区分度相同,则有: 圪魄) 一。 己一。( 巳) - o + 只( 吒) + ( 巳) 一魄) + 巴鸭) 丑( 巳) _ ,私峨) p l 峨) 。荟最( 哝) p o 以) - 1 对应地,有: p m ( 巳) - 气- ( b ) 一只以) k - 饵) - ( 巳) 一( 巳) p k ( 巳) - 丑a + ( 巳) 一五+ ( 巳) e 魄) - p o ( 巳) 一只。魄) 令b ( 乓) - r ,e ( 吱) b ,则有 p k - 气1 * - p k 一瓦丽1 丽一而1l + e 一“l + e 其中r 为对第k 个等级作出正确反应的概率 似然函数为: 撇托咿豇嵩! e 1 吵砂一只 对数似然为: “1 0 9 p 舭k , o ) - 善荟他只 则荟咯1 。g 足。 l o g ( 1 一只) + r 2 1 0 9 幔一b ) + + ,i l o g ( - p k _ 2 * - 也一t j + r t l o g ( 只_ l 一只) + _ + l l o g ( e , 一最+ l ) + + r m l o g ( 己一l ) 老。驴叶专+ i f k + l 】 石a l - 巳忍。4 b 。t 最吼 e h - 于e , 。- 最:一气。: , 也p k - is - - p k ,只+ ,只一+ , - + i s 。测酱,告仅与钆氢。有关 即有磊a l 1 0 磊a l - 。 所以二阶导数阵包括: 二阶导数毒,熹, 二阶混合导数丽8 l ,丽a l i 及南a t a t + 1 :a i a 1 4 一a 考p 九 砑a 2 l 。薹睁+ 挚”最+ 黔删+ t 蟹一舡吲, 丽a 2 l - 薹丘争以吃懈。魄。) 瓦a 2 l 一薹等他”峨w ) 嘉- 薹薹等等- ;| ;薹,| 争彬”州 袅- 薹,| 【譬一p k + 1 矗+ 薹秽鹕哮( 叫”w ) 取期望得: 一鲁笋( 只。以+ ,+ 最良) 】 k + l 令最吼= 睨, 则 e c 章一薹昨t 专+ 寺。 令最一。吼。一哌 9 ( 老- 丘职暇砖仇川 令彤。一只+ ,吼。, e c 毒一薹,i 哌虫叱川 e 静- 一薹厶薹眠。吲2 印。 e t 蒯a 2 l - 薹识巳【警一訾】_ h 。 n e w t o n r a p h s o n 迭代公式为 邑 : 瓦。 a + 9 l - 一t | 九 a 1 1a 1 2 0 a n a 2 1 “ a l 2 3 n l f 1lilill-lll_-lj 厶厶;厶厶 磊邑;矗互 第四章、实例 用以上方法对2 0 0 4 年长春金融高等专科学校会计系学生试卷的部分项目( 见 表) 进行分析,分析结果如下: 项目一:计算h m 三! 笋 ,”s i n x 解:h m 竺学坐出 ,o s i n z 1 - 古 = l i m f :! = l 。03 s x s x 。魉磊= 1 , # q 了- 忑x 2 - 1 。o3 s i 孟x s 善伍一工z 1 一工2 1 工2 11 2 粤_ 。忑2 3 c o s x 巧 。o 工 s i n x 1 一工2 = 一! 项目二:计算y x “的导数 解:) ,乜“。) 。忙“一。) 。) m e “( 1 n 工) - - e “2 1 n x o n n = 工h ,2 1 n x 一2 x - ,i 1 工 ( 1 分) ( 2 分) ( 3 分) ( 1 分) ( 2 分) ( 3 分) l 项目三:计算积分厂s e c 朋觑 0 6 解: s e c x d x2 ,s c c x d ( t 柚工) ( 1 分) 2 , 2 l q + t a n x ) d ( m x ) 26 2 p + 3 t a n x + 3 t a n x + t a n x ) d ( t a n x ) 3 3 5 1 7 = t a a x 4 - t a n x 4 - t a n x 4 - - t a n x 4 - c 57 ( 2 分) ( 3 分) 项目四:计算积分,t a n 船觑 解:设f t 肌工,s j j x - 咖f 从而,出- 击出,有( 1 分) j t 锄咒出2 厶出。j 1 ( f 2 1 ) + 砉协 = 妒一靴+ l 击m = ! ,一f + a “置a n f + c 3 = 1 3 tan工(tanxtanx-tan 4 - a r c t a nt a n1 4 - c= 一工lc 3 7 1 3 = 一t a n z t a n 工4 - 工4 - c 3 ( 2 分) ( 3 分) 表一:1 7 6 名学生能力值的估计 编号项目1项目2项目3项目4能力值 0 0 1 433 4 2 7 3 4 6 0 0 22223 0 2 0 6 1 0 0 322 330 5 9 5 6 0 0 4 32230 9 1 7 6 0 0 522221 7 3 2 5 0 0 6222 12 9 3 0 6 0 0 r 722221 7 3 2 5 0 0 823221 0 0 4 3 0 0 9 3 222旬1 2 3 2 0 1 0 2 2212 9 3 0 6 0 1 132220 1 2 3 2 0 1 2 。 4 3231 8 5 ” 0 1 3 3324 2 0 9 6 3 0 1 4 32 320 3 4 2 4 0 1 5 3 2 4 2o 6 2 0 0 0 1 6l2222 7 0 1 2 8 0 1 74443 2 8 6 1 0 0 1 83 4 320 7 9 4 4 0 1 92223o 2 0 6 1 0 2 03222_ 0 1 2 3 2 0 2 1 222 3、0 2 0 6 1 0 2 2232 30 4 7 4 8 0 2 3 334 31 7 8 8 3 0 2 4 2 2221 7 3 2 5 0 2 53 44 21 0 9 4 4 0 2 632220 1 2 3 2 0 2 722312 6 0 4 2 0 2 832320 3 4 2 4 0 2 92321- 2 6 8 0 6 0 3 023320 2 1 7 6 0 3 113222 4 2 2 1 0 3 222221 7 3 2 5 0 3 324230 7 1 3 8 0 3 41322 2 4 2 2 1 0 3 5 2232 o 7 1 2 9 0 3 624320 0 6 7 7 0 3 724331 0 4 4 7 0 3 833331 4 1 7 1 1 3 0 3 92 432q q 1 0 4 034 442 9 5 3 7 0 4 l2332m 2 1 7 6 0 4 22 4 331 0 4 4 7 0 4 323 2 30 4 7 4 8 0 4 433331 4 1 7 1 0 4 533 242 0 9 6 3 0 4 6 33 4 31 7 8 8 3 0 4 7 24320 0 6 7 7 0 4 82 332- 0 2 1 7 6 0 4 93 4320 7 1 ) 4 4 0 5 033 420 8 4 3 6 0 5 l 23320 2 1 7 6 0 5 22 223o 2 0 6 1 0 5 313 222 4 2 2 l 0 5 4 2333 0 8 0 8 1 0 5 51 3222 4 2 2 1 0 5 621 312 8 7 8 8 0 5 7 23 33o 8 0 8 1 0 5 83 22 2 - o 1 2 3 2 0 5 93 2331 2 2 6 7 0 6 0 44432 8 6 1 0 0 6 132 420 6 2 0 0 0 6 2 4 3 443 2 3 7 4 0 6 3 212 22 1 5 7 6 0 6 43 232 o 3 弭 0 6 53 233 1 2 教订 0 6 6233 20 2 1 7 6 0 6 733 4 3 1 7 8 8 3 0 6 8 4 4432 8 6 1 0 1 4 o f 诊 43332 1 0 5 7 0 7 0 2222 - 1 7 3 2 5 0 7 12333 0 8 l 0 7 24 4332 2 9 6 7 0 7 334431 7 9 3 3 仃7 41 2 214 9 6 7 7 0 7 522230 2 0 6 l 0 7 634320 7 9 4 4 0 7 744432 8 6 l o 0 7 83 4 3 3 1 6 9 5 7 0 7 9333 20 5 7 4 9 0 8 02232 - 0 7 1 2 9 0 8 l3 444 2 9 5 ” 0 8 22 333o 8 0 8 1 0 8 33 2320 3 4 2 4 0 8 433 42o 8 4 3 6 0 8 53 4320 7 9 4 4 0 8 6 21441 2 9 0 2 0 8 7 343 4 2 6 3 2 6 0 8 83 4320 7 9 4 4 0 8 93 3431 7 8 8 3 0 9 02 232旬7 1 2 9 0 9 1l 2422 2 钙i o 0 9 223322 1 7 6 0 9 33 3331 4 1 7 1 0 9 422 4 2o 3 6 3 8 o 弓1 5 4 3 4 2l 5 3 4 6 0 9 633 4 20 8 4 3 6 0 9 732320 3 4 2 4 0 9 833 4 3 、 1 7 8 8 3 0 9 93 4442 9 5 3 7 1 0 023 32- 0 2 1 7 6 1 0 122 221 7 3 2 5 l o z 34 4 。 21 0 9 4 4 1 0 32 222 - 1 7 3 2 5 1 0 433 4 2o 8 4 3 6 1 0 53 4 4 3l 7 9 3 3 1 0 623 42o ,0 8 3 6 1 0 7 44 4 32 8 6 1 0 1 0 8 l3213 4 2 9 3 1 0 9 24431 4 1 9 4 1 1 033 231 1 2 0 3 1 1 13 4442 9 5 3 7 1 1 2 2 4 431 4 1 9 4 1 1 32 3221 0 0 4 3 1 1 421 222 1 5 7 6 1 1 5 43 44 3 2 3 7 4 1 1 63 322o 2 0 7 1 1 1 723 221 0 0 4 3 1 1 8221 22 3 6 0 4 1 1 922 430 8 8 8 0 1 2 0 343 2 0 7 9 4 4 1 2 1 44422 2 2 4 6 1 2 23 3320 5 7 4 9 1 2 3 4 43 43 。1 7 2 0 1 2 4 2212 2 3 6 0 4 1 2 5 2332 - 0 2 1 7 6 1 2 6 22212 9 3 0 6 1 2 72 1l1_ 4 4 0 5 3 1 2 82 32 12 6 8 0 6 1 6 1 2 934331 - 6 9 5 7 1 3 03322o 2 0 7 l 1 3 1 433 32 1 0 5 7 1 3 23 2 2 2m 1 2 3 2 1 3 3 34320 7 9 4 4 1 3 423 2 21 0 0 4 3 1 3 522122 3 6 0 4 1 3 62 12 2- 2 1 5 7 6 1 3 73322o 2 0 7 1 1 3 842 4 44 5 5 ” 1 3 933 2 2o 2 0 7 l 1 4 023 2 2- 1 0 0 4 3 1 4 143332 1 0 5 7 1 4 2221 1- 3 7 5 8 6 1 4 323 l 21 9 3 0 9 1 4 444343 1 7 2 0 1 4 5444 32 8 6 1 0 1 4 63 43 31 6 9 5 7 1 4 72422也6 0 2 2 1 4 8 4434 3 1 7 2 0 1 4 9 3 322 o 2 0 7 l 1 5 04 3 34 2 7 3 4 6 1 5 1 4 4343 1 7 2 0 1 5 2442 21 0 2 9 8 1 5 33222_ o 1 2 3 2 1 5 43 4 32o 7 9 4 4 1 5 5 2 2221 7 3 2 5 1 5 634231 3 9 1 7 1 5 71322- 2 4 2 2 1 1 5 822221 7 3 2 5 1 7 1 5 9 23221 0 0 4 3 1 6 02232 - 0 7 1 2 9 1 6 134220 4 5 3 3 1 6 2 4 342。1 5 3 4 6 1 6 322221 7 3 2 5 1 6 4 23221 0 0 4 3 1 6 5 4 2 2 2 - 0 3 6 6 7 1 6 6 44343 1 7 2 0 1 6 7 333 3 l ,4 1 7 1 1 6 833331 4 1 7 1 1 6 9322 2一o 1 2 3 2 1 7 02 422- 0 6 0 2 2 1 7 12 422- 0 6 0 2 2 1 7 23322o 2 0 7 1 1 7 33 3231 1 2 0 3 1 7 43 4242 4 1 2 5 1 7 52222 1 7 3 2 5 1 7 6 22122 3 6 0 4 表二:四个项目难度参数与区分度参数的估计 项目1 级难度2 级难度3 级难度 4 级难度区分度 3 0 9 6 31 4 3 5 31 3 1 9 12 4 1 2 61 8 2 5 2 - 4 9 1 3 5 2 8 6 1 00 5 8 1 21 9 7 1 1o 8 0 2 7 - 3 9 6 7 01 - 9 9 1 9 81 0 8 :琵2 1 9 7 0 l 0 7 3 5 四2 7 8 5 2 0 9 5 0 91 7 6 4 32 6 4 5 32 4 2 7 9 总结 以上,只是本人对多级评分模型参数估计的一点浅显的探讨,还有待进一步 1 2 1 的研究。总之,。项目反应理论发展到今天,已经越来越完善,应用也越来越广 泛,但在研究和使用过程中我们也发现,虽然项目反应理论具有经典测验理论所 不可比拟的优势,但它也存在一些明显的问题。除了该理论要求研究者具有很高 的统计背景之外,其问题主要源于该理论的基本假设:1 ) 单一维度,即只假定测 验的所有题目只测查同一种能力或潜在特质。其实,很少有测验仅仅测查单一的 能力或特质,这也是人们对项目反应理论提出质疑的关键所在2 ) 局部独立性, 即当控制所测量的能力或特质之后,被试对题目的反应模式只受所测定的能力的 影响。3 ) 单调性,即被试对题目正确反应的概率随其能力水平的增加而单调递增。 由于这3 条假设非常严格,近年来,研究者们正不断努力尝试建立新的测量理论, 以发展或代替项目反应理论。 参考文献 1 朱裸,姚定康,梅长林,等。关于项目反应理论试题参数的估计 j 教育发展研究,2 0 0 4 6 :1 0 1 - 1 0 3 【2 1 辛涛项目反应理论的新近展 j 考试研究,2 0 0 5 7 :1 8 2 1 3 余民宁试题反应理论的介绍( 一) c 研习信息,第8 卷( 6 期) :1 3 - 1 8 【4 】l d r d f m ( 1 9 8 6 ) m a x i m u ml i k e l i h o o da n db a y e s i a np a r a m e t e re s t i m a t i o ni n i t e mr e s p o n s et h e o r y j o u r n a lo fe d u c a t i o n a lm e a s u r e m e n t , 2 3 ,1 5 7 - 1 6 2 【5 】m a s t e r s ,gn ( 1 9 8 2 ) ar a s c hm o d e lf o rp a r t i a lc r e d i ts c o r i n g p s y c h o m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《塑料成型工艺及模具设计》教学大纲
- 玉溪师范学院《数据库原理与应用实训》2022-2023学年期末试卷
- 很好的分数混合运算复习教案
- 学生版教育课件
- 教你看懂狗狗常见的动作语言
- 中学家长会课件
- 2024年血细胞分析仪器试剂项目评估分析报告
- 2024年网络及通信协议处理软件项目评估分析报告
- 2023年室内LED照明灯具项目成效分析报告
- 投资学 第7版 课件 第14章 现代投资银行
- 幼儿园大班健康领域指南目标
- 大型机械设备安全操作培训
- 《白酒基础知识培训》课件
- 苋菜种植技术要点
- 人教版小学数学三年级上册周长【全国一等奖】
- 肝移植免疫排斥反应基础研究
- 物流管理职业生涯规划
- 幼儿园小班音乐游戏活动《小老虎吃糖》教学设计【含教学反思】
- 对分课堂:中国教育的新智慧
- 《物流机械设备》课件
- 芥末酱行业报告
评论
0/150
提交评论