下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用于考试中的IRT参数估计简化程序设计朱宁宁目前,越来越多的考试都应用项目反应理论ItemResponseTheory,称简IRT)作为题目分析、题库建设以及分数估计等方面的主要方法。但是,这一方法因为具有太多的数理统计内涵,以至不容易被人掌握。而且,目前用于IRT参数估计的软件虽然不少,比如有BIGSTEPS、PARSCALE、BILOG以及MULTILOG等Embretson&Reise,2000),但是作为商业软件,这些工具都有特定的应用范围和条件,并且功能过于复杂,设计的目的主要是供研究者使用的,并不容易为一般应用者所掌握。这些问题的存在,导致了我国考试界对IRT技术了解不深和应用不广。实际上,对于计划要在考试中使用IRT技术的广大考试管理者和实施者而言,他们更希望有一个易于使用,并能满足一般数据处理要求的IRT参数估计程序,以便能将现在的考试系统提升到一个新的更有效的水平上,并能适应现代计算机技术不断进步的要求。本研究使用边缘极大似然估计MMLE)的方法进行项目参数的估计,并用贝叶斯法Bayes)期望后验估计EAP)的方法进行结果分数参数估计Baker,1992),设计出一个功能简化的用于二级计分的2PL模型的参数估计程序,简称MyPro。这一程序的特点是:使用简便,嵌入性较强。1模型简介二级计分的2PL模型项目特征曲线可表示为:Pi(l/2)其中,Zij=j—i为题目区分读,Ni为题目的难度。2.MyPro与Bilog在估计结果上的对比BILOG(Mislevy&Bock,1990)是用于二级计分的项目反应理论模型参数估计的流行工具,这个程序已经有适用于Windows平台的版本,可完全通过菜单设置参数,来完成1PL、2PL和3PL的IRT模型的参数估计。在本研究中,使用的对比程序就是BILOGC3.11版)°BILOG-3程序使用流行的(MMLE)方法来进行项目参数的估计,默认用(EAP)方法进行特质参数的估计。下面,用蒙特卡洛(MonteCarlo)模拟方法,将MyPro与Bilog—3加以对比,以观察其可用性。首先模拟10次考试数据:每次考试有3000个考生参加,试卷的题量为50题。其中,题目鉴别度A采用Log正态分布加以模拟,题目难度B采用正态分布模拟。能力值Theta也使用正态分布模拟。受测者的应答情况采用2PL模型加以模拟(由于模型本身即要求数据的一维性,因此模拟的数据已经符合模型的要求,不必再进行模型符合性的相关检验)。得到10组受测者应答矩阵以后,分别使用MyPro和Bilog—3进行参数的估计。MyPro和Bilog—3方法得到A值、B值和THETA值的各10组数据,将这些数据分别和初始模拟的A值、B值和THETA值进行比较,分别计算出每一组的误差的标准差的平均值,以之作为估计误差。结果如表1所示:从表1中可以发现:(1)将MyPro和Bilog-3的估计结果与模拟的初值进行误差分析,发现两个程序的估计的准确性水平较为一致。可认为这两种程序的估计具有同样的准确性。(2)通过对比MyPro和Bilog-3两种程序的估计结果,发现两个程序的估计结果的差异较小。可认为两种程序的估计结果之间具有一致性。从模拟研究结果观察,MyPro这个参数估计程序,虽然距离Bilog的复杂性还有很大的差距,但是已经达到了可用的标准。需要使用者注意的是:和Bilog等程序一样,MyPro简化程序没有包含IRT模型假设检验过程,因此需要用户预先保证输入MyPro的数据是符合IRT的模型假设的(可通过DIMTEST或DETECT等程序考察数据的特征)。3MyPro的用法介绍MyPro这个程序包含两个功能:MyPro.MMLE和MyPro.EAP,分别用于估计项目参数估计和能力参数。用户可选择需要的功能,分别进行调用。MyPro.MMLE包含三个参数:vData,lMNC和dJD。最简单的情况下,用户只需要输入vData这个参数,这是考生在每个题目上的得分数据,按照以下形式排列(n名考生,m个题目):其中,1MNC用于设定最大的迭代次数(默认为100),dJD用于估计精度(默认为0.001),这两个参数都是可选的。估计结束以后,会生成一个结果文件:EM.LOG。包含A与B参数的估计值,及其卡方检验结果。使用者可直接调用项目参数估计的这些结果。下面举例说明如何用一个Windows的脚本运行这一程序:setMyPro=Server.CreateObject("IRT.MyPro")MyPro.MMLEvDataMyPro.EAP也包含三个参数:vData,vA和vB。这三个参数都是必需的,vData参数包含某个考生在每个题目上的得分数据,如下所示(考生x,在m个题目上的回答):Kxl,Kx2,…,Kxi,…,KxmvA表示题目的区分度,vB表示题目的难度(m个题目):A1,A2,…,Aj,…,AmB1,B2,…,Bj,…,Bm估计结束后,能直接返回Theta值(此即为考生的能力值),以及信息量和误差情况。在实际使用中,如预先不知道项目的区分度和难度值,可先通过前面的项目参数估计过程获得这些参数,然后再计算Theta值。下面举例说明如何用一个Windows的脚本运行这一程序:setMyPro=Server.CreateObject("IRT.MyPro")sValue=MyPro.EAP(vData,vA,vB)从上面的例子可以看到,无论是进行项目参数估计,还是对能力参数进行估计,都只要通过简单两行代码即可完成调用,省去了用户的很多麻烦。4小结由于此程序作为动态链接库的形式发布,因此可以在Windows95/98/Me,NT,windows2000以及XP中都能被使用。这个库程序可以被其它IRT应用软件所调用,也能被计算机化考试的服务器直接调用,甚至可以被整合到客户端的应用中,以提高服务器的效率。本研究以二级计分的2PL模型为例,说明了模块化IRT的参数估计方法后,能为大家方便地使用。但是具体的考试还会涉及多级计分的题目、时间限制题目以及多选题等等,与此相关的IRT模型及其参数估计方法就更为繁琐。本文只是抛砖引玉,希望国内的考试研究者能够开发出更多类似的应用程序,以便使IRT技术为国内考试方面的具体应用提供基础性的帮助,为中国教育考试的科学化做出贡献。参考文献1.Baker,F.B.(1992).Itemresponsetheoryparameterestimationtechniques.MarcelDekker.Inc.Embretson,S.E.,&Reise,S.P.(2000).Itemresponsetheoryforpsychologists.LondonLaweenceErlbawnAssociates.2.M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论