版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、IRT分析程序ANOTE与MULTILOG、PARSCALE参数估计性能比较漆书青1 戴海琦2 丁树良3 罗照盛4 董圣鸿5周骏6(1.漆书青,教授;2.戴海琦,硕士,教授;3.丁树良,硕士,教授;4.罗照盛,博士,副教授;5.董圣鸿,硕士,讲师;6.周骏,硕士,讲师;江西师范大学教育与心理统计测量研究开发中心,江西南昌330027)摘要:考察了自主开发的“现代教育与心理测量通用分析程序(ANOTE)”的IRT参数估计质量,与MULTILOG和PARSCALE进行了比较,大量Monte Carlo模拟研究表明:对难度等级为9以下时,三程序估计精度相近;难度级别10-14时,MULTILOG不能
2、处理,ANOTE与PARSCALE估计精度各有千秋;难度级别在15以上时,只有ANOTE才能处理当遇到同一试题两相邻难度级别很接近时,MULTlLOG估出值顺序可能逆转。关键词:参数估计;程序;RMSD;ABSE一、问题的提出国际测量学界有按项目反应理论(IRT)处理多级计分资料的分析程序,最著名和最流行的是MULTILOG和PARSCALE。它们既能处理社会心理测量与心理卫生评估中的5点、7点乃至更多级别的测评量表资料,又能处理成就测验中的多等级计分题资料(参见两程序使用手册)。但MULTILOG的最高等级数为10(即9个难度级别),PARSCALE的最高等级数为15(即14个难度级别)。在
3、我国,心理测量中等级计分资料一般多在9点以下,而成就测验中,却历来有坚持综合运用选择题与多等级计分题的良好传统。一般,选择题占分比重只是40左右,主要部分是多级计分题(即西方所称“主观题”);而且,不少题型(如作文、分析论述、综合证明等)的满分值常在15乃至20或30分以上。因此,MULTILOG和PARSCALE在我国教育测量中的使用范围就受到很大局限。为满足我国教育与心理测量工作实际发展的需要,我们自主开发编制了“现代教育与心理测量通用分析程序(ANOTE)”。它能处理级别数超过30的等级计分题资料。这对在我国推广IRT的研究与应用,当然是会有所帮助的。程序ANOTE包括参数估计、模型-资
4、料拟合检验、等值、信息函数计算等模块。它采用Samejima双参数模型(GRM),并把0-1计分题当做等级计分题的特例来处理。项目参数估计采用MMLEEM方法,而对能力参数采用Bayes后验期望估计(EAPE)。其具体做法是应用项目参数估计中最后一轮EM循环中得到的的后验分布h(| ua, )的值h(yk | ua, ),这里y1yq为积分结点,求能力参数的Bayes后验期望估计。(2)、(3)中h(yk | ua, )为的后验分布的估计,yk为数值积分的求积结点,A(yk)为相应的权,而式(4)中是GRM中运算特征曲线,其中项目参数均由EM算法估出,而能力参数由积分结点yk代替。程序ANOT
5、E中参数估计模块是整个分析系统的基础而关键性的部分,其行为表现或者说估计性能如何,理应高度关注,严格检验。假使其估出参数值正确性不高甚至完全失效,以后的等值方程求取与信息函数计算就会丧失应用的价值与意义。所以我们特地采用Monte Carlo方法,设置修复能力指标来考察程序ANOTE参数估计的正确有效性,并跟国际通行程序MULTlLOG和PARSCALE作了比较,相当系统而认真地进行了本研究。二、方法与设计按Monte Carlo法检验计算机程序估计参数准确有效性应执行如下步骤:1指定真参数值,本研究中一方面指定项目参数(即构建模拟试卷),另一方面又指定被试参数(即设置被试群体)。由于采用Sa
6、mejime双参数模型,能力参数-N(0,1),难度参数b-N(0,1),区分度参数a的对数lnaN(0,1),N(0,1)表示标准正态分布。2模拟生成得分反应矩阵x;一般同一批真项目参数条件下模拟多批被试,从而模拟出多个得分矩阵(如30个)。3使用拟考察与检验的参数估计程序,本研究中即使用ANOTE,MUL-TILOG,PARSCALE三个程序为表达方便,我们用An表示ANOTE程序,Mu表示MULllLOG程序,用P表示PARSCALE程序,下同。,根据反应矩阵x估出项目与被试参数。4求取参数估计值与真参数值的差,设计修复能力的检验统计指标,分析与比较这些指标值,以验证有关参数估计程序的估
7、计性能。我们设计的修复能力检验统计指标有三:一个是RMSD,一个是ABSE,另一个是MEANE。例如,对于项目区分度参数a,式中, 表示由第t批被试的得分阵x估计的第j个项目的区分度,j=1,2,m,t=1,2,r而aj表示第j个项目的区分度的真值。而MEANE(a)= (7) 设置三个度量指标的意义是:RMSD(a)是一个常用的表示参数估计程序对真值的修复能力的指标,其好处是在一定的条件下,可以讨论RMSD的分布或渐近分布;MEANE(a)则可用其大小和符号来考察参数估计程序是否有系统的高估或低估的现象发生;而ABSE这个指标虽无上述优越性,但其绝对值平均对越轨值(outler)有稳健性(r
8、obust),可说明估出值对真参数值的绝对平均偏差,若大,即修复程度差。相仿,我们可以定义RMSD(b),ABSEE(b),MEANE(b)以及RMSD(),ABSE()昶MEANE E()。当然从数学上来看,必有MEANE(a)ABSE(o)而根据Cauchy-Schwarz不等式,必有ABSE(a)RMSD(a)。对参数b、也有相类似的结论成立,即有:MEANE(·)ABSE(·)RMSD(·)由于MULTILOG和PARSCALE这两个程序的DOS版本和Windows版本在估计精度上没有实质性变化,故我们有时也使用DOS版本作考察。实际考察的Windows版
9、为MULTILOG7.03,PARSCALE4.1,DOS版为MULTI.LOG6.0,PARSCALE3.1。为考察在试题有不同计分等级个数、估计收敛为不同精度的条件下各参数估计程序的行为表现,我们设计了l-0计分题,九级难度及以下、l4级难度及以下、l4级难度以上的计分题,以及收敛精度为0.01和0.001等几种情况,被试数则均取为l000。特别是当某个项目相邻两等级的难度值十分接近时,实测与模拟资料都会出现两等级中有一个(较难的那个)的得分人数很少甚至为零的情况。这在我国的作文、分析论述与综合证明题中是颇为常见的。为考察此种条件下各参数估计程序的性能,我们在一些多等级计分题中,在指定真参
10、数值时,有意设置了一些两相邻等级的真难度差值为0.01或更小,名之曰设置了“陷阱”。三、检验与比较:按上述设计进行试验,所得结果列于表l一表6。若将表i(i=1,2,3,6)中对应的评价指标,比如RMSD,记为RMSD(i,a,An)它表示第i张表中用ANOTE,估计a参数的RMSD值,相仿可以解释MEANE(i,b,Pa)等。(一)设计一本设计构建全是多级计分项目组成的模拟试卷。由l6个项目组成,其中3分题4个、5分题2个、7分题4个、8分题4个、9分题2个,共100分。项目最高等级数为lo(即满分为9分),无陷阱题。参数估计收敛精度为0.01,被试1000人。这种设计,三种程序均能处理。由
11、表l可知:1三个程序都有低估参数a的倾向,且ABSE(1,a,Pa)ABSE(15,a,An)ABSE(1,a,Mu)2ANOTE对参数b有轻微的高估倾向,而MULTILOG和PARSCALE则有时高估有时低估。3若将RMSD(a)与RMSD(b)看成同等重要,则表1指出,ANOTE和MULTILOG对项目参数的修复程序比PARSCALE好;而对能力参数的修复程度,则ANOTE和PARSCALE比MULTILOG好。4项目的等级数对指标RMSD、ABSE、MEANE均有影响,表l表明,不论哪一个程序,似乎对5等级评分项目的难度b的修复程度都较好,这对试卷编制可能有意义。(二)设计二本设计构建既
12、有0-1记分又有多级计分的模拟试卷。其中0-1记分题40个,多级计分题11个(4分题3个,5分题6个,9分题2个),满分100。项目最高等级数为l0,无陷阱题,参数估计收敛精度为0.01,被试1000人。表2表示:RMSD(2,a,Mu)<RMSD(2,a,Pa)<RMSD(2,a,An)RMSD(2,x,An)<RMSD(2,x,Pa)<RMSD(2,x,Mu),x=b,即对于0-1与多等级题混合的测验,MULTILOG对参数a修复较好,但对难度参数b修复较差;ANOTE结论正与之相反;PARSCALE则处于中间状态。(三)设计三本设计在设计二基础上将参数估计收敛精度
13、改为0.001,其他均不变。表3说明,对于0-1和多等级混合的测验RMSD(3,a,Mu)<RMSD(3,a,An)<RMSD(3,a,Pa);RMSD(3,b,An)<RMSD(3,b,Pa)<RMSD(3,b,Mu);而且就参数a而言,三个程序对应的RMSD均在036以下;就参数b而言,ANOTE对应的RMSD<0.2,MULTILOG相应的RMSD>0.5。(四)设计四本设计构建全是多级记分项目组成的模拟试卷。由l5个项目组成,其中3分题2个、5分题3个、7分题3个、8分题l个、9分题2个、l2分题2个和14分题2个,满分为120分。但项目最高等级数为
14、15,无陷阱题,参数估计收敛精度为0.01,被试1000人。由于MULTILOG使用手册明确指出它能处理的最高等级数为10,故本设计只考察PARSCALE与ANOTE两程序。由表4可知,对于全是多等级项目,ANOTE对a参数修复能力明显优于PARSCALE;但对难度参数b和能力参数,则PARSCALE的修复能力比ANOTE稍好一些。(五)设计五本设计构建既有0-1记分又有多级计分的模拟试卷。共54题,0-1记分题40个,多级计分题14个(4分题3个,5分题6个,9分题2个,l4、16、20分题各1个),满分为l50。项目最高等级数为21(即满分为20),无陷阱题,参数估计收敛精度0.01,被试
15、1000人。由于PARSCALE使用手册明确指出它所处理的最高等级数为l5分,因此对于后两题(即l6、20分题)PARSCALE程序无法估计其参数。从表5可知,PARSCALE不能处理l4分以上题目,而ANOTE可以处理,然而对于l6分题的计算结果远好于对20分题的计算结果。从可比较的前40题(0-1评分题)及相应的l4分题来看,ANOTE与PARSCALE各有千秋。 (六)设计六本设计构建0-1记分与多级计分并有的模拟试卷,并特意设置4个陷阱题。本模拟试卷共51个项目,0-1记分40个,多数计分11个(4分题3个、5分题6个、9分题2个),满分100。设置的4个陷阱题中,4分题1个,5分题2
16、个,9分题l个。参数估计收敛精度为0.01,被试1000人。项目最高等级数为l0。由表6可知,若试卷中含有多等级评分项目,且被试在某些等级上分布不正常时(即由于某项目中两相邻等级难度差值大小时,就会出现该项目某等级得分人数比例太低甚至为0),ANOTE和PARSCALE均可处理这类情况,而MULTILOG此时表现欠佳,会出现项目难度估计产生异常的现象:或者是使得RMSD(b)相当大(>1),或者说对相应项目难度估计很不合理,会使得难度不能随等级数上升而上升,即会出现“倒序”现象。MULTILOG与ANOTE在其中两个“陷阱”题上估出值的对比情况见表7。四、讨论与总结1在难度级别为10及以
17、下时,表l至表3说明,三个程序修复指数的排序虽略有差别,但无重大差异,故可认为三程序的估计性能相近。其原因是模型与估计方法相同,只是某些细节技术处理有异而已。2当两相邻等级难度差值过小时,表6说明MULTILOG的估出值会出现奇异现象,PARSCALE则要求合并等级即减少指定等级数。只有ANOTE可照常进行。3在难度级别是l0一14时,表4说明MULTILOG不能进行分析,PARSCALE与ANOTE都能进行分析;但PARSCALE的a估出值不如ANOTE,b的估出值都优于ANOTE。0值各有千秋。4表5说明只有ANOTE能分析15级以上的项目资料;且从表2、表3、表5、表6看,一般说,ANO
18、TE本身中,除特别高等级的题外,多级计分题估出值优于l-0计分题估出值。(参加本文数据处理的有:朱玮、涂冬波、黎光明、邓太平、陈德技、吕英)参考文献1Baker FB,Item Response Theory:Parameter Estimation Techniques,Marcel Dekker,Inc,l9922Harwell MRAnalyzing the results of Monte Carlo studies in Item Response Theory Educational and Psychological Measurement,V0157 N02 1997,266-2793Barlett,MS, Kendall,DC,The statistical analysis of variance heterogeneity and the logarithmic tran
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年福州货运从业资格试题答案解析
- 2025年武汉货运从业资格证考试模拟考试题及答案
- 2025年塔城货运资格证培训考试题
- 战略管理能力课件
- 2024年标准委托服务代理合同模板版B版
- 2024年爬架租赁合同:铝合金框架出租
- 2024全新智能喷泉控制系统研发与安装合同3篇
- 《膀胱癌治疗及护理》课件
- 2025私营企业用工合同模板
- 2025工程工期延误合同
- 脊柱外科护理规划方案课件
- 营商环境有关知识讲座
- 《俄罗斯国情概况》课件
- 湖南省长沙市六年级上册数学期末试卷(含答案)
- 30题启明星辰售前工程师岗位常见面试问题含HR问题考察点及参考回答
- 幕墙工程检验批质量验收记录
- 2023年日本医药行业分析报告
- 关于社会保险经办机构内部控制讲解
- 软件开发项目关键技术可行性分析
- 虚拟货币交易所行业营销方案
- 山东建筑大学混凝土结构设计期末考试复习题
评论
0/150
提交评论