计算机化适应性测验_第1页
计算机化适应性测验_第2页
计算机化适应性测验_第3页
计算机化适应性测验_第4页
计算机化适应性测验_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机化适应性测验壹、计算机化测验的兴起缘起1.1945年二次世界大战结束后,人类才发明第一台计算机。2.往后20年,计算机软硬件迅速发展。到了1960年代,出现高阶的程序语言,如:Fortran、Pascal、Coble。3.1960年代起,开始出现计算机辅助测验(computer-basedtesting,CBT)。4.1980年,Lord提出试题反应理论(itemresponsetheory,IRT)。开始有人利用IRT理论,融入发展建置计算机化适性测验(computerizedadaptivetesting,CAT)。5.1991年,美国国防部释出网际网络(internet)。6.1995年,出现WWW、Google、Yahoo等。7.2005年,出现iPhone、平板计算机、数位科技产品。8.2014年,出现穿戴式数位科技产品。计算机化测验之比较一、计算机辅助测验(computer-basedtesting,CBT)1.纸笔测验的计算机版。以键盘输入代替「笔」来作答输入,以荧幕呈现试题方式代替「纸张」的印刷。2.以古典测验理论(CTT)为计分之依据。3.无法量身订作测验,没有「因才施测」的功能。4.逐一或全部试题作答,无法跳答及空白未答,考生都接受相同题数、内容和作答时限的计算机辅助施测方式。二、计算机化适性测验(computerizedadaptivetesting,CAT)1.全新的计算机测验方式,虽然仍可视为「纸笔测验的计算机版」,但具有「随选随试」(testing

on

demand)的特色。2.以试题反应理论(IRT)作为理论与建置发展的依据。3.可量身订作测验,具有「因才施测」的功能。4.逐题作答,无法跳答,最终每位考生的答题数、内容、时间均不一。计算机化测验的发展现况一、学术上的研究 CAT测验已是一个技术成熟的工具二、检定(证照)考试的应用

已出现CAT测验,但仍以CBT测验为主三、学校的教学评量

顶多使用CBT测验,仍以纸笔测验为主四、官方的考试应用

还在研发阶段,试着使用CBT测验贰、计算机化适性测验的发展步骤实施计算机化适性测验的优点比起传统的纸笔测验,实施计算机化适性测验具有下列几项优点:1.增强测验的安全性;2.可依据需求来进行施测,具有施测弹性与效率的特色;3.无需使用试题本及答案卡,具有环保功能;4.适合每位考生的作答速度;5.立即计分和成绩报告;6.降低某些考生的考试挫折感;(我有一点质疑!)7.强化施测的标准化过程;8.容易从题库中抽题组卷,找出并删除不良的试题;9.对于试题类型的选择更具弹性;10.减少监试的时间。六大发展步骤一、挑选试题反应模式二、准备计算机化题库三、起始策略:测验起点四、继续策略:选题方式五、运算策略:能力估计六、终止策略:终止标准一、挑选试题反应模式1.分辨测验资料本身的不同计分属性与类型。2.审慎挑选适用的IRT计分模式。(1)二元化计分资料(binarydata):可挑一、二、或三参数对数型模式(即1PL、2PL、或3PL等)。(2)多元化计分资料(polytomousdata):可挑Rasch模式,或其变形模式(如:GRM、RSM、PCM、2PPCM或GPCM等)。3.对选择题型的成就测验而言,当前最受欢迎的CAT模式还是以三参数对数型模式(即3PL)最常被选用;其次,才是Rasch模式。4.对选择题型的心理测验而言,则是以Rasch模式的变形--PCM模式为主。二、准备计算机化题库1.参考IRT专书中关于「题库建置」的说明。2.事先建置并准备好一套计算机化题库施测系统。3.该计算机化题库施测系统系透过等化程序(test

equating),所建置起来的一套已校准过参数(calibrated

item

parameters)的题库,以及4.设计一套计算机施测程序,以作为针对每位考生的作答情况,从题库中选题、施测、计分、及决定是否停止施测的依据。5.该计算机化题库施测系统是进行计算机化适性测验的核心单元。若没有它,欲推动计算机化适性测验是不可能的。开始测验开始选一题受试者作答估计能力值终止条件满足?结束测验输出考试成绩计算机化题库系统(运算、挑题、呈现下一题)否是提供练习题数题,并估计起始值另一途径三、起始策略:测验起点应该先考哪一个试题,是适性测验所需面临的一件重要抉择问题。从理论上来看,试题的难度必须要能够配合考生的能力水平。但是,除非我们已知考生过去的表现好坏,否则无法在施测之前就知道考生的能力。所以,常用的测验起点方法有:1.自难度适中的试题中随机抽取一个试题。2.完全随机抽取一个试题。3.先调查学生的背景,再决定挑出那一类的试题。Lord认为,只要测验的题数不少于25题的话,以那一个试题做为起点的影响不大。从题库中随机选题的最大好处,就是可以达到保密的要求,减少某些特定试题有被重覆抽取的高曝光率(itemexposurerate)问题发生,而致危害题库的安全性。在实务中,为了方便计算机程序开始选题施测下去,CAT通常都会设计让计算机预先提供三到五题的练习题,并且是每位考生的练习题都相同,以供考生练习作答。这项作法的目的:1.让考生熟悉利用计算机作答的测验环境和该适性测验系统的作答方式。2.等考生至少出现一题答对(假设他连续答错的话)或一题答错(假设他连续答对的话)时,考生的作答反应组型才可以利用最大近似值估计法(MLE)开始估计出每位考生能力的起始值(initialvalue),以便继续下一阶段的施测步骤。当然,若是使用贝氏估计法(Bayesian

method)的话,则练习题的功用纯粹是为了让考生熟悉施测的情境之用。四、继续策略:选题方式依据IRT所建立的计算机化适性测验方式,必须事先有建置好的题库存在,并且,经过校准的试题参数特征也必须一起储存在题库里。校准时所选用的模式不同,都会影响计分方法的选择和能力的估计。一般而言,常用的试题挑选方法有三种:1.挑选能够针对考生能力估计提供最大讯息量的试题;为了避免同样的试题一再地被重覆选用,建议可从一堆能够产生最大讯息量的试题中,随机抽取一个试题来进行就可以。2.利用贝氏试题挑选法来挑选试题;将考生能力分配看成是某种事前分配(priordistribution)(通常都是视为常态分配),并计算考生答对或答错未用到的试题之事后变异数,再挑选能够使这位考生能力事后分配之变异数为最小的试题,以作为下一题施测的试题。使用贝氏的选题方法,颇受事前分配假设的影响很大,但是只要施测的试题很多的话,这种影响是可以被排除的。3.挑选难度最接近考生现阶段能力估计值之试题。五、运算策略:能力估计接着,就是进行考生能力值的估计。唯一不同的是,在CAT里,考生每作答一道试题之后,计算机就得重新估计一次考生的能力新值。其中,CAT最常用的两种能力估计方法,即是最大近似值估计法(maximumlikelihoodestimation,

MLE)和贝氏估计法(Bayesianestimation,

BE)。

最大近似值估计法的估计效能很好,但遇到题数少或估计值无法收敛时,会产生较大的估计标准误问题。一般而言,最大近似值估计法所估计出的能力值的估计标准误将大于考生真正能力分配的标准差。因此,为了能够开始顺利估计考生的能力值,一般的CAT都会设计让考生先练习作答几题(大约是三到五题左右),然后再根据作答结果的反应组型(responsepattern)进行初始能力值的估计。

贝氏估计法虽然能克服最大近似值估计法的估计限制,但在估计前,却必需对考生能力分配有个适当的事前分配假设,如果该假设不当的话,却会产生有偏差的能力估计值,且因为贝氏估计法所得的估计值常有回归平均数的现象,因而无法与最大近似值估计法的估计值相比。一般而言,贝氏估计法所估计出的能力值的估计标准误会小于考生真正能力分配的标准差。在实务运用上来看,也许在CAT刚开始估计考生能力的初期(如刚作答几题练习题之后的能力估计),使用贝氏估计法来进行会比较适当,而在估计进行之后,则改采最大近似值估计法来替代,会是一项比较不错的能力估计策略的搭配。六、终止策略:终止标准最后,CAT进行到何时才结束?这也是一项重要的决策问题。终止CAT的方法,与前述的选题与计分方法有很密切的关联。若以试题最大讯息量作为选题标准的话,只要累积已测过之试题的讯息量总和,到达某种事先预定的标准后,便可终止施测;换句话说,在开始施测之前,先预设一个测验讯息量总和值(如:20)或预设一个可被容许的估计标准误收敛值(如:.01),然后自题库中依序抽出能够产生最大讯息量的试题给予施测,并累计测验讯息量的总和,一直到测验讯息量总和或估计标准误收敛值达到事先预设的标准为止,即停止施测。若以贝氏估计法来选题的话,则可以估计能力之变异数小到某个预设的标准时,便可终止施测。

此外,根据过去的施测经验,如果前述这两种标准均很慢才达到的话,也可以预设施测试题的上限(如:40题)或固定的作答时间(如:40分钟)作为停止施测的标准,只要累积施测的题数达到上限(即已测完40题)或作答时间已到预定的时限(即已作答40分钟),即使尚未达到预定测验讯息量总和的标准,或能力估计值尚未获得满意的估计标准误收敛值,也就可以终止施测,以避免施测活动漫无止境地进行下去,徒增考生的作答负担与浪费考生的时间。施测终止之后,计算机即可输出考生的成绩或打印出测验的结果。参、CAT的纸上实例CAT实例假设有一个假想的,已建置好的题库试题及其参数特征如下:步骤一(1)假设计算机先随机挑选出一题,即试题3。因为它具有平均难度值和最高的鉴别度值。又假设某考生在这一题上答对,但此时的最大近似值估计法无法进行能力估计,必须等到至少有一题答对或一题答错才行(因为,在MLE估计法下,全错或全对的作答组型,会导致−∞和+∞的能力估计值)。步骤二(2)其次,假设计算机随机选中试题12。因为它比前一个试题较难。又假设该考生答对此一试题。至此,最大近似值估计法仍无法进行能力估计,必须再等下一题的作答结果。步骤三

步骤四

步骤五

步骤六由上述实征例子的步骤可知,当这些挑题、呈现试题、作答、能力估计等步骤,都透过计算机来执行时,其速度是很快的,能力估计值也会很快速和精确地被估计出来;并且,计算机也可以做到「因才施测」的理想境界,也就是说,计算机可以针对每位考生的表现,挑选最适合该考生作答的试题,并估计其能力值。因此,每位考生所考到的试题都不一定会相同,但计算机却可以快速、精确地估计出其能力值;并且,由于题库中的试题都已建立在共同量尺单位上,所以,每位考生被计算机估计出来的能力值,也都是建立在共同量尺单位上,可以直接进行彼此间大小和差异的比较,以达到适性测验的最终目的。肆、实施電腦化適性測驗的配套措施实施CAT的条件1.已建置好的题库或计算机化题库系统。2.待建立的计算机化测验试题已经过校准或量尺化(calibration)。3.适当的心理计量学理论基础(如:试题反应理论(IRT))。4.计算机及其周边设备。5.适当的软件程序。6.具使用适性测验理论与实务经验的人员。实施CAT的配套措施1.测验理论:IRT,已有。2.多媒体科技运用:数位科技,成熟。3.测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论