(计算机软件与理论专业论文)基于web的自适应汉语测试模型的研究.pdf_第1页
(计算机软件与理论专业论文)基于web的自适应汉语测试模型的研究.pdf_第2页
(计算机软件与理论专业论文)基于web的自适应汉语测试模型的研究.pdf_第3页
(计算机软件与理论专业论文)基于web的自适应汉语测试模型的研究.pdf_第4页
(计算机软件与理论专业论文)基于web的自适应汉语测试模型的研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

圭塑銮堡奎堂翌主兰堡堡苎 厂摘要 i 电脑化自适应测验( c a t ) 是目前国际上考试发展的最新方向,也是现代 标准化大规模考试发展的必然。汉语水平考试( h s k ) 是专门测试母语为非汉 语者的汉语水平而设立的一种国家级的标准化考试。为了提高h s k 考试的信 度和效度,有必要实行汉语自适应考试,这也体现了国家科教水平的提高。 语言测试不同于其他课程的考试,唯有它是一门科学,不仅包含语言学, 还涉及到心理测量学、概率统计以及计算机技术。传统的纸笔考试( p & p ) 试 题量大,且同一试卷中的大部分的试题难度难以覆盖所有的不同水平的考生, 其有效性很低。电脑化自适应测验是一种个性化的测试,它根据每个考生的实 际情况进行定制:根据考生的答题情况选择合适的试题,使测试始终是客观地 针对考生的实际能力水平的上下范围来进行 试。这种测试方法的关键技术依赖题 理、选题策略有效、算法收敛合理。 因此是一种科学高效的语言测 论,要求题库量大、试题参数合 本文旨在建立汉语水平考试的电脑化自适应测试的理论模型,模型的核心 是一系列基于题目反应理论的算法。通过测试系统的开发,为汉语水平考试的 计算机化扫除了理论上与技术上的主要障碍。 本文首先介绍了电脑化自适应考试的数学模型一一题目反应理论,并指出 了屯与经典测量理论的区别。接着本文给出了基于题目反应理论的自适应考试 题库设计的原理以及算法实现,主要解决了模型的选择、题目参数的估计两个 问题,并讨论了题库的扩充算法以及题库中多媒体数据的存储。通过研究,我 们选择了两参数的l o g i s t i c 模型作为测试的模型。然后本文就电脑化自适应考 试中几个核心问题作了讨论,主要解决了测验中能力估计、后续题目选择、测 验起点、测验结束等问题。上述每一个问题都可能有几种解决方案,本文就各 种方案做了计算机模拟,给出了模拟结果及其分析。通过分析,我们认为在能 力估计过程中使用极大似然估计和e a p 估计相结合是比较好的方案。 i n t e r n e t 技术的发展使得考试的技术手段和载体发生了革命性的变化,本 文最后给出了一个基于w e b 的自适应考试系统的设计,并就基于w e b 的测试 给电脑化自适应考试所带来的一些问题做了讨论。1 一一 关键词 汉语水平考试( h s k ) ,电脑化自适应考试,题目反应理论,w e b 圭塑奎望查兰堕主堂垡墼一 a b s t i 认c t c o m p u t e r i z e da d a p t i v et e s t i n g ( c a t ) i sn o to n l yt h el a t e s td i r e c t i o no ft e s t s i nt h ew o r l d , b u ta l s oi st h ei n e v i t a b l et r e n dr e s u l t e df r o ml a r g e s c a l es t a n d a r d i z e dt e s t s c h i n e s el a n g u a g e p r o f i c i e n c yt e s t i n g ( h s k ) i san a t i o n a ls t a n d a r d i z e dt e s td e s i g n e df o ru o n n a t i v es p e a k e r s i ti s n e c e s s a r yt oc a r r yo u tt h ec o m p u t e r i z e da d a p t i v et e s t i n g ,w h i c he m b o d i e st h ei m p r o v e m e n to f s c i e n c ea n de d u c a t i o nl e v e l ,i no r d e rt oi m p r o v et h er e l i a b i l i t ya n dv a l i d i t yo f h s k l a n g u a g et e s t i n ga sa s c i e n c ei sd i f f e r e n tf r o mo t h e rc o u r s et e s t i n g ,i tn o to n l yi n c l u d e s l i n g u i s t i c s ,b u ta l s oi n v o l v e sp s y c h o m e t r i c i a n ,s t a t i s t i c a lt h e o r ya n dc o m p u t e rt e c h n o l o g y t h e t r a d i t i o n a lt e s t i n gt h r o u g hp e n c i la n dp a p e rc o n t a i n sal a r g en u m b e ro fi t e m s ,b u tm o s ti t e m sc a n n o tc o v e ra l lt e s t e r si nd i f f e r e n tl e v e l s t h ee f f i c i e n c yo ft r a d i t i o n a lt e s t i n gi sv e r yl o w c a ti sa i n d i v i d u a lt e s t i n g :i ti sc u s t o m i z e da c c o r d i n gt oe v e r yt e s t e r a b i l i t y i t ,w h i c ha i m sa tt e s t e r s a c t u a la b i l i t y , p r o c e e d st os e l e c ta p p r o p r i a t ei t e m sb a s e do nt h ea n s w e r s ,s oc a ti sa ne f f e c t i v e l a n g u a g et e s t i n g o nt h ek e yt e c h n o l o g yi nc a t i si t e mr e s p o n s et h e o r y ( i r t ) w h i c hr e q u i r e sa i t e mp o o lw i t hl a r g ec a p a b i l i t y , i t e m sw i t hc o r r e c tp a r a m e t e r , e f f e c t i v ei t e ms e l e c t i n gp o l i c ya n d a b i l i t ye s t i m a t i n ga l g o r i t h m w i t hc o r r e c tc o n s t r i n g e n c y t h i sp a p e rt r yt oc o n s t r u c tat h e o r e t i c a lm o d e lf o rc a to fh s k ,a n dc o r e so ft h em o d e la r e as e r i e so f a l g o r i t h m sb a s e do ni r t o b s t a c l e si nt h e o r ya n dt e c h n o l o g yo fc a t a r ec l e a r e d t h r o u g ht h ed e v e l o p m e n to f at e s t i n gs y s t e m f i r s t ,ab r i e fi n t r o d u c t i o nt ot h em a t h e m a t i c a lm o d e l ,i t e mr e s p o n s et h e o r y , i sp r e s e n t e d t h ed i f f e r e n c eb e t w e e ni t e mr e s p o n s et h e o r ya n dc l a s s i c a lt e s tt h e o r yi sa l s op o i n t e do u t s e c o n d l y , t h i sp a p e rp u t sf o r w a r dt h ec o n s t r u c tt h e o r i e so fi t e mp o o l sb a s e do ni r ta n dt h e i m p l e m e n to ft h ea l g o r i t h mt or e s o l v em o d e ls e l e c t i o na n di t e mp a r a m e t e r se s t i m a t i n g t h e a l g o r i t h mt oe x t e n di t e mp o o la n d t h em e t h o do f s t o r i n gm u l t i m e d i ad a t aa r ea l s od i s c u s s e d t h e “t w o p a r a m e t e rl o g i s t i cm o d e l ”i ss e l e c t e da st h et e s t i n gm o d e l t h i r d l y , s e v e r a lc o r ep r o b l e m s o fc a t ,i n c l u d i n ga b i l i t yp a r a m e t e r se s t i m a t i n g ,i t e ms e l e c t i n g ,s t a r t i n gp o i n ta n de n d i n gp o i n t a l g o r i t h m sa r ed i s c u s s e d e a c ha b o v ep r o b l e mh a ss e v e r a la v a i l a b l es c h e m e s e v e r ys c h e m ei s s i m u l a t e da n di t sr e s u l ti s a n a l y z e d i ti s b e a e rt oc o m b i n em l e ( m a x i m u ml i k e l i h o o d e s t i m a t i o n ) w i t he a p ( e x p e c t e dap o s t e r i o r i ) f o ra b i l i t yp a r a m e t e r se s t i m a t i n gi nc a t w i t ht h ed e v e l o p m e n to fi n t e m e t ,g r e a tc h a n g e si nt h et e s t i n gt e c h n o l o g yh a v eo c c u r r e d l a s t l y , t h i sp a p e rp r e s e n t sad e s i g no fw e b b a s e dc a ts y s t e ma n dd i s c u s s e sn e wp r o b l e m so f c a ti nt h ee n v i r o n m e n to fi n t e r n e t k e yw o r d s h s k ,c o m p u t e r i z e da d a p t i v et e s t i n g ,i t e mr e s p o n s et h e o r y ,w e b 圭塑奎望查兰堡主堂垡堡奎 一 一 第一章序言 1 1h s k 项目的背景 语言水平测试的制定是一项非常复杂的工作,具有相当重要的理论和实践意义。汉 语水平测试( h s k ) 是一项国家级考试,是专门为测试母语为非汉语者的汉语水平而设立 的一种标准化考试。“中国汉语水平考试”已在1 9 个国家和地区设立了3 5 个考点,国内 在2 1 个城市设有3 6 个考点,参加这项考试的外国人累计已有1 4 万余人次,所以h s k 已 经成为一项世界性的考试。 h s k 考试实施至今,逐步暴露出很多问题,比如一套h s k 模拟题目有1 7 0 道题目, 对于水平高的学生和水平低的学生,大多数的题目并不适合他们,等于白白浪费他们的时 间。又比如试题内容不符合测试需要,分数和等级划分不合理,试题变化少,重复多,试 题不公开等。 随着考试规模的不断扩大和科学技术的不断发展,考试的手段和媒介也在发生着革 命性的变化。目前世界上普遍采用基于题目反应理论的电脑化自适应考试( c o m p u t e r i z e d a d a p t i v et e s t ,c a t ) 代替传统的纸笔( p a p e r p e n c i l ,p & p ) 考试。h s k 考试要解决目 前存在的问题,进行电脑化自适应考试是其必然的趋势。 为了迅速改变目前h s k 命题及簏考的落后现状,上海交通大学承担了国家教委的“汉 语水平考试( h s k ) 电脑化自适应考试框架研究和系统开发”项目,并集中了上海地区诸 多对外汉语教学方面的专业人员、语言测试专家以及计算机人员参加。 1 2 什么是c a t 当今流行的学习方式是个性化的学习,每个人的学习内容、进度等等可能都有所不同。 既然学习是个性化的,那么考试是不是也应该个性化呢? c a t 就可以认为是一种个性化 的考试,它能够根据每个考生的实际能力进行定制:即根据考生对最初几道题目的答题情 况,对考生的能力作初步估计,再通过试题选择算法,从试题库中选取与考生能力水平最 接近的试题继续进行测试,不断重复这个过程直到能够准确地标定考生的能力值为止。 个c a t 的基本过程如图1 1 所示。 国外的有关研究表明,进行计算机化自适应测验,只需传统纸笔测验的4 0 6 0 的 题目,就达到了同样的信度和效度。在有关的研究实例中,只用了1 1 个题目就达到了传 统纸笔测验2 9 个题目的效果。通过因素分析可以证实,虽然基于c a t 测验使用的题目数 量较少,但和传统纸笔测验所测量的各种能力因素是一致的。 c a t 考试与传统的纸笔考试相比有如下优点: 1 只选择在考生能力范围附近的题目进行测试,受测者无需回答全部问题,从而减少测 试时间。 2 不同受测者的测试结果可以在同一量表里进行衡量。 3 测量结果更精确地反映考生的实际水平,大大提高分数的测量精度。 4 施考的灵活性大,不再要求测试必须于同一时间、同一地点进行,即时报导分数。 圭塑奎望查兰堕主兰垡堡苎 但同时c a t 也有一些局限性,如和传统的测试习惯大为不同,而且测试结果不够直观, 试题的类型受计算机能力的限制等等。 基于题目反应理论的自适应测验要求在测验过程中就不断地对应试者的能力水平进行 估汁,并根据不同应试者的不同水平提供不同的题目。这就要求;( 1 ) 根据应试者答题的 图1 1c a t 的基本流程 情况估计应试者的能力。由于不 同的学生被测了不同的题目,那 么怎样对他们的作答结果进行比 较呢? 题目反应理论已经提出了 许多测验等值的方法,使得基于 题目反应理论建立的题库具有参 数不变的特性,从而可以对不同 学生的反应结果进行比较。( 2 ) 有一个相当大的全局题库,保证 有合适的试题用于测试,并且在 施测过程中题库可以并发访问。 随着计算机网络技术的发展,这 个问题已经得到了较好的解决。 另一方面,计算机的介入使 考试媒介发生了完全的改变。在 传统的书面测试中,试题的表现 形式单一,因此,题目的内容和 质量必然要受到试题表现形式的 制约。举例来说,对驾驶员进行 测试,受测者可以先看一段关于 行车的录像,再回答在这段录像 中,有多少处属于违章驾驶。而 在传统的考试中,这样的考试就比较难以组织。对于语言测试来说,计算机能够方便地融 合声音、图像等多种媒体手段,为考生营造与实际交际环境一致的情境,观测考生在真实 语境中运用语言达到交际目的的能力,并由此判断考生的语言水平,更为准确地测量考生 的语言交际能力。虽然目前的c a t 考试局限于选择题等有单一正确答案的试题,但是利用 计算机营造虚拟测试环境,实现语言的“交际能力测试”则是将来的趋势。 在美国,以e t s ( e d u c a t i o n a lt e s t i n gs e r v i c e ) 为核心形成了一个对电脑化自适应考试 ( c a t ) 进行全面研究的群体。研究人员分散在全美的十几所大学和教育心理研究和评价机 构中。仅仅是在a s s e s s m e n ts y s t e m sc o r p o r a t i o n ( i 也“纽! :型:堑笪:q 叫的网站上就可以找 到许多有关c a t 的文章、专著和软件。e t s 的g r e 和t o e f l 等考试在中国已经实行 c a t 考试。这就导致了国内教育界许多有识之士纷纷提出要研究c a t 、实现我国自己的 c a t 系统。比如全国大学生英语四、六级考试委员会正在考虑做关于四、六级考试的c a t 系统。 1 3 本文的组织 c a t 考试在我国的应用还处在起步阶段,特别是将c a t 与汉语测试结合在一起。本 课题的研究目的就是:为汉语水平考试建立一个基于题目反应理论的电脑自适应模型。结 圭塑奎婆查兰堡圭堂垡丝奎 一一 合汉语水平考试的语言能力结构特征,这一模型主要考虑题目的统计特征。有关自适应策 略的实现主要依赖于统计上的算法,所以本课题的研究对象主要还是关于客观题( 即有确 定正确答案的试题) 的自适应算法。 i n t e m e t 技术的发展使得考试的技术手段和载体发生了革命性的变化,i n t e r , n e t 的开放 性、分布性的特点和基于i n t e r n e t 的巨大的计算能力使得考试突破了时间和空间的限制。 基于i n t e r n e t 的考试系统正成为人们的研究热点之一,如在英国,已经实现了英语资格考 试的网上学习和水平认证全过程。计算机网络技术的发展和自适应考试理论的日渐成熟使 得基于w e b 的自适应考试系统成为现实。基于w e b 的自适应考试系统可以发挥网络的优 势,建立大型、高效、共享的题库和实现随时随地的考试,降低考试成本,并使得对于受 测者的评测更为正确和客观。 本文的主要工作在于: 1 基于题目反应理论,给出了计算机化自适应考试的基本算法和实现,为汉语水平 考试的计算机化扫除了理论上与技术上的主要障碍,当然其算法也适合其它类型 的自适应考试。 2 作者参与开发的h y c a t s 项目是基于局域网的。结合i n t e m e t 技术,设计了一个基 于w e b 的自适应汉语测试系统。 本文的其余几章是这样组织的:第二章介绍c a t 考试的数学模型,并指出了基于i r t 理论的自适应考试与传统考试的区别;第三章介绍c a t 题库建立的算法及实现,包括模型 的选择、题目参数的估计算法以及题库的扩充算法等;第四章介绍c a t 中关键算法的研究 和实现,包括能力估计、选题算法等,并给出了一个计算机模拟及结果分析;第五章给出 了一个基于w e b 的自适应汉语测试系统的设汁。最后,本文讨论了i n t e m e t 给电脑化自适 应考试所带来的一些问题。 圭童奎望查兰婴主兰垡堡兰 第二章c a t 考试的数学模型 2 , 1 经典的测量理论 自本世纪初发展起来的经典测试理论,包含了多种测量模型,对于试题和试卷的评价 说明方法很多,其理论的发展也较为成熟,对建立试卷、考分转换与等值处理等均有一套 较为完整的方法。经典测试理论建立了一系列试题分析的公式,如表示难度的f 值,表示 区分度的试题与测试相关系数( 二列相关系数、点列相关系数) 、估计分数真值的标准误 差及由此推算出来的信度公式( 如k u d e r r i c h a r d s o n 的2 0 公式) ,估算试题数与信度关系 的s p e a r m a n b r o w n 公式等。 由于不是专门介绍考试理论,对比于题目反应理论,我们仅介绍经典测试理论中试题 的难度和区分度2 个指标。 某道试题的难度是表征考生解答该题的难易程度的指标。 ,:1 一筌型全墼! 墨! ( 2 m 1 ) 。 总人数( n ) 试题的难度,并不完全是由试题本身的复杂程度决定的,它是一个相对量。它还与考 生的采样样本有关系。如果考生平均水平比较高,那么试题难度就小。 试题的区分度是用来判断试题能否把成绩较好和成绩较差的学生区分开来的指标,也 就是对不同水平的应试者加以区分的能力。区分度高的试题,学习好的考生得分高,学习 差的考生得低分。某一试题的区分度,就是一组考生在该题目的得分与这组考生真实分数 的相关程度。区分度的计算比较复杂,公式( 2 2 ) 是区分度的个估计公式,能够比较 形象地说明问题。其中r 是高分组学生在该题上的通过率,p f 是低分组学生在该题上的 通过率。 d = 只一日 2 2i r t 的基本假设 题目反应理论( i t e mr e s p o n s et h e o r y ) 是新近发展起来的一种先进测量理论,也是电脑 化自适应考试的重要理论基础。基于这一理论的测量模型称为i r t 模型。i r t 模型是一 类数学模型,它的特点是以概率的概念来解释应试者对试题的反应( r e s p o n s e ) 和其潜在 能力特质( 1 a t e n t t r a i t ) 之间的关系。 任何的数学模型,总是存在一些假设。与经典测量理论相比,i r t 是建立在强假设基 础上的。主要有以下假设: 1 潜在特质空间的单维性假设: 潜在特质空间维度,又称能力维度,是指被测量的测验成绩是由若干种能力臼, 4 一j 二= 二2 = 2 = _ 二= = _ 二= = _ 二一 0 2 ,眈所决定的,这一n 维空间称为潜在空间。假设潜在空间是一维的,就是说被 测量的测验结果只取决于一种能力,其它能力的影响都可以忽略,这就是所谓的能力单维 | 生( u n i d i m e n s i o n a l i t y ) 。这里的潜在特质或能力主要是一个统计学概念,能力的单维性也 只是说一个数学变量就可以解释了。就汉语测试来说,这个变量既可以是一个单纯的语言 分支能力,也可以是一个综合性很强,结构很复杂的语言能力。具体的解释由汉语测试专 家去解释。 2局部独立性假设: i r t 假设应试者在某一题目上的答对概率独立于其它题目的答对概率,也就是说应试 者对多个试题的反应是互无影响的,在全部题目上的联合答对概率就是各个试题答对概率 之积。 假设应试者对h 个试题的反应模式是,i = 1 ,2 ,n ( 若答对,= 1 ;答错,“2 0 ) 。 p 表示应试者对试题i 的答对概率,则答错概率q = 1 p ,由局部独立性假设可以推得: p r o b u 。= “。,u := “:,一u = u n 例= 兀只( 咿q ( 矿“。 ( 2 3 ) i = i 3试题特征曲线假设: 假设考生对某试题的正确反应概率与其能力之间的关系可以用一个单调上升的函数表 示,常用的有正态卵形模型和l o g i s t i c 模型两类。目前在二值评分方面常用的是单参数( 又 称为r a s c h 模型) 、两参数和三参数的l o g i s t i c 模型。 1 单参数模型:尸( 口) = 丁:! 五而 ( 2 4 ) 1 两参数模型: p ( p ) = i 南 2 5 三参数模型:p ( o ) = c + ( 1 一 、1 c j 百而 ( 2 6 ) 其中d = 1 7 0 2 ,0 表示受测者能力值,a 、b 、c 分别表示题目的区分度、难度和猜测 系数,p ( o ) 表示正确反应概率,即能力为目的人答对此题目的概率。不难推测,就三参 数l o g i s t i c 模型而言,对于任意给定的试题,能力值低的考生的正确反应概率低( 接近猜 测值c ) ,能力值高的考生的正确反应概率高( 接近确定值1 ) 。 葬, 概 率 ( p ) 能力值( t h j t i ) 图3 - 1 三参数l o g i s t i c 试题特征 据特征函数可画出题目的特征曲线( i t e mc h a r a c t e r i s t i cc u r v e ,i c c ) ,图3 i 是典型 圭童銮望查兰堡主兰垡堡苎 一 的三参数模式的特征曲线,其中的i c c l ( a ,b ,c ) ;( 1 ,一1 ,o 0 7 ) , i c c 2 ( a ,b ,c ) 2 ( 1 , 0 ,00 5 ) ,i c c 3 ( a ,b ,c ) = ( i ,i ,0 0 5 ) 。 从图3 - 1 中可以看出,横轴表示能力值, 一般来说取值范围是- 30 到3o ( 也育实际运 行的c a t 系统采用4 0 到+ 4 o ) 。当能力分布呈正态分布时,有6 8 的应试者的能力值处 于1 到+ 1 ;9 5 的应试者的能力值处于2 到+ 2 。纵轴表示应试者的正确反应概率。其 中: 1 1d 参数:题目的区分度,即特征曲线的最大的斜率。n 值越大,说明题目对受测者的 区分程度越高,曲线的走向越陡。a 参数的理论值范围在。与+ o 。之间,但是在实际 应用上常限定在0 到十3 ( 大多数的文献上说明为0 至+ 2 ) 。 2 1b 参数:题目的难度,即特征曲线斜率最大处在横坐标上的投影,它反映的是试题特 征曲线位于能力量尺上的位置,因假定应试者在能力量尺上的范围为一一至+ 。,所以 6 参数之理论值范围亦然。不过,在实际应用上常限定应试者的能力值介于、3 至+ 3 之间,所以题库中大多数的题目的难度应该在3 至十3 之间。b 值上升,即题目难度 增加,曲线向右平移,说明要达到同样的正确反应概率,相应的能力值高。 3 】c 参数:题目的猜测系数,即代表猜对之概率。它的值愈大表示不论受测者能力高低, 都容易猜对本道题目。c 参数反映试题特征曲线之左下渐近线( 1 0 w e ra s y m p t o t e ) ,其 理论值范围介于0 0 与1 0 之间,在实际应用上过高的c 参数不被接受( 一般 0 3 0 ) 。 因为心理学上的各种现象大多为非线形,所以在应试者的能力和反应的关系上,i r t 以概率概念的数学模式来表达,与经典测量理论的线性关系相比较,更能符合心理特质测 量的意义。 4 速度无关性假设: 常用的i r t 模型都有一个隐含的假设,那就是应试者在进行测验时没有时间上的限 制条件。这一般设是和能力维度的单维性假设一致的,如果答题的速度也是影响测验反应 的个因素,那么至少有两种因素影响应试者的反应反应速度和测验内容所测的能 力。尽管在实际的测试系统中不可能不考虑时间因素,但我们还是认为这一假设是成立的。 在文献 h a m b l e t o n1 9 9 0 j 中涉及了一些考虑速度的i r t 模型,在此不做详细叙述。 2 3 基于i r t 的自适应考试的特点 1 能力的定义和能力分布的变化 在此处,能力( a b i l i t y 或l a t e n ta b i l i t y ) 用于描述一个测验所测试的心理特征( t r a i t0 r c h a r a c t e r i s t i c ) 。在某种程度上,能力的分布( a b i l i t ys c a l e ) 是任意的。我们可以从i r t 模型 的形式中可以看出。以两参数模型为例,通过下面的变换: 曰+ = ,p + k b ! = l b + k d j = a l 可以得到 鼻( 护) = 1 十e x p 一d 口j ( p + 一f ) 】) 。 = l + e x p d ( a ,1 ) ( 1 0 + k 一以一七) ) 。1 = 1 + e x p e x p 一d a 。( 0 一包) ) “ = 只( 0 ) 6 圭塑銮望查堂堡主堂垡堡壅 这样,如果题目参数作了一个线性变换,同时对能力做同样的线性变化,题目反应函 数在该线性变化下是不变的。这一点对我们很重要。在自适应考试的分数解释和题目参数 的估计中,我们都可能需要上面的这个线性变化。 2 试题参数估计 在经典测量中,试题参数依赖于测验所实施的应试者样组。经典测量理论中试题统计 量主要是试题难度( f 值) 和试题区分度( d 值) 。如果抽取的样本中,能力高的应试者 多,那么r 值就高,f 值也随之减少;反之f 值就会增加。在以d 值为区分度的试题分析 中,如果样本同质,即应试者能力高低差不多,高分组与低分组答对试题的比例就会相差 无几,d 值就小;若样本异质,d 值就会大。由此可见,抽样变动是经典测量理论无法解 决的问题。 i r t 模型是概率性模型,不同的应试者样组也会得到不周i c c ,但是如上面所述,当 对题目参数和能力参数做同一个线形变换,其答对的概率并不变,所以不同的应试者样组 产生的题目参数会存在一个线形关系。通过使用共同的题目,可以给不同的题目参数做等 值处理。这就给建立大型试题库奠定了基础。试题参数的估计以及题库的扩充请参见本文 第三章。 3 能力参数估计 在经典测量中,应试者测验分数依赖于试题的难度,使得进行不同测验的应试者难以 比较。不同测验测量同一种心理特质时,会得到不同测验分数。试题难度高,应试者测验 分数就低。为了解决这个问题,要求所有应试者都实施相同的测验,才能对测验结果进行 比较。但是一般测验适于中等能力的应试者,对能力特别高或特别低的应试者能力的估计 就不精确了,因此需要对不同能力的施行不同试题难度的测试,这就又导致应试者的能力 仍然难以比较。 如前所述,题目反应理论具有参数不变性的特征,尽管参数估计的量制具有不确定性, 但是不同的量制之间存在线性关系。用已知的题目参数去估计能力参数,那么能力估计值 与题目参数在同一个量制上。所以,针对不同能力的适应者,选取适合他们各自能力的题 目进行测试,尽管采用不同的题目,但是估计出来的能力也在同一个量制上,不需要作等 值处理,这就是“电脑化自适应考试”的原理。关于自适应考试中的具体算法,请参见本 文第四章。 4 考试的效度和信度 大规模的标准化考试必须考虑考试的效度和信度 杨1 9 9 8 。信度是评价考试质量的一 个重要指标,信度系数越高,表明实际得分的误差越小,即考试的结果越可靠、稳定。经 典测量中,计算信度的公式也很多,比如库仑法、柯氏公式等。 考试的效度是指一次考试能有效地测量学生的实际学习水平的程度,因此,效度反映 了考试的准确度。就经典的纸笔考试来说,有很多应试者参加同一次考试,根据现有的统 计学上的有关定理和公式即可计算考试的效度和信度。但是对于电脑化自适应考试来说, 考虑到应试者随时参加考试的特点,以及一次考试其参加人数不多的情况,效度和信度是 比较难于把握的因数。具体清况请参见第四章的关于c a t 模拟一节。 5 模型的强假设 c a t 是建立在弱假设的基础上,所以有很广的应用范围。而i r t 则建立在很强的假 设之上,特别是对于能力的单维性假设,i r t 承受着来自理论上和实践上的巨大压力,学 术界对此也存在着不同的看法。同时,由于局部独立性假设,使得我们难于处理传统的阅 读理解等题型,因为各个小题之间完全独立是不可能的,对于这些题型的自适应考试,e t s 的专家也正在研究之中。当然,有研究表明,在听力、阅读理解等测试部分,建立i r t 自适应测验题库也是合适的,虽然在题目的局部独立性上有一些损坏,当并不妨碍获得有 7 上海交通大学硕士学位论文 一定精度保障的应试者的能力估计值。这就引入了模型的稳健性( m o d e lr o b u s t n e s s ) 的 研究。 所谓模型的稳健性就是指当假设适度违反时,模型是否能够正常工作? 这已经成为基 于i r t 理论的自适应考试的研究热点。我们可以用实际测试数据或模拟数据对所用的模 型进行检验,这需要残差分析技术,本文不做详细介绍。 8 圭塑奎望奎兰堡主堂堡堡奎 第三章i r t 题库的建立 在自适应考试系统中,题库的作用是显而易见的:它提供大量的试题,这是自适应考 试的必需条件:它提供所有用于统计的参数,保证自适应算法的正常实施。就题库的建立 过程而言,i r t b a s e d 的题库与经典测验的题库建立过程大同小异,包含: ( 1 )建立试题内容规格 ( 2 ) 试题撰写 ( 3 )预试 ( 4 )经试题分析 ( 5 ) 测验编辑等 在上一章中,我们介绍了题目的难度、区分度、猜测系数等统计参数,这些参数都是实数, 在步骤4 中,我们需要根据所采用的i c c 模型来估计题目的统计参数。在本章中,我们 还将详细讨论i r t 题库设计和组织上的问题。 3 1 模型的选择 2 3 我们的题库采用两参数l o g i s t i ci c c 模型,主要原因是: 单参数r a s c h 模型和两参数l o g i s t i c 模型都存在充分统计量。但是r a s c h 模型只考虑 题目的难度值,而不考虑题目的区分度参数,太过于简单,与实际的测量经验不符合。 两参数l o g i s t i c 模型具有更好的模拟数据拟合性。尽管单参数的r a s c h 模型在数学上 更加完备,比如存在一致性估计等等。 在能力估计的m l e 算法中,三参数l o g i s t i c 模型能力值可能存在多个极值,从而使 得能力估计值与能力真值之间不符合。尽管实践证明在大于2 0 个题目的一个测试中, 很少会出现多个极值的情况。但是,在很多情况下,测试在小于2 0 个题目的长度时 就已经达到测试精度要求从而结束测试过程。 实际上,三参数l o g i s t i c 模型的c 参数主要描述能力的低端的情形,而我们主要考虑 及格线附近的情况。同时,若是忽略i c c 曲线的尾部,两参数和三参数l o g i s t i c 模 型的i c c 曲线形态将会符合得相当好。同时,三参数模型中的c 参数的估计也一直 是一个问题,三参数模型的稳健性不及两参数的模型。同时,两参数模型与经典测量 理论的题目参数具有更好的继承性,而且两参数模型与多级评分模型比其他模型具有 更好的延展性,这对于推广c a t 是非常有利的。 3 2 题目统计参数的估计算法及其计算机求解 在上面所述的i r t b a s e d 的题库的第二步种,当汉语教学专家撰写道试题后,可能 凭经验大致知道这道题目的难度、区分度等,但是他们无法给出该题的真正准确的题目参 数。所以我们需要用一些应试者参加一些预试,然后用如下算法确定题目的参数。 若个应试者参加含有n 个试题的测验,试题和应试者能力参数都是未知的,采用0 、 1 记分法。其中应试者u 。1 ) 对试题i ( f = 1 ) 的反应是u u = 0 ,1 。n 个应试者对所 9 圭墨銮望查兰里主兰堡笙墨一 有试题的反应数据对应于n ”矩阵u = b fj ,n 个应试者的能力记为向量 0 :p ,0 2 ,0 】。根据i r t 的局部独立性假设,并且应试者之间也是相互独立作出反 应的,可得相应于u 的联合似然函数为 nn p r o b ( ui p ) = 兀兀巧。q 3 。1 j = i i = l 上式中,p u 表示应试者j 答对题目i 的概率 以两参数的l o g i s t i ci c c 模型为例, 即) = 南 q i = l - p p 由于我们使用两参数的模型 ( 3 - 2 ) 对联合似然函数取对数得到联合似然函数: 三:上。 p r d 6 妙io ) :兰窆b 。l n 局+ ( 1 一“。) l n q ,l ( 3 _ 3 ) j = i i = i 要求0 ,a ,b 的檄大似然估计值,晏将幽叙l 羽木刘爹裂水饷哥,升岢伽哥川俐础 方程组,再通过解方程的的方法得到未知参数的值。先对题目参数求偏导得到下面方程式。 鼍- d 蒡( 懈侧 面0 1 , = 砒莓n 嘶一岛) ( 3 _ 4 ) 嚣- d 善盘吲 f_1,2一,n(3-5) j = 1 , 2 ,n 其中共包括2 n + n 个非线形方程,分为题目参数方程和能力参数方程两大类。随着测 试样本的增加,方程组中的关于能力参数的的方程的个数也将随之增加,非常的复杂。解 这个非线形方程组,要使用以下三个假设来简化计算: 1 应试者对试题的反应是独立的,相互之间没有影响: 2 应试者能力和题目参数之间没有相互影响; 3 试题之间有局部独立性。 这里我们使用多维n e w t o n r a p h s o n 过程来解这个方程组。具体的算法分为两步: l 假设应试者的能力参数是已知的,用多维n e w t o n r a p h s o n 迭代法求解题目参数。 1 0 枷 卸 枷 旦鸩丝丝弧 圭塑奎望查堂婴圭兰竺兰苎一 不妨设x j2 l :j 。,x 。表示第k 次迭代时x 的值。 则由n e w t o n - r 。p h 。n 迭代法y i k “= x ? 一 h 【x ? ) 一y i x ? 其中 厅= o z l o a , 0 2 l o a i o b f : 严雠: 6 ) 在上述过程中,二阶导数矩阵不一定处处存在,我们用信息矩阵代替二阶导数矩阵。 e c ec 矗, e c 丽82 l 垆( d z ( q b ,) 2 弓q ,一d2 q ( 巳一b 。) e o q 。 ,7 lj 2 t nn d 2 q ( o j b 。) p ,j q f ,d2 口? 弓q f ( 3 - 7 ) 这种方法在数学上称之为f i s h e r 评分方法,在实践上很有效。 2 假设l 中求得的题目参数是真值,用n e w t o n - r a p h s o n 迭代法求解能力参数。关于这 一步这里不再详细叙述,可以参考后面一节关于能力估计的极大似然估计的求解。 上述两步结束,算法完成了一次循环过程。重复上述两步,直到 1 达到了最大的循环次数,计算强行终止: 2 每次循环结束后,重新计算对数似然函数( 公式3 - 3 ) 的值,如果达到事先确定的测 量精度时,计算终止。 由于在能力参数的联合估计中,能力参数量表具有不确定性,因此每次完成一轮能力 参数的估计后,都要重新确定能力量表的参照点和测量单位,然后才进行下一轮计算。如 果在能力初始化过程中使用的是“标准化原始分数”,那么每次能力迭代完成之后都要对 能力参数从新标准化( 正态分布的标准化) ,同时对题目参数也要做如下调整: 彰= ( 乒一f f ) s i 舅= ( e f f ) s ( 3 - 8 ) 彭= + a , 其中,毛为0 j ( j = l n ) 的标准差,0 为0 j ( j 2 1 n ) 的均值。 综上所述,整个算法的流程如图3 - 1 所示。 联合极大似然估计法是目前用于题目参数估计的最常用的方法,但是还存在如下这些 问题【朱1 9 9 9 : 1 )模型参数的无限估计问题 如果某道题目i ,所有的应试者都答对了或都答错了,这时a ,就无法估计;如果某 个应试者答对了所有的题目或答错了所有的题目,这时能力值日就会趋向+ 。和。 所以,在参数估计开始之前,应该去掉这些异常数据。但是,对于那些答对很少题目 l l 圭塑奎望奎兰耍主兰垡堡茎 或答错很少题目的人,或很少人答对或很少人答错的题目,估计之中还是会有问题。 例如,某些题目区分度过低就会导致题目难度估计趋向无穷大。为此,w r i g h t 对两 参数和三参数的l o g i s t i ci c c 模型提出了严厉的批评 w r i g h t 1 9 7 7 1 。通常的解决方 法是在参数估计的过程使用一些约束。 2 )能力估计的不收敛问题 在使用两参数和三参数的l o g i s t i ci c c 模型时,经常会发现有些题目区分度太大, 结果造成对这道题目的应试者的能力估计也非常大,迭代过程无法收敛。通常的解决 方法是给区分度估计值一个限制。 图3 - 1 联合极大似然估计的流程 3 ) 能力参数表的不确定性问题( t h em e t r i ci s s u e ) 在联合极大似然估计法中,我们总是将能力量表的原点放在全体被试能力均值 上,而以全体应试者的能力标准差作为度量单位( 参见迭代程序中最后的调整) 。这就 造成了最后估计的能力参数依赖于所用应试者能力分数的频率分布。使用不同的样本 将估计出两套不同的能力参数,当然这两套参数之间也必然地具有线性关系。 4 ) 一致性估计问题( t h ec o n s i s t e n c yi s s u e ) 极大似然估计的一致性是指随样本量的增加,参数估计值将依概率收敛于其真 值。一般来说,当需要估计的参数是有限的,并采取大样本容量时,极大似然估计量 具有一致性的特点。但是,在上述的方程组中,随着样本量的增大,要估计的参数也 增大。a d e r s o n 注意到了随样本容量增加的是能力参数的个数,而要估计的题目参数 并不变化,为此,他区分了这两类参数,称题目参数为结构参数( s t r u c t u r a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论