(教育技术学专业论文)基于web的自适应考试系统研究.pdf_第1页
(教育技术学专业论文)基于web的自适应考试系统研究.pdf_第2页
(教育技术学专业论文)基于web的自适应考试系统研究.pdf_第3页
(教育技术学专业论文)基于web的自适应考试系统研究.pdf_第4页
(教育技术学专业论文)基于web的自适应考试系统研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(教育技术学专业论文)基于web的自适应考试系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 m a s t e r s t h e s i s 了分析, 着重讨论了逻辑斯蒂的三参数模型与项目 信息函数在自 适应测验中的 作用。 第三部分结合我们开发的基于w e b 的c a t 系统,提出了 建立一个c a t 系统 的 框架, 详细说明了 c a t 系 统的 构成 及考试实 施过 程, 包括系统 模 块、 题库结构、 参数估计及考试流程等内容。 第 四 部 分 则 简 要 介 绍 了 本 系 统 开 发 所 用 m *- m a和 垫 固 处组叁 本 ek - 第五部分详细地说明了本系统中几个主要页面的程序设计。 第六部分主要是本软件的测试过程及小结。 关键词:自 适 应 考 试项目 反 应 理 论w e b研究 u 硕士学位论文 ma s t e r s t h e s i s ab s t r a c t ! a t r a d i t i o n a l f i x e d - l e n g t h e x a m p r e s e n t s t h e s a m e n u m b e r o f q u e s t i o n s t o e a c h t e s t t a k e r , w i t h o u t c o n s i d e r i n g h o w w e l l t h e p e r s o n i s p e r f o r m i n g o n t h e e x a m. t h e s c o r e f r o m t h i s ty p e o f t e s t u s u a l l y d e p e n d s o n t h e n u m b e r o f q u e s t i o n s a n s w e r e d c o r r e c t l y . f o r a n y g i v e n p e r s o n , s o m e q u e s t i o n s o n t h e t e s t w i l l b e f a r t o o e a s y a n d s o m e f a r t o o h a r d . t h e t e s t t a k e r s a n s w e r i n g e a s y q u e s t i o n s c o r r e c t l y d o e s n t t e l l u s m u c h a b o u t h i m o r h e r . mo s t p e o p l e a n s w e r t h e e a s y o n e s c o r r e c t l y . f o r a s i m i l a r r e a s o n , t h e t e s t t a k e r s a n s w e r i n g t h e d i ff i c u l t q u e s t i o n s i n c o r r e c t l y a l s o t e l l s u s v e ry l i tt l e . i f a t e s t w e r e a b l e t o d i s c o v e r t h e l e v e l , o n a s c a l e o f e a s y t o d i ff i c u lt , a t w h i c h t h e p e r s o n t a k i n g i t b e g i n s t o f i n d t h e q u e s t i o n s c h a l l e n g i n g , a s c o r e c o u l d b e d e r i v e d f o r t h a t l e v e l a n d t h e t e s t w o u l d b e m o r e e ff e c t i v e . a c o m p u t e r i z e d a d a p t i v e t e s t ( c a t ) d o e s j u s t t h a t . c a t i s b a s e d o n i t e m r e s p o n s e t h e o ry . a c a t t a i l o r s it s e l f t o t h e a b i l i t y o f t h e t e s t t a k e r . b y t a k i n g in t o a c c o u n t h o w e a c h p e r s o n t a k i n g t h e s a m e c a t a n s w e r e d p r e v i o u s q u e s t i o n s , t h e t e s t w i l l a d j u s t t o g iv e t h e l o w - a b i l i ty e x a m in e e a d i ff e r e n t s e t o f q u e s t io n s fr o m w h a t i t g iv e s a h i g h - a b i l i t y e x a m i n e e . t h e c a t u s u a l l y e n d s w h e n t h e a m o u n t o f m e a s u r e m e n t e r r o r a r o u n d t h e a b i l i ty e s t i m a t e r e a c h e s a n a c c e p t a b l e l e v e l . b o t h i n d i v i d u a l s m a y a n s w e r t h e s a m e p e r c e n t a g e o f q u e s t i o n s c o r r e c t l y , b u t b e c a u s e t h e h i g h - a b i l i t y p e r s o n c a n a n s w e r m o r e d i ff i c u lt q u e s t i o n s c o r r e c t l y , h e o r s h e w i l l g e t a h i g h e r s c o r e . s i g n i f i c a n t l y l e s s t i m e i s n e e d e d t o a d m i n i s t e r c a t s t h a n f i x e d - i t e m t e s t s s i n c e f e w e r i t e ms a r e n e e d e d t o a c h i e v e a c c e p t a b l e a c c u r a c y . s h o rt e r t e s t i n g t i m e s a l s o r e d u c e f a t i g u e , a f a c t o r t h a t c a n s i g n i f i c a n t l y a ff e c t a n e x a m i n e e s t e s t r e s u l t s . c a t s c a n p r o v i d e a c c u r a t e s c o r e s o v e r a w i d e r a n g e o f a b i l i t i e s w h i l e t r a d i t i o n a l t e s t s a r e u s u a l l y m o s t a c c u r a t e f o r a v e r a g e e x a m i n e e s . i n g e n e r a l , c o m p u t e r i z e d t e s t i n g g r e a t ly i n c r e a s e s t h e fl e x i b i l i ty o f t e s t m a n a g e m e n t . i i i 硕士学位论文 ma s t e r s t h e s i s i t e m r e s p o n s e t h e o ry ( i r t ) , as t h e b as e o f c a t , i s a t h e o ry o f m e as u r e m e n t b a s e d o n m a t h e m a t i c a l m o d e l . i t e m r e s p o n s e t h e o ry i s t h e s t u d y o f t h e m a t h e m a t i c a l r e l a t i o n s h i p b e t w e e n a b i l it i e s a n d i t e m r e s p o n s e s a n d c h a r a c t e r i z e s t h e r e l a t i o n s h i p b y a m a t h e m a t i c m o d e l . i n o u r c a t s y s t e m, w e c h a r a c t e r i z e t h e r e l a t i o n s h i p b e t w e e n a b i l i t i e s a n d i t e m r e s p o n s e b y t h r e e - p a r a m e t e r l o g i s t i c mo d e l ( 3 p l mo d e l ) . i n t h i s a rt i c l e , w e a n a ly z e s t h e c a t b o t h i n t h e o ry a n d p r a c t i c e . t h e f i r s t p a r t o f t h i s a rt i c l e p o i n t s o u t t h e d i s a d v a n t a g e o f t r a d i t i o n a l t e s t i n g a n d t h e a d v a n t a g e o f c a t , a n d s h o w s t h e d e v e l o p m e n t o f c a 工 t h e s e c o n d p a r t p r e s e n t s a n i n t r o d u c t i o n o f i r t , w h i c h i s t h e t h e o r e t i c a l b a s i s o f c a t . i t f o c u s o n t h e e ff e c t o f 3 p l mo d e l a n d i n f o r ma t i o n f u n c t i o n i n t h e c a t . t h e t h i r d p a rt p u t s f o r w a r d a fr a m e w o r k o f c a t s y s t e m , a n d a c c o u n t t h e s t ru c t u r e o f c a t , t h e p r o c e s s o f t e s t i n g , i n c l u d i n g t h e m o d u l e o f o u r s y s t e m , t h e s t ruc t u r e o f d a t a b ase , e s t i m a t e o f p a r a m e t e r a n d s o o n t h e f o rt h p a rt i n t r o d u c e s a c t i v e s e r v e r p a g e a n d a c t i v e x d a t a o b j e c t s w h i c h w e u s e d i n c a t s y s t e m i n b r i e f . t h e f i ft h p a rt d e m o n s t r a t e t h e p r o g r a m o f o u r c a t s y s t e m i n d e t a i l . f i n a l l y , t h e a rt i c l e g i v e a n a c c o u n t o f t h e t e s t i n g o f t h e s o f t w a r e a n d s u mma r i z e s t h e r e s e a r c h wo r k . ke y wo r d s : c a t i r t w e b r e s e a r c h 硕士学位论文 ma s t e r s t i i e s i s d门通,!. 第一章问题的提出 1 . , 传统测验的局限性 在传统测验中, 对所有被试都使用相同的题目 进行测试, 常见的测验有“ 尖 峰”型和 “ 平矩”型。有些测则介于这两种极端类型之间。 在 “ 尖峰”型常规测验中,所有试题均集中于同一难度,当被试的特质水 平刚好处于或接近于这一难度水平时, 测验的精度很高。 但是, 对低水平的被 试来说, 那些难度大的题目 , 根本无法作答, 形同 虚设, 乃至引 起瞎猜; 对高 水平被试来说,那些难度小的题目, 测不出被试的真实水平, 徒然浪费精力, 稍一疏忽反而失分扩大误差。这时,测验的测量精度迅速降低。 “ 平矩”型测验则既包括一些适合于低特质水平的被试的非常容易的试 题, 也有一些适合于高特质水平被试的高难度试题, 但能适合各种水平被试的 试题数目 很少。 结果是,当“ 平矩” 型测验在多数水平上能提供相对均等的精 确度时,测验的整体精度却相对地降低。 “ 尖峰”型测验在其尖点上能提供高精度的测量,但其精度的跨度很窄, 即它区别各种特质水平的能力很差。相反, “ 平矩”型测验有较宽的跨度,即 它能区分多种不同的特质水平, 但总体精度却很低。 这样, 常规测验的设计者 就经常陷入跨度与精度难以 兼顾的境地。 此外,在传统测验中, 题目 参数 ( 难度、区分度)是以通过该题的人数的 平均得分率、 题分和试卷分的相关来计算的。 所求得的参数会受到不同考生样 本组能力水平的影响。 在经典测验理论中,题目 参数与考生得分是在不同的基础上分别求得的, 所以无法建立考生得分与测验题目 参数之间的关系, 即考生的 特质水平的估计 会由于测验的改变而改变。 成功的测验总是希望能对较大范围内的被试的特质水平提供一种较为精 i 硕士学位论文 ma s t e r s t i i e s i s 确的测量。 理论的分析与实践证明,当题目 难度跟被试水平相适应时 提供的信息量最大, 被试的积极性高, 测验分数的效度也最好。因此 题 目 所 在测验 的编制与实施上,应具体问题具体对待,像 “ 因材施教”那样 “ 因人施测” 以提高测验工作的效度与信度。 1 . 2自适应考试概述 .甲1 自适应测验是一种新型的测验形式。它的基本思想是 “ 因人施测” ,使不 同水平被试都能接受一组跟自己特质水平相适应的试题。 所谓 “ 自 适应”就是 测验本身要自 动地适应被试的具体情况, 在被试作答过程中及时根据作答资料 估出被试的可能水平, 并针对这一水平迅速决策, 从大型题库中调取难度恰当、 性能优良的题目 继续施测。 直到施测的题目足够多, 测验信息量累计和达到指 定值为止。 自 适应测验是为了解决测验跨度与精度难以兼顾的困难而设计的。它对各 种不同能力水平的被试, 提供难度适合的测验项目, 因而能对所有特质水平上 的被试的能力提供相同精度的测量。 与传统测验相比,自 适应测验具有以下优点: 1 .效率高。自 适应测验对每个被试可用比常规测验少的试题而获得与之 相比更佳的测验效果。 这是因为,在自 适应测验中,高水平的被试接受的是高 难度题目的测验, 低水平的被试接受的是低难度题目 的测验, 难度全都为适当, 大家都能发挥出全部本领,没有形同虚设的无效试题,每道试题都是高效的。 2 .自 适应测验提供题目 参数的同时,提供了每一个被试在完成题目时的 特质水平。这就使题目 参数与被试的特质水平有效地联系起来,克服了传统测 验中题目参数与被试得分是在不同基础上求得的缺陷. 因此, 试题的参数估计 不因样本不同而不同, 被试的特质水平估计也不因测验改变不同而不同,因而 使测验具有较高的信度和效度。 3 .在自适应考试中, 考试题目 对被试而言更具有挑战性。因为每个被试都 硕士学位论文 m a s t e r s t h e s i s 不会因为碰到很多太过简单或是太难的题目 而觉得单调乏味或缺乏信心。 4 .自 定步调的考试。 因为在自 适应考试中, 每个被试的考试长度可能都不 一样, 对于每一道题目, 被试都有充分的 思考时间, 而不会存在因 答题时间不 够而产生的测量误差。 圣 1 . 3目前国内外自适应测验的发展现状 c a t ( c o m p u t e r i z e d a d a p t i v e t e s t i n g , 计 算 机自 适应考试系 统) 是 近年来 测 验研究中引人注目 并取得了重大发展的领域。 如今在美国, c a t己 在教育测验、 职业测量、人事测评等领域中大显身手,如美国研究生入学考试 ( g r a d u a t e r e c o r d e x a m i n a t i o n ) 、 工商管理类研究生入学考试( g r a d u a t e f o r m a n a g e m e n t a n d a d m i n i s t r a t i o n t e s t ) 以及全美护士国家委员会资格考试( n u r s e n a t i o n a l c o m m i t t e e l i c e n s e t e s t ) 等都已 采 取了 c a t的 方 式。 在信息 产 业中 , 美 国 n o v e l l 公司于1 9 9 1 年成功的应用了c a t 进行认证考试, 使参加n o v e l l 自 适应考 试的人数超过1 , 0 0 0 , 0 0 0 人次。 在我国,己经出现了一些应用型的研究, 自 行编制了一些c a t 测验,并取得 了 实际的运用效果, 上海电大在上海市计算机应用能力的考试项目 “ v b 6 . 0 程序 设计” 中己 采用了 c a t 的考试设计方法。 江西师大小学数学c a t 研究、 华南理工 大的“ 数据结构” 自 适应测试系统的研究也取得了一定的成果。自 上世纪九十年 代初期开始, 全国大学英语四、 六级考试委员会一直致力于项目 反应理论和“ 计 算机自 适应测验” 的研究和开发。 随着计算机网络技术的发展, i n t e r n e t 的应用领域不断扩大, 通过工 n t e r n e t 实现远程教育将彻底改变人们传统的教学 方式, i n t e r n e t 的开放性、 分布性的 特点使得考试突破了时间和空间的限制。 我们的目 标就是实现一个基于w e b 的 英语自 适应考试系统, 发挥网络的优势, 建立大型、高效、共享的题库和实现 随时随地的考试,为英语测验开辟一块新的园地。 master s ti iesis 第二章 自 适应考试的理论基础 2 . , 项目反应理论的发展 项目反应理论的基本思想起源于上世纪3 0 年代末和4 0 年代初,1 9 4 6 年, 塔克 ( t u k e r )正式提出“ 项目 特性曲线”概念。所谓项目 特性曲线,就是表征 被试的能力或特质水平与其对一个测验项目的正确反应概率之间关系的二维 曲线图。 1 9 5 2 年, 美国心理和教育测量学家洛德提出了著名的正态卵形模型以及该 模型的参数估计方法, 并成功地将他的 模型用于实际 测验。 随 后, 1 9 5 7 年, 伯 恩鲍姆提出了易于处理的逻辑斯蒂模型以及相应的统计处理方法, 取代了洛德 的正态卵形模型,进一步推动了项目反应理论的发展。 自 上世纪7 0 年代以 来, 项目 反应理论在其各个主要应用领域,如测验设 计、能力估计、测验等同化、自 适应测验等方面,都取得了相当大的进展。目 前人们对项目反应理论的研究工作, 在理论方面, 集中在连续变量测验资料和 多维情况下的数学模型探索上; 在实际应用方面, 则主要集中在模型资料 拟合良 度检验方法和参数估计方法的改进,以及项目反应理论在测验编制、 题 库建设、测验参数等值等实际问题中的应用上。 2 . 2 项目反应理论的基本原理 2 . 2 . 1 基本假设 我们知道, 考试的目的在于将被试的不能直接测量的内 部潜在特质用测验 分数来进行估计, 从而推断和评估其发 展水平。 项目 反应理论是通过建立一定 a 硕士学位论文 ma s t e r s t i i e s i s 的项目 反应模型来描述这种关系的。它的 基本假设主要有三条。 1 .单维性假设 单维性假设指测验只测量被试的某一种能力 ( 如计算能力) ,而可以忽略 其他能力对测验结果的影响 ( 如阅读能力) 。也就是说,被试对测验题目 的反 应只受一种能力水平支配,而不受其他能力水平的束缚。 实际上, 任何测验都不可能是单维的。 影响被试对测验项目 反应的因素, 除了该测验所测量的能力或特质之外, 通常还包括被试的认知、 个性以 及测验 情景等方面的因 素, 如动机水平、 测验焦虑等。 因而, 项目 反应理论的关于测 验的单维性假设并不是严格意义上的单维性假设, 只要在所有影响被试反应的 因素中仅有一个因素占主导地位,且该因素正是测验所要测量的能力或特质, 那么这样的测验可认为是单维性测验。 因为大多数测验都是为了测量单一特性 ( 如语言能力)而设计的,因此, 项目反应理论关于测验的单维性假设是合理的。 2 .局部独立性假设 所谓局部独立性假设,即同一能力或特质水平的被试对不同的测验项目的 反应在统计上是独立的。 也就是说, 被试对某一测验项目的反应不受其对其它 测验项目反应情况的影响,只与该测验项目 本身的性质有关。 同样,在某一项目上各个被试的作答也是彼此独立的,仅由各被试的潜在 特质水平所决定,一个被试的成绩不影响另一个被试的成绩。 3 .项目 特性曲 线假设 项目 反应理论认为,被试对项目 所作的反应概率遵循一定的函数关系,这 种函数关系可以 用项目 特性曲线表述出来。 硕士学位论文 ma s t e r s t h e s i s 2 . 2 . 2项目反应模型 不同的项目特性曲线假设对应着不同项目反应模型,目前应用最广的项目 反应模型是二级评分的单维非线性模型, 以伯恩鲍姆提出的逻辑斯蒂模型为代 表。 连续型模型与多维模型比 较复杂, 都还处于研究阶段。 下面重点介绍两种 二级评分项目反应模型,即最优量表模型和逻辑斯蒂模型。 1 .最优量表模型 最优量表模型是古特曼提出的,所以又称为古特曼模型。 古特曼认为, 对 于一个测验项目, 如果被试的相应的能力或特质水平e 达到或超过了难度水平 b ,那么在被试就能对此项目 作出正确反应,反之则不能。如图1 - 1 所示,古 特曼模型的相关被试曲线是一条阶梯曲线,图中的b 值通常被称为项目难度。 答 对 概 率p t b特 质 永 平日 图1 - 1古特曼模型 在实际的测量中,大量的分析和统计结果表明,大多数情况下,即使被试 的能力或特质水平 e 达到或超过了某个水平b ,被试也不一定能对难度为b的 项目 作出正确反应: 反之亦然。因此,古特曼模型存在很大局限性, 在实际中 很少应用。 2 .逻辑斯蒂模型 逻辑斯蒂模型是伯恩鲍姆于1 9 5 7 年提出的。他所假定的项目 特性曲线如 图 1 - 2 所示。 p ( e )1.0 0 1 拐点 - - - - - - - - - f c-汀 十只 _一二一_-一_- . 0 . 0 0 图1 - 2 b 逻辑斯蒂模型 项目 特性曲线描述的是各种特质水平的被试 ( 一般用0 表示) ,对某一测 验项目 的正 确反 应概 率( 一 般用p ( 0 ) 表示) 。 一定 能 力 或 特质水平的被试对某 一测验项目的正确反应概率只与该项目的质量有关。 一般说来, 被试的 特质水平可视为连续变化的,因 此, 反映各特质水平上 被试的答对概率的连线就一定是一条平滑的曲 线。 由于特质水平越高的被试答 对概率越大, 所以 这条曲 线应该是单调递增函数的曲 线。 经研究, 被试的 答对 概率与其特质水平之间的关系是非线性的, 即当特质水平e 大或小到一定的程 度以后,答对概率p( 。 )随之变大或变小的速度显著变小。研究表明, 这种 曲线的形状,是一条以其拐点为对称中心的s 形曲线。 一般地,对某一测验项目的质量, 我们可采用项目 难度、 项目区分度和猜 测参数三个指标来描述。 从图中可以看出, 项目 特性曲 线下部的渐近线离坐标 轴的零点有一定的距离。 这表明由于存在猜测因素, 能力或特质水平很低的被 试仍有可能答对该项目 的猜测参数值, 一般用c 来表示, 它是凭猜测答对该题 的概率。前面己 经提到, 项目 特性曲线是一条以拐点为中心的曲线,因而其拐 点在纵轴上的投影正好落在c 与1 的中点上, 即 拐点的 纵坐标为 ( t + c ) / 2 。 这 表明 特质水平为b ( 拐点 在横轴上的投影) 的被试与答对与答错该项目 的 概率, 排除猜测因素不计, 恰好彼此相等, 所以b 通常被定义为项目 的难度参数。 项 目 特性曲 线拐点处的 斜率刻划了曲 线的陡峭程度, 这与项目 区分被试特质水平 的能力有关。 很显然, 曲线越陡峭, 答 对概率p( 0 ) 对特质水平0 的变化就 7 . . . . . . . . . . . . . . 份 硕士学位论文 ma s t e r s t h e s i s 越敏感,即项目区分被试水平的能力就越强。因此,曲线拐点处的斜率被称为 项目的区分度参数,一般用 a 来表示。 用来描述项目 反应模型特性的数学函数称为项目反应函数。从以上的分析 可以看出,项目反应函数实际上是描述的是被试的答对概率p( 0 )与项目的 质量参数a , b , c 和被试的特质水平e 在数值上的关系。伯恩鲍姆选择用来描 述其项目反应模型的数学函数是逻辑斯蒂拱形函数族, 逻辑斯蒂模型正由此得 名。常用的是三参数逻辑斯蒂模型,它的数学表达式为 p ( b ) =c + 1 一c 1 + e - i .7 o ( b - b ) ( 2 - 1 ) 去除猜测因素,令猜测参数c = o ,就得到双参数逻辑斯蒂模型的数学表达 p ( b ) = 1 1 + e - 1 .7 o ( e - b ) ( 2 - 2 ) 如果令c = 0 ,同时假定各题目的区分度相同,比如a = 1 ,这时项目 只在难 度上有变化, 对应的逻辑斯蒂模型称为单参数逻辑斯蒂模型, 其项目 反应函数 为 p ( b ) = 一 一 二 1 + e - ( - b ) ( 2 - 3 ) 另外, 有不少试题,即使是高水平被试, 也难以 绝对完善地作答。 反应在项目 特性曲线上就是曲线尾部并不以1 .0 0 为极限, 而是略低于 1 .0 0 。 因此, 有人又 提出了第四个参数r 。这样就得到四参数逻辑斯蒂模型。其表达式为 p ( b ) =c + r一 c 1 + e - 1 7 . ( o - b ) ( 2 - 4 ) 洛德提出的项目反应函数是正态卵形函数,其表达式为 p (9 ) = 二 (一 )n(bjb 12r 一 ,* ( 2 - 5 ) 实际上, 洛德提出的正态卵形函数与逻辑斯蒂函数相比, 在计算结果上并 无大的区别,所绘制的曲线也大体相同, 然而,在实际中大多采用后者。其中 主要有以下两个方面原因: 首先是它形式上的简洁, 更具数学模型的特点; 其 次是它便于用对数关系作处理, 因而模型的项目 质量参数和能力参数估计起来 较为方便。 2 . 2 . 3 项目的测验信息函数 信息函数是项目 反应理论中提出的, 用来刻划一个测验或一道试题有效性 的工具。 它是用来直接反映一种测验分数对被试能力或特质水平的估计精度的 指标。信息函数越大,这种估计就越精确。 在项目 反应理论中, 对于某个特定的测验项目i ,它的信息函数可用下式 表示。 p :z / , ( h) = 君 以 ( 2 - 6 ) 其中q := 1 - p , p , 是答对概率,月 是月的对。 的一阶偏导数。若以三参数逻 辑斯蒂模型为例来说明,则 乙 ( b ) = 1 .7 z a ;z ( 1 一 c , ) c , + e ,ce - 0a i + e - 1.7 o ,(e - b ,) z ( 2 - 7 ) 从上述项目 信息函数的表达式来看,我们至少可以得出以 下两个结论: 1 .对于一个测验项目 而言,其质量指标是一定的,因而信息函数的值就 只与被试的特质水平有关。 因 此, 项目 信息函数可用来描述在所测被试特质的 每一个水平上,某道试题的测量有效性。 2 .对于某特定的被试而言,其特质水平e 是一定的。这时某一试题项目 信息函数的大小就取决于该 试题的质量. 若猜测参数。 越小, 信息函数的值就 越大;项目的区分度参数a 越大, 信息函数值也越大。 由以上分析可见, 项目 信息函数是反映试题优劣的一个综合指标。 信息函 数还具有可加性。假定某测验共有n 道试题,则测验信息函数工( e)是测验 硕士学位论文 ma s t e r s t h e s i s 所含有的各道试题的信息函数i , 的简单相加 i ( 0 ) = 艺1 , ( b ) = ( 2 - 8 ) 即在测验中,每一个测验项目 对测验信息函 数的作用都是独立的,与所有 其它项目 无关。这是由局部独立性假设推出的。由信息函数的可加性可知, 组 成测验的各个项目 的质量越高, 它们所能提供的信息量也就越大, 从而根据整 个测验所获资料而估出的被试特质水平就越精确, 越可靠, 越接近其真值。 信 息函数的可加性有力地说明了测验信息函数是反映测验有效性的一个客观而 精确的指标。 信息函数在测验项目的选择、评价和测验的等同化等方面都有相当重要的 作用。正因为如此,信息函数被认为是项目 反应理论中最为有用的一个概念。 夸 2 . 3本课题的研究与项目反应理论的应用 计算机化自 适应测验的编制,是项目 反应理论在测验领域中的一个成功应 用。这种新的测验形式,由于其在测验效率和测验信度上的高效性,受到了教 育界、心理学界的高度重视,并且很快在实际应用中推广开来。 以项目 反应理论为指导,我们开发了基于w e b 的英语c a i , 系统。在建立 题库的过程中, 我们采用了三参数的逻辑斯蒂模型来描述题目的特征, 每一道 题都有三个区别于经典测量理论中的基于项目 反应理论的区分度a ,难度b 和 猜测参数c 的值。 在考试过程中, 依据最大信息函数的原则为不同水平的 被试 选择最适合的题目, 也就是说, 当被试作出反应后, 重新估计被试的特质水平, 然后选取在该水平上能提供信息量最大的题目。 用较少的题目 达到较精确的测 量结果。 %)qmaster 位论 文 s t i i e s i s 第三章 基于we b的自适应考试系统的构成 3 . ,系统构成 系统主要包括题库管理和考试管理两大部分。 这两部分既相对独立, 又互 相联系。 3 . 1 . , 题库管理部分 题库管理部分主要完成工 r t 题库的建立及维护工作。其功能结构示意图如 图3 - 1 所示。 图3 - 1 题库管理主要有三大功能: 题库的建立。 首先进行题目 的录入, 录入后的 题目 需经过预测或专家评测后运用统计方法确定题目 的i r t 参数( 区分度、难 度、 猜测参数等) 。 题库的 维护。 题库的维护包括基本的 管理功能( 添加、 删 硕士学位论文 m a s t g r, s t h e s i s 除、更新题目 ) 以及查询功能, 用户可以根据题型、 难度或复合条件查询题库中 的题目。 系统的管理, 包括日常的管理工作( 如用户身份验证、 数据的存储管 理等) 。 3 . 1 . 2考试管理部分 考试管理部分主要完成在线测试工作。 其系统结构示意图如图3 - 2 所示。 被试 资料库 i r t 题库 被试 信息 管理 系统 考生 登录 h息询 布信查 .rl; 图3 - 2 被试信息管理系统主要是接收用户请求后, 通过查询用户资料库, 以决定 是否接受用户登录, 同时还可进行考生信息查询和每一个考生的考试情况记 录。 在测验开始时, 考务服务系统的主要任务是根据用户的记录确定考试的初 始题目, 返回给客户端;在考试过程中, 考务服务系统负责与用户的交互, 并负 责试题的呈现及选择和考试进程的控制工作; 考试结束后, 考务服务系统负责 记录并向考生呈现考试结果,同时向题库管理系统传递相关数据, 以进行题库 中的参数调整。 硕士学位论文 m a s t e r s t i ie s i s 3 . 2题库建设 题库是保证考试或测验题目 具有较高 质量、 水平稳定、 更好地达到欲测目 的重要技术手段。 它不是一些题目 的简单集合, 而是一些经过特殊处理的、 具 有较大信息量的题目的科学组合。 一个题库的好坏取决于它的组织的科学严密 性、内容的广泛性、对考生能力的预测性、使用的可行性等等。对于c a t 考试 而言,题库更是测试的有效性和高效性的基础。 3 . 2 . 1 题库概况 本系统所使用的题库是一个针对高中英语学科的题库, 主要用于对学生的 英语能力水平的估计。内容包括高中英语第一、二、 三册的主要内容,主要有 以 下几种类型:词汇选择填空,词汇配对, 语法选择填空、汉译音等。 3 . 2 . 2题库结构 1 . s y s l n f o t a b l e 表 ( 表3 - 1 ) , 在该 表中记录7系统的一些基本信息。比 如试题类型的 编号与实际类型描述可用如下记录来显示: c l a s s : 题型: o b j e c t : 词汇配对: a t t r i b u t e :编号; v a l u e : 7 ; 其他的如出题人编号与出 题人姓名 以及管理员的登录帐号密码等信息都存放在该表中。 阅 c l a s s文本类 o b j e c t文本某类的一个对象 a t t r i b u t e文本一个对象的属性 v a l u e数字一个属性的值 i s d e l e t e文本 表3 - 1 2 . i t e m t a b l e 表( 表3 - 2 ) , 该表中存放题目的主要内容及相关参数。 硕士学位论文 m a s t e r s t h e s i s i t e m i d数字 题 目号 i t e m c o n t e n t l o l e对象题目正文的t x t 内 容 i t e m c o n t e n t 2 o l e对象保存题目的听力内容 i t e m t y p e i d数字题型编号 a n s w e r 文本正确答案 k p i d 文本知识点编号 m a r k 数字分数 a n s w e r t i m e数字答题时间 d i f f l d 数字难度级别编号 d i f f i c u l t y数字难度值 d i v i l d 数字区分度级别编号 d i v i a t i o n数字区分度值 t o t a l u s e d t i m e s数字 总共使用次数 l a s t u s e d d a t e日期/ 时间 上次使用的日 期 i t e m a u t h o r数字 出题人 ( 编号) c o m p d a t e日期/ 时间出题时间 a t t r d a t e 日期/ 时间归档时间 d e l m a r k 是/ 否是否删除 i r t a 数字i r t a 参数 i r t b 数字 i r t b 参数 i r t c 数字i r t c 参数 a b i l i t y数字适用能力值 s p a r e 2文本备用项2 表3 - 2 3 . s t u r e a c t t a b l e 表 ( 表3 - 3 ) 。这个表中主要存放题目 的使用情况记录。 i d 数字主键值 i t e m i d 数字题目号 s t ul d 数字学生i d 号 s c o r e 数字学生在本题上的得分 t a k e n d a t e日期/ 时间考试的日期 a b i l i t y数字学生在该次考试的能力值 表3 - 3 硕士学位论文 ma s t e r s t h e s i s 4 . s t u i n f 。 表 ( 表3 - 4 ) , 该表主要记录考生的 基本信息。 n a m e 文本学生姓名 s t u i d文本 学生注册i d 号 s e x文本学生性别 g r a d e数字 年级 p a s s w o r d文本学生注册密码 e m a i i文本 学生电子邮件地址 a b i l i t y数字学生最近一次考试的能力值 表3 - 4 5 . s t u s c o r e t a b l e 表 ( 表3 - 5 ) , 该表主 要记录每一个学生的每一次考试情 况。 s t u l d 文本学生i d 号 t a k e n d a t e数字考试日期 a b i l i t y数字能力值 i n f o r m a t i o n数字本次考试的信息函数总和 d i f f数字 题目 平均难度值 表3 - 5 6 . p h y s i c s k b t a b l e 表 ( 表3 - 6 ) ,该表存放的是知识点编号的具体内 容。 k p i d数字知识点编号 c e文本所在册 z h a n g文本所在章 j i e数字所在节 k b c o n t e n t文本知识点描述 b o o k文本依据的教科书 表3 - 6 硕士学位论文 m a s t e r s t 闭: s i s 3 . 2 . 3 题库参数的确定 1 . 参数估计的意义 在单维性假设的前提下,任何项目反应模型都可以统一描述成 p ( 0 ) = f ( a , b , c , ) 的形式( 式2 - 1 ) 。 因 此, 它们均有两类参数。 一类是能力参数, 通常记为0 ,一类是项目 质量参数,通常用a , b , c 来标识,分别称为项目区分 度、 项目难度和猜测参数. 测验的作用就是通过测验分数对被试的相应能力或 特质水平作出有效的估计,而高质量的测验项目则是作出精确估计的重要前 提, 因此, 我们要根据实测资料客观而准确地做估出这两类参数, 为测验编制、 题库建设提供有效的数据和资料。 2 .用联合极大似然法估计项目 参数 在经典测试理论中,试题的难度、区分度是根据考生的得分求出的,它们 依赖于样本, 缺乏一定的客观性。 而在项目 反应理论对二级评分的题目 , 较好 地解决了 这个问 题。其所具有的测验等值性、客观性适应了 题库建设的需要, 降低了对样本的要求。 但在建立题库时, 无论是用经典测量理论还是项目反应 理论,都必须对每一道题目 进行试测,以得到该题的题目 参数。这需要化费大 量的人力、 物力和时间,因此, 在本题库的建设过程中, 采用专家估计和极大 似然法相结合的办法求出题目的难度、区分度以及猜测度。 首先,采用专家意见,将每个题目的难度、区分度作估计。 评价分五级: 难度级别:容易,较容易,适中,较难,难 区分度级别:优, 良,中,较差,差 我们将上述级别作如下量化( 表3 - 7 、表3 - 8 ) : 难度级别难较难适中较容易 容易 难度值 10 . 70 . 5 0. 30 . 1 表3 - 7 硕士学位论文 ma s t e r s 升i e s i s 区分度级别优良中较差差 区分度值 1 0 . 40 . 30 . 20 . 1 表3 - 8 将以上结果作为题目的参数初值, 然后在测试过程中采用联合极大似然法 调整题目的质量参数并确定被试的特质水平。其基本步骤如下: 第一步, 为特质参数和题目 参数指定初值。 假设在考试中,若l 为题目 数, r 为被试答对的题目 数,则特质参数的初值。 。 可由下式确定 b o 二i n l一r ( 3 - 1 ) 题目i 的区分度参数初值i r t a 用上表中的区分度值来表示; 将表3 - 7 中的 难度值作如下变换: i r t b =in 兰 1 一b, 所得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论