版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于认知诊断的计算机化自适应测验的选题策略
1计算机化自适应测验与能力估计设计随着测量理论的发展,认知诊断是心理和教育研究的一个重要研究方向。广义的认知诊断指建立起观察分数和被试的内部认知特征之间的关系。狭义的认知诊断指在教育教学领域中,按被试有没有掌握测验所测的技能或特质来对被试加以分类。认知诊断是测验理论自身发展的产物,也是社会尤其是教育领域要求测验提供更多信息的结果。传统的测验只报告被试的成绩,然而教师和学生都希望深入了解学生内在的知识状态,从而改进教学。认知诊断模型发展至今已有近20种,各种认知诊断模型都有其适用范围,且各有优缺点。比较有代表性的如早期的经典模型线性逻辑斯蒂克特质模型(LLTM)和规则空间模型(RuleSpaceModel),还有目前被认为有较好发展前景的统一模型(UnifiedModel)和融合模型(FusionModel)。然而大多数比较成功的认知诊断研究主要集中在固定项目的纸笔测验上,相比之下,基于计算机化自适应测验(ComputerizedAdaptiveTesting,CAT)的认知诊断的研究虽然也有一些,如文献设计了一个具有认知诊断功能的CAT,并提出了补救措施;文献结合Fusion模型和shadow-testing算法实现具有诊断功能的CAT,等等,但这方面的研究还是不多。CAT作为测验形式发展的一个重要方向,亟需发展相应的认知诊断技术,以便及时诊断与评价。本研究采用先认知诊断后估计能力的方法设计CAT系统。在诊断阶段,使用状态转换图,结合图的深度优先搜索方法设计认知诊断的选题策略;而在精确估计能力阶段,使用传统CAT选题策略,但不选包含被试未掌握属性的项目。在纸笔测验中,有一个重要的环节,就是合理构建测验项目。只有精心策划的测验,才能较好地实现认知诊断功能。然而,CAT的一个重要特征就是,考试系统依据每位被试的实际作答选取下一个合适的项目,每位被试的测验过程并不相同,即测验不能事先设计,如果仍采用传统的CAT选题策略,则难以保证组成测验的项目能有效区分各种知识状态。由此可见,CAT选题策略的设计,需有助于诊断被试的知识状态。换言之,此时的自适应测验,不仅是适应被试的能力水平,还要适应被试的知识状态(即要有利于对被试的知识状态的诊断),根据认知诊断进行的过程分别选用不同的项目。经过反复探索和考虑,我们最终确立了前期以认知诊断为主、后阶段再进行能力准确估计的CAT运作模式。Tatsuoka创建规则空间时,使用了属性之间的层级关系图。可以从逻辑/心理上的考虑来划分属性的顺序。比如从逻辑上讲,乘法出现在加法之后;从心理上讲,皮亚杰(Piaget)认为运算的发展顺序是前运算(preoperational)、具体运算(concreteoperational)和形式运算(formaloperational)。层级(hierarchy)明显地定义了测验中解题所需属性之间的逻辑/心理的顺序,指定了属性间的相依关系。如图1所示,属性A1是属性A2和A3的先决条件,亦即不掌握A1便无法掌握A2或A3。本文中,我们试图寻找一种适宜的探测方法,使得计算机能遵循属性的层级关系对被试所掌握属性进行识别。本文以下内容分成三部分,第一部分介绍这种新的探测方法及原理,并进行了蒙特卡罗模拟试验;第二部分对三种不同层次关系的属性结构开展的试验结果进行分析;第三部分介绍本研究方法的应用与局限。2学习方法2.1状态转换阶段的综合诊断过程我们设想,被试的学习过程从零状态(一个属性都没掌握的状态)开始,每次学习(增加)1个属性,到达一个新的状态,直至最终到达全状态(所有属性都掌握的状态)。由于属性间存在层级关系,所以每次新学习的属性可以是以下三种情形之一:①刚才所学属性的下一级属性;②刚才所学属性的兄弟属性;③与刚才所学属性无关的属性(其上级属性已掌握或无上级属性)。因此,从零状态到全状态的学习过程,可能存在多条学习途径。如果用结点表示知识状态,用状态之间的有向边表示在一种状态下新学习一个属性(在有向边上用“+属性”的形式标注)后进入另一种状态,那么我们可以得到一个用来表示所有知识状态和学习途径的图。这个图,我们不妨称之为“状态转换图”。如图2所示,它是对应于图1所示层级关系的状态转换图,其含义如表1和表2所描述。状态转换图是一种有向图,它能较直观地反映状态空间中各种状态之间的联系,广泛应用于数字逻辑、软件工程等各学科领域,用以表示状态之间的联系及转换关系。在本文中,状态转换图既可表示各种知识状态之间的联系,也可表示属性学习的各种可能的逻辑/心理顺序,还可以作为CAT考试系统探测被试知识状态(属性掌握模式)的“路线图”。CAT系统第一阶段的认知诊断过程,就是以状态转换图为“路线图”,对被试进行定位,确定其在状态转换图中的位置的过程。该阶段的选题策略就是依据这个目标来设计的。CAT系统从零状态出发,按照图的深度优先搜索方法对状态转换图进行搜索,根据当前状态结点引出的有向边,仅在候选项目集中选取项目提供给被试。所谓候选项目集,是随被试不同而不同的,被试α的候选项目集记为Sα。为了行文方便,我们先给出几个术语:我们称项目j所包含的所有属性为项目j的属性集,当项目指称清楚时,简称项目属性;经测试认定被试已掌握的属性称为已掌握属性,认定被试未掌握的属性称为未掌握属性,当前正要检测该被试是否掌握的那一个属性称为待查属性,对该被试而言其它尚未检测的属性称为未检测属性。Sα中只含尚未对α施测的项目,且项目属性中必须包含待查属性,但不能包含α未掌握属性和未检测属性。在Sα中,选取与当前估计能力值最为接近的项目提供给被试,如果被试能答对这个项目则表示掌握该属性,进入该有向边的终点,也就是下一个状态;如果不能答对则表示未掌握该属性,然后选择下一条有向边进行测试。按照这个方法在状态转换图中不断向前推进,直至不能前进为止,此时便可确定被试的知识状态,第一阶段结束。以图2所示的状态转换图为例。某被试先做了一个只包含属性A1的项目(在图2中,从零状态引出了一条标注“+A1”的有向边),答对后,进入状态1,即认为被试掌握了属性A1。系统再从所有一定包含属性A2、可以包含A1、但是不含其它任何属性的项目集中根据当前估计的能力水平选取项目,如果被试不能答对,那么我们认为被试没有掌握属性A2。系统再依据状态转换图查看下一条有向边,从所有一定包含属性A3、可以包含A1、但是不含其它任何属性的项目集中再选取项目进行测验,如果被试答对了,则进入状态3。依此方法,系统接着在所有一定包含属性A4(虽然从状态3左边出发的第一条有向边是测试属性A2,但因前面已判定该属性未掌握,故不需重复)、可以包含A1和A3、但是不含其它任何属性的项目集中再选取项目进行测验,如能答对,则进入状态5。此时已不能再向前推进,因此可以确定该被试的知识状态为1011,即掌握了属性A1、A3、A4,但未掌握属性A2。由于被试在完成测验项目时,可能由于失误而导致应该答对的项目却没有答对,故不能仅凭一次答错就认定被试未掌握该属性。为了提高诊断正确率,本系统对每个属性的检测提供了三次机会,即答错以后还可选取相同要求的项目再答,并且是在候选项目集最容易的若干个项目中选取。第一阶段的主要目的是认知诊断,但能力估计也是同步进行的,故准确地讲,第一阶段是诊断为主,能力粗略估计为辅。我们在研究中发现,由于试探各属性是否掌握而使得被试做了一些根本做不出来的项目,致使能力估计普遍偏低,最终难以拉回,能力估计极不准确。经过分析,我们认为,对于那些包含未掌握属性的项目,无论其难度多么低,被试都不能答对,因此该类项目对于被试的能力估计是有害无益的。我们在能力估计时应该只考虑被试已掌握相关属性、有可能答对的项目。经过改进,最终的能力估计达到了较高的精度。至于能力估计方法,本研究采用的是期望后验估计(expectedaposteriori,EAP)。知识状态确定后第一阶段结束,进入第二阶段。这个阶段的选题策略与传统的CAT选题策略并无不同,但是选题范围并非整个题库。如上所述的理由,第二阶段的选题范围对某被试α而言,它是仅仅包含被试α掌握属性的项目的集合。在这个范围内,采用传统的能力匹配的选题策略运行CAT系统,直至能力估计达到要求的信息量,这时CAT是不定长的。下文的实证研究采取的是不定长CAT。2.2自适应考验结果本研究采用蒙特卡罗模拟方法,模拟出题库和被试,按照上述CAT系统的设计思路进行测验。不同认知领域上的属性及属性间层级关系并不相同,为了使研究具有一定的代表性,我们分别针对三种不同属性层级关系的例子进行了试验:树型结构、树林型结构和孤立结点结构,如图3所示。其中,图3a的树型结构来源于中使用的实例,这是一个对文科学生进行的关于应用统计课程中描述统计部分的知识和技能的测验,属性A1~A8依次是对如下8个知识点的理解与计算:平均数、加权平均数、离均差、平均差、标准差、标准分数、标准分数转换和相关系数。图3c的孤立结点结构来源于中研究的实例。这是美国某州2002年春季对小学三年级学生的阅读水平测试,A1~A6分别表示以下六个认知属性:确定词意、确定主题、缩写提炼、分析信息和辨识观点。这六个认知属性之间不存在层级关系。至于图3b的树林型结构,则是对更普遍、更一般化的属性层级关系模拟的例子。在每个试验中,我们分别分析属性层级关系,建立状态转换图,模拟题库和被试,然后进行自适应测验,并对测验结果进行分析和统计,具体方法如下:(1)分析属性间关系,建构反映属性之间直接逻辑关系的邻接矩阵A,然后获得反映属性之间直接或间接逻辑关系的可达到矩阵R,确定符合属性层级关系的所有可能项目集的缩减事件矩阵Qr,得到被试所有可能的属性掌握模式(知识状态)和所有可能项目集,并根据所有可能的知识状态绘制状态转换图;(2)模拟被试和题库;在三个试验中,我们采用了以下两种不同的方法:A.在树型、树林型属性层级关系的试验中:a.根据所有可能项目集和所有可能的知识状态,模拟一批项目和被试进行测验,根据得分阵作参数估计,得到相应的项目参数和被试的能力参数;b.模拟生成题库和被试。由于属性结构相同的项目在项目参数上是相近的,所以模拟同种属性结构的一批项目时,在由(a)给出的项目参数的基础上浮动一定幅度。被试的模拟也是如此,相同知识状态的一批被试能力较为接近。B.在孤立结点结构的属性层级关系的试验中,被试和项目均来源于文献中的真实数据。文献提供了2000名真实被试和36个真实项目的实测得分阵、Q矩阵、诊断模型、项目参数估计值和被试知识状态估计;在此基础上模拟出CAT所需的题库和参加测验的被试,模拟方法同上。(3)被试参加测验,将判定结果与模拟的知识状态作比较,统计判定正确率,计算能力估计精度(返真性)、平均测验长度、测验效率、曝光均匀性、测验重叠率等评价指标。各评价指标意义如下:判定正确率=判定模式与模拟模式一致的人数Μ=判定模式与模拟模式一致的人数M,其中M表示被试总人数。能力估计精度(返真性)=1Μ=1MΜ∑j=1∑j=1Mabs(ˆθj-θj),其中abs(ˆθj-θj)表示第j个被试的能力真值ˆθj和估计值θj之差的绝对值。该式值越小,能力估计精度越高,返真性越好。平均测验长度=Μ∑j=1LjΜ,其中Lj表示被试j的测验长度。测验效率=Μ∑j=1infjΜ∑j=1Lj,其中infj为被试j测量的信息总量。测验效率反映了一个测验中,平均每个项目提供了多少信息量。曝光均匀性χ2=Ν∑i=1[Ai-(Ν∑i=1Ai/Ν)]2Ν∑i=1Ai/Ν,其中N是题库总题数,Ai是题库中第i题的曝光率(Ai=第i题的使用次数Μ‚χ2值越小,试题曝光率越均匀,CAT越安全。测验重叠率=ΤΟ总/C2Μ(Μ∑j=1Lj)/Μ=2ΤΟ总(Μ-1)Μ∑j=1Lj,其中TO总是考生的试题总数,计算公式如下:TO总=Ν∑i=1C2mi‚mi是题库中第i题使用的次数。测验重叠率也是度量CAT安全性的一个重要方面,它指的是任意两个考生试题重叠比率的期望值。测验重叠率越小,说明不同考生之间出现相同试题的机率越小,测验的安全性越高。3试验结果与分析3.1缩小10题范围,减轻认知诊断的判定正确率每种类型的被试和项目均模拟100个,即被试人数为3000人,题库中项目数为3000题。最大测验长度定为30题。从表3中的结果可以看出,本研究采用的方法能较好地识别被试的知识状态,能力估计精度和测验效率也较高。但是在试验中也发现,曝光均匀性较差。一方面,某些类型的项目中,最容易的5题被大量使用。因为试验中第一阶段采用的选题策略是,当某个项目做错时,系统从符合要求的项目类型中选取最容易的5题,再随机选取一个项目提供给被试。这一点可以通过扩大选取范围(如改为在最容易的10题中选取)或其它方式来改善,当然,随着所选项目难度的略微增加,认知诊断的判定正确率可能会因此而略微降低。另一方面,某些类型的项目使用率极低,浪费了考试系统的成本,对这种类型的项目数可以进行削减。因而从某种意义上说,这种模拟试验对实际应用中编制题库具有一定的指导作用。将那些使用较少的部分类型的项目数缩减为50题后,题库变成2000题,再进行试验,可以看到,由于减少了一部分使用率低的项目,整个题库的曝光均匀性得到较大改善。当然,由于题量减少,选题时受限制,致使判定正确率略有下降。因此在实际应用中,考试组织者需要通过精心设计题库来达到最佳测验效果。3.2森林结构被试人数为2550人(每种类型50人),经初次试验后减少部分类型的项目,优化后题库中项目数为3100题。最大测验长度仍定为30题。3.3实验结果的分析被试和题库均来源于。被试2000人,其能力由实测数据估计;基于36个项目模拟题库,题数为2500题,由于中的测验为目标参照性测验,题目都相当容易。最大测验长度仍定为30题。本试验结果大大不同于以上两种结构,其原因在于组成题库的项目均为低难度的仅含单个属性的项目。由于检测被试是否掌握各个属性时均能找到很容易的项目,故误判的可能性非常低。但因为题库中无难度大的题目(最高难度仅为0.6左右),所以一方面导致能力高的被试无相应水平的项目可做,只能做简单题目,致使信息量下降,测验长度增加,能力估计精度和测验效率降低;另一方面又造成题库中最难的题目被大量使用。题库中的项目仅有6类,每类只测验一个属性,本结果中显示的29个过度曝光题中有5个分别是第二、三、四、五、六类项目中难度最大的题目(由于进入考试的第一题在第一类项目中随机选择,所以该类项目的使用非常均匀),而另外24个则是除上述5题之外在整个题库中难度最大的一些题目。正因如此,试验结果中曝光均匀性极差,测验重叠率相当高。当然,这样的结果并不影响对本研究所采用方法的有效性的认定,相反,它正说明了构造优良的题库是提高认知诊断正确率的较好保证。事实上,不少真实题库的构建并不会如本试验所模拟的这样,而是可以提供较多的项目,且它们的难度呈正态分布或接近正态分布,这样可以使得各项目都有相近的调用概率,且各种水平的被试都能找到比较合适的项目。4被试和被试状态转换图的模拟研究通过以上模拟研究,我们认为该CAT系统能较好地实现认知诊断功能,在知识状态的诊断和能力水平估计两方面都得到较为满意的结果。但本研究只涉及较简单的模型,更多的因素需要在进一步的工作中加以考虑。本研究采用的项目反应模型为双参数逻辑斯蒂克模型(2PLM),不考虑做题时猜对的可能性,被试能答对项目,则认为其掌握项目涉及的所有属性。这实际上是一个过于理想的模型,尤其是应用在CAT中。因为这种模型仅适用于主观题型,而CAT的题库应允许由主观题和客观题混合组成。所以,如何拓广本研究的适用范围,将是下一步的重要工作。本研究针对三种属性结构进行了试验,这三种结构对应的状态转换图的结点数分别为31个、52个和64个。如果推广到一般的情况,其实用性如何,这也是需要进一步研究的内容。图3b的树林型结构,就是对更普遍、更一般化的属性层级关系模拟的例子。事实上,通常一个测验所测的认知属性可以是树林型结构(它包含树型结构)或孤立结点结构,只不过属性的多少有所区别。对于属性较多,层级关系较复杂的知识领域,我们仍然可以采用同样方法,建立对应的状态转换图,按上述策略进行认知诊断。不过,状态转换图也会相应的变得比较复杂。对于有n个属性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度新型环保建筑材料生产股权转让协议范本3篇
- 大豆磷效率相关基因GmERF57的功能验证
- 2025年度影视动画插画制作服务合同4篇
- 二零二五年度智能家居系统承揽合同规范范本4篇
- 一年级数学(上)计算题专项练习汇编
- 施工方案和专项方案
- 2025年度装配式房屋承建与配套服务全面合作协议3篇
- 二零二四年度小区物业消防安全服务合同3篇
- 5 的乘法口诀(说课稿)-2024-2025学年二年级上册数学人教版
- 二零二五版智慧城市项目设备租赁与系统集成合同4篇
- 2024年公需科目培训考试题及答案
- 2024年江苏鑫财国有资产运营有限公司招聘笔试冲刺题(带答案解析)
- 2024年辽宁石化职业技术学院单招职业适应性测试题库含答案
- 广西桂林市2023-2024学年高二上学期期末考试物理试卷
- 财务指标与财务管理
- 部编版二年级下册道德与法治第三单元《绿色小卫士》全部教案
- 【京东仓库出库作业优化设计13000字(论文)】
- 保安春节安全生产培训
- 初一语文上册基础知识训练及答案(5篇)
- 血液透析水处理系统演示
- GB/T 27030-2006合格评定第三方符合性标志的通用要求
评论
0/150
提交评论