认知诊断测验编制的原则

上传人：腾*** IP属地：广东上传时间：2022-08-15 格式：DOC 页数：9 大小：37KB 积分：15 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、.：.；认知诊断检验编制的原那么2021-01-03 来源：nearlw/摘要：Tatsuoka 给出的实例阐明，不同知识形状能够对应同一理想反响方式，即对知识形状产生误判。假设不是对检验进展事后分析，找出属性及层级，而是采用Leighton 等人所倡导的方法，在认知诊断检验编制之前确定所测属性及其层次，导出可达阵，这时可以证明只需将可达阵作为认知诊断检验蓝图的一部分，那么可防止这一问题。这一原那么不仅对认知诊断检验蓝图的设计有指点作用，而且对制定有认知诊断功能的计算机化自顺应检验的选题战略有着重要的参考作用。关键词：检验蓝图；认知诊断；可达矩阵；理想反响方式；计算机化自顺应检验1. 引言通常

2、把对个体知识构造、加工技艺或认知过程均简称为属性，attribute的诊断评价称为认知诊断评价或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA，Leighton and Gierl，2007.) 1。普通的教育考试, 特别是大规模的考试，只提供考试分数或才干分数。然而由单一的分数，既不能得到被试详细掌握或未掌握什么知识的结论,也不能得到被试做错试题的缘由，以进展补救；对于一样分数的个体，更无法得到他们之间能够存在的知识形状和认知构造的差别。传统的考试提供的信息已不太适宜个体开展的需求，认知诊断评价的主要义务是发掘更多的

3、认知加工信息。Leighton 和 Gierl20071以为认知诊断是用于丈量/评价个体特定的知识构造knowledge structure和加工技艺processing skills。CDA 经过检验获得被试在检验上(可察看)的反响而推知该被试不可察看的知识形状knowledge state。Leighton 和Gierl(2007) 1在他们所编写的书第一篇文章(p.3)称CDA 仍处于萌芽形状(CDA is still in its infancy)，阐明对CDA 的研讨，包括认知诊断检验的构造都是新的课题。Gierl(2007) 1在注释(p.337)中又指出，认知诊断检验设计是一个重

4、要的研讨领域，而已有的相关研讨成果却很少，连Downing 和 Haladyma 编辑的由Erlbaum 在2006 年出版的检验编制手册(Handbook of test development)中也没有相应的章节涉及认知诊断检验编制，甚至找不到认知诊断评价的主题词条(subject entry)。Gierl(2007)2还以为只需Gorin(2007)1描画了认知诊断检验编制的原理。认知诊断检验的编制是一件具有挑战性的义务，限于篇幅和本文主旨，这里不讨论如何与命题专家沟通，打磨出好的试题的问题，而集中讨论认知诊断检验蓝图的编制问题。在讨论认知诊断检验蓝图的编制问题之前，我们先看两个例子，一

5、个是简化的用以解释原理性的例子；另一个是规那么空间模型rule space model,RSM的开创者Tatsuoka1995给出的例子23 45，用以阐明实践任务中思索不周就很有能够编制出有问题的诊断检验。下文中理想反响是指既不猜测也不失误的作答反响，只需被试掌握了工程所测的一切属性，才干正确作答。属性层级方法attribute hierarchy method，AHM678中称理想反响为期望反响方式；确定性输入，噪声“与门模型deterministic inputs，noisy and gate model,DINA,如可参见Henson& Douglas,20059中的理想反响方式详细计

6、算公式见附录1(其实，差不多一切理想反响方式都可以这样计算，当然也可以用丁树良等10引见的方法计算)。由附录1 中详细计算公式可见理想反响方式非常重要，其实理想反响方式对诸如RSM,AHM等许多认知诊断模型都非常重要。对于诊断检验，在既不猜测也不失误的理想作答反响情况下，具有不同知识形状的被试对应不同的理想反响方式, 那么称为理想的认知诊断检验;否那么称为理想反响误判的认知诊断检验。假设具有不同知识形状被试对应一样的理想反响方式，那么称这些不同知识形状为等价类。实践上，这个等价类是由检验蓝图检验Q阵决议的，称为知识形状中由检验Q阵决议的等价类。我们希望有检验Q阵，使得每个等价类中仅仅有一个知识

7、形状。例1.三个属性A1，A2，A3，它们彼此之间不存在先决关系prerequisite relation。于是属性之间的可达阵R 为三阶单位阵I。今给出三个工程作为诊断检验。留意被试的知识形状共有8 种，即1=000，2=001，3=010，4=011，5=100，6=101，7=110，8=111。假设上述8 种被试分别参与检验蓝图为Qii=1，2，3，4的认知诊断检验，那么对于Q1，1，2，3，5 的理想反响方式均为0，0，0，即理想反响方式为0，0，0的方式其潜在知识形状能够为1，2，3，5 ，此时假设根据其一切理想反响方式来判别其知识形状，误判率为3/8；上例中1，2，3，5 是Q1

8、决议的等价类；对于Q2，1，2，3，4 为一个等价类，理想反响方式均为0，0，0；而5，6为另一个等价类，理想反响方式均为1，0，0，即误判率为4/8；对于Q3，1，2 的理想反响方式均为0，0，0，3，4 理想反响方式均为0,1，0，而5，6 为第三个等价类，理想反响方式均为1，0，0，即误判率为3/8；但对于Q4 却不带来任何误判。例2.Tatsuoka(1995，P.337)4给出了小学分数加减的认知诊断检验，检验共含9 个工程，依Tatsuoka 的事后(post hoc)分析，即经过对检验后的得分矩阵进展分析，得出5 个属性，属性完全一样的工程仅保管一个。如第五题：7121 + 和

9、第六题：2131 + 都是检测通分(A3)和分数相加(A4)，即T00110 ，只保管第五题；而第四题44 222 1 + 与第八题42 363 1 + 均检测了一切五个属性，也应归为一类，即T 11111 ，只保管第四题本文中xT 表示向量x 的转置，于是仅剩下7 类工程，组成一个57 的Q 阵。这里的Q 阵与Tatsuoka 给出的有不同，由于她给出的Q 阵有笔误，比如第七题只涉及分子相加(A4)，即T 00010 ,而不像Tatsuoka所标定的为“答案化简，我们对这些笔误进展修正。最后修正的Q 阵，它不含一样的列。然而这个Q 阵能够导致对知识形状的误判，比如根据所测属性及其层次关系，有

10、两个被试的知识形状分别为1=(0,0,1,1,1)，2=(0,1,1,1,1)，它们导出的理想反响方式却一样，都等于(0,1,1,0,1,1,0)8。这个例子阐明一个很严重的问题：Tatsuoka1995，p.3284希望规那么空间模型Rule spacemodel， RSM中的Q-矩阵实际，可以起到桥梁作用将可察看的反响向量对应到不可察看的知识形状。如今至少有两个不同的知识形状例如1，2，通畅对应到同一个理想反响方式，即这个等价类中至少含有两个知识形状。此时假设我们察看到这个理想反响方式，以此来诊断其隐藏的知识形状，我们难以判别隐藏的知识形状究竟是1，还是2。这时完全能够产生误判。我们称不同

11、知识形状对应同一理想反响方式的景象为对知识形状的误判。Tatsuoka1995，pp.341-3424以实例阐明属性掌握方式即被试知识形状和理想反响方式并不是一一对应的，而是多个属性掌握方式对应同一个理想工程反响方式idealitem-response pattern。这种景象对于被试的归类是很不利的，同时也阐明Tatsuoka 提供的方法存在一定的问题。由于认知诊断检验蓝图直接影响CDA 的分类效果，下描画了CDA 最为中心的过程，其中， s Q 是由可达阵R 导出的Q阵,称为被试Q阵，这时s Q 的每一列都代表了“一类知识形状knowledge state，表示一个检验中工程与属性关联关系

12、的的Q矩阵为检验Q矩阵，记为t Q ,显然t Q 只是s Q 的某一部分，即t Q 是s Q 的子矩阵sub-matrix且不含一样的列10；是知识形状, 是理想期望/潜在反响方式，f-1 是f 的反函数，此时要求f 本身是一一映射9。后半部分由试题性质、被试动机或一些随机要素等决议，因此要提高CDA 分类的准确性，关键取决于前半部分。假设一映射( | ) s t f Q Q 使得集合s Q 中的不同列(称为s Q 中的元素)在理想反响方式集合中有一样的象，那么分类较为模糊只能分到相应的等价类中。假设可以编制一检验蓝图t Q 使得对应关系( | ) s t f Q Q 对于集合s Q 中的

13、任何一个元素，在集合中都存在独一的一个元素与之对应，那么可以经过求对应关系的反函数，到达对反响方式的比较准确的分类。我们希望对任何一种属性层级，都能如例1一样，构造出相应的检验蓝图，使得属性掌握方式(知识形状)与理想反响方式一一对应。本文讨论将可达阵作为检验蓝图的一部分对提高认知诊断准确率的关系；要对认知诊断检验编制进展讨论。第2 节讨论认知诊断的逻辑顺序以及检验蓝图的编制，第3 节讨论上述结论中的运用，即对检验编制的指点作用和对有认知诊断功能的计算机化自顺应检验选题战略的制定的指点作用；第4 节进展Monte Carlo 模拟研讨，以讨论“将可达矩阵作为或不作为检验蓝图一部分时的误判率大小

14、；并验证第2 节的结论。第5 节是认知诊断检验编制的相关问题的进一步讨论。另外，我们给出一些附录，主要是想正文枝蔓不要太多而妨碍文章的主要结论，添加文章的可读性。2. 认知诊断检验蓝图的编制Tatsuoka(1983，1991，1995) 23 4的规那么空间模型中关联矩阵Q 是可以经过分析测试工程得到的。现实上，目前许多CDA 是根据认知诊断模型cognitive diagnostic model，CDM对已有的检验进展分析，这些已有的检验并不是为认知诊断“量身定制的。Leighton, Gierl,和 Hunka(2000)11指出这样导出Q 阵的方法逻辑性不强。Gierl 等人(2000

15、) 11及Leighton 等人(2004)6建议在检验之前就由专家给出欲测属性及这些属性间的层级关系hierarchyrelation。对于如何构造一个有利于诊断的工程，Gorin20071给出了一些例子，并给出一些原那么；Gorin20071强调诊断检验的构造的重要性不亚于构造单个工程的重要性，文章甚至造出一个不利于认知诊断的检验蓝图其中每个工程至少包含两个属性，并讨论了诊断检验编制的问题，以为诊断检验中应尽能够多地包括对应Qr 中的列的工程。Henson和Douglas20059对如何选取工程组成认知诊断检验作过较深化讨论，给出了计算目的，这个目的的计算是耗时的，并且该目的的运用有相当的

16、限制，即需求认知诊断模型有详细的显式的(explicit expression)认知诊断的工程反响模型，如DINA，Fusion 模型等，对于没有显式表达的认知诊断工程反响模型，如RSM，AHM，这一目的还不能运用。由于本文主要讨论在给定可达阵R 的根底上诊断检验蓝图的编制，而不要求认知诊断模型具有显式表达式，为了节省篇幅，故对Henson 和Douglas (2005) 9在认知诊断检验中选取工程的方法不作详细陈说。Gorin20071，Henson 和Douglas20059的文章中，都未认识到可达阵在认知诊断检验编制中的重要性。Tatsuoka19954和Leighton 等人20046

17、以为Qr 阵是认知诊断检验的检验蓝图，Gierl 等人2007，p2551也以为Qr 阵在AHMLeighton at el，2004) 6中非常重要，是检验的一个认知蓝图cognitive blueprint。我们以为，按照AHM 的逻辑顺序，在检验之前便分析寻觅认知诊断检验欲测之属性以及它们的层级关系，然后得到属性之间的邻接阵A，由A 与同阶单位阵I 的和A+I，计算出可达阵R，再从R 出发，寻觅出满足属性层级关系的一切属性组合，即得到Tatsuoka(1991，19953 4所说的简化Q 阵，即Qr 阵当被试较多时，他们的知识形状knowledge state的集合的外延较丰富，有能够Q

18、r 中每一列都含在这个集合之中。我们称这个Qr 阵为学生Q 阵，记为Qs。当Qs 的列太多时，不能够将Qs 作为检验蓝图，这时要从Qs 中抽取一部分，可以作为检验蓝图，称Qs 的这个子矩阵sub-matrix为检验Q 阵，记之为Qt。这里引荐AHM 的逻辑顺序，是由于AHM 中Q 矩阵产生在检验之前，故这时Qt 矩阵可以指点检验的编制，而Tatsuoka 的Q 矩阵是检验以后从得分阵中分析出来的，此时Q 阵对检验设计不能够有指点作用，也不能够保证反映了属性之间真实的层级关系8。接下来要讨论的问题就是如何构建Qt 阵，使得任取两个知识形状不同的被试，他们参与Qt 为蓝图的检验，在不计猜测也不计失

19、误的理想情况下，他们的理想工程反响方式不一样。这可以笼统为从Qs 中任取两个列qi，qjqiqj，记为被试qi，qj，用x(qiQt)表示被试qi 对检验Qt 的理想工程反响方式，那么上述问题可以用一个数学符号来表示为：任取Qs 中两列qi，qjqiqj有x(qiQt) x(qjQt) (1)留意这里不讨论知识形状为零向量这一种很简单的情形，但模拟研讨中还是包含了这种情况。为了寻觅这样一个Q t 阵，我们先给出几个结论。结论1：可达阵可以表示为对角元全为1 的上三角阵。结论2：Qs 阵可以由可达阵经过扩张算法得到。结论3：对于可达阵中任两个不同的列和它们可以代表两个不同的被试，假设这两个被试

20、参与可达阵为蓝图的检验，理想反响方式必定不同。结论4：假设属性层级是线性型，那么不同知识形状的被试参与以R 为蓝图的检验，理想反响方式必定不同。结论5：对于无构外型的属性集，设其对应的可达阵Ri, i=1,2；分别为R1=I 或R2，R2中第j 列的第1 个元及第j 个元为1，其他元素均为0，那么不同知识形状的被试参与Rii=1，2为蓝图的理想反响方式一定不同。留意R1，R2 分别描画Tatsuoka19954和Leighton 等人20046的无构外型。按照结论2，Qs(Qt)中每列都可以由R 的列“扩张出来。通俗一点讲，R 是构造Qs(Qt)的根底，因此我们对其特别关注。另外，它的列数便是

21、所测属性的个数，假设含有一样属性的工程看成同一类，那么用K 个类的工程去调查K 个属性应该是符合经济，高效原那么的。这个现实阐明可达矩阵在认知诊断检验中具有举足轻重的作用，也启发我们对断言1采用如下的证明。证明：由Leighton 等人20046的划分，属性层级构造分成线性、收敛、发散、无构外型等四类，其他方式的构造可以由它们组合，而由结论4 和5，我们只需对收敛及发散型构造证明即可。留意理想工程反响方式x(qiQt)是一个列向量，假设我们仅只思索0-1 评分方式，且检验Qt 含有m 个工程，那么x(qiQt)是一个m 行的只取0 或1的向量。假设我们可以将检验蓝图Qt 分成两部分，不失普通性

22、可以假设Qt 的前一部分是可达阵R，余下部分记为Qo，即将Qt 写成一个分块矩阵方式Qt=(R Qo)。用x(qiR)表示被试qi 参与以可达阵R 为检验蓝图的分检验时所得到的理想反响方式。此时假设能证明x(qiR) x(qjR)，那么依向量相等的定义，我们便证明了1式。但要特别留意，Qt 是Km矩阵，R 是KK 阵，K 是检验所要调查的属性个数。R 要成为Qt 的一部分，其必要条件是mK。今设被试和其知识形状与Qs中第i，j 列一样，为qi，qj,且qi qj。对于t=K,K-1,2,1，逐渐调查qti= qtj 能否成立。假设qKiqKj，且无妨设qKi=0 而qKj=1。由R 为上三

23、角阵，得知有且只需rKK=1，再根据Qr 矩阵扩张算法 10 13 14, 得知qi ,qj 都可由R 中列“扩张合成出来，从而可知R 的第K 列必参与复合qj，而未参与复合qi，故被试qj 对工程K 的理想反响为1 而qi 对工程K 的理想反响为0；假设qKi= qKj 不论它们都为0 还是为1，往下调查qK-1,i= qK-1,j 能否成立。如不成立，仍无妨设qK-1,j=1 而qK-1,i=0，那么仿上推理，知qK-1,j=1 阐明R 中第K-1 列参与复合qj 而未参与复合qi，故被试对工程K-1 的理想反响为1；而qi 的理想反响为0；假设qK-1,i= qK-1,j 成立,那么往上

24、调查qK-2,i= qK-2,j 能否成立，仿照上面可以证明qi 与qj 的理想反响方式必不相等。留意到qi, qj 均是K 维向量。K 是一个有限数，故以上步骤至多进展K-1 次必可以推知qi 与qj 参与R 为检验蓝图的检验后，其理想反响方式必不相等，即假设qi, qj 取自Qs，且qiqj，那么x(qiR) x(qjR)。以上对断言1进展了证明附录4 对其作了更为简约的数学化证明。下面举例对断言1的证明思想作进一步阐明。例3 属性及其层级，那么可达阵R 和学生阵Qs 。记R 中的列为r1， r2，。rK,，Qs 中的列为q1， q2，。q10，而元素全为零的列记为q0。如8 9 q q

25、，8 9 max | 4 t t tt q q = 。且49 48 q =1 q = 0，知4 r 参与9 q 的复合，现实上9 4 5 q = r r ，而8 3 5 q = r r ，而在理想反响情况下， 8 q 不能正确回答对应的工程4 r ，而9 q 那么可以，即8 8 9 9 x(q | R) = q x(q | R) = q ；这里r3r5表示r3 与r5的列中对应元素的“加法，即除0+0=0外其他情况相加均为1，比如1,0,0,1(0,0,1,1)=(1,0,1,1)。同样可知对于9 q 和10 q ，max | t9 t10 3tt q q = ，且39 3,10 q = 0

26、q =1，知3 r 参与10 q 的复合而未参与q9的复合，现实上q10 = r3 r4 r5；对于4 q 和8 q ， 4 8 max | 5 t t tt q q = ，且54 58 q = 0 ( ) j i P ，被试i 在工程j q 上得0 分，否那么得1 分。也可采用AHM中的模拟方式理想反响方式再加上随机误差获获得分阵8，两种方法原理根本一样。4.5 评价目的为评价检验的诊断准确率，采用两个常用目的，即方式判准率及边沿判准率进展评价。用发生失误slip前的属性方式作为真值，然后计算属性方式分类的正确率来比较方法的好坏。比如，诊断检验共有K 个属性本实验K =8且有N 个被试参与检

27、验，发生slip前被试的属性掌握方式为y y 为K 维向量，而分类结果为 z z 为K 维向量。边沿属性诊断判准率也称为单个属性判准率的计算如下：对K 个属性中第t 个属性，调查N 个被试中对第t 个属性的判准率，比如被试掌握未掌握第t 个属性，今判别其掌握未掌握该属性，那么称为对第t个属性判准了一次，记为= 1 t g ，否那么= 0 t g 。令MMR(t) (Marginal match ratio (t)为第t 个属性诊断判准率, 也称为边沿诊断判准率；MMR 为K 个属性的平均判准率，简称为属性平均判准率。4.6 实验结论经过自编DINA 参数估计程序，由模拟的得分阵和t Q 估

28、计工程参数(s 和g)和属性掌握方式，然后计算方式判准率及边沿判准率目的以及表示工程参数估计的准确程度的两个目的ABS，RMSD在Monte Carlo 模拟中ABS 表示真值与估计值的绝对误差平均，而RMSD是真值与估计值的均方误差，可以得出以下结论：对各种构造下四种检验蓝图产生的检验的结果进展比较，随着属性可达阵的减少，显示方式判准率和边沿判准率均明显下降，即属性掌握方式误判率添加。对于线型构造L 四种检验蓝图产生的检验的结果进展比较，表2 显示后三种检验蓝图的检验的诊断准确率有所下降。这是由于后三种检验蓝图的剩余的工程是从8 个属性独立时产生的r 减去R 对应的列中随机抽取，这些列不反映属性存在的层次关系，即测试t 阵对真实的层次关系不予正确表达，故诊断准确率必然下降。对于收敛型C、发散型D 和无构外型U 构造，四种检验蓝图产生的检验的结果进展比较，由于每种构造的后三种检验蓝图的剩余的工程的从r-R 随机抽取，反映了当属性存在层次关系时，固定检验长度下，仅由r-R 组成的检验，甚至由r 组成的检验，较全由可达阵组成的检验的诊断准确率将有所下降。特别地，对于收敛型C 构造检验蓝图4，由于

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

认知诊断测验编制的原则

文档简介

温馨提示

最新文档

评论

认知诊断测验编制的原则

文档简介

温馨提示

最新文档

评论

相关文档