新一代测量基本理论-认知诊断_第1页
新一代测量基本理论-认知诊断_第2页
新一代测量基本理论-认知诊断_第3页
新一代测量基本理论-认知诊断_第4页
新一代测量基本理论-认知诊断_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、新一代测量基本理论认知诊断认知诊断理论被视为新一代测验理论的核心,是认知心理学与现代测量学相结合的产物。对认知诊断的研究已成为当前国外心理学研究的一个重要热点,并引起国内学者的广泛关注。内容提要认知诊断概述传统测验及其理论的局限性对认知诊断的基本概念一种基于 Q 矩阵理论朴素的认知诊断方法测验蓝图的设计认知诊断开发步骤对认知诊断的理解认知诊断应用发展新趋势 心理和教育测量学是一门从心理学和教育学角度对心理特质的实质和结构做出深入的分析与研究,同时运用数学、统计学等手段,对测量的有关问题,做出数量化分析的学科;作为独立学科分支的心理与教育测量学已经经历了一个多世纪的发展。 (1993) 指出,到

2、目前为止,整个统计测验理论的发展可以分为两大阶段:标准测验理论(Standard test theory)阶段和新一代测验理论(Test theory for a new generation of tests)阶段。传统测验及其理论的局限性 标准测验理论将所测的心理特质视为一个心理学意义并不明晰的“统计结构”,目的在于从宏观的层次给个体一个整体的评估,在单维的、线性的连续的度量系统上指定一个表示位置的值。传统测验及其理论的局限性标准测验理论包括: 经典测量理论(Classical Test Theory)概化理论(Generalizability Theory)项目反应理论(Item Res

3、ponse Theory)传统测验及其理论的局限性与标准测验理论是相对应的是传统测验 传统的考试实质上都是根据精心筛选的测验题目, 将被试按顺序排列在某种潜在变量的连续体上。在经典测量理论中, 这种潜在变量是真分数, 而在项目反应理论中, 潜在的变量是指单维的潜在特质。传统测验及其理论的局限性经典测量理论(又称真分数理论)基本假设:测验观察分数等于真分数与误差分数之和即 X=T+R。在此基础上,经典测量理论提出了测验信度和效度、项目难度、区分度、猜测度等概念,并依此来指导测验的编制。经典测量理论在测验发展中有特殊的地位,它是历史上第一个测验理论,也是测验的最一般、最基本的理论,应用极为广泛。传

4、统测验及其理论的局限性但是,经典测量理论有着理论框架的先天缺陷性,比如测验参数的估计依赖于样本;测验信度估计不精确等。概化理论和项目反应理论则从不同角度克服了经典测量理论的局限性,逐渐在心理与教育测量领域中与经典测量理论形成了三足鼎立的局势。 传统测验及其理论的局限性概化理论:其主要是针对经典测量理论信度估计不精确的问题而发展的。它不再象经典测量理论那样将测量误差单纯看成混沌一团的东西,而是利用方差分析方法具体分析实际的测验情景关系,根据不同情景关系确定测量目标与侧面,针对性地考察多种信度与效度。传统测验及其理论的局限性项目反应理论:是在克服经典测量理论项目参数依赖于样本等局限性基础上发展的。

5、它认为被试在项目上的反应决定于被试的潜在能力与项目难度间的距离,从而很好地将能力参数和难度参数统一到了一个量尺上来。项目反应理论的另一大优点是参数的不变性,从而推动了该理论的应用范围,为实现计算机化自适应考试(CAT)提供了可能。此外,项目反应理论还提出了测验信息函数的概念,利用测验信息函数来估算测验对不同能力水平被试所产生的误差。传统测验及其理论的局限性基于CTT的测验采用总分指标评价能力,总分只能用来对个体在总体中的相对位置进行排序,不能指出被试具体掌握了哪些内容,更无法诊断其题目作答错误的原因。基于IRT的教育测验采用能力指标评价被试,虽考虑了被试在测验项目上的作答反应与属性间的关系,但

6、能力指标只是属性的一个统计含义上的概念,并没有真正揭示其内部心理含义传统测验及其理论的局限性 总的来说,无论是经典测量理论还是项目反应理论及概化理论,存在的共同缺陷是,把所测心理特质当作一种纯统计结构,忽视对考生作答过程的考察,计量时只注重作答结果,忽视心理特质的实质内容,对于“测什么”和“为什么”的问题却不能够很好地解决,也就无法了解个体解答测验的心理加工成分、策略、所需知识结构等内部心理机制,不能确定个体的强点和弱点。认知诊断的基本概念 因此,传统的测量理论显然不能满足测验发展的需要,急需一个能够解决“测什么”和“为什么”的理论。与此同时,实质心理学特别是认知心理学的兴起,给人们提供了理解

7、“统计结构”这一“黑箱”的思路及相关的丰富理论成果,这使得测量学专家看到了揭开“统计结构”内在心理学意义的希望。因此,以认知诊断为核心内容的新一代测量理论也就应运而生了,它是测验发展的需要和认知心理学理论成果融入到测量学的结果。认知诊断的基本概念认知诊断;属性(补偿,非补偿);层级关系;认知模型;认知诊断模型(分类方法)一系列Q矩阵,计算和含义; Q矩阵理论;期望反应,期望反应模式(理想反应,理想反应模式/潜在反应,潜在反应模式);知识状态;18认知诊断的基本概念认知诊断(评估):认知诊断评估(CDA)通过测验获得被试在测验上观察反应而推知该被试不可观察的知识状态(knowledge stat

8、e)。 Leighton 和 Gierl(2007)认为(教育)认知诊断的作用是测量/评估个体特定的知识结构(knowledge structure)和加工技能(processing skills)。认知诊断的基本概念Tatsuoka(2009,p.6)对属性和知识状态的定义: Knowledge and cognitive processing skills will be called attributes, binary attribute patterns that express mastery or nonmastery of attributes will be referred

9、 to as knowledge states or latent knowledge states. (Tatsuoka,2009,p.7)属性的例子(天津考试院,2009,小学真分数加减运算,一个实际开发的认知诊断测验)分数的运算,认知属性,A1:基础知识(分数单位、分数性质、加减混合运算顺序);A2:同分母分数加减;A3:寻找最小公倍数;A4:寻找最大公因子;A5:异分母分数加减;A6:化成最简分数;A7:分数加减混合运算。图1 小学数学五年级分数简单加减法认知属性及层级关系21基本概念(认知诊断和模式判别)Tatsuoka(2009) 认为她的认知诊断方法-规则空间模型(RSM)和统计

10、模式识别、分类方法(statistical pattern recognition and classification methodology)相似,包含特征提取和统计模式分类两步;特征提取对应Q矩阵理论,它是确定性的(deterministic).22基本概念(属性层级)五种基本属性层级结构(线型、收敛、发散、无结构、独立),其他层级结构可以由它们组合出来特别注意收敛型23 属性及其层级的确定(1)属性和属性层级比较难以准确界定属性的确定的标准方法文献调查专家讨论被试的出声思维24属性及其层级的确定(2)层级关系的确定:不是操作步骤的顺序,也不是解题的过程的描述,而是如Leighton e

11、t al.(2000)所说的层级(hierarchy)指的是问题解决中所需要的属性之间的逻辑的或者心理的顺序(logical and/or psychological ordering )25Q矩阵的计算计算和含义;属性及其层级-邻接矩阵A-可达矩阵R-潜在Q矩阵Qp-学生Q矩阵Qs计算 (1)由A+I计算R的两种方法(2)由R计算Qp的三种方法缩减方法;扩张算法;渐进式扩张算法(3)由Qp到Qs26基本概念(一系列Q矩阵)认知模型(可以用图形表达,还可以用某些Q矩阵表达)一系列Q矩阵,Q矩阵是属性和项目/被试的关联矩阵(incidence matrix),原始意义上是0-1矩阵(布尔矩阵),

12、后面有人扩展为非负整数矩阵。 27基本概念(一系列Q矩阵)计算R的方法Tatsuoka介绍的方法:B=A+I计算R的方法 如果B的n次幂(逻辑乘法)等于B的n+1次幂,则B的n次幂就是R。数学原理是R是自反的传递闭包的关系矩阵,满足R* R=RWarshall计算传递闭包的方法(省略)29基本概念(一系列Q矩阵)基本概念(一系列Q矩阵)由R计算Qp的三种方法缩减方法;扩张算法;渐进式扩张算法这些新算法揭示了认知诊断测验项目之间的关系(有一个代表性很强的项目类)。这些算法的共同特点是,基于可达矩阵。这也表示可达矩阵的特殊地位。32扩张算法331234j=1不产生新列j=2j=3j=4不产生新列基

13、本概念(一系列Q矩阵)步骤4:通过Qr矩阵可得到被试期望反应模式 一种基于 Q 矩阵理论朴素的认知诊断方法海明距离判别法罗照盛 李喻骏等(2015) 心理学报为什么研究Qs,QpQs的列在“交”、“并”运算下封闭;任何两列均有上、下确界,形成一个代数系统-格(lattice)。这对于指导计算机化自适应诊断测验的“在线属性辅助标定”有作用;Qs的列表示“人的”知识状态;Qp的列表示“题的”属性向量,而前者可以由后者导出,可见两者的列可以相互比较37为什么重视ERP某些认知诊断模型的分类原理,ERP是判别分类的类中心(RSM,AHM,DINA,GDD,GDD-P)ORP-KS(通过认知诊断模型)K

14、S-ERP(通过Qs,Qt,特别是Qt)如果可以设计Qt,使得KS-ERP,那么ORP-ERP-KS重视ERP,Tatsuoka给出Q矩阵理论39Q矩阵理论Tatsuoka 的Q矩阵理论Taksuoka(1991,1995,2009)建立Q 矩阵理论,试图用Q 矩阵描述项目与属性的关联,并构建知识状态(KS)与理想反应模式(IRP)的(等价)对应,而通过分类方法使得ORP与IRP对应,最终获得可观察的ORP的解释,即获得隐藏在ORP内的KS。如上所述,我们认为不同的Q矩阵应该给予不同的记号以示区分,如R,Qp, Qs ,QtQ矩阵理论的主要内容应该是研究如何设计好的测验蓝图(Qt)。 40测验

15、蓝图的设计为什么要设计测验蓝图?目的:使知识状态(KS)和期望反应模式(ERP)一一对应:表面上认知诊断模型f:ORP-KS,实际上是f:ORPERP,KSERP(通过Qt:测验蓝图), 如果还能够建立ERPKS,则完成了ORP到KS的映射41Q矩阵理论(续)只有对被试知识状态进行准确分类,才能针对性地进行补救。这样就产生了一个问题,如何编制好的认知诊断测验,它能区分开所有知识状态,减少知识状态误判。也就是要寻找一个“好的”测验规范,即测验蓝图(test specification/test blueprint)0-1评分非补偿条件下,知识状态和期望反应模式一一对应的充分必要条件定理 假设所讨

16、论的认知属性对认知任务所起的作用是非补偿、连接的,并且采用0-1评分方式,则Qt中包含可达阵R是使知识状态与期望反应模式建立起一一对应关系的必要充分条件。42为什么研究测验蓝图的设计Leighton er al.(2004,2007)主张用Qp作为测验蓝图,至少会遇到如下困难:当属性数目K比较大时,对于独立型、无结构型层级结构,Qp的列数目太大,以至于无法安排测验如果测验蓝图设计欠妥,认知诊断判准率不可能高43实例:带分数减法认知诊断测验(设计蓝图不能代表理论认知模型)据Sinharay和Almond (2007)()的叙述,知该测验共测5种技能 (skills),且技能3是技能4的先决属性,

17、而技能1、2、3、5是独立的属性,属性层级关系如图1所示。从而被试的所有可能的知识状态为24类。但是该文中表1给出的Qt为515的矩阵。将相同的列看成同一类项目,则Qt如右所示。44、几种常见的认知诊断模型CDMRSM,AHM,GDD,GDD-P是基于IRT模型的项目反应函数的认知诊断模型:DINA,DINO不包括IRT的项目反应函数并且RSM,AHM,GDD,GDD-P,DINA是非补偿的认知诊断模型;而DINO是补偿的认知诊断模型46认知诊断模型选择原则1)简单性原则,但能提取尽量多的诊断信息;2)可用性原则,模型可识别;3)认知理论原则,是选择补偿模型还是非补偿模型;4)竟争性原则:选择

18、诊断尽量准确的模型5)可接受性原则,解释性强认知诊断测验开发的步骤(1)确定评估目标;根据评估目标,确定解决相关问题所涉及到的认知属性(知识结构与认知技能)以及这些属性之间的关系;挑选认知诊断模型(比如属性的多寡、补偿还是非补偿0-1评分还是多级评分);根据认知属性及属性间的层级关系,建立一系列Q矩阵;特别是测验蓝图,即测验Q矩阵Qt;计算期望反应模式;48认知诊断测验开发的步骤(2)5.根据Qt,编写评估任务(如,测验项目);实施认知诊断测验;6.模型校准(calibration)和知识状态估计,并对结果进行评价;7.考察测验Q矩阵的质量(属性标示是否合理、模型参数是否合理、被试反应的层级相

19、合性指标是否合理,等等);如果质量不佳,返回到2;8.建立向考生、教师和其他相关人士报告评估结果(详尽可解释的系统;9.补救,即干预。(参考,他只给出六步)49值得注意的方面认知模型的开发,认知诊断的实际应用项目属性在线标定,理论、方法和实际应用(题库的低成本、高效率扩充,解决缺乏等值转换式下的测验等值问题)测验蓝图的设计研究多级评分的Q矩阵理论研究;有补偿功能条件下的Q矩阵理论的研究)50值得注意的方面(续)5认知诊断模型的开发(开发的新模型性质的研究,Monte Carlo模拟方法);多策略认知诊断方法研究;干扰项诊断信息提取6计算机化自适应诊断测验(CD-CAT)7.Q矩阵的修正的方法5

20、1值得注意的方面(续2)8.HCI指标的开发和完善9.测验方式研究(大型测验:CD-CAT的选题策略研究;小型测验:课堂评估研究(小样本、小题量,纸笔测验)10.对已有测验的翻新(retrofitting)研究(评估诊断的“效度”),这是不得已而为之的办法,但应说明对于认知诊断,到底能够取多大的作用,谨防夸大作用52对认知诊断的理解认知心理学与心理测量学方法是实现认知诊断的两大基础(Embretson S E 1985)认知诊断是一个完整的体系()评估目标的确定()认知模型的描述()编制测验项目()选择能够融合认知变量的心理测量模型(变量间的相互作用补偿模型与非补偿模型连续变量和离散变量模型)

21、()收集数据资料,并选择参数估计的方法(需考虑参数是否可以识别;是否收敛等)()形成评估报告系统(信度和效度)对认知诊断的理解认知诊断作为新一代测验理论的重要部分,有着重大的意义。首先,认知诊断能实现测验的最重要的功能:促进发展。现代认知心理学的测量观的基本观点是:运用认知分析的方法描述心理活动的内在机制,据此设计各种形式的测验以探测被试心理活动的机制与相应机制之间是否一致或存在缺陷,以便提出补救措施,促进发展。认知诊断是实现测量与发展之间的循环促进作用的关键环节。对认知诊断的理解其次,认知诊断有利于提高测验的内容效度。目前,人们通常运用经典测验理论或项目反应理论编制教育和心理测验,这二者是依

22、据项目的统计特性来指导测验编制,对内在的知识结构重视不够,难以对测验的内容效度进行分析。认知诊断依据认知心理学的研究成果编制测验,测验的内容效度能得到保证。认知诊断的应用认知诊断在心理学中的应用其一是把认知诊断作为心理学的一种研究方法,来探究心理的本质,形成某个心理学理论其二是在认知心理学实践中的应用,依据认知心理学的丰富理论成果,选择能够合理刻画认知变量的心理测量模型,从而达到对个体更为微观细致的描述和评估其三是在心理测验中的应用前面提到了传统测验所测的是一个模糊的“统计结构”,对所测内容的意义并不明确,势必会造成测验效度研究的困难在新一代测验理论指导下的测验则更强调在认知分析基础上,采用合

23、适的测量模型来指导测验的编制认知诊断的应用认知诊断的应用认知诊断在教育领域的应用研究此类研究的目的主要是为了探查学生的知识结构和解题时的内部心理加工机制,从而了解学生的强点和弱点,为下一步有针对性的辅导提供指导例如:美国大学入学考试数学测验,对数学知识结构进行认知分析的研究,采用规则空间模型的方法,对学生出现的错误类型进行判别,找出学生犯错误的类型,从而提出有针对性的补救计划 美国通过法案“No Child Left Behind Act of 2001”,规定美国所有实施的测验必须提供诊断信息给家长、老师和学生。学者们认为,在教育领域,只考试不诊断或者说只诊断而不作补救教学都是不负责任的表现

24、。新进展与发展趋势Race to the top “向最高点进军”Web-based assessment 网考CS vs. BS ?局域网或英特网?new test form 新题形Cognitive diagnosis 认知诊断MultiDiemensionalIRT多元IRTVertical linking 垂直等职Value added molding 增值模型Automated Reporting自动生成报告报表 59发展趋势无纸笔化考试各州将统一使用“共同题”CAT在医学测试中大规模运用认知诊断中的Q-矩阵自动估计网考使考点回归校园反应时间的利用(RESPONSE TIME)Cha

25、llenges in NCLB TestingMany items are too difficult to students70% math items may be too difficultThe influence of this kind of test taking experience on low-achieving students is not well-understood (e.g., Roderick & Engle, 2001, Ryan & Ryan, 2005; Ryan, Ryan, Arbuthnot, & Samuels, 2007). Test secu

26、rity of NCLB The # of security violations in P&P based NCLB testing in on the rise. Documented cases of such incidents have been uncovered in numerous states including New York, Texas, California, Illinois, and Massachusetts. (Jacob & Levitt, 2003, and Texas Education Agency, 2007).6162CAT Has Glowi

27、ng Future in the K-12 Context. Why not use benchmark testing?Adaptive Testing can do better. Quellmalz & Pellegrino (2009): more than 27 states currently have operational or pilot versions of online tests, including Oregon, North Carolina, Utah, Idaho, Kansas, Wyoming, and Maryland. The landscape of

28、 educational assessment is changing rapidly with the growth of computer-administered tests. 63HOW TO HELP SCHOOLS TO OPERATE CD-CAT?Why CD-CAT?64New Technologies- Schools can use existing PCsClient/Server Architecture (CS)CAT software has to be installed on each client computer ( large workload)only

29、 applicable to Local Area Network (LAN)Browser/Server Architecture (BS)database is still on the servernearly all the tasks concerning development, maintenance and upgrade, are carried out on the server. based on the Wide Area Network (WAN)65Hardware and Network Design666768A SUCCESSFUL EXAMPLE IN CHINAA CD-CAT system and its applicability to improve teaching and learning 69A Large Scale CD-CAT Test in 2011A B/S based CAT system was tested with 2000 PCs in Dalian, China!About 30,000 students participated field testsA large scale validity study was also

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论