版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于联结主义的连续记分IRT模型的项目参数和被试能力估计1问题的提出
与经典测验理论相比,项目反应理论(简称IRT)由于具有参数不变性、能进行计算机化自适应测验等优点而受到欢迎[1,2],但是也存在着不少问题,首先是目前比较成熟的、得到广泛应用的IRT软件,如BILOG、MicroCAT等,主要是运用极大似然法或贝叶斯方法进行项目参数和被试力量估量[3],一般都只能处理二值记分的项目,也有少数软件可以处理等级记分的项目,例如MULTILOG,但对于连续记分的项目还缺少估量方法和工具;其次是在运用BILOG、MicroCAT和MULTILOG等软件时往往需要数百人的大样本,而对于小样本则缺少有效的估量方法,因此需要另寻途径来解决这些问题。
2联结主义理论中的级连相关模型
联结主义理论(或称人工神经网络)是近年来得到广泛关注的认知心理学理论[4,5,6],它一方面可以用来模拟人的认知活动,探讨人类的信息加工机制[7],另一方面可以作为一种工具来分析系统的输入和输出之间的关系,特殊是当系统的输入和输出之间难以用显性的数学方程表示时,联结主义模型就可以通过其本身的学习功能,在用一组已知的输入和输出数据对它进行训练以后,就可以在肯定程度上把握了该系统内部的输入和输出之间的关系,即建立了某种模型。假如我们再给这个经过训练的网络模型以新的输入,那么它就可以给出相应的输出值。因此,人们可以利用联结主义模型的这种性质来进行猜测和参数估量等活动[8]。
联结主义模型通常由一个输入层、一个输出层和若干个隐含层组成,每一层中含有若干个结点,一个模型中所含的隐含层数目和各层所含结点数目,是由详细问题的性质和简单程度来确定的。各个结点之间的联结具有肯定的权重,它的大小反映了相邻两个结点之间相互影响的程度,在模型被训练的过程中,各结点间的权重得到了调整。
联结主义模型通常可以分为静态型和动态型两种,静态型模型的拓扑结构是试验者在一开头的时候就设计好的,它的训练过程就是调整各结点之间的权重。动态型模型的拓扑结构是在训练过程中不断变化的,它能够随着训练的进行,自动地加入新的隐含结点,同时也调整各结点间的联结权重,这样就可以更快地削减训练误差。
级连相关模型是动态型联结主义模型中的一种[9],它的计算精度较高,运算速度较快。在开头训练时,该模型只有输入层和输出层,处于最小拓扑结构。随着训练过程的进行,它能够依据需要自动地逐个加入隐含结点。该模型的训练分为输出和输入两个阶段交替进行,首先是输出阶段,在这一阶段,模型对联结隐含结点和输出结点间的各权重进行调整,直到误差不再削减为止;然后转至输入阶段,在这一阶段,模型对于联结输入结点和候选隐含结点间的各个权重进行调整,并从中选出其输出变量和网络的误差变量间相关为最大的候选隐含结点,把它装入网络,这样使得每次装入的新隐含结点都能最大程度地影响误差的变化。然后再转至输出阶段,这个过程不断重复,直到达到预定的训练精度。在本讨论中,由于无法事先确定模型的拓扑结构,以及为了较快地对模型进行训练和达到较好的训练和测试效果,采纳了级连相关模型作为讨论的工具。
3连续记分IRT模型
连续记分IRT模型是二值记分IRT模型的扩展,即它的记分不是根据二值规律的全对或全错的方式来进行,而是依据被试答对项目的程度来进行记分,假如全对该题目就得满分。由于各题目的满分值不一样,有的是3分、5分、6分或更高的分数,为了统一起见,可以对它们进行归一化处理,全部转化为0至1的值。这样就可以和下面的三参数规律斯谛模型中的P(θ)相全都。Samejima[10]、Muller[11]和Mullenbergh[12]等都对连续记分IRT模型进行过讨论,它和二值记分模型一样,可以用正态卵形模型和规律斯谛模型表示。对于常用的三参数规律斯谛模型,它的表示式为:
P(θ)=c[,i]+(1-c[,i])exp[1.7a[,i](θ-b[,i])]/{1+exp[1.7a[,i](θ-bi)]}
在该模型中,式中的ai、bi和ci分别为第i个项目的区分度、难度和猜想参数,θ为某个被试的力量,P(θ)为该被试答对第i个项目的概率,它的值为0至1,这是一个连续的值。
虽然有些学者对于该模型进行了一些讨论,但是他们的讨论还只是涉及该模型的性质、信息函数的定义、参数不变性等方面,在具有有用意义的参数和被试力量估量方面还没有成熟的结果。
为了对连续记分IRT模型的参数估量问题进行讨论,对目前常用的几个IRT软件的算法进行分析[13,14],发觉它们的共同特点都是运用统计的方法来进行参数估量,都无法对小样本状况下的IRT连续记分模型进行参数估量,于是就打算另辟捷径,在本讨论中采纳了和常用统计技术完全不同的联结主义模型(人工神经网络)方法。运用统计方法不能完全解决的问题,并不意味着用其它方法就不能解决,其关键问题是常用的统计参数估量方法大多是建立在线性模型的基础上的,而被试的反应和IRT中参数之间的关系是非线性的,因此在运用统计方法进行参数估量时,要采纳大样本才能得到较好的结果。而人工神经网络的输出和输入之间的关系本身就是非线性的,特殊值得一提的是,本讨论把人工神经网络的激活函数设计为S型的Sigmoid函数,它的表达式为
f(x)=exp(x)/[1+exp(x)]
它和上述的三参数规律斯谛模型的表示式特别相像,认真比较一下,就可以看出它实际上就是IRT模型在c[,i]=0,b[,i]=0,1.7a[,i]=1,θ=x时的特例,因此联结主义模型(人工神经网络)的这种输出和输入之间的非线性结构就可以较好地处理IRT中相类似的数据关系。
4计算机模拟试验的设计和实施
该试验的基本思想是:把一组被试对于一组项目的反应矩阵作为级连相关模型(以下简称为神经网络)的输入,这组被试的力量θ或该组项目的参数a、b和c作为该模型的输出,并且用这些输入和对应的输出值对该神经网络进行训练,经过训练的网络就具备了估量θ,a,b或c的力量。当输入一组新的反应矩阵时,该网络就可以输出所需的被试力量或项目参数估量值。本试验是用计算机模拟方法来考察运用这种方法得到的估量值和真实值之间的误差是否能够达到相当小的程度。
4.1试验步骤的设计
整个试验分以下几个步骤进行:
(1)运用蒙特卡罗方法产生一组匀称分布的被试力量值θ,一组匀称分布的项目参数值(包括项目区分度a、项目难度b和项目猜想参数c)。被试力量值θ的分布范围为[-3,+3],项目区分度a的分布范围为[0,2],项目难度b的分布范围为[-3,+3],项目猜想参数c的分布范围为[0,0.25]。
(2)依据项目反应模型,让各个模拟的被试回答各个模拟的项目,产生反应矩阵。
(3)将该反应矩阵作为神经网络训练模式的输入部分,用所要学习的项目参数或被试力量作为训练模式的输出部分。若要估量被试的力量,就把反应矩阵中的每一行作为一个模式,由于它恰好是一个被试对于一组项目的反应;若要估量项目参数,就把反应矩阵中的每一列作为一个模式,由于它反映了每一个项目被解答的状况。
(4)用上述训练模式对一组神经网络进行训练,直至达到预定的精确度为止。在本讨论中为了统计上的便利,对30个神经网络进行了训练,预定的精确度为网络的目标值和实际输出值之间的误差小于0.001。
(5)用经过训练的神经网络来估量被试力量和项目参数。在本讨论中需要估量的被试力量和项目参数的真实值实际上是用蒙特卡罗方法产生的,因此可以计算出估量值(实际输出值)和真实值的误差,称为测试误差,并用下式表示:
附图
式中,T[,p.o]为每个测试模式的每个输出结点的目标值。N[,p.o]为每个测试模式的每个输出结点的实际输出值。p是测试模式的数目,o是输出结点的数目。依据测试误差E的大小,可以看出经过训练的神经网络是否真正可以对项目参数和被试力量进行很好的估量。
4.2预备试验
由于在正式对神经网络进行训练以前,对于要用什么样的模式来训练没有任何先验的学问,为此先进行预备试验。和正式试验的步骤一样,首先运用蒙特卡罗方法产生25个被试对15个项目的反应矩阵,用这一矩阵和相应的被试力量或项目参数组成4组训练模式,分别用以估量θ,a,b和c。在对被试力量进行估量时,将矩阵的行作为一组神经网络训练模式的输入部分,由于矩阵的一行数据就代表了一个被试对全部项目的反应;相应被试的θ值作为训练模式的输出部分,由于它代表了被试的力量值。在对项目参数进行估量时,将矩阵的列作为一组神经网络训练模式的输入部分,由于矩阵的一列数据就代表了全部被试对一个项目的反应;相应项目的a,b或c值作为训练模式的输出部分,由于它代表了项目的参数值。就用这些训练模式分别对4组神经网络进行训练,这4组神经网络分别对应于被试力量和项目的三个参数,每组有30个网络。然后,再用蒙特卡罗方法产生另外25个被试对另外15个项目的反应矩阵,并用已经训练过的网络对这个反应矩阵估量θ,a,b和c,记录下测试误差。其结果表明,虽然可以进行被试力量和项目参数的估量,但误差较大,无法达到实际应用的精确度。依据神经网络训练的一般规律,估量消失这一状况的缘由有两条,一是训练模式太少,二是训练模式和测试模式之间没有任何联系,即没有用“锚题”或“锚人”把它们联系起来,改进的方法可以是增加训练模式,或运用肯定的“锚题”或“锚人”方法,在本讨论中先用“锚题”的方法进行试验(详细方法在进行正式试验时详述),试验的效果很好,然后进行下面的正式试验。
4.3正式试验
(1)步骤1:产生训练矩阵和测试矩阵
运用蒙特卡罗方法产生25个被试(称为第一组被试)对45个项目(称为第一组项目)的反应矩阵(称为第一矩阵),这一矩阵在下面的试验中将作为测试矩阵;从该45个项目中随机取出15个项目(称为其次组项目),再用蒙特卡罗方法产生另外25个被试(称为其次组被试),令它们和上述随机取出的其次组项目起反应,产生另一个反应矩阵(称为其次矩阵),用它作为训练模式的一部分,由此可见,训练矩阵和测试矩阵之间有15个项目作为“锚题”,如下面图1所示。
附图
图1被试、项目和反应矩阵
图1中的第三组项目和第三矩阵将在下面作解释。
(2)步骤2:建立力量训练模式
用“其次矩阵”中的每一行作为一个模式的输入,其相应的25个其次组被试的力量值作为输出,组成力量训练模式,对一组神经网络(共30个,称为第一组神经网络)进行训练。
(3)步骤3:建立力量测试模式并进行测试
将“第一矩阵”中的每一行作为一个模式的输入,相应的第一组被试的25个力量值作为输出,组成力量测试模式,用上述经过训练的第一组神经网络对其进行测试。这时,实际上是神经网络对第一组被试的力量值进行估量。然后,将估量值和真实值进行比较,记录下测试误差,如表1左边第1列所示,要留意的是,表中记录的是30个网络的测试误差实际值,依据公式可见,它是全部输出结点和全部测试模式的误差总和。由于本讨论中只有一个输出结点,有25个测试模式(由于有25个被试),因此要将表中的测验误差实际值除以25,得到对单个测试模式的测试误差,然后,再计算其平均数M和标准差SD,结果如表2所示,可以看出测试误差是比较小的。由此可见,当测试模式中有部分项目(本例中为15个项目)和训练模式相同时,经过训练的神经网络可以对被试的θ进行很好的估量。应当指出的是,测试模式和训练模式中没有被试是重复相同的,这说明经过训练的神经网络的确可以对新的被试进行力量估量。
表1测试误差
θabc
0.1292.2392.9820.065
0.0841.8432.9760.056
0.2432.0162.7980.069
0.3241.8042.1330.058
0.1262.1592.5560.027
0.2012.2242.3990.067
0.2882.2462.6170.043
0.1141.7412.8340.065
0.1891.9372.3470.076
0.2492.2952.7450.092
0.2642.3192.4330.065
0.3212.3822.0300.044
0.1052.1362.2310.093
0.1322.0612.2440.023
0.1532.019
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村赠送土地合同范例
- 房屋土地出卖合同范例
- 天津渤海职业技术学院《新闻与传播学》2023-2024学年第一学期期末试卷
- 服装门店入股合同范例
- 学员注册合同范例
- 形象代言人合同范例范例
- 继电保护中级习题库及参考答案
- 展会期间合同范例
- 2025年石家庄货运从业资格证考试题目和答案
- 小麦市场购销合同范例
- 【课件】供应商现场与质量管理
- 2024年立式碾米机项目可行性研究报告
- 狼疮性脑病的护理
- 统编版语文九年级上册(2024)(含答案)
- 中医医术确有专长人员医师资格考核申报资料表
- 智慧医学语言基础2024a学习通超星期末考试答案章节答案2024年
- 成都锦城学院《算法分析与设计》2022-2023学年期末试卷
- 可行性报告编制服务方案
- 牛顿法在图像处理中的应用
- 地理信息系统试题
- 英语KET官方样题Test1- Test 2
评论
0/150
提交评论