高中信息技术教学论文 基于联结主义的连续记分IRT模型的项目参数和被试能力估计_第1页
高中信息技术教学论文 基于联结主义的连续记分IRT模型的项目参数和被试能力估计_第2页
高中信息技术教学论文 基于联结主义的连续记分IRT模型的项目参数和被试能力估计_第3页
高中信息技术教学论文 基于联结主义的连续记分IRT模型的项目参数和被试能力估计_第4页
高中信息技术教学论文 基于联结主义的连续记分IRT模型的项目参数和被试能力估计_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于联结主义的连续记分IRT模型的项目参数和被试能力估计1问题的提出与经典测验理论相比,项目反应理论(简称IRT)由于具有参数不变性、能进行计算机化自适应测验等优点而受到欢迎1,2,但是也存在着不少问题,首先是目前比较成熟的、得到广泛应用的IRT软件,如BILOG、MicroCAT等,主要是运用极大似然法或贝叶斯方法进行项目参数和被试能力估计3,一般都只能处理二值记分的项目,也有少数软件可以处理等级记分的项目,例如MULTILOG,但对于连续记分的项目还缺少估计方法和工具;其次是在运用BILOG、MicroCAT和MULTILOG等软件时往往需要数百人的大样本,而对于小样本则缺少有效的估计方法

2、,因此需要另寻途径来解决这些问题。2联结主义理论中的级连相关模型联结主义理论(或称人工神经网络)是近年来得到广泛关注的认知心理学理论4,5,6,它一方面可以用来模拟人的认知活动,探讨人类的信息加工机制7,另一方面可以作为一种工具来分析系统的输入和输出之间的关系,特别是当系统的输入和输出之间难以用显性的数学方程表示时,联结主义模型就可以通过其本身的学习功能,在用一组已知的输入和输出数据对它进行训练以后,就可以在一定程度上掌握了该系统内部的输入和输出之间的关系,即建立了某种模型。如果我们再给这个经过训练的网络模型以新的输入,那么它就可以给出相应的输出值。因此,人们可以利用联结主义模型的这种性质来进

3、行预测和参数估计等活动8。联结主义模型通常由一个输入层、一个输出层和若干个隐含层组成,每一层中含有若干个结点,一个模型中所含的隐含层数目和各层所含结点数目,是由具体问题的性质和复杂程度来确定的。各个结点之间的联结具有一定的权重,它的大小反映了相邻两个结点之间相互影响的程度,在模型被训练的过程中,各结点间的权重得到了调整。联结主义模型通常可以分为静态型和动态型两种,静态型模型的拓扑结构是实验者在一开始的时候就设计好的,它的训练过程就是调节各结点之间的权重。动态型模型的拓扑结构是在训练过程中不断变化的,它能够随着训练的进行,自动地加入新的隐含结点,同时也调整各结点间的联结权重,这样就可以更快地减少

4、训练误差。级连相关模型是动态型联结主义模型中的一种9,它的计算精度较高,运算速度较快。在开始训练时,该模型只有输入层和输出层,处于最小拓扑结构。随着训练过程的进行,它能够根据需要自动地逐个加入隐含结点。该模型的训练分为输出和输入两个阶段交替进行,首先是输出阶段,在这一阶段,模型对联结隐含结点和输出结点间的各权重进行调整,直到误差不再减少为止;然后转至输入阶段,在这一阶段,模型对于联结输入结点和候选隐含结点间的各个权重进行调整,并从中选出其输出变量和网络的误差变量间相关为最大的候选隐含结点,把它装入网络,这样使得每次装入的新隐含结点都能最大程度地影响误差的变化。然后再转至输出阶段,这个过程不断重

5、复,直到达到预定的训练精度。在本研究中,由于无法事先确定模型的拓扑结构,以及为了较快地对模型进行训练和达到较好的训练和测试效果,采用了级连相关模型作为研究的工具。3连续记分IRT模型连续记分IRT模型是二值记分IRT模型的扩展,即它的记分不是按照二值逻辑的全对或全错的方式来进行,而是根据被试答对项目的程度来进行记分,如果全对该题目就得满分。由于各题目的满分值不一样,有的是3分、5分、6分或更高的分数,为了统一起见,可以对它们进行归一化处理,全部转化为0至1的值。这样就可以和下面的三参数逻辑斯谛模型中的P()相一致。Samejima10、Muller11和Mullenbergh12等都对连续记分

6、IRT模型进行过研究,它和二值记分模型一样,可以用正态卵形模型和逻辑斯谛模型表示。对于常用的三参数逻辑斯谛模型,它的表示式为:P()=c,i+(1-c,i)exp1.7a,i(-b,i)/1+exp1.7a,i(-bi)在该模型中,式中的ai、bi和ci分别为第i个项目的区分度、难度和猜测参数,为某个被试的能力,P()为该被试答对第i个项目的概率,它的值为0至1,这是一个连续的值。虽然有些学者对于该模型进行了一些研究,但是他们的研究还只是涉及该模型的性质、信息函数的定义、参数不变性等方面,在具有实用意义的参数和被试能力估计方面还没有成熟的结果。为了对连续记分IRT模型的参数估计问题进行研究,作

7、者对目前常用的几个IRT软件的算法进行分析13,14,发现它们的共同特点都是运用统计的方法来进行参数估计,都无法对小样本情况下的IRT连续记分模型进行参数估计,于是作者就决定另辟捷径,在本研究中采用了和常用统计技术完全不同的联结主义模型(人工神经网络)方法。运用统计方法不能完全解决的问题,并不意味着用其它方法就不能解决,其关键问题是常用的统计参数估计方法大多是建立在线性模型的基础上的,而被试的反应和IRT中参数之间的关系是非线性的,因此在运用统计方法进行参数估计时,要采用大样本才能得到较好的结果。而人工神经网络的输出和输入之间的关系本身就是非线性的,特别值得一提的是,本研究把人工神经网络的激活

8、函数设计为S型的Sigmoid函数,它的表达式为f(x)=exp(x)/1+exp(x)它和上述的三参数逻辑斯谛模型的表示式非常相似,仔细比较一下,就可以看出它实际上就是IRT模型在c,i=0,b,i=0,1.7a,i=1,=x时的特例,因此联结主义模型(人工神经网络)的这种输出和输入之间的非线性结构就可以较好地处理IRT中相类似的数据关系。4计算机模拟实验的设计和实施该实验的基本思想是:把一组被试对于一组项目的反应矩阵作为级连相关模型(以下简称为神经网络)的输入,这组被试的能力或该组项目的参数a、b和c作为该模型的输出,并且用这些输入和对应的输出值对该神经网络进行训练,经过训练的网络就具备了

9、估计,a,b或c的能力。当输入一组新的反应矩阵时,该网络就可以输出所需的被试能力或项目参数估计值。本实验是用计算机模拟方法来考察运用这种方法得到的估计值和真实值之间的误差是否能够达到相当小的程度。4.1实验步骤的设计整个实验分以下几个步骤进行:(1)运用蒙特卡罗方法产生一组均匀分布的被试能力值,一组均匀分布的项目参数值(包括项目区分度a、项目难度b和项目猜测参数c)。被试能力值的分布范围为-3,+3,项目区分度a的分布范围为0,2,项目难度b的分布范围为-3,+3,项目猜测参数c的分布范围为0,0.25。(2)根据项目反应模型,让各个模拟的被试回答各个模拟的项目,产生反应矩阵。(3)将该反应矩

10、阵作为神经网络训练模式的输入部分,用所要学习的项目参数或被试能力作为训练模式的输出部分。若要估计被试的能力,就把反应矩阵中的每一行作为一个模式,因为它恰好是一个被试对于一组项目的反应;若要估计项目参数,就把反应矩阵中的每一列作为一个模式,因为它反映了每一个项目被解答的情况。(4)用上述训练模式对一组神经网络进行训练,直至达到预定的精确度为止。在本研究中为了统计上的方便,对30个神经网络进行了训练,预定的精确度为网络的目标值和实际输出值之间的误差小于0.001。(5)用经过训练的神经网络来估计被试能力和项目参数。在本研究中需要估计的被试能力和项目参数的真实值实际上是用蒙特卡罗方法产生的,因此可以

11、计算出估计值(实际输出值)和真实值的误差,称为测试误差,并用下式表示:附图式中,T,p.o为每个测试模式的每个输出结点的目标值。N,p.o为每个测试模式的每个输出结点的实际输出值。p是测试模式的数目,o是输出结点的数目。根据测试误差E的大小,可以看出经过训练的神经网络是否真正可以对项目参数和被试能力进行很好的估计。4.2预备实验由于在正式对神经网络进行训练以前,对于要用什么样的模式来训练没有任何先验的知识,为此先进行预备实验。和正式实验的步骤一样,首先运用蒙特卡罗方法产生25个被试对15个项目的反应矩阵,用这一矩阵和相应的被试能力或项目参数组成4组训练模式,分别用以估计,a,b和c。在对被试能

12、力进行估计时,将矩阵的行作为一组神经网络训练模式的输入部分,因为矩阵的一行数据就代表了一个被试对所有项目的反应;相应被试的值作为训练模式的输出部分,因为它代表了被试的能力值。在对项目参数进行估计时,将矩阵的列作为一组神经网络训练模式的输入部分,因为矩阵的一列数据就代表了所有被试对一个项目的反应;相应项目的a,b或c值作为训练模式的输出部分,因为它代表了项目的参数值。就用这些训练模式分别对4组神经网络进行训练,这4组神经网络分别对应于被试能力和项目的三个参数,每组有30个网络。然后,再用蒙特卡罗方法产生另外25个被试对另外15个项目的反应矩阵,并用已经训练过的网络对这个反应矩阵估计,a,b和c,

13、记录下测试误差。其结果表明,虽然可以进行被试能力和项目参数的估计,但误差较大,无法达到实际应用的精确度。根据神经网络训练的一般规律,估计出现这一情况的原因有两条,一是训练模式太少,二是训练模式和测试模式之间没有任何联系,即没有用“锚题”或“锚人”把它们联系起来,改进的方法可以是增加训练模式,或运用一定的“锚题”或“锚人”方法,在本研究中先用“锚题”的方法进行试验(具体方法在进行正式实验时详述),试验的效果很好,然后进行下面的正式实验。4.3正式实验(1)步骤1:产生训练矩阵和测试矩阵运用蒙特卡罗方法产生25个被试(称为第一组被试)对45个项目(称为第一组项目)的反应矩阵(称为第一矩阵),这一矩

14、阵在下面的实验中将作为测试矩阵;从该45个项目中随机取出15个项目(称为第二组项目),再用蒙特卡罗方法产生另外25个被试(称为第二组被试),令它们和上述随机取出的第二组项目起反应,产生另一个反应矩阵(称为第二矩阵),用它作为训练模式的一部分,由此可见,训练矩阵和测试矩阵之间有15个项目作为“锚题”,如下面图1所示。附图图1被试、项目和反应矩阵图1中的第三组项目和第三矩阵将在下面作解释。(2)步骤2:建立能力训练模式用“第二矩阵”中的每一行作为一个模式的输入,其相应的25个第二组被试的能力值作为输出,组成能力训练模式,对一组神经网络(共30个,称为第一组神经网络)进行训练。(3)步骤3:建立能力

15、测试模式并进行测试将“第一矩阵”中的每一行作为一个模式的输入,相应的第一组被试的25个能力值作为输出,组成能力测试模式,用上述经过训练的第一组神经网络对其进行测试。这时,实际上是神经网络对第一组被试的能力值进行估计。然后,将估计值和真实值进行比较,记录下测试误差,如表1左边第1列所示,要注意的是,表中记录的是30个网络的测试误差实际值,根据公式可见,它是所有输出结点和所有测试模式的误差总和。由于本研究中只有一个输出结点,有25个测试模式(因为有25个被试),因此要将表中的测验误差实际值除以25,得到对单个测试模式的测试误差,然后,再计算其平均数M和标准差SD,结果如表2所示,可以看出测试误差是

16、比较小的。由此可见,当测试模式中有部分项目(本例中为15个项目)和训练模式相同时,经过训练的神经网络可以对被试的进行很好的估计。应该指出的是,测试模式和训练模式中没有被试是重复相同的,这说明经过训练的神经网络确实可以对新的被试进行能力估计。表1测试误差  a  bc0.129  2.239  2.9820.0650.084  1.843  2.9760.0560.243  2.016  2.7980.0690.324 

17、0;1.804  2.1330.0580.126  2.159  2.5560.0270.201  2.224  2.3990.0670.288  2.246  2.6170.0430.114  1.741  2.8340.0650.189  1.937  2.3470.0760.249  2.295  2.7450.0920.264&#

18、160; 2.319  2.4330.0650.321  2.382  2.0300.0440.105  2.136  2.2310.0930.132  2.061  2.2440.0230.153  2.019  2.8680.0680.279  2.270  2.0420.0440.204  2.196  1.8500.09

19、90.102  1.950  2.5970.0590.105  1.732  1.7090.0890.282  1.764  2.3280.0720.228  2.281  2.5560.1140.256  2.089  1.9610.0710.222  2.445  2.0020.0930.210  1.666  2

20、.2430.0350.138  1.743  2.4410.0750.201  2.438  2.0340.0800.171  1.740  2.1000.1060.246  2.307  2.5940.0690.195  1.577  2.5350.0570.213  2.436  2.1990.057 (4)步骤4:建立项目参数训练模式当估计项目参数时,

21、将“第一矩阵”中的每一列作为一个模式的输入,因为每一列都代表所有被试对一个项目的反应情况,于是可以将与各列相应项目的a、b或c作为输出,组成项目参数训练模式,用该模式对一组神经网络(共30个,称为第二组神经网络)进行训练。(5)步骤5:建立项目参数测试模式并进行测试用蒙特卡罗方法产生15个项目(称为第三组项目)的参数a、b、c,并用原先已经产生的第一组被试的值对它们起反应,产生反应矩阵(称为“第三矩阵”)。然后,将“第三矩阵”中的每一列作为模式的输入,相应的15个项目的参数a、b或c作为输出,组成测试模式。用经过训练的第二组神经网络对其进行测试,也就是由神经网络对第三组项目进行参数估计,然后将

22、估计值和真实值进行比较,记录下测试误差,如表1的2、3、4列所示。和对估计的测试误差一样,它是所有测试模式的误差之和。这里共有15个测试模式(即上述的第三组项目)。因此要把表1中的的2、3、4列数字除以15,再求平均数M和标准差SD,得到结果在表2中。表2单个模式测试误差的平均数和标准差  统计项    a  b  cM  0.0027  0.13790.1586  0.0045SD0.0009  0.01740.0

23、227  0.0015 4.4减少项目参数的测试误差的实验从表2的数据可以看出,上述方法对于的估计已经达到了较好的精度,但对于a、b和c的估计误差仍然比较大。于是再用增加训练模式的方法来试图减少测试误差。上述在训练第二组神经网络时,是用“第一矩阵”中的每一列作为模式的输入,该矩阵共有45列,相应于第一组的45个项目。现在将这组项目扩大,即增加到60个,75个,90个和105个,这些项目的参数都是用蒙特卡罗方法产生的。然后,拿第一组25个被试的值和它们起反应,用产生的反应矩阵和相应的项目参数作为训练模式,对30个神经网络进行训练,并重复上述步骤4和步骤5,得到在各种不同数量的

24、训练模式条件下的a、b和c的单个模式测试误差的平均数M和标准差SD,如表3所示。从表中数据可以看出,随着训练项目数的增加,对项目参数a、b和c的测试误差都有明显降低,当项目数达到105时,基本上已经可以接受参数估计的结果了。附图从上面的讨论可以看出,在该计算机模拟实验中,共有两组被试,第一组被试是用于能力测试模式的,第二组被试是用于能力训练模式的;该实验中有三组项目,其中的第二组项目是第一组的一部分,第一组项目用于项目参数训练和能力测试模式的,第三组项目是用于项目参数测试模式的,第二组项目是用于能力训练模式的;该实验中有三个反应矩阵,其中的第一矩阵又被分为左、右两个部分,左部分是由被抽取出来的

25、第二组项目产生的,右部分是由其余项目产生的,第二矩阵的“行”作为能力训练模式,第一矩阵的“行”作为能力测试模式,第一矩阵的“列”作为项目参数训练模式,第三矩阵的“列”作为项目参数测试模式。4.5实际测验中的被试能力和项目参数估计步骤小结上述的实验是在计算机模拟的情况下了产生的各组被试能力和项目参数,在实际的测验情况中,可以按照以下步骤来进行测验编制以及被试能力和项目参数估计:(1)在已知项目参数的题库中取出若干个项目(类似于上述模拟实验中的第二组项目,这些项目可以是二值记分的,它可以事先通过BILOG等估计得到),再加上自行编制的、未知参数的若干项目(类似于上述模拟实验中第三组项目),混合后组

26、成实际的测验试卷。(2)用这一试卷对一组真实的被试(类似于上述模拟实验中的第一组被试)进行测试,得到一组实际的结果。(3)用蒙特卡罗方法产生一组被试的能力值(类似于上述模拟实验中的第二组被试),令它和真实试卷中的已知项目参数的那部分项目(类似于上述模拟实验中的第二组项目)起反应,得到反应矩阵(类似于上述模拟实验中的第二矩阵)。(4)用这一矩阵和这组蒙特卡罗方法产生的被试能力值组成能力训练模式,对一组神经网络进行训练。(5)用真实的测验结果矩阵的每一行作为一个模式的输入部分,输入上述经过训练的神经网络,其输出就是真实被试的能力估计值。(6)运用蒙特卡罗方法产生一组项目参数,根据上述的模拟实验,大

27、约要有100个项目的参数,令真实被试的能力估计值和它们起反应,得到一个反应矩阵(类似于上述模拟实验中的第一矩阵右部分)。用这个矩阵中的每一列和相应的蒙特卡罗方法产生的项目参数组成训练模式,对另一组神经网络进行训练,使之具有估计项目参数的功能。(7)将这一经过训练的神经网络对真实测验中未知参数的那部分项目(类似于上述模拟实验中的第三组项目)进行参数估计,从而得到这些项目的参数估计值。至此,就把实际的被试能力和项目参数估计出来了。对照上述模拟实验的图1,其中的第一矩阵左部分和第三矩阵是由真实测验的数据产生的,第一矩阵的右部分和第二矩阵是用蒙特卡罗方法产生的。5讨论5.1该方法的优点(1)提出了一种

28、全新的IRT项目参数和被试能力的估计方法,以往的方法都是建立在统计基础上的,而该方法则是建立在联结主义理论(人工神经网络)基础上的。(2)以往的方法多数只能对二值记分的IRT模型进行参数估计,本研究中的方法则可以对连续记分的IRT模型进行参数估计。由于人工神经网络有很强的学习功能,因此从理论上讲,它也可以用于等级记分和二值记分的IRT模型,当然,这有待于进一步的实验研究。(3)本研究中用于估计被试能力的样本只有25人,用于估计项目参数的样本只有15个项目,都属于比较小的样本,这说明该方法可以用于小样本的情况,这是以往方法所不能解决的。虽然在对神经网络训练时可能要用到较多的训练模式,但这些模式是

29、可以用蒙特卡罗方法产生的,并不要扩大实际的测验样本。(4)在使用一般的统计方法处理小样本的数据时,确实存在着参数估计的可靠性问题,但是本实验的研究表明,在运用与统计方法完全不同的联结主义(人工神经网络)方法处理数据时,就有可能克服这一困难。这是什么原因呢?在对人工神经网络理论进行深入探讨以后1517,可以发现神经网络在对IRT参数进行估计时,并不是一开始就直接根据原始数据来估计参数,而是先对一组神经网络进行训练,使它们首先具备了这方面的知识,然后再用训练过的神经网络对IRT参数进行估计,这种参数估计的可靠性如何,并不取决于被估计的样本的大小,而是取决于对这些神经网络进行训练的样本的数量、质量以及神经网络的拓扑结构和算法。在这其中,训练模式是研究者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论