基于CTT的锚测验非等组设计中四种等值方法的比较研究

上传人：7*** IP属地：湖北上传时间：2022-06-14 格式：DOC 页数：6 大小：24KB 积分：20 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基于CTT的锚测验非等组设计中四种等值方法的比较研究基于CTT的锚测验非等组设计中四种等值方法的比较研究焦丽亚/辛涛1问题提出许多大型测验项目，出于保密性或者多次施测的需求等原因，常常要求对同一测验构建不同的测验版本，尽管编制者总是尽量保持不同版本的难度相同，但难以避免会存在一些差异。为使这些不同测验版本上的分数具有可比性，必须将其置于一个统一的尺度上，这个过程就是等值（equating）。在大型正规考试中，为使参加同一考试的不同试卷形式的考生之间的分数具有可比性，保证测验的公平性，也必须进行等值处理。当前，随着项目反应理论的普及应用，以及计算

2、机技术的飞速发展，计算机自适应考试日趋成为一种重要的考试手段，计算机自适应考试的核心问题之一就是实现不同考生所测不同题目之间的等值。另外，题库建设也需要以等值为前提。如今，等值研究在国外已经非常深入，但在我国相关的介绍和研究还很少，等值研究迄今是我国测验研究中最薄弱的一个环节1。所有的等值方法都包括两部分：数据收集设计和用于分析数据的统计模型。等值数据收集设计中，由于锚测验设计的众多优点，在实践中应用最为广泛。等值数据分析依据的测量模型有两种：经典测量理论和项目反应理论，分别对应于传统等值方法和IRT等值方法。这些不同等值方法的比较研究是等值研究领域的热点问题之一。关于不同等值方法的比较，存

3、在着两种类型的研究2。一种是使用不同的等值群体来比较某一等值方法的充分性，另一种是对不同等值方法的最终结果进行比较。本研究属于第二种。早在1977年，Lord3，Marco4，Woods和Wiley5 等人就对基于CTT和IRT的不同等值方法进行了比较研究，这些研究发现，不同的等值方案产生了不同的结果。Marco ， Petersen 和Stewart6 比较了传统等值方法和IRT等值方法对SAT（Scholastic Aptitude Test）的口语部分等值的充分性，结果发现当使用和某一测验具有相同难度的锚测验将该测验等值到自身时，除了等百分位方法中的一种变体外，所有方法的结果都较好，其中

4、线性等值的结果最精确。Lord3 从理论角度出发，认为传统等值方法不适合等值不同难度的测验。Slinde和Linn7 的研究也发现，等百分位方法在等值不同难度的测验时效果不好。Kolen2 在Lord等人观点的基础上提出了平行测验等值和非平行测验等值的区分，认为非平行测验等值只要求参加两等值测验的同一考生所得分数相同，而平行测验等值除要求参加两等值测验的同一考生所得分数相同之外，还要求考生在等值之后的两测验上所得分数的分布情况（测量标准误和高阶动差）也相同。Kolen认为2，为使传统等值方法精确，必须进行平行测验等值。这不难理解，因为传统等值方法通常要求构建共同的分数尺度，以使期望频数分布在

5、考生组的所有子群体中都相同。在我国测验研究领域，有关等值问题的系统性文献十分罕见1。关于不同等值方法的比较，只有谢小庆1 对此进行了较为全面的研究，这是等值方法比较中的一个开创性研究，具有参考和借鉴价值。但是，我们认为，该研究存在以下问题。第一，没有在平行测验的前提下考虑传统等值方法的比较，而只是得出了两测验相关较高的结论，但由于两测验中包含部分共同题目，相关较高是在意料之中，因此并不能说明问题。第二，样本容量不够大（关于样本容量对等值结果的影响见后文论述）。这两个问题都将使传统等值方法的精确度降低。然而该研究在等值方法的比较标准中又以传统等值方法的结果作为操作性检验标准，以精确度不是足够高的

6、等值结果作为总误差计算时的标准等值分数，所得结论令人质疑。而且，仅以一个单一的指标来衡量各等值方法的优劣，显得不够充分。该研究对于传统等值方法比较所得结论是，Tucker线性方法最好，等百分位方法其次，再次是Levine线性方法1。但是，Petersen8 的研究却表明，对于严格的平行测验，线性等值较为合适，其中，Levine线性方法的结果（对于其研究所选用的等值情境）更稳健。那么，利用传统等值方法对平行测验进行等值时，线性等值是否最为精确？在线形等值中，Tucker方法好还是Levine方法更好？本研究选用实践中应用较多的锚测验非等组设计，基于平行测验等值，依据多种评价指标，对基于经典测量理

7、论的等值方法进行比较，以期对上述问题得出有效的结论，同时为实践中等值方法的选择提供理论依据。2研究方法2.1等值数据收集设计采用锚测验非等组设计，锚题内置。锚测验设计要求对两组考生（组1和组2）实施不同的测验版本（X，Y），这两个测验版本包含共同的题目（锚题V）。锚题得分既可以包含在总测验得分中（锚题内置），也可以不包含在总测验得分中，而采取单独施测的形式（锚题外置）9。借助锚测验对两测验版本上的分数进行等值。2.2实验数据选自TIMMS1999数据库。TIMMS是由国际性评价组织所组建的数据库，用来测量不同国家不同年级学生的数学成绩。其测验共有8个测验副本，题目分别选自从A到Z的26个部分中

8、的个别部分。本研究选取的是TIMMS1999的第1和第3个测验副本，为使测验更接近严格意义的平行测验，将测验1删掉3题，实施等值时两测验长度均为42题。锚题数量均为17个。题目为多择一型选择题，采用0、1记分。施测对象是七（或八）年级学生。被试来自美国，测验X的被试（组1）数目是1132个，测验Y的被试（组2）数目是1144个。2.3所比较的等值方法。本研究比较了四种传统等值方法9：（1）Tucker线性方法：该方法有两个前提假设，假设一为线性回归假设，即假设测验X（Y）对锚测验V的回归在两被试组中有相同的线性函数形式。假设二为条件方差假设，即假设对于给定的锚测验V，测验X（Y）的条件方差在

9、两被试组中相等。基于这两个前提假设，得出两考生组的合成组（S）在两测验中的均数和方差，进而依据线性等值公式进行等值。（2）Levine观察分数线性方法：该方法有三个假设，这三个假设均是基于真分数所做的假设。假设一为相关假设，即假设测验X、测验Y与锚测验V 的真分数在两被试组中的相关都是1。假设二为线性回归假设，即假设测验X（Y）的真分数对锚测验V的真分数的回归在两被试组中有相同的线性函数形式。假设三为误差方差假设，即假设测验X、测验Y和锚测验V的测量误差方差在两被试组中都相同。基于这三个前提假设，得出两考生组的合成组（S）在两测验中的均数和方差，进而依据线性等值公式进行等值。（3）Bra

10、un-Holland线性方法：它也是一种线性方法，但其均数和标准差的估计都用到了频数估计中的假设。Braun-Holland线性方法可以看作是Tucker 线性方法的一般化拓展，由于其计算方法比Tucker线性方法复杂，所以在实践中很少使用，但它可用于Tucker线性方法的线性回归假设不被满足的情况。（4）频数估计等百分位方法：该方法有一个前提假设条件概率假设，即假设两被试组中测验X（Y）的频数分布在给定锚测验V条件下的概率相等。基于这一前提假设，得出合成组（S）在两测验中的频数分布，进而依据等百分位方法的等值公式进行等值。2.4等值比较的评价标准本研究兼用两个指标对四种等值方法进行比较。

11、首先，使用等值标准误作为衡量各等值方法优劣的指标。等值标准误是描述等值随机误差的指标，其定义为，通过从总体中重复抽样，以一个完全拟合数据条件的等值方法进行等值，那么，等值结果分布的平均数即是真正的等值分数，而分布的标准差即是等值标准误10。其次，使用交叉验证（cross-validation）分析方法来评价不同等值方法。具体做法为：从大样本（参加测验X，Y的两考生组）中抽取约10的小样本（100人）作为交叉验证样本，以大样本所得等值结果为检验标准，衡量各等值方法在跨样本比较中所得结果的稳定性。我们生成了一个计算指标T 作为各方法所得等值结果比较的统计指标，这个指标是在跨样本比较时，不同等值方法

12、在交叉验证样本中所得结果差异量或误差（YY）的均方差根。其计算公式为：附图。其中，Y，i是在交叉验证样本中，测验X上总分排在第i位的考生采用各等值方法所对应于测验Y上的实际等值分数，n是获得该分数的人数，Y 是依据大样本的等值结果，该分数所对应的测验Y的等值分数，N是交叉验证样本的总人数。该统计指标的值越小，表明各等值方法所得结果的一致性越高。2.5所采用的计算机程序采用Kolen和Brennan等人（Kolen和Brennan，2004）开发的CIPE程序，使用windows console 1.0版本。3结果3.1两测验的主要统计量汇总两等值测验X和Y及锚测验V在考生组1和组2上的统计量

13、见表1。表1两测验和锚测验的统计量汇总组别分数平均数标准差偏度峰度相关系数1 X 21.1538468.838627 0.2244592.206325，1(X,V)1 V 8.136163 3.996797 0.2396472.189007=0.942 Y 21.5144368.990396 0.1876962.104102，2(X,V)2 V 8.449694 4.105654 0.0483362.116774=0.94 从表中可以看出，组1在测验X和锚测验V上的相关及组2在测验Y和锚测验V上的相关均高达0.93以上。说明锚测验V和测验X和Y的难度非常近似。另外，从锚测验V上的

14、得分可见组2的水平略高于组1。 3.2三种线性等值方法的比较结果首先，对三种线性方法进行比较。表2列出了三种线性方法等值的斜率和截距，从表中可见，三种方法的斜率和截距值较为接近，这表明，它们所估计出的等值结果较为相似，这从表3中可以看出，表3列举了三种线性方法所得测验X对应的测验Y的等值分数。表2三种线性方法等值的斜率和截距方法斜率截距Tucker 0.993614-0.146522Levine 0.986288-0.083325Braun-Holland1.000325-0.364191 表3三种线性方法所得测验X对应的测验Y的等

15、值分数（例举）XTucker Levine Braun-Holland0-0.15-0.08-0.3610 9.79 9.78 9.6420 19.7319.6419.6430 29.6629.5129.6540 39.6039.3739.6542 41.5941.3441.65 3.3Tucker方法线性回归假设的检验结果对于每一个给定的锚测验V上的分数，我们可以分别计算出考生组1和考生组2在给定V条件下在测验X和测验Y上所得实际分数的平均值，同时也可以根据Tucker方法的线性回归假设，利用回归方程计算出给定V条件下估计的测验X和Y的均数，估计均数和实际均数的差值为均数残差，对给

16、定V条件下的测验X和Y上的均数进行检验，如果均数残差的值在0附近随机变化，那么说明线性回归假设是正确的。检验结果如图1所示。附图图1测验X和测验Y总分对锚测验V线性回归的残差分析结果图由图1可见，除末端极端值外，测验X和Y的均数残差基本在0附近上下波动，说明测验X（Y）对锚测验V的线性回归假设满足。那么，在这种情况下，Braun-Holland方法不如Tucker方法合适。因此，在3.5的各等值方法的比较结果中不再涉及该方法。3.4线性方法和等百分位方法的等值关系图图2列出了不同等值方法将测验X上的分数转化为测验Y上分数的比较结果。从图2可以明显看出，等百分位方法的结果非常不规则，而且与其

17、他方法相差较大。线性方法中，Tucker和Levien方法的结果较为接近，Braun-Holland方法的结果则与其他两种线形方法有一定差距，这与上面的线性回归假设检验结果基本一致。附图图2各等值方法的关系图3.5三种等值方法的比较结果图3列出了三种等值方法的等值标准误比较结果。从图3可见，等百分位方法的等值标准误较大，Tucker线性方法的等值标准误最小，而Levine线性方法介于二者之间，与Tucker方法的结果较为接近。因此，依据等值标准误指标，可以初步得出三种方法的一个优劣比较结果。等百分位方法不足取，线性方法中，Tucker方法结果更精确。附图图3三种方法的等值标准误表4列出了依据第

18、二个比较标准交叉验证分析方法所得指标T的结果。结果显示，Tucker方法的跨样本稳定性最好，等百分位方法稳定性最差，而Levine方法略次于Tucker方法。这与前面依据等值标准误指标的比较结果一致。表4交叉验证比较结果方法T 名次Tucker1.3547581Levine1.3933672Unsmoothed EQ%1.4736853 【参考文献】 1谢小庆对15种测验等值方法的比较研究心理学报，2000.32.(2):2172232Kolen M J. Comparsion of traditional and item response theory methods for e

19、quating tests. Journal of educational measurement, 1981,18:1113Lord F M. Practical applications of item characteristic curve theory. Journal of educational measurement, 1977, 14:1171384Marco G L. Item characteristic curve solutions to three intractable testing problems. Journal of educational measur

20、ement, 1977,14:1391605Woods E M, Wiley D E. An application of item characteristic curve equating to single form tests. Paper presented at the Annual Meeting of the Psychometric Society, Chapel Hill, NC, 1977American educational research association, Toronto, Canada, 19786Marco G L, Petersen N S, Stewart E E. A test of

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于CTT的锚测验非等组设计中四种等值方法的比较研究

文档简介

温馨提示

最新文档

评论

基于CTT的锚测验非等组设计中四种等值方法的比较研究

文档简介

温馨提示

最新文档

评论

相关文档