




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种新的等值方法:核等值法该文介绍了一种新的等值方法一核等值法。首先介绍了核等值法的研究过 程、它的主要特点以及五个步骤(前平滑处理、估计分数概率、连续化、等值、 计算等值标准误)。之后,介绍了核等值法与其他传统的观察分等值方法的差异, 最后是对核等值法的评价。标签:核等值法;观察分等值法;平滑化处理;连续化处理;高斯函数在心理测量学界,对同一考试项目不同试卷之间进行等值处理时,有两大类 方法一基于经典测验理论(Classic Test Theory,CTT)的方法和基于题目反应理论 (Item Response Theory, IRT)的方法。近年来又出现了一种新的等值方法:核等值 法(th
2、e kernel method of test equating, KE)。核等值法将基于CTT的线性等值法和 等百分位等值方法纳入到统一的框架之下,而且已经在美国教育测验服务中心 (Educational Test Service,ETS)得到了应用。核等值法通过给定考生总体在某卷上 观察分分布的转换,得到另一卷上的观察分分布,因此其本质是观察分等值方法。1核等值法研究的缘起核等值方法的“核”,指的是高斯核函数(Gaussian Kernel Function)o利用核方 法在等值方面的最早应用可追溯到Holland和Rubin1关于测验等值的文集。核 等值法是在ETS的一系列技术报告中逐渐
3、成型的。最早的一篇文章是Holland 和Thayer在1987年写的使用对数线性模型拟合离散概率分布(Notes on the use of log-linear models for fitting discrete probability distributions)2。对数线性模型 可以拟合许多实际测验情境中的真实数据。他们后来想到,应该开发一种新的等 值方法,以便充分利用这种对数线性模型。于是他们提出了核等值方法在等组设 计(Equivalent Group Design,简称EG设计)和共同题锚测验设计(Non-equivalent Anchor Test Design,简称 NE
4、AT 设计)中的应用3,4。此外,Liou 和 Cheng5探 讨了有缺失数据情况下估计的问题。但后来,核等值法的研究停滞了一段时间, 因此它一直是理论上的一个特殊方法,仅仅Dorans6使用过。有两项研究表明 对数线性平滑法在测验等值中很有用7,8。此外,Livingston9对核等值法做了 一个简短的评估研究。2001年,von Davier加入Holland和Thayer,决定写一本 书介绍核等值法。他们对所有等值设计做了充分研究,将该方法在ETS的一些 测验项目上试用,之后于2004年出版了核等值法(the kernel method of test equating)10一书。2 核
5、等值法概要一般说来,等百分位等值主要由分布估计、样本估计的平滑处理、分数转换 等相互分离的技术组成。新的等值方法一核等值法成功地将这些技术整合到一个 新的框架下11。核等值将线性等值函数作为一种特殊情况,很象等百分位等值, 是一种进行测验等值的统一方法,它具有等百分位等值的一些特性。“核等值法 是一种基于象等百分位等值一族的等值函数,将线性等值作为特殊情况”10。核等值法可以应用到常见的几种数据收集设计中,包括等组设计(EG)、单组 设计(Single Group Design,SG)、平衡组设计(Counter-balanced Design,CB)以及非等 组锚测验设计(Non-equiv
6、alent Groups with Anchor Test Design,NEAT)。von Davier 等认为,平衡组设计具有合成性质。最常用的NEAT设计中不同的等值方法,包 括链式等值(Chain Equating,即Angoff V方法,简称CE)和后分层等值 (Post-stratification equating,简称 PSE,包括 Braun-Holland 线性等值和频数估计等 百分位等值,其中Tucker线性等值是Braun-Holland线性等值的特殊情况)也都 可以在核等值的框架下找到对应的方法。设计函数(Design Function,DF)是核等值 方法中的一个新
7、概念,它将一个共同目标总体的分数分布(从原始分数中估计)映 射到两个测验的分数概率上。设计函数的实质就是将几种不同设计的分数的概率 分布用矩阵的形式表示出来。核等值法给出了不同等值设计的设计函数。等组设 计EG及单组设计SG的设计函数形式简单,但是其他设计的设计函数需要用很 多复杂的矩阵表示。此外,由于实践中常用样本数据而不是总体数据进行等值函数的估计,因此 等值函数的估计存在抽样变异。对等值函数抽样变异的测量可利用等值标准误, 即SEE(the Standard Error of Equating) o在核等值法框架下,不同的等值方法有普 遍适用的求SEE的公式。两个等值函数的差异的标准误为
8、等值差异标准误(The standard Error of Equating Difference,SEED)。核等值框架下,SEED 的计算方法 类似于SEE。设计函数是影响SEE及SEED计算的关键因素之一。3核等值法的步骤心理学探新2008年第2期罗莲一种新的等值方法:核等值法一般说来, 核等值法有五个步骤,分别是前平滑处理、估计分数概率、连续化、等值、计算 等值标准误。根据von Davier等10,11,核等值法5个基本步骤简要叙述如下:3. 1对目标总体进行前平滑处理对目标总体进行前平滑处理是将统计模型与数据进行拟合的过程,以便估计 等值设计中真实的分数分布。核等值法选用对数线性模
9、型对数据(单变量和双变 量分数分布)进行匹配,因为离散观察分数对数概率线性模型非常灵活,可以以 任何精度拟合观察分的分布,包括有奇异值的分布,并适应实际中出现的多种分 数分布的不同特点。前平滑处理可以得到两个结果。第一,得到了经过平滑的分数分布,用于以 后的等值过程;第二,得到一个矩阵,可用于计算SEE。利用其他前平滑方法也 可以得到这样一个矩阵,但利用对数线性法更高效。3. 2估计目标总体上的分数分布概率可利用设计函数,根据第一步中估计的分数分布得到目标总体上的分数概 率。在目标总体上,对第一步得到的估计分数分布进行线性或非线性转换,得到 转换的分数概率估计值。可以对单变量或双变量分数分布进
10、行估计。一般来说, 匹配可以达到较为满意的水平。具体步骤是:根据等值设计选用相应的公式,利用经平滑的分数分布估计值 求出目标总体T上的分数概率分布估计值r和s。公式如下:X的分数概率与X的原始分数xyj相联系,Y的分数概率与Y的原始分 数y jk相联系。根据等值设计,可通过设计函数计算得到分数概率r和s。3.3将离散的分数分布连续化连续化是构建接近离散分布的连续累积密度函数的过程,与传统的百分等级 法中的线性插值法相对应,但连续化并非统计估计方法。连续化很有必要,因为 一般不可能将一个离散的观察分数分布映射到另外一个分布,同时保留所有的百 分等级。对离散分布进行平滑处理时,用到了高斯核密度函数
11、,这也是核等值这 一名称的由来。由于使用了高斯核平滑技术,核等值的等值函数与“变化量(bandwidth)参数h有关。这样,线性等值和等百分位等值就成为核等值的特 殊情况。因为变化量对数据的性质非常敏感,因此,选择变化量时不能简单地取 任意数值。改变变化量,就会得到X分布或Y分布的很多连续近似,成为连续 近似一族。因此,要定义一个由两部分组成的补偿函数,从观测数据中自动选择变化量的大小。连续化的思想可以通过一个新的连续随机变量X(h;X)解释。X(h JX) - X + h JXV,其中V具有标准正态分布(因此它是连续的)。当hX很 小时,X(h JX) - X;当h JX较大时,则接近的密度
12、就是正态的。当两个h都 比较大的时候,那么 KE 函数,的Y(.:x3)=G:J hY.C.l-l利(FhX小x3),与线性等值函数相同。这一步将整个 离散的分布变成了和原来的分布接近的连续分布,并强调“接近”这一概念。具体来说,核等值法利用高斯核函数公式将r连续化::: O(Z)代表了标准N(0,1)分布的累积分布函数,*,的范围是从(-8,+s), 并且h . x0。F. JT3(x;hX).;,是基于离散分数分布的连续化的累积分布函数,是由r和3x.Jj3,以及X在T上的矩四l*XT:和.2J XT:决定的。 同样可利用分数概率s、Y分数和y Jk计算得到经过连续化的G.j T(y;h.
13、j Y)o高斯核连续处理最重要的一个特征就是变化量hyx和h:.Y的选择。可使 用补偿函数自动选择改变量,使由FyT(*x.3;hyX)和G .j:T(y;h-Y)导出的密 度函数f JT(自x3;h,JX)和g JT(y;h JY)都平滑化,并且能得到经平滑后的离散 分数概率的基本特点。以下的补偿函数能给出较好的结果:.:*:其中d:Jj是与分数,x:,Jj相关的区间宽度(这些宽度经常设为1)。可以 利用很多不同的算法将上式最小化,求出h。还可以将两个补偿函数用一个权数 合并,即:PENALTY J1(h)+K : *PENALTY 2(h)K=1在分布出现锯齿时很有用,可用于平滑锯齿。标准
14、非导数方法(Standard derivative-free methods)可用于将补偿函数最小化,以便选择h。可分别对两个离 散分数的分布进行连续化处理,导出F,JT3x3;h: JX)和G: JT(y;h.)。3.4计算和分析等值函数核等值的等百分位等值函数可以直接计算得到:XY -,(x)=-l- .jT(F.j-TCZJx);.j Y)其中 G.户*-1. JT(p;h.)是 p=G JT(y;h: Y)的反函数,e:J XY:(x)用 于精确匹配两个连续化的分布。离散分布X的函数e:j XY: : (X)与离散目标 分布Y的匹配程度,可用不同的方法评估。核等值法的提出者建议用百分相
15、对 误差(Percent Relative Error,PRE)公式比较两个分布e,JXY:(X)和Y的矩p(直 到比到第10个矩),令通过计算,可比较两个分布的匹配程度。3.5计算等值标准误(SEE)以及相关的精度测量核等值的最后一步是通过计算SEE以及相关的精度测量值对等值转换进行 评价。SEE取决于三个因素,对应以上四步。核等值法将SEE的计算一般化, 在分析性公式的基础上,可用泰勒展开式或方法导出各种不同设计的SEE的 一般形式。计算核等值法的SEE时,不同等值设计的主要差异在于第2步。每 种设计要求一个不同的设计函数,将经过前平滑处理的数据映射到分数概率r和 s。除了第2步以外,其他
16、步骤对任何设计中SEE计算的贡献都相同。核等值法 中一般性的SEE的计算公式中涉及的几个量比较复杂,但是各种设计都普遍适 用。在CE设计中,因为是用两个简单的SG连接设计来进行处理的,因此其计 算更为复杂。核等值有一个很方便的体系来计算SEE及SEED。通过改变变化量的值,核 等值法可以得到介于传统线性等值法和核等值法之间的系列等值函数;等值函数 对所有x和y适用,就是在原始分数规定的分数区间范围之外也可以成立。SEE是一个非常重要的工具,可以用它来进行与核等值函数相关的统计推 断。它可以用于哉计具有理想精确度的等值样本,还可用于计算等值研究结果的 置信区间。这些置信区间可用于比较不同等值方法
17、得到的等值结果的精度13。 此外,在核等值框架下,核等值法之间的等值差异标准误(SEED),可以用于评 估核等值法和线性等值法接近的程度,以便在核线性还是核等百分位等值函数中 做出选择。而且,SEED可用于评估两个具有同样参数的等值函数之间的差异在 统计上是否显著。4核等值法与其他等值方法在核等值法框架下,关于线性等值分与等百分位等值分之间的关系问题,其 理论基础是下述公式10:.:艾而 C (z)=G.fWI;|.*0(F J0(z)-z 是一个形状函数,是F(舟乂自)和 G(y)形 状之间的差异。由于F|:0(3x.B和G j:0(y)是均值为0方差为1的累积分布函 数,因此,形状差异函数
18、在 0上下浮动。这意味着 EquLJY(ixE)应该在 LinJY(.3x.3)附近波动,而且作为函数彼此接近。因此,对于估计精度SEED 来说,如果余项R(3x.3)足够小,用线性等值函数就足够了。当两个分数分布形 状相同,那么,等百分位和线性等值函数是一样的。但是,在CTT框架下,还 没有发现这两者之间具有明确的数学关系10。在NEAT设计中,核等值法与观察分等值方法的对应情况见表112:表1共同题非等组设计观察分等值与核等值方法的对应表观察分等值方法KE核等值框架链式等百分位法KE链式等值(优化h值)频 数估计等百分位法KE后分层法(优化h值)链式线性等值KE链式等值(大h 值)Tuck
19、er线性法没有直接对应的方法(KE后分层等值,大h值,在某些条件下 对应)Braun and Holland线性法KE后分层等值(大h值)Levine观察分等值无4.1核等值法与线性等值法线性等值法对不同的等值设计是不同的。对核等值法来说,如果连续化过程 中变化量的值h.:X和h.:Y都很大,则核等值函数就成为线性函数,因为连续 化是对F和G分布的正态近似,可得到具有同样形状的正态分布。在任何等值 设计中,如果连续化过程中变化量的值足够大,核等值就成为线性等值。但因为 核等值对数据很敏感,也许数据并不支持变化量大的连续化过程,只有在数据适 合的程度情况下才会是线性的(即h值较大的情况下)。SE
20、ED可用于评估核等值 和线性等值相差的程度。因为线性等值法是核等值法的特例,可以利用SEED确 定是使用线性法还是等百分位方法等值。这样,就可以用一个统计指标代替过去 的猜测、经验或直觉10。另一方面,即使变化量的值很大,核等值法中的线性特殊情况还是与一般的 线性等值不同。大多数情况下,可能两个等值函数相同,但其SEE不一定相等。 例如,由于分数分布经过了前平滑处理,可能在等组EG设计中核等值法的SEE 不同于Braun-Holland线性等值的SEE,这是由于导出这些SEE公式时的假设所 造成的。前平滑处理可以强制使分数分布的高阶矩由低阶矩决定,因此核等值法 的SEE与一般的线性等值法不同。
21、但是,若前平滑选择的模型拟合较好,则两 SEE差异不会很大。此外,核等值法的线性版本一般要对分数分布进行前平滑处理,也可以选择 不经过前平滑处理直接计算分数概率,而基于CTT的线性等值法则完全不利用 前平滑处理技术。4.2核等值法与等百分位等值法核等值法实质上是等百分位等值的一种。一般的等百分位等值与核等值法的 不同之处在于两者对分布进行连续化处理的方式。等百分位等值使用的是线性插 值法,利用了分段函数,不能在分界点分数进行积分运算,有时需要对其进行后 平滑处理。核等值法使用的是高斯核函数进行连续化处理,其定义域是全距。在等百分位等值中,经过连续化处理后的X.:*分布具有与X分布同样的均值,但
22、是方差可能不同,虽然差异很小。因此,等百分位等值的第二个矩匹配的 要求就不能得到满足,只是接近第二个矩。可以看出等百分位等值法的目标并不 是为了达到分布匹配,Y分布与转换后的X分布是否接近才是关键。而核等值 法的目的就是要进行分布的矩匹配,它精确地匹配了分布的头两个矩。还有F:t*分布和G*分布(经过连续化的分布)的分数全距问题。等百分位 等值方法人为规定F.: ;*(.3x3)在最低分数减去1/2以下对应的分数为0。因此, 在此分数以下,不管得了什么分数,都转换为相应的Y的最低分,最高分也以 此类推,即将X的最高分映射到Y的最高分。但如果测验的难度相差较大时, 这种做法就值得商榷。核等值框架
23、下的等百分位等值法无需把X的最高和最低 极端分与Y的最高和最低分对应,因为它使用的是矩匹配标准10。总之,核等值法有一些等百分位等值法不具有的理想性质。其最大特点是, 在等值的整个过程中,它都包括了平滑的数学函数,无需像等百分位等值那样进 行分段线性计算。核等值法有一个等值函数公式,而不是一个分数转换对照表。 虽然这个公式中的值也需要转换得到,但是很容易做到。核等值数学公式再加上 对数线性前平滑方法很容易以一种统一的方式求得SEE,因此核等值法框架下可 以求得SEE的减少量。对数线性平滑可大大减少SEE。4.3 ETS的实证研究ETS已经组织了几项对核等值方法的实证研究。其中一项研究12考察核
24、等 值法与其他观察分等值方法(等百分位和线性等值方法)的结果相一致的程度。使 用的数据是从真实的考试数据构建的虚拟测验,模拟了三个等值设计:等组(EG) 设计、两个非等组锚测验设计(NEAT分别为内锚和外锚),并将等组设计等值函数 作为比较的标准。结果发现,核等值的结果与其他等值方法的结果非常接近,而 且核等值的结果更接近等值标准。另外一项研究 14利用Praxis亍*;TM: .(Professional Assessments for Beginning Teachers,新教师职业评估考试)的真实数 据,比较了核等值法与传统的等值方法。研究目的是比较不同的操作情况下,核 等值的结果与其他
25、观察分等值法的结果接近程度。等值设计同第一项研究类似, 样本容量不同,且样本具有不同的特征。结果表明,在EG设计中核等值法与其 他的传统等值方法差异非常小,特别是线性情况下差异更小。在两个非等组锚测 验设计中,除了低端分数段之外,核等值的后分层等值法(选用最优的变化量h 值)产生了与频数估计等百分位等值法接近的结果,而且核等值线性法产生了与 Tucker方法非常接近的结果。在第三项研究中,Liu15将核等值法应用到两种情 况:将SAT数据等值到相似总体和非常不同的总体,然后将核等值的结果与两 种情况下不同的经典等值方法比较。结论是核等值法与其他方法的结果可以相 比。当两总体共同题分数的分布相似
26、时,即使不同的等值方法的假设不同,它们 还是产生了相同或非常相近的结果。5对核等值法的评价如前所述,线性等值法和等百分位等值法被统一到核等值法的框架之下,成 为这种方法的两种特殊情况。在理论上,核等值法有两个方面是对原来的两种传 统方法的改进。首先,是核等值法使用前平滑法,并对数据进行平滑转换,因此 其SEE就小,与其他方法相比不是特别容易受到抽样变异的影响。因此,用于 小样本时也可以,当然核等值法在大样本中也有很好的应用。其次,所有的等值 设计中,核等值法用同样的方法使用等值函数及其估计的标准误,即全部等值设 计都使用了五个步骤。核等值法的这些步骤都是统一的、对数据敏感的。但是核 等值法涉及
27、大量的矩阵运算,必须利用计算机完成全部的计算10。von Davier等10认为,核等值法有三个理论上的突破。首先,将单一等值 函数等值标准误(SEE)的概念扩展到两个等值函数差异的标准误(SEED),这是一 个新工具,以前从未使用过,可用于几个较难处理的问题。例如,是用线性函数 还是非线性等值函数?在NEAT设计下,使用链式等值法还是后分层等值法? 第二个突破是对平衡组设计(CB)进行了新的处理,对设计中收集的全部数据还是 部分数据这一问题给出了比以前更为有说服力的统计上的数据支持。第三个突破 是设计函数。该函数在不同的等值设计下有不同的特征,用矩阵的形式表达概率 分布,可用于计算SEE及S
28、EED。但是,也有研究者对核等值法提出了自己的看法。例如,著名心理测量学家 Kolen16言忍为存在一些问题。首先,von Davier等书中NEAT设计例子收集的测 验分数数据,将公式分数舍入为整数分,结果造成分数频率分布上有规则的“锯 齿”。如果使用正确反应分数,可能在NEAT设计的核方法应用上会更清楚,并 且适用于一般情况。其次,原始分数分布为有限区间,但经过核连续化处理后, 分数区间变为无穷区间,这可能对高分段和低分段的等值造成影响。第三,因为 核方法使用的是一个正态分布,会导致在连续化分数分布中的某些系统偏差。在 核等值过程中做了一个调整,保证连续化分数分布均值和标准差与观察分布的均
29、 值和标准差相同。但是,典型的连续化的分数分布的峰度和偏度与观察分布不同。 这些系统效应可能造成等值函数的偏差,特别是当h参数很大时。Kolen提出, 核方法比起传统的观察分等值方法来说,统计上和计算上都十分复杂,与在测验 项目等值情境利用该方法得到的好处相比,是否值得?此外,他还呼吁ETS尽 快研制计算机软件,以便使ETS以外的研究人员参与到核等值方法的研究中去。以前对测验等值的讨论基本上是对等值方法和技巧的讨论,而不是对等值数 学理论的讨论。核等值法的最主要的特点是其在数学和统计上比较完善。但是, 核等值法的提出者们也认为,还应该对核等值法继续进行深入研究,使之更臻完 美。参考文献Holl
30、and P W,Rubin D B.Test Equating.New York:Academic,1982.Holland P W,Thayer D T.Notes on the use of log-linear models for fitting discrete probability distributions (ETS TR-87-79).Princeton,NJ:ETS,1987.Holland P W,Thayer D T.The kernel method of equating score distributions (ETS RR-89-7). Princeton,NJ
31、:ETS,1989.Holland P W,King B F,Thayer D T.The Standard error of equating for the kernel method of equating score distributions.( ETS TR-89-83).Princeton,NJ:ETS, 1989.Liou M,Cheng P E.Asymptotic standard error of equipercentile equating. Journal of Educational and Behavioral Statistics,1995,20:259-28
32、6.Dorans N J.Recentering and Re aligning the SAT score distributions:how and why. Journal of Educational Measurement,2002,39:59-84.Livingston S A.Small sample equatings with log-linear smoothing.Journal of Educational Measurement,1993,30:23-39.Hanson B A.Testing for differences in test score distrib
33、utions using log-linear models. Applied Measurement in Education,1996,9:305-321.Livingston S A.An empirical tryout of kernel equating (ETS RR-93-33).Princeton,NJ:ETS,1993.von Davier A A,Holland P W,Thayer D.The Kernel Method of Test Equating.New York: Springer-Verlag,2004.van der Linden W J.Book Rev
34、iew.Journal of Educational Measurement,2006,43:291-294.von Davier A A,Holland P W,Livingston S A,et al.An evaluation of the kernel equating method. A special study with pseudo-tests constructed from real test data (ETS RR-06-02).Princeton,NJ: ETS,2006.Li Deping.Book Review.Applied Psychological Measurement,2005,29:404-406.Mao X,von Davier A A,Rupp S.Comparisons of the Kernel equa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全新商铺代理出租合同
- 二零二五芒果园承包合同模板
- 二手房转让合同
- 专业讲师服务合同
- 医院医疗设备租赁合同下载7篇
- 2025商业演出合同5篇
- 卫生巾采购合同
- 网签版设备买卖合同样式7篇
- 2025产品质量认证合同
- 2025标准的房屋买卖借款合同范本
- 2025年中考化学实验操作考试试题库(全套完整版)
- AI在护理查房中的应用
- 西师版小学六年级数学教学大纲与计划
- 2024雅安雨城区中小学教师招聘考试试题及答案
- 20以内三个数加减混合运算竞赛练习训练题大全附答案
- 2025年郑州电力职业技术学院单招职业技能测试题库汇编
- 临床肾内科健康宣教
- GB/T 45166-2024无损检测红外热成像检测总则
- 知识付费居间合同样本
- 《犯罪心理学》教学大纲
- 幼儿园市级课一等奖-大班语言健康绘本《我的情绪小怪兽》有声绘本课件
评论
0/150
提交评论