版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
垂直等值方法的发展与改进
1水平等价测验的基本原理由于不同理论研究和实际需要,我们通常需要比较不同的测试成本,但这些点处于不同的数量量中,无法直接比较。水平等值(equating)能够调整具有相同测试内容和预期难度的平行测验间的分数,使其能够实现互换。能够进行水平等值的测验是基于相同的双向细目表编制的,所测试的对象具有相似或相同的能力分布。但水平等值无法用于针对不同年级水平的成套成就测验,因为其中各个水平的测验是基于不同的双向细目编制的:测试所涉及的知识内容、测试难度和测试对象的能力分布等方面都存在差异。垂直等值(verticalscaling)能将成套成就测验中各个不同水平测验分数转换到同一分数量尺上,使其能够相互比较并构建起发展性分数量尺。2垂直平等的基本问题2.1测验分数的基础—概念Holland和Dorans将不同测验的分数进行转换的思想称为链接(linking),将链接分为预测(predicting)、标定(scaling)和等值(equating)三大类别。预测是基于被试在其它测验上的信息,甚至人口学信息来对其在某个测验上的分数进行预期。标定通过将来自于不同测验的分数安置到同一个量尺上,实现不同测验分数间的可比性。水平等值是为了实现分数互换,以保证不同测验的分数能被当作来自于同一个测验的分数来使用。在三类当中,水平等值的假设最严格,标定次之,预测最宽松。垂直等值隶属于标定这个类别,对标定所属五个子类别的辨析,有助于对垂直等值概念的理解。成套测验标定(batteryscaling)是针对施测于同一被试群体,具有不同测验内容的分测验间进行的。因为这套测验是针对同一被试群体进行的,因而各个分测验的分数可以转化为具有相同分布的分数,从而实现不同分测验间的分数比较。与此相似的一种情况是具有不同内容结构的成套测验施测于不同的被试群体,为了实现这些测验之间分数的可比性,就需要铆标定(anchorscaling)1。在学业成就测验领域,为了测查不同年级的学业增长,需要把不同年级的测验分数放到同一个量尺上从而实现对学业增长的测量。垂直标定(verticalscaling)就是用来调节具有相似结构与信度,但不同难度与测试群体的成套学业测验2。到目前为止,国内对“verticalscaling”并无统一翻译,垂直等值、垂直标定和垂直量尺化是比较常见的翻译,在本文中统一使用垂直等值一词。校准(calibration)是对具有相同结构、相似难度但不同信度测验分数进行转换的方法,校准主要用于不同长度测验间分数的转换3。而对于那些依据不同双向细目表编制的,具有相似结构、测验长度、信度和测验目的测验,通过一致化(concordances)实现不同测验分数间的可比性。为了说明学生随着时间(一般以年级为指标)变化在学业上的发展或进步程度,垂直等值技术应运而生:它是把各个不同年级水平的测验分数进行链接的过程。因为不同年级学习的知识内容存在差异,即便是相同的内容,在知识深度上也存在差异,因此这些测验不是平行测验,这种链接不是水平等值。同时,相比较而言,由于相邻年级的测验难度和被试能力分布更为相似,测验之间重叠的知识内容较多,两者间的链接能够提供许多有意义的信息。但随着年级跨度的增大,测验的难度水平和被试能力水平差异变大,测验间重叠的内容变少,使得两者之间链接的“强度”减小,从而缺乏意义上的解释。因此,年级跨度过大的垂直等值很难对其链接的结果进行有力的意义阐释,这正是目前垂直等值方法本身最受诟病的地方。2.2建立学生的学业发展信息模型实践中,依据研究目的和实际情况,研究者首先面临的问题是是否使用垂直等值这一方法。垂直等值重点关注于学生学业状况的发展,通过将各个年级水平的测验转换到同一个分数量尺上,获得学生在特定知识领域中的发展信息,对学生的学业发展进行监控,能够提供个体层面的信息,为何时进行教学改进和干预提供实证依据。垂直等值,关注的是学生学业本身一个连续性发展的过程。如果只需在宏观层面对学生的整体学业发展状况进行了解,垂直调节的标准设定是一个更恰当的选择,因为它能够对学生整体学业发展状况进行测量,但又无需对个体分数进行标定。如果研究者关心的是教师和学校在学生学业发展中的效应,那么增值模型将是更合理的选择。它通过控制各层面的影响因素,更加准确地测量出教师和学校在学生学业发展中的作用。2.3垂直等效实施2.3.1对发展的不同定义在决定使用垂直等值方法之后面临的第一个问题是如何设计成套成就测验的双向细目表。由于要使用垂直等值,在编制各个年级双向细目表的过程中,如何确定相邻年级测试内容的重叠部分是关键所在,直接影响着垂直等值的效果。Kolen认为如何厘清相邻年级间测试内容上的重叠和学生学业发展本质之间的关系是一个需要深入探讨的问题。Kolen和Brennan提出了发展的两种定义——领域定义(domaindefinitionofgrowth)和年级定义(gradedefinitionofgrowth)。发展的领域定义是指在所定义的领域里所有内容的发展。发展的年级定义是指特定年级所对应的内容的发展。两种对发展的不同定义,根据不同的测试学科,在实际操作中会得到不同的结论。以语文和数学为例,语文所涉及的内容覆盖性比较广泛,在实际教学当中并没有严格的教学顺序,学年间的教学内容没有特别明显的差异;相比之下,数学本身内在的逻辑结构远高于语文,在实际教学当中有严格的教学顺序。因此,对语文学科而言,两种不同发展的定义所获结果会比较接近,而数学学科,则很有可能会得到两个迥异的结果。同时,在对发展定义细分的基础上,Martineau(2004,2006)对学科特点进一步区分时,关注到另一个问题——测验的维度。大量的研究结果表明实际测验中,相邻的年级间,语文的内容结构比较单一,而数学的内容结构则呈现出较为明显的差异。在双向细目表的编制中,如果没有切实考虑到测试内容的维度结构问题,那么最后所获得的垂直等值结果可能是对学业发展的误读。2.3.2扩展中的数量尺的构建1“共同、两种典型的考验”垂直等值有三种基本的设计:铆题设计、等组设计和铆测验设计。铆题设计是指相邻年级水平的测验有一部分完全一样的题目,相邻年级的学生都会回答这些“共同题”。等组设计是指将同一个年级的学生随机分为两组,其中一组完成其相邻年级(高于或低于本年级)的测验而另一组则完成本年级的测验。铆测验则是指所有的学生除了要完成对应年级的测验外,还需完成一份所有年级完全一样的“共同”测验。在三种基本设计的基础上,研究者们将三种基本设计结合起来使用,出现了双铆设计、等组铆题设计等多种变式。所谓双铆设计,是指在铆题设计中,每个年级中包含两份铆题,分别与其相邻的低年级和高年级所共同拥有。等组铆题设计,则是指在铆题设计的情况下,再将每个年级的学生按照等组设计的方式分别去完成本年级和相邻年级的测验。这些新的设计能够提高垂直等值参数估计的准确性,增加垂直等值结果的稳定性。2垂直人工量尺模型的同时/分别估计垂直等值有三种基本的分数转换方法:Thurstone方法、Hieronymus方法和IRT方法,三种基本的分数转换方式均能用于三种设计方式。Thurstone方法假设被试能力是呈正态分布的,因此当被试能力呈负偏态分布时,为了获得正态分布,在高分段会出现量尺“膨胀”问题。Hieronymus方法在利用铆测验构建量尺分数中将各年级原始总分的中位数作为对应的年级量尺分,根据研究者有关学业发展的假设而为各个年级设定相应的变异等过程显得过于主观,缺乏客观的统计分析过程。与前两种方法使用测验原始分数不同的是,IRT方法使用的是根据被试的作答模式估计所得的潜在能力值(θ值),并没有事前假定被试的能力分布,是对被试实际能力分布的反映。到目前为止,IRT方法已成为垂直等值量尺构建的主要方法。在IRT方法中,关于同时/分别估计一直是研究者们讨论的热点。相比于分别估计,同时性估计操作方便,只要进行一次程序运算便可得到所有参数值,在满足IRT单维性假设的前提下结果更加稳健。但当不满足单维性前提假设时,分别估计的精确度要高于同时性估计。Kang和Petersen比较了同时性估计、分别估计和固定项目参数估计三种方法发现,同时性估计和分别估计都具有较好的精度,而固定项目参数估计只有在特定参数估计方法的使用下才有较好的效果。在单维项目反应理论前提下,两种估计方法各有利弊:分别估计能够考察铆题是否存在项目漂移(itemdrift)的问题4;测验单维性的假设较难得到保证从而影响了同时性估计的精度;此外,同时性估计由于每个被试存在大量的未作答项目,使得估计结果很难收敛。2.3.3不同参数估计方法对垂直分值的影响在垂直等值中,特别是在使用IRT方法进行分数量尺构建时,程序的选用经常是被忽略的一个问题。包括MULTILOG、BILOG、PARSCALE、WINSTEPS等在内的IRT程序都能进行垂直等值的参数估计,但是不同的程序采用不同的参数估计方法,如果研究者对所选用的程序没有深入的了解,很有可能同样的数据用不同的程序会得到不同的结果。大部分IRT的程序都是用户友好界面,没有程序的源代码使得参数估计成为一个“黑箱化”的操作过程。因而有一部分研究者开始致力于比较不同IRT的程序中不同参数估计方法对垂直等值精度的影响。此外,由于对多级评分项目的参数估计,程序所允许的样本量等诸多实际问题,现有的程序并不能完全满足研究者的需求,一方面相关的程序在不断的升级与更新,另一方面,研究者们致力于自己编写程序来克服这个问题(PLAN,ACT),例如Patz和Yao使用自编的程序BMIRT贝叶斯方法来进行参数估计。但这又带来了新的问题,不同的研究者使用不同的算法,使得不同研究者之间的研究结果很难进行比较与验证。2.4垂直等效结果报告2.4.1报告形式的选择发展性分数量尺构建完成之后需向测验使用者报告结果,报告的分数形式可以采用通过率、标准分、百分位等级等多种形式。Petersen建议所使用的分数报告形式应当有利于分数意义的解释且尽可能减少分数被误解的可能性。关于报告分数形式的选用是垂直等值领域另一个还未得到很好解决的问题,Yen指出在垂直等值中需要更加清晰的标准来判断各种不同方法所得结果的质量(合理性和适用性)。不同的垂直等值方法会采用不同形式的分数,那么关于如何对不同方法间的结果进行比较,选择最为合理的分数形式,研究者们尝试使用了标准误、垂直/水平距离、效应值等多种指标进行模拟和实际数据的比较研究,但仍无统一的结论。2.4.2分数量尺的维护量尺的稳定性问题常被研究者忽略,因为随着时间的推移,测试题册在不断更新,如何将新的测试题册与原有的分数量尺链接起来,铆题是否会发生项目漂移等问题都直接影响着分数量尺的准确性。量尺的维护,涉及到从被试样本到结果等一系列的问题:不同年份间的被试,其能力分布是否一致,所使用的垂直等值的设计是否相同;关于题册的更新,是把所有新题册都先进行垂直等值后再链接到旧的分数量尺上抑或是将每个新题册分别链接到旧题册上后再转换到分数量尺上,或是重新构建分数量尺;关于项目漂移,如何进行参数校准;每次参数的估计是否都使用了同样的方法等。这一系列的问题到目前为止仍没有明确的定论,都需要研究者根据实际情况来进行判断和选择。3最新发展3.1对单维性前提假设的模拟Patz和Yao提出了广义嵌套IRT模型(generalhierarchicalIRTmodel,简称嵌套模型)用于构建发展性量尺。该方法是单维IRT模型同时性估计的拓广版本,实际上是一个单维多组的IRT模型,包含了被试能力、项目参数、被试能力分布参数、有关被试和项目的协变量等参数在内,任何标准的IRT模型和参数估计方法都能用于该模型。在满足单维性前提假设下,该方法不仅能够改进模型拟合的问题,还能保持同时估计的精确性。嵌套模型最大特色在于能把学业增长的假设参数化,将这些参数融入到模型中进行估计。Patz和Yao有关学业增长呈二次曲线的假设同时得到了模拟和实际数据的支持。但有关二次曲线学业增长的假设需要更多的实证研究,且有可能存在更佳的学业增长趋势的拟合曲线。3.2多维项目反应理论随着年级的增高,各学科中多个维度的内容平行进展,各个维度的发展同时体现在年级内和年级间。Martineau指出不同年级水平的测验在结构上的变化(cross-gradeconstructshift)大大影响了垂直等值结果的准确性。多维项目反应理论认为所有的测验结构都不是单一的,因此将该理论引入到垂直等值中,是解决测验结构变化的一个可能的方法。在多维垂直等值中,需先确定各个年级水平的测验结构,然后分别对各水平测验的各个维度进行跨年级的链接获得发展性的结果。但是,在实际中可能遇到这样的情况,并不是每个年级水平的测验都有完全一致的维度结构,有些年级的测验可能会在一个或若干个维度上出现缺失,如何处理这些年级间不一致的维度仍有待于进一步的研究。此外,利用多维项目反应理论进行垂直等值,只能对各个维度的发展状况进行报告,无法进行单一分数的报告。3.3多维多组项目反应理论模型Patz和Yao对多个年级水平的测验进行同时性估计时发现,测验在绝大部分时都呈现出多维结构,特别是在同时包含多种题型时,多维的结构更为明显。在嵌套模型和多维项目反应理论的基础上,Patz和Yao提出多维多组项目反应理论模型(multidimensionalmultigroupIRTmodel)——利用多维项目反应理论对各个年级水平的测验进行同时性估计。该模型利用MCMC方法进行模型估计,不仅适用于选择题,还适用于同时有选择题和问答题的测验。该方法的另一个亮点在于即使各个年级水平的测验维度数目不同,它仍能进行年级间的链接。该方法在实践当中的应用还有待于进一步的验证。4对学业发展的趋势和特点的把握不够深入研究者们希望通过垂直等值这一方法来探明学生学业发展的趋势和特点,但在垂直等值实施过程中的每一步,研究者们都面临着选择,这些选择到目前为止仍缺乏一个统一的判断标准,不同的选择可能获得不同甚至相反的结论。这成为阻碍垂直等值被广泛使用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育心理学模考模拟试题(全优)
- 2024年度山西省高校教师资格证之高等教育法规考前冲刺模拟试卷A卷含答案
- 2023年标胶投资申请报告
- 广东开放大学2024年秋《大学英语2(专)》形考测验1参考答案
- 第七章 社会主义改革和对外开放课件
- 二年级数学计算题专项练习1000题汇编集锦
- 2024年输电设备建设承包协议
- 2024年工程承包商协议条款及细则
- 道德与法治八上八上9.2《维护国家安全》教学设计
- 2024年饮食店全职员工聘用协议
- 新人教版八年级物理上册期中考试及答案【可打印】
- 2024年企业股东退股补偿协议版
- 河南省商丘市2023-2024学年高一上学期期中考试化学试题(含答案)
- 墓地长期租用合同模板
- 2024年心理咨询师基础知识考试题库(浓缩500题)
- 物 理第四章 第1节光沿直线传播课件-2024-2025学年八年级物理(人教版2024)
- 2024年银行考试-反洗钱考试近5年真题集锦(频考类试题)带答案
- 2025年九省联考新高考 语文试卷(含答案解析)
- 行政复议法-形考作业4-国开(ZJ)-参考资料
- GB/T 709-2019热轧钢板和钢带的尺寸、外形、重量及允许偏差
- 16.《材料的导热性》课件-2021-2022学年科学五年级上册-青岛版(五四制)
评论
0/150
提交评论