计算机适应性测验条件下能力参数估计的实证研究_第1页
计算机适应性测验条件下能力参数估计的实证研究_第2页
计算机适应性测验条件下能力参数估计的实证研究_第3页
计算机适应性测验条件下能力参数估计的实证研究_第4页
计算机适应性测验条件下能力参数估计的实证研究_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机适应性测验条件下能力参数估计的实证研究

1即时项目生成技术即测试项目生成(也称为自动项目生成)是目前项目设计和研究的前沿领域(berston,1999;berston,2007)。利用即时项目生成技术,在测验进行的过程中可以当场生成具有特定测量学特征的测验项目,从而优化对个体能力的参数估计。由于即时生成的测验项目尚未经过试测,项目参数无法通过实际数据进行估计。在即时项目生成中,项目参数是借助于预先标定(calibrated)的一系列项目刺激特征(itemstimulusfeature)与项目参数的关系进行预测的。目前,项目生成研究存在许多不同的理论取向。这些不同理论在项目生成的基本原则和方法上各有不同,在刺激特征的选择和确定上也有所不同(Bejar,1990;Singley&Bennett,2002;Embretson,1994,1998)。其中,Embreston(1998)所提出的测验项目的认知设计系统法(cognitivedesignsystemapproach)因其理论完整性、系统性以及与认知研究的整合程度而受到越来越多的研究者的关注。1.1认知测量模型长期以来,测验项目设计被认为是一种艺术而不是一种科学。在传统项目设计模式中,对测验所测量的建构的界定充其量是对某个(心理)特质或者技能的概括性描述,在指导具体测验项目的设计和开发上具有明显的局限性(Gorin,2006)。测验项目与测量建构的对应主要取决于项目编写者的专业素质和经验判断。项目质量主要依赖于诸如项目难度和鉴别力等统计指标。一般来讲,项目设计者通常是领域专家,通晓的更多的是测验题目所涉及的内容,缺乏相应的心理学理论的基础来理解测验题目所测量的建构,也缺乏相应的研究技能来验证测验题目的效度(Embretson,1985)。与传统项目设计不同,认知设计系统法将认知心理学的原理、方法和研究结果整合到测验项目的设计过程中(Embretson,1998)。认知设计系统法要求明确阐述围绕测量建构的各种认知理论和研究结果,通过理论分析和实证研究来理解测验项目背后的认知加工过程和结构。在确定了所要测量的心理建构之后,该方法要求运用文献研究、言语报告、认知成分分析以及实验室研究等方法对所选择的项目类型进行详尽的任务分析和研究,从而理解个体在解决这些项目时所涉及的知识、策略、认知过程以及所需要的认知成分。这些认知过程或成分界定了测验项目的建构表征(constructrepresentation)(Embretson,1983)。在此基础上,开发形成相应的测验项目认知模型,明确描述测验项目解决过程中涉及到的各种认知过程。在认知模型基础上,鉴别该类测验项目的一系列具体的任务特征,即前面所提到的项目刺激特征,通过实证研究建立这些任务特征与项目解决的不同认知成分的关系,并运用相应的认知测量学模型(cognitivepsychometricmodel)(deBoeck&Wilson,2004)分析不同任务特征对测验项目特征参数(如难度或者鉴别力等)的影响程度,以及这些任务特征的组合对项目特征参数的预测程度。以LinearLogisticTestModel(LLTM;Fischer,1973)为例,设qj为所鉴定出的K个任务特征在项目j(j=1,2,…,J)上的负荷,q′j=(qj1,qj2,...,qjK),则有其中,ψ是逻辑斯蒂分布函数,ψ(t)=(1+exp(-t))-1。Pj(θ)是能力水平为θ的个体在项目j上正确作答的概率,Xj为相应的0–1反应。η为K个任务特征对项目j的难度的影响系数,η=(η1,η2,…,ηK),需要从实际数据中加以估计。通常qj0在每个项目上的值固定为1,从而使η0成为截距。其他用于类似目的的模型有random-effectLLTM(Mislevy,1988;Janssen,Schepers&Peres,2004),Multicomponentlatenttraitmodel(MLTM;Embretson,1980),2PL-constrainedmodel(Embretson,1999)等。这里,测量学分析的主要目的不是估计测验项目参数,而是考察所鉴别出的任务特征作为项目设计的可行性。认知测量模型对相应数据的拟合程度可用以判断项目生成背后的认知理论的充分性,而不同任务特征的影响系数则提供了项目难度来源的量化指标,为后继项目生成和题库建设奠定基础。在建立了任务特征与项目解决的认知变量间的匹配关系之后,项目设计便可以通过系统变换项目类型中的任务特征,来操纵该项目解决过程中所涉及到的认知成分及其负荷,从而可以生成具有指定认知要求的测验项目。此外,通过标定不同任务特征对测验项目的特征参数的关系,生成项目的特征参数(如难度或者鉴别力等)便可以根据该项目中各种任务特征的组合来加以预测。在实际项目生成过程中,并非所有的刺激特征组合都是可用的,还要考虑不同任务特征的相互关系及其在项目设计中的适用性。因此,运用认知设计系统法进行项目生成时,需要根据相应的认知模型、测量学模型、以及所鉴定出的任务特征集,开发适合于实际项目生成的项目设计原则(itemdesignprinciple)以及一系列具体的项目结构(itemstructure)。项目设计原则规定了项目中任务特征的组合原则。项目结构则定义了项目任务特征的一个特定组合。原则上,从同一项目结构生成的不同测验项目应该具有相似的认知与测量学上的特征。这样,遵循项目设计原则和项目结构进行项目设计或开发就成为一种系统性和算法式(algorithmic)的过程,改变了传统测验项目设计的经验模式,从而使得计算机辅助的自动化项目生成成为可能(Embretson&Yang,2007)。测验项目的认知设计系统法明确了项目认知复杂性的来源,并标定了不同认知来源的水平,从而在项目水平上建立了测验的建构效度。同时,该方法不仅实现了即时生成测验项目的理想,生成的项目还可以具有指定的认知与测量学的特征。然而所有这些优点,都必须以良好的项目认知模型为基础。项目认知模型能否充分预测项目解决的认知过程,直接影响到该方法能否充分预测项目的测量学特征,进而影响到对个体能力参数的估计,以及由此所做出的各种测量学推断。因此,有必要对项目预测参数的准确性及其对测验结果的影响进行深入的研究。1.2项目认知模型、项目刺激特征集的质量目前,基于项目任务特征预测项目特征参数的研究主要集中在对项目难度参数的预测方面,而针对项目鉴别力的预测研究则很少(但是见Embretson&Yang,2007)。虽然项目鉴别力的预测研究遵循同样的研究方法和逻辑,但在研究具体实施过程中任务特征的鉴别及其影响机制的分析更加困难。为了叙述的方便,此处以单参数逻辑斯蒂(1PL)模型为例加以说明。在1PL情况下,个体正确作答项目j的概率取决于其能力水平θ和该项目的难度参数bj,即设为基于样本量为N的实际数据对bj的估计值则有,其中ej~N(0,σe2)是项目参数估计的误差。在不考虑参数估计量(estimator)本身所导致的系统误差的情况下,σe2主要取决于样本数据所能提供的信息量的大小(Mislevy,Sheehan,&Wingersky,1993)。标定样本所提供的有关项目参数的信息量越大,σe2的值越小。因此,σe2代表了项目参数估计因样本信息量导致的不确定性。在项目生成中,项目特征参数是通过一系列项目刺激特征加以预测的。设为基于K个项目刺激特征对bj的预测值,则有。其中,qj和η如前所述,rj~N(μj,σr2)是预测bj的残差(residual)。μj的值取决于项目认知模型的领域代表性和项目刺激特征集的质量。如果项目认知模型能够充分解释项目所在领域的认知机制,而项目刺激特征集能够穷尽所需的刺激特征,并且是项目认知模型中不同认知变量的良好观测指标的话,μj=0。相应的,σr2代表了项目参数因从刺激特征加以预测而导致的不确定性。在实际项目生成中,项目刺激特征对项目难度的影响系数η需要从观测数据中估计。因而在项目生成情况下难度参数的估计值的误差既包括rj,也包括ej,即有。假设rj与ej彼此独立,bˆj的不确定性可以表述为。因此,受项目认知模型、项目刺激特征集质量以及标定样本信息量的影响,实际获得的项目预测参数与项目参数真实值并不相符。项目预测参数向测验中项目难度参数的平均数回归(regresstothemean)。回归程度主要取决于项目认知模型的预测充分程度以及项目刺激特征集的质量(Embretson,1999)。在本文中,我们将基于施测数据的项目特征参数的估计值称之为项目参数的标定估计值(calibratedestimates)(或简称为标定值),而将通过项目刺激特征预测的特征参数值称之为项目参数的预测估计值(predictedestimates)(或简称为预测值)。在理论上,不管是用标定估计值,还是预测估计值来取代项目真实参数,都会由于误差的存在导致对个体能力参数估计误差的增加(Tsutakawa&Soltys,1988)。上述分析表明,项目参数的预测估计值的不确定性要比相应的标定估计值的不确定性更大,项目预测参数在分布上要比相应的标定估计值的分布趋中,从而导致对能力参数估计的更大的估计偏差(bias)和标准误差(standarderror)(Mislevy1988;Mislevy,Sheehan&Wingersky,1993)。研究表明,与项目标定估计值相比,项目预测参数所导致的估计偏差的增大更多的发生在能力分布的两端(θ<-2或者θ>2),而项目预测参数所导致的标准误差的增加则在能力分布的中部表现更为明显(Embreston,1999)。由于标准误差与测量精度(measurementprecision)存在反比关系,标准误差的增加会导致对相应能力水平的测量精度的降低。然而,以上研究结论都是在传统的线性测验(lineartest)条件下得出的。通常线性测验中中等难度的测验项目较多,测验信息函数(testinformationfunction)较多呈现倒U型分布,从而导致对具有中等θ值的个体的测量精度较高,对极端θ值的个体测量精度偏低的现象。因此,在线性测验条件下不同能力分布水平上的测量精度与项目预测参数效应有可能交互作用,从而影响研究结论的正确性。解决这一问题的一个有效途径是采用计算机适应性测验模式(vanderLinden&Glas,2000)。在适应性测验中,除了对项目内容、曝光率等因素的考虑外,后继测验项目的选择主要取决于对个体能力水平的当前估计,从而实现针对不同个体的测验信息的极大化。Bejar等人(2003)曾研究在计算机适应性测验条件下即时生成测验项目的可能性。但该研究是基于项目模版(itemmodel)理论基础之上的与认知设计系统法下的项目生成在原理上有所不同。此外,该研究采取蒙特卡罗模拟方式,并没有在真实测验情景下展开。本文旨在研究在计算机适应性测验条件下认知设计项目的预测参数对能力估计的影响。利用认知设计系统法生成的抽象推理测验(AbstracReasoningTest,ART)题库,本研究通过实证方法分析比较了在计算机适应性测验条件下基于认知模型预测的ART项目参数与基于经验数据标定的ART项目参数所估计的个体能力的分布与标准误差等情况,并在此基础上探讨实际开展自动化项目生成的可能性。2图形加工过程ART由美国心理测量学家Embretson(1998)开发,用于测量个体的流体智力(fluidintelligence)。ART项目源于瑞文高级渐进矩阵测验(AdvancedProgressiveMatrixTest,APM)中的矩阵完形任务(matrixcompletionproblem)(见图1)。与瑞文测验项目不同,ART项目是采用认知设计系统法生成的。ART项目是建立在对矩阵完形任务的大量认知研究基础上的。Carpenter,JustandShell(1990)在对瑞文APM测验项目的大量实证研究的基础上,提出了矩阵完形任务的认知加工理论。该理论认为,矩阵完形任务中不同行列的图形间存在五种不同的关系(relation)或规则(rule),依次为同一性(identity)、两两渐进(pairwiseprogression)、图形加减(figureaddition/subtraction)、三位分布(distributionofthree)、以及二位分布(distributionoftwo)(见图2)。同一性关系是指矩阵中图形及其组合关系不随行列的变动而变化。两两渐进关系是指矩阵中图形或者其特征随着行或者列的变动而渐进变化。如图2中表示两两渐进关系的例子中,图形中的条纹随着行的变动由垂直方向逐渐变为水平方向。图形加减关系是指矩阵中某一行或一列的图形是由其他两行或两列的图形相加或者相减而得到的。如图2对应例子中,第三行的图形是由前两行图形相加而成的。三位分布关系是指矩阵中每个图形在所有行或列中有且只有一个出现。二位分布关系是在三位分布基础上,将其中某行或列的图形替代为其他无关图形。如图2中对应二位关系的例子,是在表示三位分布关系例子基础上,将相应位置的相应图形(三角形、菱形和圆形)替代为心形的图案而成的。矩阵完形项目的解决过程包括寻找和发现项目中所包含的各种关系,并根据这些关系的组合确定缺失图形的形状。例如,图1所示的矩阵完形任务中包括一个三位分布关系(图形的变化)和两个两两渐进关系(图形中条纹跨列的方向渐变和跨行的粗细渐变)。被试的任务是寻找这些关系,并根据其组合确定任务答案(有着斜向粗条纹的三角形)。解决矩阵完形任务包括两个主要的认知加工过程:对应性鉴别(correspondingfinding)和目标管理(goalmanagement)。对应性鉴别是指发现矩阵中不同行列的图形间关系,并加以抽象。目标管理是指当某个项目中含有多个相同或不同的关系时,个体必须记住并监控对问题解决的目标和子目标的加工顺序和先后过程,以便在需要时调整项目解决过程。对应性鉴别主要取决于个体的抽象能力(abstractcapability),而目标管理主要取决于个体的工作记忆容量(workingmemorycapacity)。在Carpenter等人的认知理论的基础上Embretson(1998)开发了一个专门针对ART项目的认知加工模型,将矩阵完形任务解决的认知成分与项目刺激特征相联系。该模型包括工作记忆容量和抽象能力两个认知变量和叠加(overlay)、融合(fusion)和变形(distortion)三个知觉变量。与工作记忆容量相连的项目刺激特征是测验项目中的关系数量(numberofrelation),与抽象能力相连的刺激特征主要是项目中的关系类型(typeofrelation),尤其是二位分布的出现和图形属性的变化。三个知觉变量则主要涉及矩阵中图形及其属性呈现的视觉特征。ART项目的生成是通过项目结构(itemstructure)实现的,并由形式符号系统(formalnotationalsystem)加以标示。每个ART项目结构完整地界定了矩阵完形任务中每个点上的图形的特征及其变化规律。不同项目结构可以通过变换图形间关系或抽象成分的具体组合而产生,并对应于不同的形式符号系统。图1同时给出了所示案例的项目结构相应的形式符号系统。字母A、C和D分别代表矩阵中的三个图形(三角形、菱形和圆形),字母B代表图形中的条纹。B的下标中第一个数字代表条纹的方向(4、2和1分别代表左斜、垂直和右斜),下标第二个数字代表条纹的粗细(1、2和3分别代表较细、中等和较粗)。具有同一结构的不同项目称之为结构等价项目(structurallyequivalentitems),可以通过变换项目结构中的图形形状而生成。尽管项目表面看起来不同,结构等价项目具有相似的认知负荷和测量学特征。ART题库现有30个不同的项目结构,150个项目。新的项目结构或项目可以依据ART项目设计原则随时产生。Embretson(1998)详细介绍了ART项目开发的基本原理和生成过程,并对生成的项目进行了测量学分析。研究表明,使用1PL模型较好的表征了ART项目背后的认知成分,且绝大多数ART项目拟合1PL模型。此外,利用认知设计系统法生成的ART项目符合预期的建构表征和通则跨度(nomotheticspan)(Yang&Embretson,2007)。所生成项目的测量学指标(如难度、鉴别力)及其分布均较理想。相应的项目认知模型与项目难度参数的相关系数接近0.80。3学习方法3.1标定值与项目预测值本研究所用ART题库由150个项目组成,其中包括30个不同的项目结构,每个结构拥有5个结构等价项目。题库中包括每个项目的难度参数的标定值和预测值,其中项目难度的标定值运用1PL模型根据样本数据估计而得,项目预测值则是依据项目设计时所用的项目刺激特征(关系类型、数量、知觉特征)以及相应的影响系数计算得出。在本研究中,使用项目参数的标定值和预测值的ART题库被视为两个不同的题库,并在接下来的文本中分别称之为ARTCAL(ARTitemswithCALibratedparameters)和ARTPRE(ARTitemswithPREdictedparameters)。换言之,这两个题库中的项目完全相同,但每个项目的难度参数不同。3.2测试对象263名选修普通心理学的大学一年级学生参加了本研究。每个被试在完成测试后获得选修该课的适当加分。3.3子资源库的基本特征每个被试接受两个计算机适应性ART分测验,一个使用ARTCAL,另一个使用ARTPRE。因为ARTCAL和ARTPRE具有相同的项目,为了避免相同的项目在同一被试重复实施两次,按照项目预测参数将ART题库分成两个平行子题库*。表1给出了两个子题库中项目预测参数的描述性统计。在接下来的文本中,我们用PRE1指代使用项目预测参数的ART子题库1,用CAL1指代使用项目标定参数的ART子题库1,即PRE1和CAL1中项目相同但参数不同。类似的,PRE2和CAL2分别指代使用项目预测参数和标定参数的子题库2。为了控制测试的顺序效应,对子题库和项目参数进行了对抗平衡处理,形成了4种测试顺序,即PRE1CAL2PRE2CAL1,CAL1PRE2和CAL2PRE1。例如,测试组合PRE1CAL2是指第一个分测验以PRE1为题库,第二个分测验以CAL2为题库。其他测试组合的解释类似。3.4个体能力估计所有测试都通过测试系统microCATv3.5中的计算机适应性测验模块进行。被试被随机分配到4种测试组合中的一种。在适应性测验中,每个被试的起始能力水平设定为0,测验开始时对个体能力的估计采用固定步距法(fixedstepsizemethod),此后采用EAP法。测验中后继项目的选择基于极大信息法(maximuminformationmethod)。测验停止规则采用固定项目总数法(fixednumberofitemsmethod)和项目结构均衡相结合的原则。固定项目总数法规定分测验在实施到20个项目时结束。根据实际实施的项目结构的情况,被试有可能加试2至3项目。因此,每个分测验的实际长度在20~23间变动。由于每个测试组合中包括2个分测验,因此每个被试需要完成40~46个项目。4结果4.1预测参数与标定参数的均数回归模型图3给出了ART题库中项目预测参数与标定参数的分布情况。如果项目预测参数与标定参数的分布完全一致,则图中星号应该全部分散在对角线上。相比之下,绝大多数的星号散布在对角线附近,尤其是项目参数落在在(-1,1)的分布区间时(图3上图)。这表明在该区间内,项目预测参数与标定参数的差别较小。随着项目难度参数绝对值的增加,星号逐渐偏离对角线,表明项目预测参数与标定参数的差别逐步增大(图3下图)。注意对于难度较小的项目,项目预测参数与标定参数的差别为正值,而对难度较大项目相应的差别为负值。因此,项目预测参数比相应的标定参数具有较小的离散性,参数分布更为趋中。这表明,通过项目认知模型及其相应的项目设计刺激特征而预测的项目参数高估简单项目的难度,同时低估了较难项目的难度。前面提及,超过60%的项目难度参数的变异性可以通过ART项目认知模型及项目刺激特征的变化来加以解释,因此,预测参数与标定参数的差别主要源于项目预测参数的均数回归现象,即预测的项目难度参数要比项目实际难度参数变异性小,彼此更为相似。在这种情况下,比较预测参数与标定参数的平均数的大小是具有误导性的。正确的应该是关注两组参数的变异性。对于ART题库,项目标定参数与预测参数的标准差分别为0.834和0.656。4.2参数参数对测试结果的影响4.2.1反应时间对被试主要参数的影响尽管本研究通过选课加分的方法激励被试认真解答测验项目,但本研究测试本质上属于低利害测验,很难避免被试在解答问题时的猜测行为,从而降低对实验实际效应的判定的准确性。由于ART项目中大多包含有多个相同或不同的关系,且问题解决过程需要对这些关系进行序列性鉴别,因此,被试在项目上的反应时间可以被用来作为鉴别猜测行为的一个重要指标。图4给出了在不同项目反应时间情况下被试正确解答问题的比率。虽然随着项目反应时间的增加,正确解答问题的比率呈现整体上升的趋势,但在反应时间等于或小于5秒时出现了一个明显的转折。因此,我们以5秒为界限检测被试在某个项目上猜测行为。需要指出的是,被试在某项目上反应时小于5秒并不一定代表猜测行为。能力水平高的被试在面对简单问题时5秒内正确解答是有可能的。因此,重要的是考察被试是否在多个难度不同的项目上出现多次的或连续性的短暂反应时间(≤5秒),并表现出较低的能力水平。图5给出检测出的具有猜测行为的被试。如果被试(1)在单个分测验至少5个项目上的反应时≤5秒,或(2)在两个分测验至少8个项目上的反应时≤5秒,则被检测为猜测被试(标示为1,否则标示为0)。可以看出,猜测被试或者在两个分测验上的平均反应时间都非常短,或者在第二个分测验(即后继实施的测验)上反应时间很短(图5上图)。相应的,前者在两个分测验上的能力水平都很低,而后者在第二个分测验的能力估计明显低于第一个测验(图5下图)。按照这一原则,23个被试被检测为猜测被试。因此,后继分析是基于230个被试样本上的。4.2.2项目预测参数对能力估计的影响同一被试在不同分测验上的能力差异除了项目参数(预测或标定)的影响之外,还包括了不同分测验所包含的项目不同的影响。图6给出了被试在不同分测验上的能力参数估计。被试在基于项目预测参数和基于标定参数分测验上的能力估计大体上保持一致,表现为大多数星号围绕着图6上图中的对角线分布。然而,针对基于项目标定参数估计的某个特定能力水平,相应的基于项目预测参数的能力估计呈现出一定程度的离散性。这种离散性既包括了由于项目预测参数取代标定参数而带来的不确定性,也包括因两个分测验具体包括的项目不同而导致的不确定性。换言之,如果两个分测验都采用项目标定参数,则同一被试在两个测验上相应的能力变异性主要来源于重复测验所导致的不确定性,相应能力间的相关程度体现了测验的再测信度。因此,本研究中两个分测验的能力参数间的相关体现了在测验信度基础之上的项目预测参数的影响效应。此处,项目预测参数的影响既包括因预测参数回归效应而导致的在适应性测验过程中项目选择的差异,也包括因预测参数更大的不确定性而导致的能力参数估计误差。图6中两个能力参数间的实际相关系数为0.74。考虑到上述各种因素以及前面述及的ART认知模型的解释力,这一数值是比较符合预期的。此外,与ART题库中项目预测参数和标定参数的关系类似(见图3),基于项目预测参数的能力估计呈现向平均数回归的效应,表现为图6上图中在能力分布底端星号在对角线之上,而在能力分布高端星号在对角线以下。即基于项目预测参数进行能力参数估计,高估了较低水平被试的能力,同时低估了较高水平被试的能力。相比本研究中的被试样本,ART项目相对容易(被试样本基于项目标定参数的能力平均数为0.756)。对应的,在(0,1.5)区间内估计的平均偏差较小,随着能力水平向两端变化,估计平均偏差逐渐增加。图6下图给出了在两个分测验情况下从项目预测参数和标定参数所得到的不同水平能力参数估计的标准误差(standarderrorofestimate)以及相应的拟合曲线。该图显示,不管是基于项目预测参数还是标定参数,中等水平的能力估计的标准误差最小,并随能力水平向两端变化而逐渐增加。在理想的计算机适应性测验情况下,如果测验题库具有良好项目参数分布,并且在不同项目参数水平上拥有充足项目数量,则相应的能力参数估计的标准误差应该在不同能力水平上大致相同。因此,该图表明ART题库中在不同难度分布水平上的项目数量的局限性,从而导致中等能力水平测量精度高于边缘能力水平测量精度的现象。图6下图显示,基于预测参数的能力估计的标准误差在能力分布的近似区间(0,1)比基于项目标定参数的能力估计的标准误差略高,而在其他区间内则相比较低。对这种现象的一种解释为,在中等能力水平,项目预测参数的回归效应较小,进而导致能力估计与相应的基于项目标定参数的能力估计相对接近。在这种情况下,基于两种项目参数的估计的标准误差的大小主要取决于项目参数的不确定性程度。项目预测参数更大的不确定性导致了在该区间上相应的标准误差的增加。而在其他区间内,项目预测参数较大的回归效应导致能力估计的绝对值小于相应的基于项目标定参数的能力估计值,再加上由ART题库的局限性而导致的估计误差与能力水平间的U型关系,项目预测参数的不确定性的增加所导致的估计误差的增大不足以消弭因能力估计偏差所导致的估计误差的降低。4.2.3能力估计的标准误差前面提及,不同分测验下能力参数估计值和估计误差的差异既包括因项目预测参数本身不确定性增加而导致的估计误差的增大,也包括了因项目预测参数回归效应导致的项目选择效应。为了控制后者,将基于ARTCAL题库的分测验(即CAL1或CAL2)中的实际项目反应数据输入BILOG-MG软件(Zimowskietal,2002),对被试能力进行重新估计。每个被试估计两个能力参数,一个能力参数利用该分测验中实际实施项目的标定参数进行估计,另一个能力参数利用项目预测参数进行估计。换言之,这样得到的每个被试的两个能力估计,除了在所使用的项目参数不同之外,其他都是相同的。图7给出了相应的能力参数以及估计误差。可以看出,几乎所有的星号分布在对角线上(图7上图)。基于不同项目参数的两列能力估计值间的相关系数高达0.995。这表明,在不考虑因项目预测参数回归效应导致的项目选择效应的前提下,单纯由于项目预测参数所导致的更大的不确定性对被试能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论