智能导师系统对学业成就的影响研究:量化元分析的视角_第1页
智能导师系统对学业成就的影响研究:量化元分析的视角_第2页
智能导师系统对学业成就的影响研究:量化元分析的视角_第3页
智能导师系统对学业成就的影响研究:量化元分析的视角_第4页
智能导师系统对学业成就的影响研究:量化元分析的视角_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    智能导师系统对学业成就的影响研究量化元分析的视角    (二)特征编码为分析特征变量对效应量的影响,在多轮考察部分入选文献的特征之后,研制了一份涵盖10个变量的研究特征编码表(如表2所示)。最初将这些内容详细记录,再将观察结果重新编码为有序的类别变量。为何这样设计编码方式?首先,在实验时间上wwc建立了针对教育实证研究的接纳标准,而使用最为广泛的认知辅导系统从2007年开始有符合严格标准的干预研究,考虑到研究周期,特将2004年作为初始分类年份;其次,元分析注重发布偏倚的考察,在出版类型上作了正式出版(期刊/会议/书籍章节)与未正式出版(项目报告

2、/学位论文/未发表手稿)的区分;最后,在标准化测试中使用的是权威机构研制的具有高信效度的测试内容,而本地自行测试是研究者自行设计的相关考试,在相关研究中发现了测试类型对效应量的显著调节作用(kulik & fletcher,2016)。(三)效应量计算方法本研究采用综合元分析软件(comprehensive meta-analysis 3.0)作为主要的数据处理与分析工具,将来自不同独立研究的原始数据进行合并,按照赫杰斯和奥利金(hedges & olkin,1985)提出的标准化均差(standardized mean difference,smd)公式计算每个效应量,再依次

3、计算合并后的平均效应量和分组效应量,每个效应量的计算数据需要至少包括双组实验的样本(n)、后测均值(mean)和后测标准差(sd),而后结合spss软件将效应量与特征编码进行统计分析,了解研究特征对效应量的具体影响。四、结果检验与分析(一)发表偏倚检验当所入选的实证研究样本无法代表可能存在的全体实证研究时就会发生发表偏倚。因此,在计算效应量之前,需要对是否存在发表偏倚进行估计和检验。通常使用的发表偏倚检验方法包括漏斗图法、begg秩相关法和失安全系数(fail-safe)等(李玉,等,2018)。本研究的漏斗图检验结果如图1,大部分研究分布在中线左右,整体呈漏斗形,但左边偏少一些且靠近底部有部

4、分散点(标准误较大),可能会发生一定程度的偏倚。漏斗图只能按照定性的方式来表征结果,在判断时具有很大的主观性(greenland,1994),而且入选研究中已经囊括了部分非正式发表的手稿,因此需要进一步检验。begg秩相关性通过分析效应与标准误是否相关来检验偏倚,发现其相关性(tau)为0.123,且不显著(p=0.09),若将非正式发表的文献剔除,则相关性更低(tau=0.03,p=0.64),说明不存在发表偏倚。失安全系数方法检验是为了排除存在偏倚的可能,计算最少需要多少个消极结果的研究才能使本结论发生逆转,失安全系数越大,说明存在偏倚的可能性越小。本研究发现其失安全系数为9806,远超过

5、“5n+10”(n=83),说明发表偏倚的可能性很小。整体上考虑,存在发表偏倚的可能性很小。(二)基本统计分析数据样本执行效应量计算后发现,83个独立效应量中有75个(90.36%)实验组的后测成绩显著高于对照组。根据科恩(cohen,1992)效应量统计理论,效应量处在0.2时说明影响很小,处在0.5时说明是中等程度的影响,而达到0.8时表示影响显著,本研究发现超过一半(42项)的效应量达到0.5以上。因此,绝大部分研究表明智能导师系统能积极提升学业成就,而且半数研究达到了中等以上程度的正向影响。(三)平均效应量计算为更准确地表征智能导师系统对学业成就的影响,计算了其平均效应量,如表3所示,

6、q值检验显著(p<0.001)且i2明显高于50%,说明入选元分析的独立研究存在明显的异质性,宜采纳随机效应模型作为合并效应量的计算模型。因此,本研究的平均效应量为0.492,95%置信区间的效应量为0.4080.577(p<0.000),表明智能导师系统对学业成就具有中等的正向作用,平均效应量处在0.4080.577。(四)影响效应量的特征因素尽管平均效应量处于中等水平,但是在一些研究中效应量非常大而其他研究中效应量比较小,存在异质性。为弄清影响效应量的特征因素,研究分别对学生特征、发表特征和研究设计进行了效应量的分组分析及线性回归分析。1.学生特征对实验效应的影响探究学生的国家

7、属地、知识基础水平和教育层次对实验效应的影响。按照上述异质性检验方法(后续均按照该方法选择相应效应模型),发现这三个因素应该分别使用随机效应模型、固定效应模型和随机效应模型,如表4所示。在发展中国家和发达国家维度,智能导师系统均能显著提升学生学业成就。在发展中国家(g=0.777)的实验效果似乎高于发达国家(0.465),但在相应的随机效应模型中并未达到显著水平(p>0.05)。不管是知识基础一般,还是基础较差的学生,智能导师系统均显示出显著的积极影响,而且基础较差的学生(g=0.568)与基础普通的学生(g=0.291)比较,具有显著的差异(p<0.05),前者的平均效应量几乎是

8、后者的两倍。对于所有教育层次的学生来说,智能导师系统都具有显著的积极作用,而且层次之间具有显著差异(p<0.05),对大学生、小学生的影响更大,对中学生的影响更小。因此,智能导师系统对于不同学生都具有显著的正向影响,而且对知识基础较低、大学生具有更为显著的积极影响。2.发表特征对实验效应的影响为考察文献的发表特征对效应量的影响,研究从实施时间与发表类型上进行了效应量的分组计算,结果如表5所示。各年度区间的实验效果都具有显著的正向作用,虽然2005年至2011年看似效应量更高,但并未达到显著水平,即实验时间对效应量的变异并无实际影响。不同发表类型的文献都具有显著的正向提升作用,尽管正式发表

9、类型(期刊、会议和书籍)文献的效应量较高,但与非正式发表类型的差异并不显著。3.研究设计对实验效应的影响研究设计往往是影响实验效果的重要因素,研究从样本量、学科、应用产品、持续时间、测试类型等五个方面进行考察,如表6所示。在各个样本量区间,itss都显示出了显著的正向促进作用,而且组间存在显著的差异性,样本量越大,效应量越小,样本量低于200时效应量变化不大,而高于200之后效应量锐减至一半。在学科分类上,itss对理工科与文科都产生了显著的积极效应,但理工科的效应量显著高于文科。针对两类产品的实验都产生了积极的促进作用,但其他产品与认知辅导系统的影响成效上有显著的差异,前者是后者的三倍。无论

10、实验持续时间的长短都具有正向的促进作用,但不同的持续时间具有显著的差异,短期(小于1周)与长期(超过15周)的实验效应都不如中期(1周15周)好。不同的测试类型都具有显著的积极效应,但本地自行测试要显著优于标准化考试,前者的效应量超过后者的两倍。4.对平均效应量的调节影响分析按照上述分析结果,在所有特征层面itss对学业成就都具有正向的显著提升作用,而且部分学生特征(如知识基础水平和教育层次)与研究设计特征(学科、产品、样本量、持续时间和测试类型)表现出了组间效应量的显著差异,但这些特征对平均效应量是否有调节影响还有待进一步验证,因为各类特征之间可能存在相关性。为此,研究结合线性回归分析方法验

11、证上述特征对于平均效应量变异的影响,拟合效果较好的是一个涵盖三个自变量的模型,如表7所示。有显著调节作用的是测试类型、持续时间和样本量三个特征,虽然对平均效应量的变异解释程度并不高(r2=22.7%),但对平均效应量的变异具有显著的调节作用,依据其作用大小,依次为测试类型(-0.467)、持续时间(0.356)与样本量(-0.191),说明本地测试、较长实验时间、更小样本量会获得更大的效应量(此处使用的样本量为真实数量,未使用编码后的有序分类变量)。不同的知识基础、教育层次、学科和产品都有显著的效应量差异,却为何并没有对平均效应量变异产生显著影响?研究分析了这三个因素与其他因素之间的相关性,发

12、现产品类型分别与测试类型、样本量和持续时间存在显著的相关性;教育层次分别与测试类型和样本量存在显著的相关性,知识基础水平又与教育层次存在显著的相关性;学科也与产品类型存在显著的相关性。可以认为,不同知识基础、教育层次、学科与产品之所以会产生显著的效应量差异,其背后实质上是这三个调节变量在起作用,如选用认知辅导系统的实验设计基本上都采纳大样本(80%)、标准化测试(90%)、中长期实验(超过15周的占70%),导致认知辅导系统产品的效应量较低。因此,可以认为,只有测试类型、持续时间与样本量才是显著调节平均效应量的关键特征。五、总结与讨论本研究通过对国外58项关于智能导师系统提升学业成就的独立实证

13、研究进行了量化元分析,主要从发表偏倚检验、平均效应量的效应量的调节特征等方面进行了分析。(一)智能导师系统对学业成就具有中等的正向促进作用智能导师系统与学业成就之间呈显著的积极相关,超过九成的独立研究都发现了显著的正向促进效应,合并后的平均效应量达到0.492,即能将第50个百分位的学生提高至第68个百分位,且95%研究的效应量处在0.408与0.577之间。这与玛等人(ma,et al.,2014)的研究结论一致,但与其他元分析(vanlehn,2011;kulik & fletcher,2016;wwc,2016;steenbergen-hu & cooper,2013)的

14、结果有较小的差异。范莱恩(vanlehn,2011)区别了按步辅导(step-based tutoring)与按分步辅导(substep-based tutoring)等两类智能导师系统,前者为单个问题提供一个总体线索与解释,而后者则提供更精细的脚手架,将解决一个问题的相关提示细化为多个微提示,按照多个分步骤依次反馈。其中,按步辅导提高了0.76个标准差,而按分步辅导提高了0.4个标准差,而本研究并未加以区分,本研究效应量处在两者之间是合理的。在库里克与弗莱彻(kulik & fletcher,2016)的研究中,通过本地测试获取的效应量占比是82%,明显高于本研究的66%,根据测试类

15、型的调节作用可推断,其效应量比本研究高一些就不奇怪了。美国教育部有效教育策略资料中心(wwc,2016)考察了认知辅导系统大规模应用的有效性,其中测试类型都是标准化考试。本研究发现大样本和标准化考试都对效应量具有显著的消极调节作用。因此,其结果明显低于本研究。至于斯滕贝格·胡与库珀(steenbergen-hu & cooper,2013)的效应量更低的原因,库里克与弗莱彻(kulik & fletcher,2016)给出了相应解释,因为他们将智能导师系统的概念宽泛化(包括了部分cai),纳入标准要求低,部分研究甚至没有恰当对照组、无双组前测等,这些解释在本研究中同样

16、适用。所以,0.5左右的效应量比较符合研究现实。(二)测试类型、持续时间与样本量对平均效应量具有显著调节作用在所有特征类型上,itss对学业成就提升都具有显著的积极效应,而且知识基础、教育层次、学科、产品、样本量、持续时间和测试类型七个特征对相应的效应量均有显著影响。经过线性回归分析发现:测试类型、实验持续时间与样本量对平均效应量具有显著的调节作用。测试类型对平均效应量具有显著的调节作用,在之前研究(rosenshine & meister,1994;koedinger,et al.,1997;刘珊珊,杨向东,2015;kulik & fletcher,2016)中均有此发现。

17、在本地开发的测试中发现了更积极的效应,因为这类测试内容与教学目标和学习内容更为一致,而标准化测试题目经常是第三方开发的,考察内容更为宽泛但信效度更高,当然这两种测试类型都具有相应的参考价值,同时纳入两者可能更具有客观意义。不同实验持续时间对平均效应量的影响都是积极、显著的,但实验持续的时间越长,智能导师系统越能提升学业成就,其背后可能是学生的技术接受程度、教师的实施充分性、组织干预的娴熟程度、教学策略的恰当性等多方面的综合优化。纳泽(naser,2009)在小型实验中发现,第二阶段比第一阶段的实验效应量要高出0.65。潘恩等人(pane,et al.,2013)在大规模干预中也发现了类似的显著差异,第一年实验的平均效应量是-0.06,而第二年另一批学生的平均效应量是0.20,且达到显著的积极影响。此外,部分其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论