智慧教育：基于系统性文献综述的多模态学习分析研究进展与前瞻

上传人：共*** IP属地：河北上传时间：2022-12-09 格式：DOCX 页数：43 大小：116.22KB 积分：15 举报 版权申诉

已阅读5页，还剩38页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一、引言2021年12月，中央网络安全和信息化委员会印发《“十四五”国家信息化规划》,提出要建立高效利用的数据要素资源体系(中央网络安全和信息化委员会，2021),激发和提升数据要素赋能作用，升数据的创新驱动作用是深化新时代教育评价改革的新趋向。随着大数据、物联网、移动互联网、人工智能等新一代信息技术的蓬勃发展，教育数据的赋能作用逐渐普及，使得教育研究从“假设驱动”走向“数据驱动”,催生并孕育出“教育大数据研究范式”(赵佳丽等，2020)。悄然兴起，并走入人们的视野。它打破了传统评价仅仅以计算机为介导的单一渠道(如在线学习管理系统、社交网络环境)获取单一模态数据的局限，主张通过捕获、融合和分析跨情境、跨空间等更为复杂开放的学习环境中的语音、行为、表情、生理等多源异构数据，解释和预测学习者的行为习惯、认知规律、心理状态与情感变化。这对于构建连接高层学习理论与底层数据的学习者模型，实现科学化、精准化、个性化、全景式的教学评价，以更好地优化学习者的学习体验，助力学习者更加投入、更加有效地开展学习等具有重要价值。当前，多模态学习分析方兴未艾，日益成为学者们认识、理解学习进而优化、变革学习的重点课题。然而，如何采集数据(Worsleyetal.,2015;Spikoletal.,2017)、融合数据(Kadadietal.,2014;Samuelsenetal.,2019)、建模数据(牟智佳，2020;王一岩等，2021)依然是多模态学习分析从教育实验环境的个案分析走向真实教育场景的全样本透视亟需破解的问题。因此，本研究将聚焦多模态学习分析中的数据采集、融合、建模三大问题进行梳理和阐释，以期为多模态学习分析的应用提供整体性思路。二、研究方法本研究采用系统性文献综述法，通过对相关文献进行检索、筛选和评估，最终确定研究文献样本。为有效检索国内外多模态学习分析的相关研究文献，本研究在态交互国际会议(InternationalConferenceonMultimodalInteraction,AnalyticsandKnowledge,LAK)、计算机系统中的人类因素国际会议 Systems,ACMCHI)、多媒体国际会议(ACMInternationalConferenceonMultimedia,ACMMM)等会议论文集中，以“MultimodalLearningSensoryData”为关键词检索相关外文文献。同时，以“多模态学习分析”“多模态数据”为关键词在CNKI数据库检索相关中文文献。文献发表时间限定为2012年1月—2022年7月，最终检索到外文文献1801篇，中文文献251篇，总计2052篇。为确保样本文献纳入的准确性，研究借鉴已有的系统性文献综述筛选标准(如论文可全文获取、研究主题围绕多模态学习分析、采用实证研究或文献综述方法等),并通过“滚雪球”方法检索、阅读和纳入更多符合标准的文献，最终筛选出符合标准的文献共计有68篇。文献筛选过程如图1所示。文献共计2052篇阅读标题、摘要、关键词剔除不符合基本标准的文献762篇(非英语或中文、全文不可获取、重复文献、3页内短论文)331篇剔除非实证研究文章或综述类文章903篇阅读全文献的基础上采法获得相关文献12篇图1文献筛选过程图三、多模态学习分析的数据采集多模态数据的采集是多模态学习分析的基础与关键。已有研究将多模态数据按照不同标准进行了分类：陈凯泉等(2019)按照由外及内的层次将学习过程中产生的所有数据归纳为外显数据、心理数据、生理数据和基础数据；牟智佳(2020)基于多模态学习分析的空间结构，将数据分为学习体征数据、人机交互数据、学习资源数据和学习情境数据；汪维富等(2021)进一步将学习体征数据细分为自主可控的动作型数据和伴随生成的生理型数据；穆肃等(2021)根据数据产生的场域，将数据分为数字空间数据、物理空间数据、生理体征数据、环境空间数据和心理测量数据。倘若按照人的感官系统与外界环境相互作用的方式，数据则可划分为文本、语音、动作、表情、眼动和生理等多模态数据。文本数据是指学习者在学习过程中产生的以书面语言形式表征的数据，如主题发言、问题评论、反思性报告等。这些数据可借助在线学习管理系统采集获得。随着智能纸笔的兴起，通过文字识别技术，可实现在课堂教学场景中对学习者过程性文本数据的手写同传。通常，文本数据可用于预测学习者的认知状况。有研究者对150名小学教育专业师范生在在线学习管理系统中提交的以“我的教育理念”为题的写作文本进行认知网络分析发现，在成绩水平对比中，优秀组师范生的专业认知网络更为复杂与丰富；在性别对比中，女性师范生能够在同一种认知技能模式下将不同的认知内容有机结合，而男性师范生往往不拘泥于某一种认知技能的习得(吴筱萌等，2021)。语音数据是指学习者在对话情境中的言语内容，包括人人对话和人机对话。就前者而言，利用多向麦克风可自动采集在协作学习情境中学习者互动的语音数据，以解释学习者协作知识建构的层次。对于后者来说，智能学习工具是获取这类语音数据的主要工具。例如，在语言学习场景中，借助智能语言学习工具，可自动采集学习者与智能设备进行人机对话的内容，用于解读学习者的知识习得绩效。除了内容性的语音数据，语气、语调、语速等韵律数据也属于语音数据，可用于解释学习者的情感状态。沃斯勒等人(Worsleyetal.,2011)利用Praat这一自然语言处理软件，采集大学生在完成电子和机械工程设计任务时的思维复述语音，通过分析语音数据的韵律(包括音高、强度和说话持续时间)、语言流利情况(包括停顿、补充、再次发声)和话语情感，发现新手型学习者更倾向于采用轻描淡写式的语词，而专家型学习者则更喜欢使用确认性的语词表达。动作数据是指对学习者身体各部分动作进行识别和表征的数据，如头部移动、手势变化、腿部运动等。这类数据可以借助非接触式记录设备(如摄像机)采集的视频，并应用有关算法从视频中提取而成。随着体感技术的发展，能够捕获到且被用于学习分析的动作数据将越计、陀螺仪以及磁传感器等惯性传感器来感测局部肢体动作；二是利用光学传感器获取人体的全身影像；三是联合惯性及光学传感器来感测肢体运动的方向和位移等。动作数据不仅可以判定学习者的行为轨迹和序列，直接反映学习者行为特征，还可以预测学习者与环境的交互状态及其认知状态的发展。例如，安祝德(Andrade,2017)通过采集具身交互学习环境中学习者双手移动的数据，发现学习者的双手移动序列与其对生态系统反馈循环概念的理解密切相关。表情数据是指对学习者面部表情特征进行捕捉和识别的数据。这类数据可以借助摄像头与人脸识别系统采集而来，且借助传感技术，还能够追踪和捕捉到细微的表情变化。曼卡莱斯等人(Monkaresietal.,2017)利用MicrosoftKinect人脸跟踪器抓取学习者在完成结构化写作活动中的所有面部表情，并让学习者在回溯性活动视频中对面部表情标注投入状态的注释，结果发现人脸跟踪器提取的表情数据能很好地度量学习者的学习投入状态。眼动数据是指借助眼球追踪器获取的诸如注视轨迹、注视时间、眼跳方向、瞳孔大小、眨眼频率和扫视频率等的数据。它是衡量注意究者利用眼动数据来判断学习者在复杂学习任务中的决策策略 (Renkewitzetal.,2012),还有研究者通过对比专家和新手在查看新地图时的眼睛注视轨迹、注视时间、注视次数等眼动数据，进而判断专家和新手的认知负荷及其差异(Oomsetal.,2012)。由于眼动数据采集设备成本较高，现有研究基本以实验室环境为主，真实环境中的研究仍是少数。生理数据是指学习者的体温、血压、心率、呼吸、血流量等基本体征数据和脑电信号(Electroencephalogram,EEG)、皮肤电反应通常需要借助特定的设备(如脑电头盔、腕带等)。当前兴起一种无需特殊的硬件设备，只需要一个基于网络摄像头和机器学习算法开发的工具包，即可在互联网环境下实现对生理数据的自动采集，且不受浏览器或编程经验的限制。而且，这种方式逐渐扩展至对眼动数据的采集，极大地降低了多模态数据采集的难度。例如，哈佛大学学习、创新与技术实验室的汉森等人(Hassanetal.,2021)研发的EZ-MMLA工具集便可实现对各种模态数据的自动采集。研究者常用脑电信号预估学习者完成任务时的投入度和认知负荷(Millsetal.,20Hassibetal.,2019)。当然，皮肤电反应尽管能监测到情绪唤醒，但无法判断唤醒是由积极刺激还是消极刺激引起的，因此要想诊断情绪的正向性或负向性，最好能融合其他模态的数据(如眼动数据、表情数据、脑电信号等)进行综合分析。四、多模态学习分析的数据融合教育大数据研究遵循数据和算法共同驱动知识发现的范式(赵佳丽等，2020)。多模态学习数据虽然为我们全面感知学习者的真实学习状态提供了多元的信息支持，但是要想揭示深层次的学习发生机理和规律，还需要利用多模态数据的信息互补机制，根据一定的规则和关系对不同模态的数据集进行重新融合，以充分挖掘多模态数据背后潜藏的信息，客观全面地揭示学习者的认知规律。数据融合的目的就是根据关键特征来关联集成两个及以上的数据集，生成基于多模态数据的连贯性、对齐性与互证性的证据图景(汪维富等，2021),从而带来更稳健的预测，为后续进行个性化干预与自适应反馈提供依据 (吴永和等，2021)。目前，研究者主要通过机器学习的方法进行数据融合，以实现对多模态数据内部特性的整合和逐层抽象。按照信息抽象的层次，可以将多模态数据融合策略由低到高分成三个层次：数研究者们尝试将不同层次的融合策略加以结合，从而形成混合式融合策略。图2为四种融合策略的示意图。模型章模态1●特征2特征n特征1特征2特征2▲模型1章模型章模型2本模型n章模型本模型本模态nC图2多模态数据融合策略示意图数据层融合是指将各模态的原始数据(即不处理或经过简单预处理的数据)直接输入到融合中心而完成的融合。这种层次融合的特点是保留了尽可能多的原始信息，但也容易因信息的冗余而降低模型的性能。在运用数据层融合策略时，首先需要找到同一实例在不同模态信息中组件的时间或空间对应关系，进行数据对齐后，再使用基于自适应加权的融合方法、基于相关函数的融合方法等对数据进行训练以得到模型，最后利用准确率(Accurary)、精确率(Precision)、召回率(Recall)、P-R曲线、均方根误差(RMSE)等指标来评估模型的性能。例如，宋丹等人(2020)采集了前两届学生不同课程的成绩，并利用成绩之间的相关性建立了专业课程成绩相互预测模型。又如，帕杜等人(Pardoetal.,2017)让学习者在学习生态系统的概念时，通过手势动作模拟控制计算机界面中捕食者和被捕食者的关系，将手备进行数据采集，并通过与硬件设备关联的应用程序初步提取数据方法；嵌入法，即由逻辑回归算法、随机森林等算法自身决定应留下哪些特征，这是一种同时进行特征选择与算法训练的方法；包装法，即通过不断修剪特征，直到找到最佳预测模型的数据特征组合，这是一种重复训练模型的方法。在实际应用中，当数据量较大时，应优先通过过滤算法筛掉大量特征，再使用嵌入法或包装法实现特征选择。特征之间的语义联系，直接选用机器学习算法对提取和选择后的特征进行融合处理，这种算法多为监督学习算法。例如，基恩奈克斯等人 (Giannakosetal.,2019)从游戏化学习环境中采集了眼动数据、脑电信号数据、面部数据、点击流数据，并从中提取了689个特征，然后利用随机森林算法对这些特征进行融合，最终构建出了最优模态组合与学习绩效的预测模型。二是考虑各模态特征之间的语义联系，选用基于拼接和线性组合等简单融合操作方法、基于注意力机制的融合方法、基于双线性池化的融合方法、基于张量融合的方法等完成特征融合。例如，陈等人(Chenetal.,2019)提取了文本数据和语音数据中的特征，然后利用基于注意力机制的融合方法将这些特征向量进行融合，从而得到了情感状态识别模型。决策层融合是指对不同模态数据进行一系列处理(包括预处理、特征提取、识别等)后，先对不同模态数据进行训练得到多个模型，再对模型进行组合从而完成数据融合。这种层次的融合有两个特点：一是融合结果的有效性与模型的组合有关，由于模型的性能是相互独立的，因而融合后最终形成的模型有较高的容错性能和抗干扰性能。二是各模态之间相关程度不高，因而有助于发挥多模态数据之间的互补性，更能体现数据的互补机制。在运用决策层融合策略时，可以先对每种模态的数据按照特定的时间间隔进行标注，再通过机器学习算法构建各模态与学习指标间的预测模型，最后通过最大值融合、平均值融合、贝叶斯规则融合以及集成学习等方法对模型进行融合，并在评估模型性能后得到最优模型。其中，集成学习方法包括基于投票思想的多数票机制的集成分类器、基于Bagging思想的套袋集成技术、基于Boosting思想的自适应增强方法、分层模型集成框架Stacking、基于神经网络的集成学习等。例如，阿什温等人(Ashwinetal.,2020)采集了面对面学习环境中的面部表情、手势与身体姿势等图像数据，然后利用卷积神经网络算法训练摆拍单人图像数据和摆拍多人图像数据，分别得到CNN-1模型和CNN-2模型，最后通过神经网络权重矩阵融合这两个模型，从而得到课堂自然情境下的投入、无聊、中立等情感状态的分类器模型。张琪等(2020)采集了在线学习环境下的面部数据和生物信号数据，并进行特征提取，而后分别构建了高兴、厌烦等情感模型和积极情绪与消极情绪模型，再通过隐马尔可夫模型进行时间序列的关联处理，最后使用循环神经网络和长短期记忆网络等算法得到了最优特征组合与情绪状态的融合模型。随着深度学习算法的不断涌现，数据层融合和特征层融合统称为早期融合，决策层融合称为晚期融合。而混合融合便是结合了早期融合和晚期融合的一种新的数据融合策略。它是指对各模态数据进行训练得到多个模型后，再组合其中几个模型形成多模态预测器，最后与单模态预测器进行组合而完成数据融合。例如，罗等人(Luoetal.,2022)采集了在线学习环境下的头部姿态数据、面部表情数据、在线平台交互数据等，其中头部姿态数据和面部表情数据采用决策层融合策略，在线交互数据采用特征层融合策略，最终采用层次分析法得到权重矩阵，由此实现了多模态数据融合，并构建了由认知注意、学习情绪和思维活动三个维度构成的学习兴趣预测模型。虽然这种数据融合策略综合了早期融合和晚期融合的优点，但也增加了模型的结构复杂度和训练难度。目前，尚未有研究者明确指出哪些算法、哪种融合策略更适用于解决多模态学习分析中的哪类问题。因此，为全面洞悉学习者的学习问题并预测其潜在趋势，应采用多类算法构建多个预测模型，通过对比模型的预测性能后再进行选择。多模态学习分析强调运用模型来实现数理解释逻辑的教育循证。其中，以学习者模型为主要的学习分析模型。从学习过程看，通过对学习者语言、动作、表情、眼动、生理等多模态数据进行全方位采集精准刻画学习者的学习特征，并在更深层次上探究和解释学习者的学1.知识状态建模知识状态不仅包括学习者对某一知识领域当前知识掌握水平的描述，也包括对先前知识掌握水平的描述。对学习者知识状态建模，通常以一定学习周期内学习者多次测试的采集数据为主，也可辅以学习者绘制的草图数据或概念图数据，以知识图谱可视化技术描述知识资源及其载体，利用朴素贝叶斯、卷积神经网络等数据融合方法，显示个体的知识发展进程及其相互之间的结构关系，从而为学习者提供个性化的资源推荐和学习路径规划，让数据驱动的“因材施教”成为可能。2.认知状态建模认知状态是对学习者内在信息加工过程的描述。对学习者认知状态建模，通常可以借助学习行为数据和文本数据。由于生理数据与人类大脑神经系统的活动高度关联，因此使用生理数据构建认知状态模型日益受到关注。拉尔穆索等人(Larmuseauetal.,2020)为深入了解学习者在线解决复杂问题过程中的认知负荷，测量并采集了学习者完成不同类型任务的绩效、认知操作广度、工作记忆基本水平、自我报告的认知负荷水平等心理数据以及心率、心率变异性、皮肤电反应、皮肤温度等生理数据，并按照认知负荷理论，通过逻辑回归等数据融合方法，构建了由学习者生理体征、认知操作广度和绩效三个维度构成的认知负荷预测模型。结果表明，当学习者在完成操作广度测试时，心率和皮肤温度是预测认知负荷水平的最佳变量，意味着学习者的认知负荷随着问题难度的升高而增大，尽管学习技能得以提升，但认知并为教师更好地根据学习者的认知水平设计在线学习任务提供了科数据和面部表情数据，并以学习者自我报告的情绪状态(包括厌恶、悲伤、快乐、恐惧、愤怒、惊讶)作为输出，利用DTREG工具分别模型能够取得比单模态数据预测更高的准确度。无独有偶，范等人学习过程中的面部表情数据和后摄像头获取学习者用手指控制视频并利用支持向量机方法进行数据融合，也发现生理数据与面部表情数据的融合是预测学业情绪的最佳模型。此外，有研究者尝试融合其他模态数据构建情感状态模型。亨德森等人(Hendersonetal.,2020)通过获取学习者在参与紧急医疗技能训练游戏中的姿态数据、游戏过程数据以及研究者观察得到的情感状态数据，并利用深度神经网络对这些多模态数据进行融合，从而构建了游戏化学习环境下学习者的情感模型。罗等人(Luoetal.,2022)利用摄像机和学习平台采集了学习者头部姿态数据、面部表情和交互学习数据，并利用加权分层融合的方法构建了由三类数据预测的学习兴趣模型，从而为教师实时衡量学习者的学习兴趣并做出及时干预提交互状态是指学习者与教师或同伴之间交流互动的情况。在以往的学习分析中，交互状态模型主要通过对学习者在学习平台的行为数据进行社会网络分析而实现。随着多模态数据采集技术和融合算法的al.,2018)通过收集学习者在合作完成STEM项目过程中的互动动作数据、语音数据、Arduino板自动记录的编程所用的硬件和软件类型及其连接信息，以及移动工具中记录的计划、实施与反思阶段的成果数据，并利用深度神经网络构建了交互状态模型。该研究尤其指出学习者在合作完成复杂任务时，同伴之间的手部距离和头部距离可用于综合状态建模是指对学习者多个学习状态进行综合分析而建立现预测模型等。例如，帕帕米特西乌等人(Papamitsiouetal.,2020) (如图3所示)。该研究较好地展现了不同学习活动类型与多模态数据之间的复杂映射关系，以及基于混合研究方法的学业表现预测分测量变量与数据类型测量变量与数据类型⑤回答错误的总时间：日志记录适应性活动中的投入学业表现预测模型高学业表现中低学业表现预测指标预测变量中。例如，蒙佳洛斯卡等人(Mangaroskaetal.,2021)以认知负荷理论和情感动力模型(ModelofAffectiveDynamics))为理论基础，基于编程平台获取了学习者在理解代码和优化代码两个阶段阅读事件和编码事件中的脑电数据、眼动数据、表情数据和平台日志数据。其中，脑电数据用于表征注意力、聚合思维和记忆负荷，眼动数据用于表征学习者在编程平台区域(编码区、编程问题区、控制台区)的注视时长和认知负荷，表情数据用于表征满意、沮丧、无聊、困惑等情感状态，平台日志数据用于表征阅读事件和编码事件，最后利用线性回归算法构建了学习者在不同学习阶段注视编程平台不同区域时的学业表现预测模型。六、讨论与展望多模态学习分析旨在利用“多模态”思想和方法对学习者的内在学习状态、特征与变化进行深度诠释，从而挖掘学习规律、优化学习过程、促进精准教学。在文献梳理中，我们发现尽管多模态学习分析在数据采集、数据融合和数据建模等方面取得了诸多进展，但仍存在数据采集难以跨越场景、数据融合的理论基础薄弱、数据建模缺乏情境依赖等问题。未来多模态学习分析研究可从以下几个方面加以深1.加强情境感知，实现场景数据的混合采集情境是表征教育数据的重要因素，能够表征学习者在复杂教学环境中的真实学习状态，对构建学习模型起着关键作用。随着物联网和智能传感技术的发展，如何跨越物理和数字世界进行教育情境的精准建模日渐成为一种研究趋势(牟智佳，2020)。基于文献分析，目前单片段式的学习表现数据，较少在时间序列层面捕获连贯性的过程数据，因而难以全面、实时反映学习的动态过程。二是采集到的数据基本是单一时空场域，难以跨越线上、线下不同场景实现对数据的“无缝衔接”,并做到与真实教学情境的紧密耦合。为此，未来学校需构建融情境感知技术、影像技术、跟踪与评价技术、平台数据采集技术等混合手段的智慧教育环境，从学习空间建设上为多模态学习数据的线上线下场景采集提供支持，进而按照“情境—活动—事件一数据”四层框架实现全过程和全方位的数据采集。教学情境数据可从线上、线下两个时空维度进行分类采集，包括与学习者相关的用户情境、时间情境、任务情境、物理情境、设备情境等信息。由于数据只是用于描述事物的符号记录，其自身并不能提供判断或意义诠释，数据的意义获取需要与具体业务相关联(王冬青等，201

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

智慧教育：基于系统性文献综述的多模态学习分析研究进展与前瞻

文档简介

温馨提示

最新文档

评论

相关文档