版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、教育大数据分析:方法与探索 一、大数据与大数据分析概述 随着数据获取、 存储等技术的不断发展, 以及人们对数据的 重视程度不断提高,大数据得到了广泛的重视,不仅仅在 IT 领 域,包括经济学领域、医疗领域、营销领域等等。例如,在移动 社交网络中,用户拍照片、上网、评论、点赞等信息积累起来都 构成大数据; 医疗系统中的病例、 医学影像等积累起来也构成大 数据;在商务系统中,顾客购买东西的行为被记录下来,也形成 了大数据。 时至今日, 大数据并没有特别公认的定义。 有三个不同角度 的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法 通过人工在合理时间内达到截取、 管理、处理并整理成为人类所
2、 能解读的信息 1 。(2)“大数据”指不用随机分析法(抽样调 查)这样的捷径,而采用所有数据进行分析处理的方法的数据 2 。( 3)“大数据”是需要新处理模式才能具有更强的决策力、 洞察发现力和流程优化能力的海量、 高增长率和多样化的信息资 产。 通常把大数据的特点归纳为 4个 V,即数据量大( Volume)、 数据类型多( Varity )、数据的价值密度低( Value )以及数据产 生和处理的速度非常快( Velocity )。 对大数据进行分析可以产生新的价值。 数据分析的概念诞生 于大数据时代之前,但传统的数据分析和大数据分析是不同的 传统的数据分析往往是由客户提出一个问题, 分
3、析者围绕该问题 建立一个系统, 进而基于该系统解释这个问题; 而大数据分析有 时候并没有明确的问题, 而是通过搜集数据, 浏览数据来提出问 题。 另一方面, 传统的数据分析是在可用的信息上进行抽样, 大 数据分析则是对数据进行不断的探索,通过全局分析连接数据, 达到数据分析的目的。 传统的数据分析的方法, 往往是大胆假设小心求证, 先做出 假设,再对数据进行分析,从而验证先前的假设;而大数据分析 则是对大数据进行探索来发现结果, 甚至发现错误的结果, 之后 再通过数据验证结果是否正确。 因此,传统的数据分析可以看成一种静态的分析, 大数据分 析可以看成一种动态的分析。 尽管如此, 大数据分析和
4、传统数据 分析也并非是泾渭分明的, 传统数据分析的方法是大数据分析的 基础,在很多大数据分析的工作中仍沿用了传统数据分析的方 法。 基于上述讨论, 我们给出“大数据分析”的定义: 用适当的 统计分析方法对大数据进行分析, 提取有用信息并形成结论, 从 而对数据加以详细研究和概括总结的过程。 大数据分析分为三个层次 3 ,即描述分析、预测分析和规 范分析。 描述分析是探索历史数据并描述发生了什么 (分析已经 发生的行为),预测分析用于预测未来的概率和趋势(分析可能 发生的行为),规范分析根据期望的结果、特定场景、资源以及 对过去和当前事件的了解对未来的决策给出建议 (分析应该发生 的行为)。例如
5、,对于学生学习成绩的分析,描述分析是通过分 析描述学生的行为, 如是否成绩高的同学回答问题较多; 预测分 析是根据学生的学习行为数据对其分数进行预测, 如根据学生回 答问题的次数预测其成绩; 而规范分析则是根据学生的数据得到 学生下一步的学习计划,如对学生回答问题的最优次数提出建 议。 大数据分析的过程可以划分为如下 7 个步骤:(1)业务调研, 即明确分析的目标; (2)数据 准备,收集需要的数据; ( 3)数据浏览,发现数据可能存在 的关联;( 4)变量选 ?瘢 ?找出自变量与因变量; (5)定义模式, 确定模型;(6)计算模型的参数; (7)模型评估。 我们以预测学生学习成绩为例解释上述
6、过程。 首先, 我们的 目的是根据学生的行为预测学习成绩。 接下来, 对于传统的方法 来说, 通过专家的分析确定需要什么数据, 比如专家提出对学生 成绩有影响的数据,包括出勤率、作业的完成率等,可以从数据 源获取这样的数据; 大数据分析的方法有所不同, 是找到所有可 能相关的数据, 甚至包括血型等, 这些数据与成绩之间的关系未 必有影响, 就算发现了关系也未必可以解释, 但是获取尽可能多 的数据有可能发现未知的关联关系。 上面的步骤包括了很多因素, 下面确定哪些因素会体现在模 型中,可以通过可视化等方法发现哪些因素和我们的分析目标相 关,也可以通过特征工程的方法选择包含在模型中的变量, 并排
7、除一些相关的自变量, 比如学生的起床时间和吃早饭的时间存在 关联,在模型中可以只考虑其中之一,加快计算速度。 再接下来是定义模型的模式, 比如可以把上述问题定义为线 性回归, 再通过一些算法确定模型中的参数, 从而得到最后的模 型。然后对模型进行评估,检验这个模型是不是真的有效,以及 是否是可解释的。 有些有用的模型并不见得可解释, 例如发现了 血压对成绩有影响, 这个是有用的, 但是未必有一个明确的解释。 二、在线教育大数据分析研究现状 在线教育大数据为教育研究的进行提供了非常好的途径和 机会,它构成了一个跨国家、跨文化、跨职业、跨阶层的平台, 学习者的每个行为都为研究者贡献了数据。而通过研
8、究这些数 据,我们可以发现新的规律,或是指导学习者的行为,例如预测 学生的学习情况、课程的受欢迎程度以及发现新的学习方法等。 利用平台得到的数据, 预测并回馈给平台, 从而可以达到改进平 台的目的,还可以为平台发现新的业务。 当前在线教育大数据的研究已经开始,但是研究成果并不 多,主要的研究对象是学生,集中在对学生学习行为的研究,而 授课人员的行为和平台的行为这两个方面的研究比较少。 我们将 现有的主流研究内容进行归类,分为多个方面,包括: 1)学习者行为分析与预测; (2)学习者学习效果分析与预测; (3)平台供应商数据分析。 学习者行为分析与预测的研究指的是,通过学习者在 MOOC 平台上
9、产生并积累的行为数据,采用量化学习者行为特征的方 式,对其学习行为进行分析与预测。具体而言,文献 4 研究了 在 MOOC平台上有退课风险的学习者的早期预警问题,他们基于 回归分析的方法, 提出了两种迁移学习算法, 通过增添正则项最 小化连续不间断学习周中的失败概率。 文中提出了三个方法, 分 别是 LR-SEQ,LR-SIM与 LR-MOV,其中在 AUC指标上 LR-SIM与 LR-MOV效果更好, LR-SIM 在开课前两周的预测相对于其他方法 更为出色。文献 5 采用了机器学习的方法研究了学习者退课率 的预测方法, 他们仅利用了网页浏览流数据, 提出了基于支持向 量机的机器学习模型以预
10、测学习者的退课情况。 他们的方法随着 课程的进行, 预测准确率逐渐上升, 但在开课前几周的预测效果 不够理想。文献 6 同样研究了学习者退课预测的问题,他们采 用的方法是构建精确的预测模型与数据的时态与非时态表达, 得 到了较为良好的 AUC指标。文献 7 则是采用了隐形马尔科夫模 型对学习者课程滞留情况进行了预测, 他们通过简单交叉乘积的 方法,将连续特征编码为单一离散可观察状态。文献 8 同样研 究了退课问题,他们构建了时序模型,通过标签的方法,采用了 LSTM单元的 RNN模型。他们得到的结果说明了在此问题上使用 LSTM单元要比普通的 RNN效果更好。文献 9 研究了在 MOOC平 台
11、上的学习者行为预测模型的迁移学习, 他们提出了学习者预测 的实时方法, 并提出了对于同一个预测问题, 建立表达式以改变 这些方法的参数设置, 实验证明了迁移学习可以使得两种方法的 效果等价。文献 10 则首次针对中文 MOOC中学习行为的特点将 学习者分类以考察学习行为与效果之间的关系, 这项工作使得人 们可以有效判别一个学习者是否能够或潜在能够完成学习任务。 文献 11 通过学习者积累的作业文章与 MOOC浏览流数据对学习 行为进行了分析与预测。文献 12 对学习者高风险退课进行预 警。 4 He J, Bailey J, Rubinstein B I P, et al. Identifyi
12、ng At-Risk Students in Massive Open Online CoursesJ. Aaai , 2015. 5 Kloft M, Stiehler F, Zheng Z, et al. Predicting MOOCD ropout over Weeks Using Machine Learning MethodsA. EMNLP 2014 Workshop on Analysis of Large Scale Social Interaction in Moocs. 2014: 60-65. 6 Taylor C, Veeramachaneni K, OReilly
13、U M. Likely to stop ? Predicting Stopout in Massive Open Online CoursesJ. Computer Science , 2014. 7 Balakrishnan G , Coetzee D. Predicting student retention in massive open online courses using hidden markov modelsJ. Electrical Engineering and Computer Sciences University of California at Berkeley,
14、 2013. 8 Fei M , Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online CoursesA. IEEE International Conference on Data Mining Workshop. IEEE, 2015:256-263. 9 Boyer S, Veeramachaneni K. Transfer Learning for Predictive Models in Massive Open Online CoursesM/ Artificial Inte
15、lligence in Education. Springer International Publishing, 2015 : 54-63. 10 Tang S , Peterson J C , Pardos Z A. Deep Neural Networks and HowT hey Apply to Sequential Education DataA. Proceedings of the Third (2016) ACMC onference on Learning Scale. ACM, 2016: 321-324. 11 ?Y 卓轩, 张岩, 李晓明 . 基于 MOOC数据的学习
16、行 为分析与预测 J. 计算机研究与发展, 2015 , 52(3):614-628. 12 Halawa S , Greene D , Mitchell J. Dropout prediction in MOOCs using learner activity featuresJ. Experiences and best practices in and around MOOC,s 2014 , 7. 13 Brinton C G , Chiang M. Mooc performance prediction via clickstream data and social learning
17、 networksA. Computer Communications(INFOCO)M, 2015 IEEE Conference on. IEEE 2015: 2299-2307. 14 Brinton C G , Buccapatnam S , Chiang M , et al. Mining MOOC Clickstreams : Video-Watching Behavior vs. In-Video Quiz PerformanceJ. IEEE Transactions on Signal Processing , 2016, 64 ( 14): 3677-3692. 15 To
18、scher A , Jahrer M. Collaborative filtering applied to educational data miningJ. KDD cup, 2010. 17 Meier Y , Xu J , Atan O , et al. Predicting gradesJ. IEEE Transactions on Signal Processing , 2016 , 64( 4): 959-972. 18 Sanchez-Santillan M, Paule-Ruiz M P, Cerezo R, et al. Predicting Students Perfor
19、mance : Incremental Interaction ClassifiersA. Proceedings of the Third ( 2016) ACM Conference on Learning Scale. ACM , 2016 : 217-220. 19 Ruiperez-Valiente J A, Alexandron G , Chen Z , et al. Using multiple accounts for harvesting solutions in moocsA. Proceedings of the Third ( 2016) ACMC onference on Learning Scale. ACM , 2016 : 63-70. 20 Pang Y , Wang T , Wang N. MOOC Data from ProvidersA. Enterprise Systems C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版年薪制劳动合同:能源企业关键岗位人才协议4篇
- 2025年度人工智能技术应用居间合同范本4篇
- 2025年度新能源技术研发担保合同2篇
- 2025年度智能家居门窗品牌租赁合同范本4篇
- 2025年度精密模具租赁服务合同模板4篇
- 2025年度智慧社区建设项目承揽合同建设施工合同书3篇
- 2025年度暖气系统安装与售后服务合同范本4篇
- 2025年度输电线路钢管工劳务分包工程合同范本2篇
- 二零二五年度城市公园绿化养护承包合同4篇
- 2025年度鱼塘租赁合同(含渔业市场调研与分析)4篇
- 智能衣服方案
- 李克勤红日标准粤语注音歌词
- 教科版六年级下册科学第一单元《小小工程师》教材分析及全部教案(定稿;共7课时)
- 中药材产地加工技术规程 第1部分:黄草乌
- 危险化学品经营单位安全生产考试题库
- 案例分析:美国纽约高楼防火设计课件
- 老客户维护方案
- 移动商务内容运营(吴洪贵)任务一 用户定位与选题
- 2021年高考化学真题和模拟题分类汇编专题20工业流程题含解析
- 工作证明模板下载免费
- (完整word)长沙胡博士工作室公益发布新加坡SM2考试物理全真模拟试卷(附答案解析)
评论
0/150
提交评论