版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、教育大数据分析:方法与探索一、大数据与大数据分析概述随着数据获取、存储等技术的不断发展,以及人们对数据的重视程度不断提高,大数据得到了广泛的重视,不仅仅在IT 领域,包括经济学领域、医疗领域、营销领域等等。例如,在移动社交网络中,用户拍照片、上网、评论、点赞等信息积累起来都构成大数据;医疗系统中的病例、医学影像等积累起来也构成大数据;在商务系统中,顾客购买东西的行为被记录下来,也形成了大数据。时至今日,大数据并没有特别公认的定义。有三个不同角度的定义:(1)“大数据”指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、 处理并整理成为人类所能解读的信息1 。 ( 2)“大数据
2、”指不用随机分析法(抽样调查) 这样的捷径,而采用所有数据进行分析处理的方法的数据2 。 ( 3) “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。通常把大数据的特点归纳为4 个 V, 即数据量大( Volume) 、数据类型多(Varity )、数据的价值密度低(Value)以及数据 产生和处理的速度非常快(Velocity )。对大数据进行分析可以产生新的价值。数据分析的概念诞生于大数据时代之前,但传统的数据分析和大数据分析是不同的。传统的数据分析往往是由客户提出一个问题,分析者围绕该问题建立一个系统,进而基于该系统解释这个问题;
3、而大数据分析有时候并没有明确的问题,而是通过搜集数据,浏览数据来提出问题。另一方面,传统的数据分析是在可用的信息上进行抽样,大数据分析则是对数据进行不断的探索,通过全局分析连接数据,达到数据分析的目的。传统的数据分析的方法,往往是大胆假设小心求证,先做出假设,再对数据进行分析,从而验证先前的假设;而大数据分析则是对大数据进行探索来发现结果,甚至发现错误的结果,之后再通过数据验证结果是否正确。因此, 传统的数据分析可以看成一种静态的分析,大数据分析可以看成一种动态的分析。尽管如此,大数据分析和传统数据分析也并非是泾渭分明的,传统数据分析的方法是大数据分析的基础,在很多大数据分析的工作中仍沿用了传
4、统数据分析的方法。基于上述讨论,我们给出“大数据分析”的定义: 用适当的统计分析方法对大数据进行分析,提取有用信息并形成结论,从而对数据加以详细研究和概括总结的过程。大数据分析分为三个层次3 ,即描述分析、预测分析和规范分析。 描述分析是探索历史数据并描述发生了什么(分析已经发生的行为),预测分析用于预测未来的概率和趋势(分析可能发生的行为),规范分析根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议(分析应该发生的行为)。例如,对于学生学习成绩的分析,描述分析是通过分析描述学生的行为,如是否成绩高的同学回答问题较多;预测分析是根据学生的学习行为数据对其分数进行预测,
5、如根据学生回答问题的次数预测其成绩;而规范分析则是根据学生的数据得到学生下一步的学习计划,如对学生回答问题的最优次数提出建议。大数据分析的过程可以划分为如下7 个步骤:(1)业务调研,即明确分析的目标;(2)数据准备,收集需要的数据;(3)数据浏览,发现数据可能存在的关联;(4)变量选?瘢 ?找出自变量与因变量;(5)定义模式,确定模型;(6)计算模型的参数;(7)模型评估。我们以预测学生学习成绩为例解释上述过程。首先, 我们的目的是根据学生的行为预测学习成绩。接下来, 对于传统的方法来说, 通过专家的分析确定需要什么数据,比如专家提出对学生成绩有影响的数据,包括出勤率、作业的完成率等,可以从
6、数据源获取这样的数据;大数据分析的方法有所不同,是找到所有可能相关的数据,甚至包括血型等,这些数据与成绩之间的关系未必有影响,就算发现了关系也未必可以解释,但是获取尽可能多的数据有可能发现未知的关联关系。上面的步骤包括了很多因素,下面确定哪些因素会体现在模型中,可以通过可视化等方法发现哪些因素和我们的分析目标相 关,也可以通过特征工程的方法选择包含在模型中的变量,并排除一些相关的自变量,比如学生的起床时间和吃早饭的时间存在 关联,在模型中可以只考虑其中之一,加快计算速度。再接下来是定义模型的模式,比如可以把上述问题定义为线 性回归,再通过一些算法确定模型中的参数, 从而得到最后的模 型。然后对
7、模型进行评估,检验这个模型是不是真的有效,以及 是否是可解释的。有些有用的模型并不见得可解释, 例如发现了 血压对成绩有影响,这个是有用的,但是未必有一个明确的解释。二、在线教育大数据分析研究现状在线教育大数据为教育研究的进行提供了非常好的途径和 机会,它构成了一个跨国家、跨文化、跨职业、跨阶层的平台, 学习者的每个行为都为研究者贡献了数据。而通过研究这些数 据,我们可以发现新的规律,或是指导学习者的行为,例如预测 学生的学习情况、课程的受欢迎程度以及发现新的学习方法等。 利用平台得到的数据,预测并回馈给平台,从而可以达到改进平 台的目的,还可以为平台发现新的业务。当前在线教育大数据的研究已经
8、开始,但是研究成果并不 多,主要的研究对象是学生,集中在对学生学习行为的研究,而 授课人员的行为和平台的行为这两个方面的研究比较少。我们将现有的主流研究内容进行归类,分为多个方面,包括:( 1)学习者行为分析与预测;( 2)学习者学习效果分析与预测;( 3)平台供应商数据分析。学习者行为分析与预测的研究指的是,通过学习者在MOOC平台上产生并积累的行为数据,采用量化学习者行为特征的方式,对其学习行为进行分析与预测。具体而言,文献4 研究了在MOO印台上有退课风险的学习者的早期预警问题,他们基于回归分析的方法,提出了两种迁移学习算法,通过增添正则项最小化连续不间断学习周中的失败概率。文中提出了三
9、个方法,分别是LR-SEQ LR-SIM与LR-MOV其中在 AUCJ旨标上LR-SIM与LR-MOVt果更好,LR-SIM在开课前两周的预测相对于其他方法更为出色。文献5 采用了机器学习的方法研究了学习者退课率的预测方法,他们仅利用了网页浏览流数据,提出了基于支持向量机的机器学习模型以预测学习者的退课情况。他们的方法随着课程的进行,预测准确率逐渐上升,但在开课前几周的预测效果不够理想。文献6 同样研究了学习者退课预测的问题,他们采用的方法是构建精确的预测模型与数据的时态与非时态表达,得到了较为良好的AUU旨标。文献7则是采用了隐形马尔科夫模型对学习者课程滞留情况进行了预测,他们通过简单交叉乘
10、积的方法,将连续特征编码为单一离散可观察状态。文献8 同样研 究了退课问题,他们构建了时序模型,通过标签的方法,采用了LST丽元的RNNg型。他们得到的结果说明了在此问题上使用LST丽元要比普通的 RNNt果更好。文献9研究了在MOO序台上的学习者行为预测模型的迁移学习,他们提出了学习者预测的实时方法,并提出了对于同一个预测问题,建立表达式以改变这些方法的参数设置,实验证明了迁移学习可以使得两种方法的效果等价。文献10则首次针对中文 MOO中学习行为的特点将学习者分类以考察学习行为与效果之间的关系,这项工作使得人们可以有效判别一个学习者是否能够或潜在能够完成学习任务。文献11通过学习者积累的作
11、业文章与MOO浏览流数据对学习行为进行了分析与预测。文献12 对学习者高风险退课进行预警。4 He J, Bailey J, Rubinstein B I P,et al.Identifying At-Risk Students in Massive Open Online CoursesJ. Aaai , 2015.5 Kloft M,StiehlerF,Zheng Z,et al. PredictingMOOCDropout over WeeksUsing Machine Learning MethodsA. EMNLP 2014 Workshop on Analysis of Large
12、 Scale Social Interaction in Moocs. 2014: 60-65.6 Taylor C, Veeramachaneni K,O Reilly U M. Likelyto stop ? Predicting Stopout in Massive Open Online CoursesJ. Computer Science , 2014.7 Balakrishnan G , Coetzee D. Predicting student retention in massive open online courses using hidden markov modelsJ
13、. Electrical Engineering and Computer2013.Sciences University of California at Berkeley8 Fei M , Yeung D Y. Temporal Models for Predicting Student Dropout in Massive Open Online CoursesA. IEEE International Conference on Data Mining Workshop. IEEE , 2015: 256-263.9 Boyer S,Veeramachaneni K. Transfer
14、 Learning forPredictive Models in Massive Open Online CoursesM/ Artificial Intelligence in Education. Springer International Publishing , 2015 : 54-63.10 Tang S , Peterson J C , Pardos Z A. Deep Neural Networks and HowThey Apply to Sequential Education DataA. Proceedings of the Third ( 2016) ACMConf
15、erence on Learning Scale. ACM , 2016: 321-324.11 ?Y卓轩,张岩,李晓明.基于MOO敏据的学习行为分析与预测J. 计算机研究与发展,2015 , 52( 3) : 614-628.12 Halawa S , Greene D , Mitchell J. Dropout prediction in MOOCs using learner activity featuresJ.Experiences and best practices in and around MOOC, s 2014 , 7.13 Brinton C G , Chiang M.
16、 Mooc performance prediction via clickstream data and social learningnetworksA. Computer Communications ( INFOCO),M2015IEEE Conference on. IEEE2015 : 2299-2307.14 Brinton C G , Buccapatnam S , Chiang M , et al. Mining MOOC Clickstreams : Video-Watching Behavior vs. In-Video Quiz PerformanceJ. IEEE T
17、ransactions on Signal Processing , 2016, 64( 14):3677-3692.15 Toscher A , Jahrer M. Collaborative filtering applied to educational data miningJ. KDD cup,2010.16 KDDCup 2010: Educational Data Mining Challenge - PSLC DataShopEB/OL. https ://KDDCup/.17 Meier Y , Xu J , Atan O ,
18、et al. Predicting gradesJ. IEEE Transactions on Signal Processing , 2016 , 64( 4):959-972.18 Sanchez-SantillanM, Paule-Ruiz MP, Cerezo R,et al. Predicting Students Performance : Incremental Interaction ClassifiersA. Proceedings of the Third( 2016)ACM Conference on Learning Scale. ACM , 2016 :217-220.19 Ruiperez-Valiente J A , Alexandron G , Chen Z , et al. Using multiple accounts for harvesting solutions in moocsA. Proceedings of the Third ( 2016) ACMConference on Learning Scale. ACM ,2016: 63-70.20 Pang Y , Wang T, Wang N. MOOC Data fromProvidersA. Enterprise Systems
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电商协议2024法律效力与适用性分析
- 2024年商场清洁工定期服务协议
- 2024年协议模板书面形式
- 2024二手商品交易买卖协议大全
- 电力行业专用2024年度物资采购协议
- 数智驱动研究生教育治理模式的推广路径
- 低空经济市场竞争分析
- 中小学德育教育实施方案
- 2024年度铝单板购买协议
- 赌博法律课件教学课件
- 陕西师范大学学位英语试题
- 【基于嵌入式的人体健康智能检测系统设计与实现14000字(论文)】
- 基础管理风险分级管控清单(双体系)
- 医学课件:临床决策分析
- 江苏开放大学2023年秋《中级会计实务(上) 050284》第4次任务参考答案
- 屋顶光伏安全专项施工方案
- 4.与食品经营相适应的主要设备设施布局操作流程等文件
- 四班三倒排班表
- 银行业信息系统灾难恢复管理规范
- 医院重点岗位工作人员轮岗制度
- 2023光伏发电工程项目安全文明施工方案
评论
0/150
提交评论