数据挖掘技术在构建学生成绩预警系统的应用_第1页
数据挖掘技术在构建学生成绩预警系统的应用_第2页
数据挖掘技术在构建学生成绩预警系统的应用_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘技术在构建学生成绩预警系统的应用摘要:该文运用数据挖掘中关联规则技术,研究了高校学生不及格课程之间的关联性,给出了学生成绩预警系统的理论化模型。为教育工作者及早发现和帮助问题学生提供了一个范例。关键词:数据挖掘;预警系统;关联规则中图分类号: TP311 文献标识码: A 文章编号:1009-3044(2011)19-4529-02随着数据挖掘技术在商业领域获得的成功和广泛应用,近年来,越来越多的教育工作者开始利用数据挖掘技术对历史积留下来的海量教学数据库进行研究,并获得了许多有价值的成果。仅以学生成绩数据库为例,众所周知,学生的学习成绩并不是一个偶然事件,以前的成绩数据往往预示着该生

2、在后续课程中的成绩走向。例如,一个电磁学不及格的学生,很可能其电动力学也会出现不及格。这种现象给了我们一些启示,能否从大量的学生成绩数据中挖掘课程之间的成绩关联,构建一个成绩预警系统呢?目前,许多高校已开始加强对“学困生”的全面监督和尽力帮扶,如果在此之前,我们能根据一个学生的前期课程的考查结果分析出他本学期有可能出现不及格的课程,从而提早介入对他该课程的学习监管,无疑是一件很有意义的工作。以下就数据挖掘中的关联规则技术来浅要分析其在学生成绩预警系统中的实现。1 关联规则概述若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则的挖掘问题可形式化描述如下:设 Ii1,i2, ,im是

3、m 个不同项目的集合,D 是针对 I 的交易的集合,每笔交易包含若干项目i1,i2, ,im I。则关联规则X=>Y成立的条件是:1)它具有支持度s,即在交易数据库D 中至少有 s*100%的交易包含X Y。2)它具有置信度c,即在交易数据库D 中包含 X 的交易至少有 c*100%也包含 Y。关联规则的挖掘问题就是在交易数据库 D 中找出所有具有用户给定的最小支持度 minsup 和最小置信度 minconf 的规则来。该问题可以分解成两个子问题:1)找出存在于交易数据库中的所有频繁项目集。若项目集 X 的支持度 support(X) 不小于用户给定的最小支持度minsup, 则称 X

4、 为频繁项目集;否则为非频繁项目集。2)利用频繁项目集生成项目关联规则。对于每个频繁项目集 A,若 B A,B ,且 support(A)/support(B) minconf,则有关联规则B=>(A-B)。由于子问题2 相对来说较容易,因此研究的重点集中在第 1 个问题,即发现和识别所有的频繁集成为关联算法的核心,而这其中最有名的是Apriori 算法。该算法是一种宽度优先算法,通过对数据库的多趟扫描并采用递推的方式来发现所有的频繁项目集。尽管该算法在处理大规模数据集时还存在瓶颈,但通过剪枝和其他改良手段等已经使该算法得到了普遍应用。2 通过预处理建立分析数据源要对学生的不及格成绩数据

5、进行挖掘,首先要有大量的有效数据。笔者从中国科技大学的学生成绩数据库中取出物理学院 05 级到 07 级本科生的原始成绩数据表203.mdb 文件来进行挖掘,并对其进行了一系列预处理工作,如图1。1)删除无用字段和记录原始数据表(图1)中的字段并非都对挖掘有用,我们只选取感兴趣的xuehao(学号) , kc_code(课程号) , Score(成绩)三个字段。另外,由于我们只对不及格的必修课程感兴趣,因此要删除所有的选修课记录和全部课程都及格的记录,得到初步预处理后的数据表(图2)。对照照中国科大物理学院本科培养方案我们挑选出17门主干必修课程来进行挖掘研究,并分别给这17 门课程以AQ 的

6、17 个字母来标识,如表1 所示。我们只需保留原始数据表中Kc_code值为上述的 17 个值的记录即可,其余为无用记录可做删除。2)建立待挖掘数据表由于表中成绩已经全部是不及格数据,故无需做特别的离散化处理,只需要将对应的不及格成绩的课程在记录中予以简单标记即可。 为了清晰起见, 我们将 Kc_code字段和 score 字段合成一个字段 KS,其值则代表了不及格的课程的对应标识。例如,用 A 表示“单变量微积分不及格” 。此时数据表形式如图3 所示。通过以上预处理虽然可得到形如图3 的简单的待处理数据,然而最终待挖掘的数据表应该是按学号不同排列成的事务表。我们可以先创建该表的结构,再将图3

7、 所示的数据表内容转换进来。首先创建该表,表名为mydata0 ,表结构如表 2。再将原先的数据表(图 3)中的 xuehao 字段按相同值归并,并把该 xuehao 字段对应的所有KS字段值填入表mydata0中。最终生成的表mydata0( 图 4)即为只含不及格成绩的待挖掘数据表。3 成绩预警系统的模型建立与分析为简单起见,笔者使用目前较流行的数据挖掘工具软件WEKA对数据表 mydata0 进行了挖掘,得出的关联规则结果如表 3 所示(设 minsupp=0.1,minconf=0.4)。以表 3 得出的关联规则为基础即可生成成绩预警系统的模型(图5)。本模型给出了以下有价值的结论:1

8、)L,P,Q 这三者之间有极高的强关联性。这三门课程分别是电磁学、理论力学和电动力学。当一个学生其中任意两门出现不及格的分数时,有70%以上的概率使得其另一门课程也会不及格。这给我们以启示:在安排教学计划时,尽量不把这三门课放在同一学期,以避免学生同时出现 “挂科”。例如可将引发成绩预警的所有规则中置信度最高的L 课程(电磁学)提到大一的下学期,而将P,Q 这两门课(理论力学和电动力学)推到了大二的上学期学习。实践证明,这对及早发现“学困生”并给予及时的帮扶或学习态度上的纠正起到了良好的作用。2)应用该预警模型不但可在学生一门课程出现问题后向学生本人提出警示,更能及时提醒班主任老师密切关注该生

9、与之相关的后续课程的学习情况,动员学习帮扶小组对他提早介入帮助。3)P 课程在预警系统中出现的次数最多。可见理论力学这门课程是物理类学生在低年级阶段较易发生问题的关键性课程。在教学管理中应当加强对理论力学课程的教学质量检查与监督。4)在 minsupp=0.1,minconf=0.4 的条件下,并未得出A=>B和 C=>D 这样的规则,这点有些出乎意料,但恰恰向学生说明了数学,英语这些基础课程只要肯下功夫,完全可以摆脱原来差成绩的影响。由于地域等因素的差别,学生刚进高校时的学习基础参差不齐,有的学生可能原先基础较差。从预警模型中的关联规则可以看出,这对后续的课程并无绝对的影响,只要

10、肯努力追赶完全有可能脱离“差”生的队伍。这对鼓励那些大一刚进校成绩就较差的落后学生,为他们树立信心提供了科学根据。4 结束语该文应用数据挖掘中的关联规则技术,对学生成绩数据库中的不及格数据进行了挖掘,并在此基础上建立起学生成绩预警系统的模型。实践证明,该模型对于在高校中提早发现和监管“学困生”的工作起到了良好的效果。参考文献:1 宫杰 , 谭跃生 , 李慧萍 . 数据挖掘技术在高校教务管理中的应用 J.科技信息 ,2010(13).2 董彩云,刘陪华 . 数据挖掘在学生成绩管理系统中的应用 J.现代计算机 ,2009(2).3 董军凯 . 数据挖掘技术在成绩分析中的应用 J.科技资讯 ,2009(22).4 张志彦 , 李俊峰 . 关联规则挖掘在学生成绩分析中的应用 J.科技和产业 ,2009(5).5 邱月 . 数据挖掘方法在学生成绩评价中的应用J.科技信息 .2008(9).6 董萍 . 关联规则在学生成绩中的数据挖

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论