学生成绩的动态预警模型_第1页
学生成绩的动态预警模型_第2页
学生成绩的动态预警模型_第3页
学生成绩的动态预警模型_第4页
学生成绩的动态预警模型_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、学生成绩的动态预警模型摘 要 通过利用高校教务管理信息储存的教务信息,开发设计基于数据挖掘的学生成绩动态预警模型;引入数据挖掘关联规那么方法和决策树方法,利用Apriori算法和ID3算法分别对学生成绩进展数据挖掘,以期找出课程间的内在联络,并将它们分别作为关联规那么用于学生成绩预警,最后比较两种算法,选择较优算法模型作为最后成绩预警模型。该预警模型有利于对学生做出提早预警,对进步学生成绩具有良好效果。关键词 数据挖掘 预警模型 关联规那么 决策树Dynamic Warning Model of Students' AchievementBAI Jin, LIU Linjing, ZH

2、OU JianghuiBusiness Information College, Shanghai University of International Business and Economics, Shanghai 202100Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warnin

3、g model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning,

4、final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.Key words data mining; warning model; association rules; decision tr

5、ee0 引言随着高校教务管理信息系统的广泛应用,高校拥有大量学生的考试成绩和教务数据,国内已有一些研究者以数据挖掘技术为根底面向这些信息展开了数据挖掘工作,如魏顺平在?学习分析技术:挖掘大数据时代下教育数据的价值?一文中介绍了教育数据挖掘在我国的开展历程及相关的概念,并提到了5类教育数据挖掘方法;叶福兰那么利用数据挖掘技术在高校已有的教育数据上给出了学生成绩预警的分析,寻找不及格课程间内在联络、可能联络和关键因素;刘斌、陈依潼那么利用K-均值聚类方法分析学生评价方式;以及王璇利用Apriori算法分析大学生心理状况。1 基于数据挖掘技术的成绩预警模型预警主要分为两个部分:规那么产生和规那么匹配

6、。规那么产生部分,预警模型接收学生成绩训练集,从中依靠内部算法获取符合要求的成绩预警规那么。规那么匹配部分,预警模型承受待处理学生成绩和课程,而后根据规那么产生部分产生的规那么,进展逐一匹配、挑选,最后输出预警信息。如图1所示,基于数据挖掘的成绩预警模型由数据输入/输出接口,数据预处理模块、预警规那么挖掘模块、成绩预警规那么库和预警模块5部分组成。其中,预警规那么挖掘模块是该模型的核心部分,它负责从输入的训练集中挖掘预警规那么,并将符合条件的规那么储存到预警规那么库中。预警模块式将从数据预处理模块里的学生成绩和课程信息,与成绩预警规那么库中的规那么匹配,再根据已设定的预警条件比较,继而决定是否

7、生成预警信息。数据输入/输出接口、预警模块可以实现实时的学生成绩预警信息,到达动态预警的目的。图1 基于数据挖掘的成绩预警模型2 基于关联规那么的成绩预警模型2.1 关联规那么和 Apriori算法设 = ,是项Item的集合。记为事务的集合,事务是项的集合,并且 。对应每一个事务有唯一的标识,如事务号,记作。设是一个中项的集合,假设 ,那么称事务包含。项的集合称为项集。包含个项的项集称为项集。项集的出现频率是指包含该项集的事务数,简称为项集的频率或支持度计数。定义1 一个关联规那么是形如 的蕴涵式,这里 , ,并且= 。定义2 规那么 在事务数据中具有支持度,表示支持度Ssupport是事务

8、集中同时包含 和的事务数与所有事务数之比,记为support ,即: support = O: ,O/OO?00% = %定义3 规那么 在事务集中的置信度confidence是指包含和的事务数与包含的事务数之比,记为confidence ,即:confidence =O: ,O/O: ,O?00% = %定义4 同时满足最小支持度min_sup和最小可信度min_conf的规那么称为关联规那么,即S min_sup且C min_conf成立时,规那么 称为强关联规那么。Apriori算法是关联规那么的重要方法,是挖掘布尔型频繁工程集的算法。它使用一种称为逐层搜索的迭代方法,“K-项集用于探究

9、“K+1-项集。这是一个基于两阶段频繁集思想的方法,将关联规那么算法的设计分为两个子问题:找到所有支持度大于min_sup的项集,即频繁项集。使用第一步找到的频繁项集找到置信度大于或 最小置信度min_conf的关联规那么。2.2 基于关联规那么的发现2.2.1 数据预处理由于目前高校成绩数据库中存贮的成绩信息主要是百分制的成绩和五分制成绩为主,所以需将实验数据进展处理、变换。本文基于关联规那么的成绩预警模型方法是将学生成绩变为离散的布尔类型数据0,1。详细为:将学生成绩大于该科平均分的,记为0;小于该科平均分的,记为1。再添加辅助列“预警,假设学生成绩存在不及格科目,记为“Y;不存在不及格科

10、目的,记为“N。一般而言,数据变换的过程需要经历数据选择、数据清洗屡次成绩处理和缺失成绩处理、数据集成和变换等步骤。2.2.2 基于关联规那么挖掘结果分析实现本模型的软件环境为操作系统为Windows XP,采用Oracle 数据库管理系统提取学生成绩,并使用SPSS Clementine软件进展数据挖掘工作。根据Clementine软件的特点,本实验选择处理时将低于平均成绩记为“1,高于平均成绩的记为“0。这样的目的是使本次分析出的关联规那么方向为:对于学生成绩不及格情况下,各个课程之间的关联性。表1 挖掘出的规那么数和类规那么平均预测准确率设=, 为类关联规那么的规那么集。将已经产生的关联

11、规那么 ,记为,得到类关联规那么:, ,为类别。记为类别为“Y的数据集合。定义类规那么:,的预警准确率为,类规那么集的预测准确率为。公式1P=公式2=经过反复试验、验证,分别设置最小支持度分别为0.40、0.37、0.34,最小置信度为0.90、0.87和0.84,在此参数条件设置下挖掘类规那么集预警准确率。上文所提出的模型从上述实验结果看,准确性在60%70%之间。实验结果说明,该模型及其方法在理论上是有效的。3 基于决策树算法的成绩预警模型3.1 决策树算法决策树算法是一种典型的分类和预测方法,也是一种逼近离散函数值的方法。它具有算法思想简单,识别样本效率高,对噪声数据有很好的强健性等优点

12、。决策树使用样本的自身属性作为节点,用属性取值作为分支的树型构造。它的根节点是所有样本中信息量最大的属性。ID3算法是机器学习领域中最具有影响力的决策树方法之一,采用自顶向下的递归方法C4.5是ID3算法的改进算法,它增加了:可以对连续属性离散化处理等变化。而C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进展了改进。本文采用C5.0算法进展挖掘分析。3.2 基于C5.0算法的发现1数据预处理。将如表1所示的原始数据,将成绩分为3种:“0成绩60记为“差;将“60=成绩80记为“一般;将“成绩=80记为“好。并增加一列“预警,将学生成绩存在挂科的记为“Y;不存在挂科的

13、记为“N。2基于C5.0算法挖掘结果分析。使用SPSS Clementine软件进展分析,选择将决策树进展剪枝,将科目:数据仓库与数据挖掘和C+面向对象程序设计和操作系统从决策树中剪去。最后,从决策树中抽取的规那么为表2:通过表2可以分析出,微积分AI和微积分AII对学生影响较大,当该科为“一般或者“好时,学生不属于预警生的概率较大。当学生数据构造不及格时情况时,学生有很大可能成为预警生。因此学校在日常教学活动中,应特别关注学生这几门课程的学习。3准确性测试。设=, 为从决策树中抽取的规那么的规那么集。设,为课程名,有个取值:,。=,为类别的集合。定义规那么: = , = ,then 的预警准

14、确率为,类规那么集的预测准确率为。公式3=公式4=通过训练集Dtest,本模型通过上述数据可到达60%的预警准确率。实验结果也说明,基于决策树技术的学生动态成绩预警模型在理论上是有效的。但据历史经历来看,C5.0算法优势在与准确性高,而本次试验准确率却为60%,初步分析是由于试验数据有限,对准确性测试过程产生了一些影响。4 结论在将两种方法的输出转化为统一输出后,即两种方法输出都为:预警类别,因此,可直接进展准确性比较。通过比较上述两种模型和方法,发现选用Apriori算法,模型预警率较高。而且C5.0算法预警率较低。对数据的噪声较为敏感,训练集中的一些错误会对实验结果产生较大影响。当C5.0算法训练集增加时,C5.0的决策树也会变化,所以当学生成绩训练集变化时,成绩决策树变化,从而使预警规那么库发生不断变化,这对于成绩预警过程来说,是不方便的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论