下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、决策树算法在学生成绩分析中的应用由于高校的连年扩招和高校信息化建设的迅速发展, 各高校获取大量的学生成绩数据。 但这些数据信息仅限于备份存储、 查询阶段, 没有有效发挥大数据应有的作用。 大量的学生成绩数据缺乏对大量数据的有效整合, 难以对这些数据所隐含的有价值的信息进行充分的挖掘分析, 严重影响了对数据的使用效力。 本文对学生成绩进行数据挖掘, 提出了采用决策树方法对学生成绩及其他信息进行分析处理进而获取隐含的有价值的、 能指导教学的信息研究方案, 其目的是通过数据挖掘技术的应用, 帮助教师获取更多能有助于教学、 有价值的信息, 为老师的教学工作提供一定的决策依据,进而提高教学质量。决策树
2、C4.5 算法决策树技术简介决策树(决策树)是一种基于概率的图形化方法,其净现值的期望值大于或等于零;因为这种决策分枝上画的图形像一棵树,所以叫决策树。决策树算法通过对训练实例集进行训练,生成决策树, 根据属性的值对决策树进行分类。 利用决策树对实例进行分类, 首先从树根开节点开始沿着树枝到树叶节点, 然后根据延伸的线路进行分类规则。C4.5 算法简介根据 ID3 算法实际存在的问题, Quinlan 提出了 C4.5 算法,C4.5 实际上是 ID3 算法的改进算法。信息增益率定义为:在 ID3 算法上进行了改进, 将 ID3 算方法使用信息增益选择属性的方法改为使用信息增益率进行属性选择,
3、 改变了因为属性取值多而被选择的问题, 而且在决策树模型测试为无效模型时可以及时对树进行剪枝以达到有效模型结果, 并且对数据信息的不完整性和不一致性进行数据清理, 还能够对连续属性进行离散化处理。 C4.5 算法的缺点:计算效率低,不适合处理训练集大的数据。建立学生成绩预测分析规则确定分析对象及目标本文以作者所在信息技术系 2013 级计算机应用技术专业的学生共计人数214 人。 目标为: 分析出哪些因素影响了学生的学习成绩。 并分析出学生成绩优良和成绩不及格情况与对网页设计是否感兴趣、 基础程度、 上机时间量等这些因素中的哪些因素有关系。建立预测分析模型及规则数据来源本文使用的数据源自数据仓
4、库, 而数据仓库中的数据是通过学生基本信息、 学生考试成绩信息及学生调查信息通过数据预处理后生成。 为了便于建立决策树模型, 选择与成绩相关性较大的性别、 基础程度、 上机时间量三个属性作为建立成绩分类决策树模型的依据。学生成绩分析基本数据示例如表1 所示。本文收集 2013 级计应专业 214 条学生成绩信息进行决策树模型建立。其中取出 1/3 记录作为测试数据, 2/3 数据作为训练集。表中基础程度分为:一般、好、很好;上机时间量为每周上机小时数,分为:0、=3;成绩分为:=60为Y (合格)。建立决策树模型本文通过表1 中的数据使用 C4.5 算法建立决策树模型,其步骤如下:( 1)对表
5、 1 中的每个测试属性分别计算该属性的信息增益率Gainration (基础程度) Gainration (性别) Gainration(上机时间量)( 2)选取信息增益率最大的属性作为根节点,并按其值划分数据集合, 如果该属性只有一个值则停止划分。 从上述计算结果可知, 信息增益率最大的“基础程度”属性作为根节点, “基础程度”属性内的三个属性值“很好”、 “好”和“一般”作为根节点下的三个分支节点划分。( 3)对划分的每个子数据集递归执行(1 ) - ( 2)。根据以上步骤,最终建立决策树模型如图 1 所示。生成分类规则决策树模型建立完成后根据模型提取分类规则, 分类规则的做法是: 根据决
6、策树模型从树根节点开始到树叶节点的每条路径建立一个规则,这条路径上每个属性- 值的合项作为规则的前部分(IF部分),树叶节点中的类预测作为后部分(THEN分)学生成绩是否优良的规则:(根据图 1 提取)IF 基础程度=“很好”and 上机时间量=“ 0”and 性别为男 THEN 成绩 YIF 基础程度=“很好”and 上机时间量=“ 0”and 性别为女 THEN 成绩 NIF基础程度=很好”and上机时间量=3 THEN成绩NIF 基础程度=“好”and 上机时间量 =“0” THEN 成绩 YIF 基础程度=“好”and 上机时间量 =“ =3” THEN 成绩 NIF基础程度=“一般”
7、and性别=“男”THEN 成绩不是NIF基础程度=“一般”and性别=“女”and 上机时间量为 0 THEN 成绩 YIF基础程度=“一般”and性别=“女”and 上机时间量=3 THEN 成绩 N模型正确性评估根据 10 层交叉法显示的结果与训练集中测试结果进行比较,如果两种显示结果相同,则决策树模型有效;如果根据10层交叉法显示的结果与训练集中测试结果不同, 那么决策树模型效果不佳,则需要重新选择训练集来建立决策树,重新进行10层交叉法和训练集中测试结果进行比较, 直到决策树模型有效为止。根据平均值比较显示三种属性中“基础程度”信息增益率最大,训练集中测试的结果显示三种属性中“基础程度”信息增益 率最大,两种显示结果相同,所以决策树模型有效。结束语随着数据挖掘技术的发展, 人们逐渐从海量的数据中挖掘到有价值的信息。数据挖掘被广泛应用到各个行业中并且效果显著, 为人们提
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环艺设计中的材质与质感现代办公空间应用案例
- 环境影响综合评估的实践与思考
- 现代网络编程语言的性能优化探讨
- 11 爸爸妈妈在我心中(说课稿)-统编版道德与法治三年级上册
- 9古诗三首《题西林壁》说课稿-2024-2025学年统编版语文四年级上册
- 《5 童年在游戏中成长》说课稿-2024-2025学年三年级上册综合实践活动长春版
- Unit 4 Position Lesson 1 The Magic Show(说课稿)-2024-2025学年北师大版(三起)英语五年级上册
- 2023三年级数学上册 3 测量第1课时 毫米的认识说课稿 新人教版
- 7 小书包 说课稿-2024-2025学年语文一年级上册统编版
- 16大家一起来合作-团结合作快乐多(说课稿)-统编版道德与法治一年级下册
- 中国氢内燃机行业发展环境、市场运行格局及前景研究报告-智研咨询(2024版)
- 《自然保护区划分》课件
- 2024年湖南高速铁路职业技术学院高职单招数学历年参考题库含答案解析
- 上海铁路局招聘笔试冲刺题2025
- 《商用车预见性巡航系统技术规范》
- 国旗班指挥刀训练动作要领
- 春季安全开学第一课
- 植物芳香油的提取 植物有效成分的提取教学课件
- 肖像绘画市场发展现状调查及供需格局分析预测报告
- 煤矿掘进队机电管理制度汇编
- 国家公务员考试(面试)试题及解答参考(2024年)
评论
0/150
提交评论