




已阅读5页,还剩6页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 数据挖掘在研究生培养管理系统中 的应用 【摘 要】 文章主要研究了数据 挖掘在研究生管理系统中的应用问题。 以西安理工大学为例,运用关联规则方 法分析了该校研究生学位课加权成绩、 开题效果与毕业时所取得成果之间的联 系,为研究生管理部门和导师提供决策 依据,制定有效的研究生培养方案,以 提高研究生培养质量。 中国论文网 /4/view-12669538.htm 【关键词】 研究生培养;数据 挖掘;关联规则 随着数据库技术的迅速发展以及 数据库管理系统的广泛应用,高校研究 生培养管理信息系统已经成为高校研究 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 生培养的核心系统。但大多数研究生培 养管理系统都停留在第一代信息系统, 功能只是简单地在线数据处理(OLTP) , 缺乏综合分析、辅助决策的能力。然而, 这些数据相互间存在一定的联系,也隐 含着一些重要的信息。这就需要将数据 挖掘技术应用于研究生培养管理系统中, 使其在完成研究生日常管理工作的同时, 能对系统中积累的海量信息进行多层次、 多角度的分析,挖掘出数据中隐含的规 律,为研究生培养工作提供有效的决策 支持服务,提高研究生培养质量,实现 未来研究生教育工作的预测和管理战略 的制定。 一、数据挖掘 1、数据挖掘概述 数据挖掘(Data Mining, DM) 就是从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但 又是潜在有用的信息和知识的过程,它 能高度自动化地分析原有数据,作出归 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 纳性推理,从中挖掘出潜在的模式,从 而帮助决策者调整策略, 作出正确的 决策。简单地说,数据挖掘就是从大量 数据中提取或“ 挖掘” 知识,又被称为从 数据库中发现知识(KDD) 。 知识发现的数据分析过程可以分 成数据准备、数据挖掘、结果表述与评 价三个阶段。数据准备阶段是从相关的 数据源中选取所需的数据并整合成用于 数据挖掘的数据集;1数据挖掘阶段主 要是选定合适的挖掘算法,对数据进行 分析,找出数据集中所含的规律;结果 表述与评价阶段是把数据挖掘阶段所得 出的知识进行描述并根据已有的知识对 结果进行合理性分析,若有不合理的方 面,再重复上述步骤。 2、关联规则分析 数据挖掘主要包括分类分析、聚 类分析、关联规则挖掘、序列数据挖掘 和孤立点检测等,其中关联规则是一种 重要的数据挖掘技术, 其目的是寻找 数据项中的有趣联系,决定哪些事情将 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 一起发生。 关联规则是形如 XY 的蕴涵式, 其中,X 和 Y 分别称为关联规则的先导 和后继。假设是项的集合。给定一个交 易数据库 D,其中每个事务 T(Transaction)是 I 的非空子集,即, 每一个交易都与一个唯一的标识符 TID(Transaction ID)对应。关联规则 在 D 中的支持度(support)是 D 中事 务同时包含 X、Y 的百分比,即概率; 置信度(confidence )是 D 中事务已经 包含 X 的情况下,包含 Y 的百分比, 即条件概率。如果满足最小支持度阈值 和最小置信度阈值,则认为关联规则是 有趣的。这些阈值是根据挖掘需要人为 设定的。 关联规则分为两种:布尔型关联 规则和多值型关联规则。当前的关联规 则主要研究的是基于事务型数据库的布 尔型关联规则挖掘, 其中 Apriori 算 法是最经典的挖掘布尔关联规则频繁项 集的算法。该算法利用一个层次顺序搜 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 索的循环方法来完成频繁项集的挖掘工 作。其核心是基于两阶段频繁项集思想 的递推算法。该关联规则在分类上属于 单维、单层、布尔关联规则。在这里, 所有支持度大于最小支持度的项集称为 频繁项集,简称频集。Apriori 算法的基 本思想是:首先找出所有的频集,这些 项集出现的频繁性至少和预定义的最小 支持度一样。然后由频集产生强关联规 则,这些规则必须满足最小支持度和最 小置信度。然后使用第一步找到的频集 产生期望的规则,产生只包含集合项的 所有规则,其中每一条规则的右部只有 一项。一旦这些规则被生成,那么只有 那些大于用户给定的最小置信度的规则 才被留下来。算法使用递归的方法生成 所有频集。 二、数据挖掘在研究生教学数据 中的应用实例 本文以理工大研究生管理为例, 选取 2011 级控制科学与工程学科学生 成绩、开题结果、毕业成果等数据,运 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 用数据挖掘算法中的关联规则分析算法, 对研究生的学位课加权平均成绩和开题 结果进行分析,得到其与毕业成果之间 潜在的规则,为研究生的培养工作提供 辅助决策依据。 1、数据离散化 如上所述,本文将采用 Aprior 算 法来进行关联分析,但该算法有两大缺 点,一是可能产生大量的候选集,二是 可能需要重复扫描数据库。为提高算法 效率,我们可以先对数据进行预处理, 将其离散化,用少数区间标记替换连续 属性的数值,这样可以减少和简化原始 数据,使挖掘结果简洁,易于使用。 该例中需要三类基础数据,分别 为 2011 级控制科学与工程学科学生学 位课加权平均分、开题结果以及在毕业 时所取得的所有成果。对于学位课加权 平均分,因我校规定必须 70 分以上才 能开题,所以我们将 70-100 分划分 4 个档次(A,B,C ,D ) 。其中,85 分 以上为 A,80-85 分为 B,75-79 分为 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 C,70-75 分为 D。对于开题结果数据本 身只有 3 个等级:良好、通过、未通过 需再次开题,分别可以用 A,B,C 代 替。对于毕业前所取得的成果,我们以 0 分为基础,每取得校级奖项得 1 分, 省级奖项得 2 分,国家级奖项得 3 分, 奖学金获得情况同上,同时参考学生参 加我校研究生学术论坛,获得优秀论文 情况以及陕西省研究生创新成果展等信 息,将该类数据离散化为:A(成果优 秀) ,B (成果良好) ,C (无成果) 。上 述数据均可以从研究生管理系统中提取, 并依托数据库自动按要求将数据离散, 为数据挖掘系统提供集成的数据源,提 取后的数据表见下图 1 所示: 2、算法实现 数值型数据离散化后就可以进行 关联规则挖掘了。通过对学生成绩和开 题结果与毕业成果数据关联分析,得出 有利于培养优秀学生的有用信息。同时 对较差学生给予预警,加强培养,提高 其学术水平。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 本文设定支持度=15%,置信度 =25%,挖掘出如表 2 所示的参考规则。 如规则 1 的含义是如果学生学位课成绩 高,同时开题结果优秀那么该生毕业时 取得的成果较多;规则 2 和 3 说明如果 学生的学位课成绩和开题结果有一个表 现优秀,那么毕业时也能取得一定的成 果;而规则 6 则表明如果学生学位课成 绩过低,开题也不认真,那么毕业时无 法取得成果。通过设置不同的支持度阀 值和置信度阀值,可以得到不同的关联 规则。数据挖掘的结果在实际中不一定 存在必然的联系,我们要结合实际情况 对得到的关联规则加以分析,并在新数 据集中检验,对规则库加以调整,选择 那些真正能够指导我们实际工作的关联 规则加以运用,为决策工作提供辅助支 持1。例如:表 2 中的规则 4 表示学生 成绩一般,开题结果一般,但毕业成果 良好,与我们前述规则不符,但通过进 一步分析,发现这些成果均属于社会活 动或学生干部所得,应看到学生参与过 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 多社会活动会影响学术研究但也能取得 一些其他成果。 3、结果分析 通过上述规则的分析,作为管理 部门主要在学生培养的两个阶段读取数 据来适当调整学生培养方案。第一阶段 为学生课程学习结束后,根据学生学位 课加权平均分来进行调整,对于成绩高 的学生应给予鼓励,锻炼其实践能力, 争取在开题阶段取得良好成绩,最终成 为优秀毕业生。对于成绩过低的学生, 督促其认真对待开题,争取在开题阶段 弥补与其他学生差距,最终顺利毕业。 第二阶段为学生开题后,大力培养各项 成绩优秀的学生,紧抓成绩良好的学生, 监督成绩较差的学生。对于参加社会活 动过多的学生,需要导师因势利导,在 研究生学习和参与社会活动中找到平衡, 提高学生培养质量。最终保证每个学生 的培养方案合理有效,毕业时都能取得 一定的成果。 三、结语 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 学生培养质量的提高代表着学生 质量的提高,质量的提高也就意味着就 业率的提高。近年来,我校通过数据挖 掘技术的应用,合理分析学生各类数据 信息,根据实际微调学生培养方案,使 得学生学术水平及科研能力不断提高, 取得一定的科研成果和各类奖项。保证 学生在就业时具有较强的竞争优势。由 此,理工大研究生每年就业率均达到 80%以 上,并
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 聪明备战2025年初级会计师考试试题及答案
- 网络规划设计师考试项目监督与管理试题及答案
- 系统架构设计师团队协作中的沟通技巧试题及答案
- 2025版高考地理一轮复习第2部分第5单元人口与地理环境第2节人口迁移教学案含解析鲁教版
- 药店儿童用药试题及答案
- 激光技术工程师证书考试应试技巧与试题答案
- 药学科研方法概述试题及答案
- 2024年高中物理第1章实验:验证动量守恒定律学案鲁科版选修3-5
- 探究光电工程师证书考试的复习资料选择试题及答案
- 艺术品市场的投资与管理试题及答案
- GB/T 3655-2022用爱泼斯坦方圈测量电工钢带(片)磁性能的方法
- GB/T 12727-2017核电厂安全级电气设备鉴定
- GB 5009.83-2016食品安全国家标准食品中胡萝卜素的测定
- NS中国移动XXXX年客户满意度调查项目计划书
- 管材检测检测委托单
- 《武术的起源与发展》教学课件
- 二维随机变量边缘分布条件分布课件
- NY∕T 3349-2021 畜禽屠宰加工人员岗位技能要求
- 医疗质量与安全管理委员会会议纪要
- 公路养护工技师专业技术理论知识竞赛试题库(附含答案)
- 房建技术员施工员考试参考题库(含各题型)
评论
0/150
提交评论