




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于关联规则的数据挖掘技术的研究与应用 摘 要: 通过对目前我国信息化的发展现状及问题进行详细分析,找到基于关联规则的数据挖掘技术与我国各单位信息管理中的契合点,提出了基于关联规则的数据挖掘技术系统的设计方案。该方案有助于我国各单位优化资源配置,促进领导的决策合理性,进而对于提高我国各单位的综合实力,推动全面发展具有很强的现实意义。 中国论文网 /8/view-7840376.htm关键词: 数据挖掘; 信息管理系统; 关联规则; 分类挖掘 中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2016)23?0121?03 Application and rese
2、arch on data mining technology based on association rules LI Yue1, SUN Jian2, QIU Zhiqi3 (1. Modern Technology and Education Center, North China University of Science and Technology, Tangshan 063000, China; 2. Deans Office, North China University of Science and Technology, Tangshan 063000, China; 3.
3、 College of Information Engineering, North China University of Science and Technology, Tangshan 063000, China) Abstract: The information development situation in our country and its problems are analyzed in detail. The integrating point of data mining technology based on association rules and inform
4、ation management in Chinas each unit is found out. The design scheme of data mining technology system based on association rules is proposed. This scheme is helpful to optimize the resource allocation of all units in China, promote the decision?making rationality of the leader, and has great practic
5、al significance to improve the comprehensive strength of all units in China and promote the comprehensive development. Keywords: data mining; information management system; association rule; classification mining 0 引 言 随着信息技术在各单位信息管理中应用的逐渐普及,信息管理系统中积累了海量的数据,本文以我国高校为例,深刻研究了高校信息管理系统,在管理信息化的条件下,对这些长期积累
6、的海量数据进行分析和挖掘,挖掘出其中隐藏的、未知的规则和信息,将分析结果用于高校管理的分析与决策上,辅助管理者的决策,还可以为我国高校优化资源配置提供可靠的数据,节约成本,为我国高校的发展发挥着重要的作用。 1 数据挖掘的定义及技术分析 1.1 数据挖掘的定义 数据挖掘技术是一门新兴学科,集众多学科交叉融合而成的工具和技术,其中包含了数据库技术、统计学、人工智能、信息检索、模式识别等多种技术。数据挖掘(Data Mining)是指从海量的数据或数据库中分析和提取出人们感兴趣的知识的过程。这些数据知识是隐含的、事先未知的,将数据挖掘技术应用到高校信息管理上是非常有益的,可以全面地分析课程设置,教
7、学过程等各方面因素的内在联系,是一种决策支持的过程。 1.2 关联规则分析 数据挖掘的技术方法有很多种,其中关联规则挖掘是目前使用频率最多,应用范围最广的数据挖掘技术之一。关联规则反应了事物与其他事物之间的相互依存性和关联性,可以通过研究分析海量数据,捕捉其中的相互关联和重要关系,反应数据的不同规律,预测时间的发展趋势。关联规则是易于理解和解释的一种技术,应用分析广泛,是许多其他数据挖掘方法的基础。 其中,Apriori算法是关联规则挖掘方面很有影响力的算法,通过项目集元素数目的不断增长来逐步完成频繁项目集的发现,是挖掘产生布尔关联规则所需频繁项集的基本算法。利用Apriori算法迭代识别所有
8、的频繁项目集,发现计算量最大的部分,从频繁项目集中构造置信度不低于用户设定的最小置信度的规则。具体算法流程如图1所示。 2 数据挖掘技术在高校管理中的应用 数据挖掘技术应用到高校管理工作中,可以通过对信息系统中的海量数据的相互之间的关系进行分析,发现其中一些潜在的联系和客观规律,可以对高校管理的决策支持等工作提供极大的帮助,为改进高校管理提出了指导性的建议,使得高校管理系统在高校信息化的建设中发挥更大的作用。 2.1 数据挖掘技术在教学评估中的应用 高校员工的评价结果是日常工作情况的重要表现,是高校信息管理工作的一个重要组成部分,也是目前高校进行职称评定,绩效评定的有效标准。但是影响高校员工的
9、评价因素有很多,包括员工年龄、工作时间、政治面貌、学历、职称等很多方面。如何通过这些现有数据判断哪些或者哪个因素对于高校员工考评的影响最大,可以通过关联规则数据挖掘的Apriori算法进行数据分析,对各方面的数据进行充分挖掘,得到有价值的信息作为高校员工考评的评价依据,以达到对高校员工管理的改进的有效支持,极大地提高了高校人事管理的效率,使高校实现科学化、正规化管理。 关联规则Apriori数据挖掘包含很多关键因素: (1) 置信度:置信度表示XY关联的强度,全体*集合D中,满足X的*中有c%也满足*Y。 (2) 支持度:支持度表示XY关联的频度,有s%的*同时满足X和Y。 (3) 频繁项集:
10、项集X的支持度Support(X)不小于用户给定的最小支持度minSup,则称X为频繁项集。 首先,可以从高校员工考评系统中的数据库中抽取100名某高校员工的记录若干条,挑选出其中的5个属性:员工年龄、工作时间、政治面貌、学历、职称等。将这些属性作为字段填入表中,设计成如表1所示的形式。 表1 员工考评表 员工id&职称&年龄&工作时间&学历&政治面貌&评价分数&0001&助教&30&4&本科&党员&83&0002&讲师&25&2&专科&群众&75&0003&副教授&45&14&研究生&党员&90& 为了更好的进行数据分析,将这些文字内容换算成二进制,例如:职称助教为00,讲师为01,副教授为
11、10等。 利用数据挖掘中的分析规则算法,可以得出评价分数在90分以上的有多少条,其中评价分数与这4个因素之间的关系,即关联规则“副教授优秀”的置信度为80.3%,支持度为30%,即表示优秀员工中副教授职称的占80.3%,而所有的副教授中优秀教师占30%。以此类推其他三个因素。可以得出如下结论:政治面貌、学历、年龄对员工评价几乎没有影响。但是工作时间和职称对员工评价有一定程度的影响。也就是职称是讲师以上的、工作时间越长评价分值也越高。 2.2 数据挖掘技术在学生成绩分析中的应用 目前,高校信息系统中存在着大量的教学数据,这些数据具有实时性和历史性,其中学生的成绩数据是学生管理的核心数据,是毕业审
12、核的根本依据,也是学生评优的重要依据。这些数据的数据量很大,可以利用数据挖掘技术对学生的成绩进行分析处理,发现这些数据中隐含的相关规律,找出成绩和各种因素之间隐藏的内在联系,获得有利的知识,提高教学质量,指导教学活动,给决策者提供必要的理论支持。决策树挖掘步骤流程图如图2所示。 (1) 从学生成绩管理系统中抽取学生成绩信息表中的数据923条,其中包括学号、姓名、计算机网络这门课程的平时成绩、期末成绩、是否优秀、是否通过。学生成绩信息表见表2。对数据进行清理,去除缺考、登记错误等数据噪声。进行数据预处理,去掉不完整的信息。 (2) 把现有的成绩数据转换成离散数据,按成绩等级分成90分以上为优秀,
13、60分以上为通过。平时成绩85100是A级,7184为B级,070为C级。将表格转换成如表3所示的数据处理后的学生成绩信息表。 (3) 数据分类挖掘 划分决策树,优秀属性有两个不同的值,即(Y,N),因此有两个不同的类(m=2),其中类Y有276个样本,类N有647个样本,即(276,647)给定样本所需的期望信息:I(S1,S2)=I(276,647)=0.299。 按平时成绩分类属性期望信息: 以平时成绩等级分布计算期望信息。 当平时成绩等级为A时,有89个类Y的样本,有217个类N的样本,I(S1,S2)=I(89,217)=0.516,若平时成绩等级为B时,有187个类Y的样本,有32
14、0个类N的样本,I(S1,S2)=I(187,320)=0.36。若平时成绩等级为C时,有0个类Y的样本,有110个类N的样本,I(S1,S2)=I(0,110)=0。 按考试成绩等级划分,对给定样本的分类所需的期望信息为E(I)=0.426。 信息增益为Gain(平时成绩等级)=I(S1,S2)-E(平时成绩等级)=0.09。 按考试成绩分类属性期望信息: 以属性考试成绩等级分布计算期望信息。若考生成绩等级为A时,有267个类Y的样本,有33个类N的样本,I(S1,S2)=I(267,33)=0.89,若考生成绩等级为B时,有9个类Y的样本,有364个类N的样本,I(S1,S2)=I(9,3
15、64)=0.02,若考生成绩等级为C时,有0个类Y的样本,有250个类N的样本,I(S1,S2)=I(0,250)=0。 按平时等级划分,对给定样本的分类所需的期望信息为:E(I)=0.426。 信息增益为Gain(期末成绩等级)=I(S1,S2)-E(期末成绩等级)=0.464。 如果信息增益Gain(平时成绩等级) IF期末成绩等级=B,AND平时成绩等级=C,THEN是否优秀=N; 从上面的生成规则可以看出:期末考试成绩等级为A,且平时成绩等级为B以上者,成绩为优秀。 (4) 生成分类规则 通过对学生成绩进行数据挖掘,找出影响学生成绩的主要因素以及之间的关系,为教学管理部门提供高校教学中
16、学生的知识、技能、能力之间的关系,以明确今后学生学习的重点和难点。 2.3 数据挖掘技术在高校课程设置中的应用 目前,高校学生的课程安排是相互联系的,是循序渐进的。在学习专业课前,要将先开设的课程学好,才能继续下面课程的学习。如果先开设的课程没有学好,就会影响后面课程的学习。另外,由于授课教师,班级学生的总体成绩等因素,学生的成绩有时会相差很大。教务管理人员和任课教师可以利用关联规则对课程数据进行挖掘分析,发现数据中隐藏的前期课程和后期课程的相互关联,为今后课程进程的开展提供重要的决策和理论支持。 可以通过查找存在于项目集合或者对象集合之间的频繁模式,查到相关性或者因果结构,是当前数据挖掘研究
17、的主要模式之一,确定数据中不同领域之间的联系,利用关联规则分析课程安排的不同顺序与学生最终取得考试成绩之间的关联关系,从而得出教学计划中的课程安排的顺序与学生的考试成绩之间的关系,得出教学计划中课程之间的关系,进而合理设置专业课程。 3 结 语 如今,数据挖掘技术在高校信息管理领域中的应用日益广泛,也已经取得了一定的成绩。但是,还存在着一些不足,需要进一步的完善。主要包括以下方面的研究:首先,挖掘工具要更标准,使用更便捷。目前,挖掘工具都是针对某一具体的高校信息系统,而没有统一规范化的适用于所有系统的工具。这种情况不便于使用者更好更快地掌握,给推广挖掘工具的工作带来了困难。其次,挖掘工具操作复杂,只有从事信息工作方面的人员才能使用自如,对于广大普通管理者和从事信息管理的管理者来说掌握起来需要花费很长的时间。所以,研究一种简单、友好、方便快捷,并且通用的挖掘工具是目前高校信息处理工作的研究重点。 参考文献 1 朱铁樱,骆爽.数据挖掘技术在高校管理决策中的应用J.计算机时代,2015(3):39?43. 2 朱丽丽.基于数据挖掘技术的高校教务管理的应用与研究J.数字技术与应用,2014(31):239?240. 3 江敏,徐艳.数据挖掘技术在高校教学管理中的应用J.电脑知识与技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年三线城市房屋租赁合同范本参考
- 2025个人地下车位租赁合同
- 2025工商银行房贷借款合同
- 甲方预付货款合同协议
- 盈利饭店团购合同协议
- 用刮腻做踢脚线合同协议
- 电梯产品买卖合同协议
- 瓷砖加工建材销售合同协议
- 环境治理施工合同协议
- 特殊马达采购合同协议
- 2025书画艺术品交易合同范本
- 儿童支气管哮喘诊断与防治指南(2025)解读
- 2024-2025学年人教版七年级(下)期中数学试卷(考试范围:第7~9章) (含解析)
- 2025年03月国家金融监督管理总局所属事业单位公开招聘19人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 安全生产“反三违”学习培训
- 网球裁判考试试题及答案
- 能源储备体系建设-深度研究
- 2024年中国工商银行浙江省分行招聘笔试真题
- 国家义务教育质量监测八年级美术样卷
- 2025年河南轻工职业学院单招职业适应性考试题库及答案1套
- 2025年中考数学几何模型归纳训练:最值模型之将军饮马模型解读与提分训练(解析版)
评论
0/150
提交评论