




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 数据挖掘技术在电大教务管理中的应用【摘要】本文在研究数据挖掘基本理论与技术的基础上,探讨数据挖掘技术在电大教务管理中的应用。从教务管理数据仓库中挖掘出隐藏在海量数据中潜在的关联规则,可以获取影响学生能在最短年限内毕业的潜在因素与信息,将研究结果用于指导教学、开展有针对性的教学安排与教学组织,对学校的教学管理工作提出建议。【关键词】数据挖掘;关联规则;apriori算法;教务管理引言随着“中央电大人才培养模式改革和开放教育试点”已经通过教育部的总结性评估,现代远程开放教育成为电大办学的常规形式,这表明电大教育进入新的发展阶段。开放教育事业的飞速发展,学生注册人数不断增加,毕业生的数据也在持续递
2、涨1。由于电大主要面向成人教育,具有远程教育特征、采用多种媒体教学、共享优秀教育资源、开放的学习模式、学籍年限长等特点。一方面学生们学习目的明确,学习主动性很高,他们都希望学到知识的同时能在教育部规定的最短年限内获取毕业证书;另一方面作为学校,也希望在保证教学质量的同时,提高学生首次毕业通过率。但如何才能在最短年限内取得证书?这已成为制约学校招生、教学管理发展的棘手问题。本文希望通过数据挖掘技术能在大量的教务管理系统数据中,发现潜在规律,找出隐含的模式,找出制约的原因,为学校的管理决策提供有力的数据支持和依据,提高管理水平和办学质量。 数据挖掘的基本理论.1数据挖掘的基本概念数据挖掘就是技术地
3、从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息在被提取之前是是隐含的,事先未知而潜在有用的,被提取的知识表示为概念、规则、规律、模式等形式。.2数据挖掘的对象原则上讲,数据挖掘可以在任何类型的信息存储上进行,包括关系数据库、事务数据库、数据仓库、高级数据库系统和面向特殊应用的数据库系统(面向对象数据库、对象-关系数据库、空间数据库、时间数据库、时间序列数据库、文本数据库、多媒体数据库、www等)234。.3数据挖掘的过程数据库中的知识挖掘是一个多步骤的处理过程, 数据挖掘的基本过程和主要步骤如图所示。图1数据挖掘的基本过程和主要步骤.4数据挖掘的方法和算法常用的数据挖掘方法
4、有关联分析、序列模式分析、分类分析、聚类分析、预测分析、回归分析;而常用的数据挖掘算法有人工神经网络、决策树、遗传算法、最临近技术、规则归纳、可视化技术等。数据挖掘不是一个单向的过程,对同一个问题,可有多种不同的算法。不同的数据挖掘方法作用于同一数据库,对数据的理解可有不同的角度,每种方法的合理与否都有可能。这就需要将发现结果在实际运用中反复求证,以检验其合理性。2关联规则中的apriori 算法及分析1993年ibmaldrhct的rkhagawl等人首先提出关联规则挖掘,关联规则挖掘目的是发现大量数据中项集之间有趣的关联或相关联系,可以帮助许多商务决策的制订,如市场规划、广告策划、分类设计
5、等。apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。数据挖掘在电大教务管理中的应用以广东电大为例,抽取2
6、004年级的12001名本科学生为主要分析对象,根据这些学生的学籍及第一年考试成绩作为分析的原始数据,参考其他高校分析的一些指标定义,构造挖掘模型。从教务管理广东理工职业学院数据仓库中导出相关的基本表进行集成、清理、转换等数据预处理;使用关联分析中的apriori算法对数据进行挖掘分析,从数据中发现某些规律和参考信息,找出学生能在最短年限内毕业的因素,对教学等管理提出建议。.1设立模型对电大学生数据建立分析模型,以选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。建立分析模型如图。图2电大学生数据分析模型3.
7、2数据预处理数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要用掉挖掘过程中70%的工作量。本文以2004年级的本科学生为主要分析对象,因此从教务管理系统仓库中导出相关的三个表:学生基本档案表、成绩总表、毕业生名单,并对这三个表进行预处理。经过数据采集、数据清理、数据集成、数据转换、数据消减这五个步骤后,最终建立了可用于下一步数据挖掘的目标数据表。如图所示。其中: xh(学号)字段值为20041440000001-20041440011999;kscs(考试次数)字段值定义为:1-16;hgcs(合格次数)字段值定义为:1-16;hgl(合格率=)字段值如此定义:0-1;rxjd(入学季
8、度)字段值如此定义:1表示春季入学,2表示秋季入学;zhpjcj(综合平均分=)字段值如此定义: a表示90-100、b表示80-89、c表示70-79、d表示60-69、f表示低于60分;hydm(婚姻代码) 字段值如此定义:根据全局统计只有两种状况:1表示未婚,2表示已婚;nl(年龄)字段值如此定义:年龄采用等高方式划分bucket,分成5个年龄段:20、25、30、35、40;dwdm(单位代码)字段值如此定义:将广东电大系统地区划分为四个区域,a代表粤北,b代表粤东,c代表粤西,d代表珠三角。图目标数据表片段3.3数据挖掘从目标数据表中统计,约25.5%的学生就读五个学期后毕业,约45
9、.1%的学生就读六个学期后毕业,其余剩29.4%的学生不能在最短的第五或者第六个学期毕业,下面通过apriori算法对该表进行挖掘应用,找出答案。事务数据库d由已经经过预处理的目标数据仓库中(见图3)给出,设最小支持度minimum support0.05(612 instances);minimum metric = 0.2,利用apriori算法找出d的频繁项集。1)扫描整个表,计算出d中所包含的每个项目出现的次数,得出c1。将c1各项计数,由最小事务支持计数为0.1,从c1中可以确定出频繁1-项集,得出l1:2)执行l1 l1产生侯选2-项集的集合c2,c2由个2-项集组成,扫描d,计算
10、c2中每个侯选项集的支持计数(2-项集的子集均属于l1,这样对c2不用剪枝),根据最小事务支持计数2,从c2中确定l2,即把c2中满足最小事务支持计数2要求的候选项目集放入l2中:3)执行l2 l2产生c3,根据apriori-gen中剪枝步骤对c3进行剪枝,然后扫描事务数据库对c3中的项目集进行计数,得出l3,同理得出l4、l5:4)在执行l5 l5后,通过剪枝与计数,得出c6,在扫描以及对比数据库与最小支持计数后,得知c6= ,算法终止。经过以上4个步骤的频繁集生成规则共有228条。.4结果分析1)以全省总体来说:第五个学期毕业的置信度比第六个学期毕业要低,即使全部考试都合格的情况下,结果
11、也一样;但分布来说:粤东地区第五个学期毕业的置信度比第六个学期毕业要高;粤西地区就刚好相反;珠三角地区则有一半的学生在第六个学期毕业;2)以全省25岁的学生为参照物,第一年参加考试次数7次比参加考试6次在第六个学期毕业的置信度要高;3)如果考试次数为8次在不考虑合格率的情况下,其置信度比只考7次的要低;4)婚姻状态与能否在最短年限内毕业结果无关;5)年龄与学生毕业时间没有太大关系;6)入学季度与学生毕业时间没有太大关系,但粤西地区春季入学的学生比秋季入学的学生,在第六个学期毕业的置信度高得多;7)综合平均分为d以上的学生在六个学期前毕业的置信度比较高,但综合平均分为f的,有八成多都不可能在六个
12、学期前毕业。根据以上分析,对学校招生管理部门建议:学生报读时提醒学生学习态度是决定其能否最短时间拿到毕业证书的关键。想按时毕业有几个关键因素:第一年参加考试总次数要在6次或者以上并且至少有6次及格;第一年综合平均分要为d以上。对学校教学管理部门建议:鼓励学生以积极的态度去学习,第一年尽可能多的参加期末考试;进一步指导学生进行有效的学习、复习,提高考试通过率的同时尽量拿取高分数。结论本文通过介绍数据挖掘的基本概念、对象、过程、方法和算法,分析了随着电大办学规模的不断扩大,信息量大幅度增加,使用apriori关联规则挖掘算法对数据仓库中的部分数据进行挖掘,找出潜在的关联规则,获取影响学生能在最短年
13、限内毕业的潜在因素与信息,用于指导教学,开展有针对性的教学安排与教学组织,借以提高教学质量,对学校教学管理提出建议。将数据挖掘技术引入教育领域是可行的,可以对教务管理庞大的数据进行多方面、多角度的数据分析和挖掘,应该会得到大量的有指导意义的结果,以提高学校管理的决策,提高管理水平和办学质量。【参考文献】1田红梅,彭愈强论现代远程开放教育学籍管理的特点及战略意义j厦门广播电视大学学报,2008(1):10-12邵峰晶,于忠清.数据挖掘原理与算法m中国水利水电出版社,2003,8jiawei han,micheline kamber.数据挖掘概念与技术m范明,孟小峰,译机械工业出版社,2001谈恒贵, 王
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 集装箱道路运输与物流配送考核试卷
- 玻璃仪器表面处理技术考核试卷
- 品牌策划设计说明
- 春季季节性疾病预防指南
- 口腔探诊手法教学
- 心跳呼吸骤停护理常规
- 肺功能低下病人的麻醉处理原则
- 高一数学教学设计
- 16-Hydroxyroridin-L-2-生命科学试剂-MCE
- 自然语言及语音处理项目式教程 实训指导 实训20 基于PaddleSpeech实现新闻自动播报
- 安徽省历年中考作文题与审题指导(2015-2024)
- 2025年北京市丰台区九年级初三二模英语试卷(含答案)
- 设定目标的2025年税法考试试题及答案
- Unit 7 A Day to Remember 单元话题阅读理解练习(原卷版)
- 征集和招录人员政治考核表(样表)
- 2024年重庆电力高等专科学校招聘笔试真题
- 2025-2030药妆市场发展分析及行业投资战略研究报告
- AI技术在市场营销中实现精准推广的方法与技巧
- 《塔罗牌的团体使用》课件
- 商业模式理论的演变历程与未来趋势
- 强基计划文科笔试目录
评论
0/150
提交评论