关联分析技术在学生成绩分析中的应用_第1页
关联分析技术在学生成绩分析中的应用_第2页
关联分析技术在学生成绩分析中的应用_第3页
关联分析技术在学生成绩分析中的应用_第4页
关联分析技术在学生成绩分析中的应用_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    关联分析技术在学生成绩分析中的应用    龚希章付熙徐摘 要:采用visual basic对学生管理系统数据仓库进行关联分析,揭示了各科成绩之间的联系,详细描述了关联规则算法及实时优化,分析了使用高维数据结构在关联分析中的优化效果。关键词:数据挖掘;关联分析;高维数据doidoi:10.11907/rjdk.161962:tp391:a :16727800(2016)0110173030 引言互联网及信息技术的发展,产生了大量的历史数据,这些数据迫切需要转换为有用的信息和知识12,通过这些信息和知识,研究经营管理状况、分析市场、控制生产,发现和挖

2、掘可以改进的地方,甚至预测将来的发展和变化,由此产生数据仓库与数据挖掘技术。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏其中的信息的一种技术,目的是帮助决策者寻找数据间潜在关联,发现被忽略的要素,这些信息对预测趋势和决策十分重要34。数据挖掘技术涉及数据库、人工智能(ai)、机器学习和统计分析等多种技术。数据仓库与数据挖掘正越来越多地应用到传统数据库技术领域5。本文介绍了一个关联分析技术在教育领域的应用。学生某些课程成绩比较好会导致另外一门或几门课程成绩比较好,对此进行关联分析可得到其对课程偏好之间的联系。本文讨论了经典频繁集算法进行关联分析过程,描述了关联分析中发现多维关联规则方法,分析

3、了使用高维数据结构在关联分析中的优化效果。1 相关数据库结构与分析学生成绩关联分析数据来自一个学生管理系统数据仓库,数据仓库中包含学生成绩信息和住宿信息等,由于分析的是各科成绩关系,故相关的只有成绩事实表和学生、课程两个维表,表中出生年月、教师、课程类型、学分、籍贯、考试日期等不相关属性可以去掉,相关数据仓库结构如表1、表2、表3所示。2 数据挖掘准备工作数据预处理包括数据清理、数据集成、数据抽取、数据变换和数据归约。数据清理和数据集成在数据仓库构建过程中已经完成。对预处理后数据进行统计,以直方图表示成绩的分布情况,直方图用分箱的方法来表示数据的近似分布。图1以横坐标表示成绩,纵坐标表示百分比

4、,用visual basic 处理数据。从图1可以看出,考试中成绩优秀的只占很小一部分,而成绩及格和中等却占比很大。一般意义上成绩良好也可以说是成绩好,因此将成绩良好和优秀(score>=3)都定义为成绩好。3 数据挖掘算法及改进3.1 关联分析和经典频繁集算法关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联规则是形如x=>y的规则,支持度为在所有交易集中同时符合x与y的交易数与所有交易数之比,可信度指在所有交易集中同时符合x与y的交易数与符合x的交易数之比。关联规则可表示为:关联分析主要算法有经典频繁集算法和fp-growth等改进算法,本文采用

5、经典频集算法思想对数据进行关联分析。经典频繁集算法思想如下:找出所有具有超出最小支持度的支持度项集(itemsets),由apriori算法实现;利用大项集(litemsets)产生所需规则(rules)。算法实现如下:3.2 关联分析算法优化根据上面的归约,分析学生某科(几科)成绩与其它科目成绩关系。把一门课程成绩好(score>=3)作为一个项,每个学生的考试可作为一项交易,下面讨论进行关联分析时遇到的问题和解决办法。3.2.1 关联分析问题由于数据结构关系,本次关联分析遇到以下问题:经典频繁集算法理论一般只介绍同一字段值之间的关系,而考试成绩分析涉及到课程和成绩两个字段,属于多维关

6、联规则;课程数量很多(1 000门左右),但大多数课程只有部分学生选修,如果支持度要求太高就得不到有意义的规则,故频繁-1项集也会比较多。数据仓库中每次考试都存储为一条记录,需要过于频繁地扫描数据量巨大的事实表。3.2.2 多维关联规则处理方法和频繁-1项集找寻为了简化多维关联规则,建立一个频繁项集表,结构如表4所示。3.2.3 交易集表产生和算法优化如果直接在事实表中搜寻层次为2以上的频繁项集,需对每个学生确认频繁集组合条件是否符合,对每个学生都要扫描记录数巨大的考试事实表数次。为解决此问题,建立了专门的交易集表(也可在学生表中直接加一个字段,但这需要更新数据仓库的学生表,并影响其它分析),

7、表结构见表5。3.2.4 层次较高的频繁集和规则产生找出频繁-1项集并生成交易集表后,即可依次找出频繁-2项集等层次的频繁集,其中一个2项集由两项频繁-1项集构成,一个 n项集由一个频繁n-1项集和一个频繁-1项集构成。可从频繁项集表中推出构成每个多项集的频繁-1项集,扫描交易集表即可找出该频繁多项集的支持度,最终找出所有频繁项集。以下程序可确定某频繁项集包含的所有频繁-1项集:其中,array()是用于保存该频繁项集包含的所有频繁-1项集数组,也可直接生成查询条件:将array(i)=rs2(“p2”)改为str1=”$”+cstr(rs2(“p2”)+”$%”,该字符串可直接用于判断交易集

8、表中的交易是否包含该频繁项集的所有条件。通过扫描交易集表找出所有频繁大项集后生成规则,若支持度大于给定的支持度即可输出为关联规则。3.2.5 兴趣度分析及规则输出关联分析规则是否有兴趣,主要评价标准是可信度和支持度。通常使用固定的可信度和支持度标准,但由于本例中频繁项数量很多,高层关联规则产生算法的复杂度也相对较高。而较高层次频繁项的支持度要比较低层次频繁项低很多,可将支持度低的低层次频繁项不产生高层次频繁项,予以清除。本例中各层次使用不同的支持度标准,该标准从低层到高层递减。经过最后筛选,输出部分规则如下(最小可信度为30%):(渔业导论>=3)and(大学英语1>=3)=>

9、;(法律基础>=3)支持度5.1% 可信度33.3%(法律基础>=3)=>(渔业法规>=3) 支持度5.2% 可信度53.1%(渔业法规>=3)=>(法律基础>=3) 支持度5.2% 可信度61.2%注:倒过来不一定有足够可信度,例如由于可信度不到30%的缘故,(法律基础>=3) =>(大学英语1>=3)没有作为规则输出。4 结语数据挖掘是一项复杂技术,本文介绍了经典频繁集算法进行多维关联分析的方法,讨论了如何将多维关联分析简化为一维关联分析,将多次扫描庞大的事实表转化为扫描相对较小的交易集表。课程很多,项集也会很大,而经典频繁集算法的缺点之一正是建立了大量频繁项集,频繁扫描事实表。所以对此种关联分析,经典频繁集算法不是最好的算法,但分步优化和使用高维数据能使算法复杂度大大降低。参考文献:1 张兵令,付熙徐,张丹珏.数据仓库的建立与维护j.微型电脑应用,2006(2):1519.2 朱扬勇.高级数据库应用开发m.北京:清华大学出版社,2007.3 jiawei han,micheline kam

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论