利用K-means聚类分析技术分析学生成绩_第1页
利用K-means聚类分析技术分析学生成绩_第2页
利用K-means聚类分析技术分析学生成绩_第3页
利用K-means聚类分析技术分析学生成绩_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、利用K-means聚类分析技术分析学生成绩摘要:数据挖掘是在海量的数据中寻找模式或规则的过程。数据聚类则是数据挖掘中 的一项重要技术,就是将数据对象划分到不同的类或者簇中,使得属于同簇的数据对象相似性尽量大,而不同簇的数据对象相异性尽量大。目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在选择专业前的各主要学科的成绩构成,对数

2、据进行选择,预处理,挖掘分析等。运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。关键字:数据挖掘聚类分析学生成绩分析Abstract: Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent r

3、elationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible.Nowadays data mining technology is widely used

4、in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analys

5、is, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data s

6、tructure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades choo

7、se their majors.Keywords : Data Mining , Clustering Technology , Students' Achievement1. 概述1.1背景随着我国经济的发展,网络已被应用到 各个行业,人们对网络带来的高效率越来越 重视,然而大量数据信息给人们带来方便的 同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利 用这些数据,从中找出潜在的规律。那么, 如何从大量的数据中提取并发现有用信息以提供决策的依据,已成为一个新的研究课 题。高校是教学和科研的重要基地,也是培 养人才的重要

8、场所,教学管理工作当中的学 生成绩分析是高校管理工作的一个重要组 成部分,也是衡量高校管理水平的依据。从 目前来看。各高校随着招生规模的扩大,信 息量大幅度增加,学校运行着各类管理系 统,存在着各类数据库,如有成绩管理,学 籍管理等。这些系统积累了大量的数据,在 很大程度上提高了工作的效率,但在这样的教学管理系统中,学校的管理人员、教师和 学生都只能通过查看,或者简单的排序以及统计功能来获得数据表面的信息,由于缺乏信息意识和相应的技术,隐藏在这些大量数 据中的信息一直没有得到充分应用。如何对这些数据进行重新分析利用,在原基础上扩 充高校教学管理系统的功能,从大量数据中 发现潜在规律,提高学校管

9、理的决策性,是 很多高校正在考虑的问题。1.2发展现状目前将数据挖掘技术与学校学生成绩 分析管理系统相结合,通过分析和处理系统 中大量的学生成绩数据,从中挖掘潜在的规 律及模式,促使学校更好地开展教学工作, 提高教学质量,帮助教学管理者制定教学计 划,使学生成绩管理系统的功能能够更加完 善。目前,在高校学生成绩管理中,影响学 生学习成绩的因素很多, 因此要进行综合分 析。传统分析无非是得到均值、方差等一些 简单的分析结果,往往还是基于教学本身。 其实,还有一些教学中不易察觉的因素和教 学以外的因素影响学生学习成绩,这些都需要进一步分析,从而得出结论,为教学管理 人员及学生做出相应的决策。1.3

10、研究意义利用数据挖掘聚类技术挖掘发现课程 与课程之间,或者每门课程中的知识点之 间,以及学生的成绩与课程的设置之间都存 在着千丝万缕的联系。 使得现阶段已有的数 据发挥其真正的价值,为了解决这一问题, 可以利用数据挖掘技术对这些数据进行合 理的利用和深层的分析,从而更好的指导教 师在教学中的工作。2. 数据挖掘理论概述2.1数据挖掘概述数据挖掘是集统计学、人工智能、模式 识别、并行计算、机器学习、数据库系统、 数据仓库、数据可视化和信息检索等技术的 一个交叉性学科。数据挖掘是数据仓库之上 的一种应用。但是数据挖掘不限于分析数据仓库中的数据,它执行关联、分类、预测、 聚类、时间序列分析等任务,而

11、且数据挖掘 应用范围也相对较广。2.2数据挖掘的过程数据挖掘是一个复杂的多阶段过程,如图2.2所示,主要可以分为如下几个主要阶 段:(1) 确定挖掘对象;(2) 数据准备; 数据选择; 数据预处理; 数据的转换。(3) 数据挖掘;(4) 结果分析;(5)知识表达和解释。图2.2数据挖掘过程图示2.3聚类分析及K-means算法聚类分析是数据挖掘中的一个重要研 究领域。聚类分析就是将一组数据分组,使 其具有最大的组内相似性和最小的组间相 似性。聚类分析的算法可以分为以下几类: 划分方法、层次方法、基于密度方法等,其 中划分方法的典型算法当推K均值算法,即K-means 算法。K均值聚类,即数据挖

12、掘中的 C均值聚 类,属于聚类分析方法中一种基本的且应用 最广泛的划分算法。K-均值算法以k为参 数,把N个对象分为k个簇,以使簇内具有较高的相似度。相似度的计算根据一个簇中 对象的平均值来进行。算法首先随机地选择 K个对象,每个对象初始地代表了一个簇的 平均值或中心。对剩余的每个对象根据其与 各个簇中心的距离,将它赋给最近的簇。然 后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。K-Means算法的准则函数定义为:k2E=£ £ X-为i -4 xU一 i ,其中E是数据库所有对象的平方误 差的总和,x是空间中的点,表示给定的数 据对象,Xi是簇Ci的平均值

13、。2.4聚类分析工具软件(WEKAWEKA 是怀卡托智能分析环境 (Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之 对应的是SPSS公司商业数据挖掘产品-Clementine )的,基于JAVA环境下开源 的机器学习(Machine Learning)以及数据 挖掘(DataMining )软件。该软件的缩写 WEKA 也是New Zealand独有的一种鸟名, 而WEKA的主要开发者同时恰好来自NewZealand 的 the University of Waikato 。WEKA作为一个公开的数据挖掘工作 平台,集合了大

14、量能承担数据挖掘任务的机 器学习算法,包括对数据进行预处理,分类,回归,聚类,关联规则以及在新的交互式界 面上的可视化。而开发者则可使用Java语言,利用WEKA的架构上开发出更多的数 据挖掘算法。读者如果想自己实现数据挖 掘算法的话,可以看一看WEKA的接口文档。在 WEKA中集成自己的算法甚至借鉴 它的方法自己实现可视化工具并不是件很 困难的事情。聚类,分类和关联分窗口提供 对数据应用对应各类数据挖掘算法的界面, 尤其对于成绩管理系统中大都是数值的数 据。因此,选用 WEKA工具来对高校学生 成绩分析能够得到很有效的结果。3.1数据准备及预处理本文在数据挖掘过程当中所使用的工 具是WEKA

15、,而WEKA所支持的数据格式 有两种:ARFF文件和CSV文件。故将原始 数据EXCEL文件转换为 ARFF或CSV文 件。转换方法为:在EXCEL 中打开 “MARK.xls ”,选择菜单一 另存为,在弹出 的对话框中,文件名输入“Mark ”,保存类型 选择“CSV(逗号分隔)”,保存,便可得到 "Mark.csv ”文件。其结果如图 3.1所示:2L414LLQE1 IURE:板IDB>rauLCc*giiterSft*wkTarcrSflftwtytEriCLaterInr l-=HfcUlSliIDB2LO1ra.o8L.tJ7i.DAZID3ZLD2T3.0M.tJ

16、74.03ID32:LD3n.o7U.CT&.D<IDll£LQ4lT4.057.06.05ID32-LD5T3.077.0e.IDI£LHEli.o的.QFIDaSLOTEll.OTC.O8I瞠嗾TO.O75.0T3.09IDH2L09盼.077.066.0LDIDD2LWT5.0W.OT3.0LLIDB2L11醐.D15.0L2:IDI£L12T4D7L.0邮.0L3IDIfLn辎.014.0III 油 illSfi.Qgfl.D敏0LGID92L15T5.Dy眼。L&I 睥 L1693. D9L 0m.qL7I 睡 LITM.D13.0

17、HAiUlfLIH曲0曲d&9 q岭hlSLlfiM.O» Dffi 0g$3.0BA。土 . l:hID92-IE翩4soaIDI212Srr.o击。*90 0ini?i23T? Q敏0V>图3.1数据文件截图打开 WEKA软件的Exporler菜单,点击 Open file按钮,打开刚得到的“Mark.csv” 文件,点击“ Save”按钮,在弹出的对话框 中,文件名输入"Mark ”,文件类型选择"Arff date files (*.arff)”,这样就得到的数据文件为 "Mark.arff "。3.2算法应用3. 数据挖

18、掘实验过程打开 WEKA 软件中的 Exporler,点击刚 才得到的“ Mark.arff ”,出现下面的窗口, 如图3.2.1所示:图3.2.1数据分析截图切换到"Cluster”,点"Choose”按钮 选择"SimpleKmeans”,这是 WEK中实现K 均值的算法。点击旁边的文本框,将"numClusters”设置为3,把实例分成三个 簇,即K=3。其他结果按默认值,如图3.2.2 所示。Clu$ler dat using ihe kalg orithin曲电MnClgl* 3seed 10& , .,OK蛔*1!图3.2.2设置界面截图3.3结果及分析右击左下方" Result list ”列出的结 果,点 "Visualize cluster assignments 。 显 示弹出的窗口给出了各实例的散点图。散点图如图 3.3所示:图3.3结果散点图3.4结论在Cluster0簇里的实例,占总实例的 32%,其中男生相对较多,这类学生在分专 业时选择了硬件方向。故

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论