K均值聚类在成绩分析中的应用_第1页
K均值聚类在成绩分析中的应用_第2页
K均值聚类在成绩分析中的应用_第3页
K均值聚类在成绩分析中的应用_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 K均值聚类在成绩分析中的应用 高若兰一、引 言学生分类是教师教学过程中要了解的重要问题,同时也是实现个性化教学的重要基础。教师在充分掌握了学生的分类情况下,可以为不同类型的学生提供更具针对性的教学策略,极大地发挥教师和学生的主观能动性。将学生的各门课程成绩直接相加得到总分,根据总分进行排名分类是目前较为普遍的做法。但是这样的做法过于简单,没有考虑课程的难易程度。因此,我们将提出一种基于K均值聚类的学生成绩分析方法。K均值聚类方法是非常经典的无监督分类方法,不需要任何的先验知识。K均值聚类方法以各类样本的中心为聚类中心不断进行迭代更新,直至达到迭代终止条件,但是需要先选择聚类的个数。因此,如何

2、选择合适的聚类个数也是热点问题。利用matlab将数据符合的最佳聚类个数确定出来,然后基于K均值聚类的方法对规范化后的数据进行分类处理。最后,根据分类结果对学生成绩进行分析。二、K均值聚类相近的样本数据组成不同的类别,以得到紧凑而且独立的类别作为最终目标。具体的步骤如下:如果,则将分为第L类。接着,根据 n 个样本的分类结果重新计算 k 个聚类中心,可以利用如下公式:。其中,Nj 是第 Cj 类中所包含的样本数。不断地重复这一过程,直到达到某种收敛标准即停止.一般可以用迭代次数来作为迭代终止条件,也可以用誤差平方和不再发生明显变换作为迭代终止条件.误差平方和计算公式如下:k 均值聚类算法的主要

3、特点就是每一次迭代过程都需要对所有的样本数据点重新计算其与聚类中心之间的距离,并由此重新分配所属类别,然后更新聚类中心,进入下一次的迭代.如果在迭代过程中,所有数据点的类别数没有发生变化,而且聚类中心也没有发生变化,算法及完成.K 均值算法较大的局限性就是需要预先估计聚类个数,只有在聚类个数已知的前提下,算法才能继续进行.三、成绩分析结果数据准备数据来自于本校研一某专业27名学生的录取成绩,包括四门课程政治、英语、数学、专业课,其中政治、英语满分100分,数学、专业课满分150分,用EXCEL表格计算学生的直接总分,并排名次,得到数据表1.数据分析首先,用matlab进行最佳聚类个数的选择,得

4、出该班27名学生比较适合分为4类。接着,利用K均值聚类方法对27名学生进行分类。K均值聚类对27名学生的分类结果从上图中可以看出,总分排名第一名学生被分为第一类;总分排名第2名至第5名学生被分为第二类;总分排名第6名至第15名学生绝大多数都被分到第3类,但有五名学生例外,排名第7名到第10名学生,被分到了第四类;总分排名第16到27名学生绝大多数都被分到第四类,但有5名学生例外,排名17、19、21、23、27学生,被分到第三类。结合表一,可以得出:如果按照总分排名,第7到10名学生分数高于第11、12、14、15名学生,但是成绩归一化之后其数学和专业课有明显的偏科现象,因此,K均值聚类的结果更加倾向于将其分为第四类,其他几名学生也有类似的偏科现象。四、总结应用K均值聚类的原理,将2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论