fcm算法优缺点 聚类分析算法对高校学生成绩分析的应用研究.doc_第1页
fcm算法优缺点 聚类分析算法对高校学生成绩分析的应用研究.doc_第2页
fcm算法优缺点 聚类分析算法对高校学生成绩分析的应用研究.doc_第3页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、fcm算法优缺点 聚类分析p 算法对高校学生成绩分析p 的应用研究聚类分析p 算法对高校学生成绩分析p 的应用研究 _15级信管4班2220_602063077 【摘要】:p :数据挖掘就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。聚类分析p 指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析p 过程。聚类分析p 的目标就是在相似的基础上对收集数据来分类。聚类的应用于很多不同的领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据间的

2、相似性,以及把数据分类到不同的簇中。聚类分析p 常用算法原理:K-means,DBSCAN,层次聚类。聚类分析p 是非监督学习的很重要的领域。所谓非监督学习,就是数据是没有类别标记的,算法要从对原始数据的探索中提取出一定的规律。【关键词】:p :数据挖掘聚类分析p 学生成绩分析p 1.概述 1.1研究意义 数据挖掘的方法有很多种,聚类分析p 法是目前最有应用前景的方法之一。聚类分析p 法能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,并能集中对特定的某个簇进行特定的分析p 。本文旨在研究如何将聚类算法应用到学生成绩分析p 中,对学生成绩进行评价和分析p ,并从大量的学生成绩中提取出

3、更有用的信息。传统的方法是基于绝对分数的评价,这种方法存在一定的缺陷,不能充分反映学生原始成绩中蕴涵的信息。对学生原始成绩进行登记评定是教学管理中的重要环节,传统的评定方法是基于分数的绝对评价,这种方法存在一定缺陷。学生成绩分析p 是一个典型的多层次、多角度、多指标的综合评估分析p 问题,利用数据挖掘中的聚类分析p 算法获取学生成绩中隐含的规律,挖掘各科成绩背后所表达出来的学生的个性能力差异。因此,论文应用聚类分析p 的思想,对学生的成绩进行划分和评价,弥补了传统方法的缺陷,其评价结果为教学人员提供了有利的依据。1.2背景 现有的分类是人类认识世界的方式,也是管理世界的有效手段。分类在科学研究

4、中非常重要,许多科学研究都是从分类工作出发的。没有分类就没有效率,没有分类,这个世界就没有秩序。最初分类都是定性的分类,后来随着科学的发展,产生了数值分类学,再后来从数值分类学等研究中抽象出来专门的定量聚类的方法,包括基于统计学的各种聚类分析p 和基于模糊数学的聚类技巧等。在多元统计学中,聚类分析p 又叫点群分析p ,乃是研究样品或指标的分类问题的一种多元统计方法。所谓类(cluster),通俗地讲,就是相似元素的集合。聚类分析p 常用算法原理:K-means,DBSCAN,层次聚类。聚类分析p 是非监督学习的很重要的领域。所谓非监督学习,就是数据是没有类别标记的,算法要从对原始数据的探索中提

5、取出一定的规律。而聚类分析p 就是试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个“簇”。高校是教学和科研的重要基地,也是培养人才的重要场所,教学管理工作当中的学生成绩分析p 是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。从目前来看。各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在现有的教学管理系统中,不论是管理人员、教师还是学生能进行的数据操作很局限,大量的数据信息不能得到充分应用。1.3发展现状 聚类分析p 对很多领域都产生了巨大的作用,

6、具体表现在以下不同的方面:(1)商业领域:聚类分析p 被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析p 是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析p 的预处理。(2)生物领域:聚类分析p 被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。(3)地理领域:聚类能够帮助在地球中被观察的数据库商趋于的相似性。(4)保险行业领域:聚类分析p 通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。(5)因特网领域:聚类分析p 被用来在网上进行文档归类来修复信息

7、。(6)电子商务领域:聚类分析p 在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析p 客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。2.数据挖掘理论 2.1数据挖掘 数据挖掘(Data Mining)是通过分析p 每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析p 、聚类分析p 、分类分析p 、异常分析p 、特异群组分析p 和演变分析p 等。在人工智能领域,习惯上又称之为数据库中的知识发现(Knowledge Discovery in Databas

8、e, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。2.2聚类分析p 聚类分析p 指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析p 过程。它是一种重要的人类行为。聚类分析p 的目标就是在相似的基础上收集数据来分类。聚类于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据间的相似性,以及把数据分类到不同的簇中。聚类方法:(1)层次聚类(Hierarchic

9、al Clustering):合并法、分解法、树状图。(2) 非层次聚类:划分聚类、谱聚类。2.3三种聚类分析p 常用算法 2.3.1 KMeans聚类算法 属于非层次聚类法的一种。KMeans算法在给定一个数k之后,能够将数据集分成k个“簇”C=C1,C2,Ck不论这种分类是否合理,或者是否有意义。算法需要最小化平方误差:KMeans的基本算法流程 输入:样本数据集D ,聚类簇数k(1) 从样本中随机选取k个样本点作为初始的均值向量1 ,2 ,k (2)循环以下几步直到达到停止条件:(2.1)令Ci =(1ik) (2.2)对所有样本点计算他们到k个均值向量之间的距离,取其中距离最短的距离对

10、应的均值向量的标记作为该点的簇标记,然后将该点加入相应的簇Ci(2.3)对每一个簇计算他们新的均值向量,如果相比之前的向量有变化,就更新,将其作为新的均值向量,如果没有变化就不变。可以看出KMeans的基本算法是很容易理解的,算法本身也挺简单,运行较快,所以KMeans可用于非常大型的数据集。2.3.2密度聚类(DBSCAN) 密度聚类的思想是不同于KMeans的,但是更符合我们人类的思维,基本的思想是通过是否紧密相连来判断样本点是否属于一个簇。代表性的算法就是DBSCAN,它基于一组邻域参数(,MinPts)来表征某处样本是否是紧密的。在介绍算法之前先介绍一些概念。 -邻域:即对于样本点_i

11、,和它的距离在之内的属于样本集D中的点的集合,即N (_j)=siD|dist(_i,_j) 2.3.3层次聚类 层次聚类是一类算法的总称,是通过从下往上不断合并簇,或者从上往下不断分离簇形成嵌套的簇。这种层次的类通过“树状图”来表示。AgglomerativeClustering算法是一种层次聚类的算法。算法的原理很简单,最开始的时候将所有数据点本身作为簇,然后找出距离最近的两个簇将它们合为一个,不断重复以上步骤直到达到预设的簇的个数。可以看到,一个很关键的地方就是判断簇之间的距离。判断的准则叫做链接准则。3目标需求分析p 3.1课题意义学生成绩是教学效果的测量和学习质量的记录。学生成绩数据

12、蕴藏若大量信息,其分析p 挖掘对评价教学效果、促进教学改革、完善质量监控具有不可替代的作用,应该成为教学管理的重要环节。在我国高等教育从规模发展转人内涵提升的今天,完善的教学质量管理体系建设已经成为高校内涵建设的首要任务,我国高校的管理者应当充分认识学生成绩信息内涵的丰富性和成绩分析p 对教学工作的反馈作用,学生成绩管理不应仅仅是数据登录与查询,而应该成为教学质量管理与监控的必要环节。构建多维度、多视角、多层次的学生成绩分析p 方法体系和及时有效的反馈机制,形成人才培养的所有参与者都能关注学生成绩、深度分析p 挖掘、主动查找原因、积极改进提升的意识与氛围,必将对我国高等教育质量的提升起到重要推

13、动作用。3.2课题研究的原因 我国高校学生成绩分析p 现状,存在着以下问题:(1)高校学生成绩分析p 研究成果大多为计算机管理系统设计的内容,表明高校教学音理者对学生成绩管理的丰富内涵认识不够,对成绩分析p 重视不足,存在提交成绩就意味若教学工作结束的错误认识,导致学生成绩分析p 尚未纳人教学质最监控体系,成绩信息统计分析p 的反馈机制尚未建立,对人才培养的指导作用尚未发挥,属于学生成绩信息资的浪费。(2)方法研究不够,多维分析p 缺失。目前,尽管有些高校开展了课程考试相关分析p ,但仅限于由任课教师(或命题人)完成的单广课程的试卷分析p 。这种分析p 方法存在的问题是:命题分析p 多,教学分

14、析p 少;强调学风多,反思白身少;分析p 指标单-,其结果不能全面反映教学整体情况,无法诊断教学中存在的问题。强化学生成绩的整体性、历史性、比较性分析p ,分析p 原因,为教学决策和教学改革提供科学依据应该成为教学管理的重要环节。(3)信息利用不够,反馈机制缺失。目前,我国高校学生成绩管理流程一般为:教学过程一考试阅卷一成绩登录, 学生成绩仅用于课程学分、学籍资格、毕业资格、学位资格等审查,属于开环管理模式。由于尚未形成有效的学生成绩信息分析p 与反馈机制,导致管理者不了解整体教学情况,管理决策缺乏针对性与科学性;教学单位不了解教师教学状况,教学改革缺乏及时性和有效性;学生对学习效果缺乏整体把

15、握,学习方法的改进和学习目标的调整缺乏依据。4.KMeans的应用 4.1 KMeans的特点 总体上KMeans以及它很多聚类算法对于每一簇数据分布都是凸的情况效果都很好。(1)对初始值敏感。KMeans可能由于初始值选的不同,导致最终结果的不同。我们要优化的其实是最小化平方误差,但是它很难优化,所以我们采用的是一种贪心算法,那么这种算法就可能掉进局部最优的坑里面,所以我们要尽量多选几个初始值多计算几次。(2)对特殊分布的数据集不能够得出合理的结果比如上图,我们希望的结果应该是左图,但是KMeans只能得出右图,不能得出我们想要的结果。4.2 聚类分析p 工具软件(WEKA,SQL Serv

16、er 20_) WEKA是怀卡托智能分析p 环境( WaikatoEnvironmentfor KnowledgeAnalysis),是一款免费的,非商业化的,基于环境下开的机器学习(Machine Leaning) 以及数据挖掘( DataMining)软件。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归,聚类,关联规则以及在新的交互式界面上的可视化。而开发者则可使用 语言,利用WEKA的架构上开发出更多的数据挖掘算法。在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。聚类,分类和关联分窗口

17、提供对数据应用对应各类数据挖掘算法的界面,尤其对于成绩管理系统中大都是数值的数据。因此,选用WEKA工具来对高校学生成绩分析p 能够得到很有效的结果。SQL Server 20_是微软发布的新一代数据平台产品,全面支持云技术与平台,并且能够快速构建相应的解决方案实现私有云与公有云之间数据的扩展与应用的迁移。5实验过程 5.1 数据挖掘过程 数据挖掘是一个复杂的多阶段过程,如图所示,主要可以分为如下几个主要阶段:(1)确定挖掘对象; (2)数据准备; 数据选择; 数据预处理; 数据的转换。(3)数据挖掘; (4)结果分析p ; (5)知识表达和解释。5.2 聚类分析p 过程

18、本文在数据挖掘过程当中所使用的工具是WEKA ,而WEKA 所支持的数据格式有两种:ARFF 文件和CSV 文件。故将原始数据E_CEL 文件转换为ARFF 或CSV 文件。转换方法为:在E_CEL 中打开“MARK._ls ”,选择菜单>另存为,在弹出的对话框中,文件名输入“Mark ”,保存类型选择“CSV ( 逗号分隔)”,保存,便可得到“Mark.csv ”文件。其结果如图所示:打开WEKA 软件的E_porler 菜单,点击Open file 按钮,打开刚得到的“Mark.csv ”文件,点击“Save ”按钮,在弹出的对话框中,文件名输入“Mark ”,文件类型选择“Arff

19、 date files (_.arff)”,这样就得到的数据文件为“Mark.arff ”。打开WEKA 软件中的E_porler ,点击刚才得到的“Mark.arff ” 切换到“Cluster”,点“Choose”按钮选择“SimpleKmeans”,这是WEKA中实现K 均值的算法。点击旁边的文本框,将“numClusters”设置为3,把实例分成三个簇,即K=3。其他结果按默认值。右击左下方“Result list”列出的结果,点“Visualize cluster assignments”。显示弹出的窗口给出了各实例的散点图。在Cluster0簇里的实例,占总实例的32,其中男生相对较多,这类学生在分专业时选择了硬件方向。故在以后计算机专业的学生在分方向时,对计算机硬件结构及系统有一定了解,具有较强动手能力和创新意识的同学可以选择硬件方向。在Cluster1簇里的实例,占总实例的41,其中男生同样相对较多;根据该簇里面各实例的成绩可以看出,在我们所分析p 的数据实例中,这类的学生在分专业时选择了网络方向。因此,在以后计算机专业的学生在分方向时,对计算机常用的命令有很强的识别能力的同学可以选择网络方向。在Cluster2簇里的实例,占总实例的27,但其中女生相对较多;女生也符合思维周密的要求,有耐心,并且有创新的意识。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论