基于SPSS的信息类大学生成绩的数据挖掘_第1页
基于SPSS的信息类大学生成绩的数据挖掘_第2页
基于SPSS的信息类大学生成绩的数据挖掘_第3页
基于SPSS的信息类大学生成绩的数据挖掘_第4页
基于SPSS的信息类大学生成绩的数据挖掘_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用统计学课程设计报告名称基于SPSS的信息类大学生成绩的数据挖掘学 院:河南中医信息技术学院专 业:信息管理与信息系统班 级:信管一班日 期:(提交日期): 2014/6/12摘要数据挖掘技术是信息技术研究的热点问题之一。目前数据挖掘技术在商业、金等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。聚类分析是数据挖掘中的一个重要研究领域。它将数据对象分成为若干个簇,使得在同一个簇中的对象比较相似,而不同簇中的对

2、象差别很大。本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在分专业前的各主要学科的成绩构成,对数据进行选择,预处理,挖掘分析等。运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。关键词 聚类分析,学生成绩,就业,K-means,1、 研究背景:随着我国经济的发展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深入的分析,以便更好地利用这些数据,从中找出潜在的规律。那么,如何从大量的数

3、据中提取并发现有用信息以提供决策的依据,已成为一个新的研究课题。 高校是教学和科研的重要基地,也是培养人才的重要场所,教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。从目前来看。各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在这样的教学管理系统中,学校的管理人员、教师和学生都只能通过查看,或者简单的排序以及统计功能来获得数据表面的信息,由于缺乏信息意识和相应的技术,隐藏在这些大量数据中的信息一直没有得到充分应用。如何对这些数据进

4、行重新分析利用,在原基础上扩充高校教学管理系统的功能,从大量数据中发现潜在规律,提高学校管理的决策性,是很多高校正在考虑的问题。因此,对学生成绩数据进行深入挖掘分析,找出影响学生学习的各种潜在的因素,将会促进学校开展更加具有针对性的个性化教育,同时营造一种新的教学管理模式,进一步促进教学管理水平的提高2、 主要原理和思想:聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。简单的说就是达到不同聚类中的数据尽可能不同,而同一聚类中的数据尽可能相似,它与分类不同,分类是对于目标数据库中存在哪些类这一信息是知道的,所要做的就是将每一条记录分别属于哪一类标记出来;而聚类是在预先不知

5、道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的簇或者说“聚类”,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。事实上,聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算法。聚类分析的算法可以分为以下几类:划分方法、层次方法等。2.1聚类分析原理方法:在数据挖掘技术中,聚类分析主要有以下几种方法。 (1)划分法(Partitioning Methods) 划分法给定一个有N个元组或者记录的数据集,构造K个分组,每一个分组就代表一个

6、聚簇,K< N。而且这K个分组满足下列条件:每个组至少包括一个对象,每个对象必须属于且只属于一个组。 对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一组中的记录越近越好,而不同分组中的记录越远越好。使用这个基本思想的算法有:K均值算法、K中心点算法、CLARANS算法。K均值算法一般只能在簇的平均值被定义的情况下才能被使用,这对于涉及有分类属性的数据的应用可能会显得不适用,该方法不易发现非凸面形状的簇和大小差别很大的簇;K中心点算法在中心点的计算过程中需要反复迭代计算,其计算量很大,这对于对象

7、及划分数的值较大时,其计算代价相当高。(2)层次法(Hierarchical Methods) 层次法就是把数据库分成多个层次,然后对不同层次的数据采用划分聚类。输出的是一棵层次化的分类树,层次的方法可以分为凝聚的和分裂的。凝聚的方法也称为自底向上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。分裂的方法,也称为自顶向下的方法,一开始将所有的对象置于一个类中。在迭代的每一步中,一个类被分裂为更小的类。直到最终每个对象在单独的一个类中,或者达到一个终止条件。3.数据情况介绍: 3.1数据信息:我院某年级学生大学

8、四年全部实际课程数据,分计科、信管1、信管2三个班级 3.2数据净化 数字净化据源中不正确,不完善等不可能达到数据挖掘质量要求的数据,从而提高数据的质量得到更正的数据挖掘结果。 研究所针对的学生成绩数据中,遇到的主要是空值问题。对此,本研究采用了两种处理 方法若该学生有三门及以上成绩为空,则将其作为异常点从数据除去;若该生有两门及以下课程成绩为空。则取所在班级对应课程的平均成绩来代替空值。4.分析过程:第一步,启动并进入系统, 数据导入系统。第二步,进入系统分析功能,在“分析”菜单“分类(F)”中选择K-均值聚类(K)命令。 第三步,在弹出的K-均值聚类分析对话框中,从对话框左侧的变量列表中选

9、择“医院管理学,软件工程,”等变量,使之添加到右边的变量(V)框中,聚类数写为4,方法选为迭代与分类如下图。第四步,单击迭代按钮选择系统默认值(右图)。第五步,单击保存按钮选择聚类成员(C)与聚类中心的距离(D)第六步,单击 按钮,自动完成分析二:聚类分析结果由上图可知信管一班54名学生分成四类类别129忧53.7%类别24中7.4%类别320良37%类别41差1.9%三:同理计科,信管二班分析结果计科:导入数据计科数据分析: 1.聚类成员表2.最终聚类中心表3.每个中心的案例数表由上图可知计科72名学生分成四类类别124良33.3%类别236忧50%类别31差1.4%类别411中15.3%信

10、管二班导入数据:信管二班数据分析:1.聚类成员表2.最终聚类中心表3.每个中心的案例数表由上图可知信管二班53名学生分成四类类别113中24.5%类别22差3.8%类别324良45.3%类别414优26.4%三对三个班级进行比较分析:信管一班优秀率最高53.7%说明该班成绩较为突出,信管二班良好率45.3%三班最高,说明信管二班比较稳定,整体成绩比较均匀,说明班级学风较好。计科优秀率,良好率基本都处于第二位,说明该班潜力较大,应该加重对该班的重视,分类有针对性的进行指导。四:对信管一班分类结果详细分析:学生聚类后的各门课程平均成绩比较分析表A第一类,B第二类,C第三类,D第四类,F平均值由学生

11、谱系聚类图及聚类后的各门课程平均成绩比较分析表可知如果将54名学生(1-54为学生编号)分为两类测2,4,5,38,44属于一组,该类总体成绩较高,但是有挂科的现象,如果将54名学生分三类与分为四类区别不明显,我们以分四类进行分析,则第一类1,7,8,9,11,13,16,17,20,23,24,25,26,27,31,32,33,34,35,36,37,39,42,43,45,46,47,49,5129人课程总平均分80.7分,各门平均成绩都是最高分,综合排名都在前30属学习成绩优秀者,第二类为3,6,10,12,14,15,18,19,21,22,28,29,30,40,41,48,50,

12、52,53,5420人课程平均分76.5分与全班总平均分78.7相差有点大,但没有挂科的,综合排名30至50名间,属学习成绩良好者;第三类2,5,38,444人课程总平均成绩79.7分比全班总平均略高但是有挂科的行为,综合排名在前50属学习中等者,第四类4一人课程平均分80.5总体成绩较高感觉有偏科现象造成排名仍在最后。分析结果:众所周知, 高校往往依据学生综合考试成绩来评定学生优良中差, 如果学生要想在评比中排名靠前, 如第一类学生, 就必须将有限的精力分配到所开设的各门课程中, 不论是否愿意或是否有兴趣, 至少是在所开的必修课程中他们必须花费同样的精力去提高考试成绩, 这就会造成这类学生无

13、法有意识或没有更多的精力来培养适应社会的能力。根据笔者对第一类学生的跟踪调查, 毕业时第一类迟迟就不了业的学生占了相当比重。为避免“高分低能”, 提高学生在激烈的市场竞争中的生存与发展能力, 学校应针对这类学生学习自觉且文化基础好, 多加强对他们的社会实践能力和各种技能的训练, 多为这类学生提供一些在课堂内外锻炼的机会, 发现他们在其他方面的优势, 并加以适当地引导, 尽量把这类学生培养成通才。第三类,第四类学生在一方面比较擅长,有自己的目标自己的专长。学校针对这类学生加强对其兴趣爱好的引导, 使其向专才方向发展, 对其不感兴趣的课程应尽量宽松对待, 使其有足够的精力从事其努力的方向。第二类学

14、生文化基础一般, 自我管理比上述两类学生差, 学习目的不明确, 不论在课程学习还是在其他方面表现不积极、不突出, 付出的努力还不够。学校针对这三类学生, 通过加强辅导员和任课教师与学生的相互交流找出其原因, 挖掘其潜力所在, 提高学生的自信心和积极性,因材施教, 努力把学生培养成才。一 :用对学生学习状况进行差异分析用对学生学习状况进行差异分析的步骤是:第一步,启动并进入系统, 数据导入系统。第二步,进入系统分析功能,在“”菜单“”中选择命令。第三步,在弹出的对话框中,从对话框左侧的变量列表中选择“医院管理学,软件工程,”等变量,使之添加到右边的()框中。第四步,确定变量的型聚类,选择复选框:

15、。第五步,单击按钮,选择聚类方法:类间平均法,即两类距离为两类元素两两之间平均平方距离。在栏目中选皮尔逊相关系数():第六步,单击按钮,选中项,并选择纵向()输出聚类全过程()的冰柱图。第七步,显示凝聚状态表:单击按钮,选中 和项,选中中的项,并在其后文本框中输入,显示将变量分成类时各个变量的归属情况。第八步,单击 按钮,自动完成分析过程。分析结果与建议:(一) 输出层次聚类分析各变量的距离矩阵(见下图)。从中可以看出各个变间的距离,并按“距离”的长短进行分类(二)凝聚状态表 表格的第一列表示聚类分析的第几步;第二列、第三列表示聚类中哪两个样本或小类聚成一类;第四列是相应的样本距离或小类距离;

16、第五列、第六列表示本步聚类中,参与聚类的是样本还是小类。表示样本,数据(非)表示由第几步聚类产生的小类参与步聚类;第七列表示本步聚类的结果将在下面聚类的第几步中用到。(二)是变量层次聚类分析聚成3个类时变量的类归属情况(三)对群集成员进行总结分类并定义就业指导课,偏于文职嵌入系统,概率论与数理统计,Web应用开发,Web数据库应用,操作系统,计算机网络,计算机组成原理,数据接构,数据库原理,模拟电子技术,数字逻辑,电路基础,医院信息系统,JAVA程序设计基础,计算机网络安全,汇编语言,JAVA网络编程,LINUX操作系统,职业生涯规划,军论,思修,毛概,马列,体育,英语,数学,医院管理学,线性

17、代数,C#程序设计,计算机程序设计,微机原理与接口技术,软件工程 偏于工程类 计算机组装与维护硬件方面(四)由层次聚类分析的冰柱图(见下图),可以非常清楚地看到各变量按类归属的情况。 (五 )结果分析: 根据上述分析所得到的三个分类以及我们分别对每个类的定义,可以看到,一类学生在“计算机组装与维护”方面学习能力比较强,建议了解计算机硬件的相关原理,熟悉计算机的结构, 熟练使用各种检测和维修工具,对主板、液晶显示器、笔记本故障进行定位及排除的复合型技能人才为目标。 毕业后主要从事计算机硬件组装、管理、 维护、维修等工作。具体工作包括:1.计算机维护人员; 2.机房管理员;3.硬件维护维修;4.电

18、脑售后服务;5. 维护管理硬件。 一类学生具有一定的管理思想,善于指导可以从事管理教育培训,因而由技术人才转到管理类人才不失为一个很好的选择,做一些文职。类外在一类学生,形象思维能力和动手能力较强,他们比较适合从事本专业的工程技术工作建议他们进一步打好基础,深入掌握实际中的一些技巧,以便将来能成为本专业的技术骨干和专家。网络工程方向就业前景良好,学生毕业后可以到国内外大型电信服务商、大型通信设备制造企业进行技术开发工作,也可以到其他企事业单位从事网络工程领域的设计、维护、等工作。 2、软件工程方向 就业前景十分广阔,学生毕业后可以到国内外众多软件企业、国家机关以及各个大、中型企、事业单位的信息技术部门、教育部门等单位从事软件工程领域的技术开发、科研等工作。也可以继续攻读计算机科学与技术类专业研究生和软件工程硕士。 3、通信方向 学生毕业后可到信息产业、财政、金融、邮电、交通、国防、大专院校和科研机构从事通信技术和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论