




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、郑重声明:这是我们小组全体成员的集体原创劳动成果,仅供参考,未经允许严禁任何人窃取数据挖掘在学生学习成绩中的应用小组成员:说明由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获 得情况,因此涉及到了学生的一些个人信息。我们小组全体成员一致承诺:我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用, 对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。 希望各位能够予以理解!选题背景近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学 工作带来了严峻考验。传统的教学管理手段已经不能满足高校的快速发展。现阶段许多高校对学生的成绩、学生的信息
2、基本还停留在传统的、简单的数据库管理 和查询阶段,不能发挥其应有的作用。就以学生成绩为例,教师对学生的成绩知 识做一个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有 些可能是主观因素,有些可能是客观因素。如果某些客观因素比如学习环境、 师 资力量等不能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且 严重阻碍了学校教育教学发展的脚步。因此,通过数据挖掘等技术理性的分析学 生成绩等关键信息,提高教学质量与水平,是广大师生最关心的问题之一。数据挖掘数据挖掘又称为数据库中的知识发现 (KDD,是从大量数据中寻找其规律的 技术,是统计学、数据库技术和人工智能技术的综合。 数据
3、挖掘的任务是从大量 的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系。利用贝叶斯分类器分析奖学金概率问题奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用, 其目的是为了引导和鼓励学生刻苦学习、 奋发向上,促进学生全面素质提高和个 性健康发展。为了了解我们计商两个班级上一学年奖学金获得情况,进而考评上一学年我们电子商务系教学成果以及各位同学的学习成绩情况,我们小组利用贝叶斯分类器的方法进行了分析。贝叶斯分类器的分类原理:贝叶斯分类器的分类原理是通过某对象的先验概率, 利用贝叶斯公式计算出 其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对 象所属的类
4、。贝叶斯公式:p(X,Y)=p(Y|X)p(X)=p(X|Y)p(Y)变换式:p ( Y | X )p ( X I Y ) p ( Y )p ( X )其中,X和Y在分类中可以分别表示样本的属性集合类别。 p(X,Y)表示他们 的联合概率,p(X|Y)和p(Y|X)表示条件概率,p(Y|X)是后验概率,p(Y)称为Y 的先验概率。已知通过辅导员老师获得2012-2013学年计商两个班级学生奖学金获得情况统计数据如表1和表2所示:2学院到磁学号姓名测评总分获奖等级困难等级3±卜算机与信息学院10y-商A1学号1葬137. 121丙4±卜算机与信息学院10y嘀A1学号236.3
5、52甲5r算机与1信息学院ioH嘀A1学号336. 0T2丙67卜算机与1W息学院,叶1嘀A1学号4学生43579327i卜算机与1言息学院i此卜商A1学号5学生535. 53Ei寻机与言息学院1叶卜商A1学号6超635.0539L务机与,信息学院10r晴学号7装734*46310h I号机与,信息学院1(Jt卜商A1_8_34尸9411T卜算机与4言息学院10t-商A1学号9耳34. 18412i卜算机与宸昱学院1叶1嘀A1学号1。学牛1033. 00413i算机与,隹息学院1( i嘀A1学号11学生1L33.62414rE算机与1高息学院1叶1嘀A1学号12学生1233.27415i卜算机
6、与“合息学院1时嘀A1学号13学生1332,504I寻机导考息学院1叶卜裔A1学号"学生1432+50乙17s)1帚机与,募息学院10t卜商A1学号15学生1531*52甲18b T卜算机与信息学院l.Jr3学号16学生1630.68丙191 1 T卜算机与信息学院1(H-卜商A1学号U一学生1730.40丙20i卜算机与信息学院1叶嘀A1学殍18学生1B30.40商21i算机与信息学院嘀A1学号19学生1929.63丙22T算机身1信息学院i叶1嘀A1学号2。学生2028.79丙23i算机与“合息学院i仇I-商A1学号21学生2128.12丙241谆机与,言息学院1叶嘀A1学号22
7、学生2223, 5丙2012-2013学年上海第二工业大学计算机与信息学院10计商A1班奖学金获得情沉统计表1表1 A1班奖学金获得情况12012-2013学年上;海第二工业大学计算机与信息与W院1。计商IA2班奖学金获得情况统计表234学院班级学号姓名测评总分获奖等级困难等级V卜算机与信息学院10T嘀A2学号1姓名138.031T卜算机与信息学院10y-商A2学号2姓名236. 002乙56t卜算机与信息学院10t-商即学号3姓名335. 303乙十卜算机与信息学院ioj-商AZ学号4姓名§35, 093789T卜算机与信息学院1。春-同A2学号5姓名535. 02-复V卜算机与信
8、息学院LOT向A2学号6姓名6M器3T卜算机与信息学院10y-商A2学号7姓名TM 8131011T卜算机与信息学院10t-商加学号后姓名日34. 673T卜算机与信息学院loi-嘀AZ学号9姓名934. 25412T卜算机与信息学院ldy-商A2学号10姓名1034. 2513T卜算机与信息学院LOv-0A2学号11姓名1134. 184己14十卜算机与信息学院lOy-商A2学号12姓苕1234. 044丙15T卜算机与信息学院1优-商A2学号13姓名1333. 6241617T卜算机与信息学院lOv-商A2学号14姓名1432,92qT卜算机与信息学院10y-商A2学号15姓名1532.
9、85418卜算机与信息学院10y卜商他学号16姓名1631. 87乙表2 A2班奖学金获得情况已知A1班总人数39,由表1可看出获得奖学金人数为22,获得奖学金的概率约为 0.56已知A2班总人数36,由表2可看出获得奖学金人数16,获得奖学金的概率约为0.44A1、A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得者 的比例为58% A2班占奖学金获得者总人数的比例为 42% .根据以上数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的比 例,如表3所示:班级奖学金概率获奖人数占两个班级获奖总人数的比例10A10.5658%10A20.4442%表3奖学金获得概率及
10、所占比例通过以上数据,我们解决以下两个问题:(1)随机从两个班级中选出一个学生是奖学金获得者的概率是多少?(2)随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自哪个班级的可能性最大?假设X表示“选出的一个学生是奖学金获得者” ,Y=i , (i=10计商A1,10计商A2)表示“选出的学生是来自班级 广,则问题就转换为求解p(X)与p(Y=i|X)。由表3得到后验概率为:P(X|Y=10 计商 A1)=0.56 , P(X|Y=10 计商 A2)=0.44先验概率为:P(Y=10 计商 A1)=58% , P(Y=10 计商 A2)=42%由全概率计算公式得出:P(X)=P
11、(X|Y=10 计商 A1)P(Y=10 计商 A1)+P(X|Y=10 计商 A2)P(Y=10 计商 A2)=0.56*0.58+0.44*0.42=0.3248+0.1848=0.5096因此,随机从两个班级中选出一个学生是奖学金获得者的概率是0.5096。卜面我们求解p(Y=i|X),根据贝叶斯定理可得:p (Y = i | X )p ( X | Y = i ) p (Y = i )由公式可以计算出该获奖学生来自10计商A1班级的概率为:p(Y =10 计商 A1 | X )=p(X |Y =10 计商 A1) p(Y =10 计商 A1)p(X)0.56 * 0.58=0.640.5
12、096同理可得,该获奖学生来自10计商A2班级的概率为:p(Y =10 计商 A2 | X )=p(X |Y =10 计商 A2) p(Y =10 计商 A2)p(X)0.44 * 0.420.360.5096通过以上分析计算不难得出结论:随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来 自10计商A1班级的可能性最大。聚类分析中的k-means算法在学生奖学金等级划分中的应用k-means算法是常见的基于划分的聚类方法,其中相异度基于对象与类中心(簇中心)的距离计算,与簇中心距离最近的对象可以划分为一个簇。 此算法的 目标是每个对象与簇中心距离的平方和最小。根据对奖学金获得
13、者学生的学习情况分析可知:获奖等级与该学生平时去图 书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因 素有关。比如,图书馆能为同学们提供安静的、舒适的学习环境,同时能够提高 学生学习的自觉性,因此常去图书馆的同学学习成绩一般都比很少去图书馆学生学习成绩要好,相应的拿到奖学金的概率越大, 拿到奖学金的等级也越高。其他 因素类似,这里不一一详细用文字来描述。首先定义五个变量(每学期均按16周计算):Xi : 一学期去图书馆次数(每周按七天计算,上限112次)X2: 一学期迟到次数(每周按四天计算,上限 64次)X3: 一学期座位在前排次数(每周按四天计算,上限 64次)X4:
14、 一学期参加各类竞赛次数(每学期上限 5次)X5: 一学期宿舍平均评分(上限20分)根据奖学金获得者获奖等级情况分析可知,能够拿到一等及以上奖学金的指标 为:X1 : 96-112; X2 : 0-2; X3 : 60-64;“:3-5; X5 : 19.5-20学生X1X2X3X4X51112160119.52106364219.5334348119.5485264119590162018.5656139120727452118.5873053118910719117表4根据不同获奖等级选取的学生信息在以上给定的9个样本中选择3个样本:1号样本代表能够拿到一等及以上奖学金6号样本代表能够拿到
15、非一等及以上奖学金9号样本代表不能够拿到奖学金计算每一个样本与这三个样本的距离:数据挖掘在学生学习成绩分析中的应用106 112 + 3-1 + 6460 + 21 + 19.519.5二 132,6106 -56+ 卜1 +)64-39)+ |2-1+ 19.5-20二 78.52,9d3,110610 + 3-7 + 64 -19 +2-134-112 + 3-1+ 4860 + 1-1d3,6d3,9d4,134 -563 -134 -10十3-785-112+ 21d 。4,6d4,9d5,185 -5685 -10190 -1122 -12 -71 -1+(19.5-17 =148.
16、519.5-19.5二92+ 148 9 I +111+ 19.5-20=33.548 -1964-6064 -3964 -1962 -601-1+ 1-115- 1-10-1十 19.5-17十 19-19.519 -20+ 19-17=59.5二 32 .5=56=127十 18.5-19.5=26d5,6d5,9d7,190 -5690 -1027 -112+ 11 + 62 -39+ 1-7 + 62 -19+ 0-1+ 0-1+ 18.5-2018.5-1759.5131 .5+ 41 + 5260 + 10 + 18.519.5=97d7,627 -10- |4-7| - |52
17、-39| - 1 -1| I18.5-2046.5d7,927 -10+ 4-7 + 5219 +|1 -J +118.517=54.5d8 1 = |73-112| + |0-l| +|53-60| + |l-l| + |l8-19.5)= 48.5 d8 6 = 173 -56 | + |o-1| + |53 -39)+ |1-1| +|18-2o| = 34 d8 9 = |73_1o| +|o-7| 十153191 + |1-1| 十 |18171 = 105第一次聚类结果:学生与学生1的跑离与学生6的距离与学生9的距离10-21378.5148.539233.559.5432.556
18、12752659.5131.56-0-79746.554.5848.5341059-0表5第一次聚类结果把以上距离最小的样本归入相应的类:根据第一次聚类结果数据不难看出,样本 1、2、4、5、8几组数据比较接近,样本3、6、7数据比较接近。因此,将以上样本划分为三类。第一类由样本 1、2、 4、5、8组成,第二类由样本3、6、7组成,第三类由样本9组成。第一类:X1 = (112+106+85+90+73)/5=93.2X2= (1+3+2+1+0)/5=1.4X3 =(60+64+64+62+53)/5=60.6X4=(1+2+1+0+1)/5=1X5 =(19.5+19.5+19+18.5
19、+18)/5=18.9第二类:x1= (34+56+27)/3=39X2= (3+1+4)/3=2.7X3= (48+39+52)/3=46.3X4= (1+1+1)/3=1X5= (19.5+20+18.5)/3=19.3第三类:X1=10X2=7X3 =19x4=1X5=17新的样本中心:新中心XX2X3X4X5第一类93.21.460.6118.9第二类392.746.3119.3第三类10719117表6新的样本中心第二次聚类:学生2与新样本的距离:d21 二|106 -93.213-1.41164 -60.61 :11-1|19.5-18.91 =18.4,-, d2 2 =1106
20、 39| + |3-2.7| + 164-46.3)+111 +,9.519.31 = 83.2d2 3 = |l06 -10| + |7-7| + |64 -19)+ |l-l| + |l9.5-17( = 143.5学生3与新样本的距离:3,1=34 -93.2| -|3 1.4口48 60.6 1 -1+ 19.518.9 =743,2= 3439 +3-2.7 +48 -46 .3 +1-1 +19.59.3=7.2d3,3=34 -10| + 3-7| + 48 -19时一1 十|19.517| = 59.5学生4与新样本的距离:4,1=85-93.21 + 2 .4| + 64-6
21、0.6| +卜1师9 18.9=12.3d =84,25 -39| + 2-2.7| +|64 46.31 + |l -1 1 +19 -19.3 = 64.4d4,3 =85 -10|+2 -7| +64 T9|十|11|十|19 T7|=127学生5与新样本的距离:5,1= 90-93.2 +|l_1.4|+62_60.6 +p-1 +|l8.5_18.9 =6.45,2=90-391+1-2.71+62 -46 .3|+|0-1|+p8.5-19.3| =70.2d=90 -101+1 -7I + 62 -19|+|0-1|+18 .5-171=131 .55,3 11学生7与新样本的距
22、离:d 7 1 = 27 93.21 +141.4 +152 60.61十 1 “ 十118.518.9 =76.6d7。= 27-39 + 4-2.7 + 53-46.3 + 1-1 + 18.519.3 = 19.8 7,2d 7 3 = 27 -10 +14一7 +5219 + -1 +(18.5-17 =54.5学生8与新样本的距离:d8 1 = |73-93.2| 十 |0-1.4| 十15360.61十八一1 +卜8.9181 = 30.1d8 2 =卜3-39| + |0-2.7| +153-46.3| + 1-1 +118.9-19.3| = 43.88,3=13旬 + 07
23、+ |53-19| + |l-1 + 18.917| = 105.9第二次聚类结果:学生与第一类的跑离与第二类的跑离与第三类的跑离10-218.483.2143.53747.259.5412.364.412756.470.2131.56-0-776.619.854.5830.143.8105.99-0表7第二次聚类结果观察以上部分计算结果,第二次聚类和第一次聚类结果相同(其余计算部分 省略),即第一类还是由样本1,2,4,5,8 组成,第二类由样本3,6,7组成,第三 类由样本9组成。此时整个聚类过程结束。综上计算分析得出结论:第一类为最有可能拿到一等及以上奖学金,第二类为可能拿到非一等及以上
24、 奖学金,第三类为拿不到奖学金者。小组成员分工情况姓名工作任务A主题选定,参与讨论,数据计算录入B主题选定,参与讨论,PPT制作C主题选止,参与讨论,内谷修改D主题选定,参与讨论,数据计算录入E主题选定,参与讨论,PPT制作、讲解(组长)组织讨论,主题选定,数据处理,内容策划,文档撰写小组成员学习感言:(组长):经过一学期商务智能这门课程的学习,使我们从刚开始对商务智 能、数据挖掘概念的学习,到后来利用数据挖掘的一些方法去分析足球队成员的 组成情况、加上最后两周上机实验的练习以及最终的期末大作业, 使我们对数据 挖掘有了一个更深层次的了解并能够利用它进行一些实际问题的分析与解决。在整个学习过程
25、中,虽然我们小组有几名同学在实习,但是有问题时我们还会通过 网络、电话、邮件等方式一起进行讨论,一起完成任务。A:通过这学期对商务智能这门课程的学习,我了解到了如何对目标对象进行数 据挖掘和利用贝叶斯分类器分析问题等。 这学期的学习还包括了很多商务智能相 关的技术以及软件的运用,使自己受益良多,让我的商务智能相关技术知识丰富 了不少,也提高了我的软件操作能力,利用数据之间的联系,可以找出数据之外 的隐含信息,对于我来说,这种能力至关重要,在以后走向社会时,有一个别人 不会的技能,增加了自己的竞争力。感谢小组成员的密切配合,让我们可以把小 组作业的工作顺利的完成。B:通过这学期对商务智能这门课程的学习,我了解到如何对目标对象进行数据 挖掘和利用贝叶斯分类器分析问题等知识。 在这次的小组作业中我们在选定了学 生成绩分析,但是设计到理论和计算的时也非常仔细, 组长组织大家讨论选定了 题目后按照步骤进行计算,完成文章后大家进行修改和讨论,我制作了PPT上完这门课后我对商务智能的概念、 商务智能的应用、数据挖掘的概念、聚类分析 等又有了一个新的认识,之前上课没听懂的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专用施工合同范本模板
- 会展投资合同范本
- 农村土方 工程合同范本
- 化工产品营销合同范本
- Starter Section 3 Saying Hello 教学设计2024-2025学年北师大版(2024)七年级英语上册
- 企业质押合同范本
- 供车协议合同范本
- 2024年宁波市消防救援支队社会招录政府专职消防员考试真题
- 2024年南平市建阳区社会统一教师招聘考试真题
- 劳动派遣居间合同范本
- 环境监测课件20-在线环境监测技术
- 《纸杯变变变》课件
- JGJT178-2009 补偿收缩混凝土应用技术规程
- 一般工业固体废物分类及利用处置方式(2020年)
- 汽车人才需求调查研究报告
- 班级公约(完美版)
- 医疗卫生监督协管巡查记录表
- 水利工程资料汇编全套
- 教科版科学四年级下册第一单元《植物的生长变化》单元作业设计
- 药物化学题库与答案
- 中国交建模板
评论
0/150
提交评论