数据挖掘在实际生活中的应用_第1页
数据挖掘在实际生活中的应用_第2页
数据挖掘在实际生活中的应用_第3页
数据挖掘在实际生活中的应用_第4页
数据挖掘在实际生活中的应用_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在学生学习成绩中的应用小组成员:说明由于我们小组分析的是上一学年我们计商两个班级的学习成绩与奖学金获得情况,因此涉及到了学生的一些个人信息。我们小组全体成员一致承诺:我们获得的数据(通过辅导员老师获得)仅用于本门课程的数据分析所用,对大家的姓名、学号、成绩等敏感信息已做过处理,保证大家的隐私不被泄露。希望各位能够予以理解!选题背景近年来,随着高校的不断扩招,学生人数大幅增加,给高校学生管理、教学工作带来了严峻考验。传统的教学管理手段已经不能满足高校的快速发展。现阶段许多高校对学生的成绩、学生的信息基本还停留在传统的、简单的数据库管理和查询阶段,不能发挥其应有的作用。就以学生成绩为例,教师对学生的成绩知识做一个简单的优、良、中、差的考核,并不考虑影响学生学习成绩的因素,有些可能是主观因素,有些可能是客观因素。如果某些客观因素比如学习环境、师资力量等不能很好地解决,将严重影响学生的学习成绩,制约学生的发展,而且严重阻碍了学校教育教学发展的脚步。因此,通过数据挖掘等技术理性的分析学生成绩等关键信息,提高教学质量与水平,是广大师生最关心的问题之一。数据挖掘数据挖掘又称为数据库中的知识发现(KDD),是从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘的任务是从大量的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系。利用贝叶斯分类器分析奖学金概率问题奖学金作为一种激励机制,在人才培养过程中发挥非常重要的导向作用,其目的是为了引导和鼓励学生刻苦学习、奋发向上,促进学生全面素质提高和个性健康发展。为了了解我们计商两个班级上一学年奖学金获得情况,进而考评上一学年我们电子商务系教学成果以及各位同学的学习成绩情况,我们小组利用贝叶斯分类器的方法进行了分析。贝叶斯分类器的分类原理:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯公式:p(X,Y)=p(Y|X)p(X)=p(X|Y)p(Y)变换式:P(YP(X 1Y)p(Y)IX)P(X)其中,X和Y在分类中可以分别表示样本的属性集合类别。p(X,Y)表示他们的联合概率,p(X|Y)和p(Y|X)表示条件概率,p(Y|X)是后验概率,p(Y)称为Y的先验概率。已知通过辅导员老师获得2012-2013学年计商两个班级学生奖学金获得情况统计数据如表1和表2所示:1如巧2013学年I■淘笫二I叩大学计算机与信息学院10计商质曲奖学金披油•清祝统计志2-2班级姓名测评总分茨空美级困同等级31算机与信息学院101Wal学号1学生137.1?1丙<hb-十算H巧信息学院十耳卜.]=倍冷子院Jutlui-j成」7^2学号盘学生二-汩I36.3536.0722甲丙6R十度机与信息学院学生436.932Tn算机与信息学院mi:C.3E3£1算机与信息学院10i商虹学号巳35.063§h十算H巧信息学院Jut学a34.1163LU-十耸科与信电辛浣lui-j学号廿*34.39q■11十算机与信息学院34.18i12宣机与信息学院mi学号W学生1CI33.90i131算机与信岛学院10i商虹学『1M三」4141十算卜1巧信息学院Jut学皆目33.2711Lb-十苴科=信巳幸阮lui-j学*;以:H32.50q16n十算机与信息学院10H司厂学号L4^=■432.50Z.:?n算机与信息学院mi司,:学号站圣三K31.52甲IS1算机与信岛学院101商虹学与预M三:A.节丙L9h十算H巧信息学院Jut学E孑二*30.ilD丙土-十堂柘马仁部旱E*101-j岸530.40丙21n十或机与信息学院mH-商A1学号L9—■='=)m买丙22|算机与信息学院mi命:彳生小芋三28.79丙2?算机与信岛学院101Wal学字1M三也28.7?丙2'J1十算临信息学院lutj-有妃^-■<-2228.65表1A1班奖学金获得情况120122013学年上件海第二工业大学计算机与信息学院3计商庭班奖学金获得情况统计表2学院班级学号测评总分获炎等级国推等级3T三身'宇院-〔川学号1姓名]沮LJ14卜算膺,m息字院项il字号。妇Z6.CO2S算机u宣息学10t商提学号3咤3:5,:03G61-具机与,言皂学IGt-商厘学号1吃,135.0937■1T-寻机顷m息学学号F姓名E35.023X1言息学E学号5姓名834.3S39宣息学院10^商占2学号ri-匕名TS4.81310T-异机与履息学LOT-商赧学号g34.67311■i1-具机与,言邑宁学号勺:4,412i-其担与,m息学院学号N姓名1034.254A1.37-算机与言息学luH学号L1咤112,比4614算机与,m息学lot商位学号L2匕名1234.044Pj■lT-算机与,履息孝10t-加学号L3匕名1333.62416■.1-具机顷e息学卜泓3学号N32.9241"T卜算机马,言息学:(IT学号住姓名15京心418i卜算帕4言息学院lut-商&2学号"i_E51.S7表2A2班奖学金获得情况已知A1班总人数39,由表1可看出获得奖学金人数为22,获得奖学金的概率约为0.56已知A2班总人数36,由表2可看出获得奖学金人数16,获得奖学金的概率约为0.44A1、A2两个班级总人数为75,奖学金获得者38人,其中A1班占奖学金获得者的比例为58%,A2班占奖学金获得者总人数的比例为42%。.根据以上数据可以得到奖学金获得概率及获奖人数占两个班级获奖总人数的比例,如表3所示:班级奖学金概率获奖人数占两个班级获奖总人数的比例10计商A10.5658%10计商A20.4442%表3奖学金获得概率及所占比例通过以上数据,我们解决以下两个问题:(1) 随机从两个班级中选出一个学生是奖学金获得者的概率是多少?(2) 随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自哪个班级的可能性最大?假设X表示“选出的一个学生是奖学金获得者”,Y=i,(i=10计商A1,10计商A2)表示“选出的学生是来自班级i”,则问题就转换为求解p(X)与p(Y=ilX)。由表3得到后验概率为:P(XIY=10计商A1)=0.56,P(XIY=10计商A2)=0.44先验概率为:P(Y=10计商A1)=58%,P(Y=10计商A2)=42%由全概率计算公式得出:P(X)=P(XIY=10计商A1)P(Y=10计商A1)+P(XIY=10计商A2)P(Y=10计商A2)=0.56*0.58+0.44*0.42=0.3248+0.1848=0.5096因此,随机从两个班级中选出一个学生是奖学金获得者的概率是0.5096o卜面我们求解p(Y=i|X),根据贝叶斯定理可得:P(XIY=i)p(Y=i)P(Y=iIX)=P(X)由公式①可以计算出该获奖学生来自10计商A1班级的概率为:p(Y=10计商A1IX)=P(XIY=10计商A1)P(Y=10计商A1)0.56*0.58八= =0.640.5096同理可得,该获奖学生来自10计商A2班级的概率为:p(Y=10计商A2IX)=P(X1Y=10计商^2)P(Y=1。计商>2)0.44*0.42= =0.360.5096通过以上分析计算不难得出结论:随机从两个班级中选出一个学生,已知该学生是奖学金获得者,则此学生来自10计商A1班级的可能性最大。聚类分析中的k-means算法在学生奖学金等级划分中的应用k-means算法是常见的基于划分的聚类方法,其中相异度基于对象与类中心(簇中心)的距离计算,与簇中心距离最近的对象可以划分为一个簇。此算法的目标是每个对象与簇中心距离的平方和最小。根据对奖学金获得者学生的学习情况分析可知:获奖等级与该学生平时去图书馆的次数、平时上课迟到次数、上课座位前后、参加竞赛次数、宿舍评分等因素有关。比如,图书馆能为同学们提供安静的、舒适的学习环境,同时能够提高学生学习的自觉性,因此常去图书馆的同学学习成绩一般都比很少去图书馆学生学习成绩要好,相应的拿到奖学金的概率越大,拿到奖学金的等级也越高。其他因素类似,这里不一一详细用文字来描述。首先定义五个变量(每学期均按16周计算):气:一学期去图书馆次数(每周按七天计算,上限112次)X2:一学期迟到次数(每周按四天计算,上限64次)X3:一学期座位在前排次数(每周按四天计算,上限64次)X4:一学期参加各类竞赛次数(每学期上限5次)X5:一学期宿舍平均评分(上限20分)根据奖学金获得者获奖等级情况分析可知,能够拿到一等及以上奖学金的指标为:X:96-112;x2:0-2;x3:60-64;X4:3-5;X5:19.5-20学生X1X2X3X4X51112160119.52106364219.5334348119.5485264119590162018.5656139120727452118.5873053118910719117表4根据不同获奖等级选取的学生信息在以上给定的9个样本中选择3个样本:1号样本代表能够拿到一等及以上奖学金6号样本代表能够拿到非一等及以上奖学金9号样本代表不能够拿到奖学金计算每一个样本与这三个样本的距离:d2,6d2,9d3,1d3,6d3,9d4,1d4,6d4,9d5,1d5,6d5,9d7,1106-56106-1034-112+3-1+64-39+3-7+64-19+3-134-56+3-134-10+d2,6d2,9d3,1d3,6d3,9d4,1d4,6d4,9d5,1d5,6d5,9d7,1106-56106-1034-112+3-1+64-39+3-7+64-19+3-134-56+3-134-10+3-785-112+2-185-5685-1090-11290-5690-1027-112+2-11-11-11-7+48-60+48-39+48-19+2-1++2-1++1-1++1-1++1-1++64-60+1-1+19.5-20=78.519.5-17=148.519.5-19.5=9219.5-20=33.519.5-17=59.519-19.5=32.5+64-39+1-1+19-20+64-19+62-60+62-394-1+=5662-19+1-1++0-1++0-1++0-1+52-60+1-1+19-17=12718.5-19.518.5-2018.5-1718.5-19.52659.5131.5=972,1|106-112+3-1+64-60+2-1+19.5-19.5〔=132,1d76=127-10〔+〔4-7〔+〔52-39〔+|1-1|+|18.5-20|=46.5d79=127-10〔+〔4-7〔+〔52-19〔+|1-1|+|18.5-17|=54.5d8,1〔73—112〔+0-1+53-60+1-1+|18—19.5d8,1d8,6=I73-56l+I0-11+I53-39l+RI+I18-20|=34dQ°=73-10+0-7+53-19+1-1+18-17=1058,9 1第一次聚类结果:学生与学生1的距离与学生6的距离与学生9的距离10--21378.5148.539233.559.5432.55612752659.5131.56-0-79746.554.5848.5341059--0表5第一次聚类结果把以上距离最小的样本归入相应的类:根据第一次聚类结果数据不难看出,样本1、2、4、5、8几组数据比较接近,样本3、6、7数据比较接近。因此,将以上样本划分为三类。第一类由样本1、2、4、5、8组成,第二类由样本3、6、7组成,第三类由样本9组成。第一类:X1=(112+106+85+90+73)/5=93.2X2=(1+3+2+1+0)/5=1.4X3=(60+64+64+62+53)/5=60.6X4=(1+2+1+0+1)/5=1X5=(19.5+19.5+19+18.5+18)/5=18.9

第二类:气二(34+56+27)/3=39X2=(3+1+4)/3=2.7X3=(48+39+52)/3=46.3X4=(1+1+1)/3=1X5=(19.5+20+18.5)/3=19.3第三类:气=10X2=7X3=19气=1X5=17新的样本中心新中心x1x2x3x4x5第一类93.21.460.6118.9第二类392.746.3119.3第三类10719117表6新的样本中心第二次聚类:学生2与新样本的距离:2,1=|106-93.2〔+〔3—1.』+〔64-60.6〔+|1—1|+|19.5—18.9〔=18.42,1=106-39|+〔3-2.7〔+〔64-46.3〔+|1-1|+|19.5-19.3〔=83.2

2,3106-10+〔7-7+64-19+1—1+19.5-17=143.52,3学生3与新样本的距离:d =|34-93.2|+|3-1.4|+148-60.6|+1-1|+119.5-18.9|=743,1d3,2=34-39|+3-2.71+|48-46.3|+11-1|+卜9.5-19.3|=d3,2卜=34-10+3-7+48-19+1-1+19.5-17=59.53,3 rr学生4与新样本的距离:d =|85-93.2|+12-1.4|+164-60.6|+11-1|+119-18.9|=12.34,1d =|85-391+|2-2.7|+|64-46.3|+1-1|+119-19.3|=64.44,2d =|85-10|+12-7|+164-19|+|1-1|+畛-17|=1274,3学生5与新样本的距离:d =p0-93.2|+1-1.4|+162-60.6|+10-1|+118.5-18.9|=6.4551d =|90-39|+11-2.7|+162-46.3|+10-1|+118.5-19.3|=70.25,2d53=|90-10|+11-^+162-191+|0-1|+118.5-17|=131.5学生7与新样本的距离:d71=〔27-93.2+"-1.』+〔52-60.6〔+|1-1|+|18.5-18.9〔=76.6d72=〔27-39〔+〔4-2.7〔+〔53-46.3〔+|1-1|+|18.5-19.3〔=19.8d73=27-10+4-7+52-19+1-1+18.5-17=54.5学生8与新样本的距离:d81d81〔73-93.2〔+|。-1.4〔+〔53-60.6〔+|1-1|+|18.9-18=30.1d82=〔73-39〔+〔0-2.7〔+|53-46』+|1-1|+|18.9-19.3〔=43.8d83=73-10+0-7+53—19〔+1—1+|18.9—17|=105.9第二次聚类结果:学生与第一类的距离与第二类的距离与第三类的距离10--218.483.2143.53747.259.5412.364.412756.470.2131.56-0-776.619.854.5830.143.8105.99--0表7第二次聚类结果观察以上部分计算结果,第二次聚类和第一次聚类结果相同(其余计算部分省略),即第一类还是由样本1,2,4,5,8组成,第二类由样本3,6,7组成,第三类由样本9组成。此时整个聚类过程结束。综上计算分析得出结论:第一类为最有可能拿到一等及以上奖学金,第二类为可能拿到非一等及以上奖学金,第三类为拿不到奖学金者。小组成员分工情况姓名工作任务A主题选定,参与讨论,数据计算录入B主题选定,参与讨论,PPT制作C主题选定,参与讨论,内容修改D主题选定,参与讨论,数据计算录入E主题选定,参与讨论,PPT制作、讲解(组长)组织讨论,主题选定,数据处理,内容策划,文档撰写小组成员学习感言:(组长):经过一学期《商务智能》这门课程的学习,使我们从刚开始对商务智能、数据挖掘概念的学习,到后来利用数据挖掘的一些方法去分析足球队成员的组成情况、加上最后两周上机实验的练习以及最终的期末大作业,使我们对数据挖掘有了一个更深层次的了解并能够利用它进行一些实际问题的分析与解决。在整个学习过程中,虽然我们小组有几名同学在实习,但是有问题时我们还会通过网络、电话、邮件等方式一起进行讨论,一起完成任务。A:通过这学期对商务智能这门课程的学习,我了解到了如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等。这学期的学习还包括了很多商务智能相关的技术以及软件的运用,使自己受益良多,让我的商务智能相关技术知识丰富了不少,也提高了我的软件操作能力,利用数据之间的联系,可以找出数据之外的隐含信息,对于我来说,这种能力至关重要,在以后走向社会时,有一个别人不会的技能,增加了自己的竞争力。感谢小组成员的密切配合,让我们可以把小组作业的工作顺利的完成。B:通过这学期对商务智能这门课程的学习,我了解到如何对目标对象进行数据挖掘和利用贝叶斯分类器分析问题等知识。在这次的小组作业中我们在选定了学生成绩分析,但是设计到理论和计算的时也非常仔细,组长组织大家讨论选定了题目后按照步骤进行计算,完成文章后大家进行修改和讨论,我制作了PPT。上完这门课后我对商务智能的概念、商务智能的应用、数据挖掘的概念、聚类分析等又有了一个新的认识,之前上课没听懂的知识点通过这次作业弄明白了。C:在这次的小组作业中我们在选定了贴近生活的成绩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论