




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘报告目录一.项目名称 5二.项目介绍 5三.项目工具 51.MicrosoftOfficeWord 62.MicrosoftOfficeExcel 63.Anaconda: 6四.数据文件预处理 71.数据预处理方法: 7(1)数据清理 7(2)数据集成 7(3)数据变换 8(4)数据归约 82.异常值的分析 10(1)简单的统计量分析: 10(2)箱型图分析 10五.数据分析 121.绘制饼状图 12六.挖掘建模 141.算法实现过程: 142.具体实现代码及过程 15七.数据挖掘过程 16摘要学生成绩是反应学校教学水平第一手资料,这些数据能够为学校改进教育教学提供主要依据。然而,现阶段学生成绩分析,多数还停留在较为原始数据库管理和查询阶段,没有对学生成绩进行横向和纵向对比研究,也缺乏对各学科成绩之间内在联络挖掘。为此,学校将数据挖掘技术与学校学生成绩分析管理系统相结合,经过分析和处理系统中大量学生成绩数据,寻找潜在规律及模式,促使学校愈加好地开展教学工作,提升教学质量。AbstractStudentachievementisthefirst-handinformationreflectingtheteachinglevelofaschool.Thesedatacanprovideanimportantbasisforschoolstoimproveeducationandteaching.However,atthisstage,mostofthestudents'performanceanalysisstillstaysintherelativelyprimitivestageofdatabasemanagementandquery.Thereisnohorizontalandverticalcomparativestudyofstudents'performance,noristhereanyexcavationoftheinternallinksbetweentheperformanceofvariousdisciplines.Therefore,theschoolcombinesthedataminingtechnologywiththeschoolstudentachievementanalysismanagementsystem.Byanalyzingandprocessingalargenumberofstudentachievementdata,theschoolseeksforpotentialrulesandpatterns,andpromotestheschooltobettercarryoutteachingworkandimprovethequalityofteaching.项目名称大学物理,模拟电子技术和计算机组成原理成绩关系分析项目介绍大学物理,是大学理工科类一门基础课程,经过课程学习,使学生熟悉自然界物质结构,性质,相互作用及其运动基本规律,为后继专业基础与专业课程学习及深入获取关于知识奠定必要物理基础。但工科专业以力学基础和电磁学为主要讲课。经过课程学习,使学生逐步掌握物理学研究问题思绪和方法,在获取知识同时,使学生拥有建立物理模型能力,定性分析、估算与定量计算能力,独立获取知识能力,理论联络实际能力都取得同时提升与发展。开阔思绪,激发探索和创新精神,增强适应能力,提升其科学技术整体素养。经过课程学习,使学生掌握科学学习方法和形成良好学习习惯,形成辩证唯物主义世界观和方法论。《计算机组成原理》是计算机科学与技术专业一门关键专业基础课。经过本课程学习,使学生掌握计算机系统基本组成、计算机中数据表示方法、计算机各硬件部件功效和工作原理等,为学生学习计算机专业课打下坚实基础。项目工具系统:win10软件:office,anaconda1.MicrosoftOfficeWordMicrosoftOfficeWord是微软企业一个文字处理器应用程序。Word给用户提供了用于创建专业而优雅文档工具,帮助用户节约时间,并得到优雅美观结果。一直以来,MicrosoftOfficeWord
都是最流行文字处理程序。作为Office套件关键程序,Word提供了许多易于使用文档创建工具,同时也提供了丰富功效集供创建复杂文档使用。哪怕只使用Word应用一点文本格式化操作或图片处理,也能够使简单文档变得比只使用纯文本更具吸引力。2.MicrosoftOfficeExcelMicrosoftExcel是Microsoft为使用Windows和AppleMacintosh操作系统电脑编写一款电子表格软件。直观界面、出众计算功效和图表工具,再加上成功市场营销,使Excel成为最流行个人计算机数据处理软件。在1993年,作为MicrosoftOffice组件公布了5.0版之后,Excel就开始成为所适用操作平台上电子制表软件霸主。3.Anaconda:Anaconda指是一个开源Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。
能够用于在同一个机器上安装不一样版本软件包及其依赖,并能够在不一样环境之间切换。Anaconda包含Conda、Python以及一大堆安装好工具包,比如:numpy、pandas等。数据文件预处理在数据挖掘中,海量原始数据中存在着大量不完整、不一致、有异常数据,严重影响到数据挖掘建模执行效率,甚至可能造成挖掘结果偏差,所以进行数据清洗就显得尤为主要,数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列处理,该过程就是数据预处理。数据预处理首先是要提升数据质量,另首先是要让数据愈加好地适应特定挖掘技术或工具。1.数据预处理方法:(1)数据清理数据清理例程经过填写缺失值、光滑噪声数据、识别或删除离群点并处理不一致性来“清理”数据。主要是达成以下目标:格式标准化,异常数据去除,错误纠正,重复数据去除。(2)数据集成数据集成例程将多个数据源中数据结合起来并统一存放,建立数据仓库过程实际上就是数据集成。(3)数据变换经过平滑聚集,数据概化,规范化等方式将数据转换成适适用于数据挖掘形式。(4)数据归约数据挖掘时往往数据量非常大,在少许数据上进行挖掘分析需要很长时间,数据归约技术能够用来得到数据集归约表示,它小得多,但依然靠近于保持原数据完整性,并结果与归约前结果相同或几乎相同。因为数据文件信息较多且有很多数据和本课题无关,为了降低资源和时间浪费,所以在进行分析前先将excel表格进行删减和求和,优化数据,使数据愈加直观便于分析。处理前数据如图4-1所表示.处理后数据如图4-2所表示。图4-1表格数据处理前4-2处理后数据importpandasaspdcatering_sale='G:/scour.xlsx'data=pd.read_excel(catering_sale,index_col=u'学生')print(data.describe())print(len(data))图4-3数据初筛结果上图中Count代表数量,Mean代表均值,Std代表标准差,Min代表最小值,50%代表中位数,Max代表最大值。2.异常值分析异常值是指样本中个别值,也称为离群点,其数值显著偏离其余观察值。异常值分析是检验数据是否有录入错误以及含有不合常理数据。无视异常值存在是十分危险,不加剔除地把异常值包含进数据计算分析过程中,对结果会产生不良影响;重视异常值出现,分析其产生原因,经常成为发觉问题进而改进决议契机。异常值是指样本中个别值,其数值显著偏离其余观察值。异常值也称为离群点,异常值分析也称为离群点分析。(1)简单统计量分析:我们能够先对采集到数据做一个描述性估量,最惯用方法就是最大值与最小值.用来判断这个变量是否超出常规人们了解等。(2)箱型图分析箱型图是判断是判断数据异常值最为直观一个方法,他异常值被定义为可能出现在上四分位数以上部分与下四分位数以下部分.当然,并不是说在这么范围内数都是异常值,不过能够必定是,异常值是一定在这里产生。为了首先感知我们数据基本情况,在PythonPandas库中,只需要读入要处理数据,然后使用describe()函数,就能够查看数据基本情况.这里面包括到数据很多属性,比如说能够查看缺失值,最小值,最大值等。这里我们使用了箱型图分析,异常值检测代码以下:importpandasaspdcatering_sale='G:/scour.xlsx'data=pd.read_excel(catering_sale,index_col=u'学生')importmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falseplt.figure()p=data.boxplot(return_type='dict')x=p['fliers'][0].get_xdata()y=p['fliers'][0].get_xdata()y.sort()foriinrange(len(x)):ifi>0:plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.05-0.8/(y[i]-y[i-1]),y[i]))else:plt.annotate(y[i],xy=(x[i],y[i]),xytext=(x[i]+0.08,y[i]))plt.show()得到检验结果以下列图 2-6所表示: 4-6异常值检测箱型图数据分析数据分析是指用适当统计方法对搜集来大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料功效,发挥数据作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结过程。数据也称观察值,是试验、测量、观察、调查等结果,常以数量形式给出。数据分析目标与意义数据分析目标是把隐没在一大批看来杂乱无章数据中信息集中、萃取和提炼出来,以找出所研究对象内在规律。1.绘制饼状图饼状图显示一个数据系列(数据系列:在图表中绘制相关数据点,这些数据源自数据表行或列。图表中每个数据系列具备唯一颜色或图案而且在图表图例中表示。能够在图表中绘制一个或多个数据系列。饼状图只有一个数据系列。)中各项大小与各项总和百分比。饼状图中数据点(数据点:在图表中绘制单个值,这些值由条形、柱形、折线、饼状图或圆环图扇面、圆点和其余被称为数据标识图形表示。相同颜色数据标识组成一个数据系列。)显示为整个饼状图百分比。饼状图是以圆形代表研究对象整体,用以圆心为共同顶点各个不一样扇形显示各组成部分在整体中所占百分比,要注明各扇形所代表项目标名称(可用图例表示)及其所占百分比。饼状图能够比较清楚地反应出部分与部分、部分与整体之间数量关系.易于显示每组数据相对于总数大小.而且显现方式直观。为了使图中数据愈加直观,这里使用饼状图,代码以下:importnumpyasupimportmatplotlib.mlabasmlabimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falselabels=['不及格','60-70','70-80','80-90','90-100']X=[9,17,7,2,0]fig=plt.figure()plt.pie(X,labels=labels,autopct='%1.2f%%')plt.title('大学物理1成绩分布图')所得到饼状图为大学物理1,以下列图5-1所表示:图5-1物理成绩分布图按照以上方法,分别得到物理,组成原理,以下列图5-2,图5-3,所表示:图5-4组成原理成绩分布图挖掘建模本课题研究是对大学物理各个分数段人及格几率预测,并经过数据检测,检测是否在计算机组成原理学习中存在困难,并及时给与提醒,依照数据挖掘分析。1.算法实现过程:=1\*GB3①用代码5-1求总信息熵。=2\*GB3②手工测算高数1,高数2对于数据结构及格情况条件熵。=3\*GB3③信息增益=总信息熵-条件熵。=4\*GB3④参考信息增益,用信息增益多作根节点,画出最浅决议树。2.详细实当代码及过程(1)利用以下代码将ecxel表格导入listimportxlrddefcreatData():file='G:\离散化.xlsx'wb=xlrd.open_workbook(filename=file)ws=wb.sheet_by_name('离散化')data=[]forrinrange(ws.nrows):col=[]forcinrange(ws.ncols):col.append(ws.cell(r,c).value)data.append(col)labels=['物理','计算机组成原理']returndata,labels(2)利用以下代码计算信息熵frommathimportlogdefshannon_entropy(data):enteries=len(data)label_count={}forvindata:current_label=v[-3]ifcurrent_labelnotinlabel_count.keys():label_count[current_label]=0label_count[current_label]+=1entropy=0.0forkeyinlabel_count:prob=float(label_count[key])/enteriesentropy-=prob*log(prob,2)returnentropyif__name__=='__main__':data,features=creatData()print(data)print(shannon_entropy(data))及格不及格及格及格不及格不及格二类一类二类一类二类一类组成原理学习情况组成原理学习情况组成原理学习情况大学物理学习情况不及格良好及格及格不及格及格及格不及格不及格二类一类二类一类二类一类组成原理学习情况组成原理学习情况组成原理学习情况大学物理学习情况不及格良
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 艺术品租赁合同
- 会议场地租赁合同协议书
- 保密协议商业合同
- 无锡工艺职业技术学院《工程安全健康与环境管理》2023-2024学年第二学期期末试卷
- 宁夏民族职业技术学院《宾馆酒店管理》2023-2024学年第二学期期末试卷
- 菏泽家政职业学院《轻工行业清洁生产及污染控制技术》2023-2024学年第二学期期末试卷
- Unit 5 Revealing Nature Developing ideas The Secret Language of Plants教学设计 2024-2025学年高中英语人教版选择性必修第二册
- 沈阳医学院《机器人工程专业导论》2023-2024学年第二学期期末试卷
- 宁夏财经职业技术学院《主题阅读(1)》2023-2024学年第二学期期末试卷
- 山东胜利职业学院《化工原理一》2023-2024学年第二学期期末试卷
- 期末测试卷(一)(试题)2023-2024学年二年级上册数学苏教版
- 携程在线能力测评真题
- 人教版(2024)六年级全一册 第17课 设计我的种植园
- 承包商入厂安全培训试题附参考答案【完整版】
- 四川省公务员考试行测真题
- 2024年广东省初中学业水平考试中考英语试卷(真题+答案解析)
- DL-T-255-2012燃煤电厂能耗状况评价技术规范
- 家庭教育家长会教案及反思(3篇模板)
- 职业培训师三级操作技能鉴定卷库及答案
- 【视频号运营】视频号运营108招
- 新能源客车安全应急处理指南
评论
0/150
提交评论