版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据工具应用》课程教案一、课程简介课程类别:职业选修课授课对象:本科层次各专业学时与学分:34学时,2学分使用教材:《大数据工具应用》(微课视频版),钟雪灵,郭艺辉主编.清华大学出版社.高等学校大数据管理与应用专业规划教材.ISBN9787302559641.2020,08.参考教材:[1]袁梅宇.数据挖掘与机器学习Weka应用技术与实践(第二版).北京:清华大学出版社,2016.[2]喻梅,于健.数据分析与数据挖掘.北京:清华大学出版社,2018.[3]雷明.机器学习:原理、算法与应用.北京:清华大学出版社,2019.[4]朱洁,罗华霖.大数据架构详解:从数据获取到深度学习.北京:电子工业出版社,2016.[5]刘红阁,王淑娟,温融冰.人人都是数据分析师:Tableau应用实战(第2版).北京:人民邮电出版社,2019.[6]王国平.Tableau数据可视化:从入门到精通.北京:清华大学出版社,2017.[7]周苏,王文.大数据可视化.北京:清华大学出版社,2019.[8]美智讯.Tableau商业分析:从新手到高手.北京:电子工业出版社,2018.[9]MalekipirbazariM,AksakalliV.Riskassessmentinsociallendingviarandomforests[J].ExpertSystemswithApplication,2015,42(10):4621-4631.二、教学目的与教学要求:移动互联网、云计算、大数据、人工智能、物联网等先进信息技术层出不穷,不断渗透至社会的各个领域,产生了许多新的应用场景,深刻地改变着人们的社交方式、生活方式和工作方式。数字时代要求有新的教育,新工科、新医科、新农科、新文科的概念应运而生。本课程讲授新兴的信息技术,围绕大数据的基础知识和工具应用进行课程建设和开发。课程包括七章,涵盖数据获取、数据挖掘、数据呈现和数据思维等四部分内容。课程立足应用入门,强调工具操作,突出案例教学。学习本课程,学生将能拓展所学专业的知识边界,获得一定的大数据知识与技能,建立数据思维。第1次课2学时本次教学重点:大数据的特点、数据获取、数据存储本次教学难点:大数据的结构、数据管理、数据分析本次教学内容:第一章大数据概述1.1大数据应用概况 1.1.1大数据的定义 1.1.2大数据的特点 1.1.3大数据的结构 1.1.4相关技术 1.1.5现状与趋势 1.2大数据处理步骤 1.2.1数据获取 1.2.2数据存储 1.2.3数据管理 1.2.4数据分析 1.3应用案例 1.3.1商品推荐服务 1.3.2公共信息服务 1.3.3数据呈现服务 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。第2次课2学时本次课教学重点:格式转换与数据清洗整理、网页数据获取本次课教学难点:八爪鱼模板采集任务、自定义采集模式本次课教学内容:第二章数据获取2.1格式转换与数据清洗整理 2.2网页数据获取 2.2.1八爪鱼采集原理与安装2.2.2模板采集任务 2.2.3自定义采集模式教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。本次课实践教学设计:完成iris.csv和dataset.txt文件到excel文件的转换。对学生资料.xlsx文件做以下处理:根据旧准考证号加上班级序号名称来生成新的追考证号码。规则是:旧号码的前6位+0+班级号+旧号码后3位。使用最新版本的八爪鱼软件的“简易采集”模式,对“新浪财经”的股票推荐信息进行采集。采集网址为:/q/go.php/vIR_RatingNewest/index.phtml使用最新版本的八爪鱼软件的“自定义采集-向导模式”,对京东网站的某项商品搜索结果进行采集。并将结果保存为excel文件。完成bank-data.xlsx文件到arff文件的转换。对weather.numeric.arff数据集中的数值型属性“温度(temperature)”离散成低温(cool),中温(mild),高温(hot)三个等级。生成weather.nominal.arff数据集的决策树。对CPU.arff数据集使用M5P分类器进行线性回归。使用SimpleKMeans聚类器对weather.numeric.arff数据集进行聚类,选择2个簇和欧氏距离,其他参数保持默认值,忽略play属性。使用EM聚类器对weather.numeric.arff数据集进行聚类,选择2个簇,其他参数保持默认值,忽略play属性。第3次课2学时本次课教学重点:Weka数据分析入门、数据预处理、J48决策树分类器本次课教学难点:数据预处理、J48决策树分类器本次课教学内容:第三章数据分析入门3.1Weka简介与数据预处理 3.1.1软件下载 3.1.2文件与数据格式 3.1.3Weka程序界面 3.1.4数据预处理 3.2数据分类 3.2.1J48决策树分类器教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。第4次课2学时本次课教学重点:LinearRegression分类器、数据聚类本次课教学难点:M5P分类器、EM聚类器本次课教学内容:第三章数据分析入门3.1Weka简介与数据预处理3.2.2LinearRegression分类器3.2.3M5P分类器 3.3数据聚类 3.3.1SimpleKMeans聚类器3.3.2EM聚类器 3.3.3DBSCAN聚类器 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。本次课实践教学设计:对glass.arff文件中的玻璃数据应用排序技术,确定基于信息增益的四个最重要的属性是什么?使用上述玻璃数据集,运行基于相关性的CfsSubsetEval评估器,使用BestFirst搜索方法;然后运行J48作为基学习器的包装方法,再次使用BestFirst搜索方法。检查输出的属性子集,这两种方法都选择出来的有哪些属性?它们与题1中使用信息增益所生成的排序输出有何关系?使用cpu.arff数据集,切换到Visualize标签页,实现如下结果:打开某一个放大散点图,横坐标(即X坐标)设置为CACH属性,纵坐标(即Y坐标)设置为class属性,同时使用Rectangle选项来选择实例,使得图中只显示CACH范围大概在15~70之间并且class范围大概在100~400之间的所有实例,其它实例不显示。请把该结果图截图显示在实验结果中。第5次课2学时本次课教学重点:关联规则相关概念、Apriori算法、属性选择本次课教学难点:Apriori关联规则挖掘本次课教学内容:第三章数据分析入门3.4数据关联 3.4.1关联规则相关概念 3.4.2Apriori算法介绍3.4.3Apriori关联规则挖掘 3.5选择属性 3.5.1属性选择概述 3.5.2Weka中Selectattributes标签页 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。第6次课2学时本次课教学重点:选择属性、Weka中选择属性操作、数据可视化本次课教学难点:数值型类别属性可视化本次课教学内容:第三章数据分析入门3.5选择属性 3.5.3选择属性模式介绍 3.5.4Weka中选择属性操作示例3.6数据可视化 3.6.1Visualize标签页3.6.2数值型类别属性可视化 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。作业布置:1、在Weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下()按钮,所有更改才会生效。A.SelectAttributeB.SubSampleC.UpdateD.Fastscrolling2、Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。A.对B.错3、利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着色,如果类别属性是标称型,则显示为彩色条。A.对B.错第7次课2学时本次课教学重点:贝叶斯公式、贝叶斯网络、创建贝叶斯网络本次课教学难点:使用贝叶斯网络进行推理本次课教学内容:第四章数据分析进阶4.1贝叶斯网络 4.1.1贝叶斯公式简介 4.1.2贝叶斯网络简介 4.1.3创建贝叶斯网络 4.1.4使用贝叶斯网络进行推理 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。本次课实践教学设计:完成下图所示的贝叶斯网络,应用weka工具进行分析。第8次课2学时本次课教学重点:神经网络介绍、Weka神经网络选项设置、编辑神经网络本次课教学难点:神经网络参数调整、时间序列分析及预测本次课教学内容:第四章数据分析进阶4.2神经网络 4.2.1神经网络介绍 4.2.2Weka神经网络选项设置 4.2.3编辑神经网络 4.2.4神经网络参数调整 4.3时间序列分析及预测 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。第9次课2学时本次课教学重点:Tableau下载与安装、TableauDesktop软件界面本次课教学难点:初级可视化分析(条形图、直方图、饼图)本次课教学内容:第五章TABLEAU应用5.1Tableau概述与入门 5.1.1概述 5.1.2下载与安装 5.1.3数据类型 5.1.4TableauDesktop软件界面 5.1.5文件类型 5.2初级可视化分析 5.2.1条形图 5.2.2直方图 5.2.3饼图 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。第10次课2学时本次课教学重点:TABLEAU初级可视化分析(折线图、压力图、树地图、气泡图)本次课教学难点:TABLEAU地图分析、创建地图本次课教学内容:第五章TABLEAU应用5.2初级可视化分析5.2.4折线图 5.2.5压力图 5.2.6树地图5.2.7气泡图 5.3地图分析 5.3.1认识地图 5.3.2创建地图 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。第11次课2学时本次课教学重点:TABLEAU高级数据操作(分层结构、组、集、参数、计算字段)本次课教学难点:TABLEAU分析图表整合本次课教学内容:第五章TABLEAU应用5.4高级数据操作 5.4.1分层结构5.4.2组 5.4.3集5.4.4参数 5.4.5计算字段5.5分析图表整合教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。本次课实践教学设计:先后完成tableau自带数据“示例-超市”,产品的分层和解除分层。tableau自带数据“示例-超市”:统计分层“产品”项下的销售总额,并实现自由向下钻取。根据销售总额和销售总利润两个维度,剖析“南方市场”和“北方市场”的情况。分析销售总额的走势:高折扣客户和低折扣客户的对比。将题1-4的结果放置在一个仪表板内,仪表板的大小选择“自动”,并根据仪表板的基础功能自行美化仪表板的排版,排版方式要求:浮动。第12次课2学时本次课教学重点:无锡市宜居时间分析、佛山市纳税企业增长情况分析本次课教学难点:制作仪表板本次课教学内容:第五章TABLEAU应用5.6案例一:无锡市宜居时间分析5.6.1创建计算字段 5.6.2空气质量 5.6.3气温 5.6.4宜居时间5.6.5制作仪表板 5.7案例二:佛山市纳税企业增长情况分析 5.7.1创建计算字段 5.7.2预测 5.7.3剖析-行业 5.7.4剖析-区域 5.7.5制作仪表板 5.7.6分析 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。本次课实践教学设计:综合实验:基于tableau自带数据“示例-超市”,分析当前产品结构存在的问题,并做成仪表板展示。提示:产品结构——产品-类别-子类别-制造商-产品名称;问题维度——利润与销售额的关系/销售额与折扣的关系/利润与销售数量的关系;分析步骤——(1)画思维导图,建议3-4步内得出结论;(2)基于思维导图的步骤,画图、展示、美化。第13次课2学时本次课教学重点:数据分析拓展研究背景、研究方法本次课教学难点:k-最近邻算法基本原理、Weka中k-最近邻算法应用实践本次课教学内容:第六章数据分析拓展6.1数据分析拓展引言 6.1.1研究背景 6.1.2实验数据 6.1.3研究方法 6.2k-最近邻算法(k-NN) 6.2.1k-最近邻算法(k-NN)基本原理 6.2.2Weka中k-最近邻算法(k-NN)应用实践 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。本次课实践教学设计:研究不同近邻数量对IBk分类器(KNN算法)的影响。切换到Classify标签页,点击“Choose”按钮选择“lazy-IBk”,在“Testoptions”中选择“Cross-validation(Folds=10)”。单击Choose按钮右边的文本框,k默认为使用1近邻,点击“start”按钮,开始运行,并记录训练结果。1) 选取不同k值调整模型,本实验中训练样本数为1000个,K一般低于训练样本数的平方根,故k值取前30,记录实验数据,完成以下表格。K值12345678910准确率K值11121314151617181920准确率K值21222324252627282930准确率请回答随着k值不同,IBk分类器分类准确率有何变化?找出能使模型分类准确度达到最高的k值。第14次课2学时本次课教学重点:支持向量机SVM算法基本原理本次课教学难点:Weka中SVM算法应用实践本次课教学内容:第六章数据分析拓展6.3支持向量机SVM 6.3.1支持向量机SVM算法基本原理 6.3.2Weka中SVM算法应用实践 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示,拓宽学生的思维空间,增加学生的学习兴趣,提高学生的能力。3、采用演示法。通过相关图片及视频资料,获得生动的表象,激起学生的感性认识,促进其对知识点比较全面、深刻地理解和掌握。本次课实践教学设计:加载credit-g.arff数据后,切换至Classify标签页,单击Choose按钮,选择functions目录下的SMO分类器,然后完成以下操作:单击SMO分类器文本框,打开通用对象编辑器窗口,PolyKernel多项式核函数的指数(Exponent)设置为1(默认),构建为线性支持向量机。单击Start按钮运行分类器,将实验结果记入下表。将PolyKernel多项式核函数的指数(Exponent)设置为2,构建非线性支持向量机。单击Start按钮运行分类器,将实验结果记入下表。安装并运行LibSVM分类器。在Tools菜单下,选择PackageManager菜单项,这时会弹出PackageManager包管理器窗口:选中All,在Packagesearch右边的文本框中输入“libsvm”,按回车Package窗口会出现搜索结果,选中“libsvm”,单击“install”按钮。安装完成后,在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions”,点击LibSVM加载分类器;点击Start按钮运行,将实验结果记入下表。在三种支持向量机分类器进行评价,确定分类准确率最好的分类器。准确率混淆矩阵SMO分类器(线性)SMO分类器(非线性)LibSVM第15次课2学时本次课教学重点:逻辑回归算法基本原理及应用实践、随机森林算法基本原理及应用实践本次课教学难点:模型性能评估本次课教学内容:第六章数据分析拓展6.4逻辑回归算法 6.4.1逻辑回归算法基本原理 6.4.2Weka中的逻辑回归算法应用实践 6.5随机森林算法6.5.1随机森林算法基本原理 6.5.2Weka中的随机森林算法应用实践6.6模型性能评估(一) 6.7模型性能评估(二) 教学组织:1、采用混合式教学法。线上讲授演示与线下集中辅导答疑相结合。2、采用模拟教学法。切合知识点,运用模拟软件的操作演示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论