版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
单元教学活动设计二级学院信息工程学院专业大数据技术设计者课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元1.大数据分析概述班级大数据技术1、2人数教材来源自编教材授课学时4学生学习条件分析1.起点分析:(1)学生具备Linux相关操作、大数据基础运维的基本技能;(2)学生具备自主学习能力,能主动查阅资料预习。2.重点分析:(1)大数据分析的相关工具。(2)大数据分析可视化的概念及相关工具。3.难点分析:(1)SparkSQL的运行架构。(2)Catalyst查询编译器的工作流程。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标掌握大数据分析基础知识C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识1.了解大数据分析的概念、特点、类别、优缺点。2.知道大数据分析的相关工具3.了解大数据分析可视化的概念及相关工具。4.了解SparkSQL的背景、特点。能力1.知道SparkSQL的运行架构2.掌握Catalyst查询编译器的工作流程。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,自我介绍,学习通签到、点名。2.课程定位,课程教学内容安排与考核方式介绍。3.课程主要学习内容、学习方法介绍。二、发展活动1.关于大数据分析情境导入;2.学习目标和要求;3.提问:什么是大数据分析?大数据的“5V”特征大数据分析概念大数据分析的特点大数据分析类别大数据分析的优势与缺点4.提问:大数据分析工具有哪些?Hadoop生态圈中的大数据分析工具大数据分析编程语言其他工具5.关于大数据分析可视化。三、课堂小结大数据分析概述、工具和可视化。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.认识SparkSQL情境导入。3.学习目标和要求。二、发展活动1.SparkSQL背景简介SparkSQL的背景SparkSQL的特点2.SparkSQL运行原理。SparkSQL的运行架构Catalyst查询编译器SparkSQL的运行原理SessionCatalog保存元数据ANTLR生成未绑定的逻辑计划Analyzer绑定逻辑计划Optimizer优化逻辑计划SparkPlanner生成可执行的物理计划CostModel选择最佳物理执行计划execute执行物理计划三、课堂小结与作业布置1.小结:本次课程学习重点,学习过程中出现的问题与解决方法。2.布置:完成第1章课后练习。——第3、4节结束——学习评量课堂练习中巡视指导课后作业纸笔作业:完成第1章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1.目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2.学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。
单元教学活动设计二级学院信息工程学院专业大数据技术设计者课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元2.实践环境准备班级大数据技术1、2人数教材来源自编教材授课学时6学生学习条件分析1.起点分析:(1)了解大数据分析概述、工具和可视化;(2)知道SparkSQL背景和运行原理。2.重点分析:(1)Hadoop集群环境搭建。(2)Spark集群安装搭建。(3)Scala下载、安装和配置3.难点分析:(1)Hadoop集群环境搭建。(2)Spark集群安装搭建。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标掌握Hadoop和Spark集群的安装部署C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识1.了解Hadoop、Spark和Scala的基础知识。能力1.掌握Hadoop集群环境搭建的环境准备工作,包括配置主机名、防火墙设置、免密登录设置、Java环境设置。2.掌握安装Hadoop的过程、配置文件设置及启动集群的方法。3.掌握Spark集群安装配置方法。4.能使用Spark-shell进行简单编程测试。5.会下载、安装配置Scala工具。6.能启动Scala进行编程测试。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.Hadoop集群环境搭建情境导入;2.学习目标和要求;3.操作演示Hadoop集群搭建集群节点规划配置主机名和IP连接MobaXterm终端工具关闭防火墙关闭SElinux修改/etc/hosts文件配置免密登录配置Java环境安装Hadoop启动Hadoop集群4.运行经典案例wordcount在本地root目录下创建一个txt文件,输入一段自定义文字。上传文本到到hdfs。运行命令并查看结果三、课堂小结Hadoop集群搭建知识与技能回顾。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.Spark集群部署与使用情境导入。3.学习目标和要求。二、发展活动1.Spark安装上传软件包修改环境变量修改Spark配置文件复制修改spark启动脚本分发Spark安装文件到slaver01和slaver02。2.启动Spark。查看各节点服务进程状态Web查看Spark主页情况3.Spark集群测试使用spark-submit工具提交Spark作业使用Spark-sql使用Sparkshell三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第3、4节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.Scala安装情境导入。3.学习目标和要求。二、发展活动1.下载Scala安装包2.安装配置上传安装包并解压配置环境变量,添加Scala相关配置使环境变量生效,查看Scala版本启动Scala三、课堂小结1.小结:本次课程学习重点,学习过程中出现的问题与解决方法。2.布置:完成第1章课后练习。——第5、6节结束——学习评量课堂练习中巡视指导课后作业纸笔作业:完成第2章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1.目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2.学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。单元教学活动设计二级学院信息工程学院专业大数据技术设计者课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元3.学生信息处理分析班级大数据技术1、2人数教材来源自编教材授课学时16学生学习条件分析1.起点分析:(1)了解大数据分析概述、工具;(2)掌握基本的程序编写语言。2.重点分析:Scala语言基础。3.难点分析:能综合应用Scala基础知识编写应用程序进行数据分析。。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标掌握Scala基础语言和编程C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识1.理解Scala数据类型、常量与变量、运算符。2.了解Scala类和对象、模式匹配的基本概念。能力1.掌握Scala判断与循环、函数式编程。2.掌握Scala集合操作。3.掌握Scala类和对象、模式匹配的定义及操作方法。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.班级基本情况分析情境导入;2.学习目标和要求;3.数据类型Scala与Java的数据类型相同,但是Scala中的数据类型都是对象即Scala没有java中的原生类型。因此Scala可以对数字等基础类型调用方法。4.常量与变量定义方法。数据类型推断。多变量声明5.运算符算数运算符关系运算符逻辑运算符位运算符赋值运算符6.数组声明与定义方式基本操作方法三、课堂小结Scala数据类型、常量与变量、运算符、数组小结。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.判断与循环if判断if语句的语法格式如下:if(判断条件){//如果判断条件为true则执行该语句块}if…else语句语法格式如下:if(判断条件){//如果判断条件为true则执行该语句块}else{//如果判断条件为false则执行该语句块}if…elseif…else语句语法格式如下:if(判断条件1){//如果判断条件1为true则执行该语句块}elseif(判断条件2){//如果判断条件2为true则执行该语句块}else{//如果以上判断条件都为false执行该语句块}if...else嵌套语句语法格式如下:if(判断条件1){//如果判断条件1为true则执行该语句块if(判断条件2){//如果判断条件2为true则执行该语句块}}循环while循环语法格式如下:while(条件表达式){代码块}\o"CScala+do...while循环"do...while循环语法格式如下:do{代码块}while(条件表达式)\o"CScala+for循环"for循环的语法格式如下for(varx<-range){代码块}三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第3、4节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.函数式编程函数的定义和调用def函数名[参数列表]:[返回值类型]={函数体return[表达式]}函数调用的方法如下:函数名[参数列表]匿名函数匿名函数是指不含函数名称的函数。使用“=>”定义,“=>”的左边为参数列表,“=>”右边为函数体表达式。高阶函数高阶函数是指使用其他函数作为参数,或者使用函数作为输出结果的函数。闭包闭包是一个函数,是可以访问一个函数里面局部变量的另外一个函数。函数柯里化函数编程中,接受多个参数的函数都可以转化为接受单个参数的函数,这个转化过程就是柯里化。柯里化本身也用到了闭包。嵌套函数嵌套函数即在函数内部定义函数,其中内部函数称为局部函数。2.学生所属班级和男女生数量——编程分析实现判断学生所属班级统计男女生人数信息三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第5、6节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.列表定义方法列表的常用操作2.Set集合定义Set集合Set的基本操作三、课堂小结Scala列表与Set集合小结。——第7、8节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.元组定义元组的语法一:valtuple=(元素1,元素2,元素3…)定义元组的语法二:valt=newTuplen(元素1,元素2,元素3...元素n)2.Map映射映射定义映射的常用操作三、课堂小结Scala元组与Map映射小结。——第9、10节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.函数组合器组合器包括map、filter、foreach、groupBy、flatten、drop、zip等。2.以班级为单位整理学生信息——编程分析实现以班级为单位整理学生信息,可以先将数据保存到列表中,然后使用groupBy组合器以班级为条件进行分组。三、课堂小结函数组合器小结。——第11、12节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.学生基本情况获取情境导入;2.学习目标和要求;3.类和对象类的定义方式如下:Class类名称(参数列表){//定义类的字段和方法}继承的语法如下:class子类名extends父类名{类体}4.单例对象和伴生对象单例对象定义一个单例对象的语法如下:object单例对象名{}半生对象若在同一个代码文件内部,同时出现了classA和objectA,即类名和单例对象名完全相同,那么它们两者就互为伴生关系。5.模式匹配模式匹配基本语法如下所示:xmatch{ casepattern1=>doSomething casepattern2=>doothers...}6.案例:学生特长情况——编程分析实现三、课堂小结Scala类和对象、Scala模式匹配小结。——第13、14节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.综合案例——学生成绩情况分析现要求使用Scala函数式编程,综合本章前面所学知识,进行学生成绩分析统计。获得各门课程的平均成绩和及格人数(大于60),每个同学所有课程的总成绩。导入依赖包,读取数据文件将数据转换为列表list创建课程名称列表定义函数,计算各门课程的平均成绩和及格人数。定义函数,统计每个同学所有课程的总成绩。定义函数,用于输出calculation1函数的计算结果。综合以上函数与方法,进行调用、统计分析与输出。三、课堂小结小结所涉及知识点。——第15、16节结束——学习评量课堂练习中巡视指导课后作业纸笔作业:完成第3章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1.目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2.学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。单元教学活动设计二级学院信息工程学院专业大数据技术设计者课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元4.房产大数据分析与探索班级大数据技术1、2人数教材来源自编教材授课学时16学生学习条件分析1.起点分析:掌握Scala编程语言基础。2.重点分析:能使用RDD的各种转换和行动操作对数据集进行处理分析。3.难点分析:能灵活综合的应用各种RDD操作和各个算子对数据进行分析。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标综合的应用各种RDD操作和各个算子C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识1.掌握将数据构建为RDD的方法。2.知道RDD各种算子的使用方法。能力1.能使用RDD的各种转换和行动操作对数据集进行处理分析。2.能灵活综合的应用各种RDD操作和各个算子对数据进行分析。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.某房产公司销售人员业绩分析情境导入;2.学习目标和要求;3.数据集处理基于内存(集合)创建RDD。parallelize方法创建RDDmakeRDD方法创建RDD从外部存储数据构造RDD使用sc.textFile()方法进行创建。操作练习——构建员工业绩RDD三、课堂小结RDD的创建方法小结。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.RDD支持的两种操作。转换操作:就是对RDD中的数据进行各种转换。行动操作:RDD的行动操作则是向驱动器程序返回结果或者把结果写入外部系统的操作,会触发实际的计算2.统计部门人员人数count()行动操作,返回的是RDD内元素的个数。3.分别统计上/下半年业绩排名,取前三位及最后三位map、flatmap、sortby、take,first、collect等方法。map转换操作map转换操作是最常用的转换算子,对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。flatmap转换操作此方法首先将map函数应用于RDD的所有元素,然后将返回的结果平坦化。sortby转换操作此方法是对RDD进行排序,有3个参数可以输入。sortby(参数一,参数二,参数三)参数一是要进行排序的对象值;参数二是排序方式,默认是正序排序,使用false参数就是倒序排序;参数三是分区个数。take,first、collect行动操作进行分析,实现任务。4.进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第3、4节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.统计上/下半年业绩超过5000万的人员。利用filter、distinct、union等方法对数据进行操作。filter转换操作此方法返回满足指定过滤条件的元素,不满足条件的元素被忽略。distinct转换操作此方法是对RDD中的数据去重,把完全相同的元素去除。对前述filter转换操作中的rdd数据进行操作。union转换操作此方法可以将两个RDD进行合并,返回两个RDD的并集,并且不去重。但是要求两个RDD中每个元素中的值的个数及数据类型保持一致。进行分析,实现任务。2.进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第5、6节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.统计此部门当年的房屋销售套数。利用RDD的相关描述性统计函数实现。min()、max()函数min()方法返回RDD中的最小值,max()方法返回RDD中的最大值。mean()、sum()函数mean()函数返回RDD中的平均值。sum()函数返回RDD中的总和。variance()、stdev()函数variance()计算RDD中所有元素的总体方差。stdev()计算RDD的标准差。进行分析,实现任务。将经过map操作处理好的上/下半年业绩数据集map_firstrdd和map_secondrdd进行合并,取出第三列数据,利用sum函数计算总数。2.进行操作练习。三、课堂小结描述性统计函数小结。——第7、8节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.查看全年总业绩最高人员。Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为PairRDD。创建PairRDD创建PairRDD的方法有很多,当需要将一个普通RDD转换为PairRDD时,可以使用map方法来实现。keys()、values()转换操作keys()、values()操作返回的类型是RDD。reducebykey()转换操作此方法应用于键值对数据集操作,对Key相同的Value使用指定的函数进行聚合操作,返回一个键值对的数据集。2.进行操作练习。三、课堂小结PairRDD的操作小结。——第9、10节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.groupbykey()转换操作此方法会对相同键的值进行分组,形成二元元组,第一个字段为相同的键,第二个字段为具备相同键的值的集合。2.sortByKey()转换操作此方法返回一个根据“键”进行排序的RDD。3.进行分析,实现任务将上、下半年的的业绩合并到同一个RDD中。将数据转换成(员工编号,业绩)键值对,利用reduceByKey方法对相同员工编号对应的业绩值进行相加。对业绩总和进行排序,获得最高业绩人员信息。4.存储以上统计分析信息文本文件的存储可以直接调用saveAsTextFile(path)进行存储。三、课堂小结PairRDD的操作小结。——第11、12节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.某城市近年房产销售状况分析情境导入;2.学习目标和要求;3.数据准备此房产销售数据集是一个在系统外部的csv文件,因此需要将其上传至文件系统中,加载为RDD后再做处理分析。4.使用map方法转换RDD,以“,”将每一行数据分割。5.对户人数的基本情况进行统计,获得记录条目的总数,以及在这些记录中包括多少个用户ID。6.了解房产销量趋势,统计每年房产销售量情况。要获得每年的房产销售量情况,需要先从日期中提取年份数据;然后利用reduceByKey方法按年进行统计汇总;最后利用sortBy方法对统计汇总的数据进行排序,获得每年销量从高到低的排序情况。7.分析此数据集中购买房屋所属的区域是哪些?各个区域的房产销售情况如何?各个区域的房屋均价是多少?购买房屋所属的区域情况及数量各个区域的房屋均价情况8.操作练习。三、课堂小结数据探索与分析小结。——第13、14节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.查询2018年1月1日的日销量有多少。使用filter转换操作。2.查询2018年1月1日到1月31日之间,满五年房产的销售数量。3.数据集中,房子的装修类型有精装、简装、毛坯、其他,四种类型,分析哪种装修类型的房子销量高。此问题的分析思路与第4点统计区域房产销售情况一致,可以使用reduceByKey(_+_)方法对装修类型相同的房屋数量进行求和统计。4.了解在所售卖的房子中,电梯有无的比例,地铁有无情况,这些条件对房屋售卖量的影响程度。对电梯有无数据列创建键值对,其中“键”指有无电梯,每个“值”赋予“1”。然后使用groupByKey()方法对相同“键”的键值对进行分类,分类后对“值”进行sum求和。有无地铁情况的数据处理思路相同。5.操作练习。三、课堂小结小结所涉及知识点。——第15、16节结束——学习评量课堂练习中巡视指导课后作业纸笔作业:完成第4章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1.目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2.学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。单元教学活动设计二级学院信息工程学院专业大数据技术设计者课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元5.电商大数据分析与探索班级大数据技术1、2人数教材来源自编教材授课学时14学生学习条件分析1.起点分析:能使用RDD的各种转换和行动操作对数据集进行处理分析。2.重点分析:(1)从不同数据源创建DataFrames的方法。(2)掌握操作DataFrame进行数据清洗、转换、查询的基本方法。3.难点分析:掌握使用SparkSQL语句进行数据分析的方法。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标应用SparkSQL进行数据分析探索C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识1.理解DataFrame概念,作用。2.知道DataFrame的各种操作方法。能力1.从不同数据源创建DataFrames。2.掌握操作DataFrame进行数据清洗、转换、查询。3.灵活使用DataFrame数据操作的各种方法进行数据查询。4.会使用聚合、连接等操作对DataFrame数据进行转换。5.能使用聚合函数对DataFrame数据进行分析。6.持久存储数据。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.女装电子商务评论情况分析情境导入;2.学习目标和要求;3.数据准备使用toDF函数创建DataFrame本地seq+toDF创建DataFrame。通过caseclass+toDF创建DataFrame使用createDataFrame函数创建DataFrame从外部数据创建DataFrame使用parquet文件创建使用json文件创建使用CSV(Comma-SeparatedValues)文件创建读取“女装电子商务评论”数据集按照列名cols删除DataFrame中的列,返回新的DataFrame。此方法可以删除数据表中无用的或者不想要的数据列。删除“publisher”列。4.数据清洗drop(cols)按照列名cols删除DataFrame中的列,返回新的DataFrame。此方法可以删除数据表中无用的或者不想要的数据列。操作练习:删除“publisher”列。dropDuplicates(subset=None)此方法用于删除DataFrame中的重复行,subset用于指定删除重复行的时候考虑哪几列。操作练习:删除重复的行、删除author列重复的行。na.drop此方法用于删除DataFrame中的null空数据,加入“any”和“all”参数可以指定删除条件,加入数字参数指定有多少个空值进行删除,加入字段名删除指定字段中的空值。操作练习:对有任意一个为缺失值的行进行删除;对全部为缺失值的行进行删除;对有3个缺失值的数据行进行删除;对有两个缺失值以上的数据行进行删除。na.fill()此方法用于将DataFrame中所有缺失值填充为一个给定的字符串或数值。可以为所有缺失值指定字符串或数值,也可以为指定列指定不同字符串或数值。操作练习:将表中所有的null空数据指定为“不明”;对不同的列中缺失值填充不同的字符串对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。三、课堂小结DataFrame数据准备、清洗小结。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.数据转换。withColumn(colName,col)此方法用于为数据表添加新列,返回一个新的DataFrame增加colNAme列,如果原来本身就有colName的列,就进行替换。withColumnRename(existing,new)此方法用于对已经存在的列名进行重命名。existing为原来的名字,new为新的列名,若名称不存在则这个操作不做任何事情。定义UDF,将数据表中的两列合并成一列。UDF是指用户定义函数,用于扩展系统的内置功能。我们可以在SparkSQL中自定义实际需要的UDF来处理数据。定义UDF,对表格中的列添加字符或者数字。na.replace此方法用于对现有的字符或者数字删除或替换字符或者数字。如果在replace中列名参数是“*”,那么将会对所有的列进行相应的替换。对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第3、4节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.注册临时表的方法。createGlobalTempView(name)createOrReplaceGlobalTempView(name)createTempView(name)createOrReplaceTempView(name)2.案例分析:以本章数据集中的books.csv为例,进行操作理解。自定义schema,读取books.csv文件,删除有空缺数据的行及重复数据。注册临时表:book2.createOrReplaceTempView("btemp")在临时表中执行SQL,查询book_price价格小于30的书。3.进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第5、6节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.对Clothing-Reviews.csv数据进行SQL探索分析。查看40岁以下,不同年龄段的客户人数。统计recommended_IND为“不推荐”的订单的rating评分分布。为进一步了解用户“不推荐”的原因,可以查看用户具体评论。查询了解,不推荐的这些订单,分别属于哪些服装分类,各种服装类的不推荐数量情况是如何的。统计分析不同评分等级的服装编号clothing_id情况。获得不同服装编号clothing_id的五星好评数量,并且降序排序。使用SparkSQL的内置函数进行相关性等分析。2.数据输出方法一:利用save()函数保存数据。方法二:通过df.rdd.saveAsTextFile("file:///")转化成rdd再保存。此方法可以将数据存储为txt格式。3.进行操作练习。三、课堂小结数据分析与存储小结。——第7、8节结束——一、准备活动活跃课堂气氛,学习通签到、点名。二、发展活动1.在线销售订单数据分析情景导入2.学习目标和要求。3.数据查询操作查看数据show该方法主要用于测试,查看输入的数据、获得的结果是否正确。该方法能够以表格的形式展示DataFrame中的数据。collect()collect方法类似与SparkRDD的collect方法。与show方法不同的是,collect方法可以获取DataFrame中的所有数据,并返回一个Array对象。过滤查询where在SQL语法中,可以通过where条件语句对数据进行过滤。在SparkSQL中,同样可以像SQL一样使用where(conditionExpr:String)条件语句来对数据进行过滤。可以指定条件参数conditionExpr来进行查询,参数中可以使用and或or。filterfilter方法和where方法类似,可以筛选出符合条件的数据。指定列查询select在SparkSQL中可以通过select方法来查询指定字段,类似于SQL中的select方法。selectExpr这个方法是select方法的一个变体,可以接受一个SQL表达式,或对某些字段做一些特殊处理。排序操作orderBy此方法能够使数据按照指定的字段排序,默认升序排序。如果需要降序排序,可以使用desc(“字段名称”)或者$“字段名”.desc进行处理。sortsort方法与orderBy方法一样,也是对指定字段进行排序。对emp中的salary薪水列进行升序排序。4.进行操作练习。三、课堂小结数据查询操作小结。——第9、10节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.分组聚合。groupBy分组此方法可以根据字段进行分组操作。调用方式可以传入String类型的字段名,也可以是Column类型的对象。agg聚合该方法一般与groupBy方法配合使用。agg(expers:column*)可以传入一个或多个Coumn对象,返回DataFrame。2.聚合函数聚合是大数据分析领域中最常用的特性之一。SparkSQL提供了很多常用的聚合函数,比如sum、count、avg等等。count函数count可以执行以下2种操作:对指定列进行计数;使用count(*)或count(1)对所有列进行计数。countDistinct函数:此函数可以计算每个组的唯一项。approx_count_distinct函数此函数的功能与countDistinct一样,但是统计的结果允许有误差。这里approx_count_distinct的另一个参数就指定了可容忍的误差的最大误差。sum函数:计算一个数字列中的所有值的总和。sumDistinct函数:计算一个数字列中不同值的总和,重复的数值将不被计算。avg函数:计算一个数字列的平均值。min函数、max函数:统计出指定列的最小值和最大值。3.连接操作内连接内连接查询操作是列出与连接条件匹配的数据行,它使用比较运算符比较被连接列的列值。左外连接此连接方式是以左表为基准,将数据进行连接,然后将左表中所有数据都显示,右表对应的列设置为NULL。右外连接是以右表为基准,将数据进行连接,然后将右表所有的数据进行显示,左表对应的列设置为NULL。全外连接全外连接是在等值连接的基础上将左表和右表的未匹配数据都加上。LeftSemi-Join这种join类型的行为类似于内连接类型,连接后的数据集只包含匹配的行。交叉连接(又称为Cartesian-笛卡尔连接)当执行join连接时不指定参数,得到的也是笛卡尔积结果。三、课堂小结数据查询操作小结。——第11、12节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求二、发展活动1.数据准备上传orders.csv和order-details.csv数据集到HDFS文件系统中。加载数据集到RDD及DataFrame中。2.问题分析此数据集中每个客户的下单数量是多少?每个城市的订单有多少?每个客户的消费总额是多少?计算orders_details中每行商品的实际销售金额。按照订单编号order_id统计每张订单的总金额。进行等值内连接,并增加订单总金额。数据集中,客户的平均订单消费额是多少?3.操作练习。三、课堂小结数据探索与分析小结。——第13、14节结束——学习评量课堂练习中巡视指导课后作业纸笔作业:完成第5章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1.目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2.学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。单元教学活动设计二级学院信息工程学院专业大数据技术设计者课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元6.Zepplin数据可视化班级大数据技术1、2人数教材来源自编教材授课学时8学生学习条件分析1.起点分析:会使用SparkSQL进行数据分析与探索。2.重点分析:(1)会下载、安装、配置Zepplin可视化工具。(2)掌握操作DataFrame进行数据清洗、转换、查询的基本方法。3.难点分析:能使用Zepplin执行SparkSQL命令实现数据可视化。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标应用Zepplin实现数据可视化C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识Zepplin中使用SparkSQL实现数据可视化的方法。能力1.会下载、安装、配置Zepplin可视化工具。2.会在Zepplin中配置Spark解释器。3.能使用Zepplin执行SparkSQL命令实现数据可视化。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学术出版行业市场调研分析报告
- 药用薄荷市场分析及投资价值研究报告
- 自推进式扫路机细分市场深度研究报告
- 冷链果蔬物流行业市场调研分析报告
- 移动电话用屏幕保护膜市场发展前景分析及供需格局研究预测报告
- 电子货币收款机细分市场深度研究报告
- 电子闪光器开关市场分析及投资价值研究报告
- 衬衫袖扣市场分析及投资价值研究报告
- 绘画便笺簿项目营销计划书
- 体育教育行业相关项目经营管理报告
- 韩国《寄生虫》电影鉴赏解读
- 排球训练总结(4篇)
- 石油和天然气输送行业物联网与智能化技术
- 高考英语高频词汇汇总
- 预防校园欺凌主题班会课件
- 六年级语文下册《记一次体育比赛》教案设计
- 文档系统需求方案(完整版)资料
- 建筑陶瓷制造行业技术趋势分析
- 小学六年级地方课程《可爱的四川》教案
- 人教版九年级数学上册《反证法》说课稿
- 药品微生物检验基础知识培训课件
评论
0/150
提交评论