大数据分析及应用项目教程(Spark SQL)(微课版) 教案 许慧 单元4-6 房产大数据分析与探索-Zepplin数据可视化_第1页
大数据分析及应用项目教程(Spark SQL)(微课版) 教案 许慧 单元4-6 房产大数据分析与探索-Zepplin数据可视化_第2页
大数据分析及应用项目教程(Spark SQL)(微课版) 教案 许慧 单元4-6 房产大数据分析与探索-Zepplin数据可视化_第3页
大数据分析及应用项目教程(Spark SQL)(微课版) 教案 许慧 单元4-6 房产大数据分析与探索-Zepplin数据可视化_第4页
大数据分析及应用项目教程(Spark SQL)(微课版) 教案 许慧 单元4-6 房产大数据分析与探索-Zepplin数据可视化_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元4.房产大数据分析与探索班级大数据技术1、2人数教材来源自编教材授课学时16学生学习条件分析1.起点分析:掌握Scala编程语言基础。2.重点分析:能使用RDD的各种转换和行动操作对数据集进行处理分析。3.难点分析:能灵活综合的应用各种RDD操作和各个算子对数据进行分析。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标综合的应用各种RDD操作和各个算子C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识1.掌握将数据构建为RDD的方法。2.知道RDD各种算子的使用方法。能力1.能使用RDD的各种转换和行动操作对数据集进行处理分析。2.能灵活综合的应用各种RDD操作和各个算子对数据进行分析。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.某房产公司销售人员业绩分析情境导入;2.学习目标和要求;3.数据集处理基于内存(集合)创建RDD。parallelize方法创建RDDmakeRDD方法创建RDD从外部存储数据构造RDD使用sc.textFile()方法进行创建。操作练习——构建员工业绩RDD三、课堂小结RDD的创建方法小结。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.RDD支持的两种操作。转换操作:就是对RDD中的数据进行各种转换。行动操作:RDD的行动操作则是向驱动器程序返回结果或者把结果写入外部系统的操作,会触发实际的计算2.统计部门人员人数count()行动操作,返回的是RDD内元素的个数。3.分别统计上/下半年业绩排名,取前三位及最后三位map、flatmap、sortby、take,first、collect等方法。map转换操作map转换操作是最常用的转换算子,对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。flatmap转换操作此方法首先将map函数应用于RDD的所有元素,然后将返回的结果平坦化。sortby转换操作此方法是对RDD进行排序,有3个参数可以输入。sortby(参数一,参数二,参数三)参数一是要进行排序的对象值;参数二是排序方式,默认是正序排序,使用false参数就是倒序排序;参数三是分区个数。take,first、collect行动操作进行分析,实现任务。4.进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第3、4节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.统计上/下半年业绩超过5000万的人员。利用filter、distinct、union等方法对数据进行操作。filter转换操作此方法返回满足指定过滤条件的元素,不满足条件的元素被忽略。distinct转换操作此方法是对RDD中的数据去重,把完全相同的元素去除。对前述filter转换操作中的rdd数据进行操作。union转换操作此方法可以将两个RDD进行合并,返回两个RDD的并集,并且不去重。但是要求两个RDD中每个元素中的值的个数及数据类型保持一致。进行分析,实现任务。2.进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第5、6节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.统计此部门当年的房屋销售套数。利用RDD的相关描述性统计函数实现。min()、max()函数min()方法返回RDD中的最小值,max()方法返回RDD中的最大值。mean()、sum()函数mean()函数返回RDD中的平均值。sum()函数返回RDD中的总和。variance()、stdev()函数variance()计算RDD中所有元素的总体方差。stdev()计算RDD的标准差。进行分析,实现任务。将经过map操作处理好的上/下半年业绩数据集map_firstrdd和map_secondrdd进行合并,取出第三列数据,利用sum函数计算总数。2.进行操作练习。三、课堂小结描述性统计函数小结。——第7、8节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.查看全年总业绩最高人员。Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为PairRDD。创建PairRDD创建PairRDD的方法有很多,当需要将一个普通RDD转换为PairRDD时,可以使用map方法来实现。keys()、values()转换操作keys()、values()操作返回的类型是RDD。reducebykey()转换操作此方法应用于键值对数据集操作,对Key相同的Value使用指定的函数进行聚合操作,返回一个键值对的数据集。2.进行操作练习。三、课堂小结PairRDD的操作小结。——第9、10节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.groupbykey()转换操作此方法会对相同键的值进行分组,形成二元元组,第一个字段为相同的键,第二个字段为具备相同键的值的集合。2.sortByKey()转换操作此方法返回一个根据“键”进行排序的RDD。3.进行分析,实现任务将上、下半年的的业绩合并到同一个RDD中。将数据转换成(员工编号,业绩)键值对,利用reduceByKey方法对相同员工编号对应的业绩值进行相加。对业绩总和进行排序,获得最高业绩人员信息。4.存储以上统计分析信息文本文件的存储可以直接调用saveAsTextFile(path)进行存储。三、课堂小结PairRDD的操作小结。——第11、12节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.某城市近年房产销售状况分析情境导入;2.学习目标和要求;3.数据准备此房产销售数据集是一个在系统外部的csv文件,因此需要将其上传至文件系统中,加载为RDD后再做处理分析。4.使用map方法转换RDD,以“,”将每一行数据分割。5.对户人数的基本情况进行统计,获得记录条目的总数,以及在这些记录中包括多少个用户ID。6.了解房产销量趋势,统计每年房产销售量情况。要获得每年的房产销售量情况,需要先从日期中提取年份数据;然后利用reduceByKey方法按年进行统计汇总;最后利用sortBy方法对统计汇总的数据进行排序,获得每年销量从高到低的排序情况。7.分析此数据集中购买房屋所属的区域是哪些?各个区域的房产销售情况如何?各个区域的房屋均价是多少?购买房屋所属的区域情况及数量各个区域的房屋均价情况8.操作练习。三、课堂小结数据探索与分析小结。——第13、14节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.查询2018年1月1日的日销量有多少。使用filter转换操作。2.查询2018年1月1日到1月31日之间,满五年房产的销售数量。3.数据集中,房子的装修类型有精装、简装、毛坯、其他,四种类型,分析哪种装修类型的房子销量高。此问题的分析思路与第4点统计区域房产销售情况一致,可以使用reduceByKey(_+_)方法对装修类型相同的房屋数量进行求和统计。4.了解在所售卖的房子中,电梯有无的比例,地铁有无情况,这些条件对房屋售卖量的影响程度。对电梯有无数据列创建键值对,其中“键”指有无电梯,每个“值”赋予“1”。然后使用groupByKey()方法对相同“键”的键值对进行分类,分类后对“值”进行sum求和。有无地铁情况的数据处理思路相同。5.操作练习。三、课堂小结小结所涉及知识点。——第15、16节结束——学习评量课堂练习中巡视指导课后作业纸笔作业:完成第4章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1.目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2.学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元5.电商大数据分析与探索班级大数据技术1、2人数教材来源自编教材授课学时14学生学习条件分析1.起点分析:能使用RDD的各种转换和行动操作对数据集进行处理分析。2.重点分析:(1)从不同数据源创建DataFrames的方法。(2)掌握操作DataFrame进行数据清洗、转换、查询的基本方法。3.难点分析:掌握使用SparkSQL语句进行数据分析的方法。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标应用SparkSQL进行数据分析探索C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识1.理解DataFrame概念,作用。2.知道DataFrame的各种操作方法。能力1.从不同数据源创建DataFrames。2.掌握操作DataFrame进行数据清洗、转换、查询。3.灵活使用DataFrame数据操作的各种方法进行数据查询。4.会使用聚合、连接等操作对DataFrame数据进行转换。5.能使用聚合函数对DataFrame数据进行分析。6.持久存储数据。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.女装电子商务评论情况分析情境导入;2.学习目标和要求;3.数据准备使用toDF函数创建DataFrame本地seq+toDF创建DataFrame。通过caseclass+toDF创建DataFrame使用createDataFrame函数创建DataFrame从外部数据创建DataFrame使用parquet文件创建使用json文件创建使用CSV(Comma-SeparatedValues)文件创建读取“女装电子商务评论”数据集按照列名cols删除DataFrame中的列,返回新的DataFrame。此方法可以删除数据表中无用的或者不想要的数据列。删除“publisher”列。4.数据清洗drop(cols)按照列名cols删除DataFrame中的列,返回新的DataFrame。此方法可以删除数据表中无用的或者不想要的数据列。操作练习:删除“publisher”列。dropDuplicates(subset=None)此方法用于删除DataFrame中的重复行,subset用于指定删除重复行的时候考虑哪几列。操作练习:删除重复的行、删除author列重复的行。na.drop此方法用于删除DataFrame中的null空数据,加入“any”和“all”参数可以指定删除条件,加入数字参数指定有多少个空值进行删除,加入字段名删除指定字段中的空值。操作练习:对有任意一个为缺失值的行进行删除;对全部为缺失值的行进行删除;对有3个缺失值的数据行进行删除;对有两个缺失值以上的数据行进行删除。na.fill()此方法用于将DataFrame中所有缺失值填充为一个给定的字符串或数值。可以为所有缺失值指定字符串或数值,也可以为指定列指定不同字符串或数值。操作练习:将表中所有的null空数据指定为“不明”;对不同的列中缺失值填充不同的字符串对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。三、课堂小结DataFrame数据准备、清洗小结。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.数据转换。withColumn(colName,col)此方法用于为数据表添加新列,返回一个新的DataFrame增加colNAme列,如果原来本身就有colName的列,就进行替换。withColumnRename(existing,new)此方法用于对已经存在的列名进行重命名。existing为原来的名字,new为新的列名,若名称不存在则这个操作不做任何事情。定义UDF,将数据表中的两列合并成一列。UDF是指用户定义函数,用于扩展系统的内置功能。我们可以在SparkSQL中自定义实际需要的UDF来处理数据。定义UDF,对表格中的列添加字符或者数字。na.replace此方法用于对现有的字符或者数字删除或替换字符或者数字。如果在replace中列名参数是“*”,那么将会对所有的列进行相应的替换。对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第3、4节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.注册临时表的方法。createGlobalTempView(name)createOrReplaceGlobalTempView(name)createTempView(name)createOrReplaceTempView(name)2.案例分析:以本章数据集中的books.csv为例,进行操作理解。自定义schema,读取books.csv文件,删除有空缺数据的行及重复数据。注册临时表:book2.createOrReplaceTempView("btemp")在临时表中执行SQL,查询book_price价格小于30的书。3.进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。——第5、6节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.对Clothing-Reviews.csv数据进行SQL探索分析。查看40岁以下,不同年龄段的客户人数。统计recommended_IND为“不推荐”的订单的rating评分分布。为进一步了解用户“不推荐”的原因,可以查看用户具体评论。查询了解,不推荐的这些订单,分别属于哪些服装分类,各种服装类的不推荐数量情况是如何的。统计分析不同评分等级的服装编号clothing_id情况。获得不同服装编号clothing_id的五星好评数量,并且降序排序。使用SparkSQL的内置函数进行相关性等分析。2.数据输出方法一:利用save()函数保存数据。方法二:通过df.rdd.saveAsTextFile("file:///")转化成rdd再保存。此方法可以将数据存储为txt格式。3.进行操作练习。三、课堂小结数据分析与存储小结。——第7、8节结束——一、准备活动活跃课堂气氛,学习通签到、点名。二、发展活动1.在线销售订单数据分析情景导入2.学习目标和要求。3.数据查询操作查看数据show该方法主要用于测试,查看输入的数据、获得的结果是否正确。该方法能够以表格的形式展示DataFrame中的数据。collect()collect方法类似与SparkRDD的collect方法。与show方法不同的是,collect方法可以获取DataFrame中的所有数据,并返回一个Array对象。过滤查询where在SQL语法中,可以通过where条件语句对数据进行过滤。在SparkSQL中,同样可以像SQL一样使用where(conditionExpr:String)条件语句来对数据进行过滤。可以指定条件参数conditionExpr来进行查询,参数中可以使用and或or。filterfilter方法和where方法类似,可以筛选出符合条件的数据。指定列查询select在SparkSQL中可以通过select方法来查询指定字段,类似于SQL中的select方法。selectExpr这个方法是select方法的一个变体,可以接受一个SQL表达式,或对某些字段做一些特殊处理。排序操作orderBy此方法能够使数据按照指定的字段排序,默认升序排序。如果需要降序排序,可以使用desc(“字段名称”)或者$“字段名”.desc进行处理。sortsort方法与orderBy方法一样,也是对指定字段进行排序。对emp中的salary薪水列进行升序排序。4.进行操作练习。三、课堂小结数据查询操作小结。——第9、10节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.分组聚合。groupBy分组此方法可以根据字段进行分组操作。调用方式可以传入String类型的字段名,也可以是Column类型的对象。agg聚合该方法一般与groupBy方法配合使用。agg(expers:column*)可以传入一个或多个Coumn对象,返回DataFrame。2.聚合函数聚合是大数据分析领域中最常用的特性之一。SparkSQL提供了很多常用的聚合函数,比如sum、count、avg等等。count函数count可以执行以下2种操作:对指定列进行计数;使用count(*)或count(1)对所有列进行计数。countDistinct函数:此函数可以计算每个组的唯一项。approx_count_distinct函数此函数的功能与countDistinct一样,但是统计的结果允许有误差。这里approx_count_distinct的另一个参数就指定了可容忍的误差的最大误差。sum函数:计算一个数字列中的所有值的总和。sumDistinct函数:计算一个数字列中不同值的总和,重复的数值将不被计算。avg函数:计算一个数字列的平均值。min函数、max函数:统计出指定列的最小值和最大值。3.连接操作内连接内连接查询操作是列出与连接条件匹配的数据行,它使用比较运算符比较被连接列的列值。左外连接此连接方式是以左表为基准,将数据进行连接,然后将左表中所有数据都显示,右表对应的列设置为NULL。右外连接是以右表为基准,将数据进行连接,然后将右表所有的数据进行显示,左表对应的列设置为NULL。全外连接全外连接是在等值连接的基础上将左表和右表的未匹配数据都加上。LeftSemi-Join这种join类型的行为类似于内连接类型,连接后的数据集只包含匹配的行。交叉连接(又称为Cartesian-笛卡尔连接)当执行join连接时不指定参数,得到的也是笛卡尔积结果。三、课堂小结数据查询操作小结。——第11、12节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求二、发展活动1.数据准备上传orders.csv和order-details.csv数据集到HDFS文件系统中。加载数据集到RDD及DataFrame中。2.问题分析此数据集中每个客户的下单数量是多少?每个城市的订单有多少?每个客户的消费总额是多少?计算orders_details中每行商品的实际销售金额。按照订单编号order_id统计每张订单的总金额。进行等值内连接,并增加订单总金额。数据集中,客户的平均订单消费额是多少?3.操作练习。三、课堂小结数据探索与分析小结。——第13、14节结束——学习评量课堂练习中巡视指导课后作业纸笔作业:完成第5章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1.目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2.学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分析学年学期2授课类型□理论型,√理实一体型,□实践型单元名称单元6.Zepplin数据可视化班级大数据技术1、2人数教材来源自编教材授课学时8学生学习条件分析1.起点分析:会使用SparkSQL进行数据分析与探索。2.重点分析:(1)会下载、安装、配置Zepplin可视化工具。(2)掌握操作DataFrame进行数据清洗、转换、查询的基本方法。3.难点分析:能使用Zepplin执行SparkSQL命令实现数据可视化。教学方法手段1.教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1.个人资源:教材、教学PPT与相关素材2.学校资源:一体化教室、超星平台中的公共资源3.网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标应用Zepplin实现数据可视化C1养成良好的自我管理素养B1提升学生沟通交流、小组协作能力E2教学目标知识Zepplin中使用SparkSQL实现数据可视化的方法。能力1.会下载、安装、配置Zepplin可视化工具。2.会在Zepplin中配置Spark解释器。3.能使用Zepplin执行SparkSQL命令实现数据可视化。素质1.养成良好的自我管理素养2.提升沟通交流、小组协作能力教师课前准备1.准备好一体化机房,保证机器正常运转,安装好软件。2.准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3.设计学生要完成的任务。4.设计好教学环节。5.服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1.情境导入;2.学习目标和要求;3.下载与安装通过下载地址:/download.html,选择zeppelin-0.10.1-bin-all.tgz包进行下载。安装步骤将Zepplin安装包上传到master节点的/root目录下。解压并重命名目录。修改配置文件zeppelin-env.sh。Zeppelin控制台启动Zeppelin后,通过浏览器访问30:9090可以打开Zeppelin控制台。4.Zeppelin中的Spark解释器配置anonymous用户按钮,打开解释器配置界面。搜索spark解释器,进入spark解释器配置界面进行设置。5.测试运行Zeppelin测试自带的BasicFeature(Spark)案例测试运行自编代码三、课堂小结Zepplin基础小结。——第1、2节结束——一、准备活动1.活跃课堂气氛,学习通签到、点名。2.情景导入。3.学习目标和要求。二、发展活动女装电子商务评论情况数据可视化。1.加载数据注册视图2.对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。3.对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。4.使用createOr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论