大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用_第1页
大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用_第2页
大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实训9Zepplin安装部署与使用一、实训目的与要求1、会下载、安装、配置Zepplin可视化工具。2、会在Zepplin中配置Spark解释器。3、掌握在Zepplin中使用SparkSQL注册视图4、能使用Zepplin执行SparkSQL命令实现数据可视化。二、操作训练1、Zepplin安装部署(1)将Zepplin安装包上传到master节点的/root目录下。操作结果截图+签名(2)解压并重命名目录。操作结果截图+签名(3)修改配置文件zeppelin-env.sh。操作结果截图+签名(4)启动Zeppelin操作结果截图+签名(5)Zeppelin中的Spark解释器配置操作结果截图+签名(6)测试自带的BasicFeature(Spark)案例操作结果截图+签名(7)测试运行自编代码操作结果截图+签名2、女装电子商务评论情况数据可视化(1)在Zeppelin中创建一个新的notebook,并命名为“clothing_reviews”。操作结果截图+签名(2)读取HDFS文件系统中的女装电子商务评论情况数据CSV文件,自定义schema并转换为DataFrame。操作结果截图+签名(3)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。操作结果截图+签名(4)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。操作结果截图+签名(5)使用createOrReplaceTempView()方法创建本地的临时视图clothing_reviews。操作结果截图+签名(6)对前述创建好的“clothing_reviews”视图进行操作分析。首先了解本网上商店的客户年龄分布。查看40岁以下,不同年龄段的客户人数。操作结果截图+签名(7)查看销量最高的服装分类。操作结果截图+签名(8)统计不同rating评分的“推荐”和“不推荐”的recommended_IND数量情况。操作结果截图+签名(9)修改前一题的数据透视表,将recommended_IND拖动到keys框,将rating拖动到groups框中,以另一种聚合形态展示。操作结果截图+签名(10)查询了解不推荐的这些订单,分别属于哪些服装分类,各种服装类的不推荐数量情况如何。操作结果截图+签名(11)现在,商店负责人想知道本商店五星好评最多的服装类别是什么,评分最低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论