大数据分析及应用项目教程(Spark SQL)(微课版) 实训单汇 许慧 实训1-10 Hadoop集群环境搭建- Zepplin数据可视化案例分析_第1页
大数据分析及应用项目教程(Spark SQL)(微课版) 实训单汇 许慧 实训1-10 Hadoop集群环境搭建- Zepplin数据可视化案例分析_第2页
大数据分析及应用项目教程(Spark SQL)(微课版) 实训单汇 许慧 实训1-10 Hadoop集群环境搭建- Zepplin数据可视化案例分析_第3页
大数据分析及应用项目教程(Spark SQL)(微课版) 实训单汇 许慧 实训1-10 Hadoop集群环境搭建- Zepplin数据可视化案例分析_第4页
大数据分析及应用项目教程(Spark SQL)(微课版) 实训单汇 许慧 实训1-10 Hadoop集群环境搭建- Zepplin数据可视化案例分析_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实训1Hadoop集群环境搭建一、实训目的与要求1、掌握Hadoop集群环境搭建的环境准备工作,包括配置主机名、防火墙设置、免密登录设置、Java环境设置。2、掌握安装Hadoop的过程、配置文件设置及启动集群的方法。3、会在Hadoop集群运行经典案例wordcount。二、操作训练1、环境准备主机名IP地址角色xxmaster192.168.128.130ResourceManager

SecondaryNameNode

NameNode

DataNode

NodeManagerxxslave01192.168.128.131DataNode

NodeManagerxxslave02192.168.128.132DataNode

NodeManagerxx为姓名缩写从BaseNode链接克隆3个虚拟机(1)配置主机名、IP配置xxmaster主机名、IP操作结果截图+签名配置xxslave01主机名、IP操作结果截图+签名配置xxslave02主机名、IP操作结果截图+签名(2)关闭防火墙关闭xxmaster主机防火墙,并设置开机不自启操作结果截图+签名关闭xxslave01主机防火墙,并设置开机不自启操作结果截图+签名关闭xxslave02主机防火墙,并设置开机不自启操作结果截图+签名(3)关闭SElinux关闭xxmaster主机SElinux操作结果截图+签名关闭xxslave01主机SElinux操作结果截图+签名关闭xxslave02主机SElinux操作结果截图+签名(4)修改/etc/hosts文件修改xxmaster主机/etc/hosts文件操作结果截图+签名修改xxslave01主机/etc/hosts文件操作结果截图+签名修改xxslave02主机/etc/hosts文件操作结果截图+签名(5)配置免密登录在xxmaster创建公钥和私钥操作结果截图+签名拷贝公钥到xxmaster操作结果截图+签名拷贝公钥到xxslave01操作结果截图+签名拷贝公钥到xxslave02操作结果截图+签名(6)配置Java环境配置xxmaster主机Java环境操作结果截图+签名配置xxslave01主机Java环境操作结果截图+签名配置xxslave02主机Java环境操作结果截图+签名2、安装hadoop在xxmaster主机修改hadoop的配置文件配置hadoop-env.sh操作结果截图+签名配置core-site.xml操作结果截图+签名配置hdfs-site.xml操作结果截图+签名配置mapred-site.xml操作结果截图+签名配置yarn-site.xml操作结果截图+签名配置workers操作结果截图+签名分发hadoop文件分发hadoop程序给xxslave01操作结果截图+签名分发hadoop程序给xxslave02操作结果截图+签名格式化HDFS文件系统操作结果截图+签名3、启动Hadoop集群在xxmaster启动Hadoop集群操作结果截图+签名在xxmaster确认操作结果截图+签名在xxslave01确认操作结果截图+签名在xxslave02确认操作结果截图+签名4、网页确认YARN画面操作结果截图+签名HDFS画面操作结果截图+签名5、运行wordcount例子运行操作结果截图+签名查看结果操作结果截图+签名实训2Spark集群部署与使用一、实训目的与要求1、掌握Spark集群安装配置方法。2、会启动关闭Spark集群。3、能使用Spark-shell进行简单编程测试。4、会下载、安装配置Scala工具。5、能启动Scala进行编程测试。二、操作训练1、Spark安装部署(1)使用MobaXterm工具,将软件包上传至master节点的root目录下,然后将其解压到/usr/local目录中,修改名称。操作结果截图+签名(2)在.bash_profile文件中修改环境变量,并使其生效。操作结果截图+签名(3)修改Spark配置文件。1)配置spark-env.sh文件操作结果截图+签名2)配置workers文件操作结果截图+签名(4)复制修改spark启动脚本,避免和hadoop的启动脚本冲突。操作结果截图+签名(5)分发Spark文件1)分发Spark文件到slaver01节点操作结果截图+签名2)分发Spark文件到slaver02节点操作结果截图+签名(6)启动Spark操作结果截图+签名(7)查看各节点服务进程状态操作结果截图+签名(8)Web查看Spark主页情况操作结果截图+签名(9)Spark集群测试1)使用spark-submit工具提交Spark作业操作结果截图+签名2)使用spark-sql,创建qzct数据库,创建名称为bigdata的表,包含字段有classid、classname。操作结果截图+签名3)使用sparkshell,进入paste模式,计算矩形面积。操作结果截图+签名2、Scala安装部署(1)上传压缩包至master节点的/root目录下,并解压修改名称。操作结果截图+签名(2)配置环境变量,添加Scala相关配置操作结果截图+签名(3)使环境变量生效,查看Scala版本操作结果截图+签名(4)启动Scala操作结果截图+签名实训3Scala基础(一)一、实训目的与要求1、掌握Scala数据类型、常量与变量、运算符。2、掌握Scala判断与循环、函数式编程。3、掌握Scala集合操作。二、操作训练1、学生所属班级和男女生数量(1)判断学生所属班级1)进行班级数组的定义。操作结果截图+签名2)定义distinguish函数,利用if…elseif…else语句进行判断识别学号。操作结果截图+签名2、以班级为单位整理学生信息1)创建列表保存数据操作结果截图+签名2)应用groupBy组合器进行分组操作结果截图+签名实训4Scala基础(二)一、实训目的与要求1、了解Scala类和对象、模式匹配的基本概念。2、掌握Scala类和对象、模式匹配的定义及操作方法3、能综合应用Scala基础知识编写应用程序进行数据分析。二、操作训练1、学生特长情况(1)编程实现,获知音乐类特长的学生情况。定义一个object单例对象。在此对象中读取数据文件,并转换成数组。接着遍历数组,搜索包括某类特长的学生数据并打印。操作结果截图+签名2、学生成绩情况分析1)导入依赖包,读取数据文件操作结果截图+签名2)将数据转换为列表list操作结果截图+签名3)创建课程名称列表操作结果截图+签名4)定义函数,计算各门课程的平均成绩和及格人数。操作结果截图+签名5)定义函数,统计每个同学所有课程的总成绩。操作结果截图+签名6)定义函数,用于输出calculation1函数的计算结果。操作结果截图+签名7)综合以上函数与方法,进行调用、统计分析与输出。操作结果截图+签名实训5房产大数据分析与探索一、实训目的与要求1、掌握将数据构建为RDD的方法。2、能使用RDD的各种转换和行动操作对数据集进行处理分析。3、会对处理完成的数据进行存储操作。4、能灵活综合的应用各种RDD操作和各个算子对数据进行分析。二、操作训练1、某房产公司销售人员业绩分析假设现有某房产公司一个部门员工的某年销售业绩数据,请帮助部门经理对其进行统计分析,获取相关信息。相关数据表字段及含义如下表所示。表1人员信息表staff.txt员工编号姓名11020101马文轩11040204黄焱12080403沈睿广10040106王向秋21050309李悦可22010611许辉20100706杨昆明19080303任晓燕18090313廖文敏19111001尚梦菲11012008徐悠11022203刘聪21110301刘浩丽21010404李安安15012511王嘉勋表2上半年业绩表first-half-year.txt员工编号时间房屋销售套数房屋销售金额(万)11020101上半年12340011040204上半年10350012080403上半年14420010040106上半年8501021050309上半年15630022010611上半年6300020100706上半年11480019080303上半年13430018090313上半年15600019111001上半年16590011012008上半年480011022203上半年8230021110301上半年10300021010404上半年18610015012511上半年208000表3下半年业绩表second-half-year.txt员工编号时间房屋销售套数房屋销售金额(万)11020101下半年10370111040204下半年13450012080403下半年10410010040106下半年12401021050309下半年18530022010611下半年14300020100706下半年8420019080303下半年10430018090313下半年8560019111001下半年12551011012008下半年7160011022203下半年10330021110301下半年8300021010404下半年15580015012511下半年177020(1)构建员工业绩RDD。操作结果截图+签名(2)统计部门人员人数。操作结果截图+签名(3)分别统计上/下半年业绩排名,取前三位及最后三位。操作结果截图+签名(4)统计上/下半年业绩超过5000万的人员。操作结果截图+签名(5)统计此部门当年的房屋销售套数。操作结果截图+签名(6)查看全年总业绩最高人员。操作结果截图+签名(7)存储以上统计分析信息。操作结果截图+签名2、某城市近年房产销售状况分析现有一份来自某网站的某城市近年房产销售数据集house-price.csv,包含成交时间、价格、装修情况、区域等信息。具体字段及含义如下表所示。表4某城市近年房产销售数据集字段及含义字段含义url数据链接id用户idtradeTime交易时间totalPrice总价格(万)price单价square面积renovationCondition装修情况elevator是否有电梯fiveYearsProperty是否满五年subway是否有地铁district所属区域communityAverage区域均价(1)每年房产销售量趋势如何?操作结果截图+签名(2)此城市各区域房产销量如何?均价如何?操作结果截图+签名(3)在2018年1月1日的销量有多少?操作结果截图+签名(4)查询2018年1月1日到1月31日之间,满五年房产的销售比例。操作结果截图+签名(5)哪种装修类型的房子销量最高?操作结果截图+签名(6)所售卖的房子中,电梯有无的比例,地铁有无情况?操作结果截图+签名实训6某售房网站的销售房屋情况一、实训目的与要求能灵活综合的应用各种RDD操作和各个算子对数据进行分析。二、操作训练现有一份某售房网站的销售房屋的具体情况,包括用户编号(id),交易时间(tradeTime),房屋总价(totalPrice),房屋单价(price),房屋面积(square),卧室数量(livingRoom),楼层情况(level),具体楼层(floor),建筑时间(constructionTime),梯户比(ladderRatio)。根据本章已学知识,对以下问题进行分析。1、查看数据集,售卖的房屋楼层有高、中、低、底、顶这几种类型。分析此份数据集中各个楼层的房屋销量情况。操作结果截图+签名2、分析所售卖的房屋,卧室是几室的房屋销量最好。操作结果截图+签名3、假设认为房子面积在90平方米以下的为小户型,在90~140平方米的为中户型,140平方米以上的为大户型。分析计算大中小户型房屋销售情况。操作结果截图+签名实训7电商大数据分析与探索一、实训目的与要求1、掌握从不同数据源创建DataFrames的方法。2、掌握操作DataFrame进行数据清洗的基本方法。3、掌握操作DataFrame进行数据转换的基本方法。4、掌握使用SparkSQL语句进行数据分析的方法。5、掌握持久存储数据的方法。6、灵活使用DataFrame数据操作的各种方法进行数据查询。7、会使用聚合、连接等操作对DataFrame数据进行转换。8、能使用聚合函数对DataFrame数据进行分析。二、操作训练1、女装电子商务评论情况分析现有某女装线上商店的一份围绕客户评论的女装电子商务数据集Clothing-Reviews.csv。数据集字段如表1所示。现在商家希望能帮助他们对此份数据进行分析,获得一些建设性意见,帮助商店更好的发展。表1女装电子商务评论数据集字段含义字段含义order_id订单编号clothing_id服装编号age年龄review_text 评论rating评级recommended_IND是否推荐positive_feedback_count积极反馈计数class_name服装分类(1)读取“女装电子商务评论”数据集,加载数据集到RDD,接着利用自定义schema的方式将RDD转换为DataFrame。操作结果截图+签名(2)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。操作结果截图+签名(3)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。操作结果截图+签名(4)使用createOrReplaceTempView()方法对女装电子商务评论DataFrame数据创建本地的临时视图clothing_reviews。操作结果截图+签名(5)查看40岁以下,不同年龄段的客户人数。操作结果截图+签名(6)统计recommended_IND为“不推荐”的订单的rating评分分布。操作结果截图+签名(7)查看评分小于等于3且为“不推荐”的订单的具体评论。操作结果截图+签名(8)查看不同服装分类的不推荐数量。操作结果截图+签名(9)获得不同服装编号clothing_id的五星好评数量,并且降序排序。操作结果截图+签名(10)分析“rating”评分字段和“positive_feedback_count”积极反馈数量字段之间的相关性。操作结果截图+签名(11)找到服装分类出现概率大于40%的类别,即支持级别为0.4。操作结果截图+签名(12)对age列计算近似分位数,指定的分位数概率为0.25、0.5和0.75(注意:0是最小值,1是最大值,0.5是中值median)。操作结果截图+签名(13)探索年龄age和评分rating等级间是否有相关性。操作结果截图+签名(14)利用save()函数保存数据。操作结果截图+签名(15)通过df.rdd.saveAsTextFile("file:///")转化成rdd,将数据保存输出到HDFS文件系统的/Chapter5目录下,并命名为reviews_two.txt操作结果截图+签名2、在线销售订单数据分析现有两份在线销售数据集orders.csv和order-details.csv,是关于不同地区、多种商品和电子产品等的销售情况。数据字段及说明如下表所示。表2orders.csv订单信息数据集字段说明字段含义order_id订单编号order_date订单日期cust_id客户编号full_name客户名字city城市表3order-details.csv订单详细信息数据集字段说明字段含义order_id订单编号sku商品的编码qty_ordered已订购数量price商品价格category类别discount_percent折扣百分比现在希望通过数据分析了解以下情况:(1)此数据集中每个客户的下单数量是多少?操作结果截图+签名(2)每个城市的订单有多少?操作结果截图+签名(3)每个客户的消费总额是多少?操作结果截图+签名(4)客户的平均订单消费额是多少?操作结果截图+签名实训8某化妆品在线商店的客户行为数据分析一、实训目的与要求1、综合使用SparkSQL语句进行数据分析。2、灵活使用DataFrame数据操作的各种方法进行数据分析。二、操作训练1、现有一份某化妆品在线商店的客户行为数据集User-behavior.csv(数据文件在本章数据文件夹中),数据集中的字段及含义如下表所示。请根据以下需求,使用SparkSQL相关知识对数据集进行操作分析。字段含义event_time客户行为时间event_type客户行为类型product_id化妆产品IDbrand化妆产品品牌price产品价格user_id客户ID(1)请查看数据集数,并查看前5行数据情况。操作结果截图+签名(2)在这份数据集中,有多少客户对此线上商店进行了浏览?操作结果截图+签名(3)在这份数据集的时间段中,所有商品属于多少个品牌分类?操作结果截图+签名(4)这段时间中,每天卖出了多少商品?操作结果截图+签名(5)请根据客户行为数据,统计这段时间客户“view(浏览)”、“cart(加入购物车)”、“remove_from_cart(从购物车删除)”、“purchase(购买)”这几种行为的占比。操作结果截图+签名(6)除了无品牌以外,哪种品牌的化妆品被购买的数量最多?操作结果截图+签名2、利用题1的数据,使用SparkSQL中DataFrame的各种数据操作方法对数据进行查询分析,完成以下任务。(1)了解各个产品的销售额情况,并查看销售额最高的产品。操作结果截图+签名(2)获取被浏览次数最多的产品ID。操作结果截图+签名(3)查看每个品牌的销售额情况,并查看销售额最高的化妆品品牌。操作结果截图+签名实训9Zepplin安装部署与使用一、实训目的与要求1、会下载、安装、配置Zepplin可视化工具。2、会在Zepplin中配置Spark解释器。3、掌握在Zepplin中使用SparkSQL注册视图4、能使用Zepplin执行SparkSQL命令实现数据可视化。二、操作训练1、Zepplin安装部署(1)将Zepplin安装包上传到master节点的/root目录下。操作结果截图+签名(2)解压并重命名目录。操作结果截图+签名(3)修改配置文件zeppelin-env.sh。操作结果截图+签名(4)启动Zeppelin操作结果截图+签名(5)Zeppelin中的Spark解释器配置操作结果截图+签名(6)测试自带的BasicFeature(Spark)案例操作结果截图+签名(7)测试运行自编代码操作结果截图+签名2、女装电子商务评论情况数据可视化(1)在Zeppelin中创建一个新的notebook,并命名为“clothing_reviews”。操作结果截图+签名(2)读取HDFS文件系统中的女装电子商务评论情况数据CSV文件,自定义schema并转换为DataFrame。操作结果截图+签名(3)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。操作结果截图+签名(4)对“Clothing-Reviews.csv

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论