


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实训7电商大数据分析与探索一、实训目的与要求1、掌握从不同数据源创建DataFrames的方法。2、掌握操作DataFrame进行数据清洗的基本方法。3、掌握操作DataFrame进行数据转换的基本方法。4、掌握使用SparkSQL语句进行数据分析的方法。5、掌握持久存储数据的方法。6、灵活使用DataFrame数据操作的各种方法进行数据查询。7、会使用聚合、连接等操作对DataFrame数据进行转换。8、能使用聚合函数对DataFrame数据进行分析。二、操作训练1、女装电子商务评论情况分析现有某女装线上商店的一份围绕客户评论的女装电子商务数据集Clothing-Reviews.csv。数据集字段如表1所示。现在商家希望能帮助他们对此份数据进行分析,获得一些建设性意见,帮助商店更好的发展。表1女装电子商务评论数据集字段含义字段含义order_id订单编号clothing_id服装编号age年龄review_text 评论rating评级recommended_IND是否推荐positive_feedback_count积极反馈计数class_name服装分类(1)读取“女装电子商务评论”数据集,加载数据集到RDD,接着利用自定义schema的方式将RDD转换为DataFrame。操作结果截图+签名(2)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据清洗,删除重复的数据,对有空缺数据的行进行删除。操作结果截图+签名(3)对“Clothing-Reviews.csv”女装电子商务评论数据集进行数据转换,将recommended_IND(是否推荐)列中的1替换为推荐,0替换为不推荐。操作结果截图+签名(4)使用createOrReplaceTempView()方法对女装电子商务评论DataFrame数据创建本地的临时视图clothing_reviews。操作结果截图+签名(5)查看40岁以下,不同年龄段的客户人数。操作结果截图+签名(6)统计recommended_IND为“不推荐”的订单的rating评分分布。操作结果截图+签名(7)查看评分小于等于3且为“不推荐”的订单的具体评论。操作结果截图+签名(8)查看不同服装分类的不推荐数量。操作结果截图+签名(9)获得不同服装编号clothing_id的五星好评数量,并且降序排序。操作结果截图+签名(10)分析“rating”评分字段和“positive_feedback_count”积极反馈数量字段之间的相关性。操作结果截图+签名(11)找到服装分类出现概率大于40%的类别,即支持级别为0.4。操作结果截图+签名(12)对age列计算近似分位数,指定的分位数概率为0.25、0.5和0.75(注意:0是最小值,1是最大值,0.5是中值median)。操作结果截图+签名(13)探索年龄age和评分rating等级间是否有相关性。操作结果截图+签名(14)利用save()函数保存数据。操作结果截图+签名(15)通过df.rdd.saveAsTextFile("file:///")转化成rdd,将数据保存输出到HDFS文件系统的/Chapter5目录下,并命名为reviews_two.txt操作结果截图+签名2、在线销售订单数据分析现有两份在线销售数据集orders.csv和order-details.csv,是关于不同地区、多种商品和电子产品等的销售情况。数据字段及说明如下表所示。表2orders.csv订单信息数据集字段说明字段含义order_id订单编号order_date订单日期cust_id客户编号full_name客户名字city城市表3order-details.csv订单详细信息数据集字段说明字段含义order_id订单编号sku商品的编码qty_ordered已订购数量price商品价格category类别discount_percent折扣百分比现在希望通过数据分析了解以下情况:(1)此数据集中每个客户的下单数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国道路标线清除设备行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国连翘行业市场深度调研及发展前景与投资研究报告
- 2025-2030中国轻柔卸妆乳行业市场发展分析及前景趋势与投资研究报告
- 2025-2030中国轮椅(电动和手动)行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国西服行业市场发展趋势与前景展望战略研究报告
- Module 7Unit 3 Language practice教学设计-2023-2024学年外研版英语七年级上册
- 2025-2030中国蛋糕粉行业市场发展趋势与前景展望战略研究报告
- 测绘上半年工作总结
- 2025-2030中国茶叶面膜行业市场现状分析及竞争格局与投资发展研究报告
- 地产咨询公司vs酒店管理公司战略合作协议
- 航天航空科普知识竞赛考试题库及答案(共400多题)
- 第章脂肪酸的分解代谢
- 2022年宁夏粮食和物资储备局所属事业单位考试真题及答案
- 工作秘密事项清单范文(6篇)
- 川09J139 居住建筑油烟气集中排放建筑构造(DBJT20-65)
- 浙江工商大学论文答辩汇报通用ppt模板
- 2023年北京市高中力学竞赛决赛试题
- C++反汇编与逆向分析技术揭秘(第2版)
- 2023届湖北省武汉市高三毕业生4月调考英语试卷及参考答案
- 肝移植并发症胆道并发症
- SMT失效模式分析PFMEA
评论
0/150
提交评论