Spark大数据分析实务 教案 项目5 基于Spark SQL实现广告流量检测数据预处理 教案_第1页
Spark大数据分析实务 教案 项目5 基于Spark SQL实现广告流量检测数据预处理 教案_第2页
Spark大数据分析实务 教案 项目5 基于Spark SQL实现广告流量检测数据预处理 教案_第3页
Spark大数据分析实务 教案 项目5 基于Spark SQL实现广告流量检测数据预处理 教案_第4页
Spark大数据分析实务 教案 项目5 基于Spark SQL实现广告流量检测数据预处理 教案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目5基于SparkSQL实现广告流量检测数据预处理教案课程名称:Spark大数据技术实务课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论32学时,实验32学时)总学分:4.0学分本章学时:12学时材料清单《Spark大数据技术实务》教材。配套PPT。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标首先介绍DataFrame行列表增、删操作,通过DataFrame对象新增或删除得到新的DataFrame;接着介绍创建与使用用户自定义函数,可以根据特定的需求编写和调用用户自定义函数;然后介绍DataFrame表联合操作,并分别举例阐述联合操作的区别;最后介绍DataFrame行列表输出操作相关知识。基于知识介绍,对广告流量检测数据进行数据预处理,在删除缺失值后构建关键特征,将构建出来的特征合并输出保存至Hive表中。本项目的操作可为项目6介绍的模型的构建与评估提供数据特征服务。基本要求掌握DataFrame行列表的增、删操作方法。掌握用户自定义函数的创建与使用方法。掌握多种DataFrame表联合操作的方法。掌握DataFrame保存数据的多种方式。能够处理DataFrame中的缺失值。能够实现DataFrame表联合操作。能够创建和使用用户自定义函数。能够按照不同需求采用不同方式保存DataFrame数据。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。DataFrame行列表除了查询操作,还有什么操作?能否将两个DataFrame合并到一起操作?如果Spark提供的函数不能满足统计分析需求,要通过什么方法实现其需求?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。DataFrame表联合的方法有哪些?有何异同?如何创建用户自定义函数?创建后又该如何使用?要想保存处理好的DataFrame,有哪些方法可以实现?可以以什么形式保存?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。Spark提供的可操作对象除了DataFrame,还有什么?按照数据分析流程,数据预处理后是什么操作?主要知识点、重点与难点主要知识点新增数据列。删除数据列。创建与使用用户自定义函数。5种join()方法。根据特定字段进行表联合操作。指定类型进行表联合操作。使用Column类型进行表联合操作。保存为文件。保存为持久化的表。使用drop语句删除数据。自定义函数构建关键特征。保存DataFrame数据至Hive表中。重点DataFrame行列表增、删、输出操作。DataFrame表联合操作。创建与使用用户自定义函数。难点创建与使用用户自定义函数。教学过程设计理论教学过程SparkSQL简介。配置SparkSQLCLI。SparkSQL与Shell交互。通过结构化数据文件创建DataFrame。通过外部数据库创建DataFrame。通过RDD创建DataFrame。通过Hive表创建DataFrame。printSchema():输出数据模式。show():查看数据。first(head(take(takeAsList():获取若干行记录。条件查询。查询指定字段的数据信息。查询指定行数的数据。排序查询。分组查询。实践教学过程新增数据列。删除数据列。创建与使用用户自定义函数。根据特定字段进行表联合操作。指定类型进行表联合操作。使用Column类型进行表联合操作。保存为文件。保存为持久化的表。使用drop语句删除数据。划分时间区间。构建关键特征并保存至Hive表中。保存DataFrame数据至Hive表中。教材与参考资料教材郑浩森,张荣.Spark大数据技术分析[M].北京:人民邮电出版社.2024.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论