Spark大数据分析实务 课件 项目5 基于Spark SQL实现广告流量检测数据预处理-技能拓展+测试题V1.0_第1页
Spark大数据分析实务 课件 项目5 基于Spark SQL实现广告流量检测数据预处理-技能拓展+测试题V1.0_第2页
Spark大数据分析实务 课件 项目5 基于Spark SQL实现广告流量检测数据预处理-技能拓展+测试题V1.0_第3页
Spark大数据分析实务 课件 项目5 基于Spark SQL实现广告流量检测数据预处理-技能拓展+测试题V1.0_第4页
Spark大数据分析实务 课件 项目5 基于Spark SQL实现广告流量检测数据预处理-技能拓展+测试题V1.0_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SparkSQL实现广告流量检测数据预处理技能拓展+测试题技能拓展Datasets是一个特定域的强类型的不可变数据集,每个Datasets都有一个非类型化视图DataFrame(DataFameDataSet[Row]的一种表示形式)。DataFrame可以通过调用as(Encoder)方法转换Datasets,而Datasets则可以通过调用toDF()方法转换成DataFrame,两者之间可以互相灵活转换。操作Datasets可以像操作RDD一样使用各种转换(Transformation)操作并行操作,转换算子采用“惰性”执行方式。技能拓展当调用Action算子时才会触发真正的计算执行创建Datasets需要显式提供Encoder将对象序列化为二进制形式进行存储,而不是使用Java序列化或Kryo序列化方式Datasets使用专门的编码器序列化对象在网络间传输处编码器动态生成代码,可以在编译时检查类型,不需要将对象反序列化就可以进行过滤、排序等操作。避免了缓存(Cache)过程中频繁的序列化和反序列化,有效减少了内存的使用和Java对象频繁垃圾回收(GarbageCollection,GC)的开销。技能拓展Datasets创建的方式有如下两种方式。通过caseclass创建Datasets,创建结果如下图。技能拓展DataFrame调用as[Encoder]方法数创建Datasets,创建结果如下图。知识测试(1)下列操作中,DataFrame删除字段列操作的是()A.drop()B.withColumn()C.select()D.join()(2)DataFrame中drop()方法后返回值的类型是()。A.ArrayB.RowC.DataFrameD.Column知识测试(3)下列操作中,DataFrame新增字段列操作的是()A.drop()B.withColumn()C.select()D.join()(4)【多选题】Spark支持将现有的Hive中的用户自定义函数集成至SparkSQL中使用,其中现有的Hive中的用户自定义函数类别包括()A.UDFsB.UDAFsC.UDTFsD.FDAFs知识测试(5)【多选题】下列表述属于内连接的代码是()A.df.join(df,Seq("city","state"),"inner").showB.df.join(df,Seq("city","state")).showC.df.join(df,Seq("city","state"),"left").showD.df.join(df,Seq("city","state"),"right").show(6)【多选题】下列表述说法正确的是()。A.format()方法指定输出文件格式的方法,如format("json")输出JSON文件格式。B.mode()方法用于指定数据保存的模式,可以接收的参数有Overwrite、Append、Ignore和ErrorIfExists。C.mode("Overwrite")表示在目标目录下追加数据。D.options()方法用于设置一些额外的选项,如压缩级别、编码方式等。知识测试(7)下列选项中,能够正确的将的DataFrame保存到people.json文件中的语句是()。A.df.write.json("people.json")B.df.json("people.json")C.df.write.format("csv").save("people.json")D.df.write.csv("people.json")(8)下列选项中,可将DataFrame输出至Hive表的方法是()。A.saveAsStreamingFiles()B.saveAsTable()C.saveAsTextFiles()D.saveAsObjectFiles()知识测试(9)【多选题】下列关于用户自定义函数说法正确的是()。A.Spark支持用户自定义函数。B.Spark支持将Hive中的用户自定义函数集成至SparkSQL中调用。C.用户定义好所需函数后即可在SparkSQL中直接使用。D.注册函数的操作有两种。(10)【多选题】下列方法中可注册用户自定义函数的是()。A.org.apache.spark.udf.registerB.spark.udf.registerC.spark.udfD.org.apache.spark.sql.functions.udf技能测试1.测试要点读取Hive中的表并创建DataFrame。掌握DataFrame表的联合操作得到新的DataFrame。掌握使用DataFrame方法对数据信息进行统计。技能测试2.需求说明某公司的人力资源管理系统内容组织结构如下图。技能测试当前人力资源系统的数据包含以下几个部分。职工基本信息:存放职工的基本信息,职工基本信息字段说明如下表。字段字段说明name职工姓名id职工IDsex职工性别age职工年龄year入职年份position职位depID所在部门ID技能测试部门基本信息:存放部门信息,部门基本信息字段说明如下表。字段字段说明department部门名称depID编号技能测试职工考勤信息:存放职工的考勤信息,职工考勤信息字段说明如下表。字段字段说明year年month月overtime加班次数latetime迟到次数absenteeism旷工次数leaveearlytime早退次数技能测试职工工资清单:存放职工每月的工资清单信息,职工工资清单如下表。为了更好地了解员工的情况,优化人力资源管理,提高组织效率和人效,通过SparkSQL技术对人力资源系统的数据分析,实现对各个部门每年职工薪资的总数的查询、部门职工的薪资Top10的查询、部门职工平均工资的排名、各部门每年职工薪资的总数查询分析。字段字段说明id员工IDsalary薪资,单位:元技能测试3.实现步骤对人力资源系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论