Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析-技能拓展+测试题V1.0_第1页
Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析-技能拓展+测试题V1.0_第2页
Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析-技能拓展+测试题V1.0_第3页
Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析-技能拓展+测试题V1.0_第4页
Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析-技能拓展+测试题V1.0_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于SparkSQL实现广告流量检测数据探索分析技能拓展+测试题技能拓展深度学习、勇于实践是增强本领的重要途径,通过多方面深度学习来不断更新知识、更新技能,进而提高个人水平。DataFrame是一种以RDD为基础的带有Schema元信息的分布式数据集。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在背后中,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。RDD的创建Spark提供了两种创建RDD的方式:读取外部数据集,以及在驱动器程序中对一个集合进行并行化。创建RDD最简单的方式就是将程序中一个已有的集合传给SparkContext的parallelize()方法,可以在Shell中快速创建出RDD,然后对RDD进行操作。不过,需要注意的是,除了开发原型和测试时,此方式用得并不多,原因是需要将整个数据集先放在一台机器的内存中。RDD的操作RDD支持两种操作:转换操作和行动操作。RDD的转化操作是返回一个新的RDD的操作,如map()和filter()方法,而行动操作则是向驱动器程序返回结果或将结果写入外部系统的操作,会触发实际的计算,如count()和first()方法。转换操作RDD的转换操作是返回新RDD的操作。转换出来的RDD是惰性求值的,只有在行动操作中用到RDD时才会被计算。这样的设计使得Spark可以更高效地执行计算任务,避免了不必要的计算和数据移动。假定筛选电影评论数据电影类型包含Comedy的电影,可以使用转化操作filter()。RDD的操作行动操作行动操作是第二种类型的RDD操作,会将最终求得的结果返回到驱动器程序,或写入外部存储系统中。由于行动操作需要生成实际的输出,会强制执行求值必须用到的RDD的转化操作。如想输出数据信息,需要使用两个行动操作来实现,用count()来返回计数结果,用take()来收集RDD中的一些元素,其输出结果如图所示。知识测试(1)下列关于SparkSQL框架的描述错误的是()。A.SparkSQL可以从各种结构化数据源(如JSON、Hive、Parquet等)中读取数据。B.SparkSQL提供了一种特殊的RDD,叫作DataFrame。C.SparkSQL不仅支持通过spark-shell在Spark程序内使用SQL语句进行数据查询。D.SparkSQL是一个用于处理结构化数据的框架,可被视为一个分布式的SQL查询引擎,提供了一个抽象的可编程数据模型RDD。(2)【多选题】下列关于DataFrame对象说法正确的是()。A.DataFrame可以通过结构化数据文件、外部数据库、Spark计算过程中生成的RDD、Hive中的表等数据源进行创建B.加载JSON文件创建DataFrame,可以使用format()方法和load()方法加载。C.SparkSQL可以通过load()方法将HDFS上的结构化数据文件转换为DataFrame。D.将RDD转为DataFrame只能利用反射机制推断RDD模式,再创建DataFrame知识测试(3)下列选项中,与SparkSQL交互的主要入口点的是()。A.SparkSessionB.HiveContextC.SQLContextD.SparkContext(4)【多选题】Spark编程的上下文是()。A.SparkContextB.SparkSessionC.SQLSessionD.SparkSQLContext知识测试(5)SparkSQL可以处理的数据源包括()。A.Hive表B.数据文件、Hive表C.数据文件、Hive表、RDDD.数据文件、Hive表、RDD、外部数据库(6)下列操作中,不是DataFrame的常用操作()。A.printSchema()B.select()C.filter()D.sendto()知识测试(7)下列选项中常用于打印DataFrame数据模式的是()。A.printSchema()B.show()C.first()D.collect()(8)SparkDataFrame中()方法可以获取若干行数据。A.first()B.head()C.take()D.collect()知识测试(9)【多选题】SparkDataFrame中()方法可以返回一个Array对象。A.collect()B.take()C.takeAsList()D.collectAsList()(10)Spark中DataFrame的()方法是进行查询前n行记录。A.where()B.limit()C.sort()D.apply()技能测试测试1使用DataFrame查询操作分析员工基本信息测试要点通过测试掌握SparkSQL的基本编程方法。熟悉RDD到DataFrame的转化方法。技能测试需求说明某公司数据库中有一份记录了员工基本信息的数据,导出文件为employee.csv,员工基本信息的数据字段说明如表所示,主要包括了部门、员工id、员工姓名、雇用日期及工资5个字段。通过对数据进行探索分析,分析每个部门的平均工资情况。字段字段说明dname部门名称eid员工idename员工姓名hireDate雇用日期salary工资技能测试实现步骤读取文件并加载成employeeRDD。生成一个StructType对象,包含了表的模式信息。对employeeRDD中的每一行元素都进行解析。将employeeRDD转化为DataFrame对象employeeDF。将employeeDF注册为临时表供查询使用。使用SQL语句统计各个部门平均工资。技能测试测试2使用DataFrame查询操作分析图书信息测试要点掌握用结构化数据源创建DataFrame的方法。熟悉利用DataFrame注册成为临时表,通过SQL语句查询数据。技能测试需求说明书籍是人类进步的阶梯,为了助力建设全民终身学习的学习型社会、学习型大国,我们必须坚持发展素质教育,让每个人都能够在阅读中不断成长和进步。某出版社数据库有一份记录了图书信息的相关数据,导出文件为book.txt。技能测试图书信息的相关数据字段说明如表所示,主要包括序号、书名、评分、价格、出版社和图书链接5个字段。为了实现对出版社的图书量和书籍评分的统计,通过SparkSQL相关技术,实现对出版社的图书量及书籍评分进行统计。字段字段说明id序号idboo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论