10.4 Spark数据处理模型RDD_第1页
10.4 Spark数据处理模型RDD_第2页
10.4 Spark数据处理模型RDD_第3页
10.4 Spark数据处理模型RDD_第4页
10.4 Spark数据处理模型RDD_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Spark数据处理模型RDDRDD概念与特点RDD(ResilientDistributedDataset,弹性分布式数据集)是Spark中最基本的数据处理模型。RDD是一种有容错机制的特殊数据集合,可以分布在集群的节点上,以函数式操作集合的方式进行各种并行操作。RDD概念与特点Spark中,对数据的操作主要包括创建RDD、转换已有RDD和调用RDD进行求值。RDD包括两种类型的操作,即Transformation操作和Action操作。RDD采用惰性求值,只有在执行Action操作时,才会真正地进行运算。每次调用Action操作时,整个RDD都会从头开始计算。RDD分区分区的概念RDD分区是指RDD内部的数据集合在逻辑上和物理上被划分成多个子集合。这样的每个子集合被称为分区,即数据集的一个逻辑块。RDD分区的作用RDD分区主要有两方面的作用:一方面是增加并行度,另一方面是减少通信开销。RDD概念与特点分区的原则分区的个数会对Spark性能有影响。RDD的分区原则是分区的个数尽可能等于集群中的CPU核心(Core)数目,以实现数据的并行计算。分区的原则分区的个数会对Spark性能有影响。RDD的分区原则是分区的个数尽可能等于集群中的CPU核心(Core)数目,以实现数据的并行计算。RDD基本操作Spark支持两种RDD基本操作,即Transformation(转换)和Action(行动)。Transformation操作是指将一个RDD通过一种规则映射为另一个RDD,该操作由RDD的转换函数来实现,即懒操作函数,这些函数不触发执行,会返回另一个RDD。Action操作则主要是对RDD进行最后的操作,如遍历、Reduce、保存到文件等,并且可以返回结果给Driver程序。RDD基本操作RDD基本操作的执行过程Transformation操作Transformation操作主要用于根据已有RDD创建新的RDD,提供给下一个“转换”算子使用。Action操作Action操作用于执行计算并按指定的方式输出结果。RDD基本操作RDD基本操作范例Spark与ScalaScala源自Java,构建在JVM之上。Scala与Java兼容、支持互相调用。Spark采用Scala来设计,并且基于JVM,能够更快地融入大数据处理Hadoop生态圈。Scala的很多特性与Spa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论