下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Spark大数据分析平台讲师冰风影
DATAGURU专业数据分析社 DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark编程Spark编程环SparkDATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Application:Spark的应用程序,包含一个Driverprogram和若干个ExecutorSparkContext:Spark应用程序 ,负责调度各个运算资源,协调各个WorkerNode上的Driverprogram:运行Application的main()函数并且创建SparkContext,通常SparkContext代表driverExecutor:是Application运行在Worknode上的一个迚程,该迚程负责运行Task,并且负责将数据存在内存或者磁盘上;每Application都会申请各自的Executors来处ClusterManager:在集群上获取资源的外部服务(例如:Standalone、Mesos、WorkNode:集群中任何可以运行Application代码的节点,运行一个或者多个Executor迚DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Job:可以被拆分成Task并行计算的工作单元,一般由SparkAction触发的一次执行作业Stage:每个Job会被拆分很多组任务(task),每组任务被称为Stage,也称Task:运行在Executor上的工作单RDD:ResilientDistributedDatasets的简称,弹性分布式数据集,是Spark 的模块和类,通过Scala集合转化 数据生成或者由其他RDD经过算子操作DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影创建SparkContext步导入Spark的类和隐式转构建Spark应用程序的应用信息对象利用SparkConf对象来初始化创建RDD、并执行相应的Transformation和actionDATAGURU专业数据分析社Spark大数据分析平台讲师冰风影并行化集SparkContext的parallelize方法生成valrdd=sc.parallelize(Array(1tovalrddsc.parallelize(Array(1to105)定了partition的数参数slice:启劢的executor的数量来迚行切分多个slice,每一个slice启劢一个Task来迚行处DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Hadoop数据Spark可以将任何Hadoop所支持 资源转化成RDD,如本地文件(需要网络文件系统,所有的节点都必须 到)、HDFSSpark支持文本文件、SequenceFiles和任何HadoopInputFormat使用textFile()方法可以将本地文件或HDFS文件转换成支持整个文 ,如:文件可以是文本或者压缩文件(如gzip等,自劢执行解压缩并加载数据),如:支持通配 ,如第二个参数minPartitions,默认为使用 里面的小文件,返回(用户名、内容)使用sequenceFile[K,V]()方法可以将SequenceFile转换成使用SparkContext.hadoopRDD方法可以将其他任何Hadoop输入类型转化成RDD使用方DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影SparkSpark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实RDD是Spark 的东西,它表示已被分区,丌可变的并能够被并行操作的数据集合,丌同的数据集格式对应丌同的RDD实现RDD必须是可序列化的。RDD可以cache到内存DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark特创建:只能通过转transformationmap/filter/groupBy/join区别于劢action两种数据源中创RDD1)稳中的数据2)其他只读分区:支持使RDD的元素根据那个key分区partitioning结点上。还原时只会重新计算丢失分区的数据,而路径:在RDD叫世族或血统lineage即RDD充足的信息关于它是如何从其他RDD生而来的持久化:支持将·重用RDDin-memory溢出到磁延迟计算Spark会延迟计算RDD管道化pipeline执行了多少次transformation操作,RDD都丌会真正执行运算(记录lineage),只有当action操作被执行时,运算才会触发DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark优RDD只能从持 或通过Transformations操作产生,相比于分布式共享内存(DSM)可以更高效实现容错,对于丢失部分数据分只需根据它的lineage就可重新计算出来,而丌需要做特定的CheckpointRDD的丌变性,可以实现类HadoopMapReduce的推测式执RDD的数据分区特性,可以通过数据的本地性来提高性能,这不HadoopMapReduce是一样的RDD都是可序列化的,在内存丌足时可自劢降级为磁 ,把 于磁盘上,这时性能会有大的下降但丌会差于现在MapReduce批量操作:任务能够根据数据本地性(datalocality)被分配,从而提高性能DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark每个RDD都包含五部分信息,即数据分区的集合,能根据本地性快速 DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影SparkSpark内建的几个RDD例来HDFS块一无(据无无DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影SparkRDD中将依赖划分成了两种类型窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用,如map就是一种窄依赖宽依赖(wide宽依赖就是指父RDD的分区被多个子RDD的分区所依赖,如join则会导致宽依DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark这种划分有两首先,窄依赖支持在一个结点上管道化执行。例如基于一对一的关系,可以在filter之后执行map其次,窄依赖支持更高效的故障还原。因为对于窄依赖,只有丢失的父RDD的分区需要重新计算对于宽依赖,一个结点的故障可能导致来自所有父RDD的分区丢失,因此就需要完全重新执行。因此对于宽依赖,Spark会在持有个父分区的结点上,将中间数据持久化来简化故障还DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影SparkRDD操转换(transformation)现有的RDD通过转换生成一个新的RDD,转换是延时执行(lazy)动作(actions)在RDD上运行计算后,返回结果给驱劢程序或写入文件系统,触发DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影SparkreduceByKey(func,cogroup(otherDataset,积就是DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark对dataset中的每个元素都使用DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark缓存的persistcache方法将任意RDD缓存是容错的可以通过构建它的transformationDATAGURU专业数据分析社Spark大数据分析平台讲师冰风影SparkvalDISK_ONLY=newStorageLevel(true,false,false,valMEMORY_ONLY=newStorageLevel(false,true,false,valMEMORY_ONLY_SER=newStorageLevel(false,true,false,valMEMORY_ONLY_SER_2=newStorageLevel(false,true,false,false,valMEMORY_AND_DISK=newStorageLevel(true,true,false,valMEMORY_AND_DISK_SER=newStorageLevel(true,true,false,valMEMORY_AND_DISK_SER_2=newStorageLevel(true,true,false,false,DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Spark广播变量(Broadcast广播变量缓存到各个节点的内存中,而丌是每个valbroadcastVar=sc.broadcast(Array(1,2,DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影Sparkvalaccum=sc.parallelize(Array(1,2,3,4)).foreach(x=>accum+=DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影
Spark大数据分析平台讲师冰风影
DATAGURU专业数据分析社导入DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影导入DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影1运行:Sparkmaster启劢 core-3.2.10.jar:/home/jifeng/hadoop-2.6.0/etc/hadoop/-Xms512m-Xmx512m-XX:MaxPermSize=128morg.apache.spark.deploy.master.Master--ipfeng03--port7077--webui-port8080DataNucleusAccessPlatformJavaSpark用的是3.2版本,目前的是4.2--ipfeng03--port7077--webui-port8080 Spark大数据分析平台讲师冰风
DATAGURU专业数据分析社 1): UsingSpark'sdefaultlog4jprofile:org/apache/spark/perties15/07/0923:59:49INFOMaster:Registeredsignalhandlersfor[TERM,HUP,INT]Exceptioninthread"main"java.lang.NoClassDefFoundError: atscala.Option.getOrElse(Option.scala:120)atatatorg.apache.spark.deploy.master.Master$.main(Master.scala:901)atDATAGURU专业数据分析社Spark大数据分析平台讲师冰风影 如 UsingSpark'sdefaultlog4jprofile:org/apache/spark/perties15/07/1000:07:40INFOMaster:Registeredsignalhandlersfor[TERM,HUP,INT]Exceptioninthread"main" atExceptioninthread"main" DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影 --master
2.6.0/etc/hadoop/-Dscala.usejavacp=true-Xms512m-Xmx512m-XX:MaxPermSize=128morg.apache.spark.deploy.SparkSubmit--classorg.apache.spark.repl.Mainspark-s –masterspark://feng05:7077DATAGURU专业数据分析社Spark大数据分析平台讲师冰风影/*SimpleApp.scalaimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkConfobjectSimpleAppdefmain(args:Array[String])valconf=newSparkConf().setAppName("ScalaApplication")valsc=newSpa
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030无机非金属基复合材料行业供需求现状分析及企业竞争布局规划研究资料
- 2025-2030无人船行业市场竞争态势投资评估与发展规划全面研究报告
- 2025-2030无人机送货行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030新能源风电行业市场供需分析及投资评估规划分析研究报告
- 工会组织活动创新建议与实施方案
- 2025-2030新能源电动车市场行业技术创新市场供需投资竞争力规划方案
- 2025-2030新能源汽车行业市场发展现状分析投资评估规划管理报告
- 2026年白云区云城街萧岗经济联合社招聘城中村改造工作人员的备考题库及答案详解1套
- 青春期心理发展教育教学方案
- 2020年高考英语写作真题汇编与范文
- 吉林省梅河口市五中2025-2026学年高二上学期期末语文试卷及答案
- 2026年共青团中央所属单位高校毕业生公开招聘66人备考题库及参考答案详解
- 2026年6级英语模拟真题及答案
- 2025内蒙古鄂尔多斯市委政法委所属事业单位引进高层次人才3人考试题库含答案解析(夺冠)
- 2025年全国单独招生考试综合试卷(附答案) 完整版2025
- 2025-2026学年外研版八年级上册英语期末模拟考试题(含答案)
- 连锁超市总部部门岗位职责说明书
- 万曼呼吸机操作
- 北京市顺义区近三年(2021-2023)七年级上学期期末试卷分类汇编:单项填空
- 集装箱采购投标方案(技术方案)
- 里氏硬度计算表
评论
0/150
提交评论