大数据技术之Spark

上传人：无*** IP属地：河北上传时间：2025-04-09 格式：PDF 页数：178 大小：22.68MB 积分：12 举报 版权申诉

已阅读5页，还剩173页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据技术之Spark

第1部分Spark基础

第1章Spark概述

本章介绍Spark的一些基本认识.

SpAPcACiHrEKT<

1.1什么是Spark

Spark是一个快速（基于内存），通用，可扩展的集群计算引擎

并且Spark目前已经成为Apache最活跃的开源项目，有超过1000个活跃的贡献者.

1.1.1历史

1.2009年，Spark诞生于UCBerkeley（加州大学伯克利分校,CAL）的

AMP实验室，项目采用Scala编程语言编写.

2.2010年,Spark正式对外开源

3.2013年6月，进入Apache孵化器

4.2014年，成为Apache的顶级项目.

5.目前最新的版本是2.4.4（2.1.1）

参考：/history.html

1.2Spark特点

1.2.1快速

与Hadoop的MapReduce相比，Spark基于内存的运算是MapReduce的100倍.基

于硬盘的运算也要快10倍以上.

Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流

Speed

Runworkloads100xfaster,■Hadoop

■Spark

ApacheSparkachieveshighperformanceforbothbatchandstreaming

data,usingastate-of-the-artDAGscheduler,aqueryoptimizer,anda

physicalexecutionengine.

LogisticregressioninHadoopandSpark

1.2.2易用

Spark支持Scala,Java,Python,R和SQL脚本，并提供了超过80种高性能的算法，

非常容易创建并行App

而且Spark支持交互式的Python和Scala的shell,这意味着可以非常方便地在这些

shell中使用Spark集群来验证解决问题的方法，而不是像以前一样需要打包，上传集群，

验证等.这对于原型开发非常重要.

EaSeOfUsedf=spark.read.jsonciogs.json")

df.where("age>21")

WriteapplicationsquicklyinJava,Scala,Python,R,.seiect(uname.first1').show()

andSQL.Spark'sPythonDataFrameAPI

ReadJSONfileswithautomaticschemainference

Sparkoffersover80high-leveloperatorsthatmakeiteasytobuildparallel

apps.AndyoucanuseitinteractivelyfromtheScala,Python,R,andSQL

shells.

1.2.3通用

Spark结合了SQL,Streaming和复杂分析.

Spark提供了大量的类库，包括SQL和DataFrames,机器学习(MLlib),图计算

(GraphicX),实时流处理(SparkStreaming).

可以把这些类库无缝的柔和在一个App中.

减少了开发和维护的人力成本以及部署平台的物力成本.

Generality

CombineSQL,streaming,andcomplexanalytics.SparkSparkMLlibGraphX

SQLStreaming(machine(graph)

SparkpowersastackoflibrariesincludingSQLandDataFrames,MUibforlearning)

machinelearning,GraphX,andSparkStreaming.Youcancombinethese

librariesseamlesslyinthesameapplication.ApacheSpark

1.2.4可融合性

Spark可以非常方便的与其他开源产品进行融合.

比如，Spark可以使用Hadoop的YARN和AppacheMesos作为它的资源管理和调度

器，并且可以处理所有Hadoop支持的数据，包括HDFS,HBase等.

RunsEverywhere

SparkrunsonHadoop,ApacheMesos,Kubemetes,

standalone,orinthecloud.ItcanaccessdiversedataSpark

sources,

YoucanrunSparkusingitsstandaloneclustermode,onEC2,onHadoopcassandra

YARN,onMesos,oronKubemetes.AccessdatainHDFS,Alluxio,Apache

Cassandra,ApacheHBase,ApacheHive,andhundredsofotherdataMESOS

sources.

kubernetes

1.3Spark内置模块介绍

SparkSpark

SparkMlib

StreamingGraghX

机器学习

实时计算图计算

SparkCore

独立调度器YARNMesos

1.3.1集群管理器(ClusterManager)

Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。

为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster

Manager)上运行，目前Spark支持3种集群管理器：

1.HadoopYARN(在国内使用最广泛)

2.ApacheMesos(国内使用较少，国外使用较多)

3.Standalone(Spark自带的资源调度器，需要在集群中的每台节点上配置

Spark)

1.3.2SparkCore

实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

SparkCore中还包含了对弹性分布式数据集(ResilientDistributedDataSet,简称RDD)的

API定义。

1.3.3SparkSQL

是Spark用来操作结构化数据的程序包。通过SparkSql,我们可以使用SQL或者

ApacheHive版本的SQL方言(HQL)来查询数据。SparkSQL支持多种数据源，比如

Hive表、Parquet以及JSON等。

1.3.4SparkStreaming

是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与

SparkCore中的RDDAPI高度对应。

1.3.5SparkMLlib

提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供

了模型评估、数据导入等额外的支持功能。

Spark

ClusterManager

(YARN,Mesos,Standalone)

~~T~~r~

DistributedStorage

(Cassandra,S3,HDFS)

111

Spark得到了众多大数据公司的支持，这些公司包括Hortonworks旧M、Intel、

Cloudera.MapR、Pivotal,百度、阿里、腾讯、京东、携程、优酷土豆。

当前百度的Spark已应用于大搜索、直达号、百度大数据等业务；

阿里利用GraphX构建了大规模的图计算和图挖掘系统，实现了很多生产系统的推荐算法；

腾讯Spark集群达到8000台的规模，是当前已知的世界上最大的Spark集群。

第2章Spark运行模式

本章介绍在各种运行模式如何运行Spark应用.

首先需要下载Spark

1.官网地址/

2.文档查看地址https://spark.apache.Org/docs/2.1.1/

3.下载地址/dist/spark/

目前最新版本为2.4.4,考虑到国内企业使用情况我们仍然选择211来学习.不过2.X.X

的版本差别都不大.

2.1Local模式

Local模式就是指的只在一台计算机上来运行Spark.

通常用于测试的目的来使用Local模式，实际的生产环境中不会使用Local模式.

2.1.1解压Spark安装包

把安装包上传至!]/。口亡/5。，上卬（7广6/下，并解压至！]/opt/moduLe/目录下

tar-zxvfspark-2.1.1-bin-hadoop2.7.tgz-C/opt/module

然后复制刚刚解压得到的目录，并命名为spark-LocaL:

cp-rspark-2.1.1-bin-hadoop2.7spark-local

2.1.2运行官方求P工的案例

bin/spark-submit\

--cLassorg.apache.spark.examples.SparkPi\

--masterLocaL[2]\

,/exampLes/jars/spark-exampLes_2.11-2.1.1.jar100

注意：

•如果你的sheLL是使用的zsh,则需要把力口上弓I号:‘LOCQH2J'

说明：

•使用spark-submit来发布应用程序.

语法：

./bin/spark-submit\

--cLass<main-cLass>\

--master<master-urL>\

--deploy-mode<depLoy-mode>\

--conf<hey>=<vaLue>\

・・・#otheroptions

<appLication-jar>\

[appLication-arguments]

---master指定master的地址，默认为LocaL.表示在本机运行.

---cLass你的应用的启动类(如

org.apache.sparh.exampLes.SparkPi)

•--depLoy-mode是否发布你的驱动到worker节点(cluster模式)或者作

为一个本地客户端(cLient模式)(default:cLient)

•--conf:任意的Spark配置属性，格式如果值包含空格，可

以加引号"hey=vaLue"

•appLication-jar:打包好的应用jar,包含依赖.这个URL在集群中全局

可见。比如hdfs://共享存储系统,如果是于tie://path,那么所有的

节点的path都包含同样的jar

•appLieation-arguments:传给勿at”方法的参数

•--executor-memory1G指定每个executor可用内存为1G

•--totaL-executor-cores6指定所有executor使用的epu核数为6个

•--executor-cores表示每个executor使用的epu的核数

关于MasterURL的说明

MasterURLMeaning

LocaL

RunSparklocallywithoneworkerthread(i.e.noparallelismat

all).

LocaL[K]

RunSparklocallywithKworkerthreads(ideally,setthistothe

numberofcoresonyourmachine).

LocaL[*]

RunSparklocallywithasmanyworkerthreadsaslogicalcores

onyourmachine.

spark://HOST:PORT

ConnecttothegivenSparkstandaloneclustermaster.Theport

mustbewhicheveroneyourmasterisconfiguredtouse,whichis

7077bydefault.

mesos://HOST:PORT

ConnecttothegivenMesoscluster.Theportmustbewhichever

oneyourisconfiguredtouse,whichis5050bydefault.Or,fora

MesosclusterusingZooKeeper,usemesos://zk://....To

submitwith--depLoy-modeduster,theHOSTPORTshould

beconfiguredtoconnecttotheMesosClusterDispatcher.

yarn

ConnecttoaYARNclusterincLientorcLustermode

dependingonthevalueof-deploy-mode.Theclusterlocation

willbefoundbasedontheHADOOPCONFDIRor

YARNCONFDIRvariable.

2.1.2.1结果展ZK

该算法是利用蒙特・卡罗算法求PI

LOCAL,6026bytes)

19/01/3121:49:44INFOTaskSetManager:Finishedtask97.0instage0.0(TID97)in27msonlocalhc

19/01/3121:49:44INFOExecutor:Runningtask99.0instage0.0(TID99)

19/01/3121:49:44INFOExecutor:Finishedtask99.0instage0.0(TID99).1041bytesresultsentt

19/01/3121:49:44INFOTaskSetManager:Finishedtask99.0instage0.0(TID99)in18msonlocalhc

19/01/3121:49:44INFOExecutor:Finishedtask98.0instage0.0(TID98).1041bytesresultsentt

19/01/3121:49:44INFOTaskSetManager:Finishedtask98.0instage0.0(TID98)in41msonlocalhc

19/01/3121:49:44INFOTaskSchedulerlmpl:RemovedTaskSet0.0,whosetaskshaveallcompleted,fron

19/01/3121:49:44INFODAGScheduler:Resultstage0(reduceatSparkPi.scala:38)finishedin1.852s

19Z0JLZ31-21:49J44INEQJDAGScheduler：Job0finished:reduceatSparkPi.scala:38,took2.195049s

Piisroughly3.1425879142587916

卬EFoppedSparkwebUIathttp://192.168.43.201:4040

19/01/3121:49:44INFOMapOutputTrackerMasterEndpoint:MapOutputTrackerMasterEndpointstopped!

19/01/3121:49:44INFOMemoryStore:MemoryStorecleared

19/01/3121:49:44INFOBlockManager:BlockManagerstopped

19/01/3121:49:44INFOBlockManagerMaster:BlockManagerMasterstopped

19/01/3121:49:44INFOOutputCommitCoordinatorJOutputCommitCoordinatorEndpoint:OutputCommitCoordir

19/01/3121:49:44INFOSparkContext:SuccessfullystoppedSparkContext

19/01/3121:49:44INFOShutdownHookManager:Shutdownhookcalled

19/01/3121:49:44INFOShutdownHookManager:Deletingdirectory/tmp/spark-536f79e0-bc9a-4899-97ad-c

备注：也可以使用rur-exa/npLes来运行

bin/run-exampleSparkPi100

2.1.3使用Spark-shell

Spark-shell是Spark给我们提供的交互式命令窗口(类似于Scala的REPL)

本案例在Spark-shell中使用Spark来统计文件中各个单词的数量.

步骤1：创建2个文本文件

mkdirinput

cdinput

touchl.txt

touch2.txt

分别在1.txt和2.txt内输入一些单词.

步骤2:打开Spark-shell

bin/spark-shell

••bin/spork-shell

UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaperties

Settingdefaultloglevelto"WARN".

Toadjustlogginglevelusesc.setLogLevel(newLevel).ForSparkR,usesetLogLevel(newLevel).

19/01/3123:58:39WARNNativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswher

eapplicable

19/01/3123:58:45WARNObjectstore:Versioninformationnotfoundinmetastore,hive.metastore.schema.verificotionisnotenabled

sorecordingtheschemaversion1.2.0

19/01/3123:58:46WARNObjectStorc:Failedtogetdatabasedefault,returningNoSuchObjectException

19/01/3123:58:46WARNObjectstore:Failedtogetdatabaseglobal_temp,returningNoSuchObjectException

SparkcontextWebUIavailableathttp://192.168.43.201:4040

Sparkcontextavailableas'sc*(master-local[*],oppid-local-1548950320710).

Sparksessionavailableas'spark'.

Welcometo

/一/.一八/_人\version2.1.1

/」

UsingScalaversion2.11.8(JavaHotSpot(TM)64-BitServerVM,Java1.8.0_172)

Typeinexpressionstohavethemevaluated.

Type:helpformoreinformation.

seals|

步骤3:查看进程和通过web查看应用程序运行情况

”bin/spark-shell

UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.properties

Settingdefaultloglevelto"WARN”.

Toadjustlogginglevelusesc.setLogLevel(newLevel).ForSparkR,usesetLogLevel(newLevel).

19/01/3123:58:39WARNNativeCodeLoader:Unabletoloadnotive-hadooplibraryforyourplatform...usingbuiltin-javaclasseswher

eapplicable

19/01/3123:58:45WARNObjectstore:Versioninformationnotfoundinmetastore,hive.metastore.schema.verificationisnotenabled

sorecordingtheschemaversion1.2.0

19/01/3123:58:46WARNObjectstore:Failedtogetdatabasedefault,returningNoSuchObjectException

19/01/3123:58:46WARNObjectStore:Failedtogetdatabaseglobal_te呷，returningNoSuchObjectException

SparkcontextWebUiavailableathttp://192.168.43.201:4040

Sparkcontextovailabreas^c*(master-localf*],oppid-local-1548950320710).

Sparksessionavailableas'spark'.

Welcometo

/T7_______/-7_

v_v_v_/1_/

/___//、、」」/_A-\version2.1.1

UsingScalaversion2.11.8(JavaHotSpot(TM)64-BitServerVM,Java1.8.0_172)

Typeinexpressionstohavethemevaluated.

Type:helpformoreinformation.

seals|

地址：http://hadoop201:4040

JobsStagesStorageEnvironmentExecutorsSQL

SparkJobs⑺

Useratguigu

TotalUptime:6.1min

SchedulingMode:FIFO

►EventTimeline

步骤4：运行Mordcount程序

sc.textFiLe("input/").fLatMap(_.spLit("")).map((__j1)).reduceByKey(_

+_).coLLect

scala>sc.textFile("input/").flatMap(_.split("w)).map(1)).reduceByKey(_-i-_).collect

res7:Array[(String,Int)]=Array((are,2)f(how,2),(hello,4),(atguigu,2)7(world,2),(you,2))

步骤5：登录hadoop201:4040查看程序运行

SparkJobs⑺

UMcatguigu

TotalUptime:,2EM

SchedulingMode:FIFO

CompletedJobs:1

»Ewn'Dmaln*

CompletedJobs(1)

JobM•DMcriptkxi

0coSactat<corwolv>252O1WO2AJ100:44:200.4a2/2

2.1.4提交流程

Spark通用运行简易流程

汐Spark通用运行简易流程◎尚硅谷

2.1.5wordcount数据流程分析:

WordCount案例分析

sc.textFile("input"),flatMap(_.split("")),map((_,l)).reduceByKey(_+_).collect

1.textFiLe("input"):读取本地文件input文件夹数据；

2.")).・压平操作，按照空格分割符将一行数据映射成一个

个单词；

3.加.•对每一个元素操作，将单词映射为元组；

4.reduceByKey(_+_):按照key将值进行聚合，相加；

5.coLLect:将数据收集到Driver端展示。

2.2Spark核心概念介绍

2.2.1Master

Spark特有资源调度系统的Leader。掌管着整个集群的资源信息，类似于Yarn框架中

的ResourceManager,主要功能：

1.监听Worker,看Worker是否正常工作;

2.Master对Worker>Application等的管理（接收Worker的注册并管理所有的

Worker,接收Client提交的Application,调度等待的Application并向

Worker提交）。

2.2.2Worker

Spark特有资源调度系统的Slave,有多个。每个Slave掌管着所在节点的资源信息，

类似于Yarn框架中的NodeManager,主要功能：

1.通过RegisterWorker注册到Master;

2.定时发送心跳给Master;

3.根据Master发送的Application配置进程环境，并启动ExecutorBackend（执行

Task所需的临时进程）

2.2.3driverprogram（驱动程序）

每个Spark应用程序都包含一个驱动程序；驱动程序负责把并行操作发布到集群上.

驱动程序包含Spark应用程序中的主函数定义了分布式数据集以应用在集群中.

在前面的wordcou戊案例集中，spark・shell就是我们的驱动程序，所以我们可以在其中键

入我们任何想要的操作，然后由他负责发布.

驱动程序通过SparkContext对象来访问Spark,SparkContext对象相当于一个到

Spark集群的连接.

在spark-shell中，会自动创建一个对象，并把这个对象命名为5c

Sparkcontextavailableassc(master=local[*]zappid=local-1548988913574

Sparksessionavailableas'sparz*.

Welcometo

_\V'J

/____/・_/'_，_/_//_八_\version2.1.1

~J—

UsingScalaversion2.11.8(JavaHotspot(TM)64-BitServerVM,Java1.8.0_172)

Typeinexpressionstohavethemevaluated.

Type:helpformoreinformation.

scala>sc

resO:org・apache.spark.SparkContext=org,apache,spark,SparkContext@12811f95

2.2.4executor（执行器）

SparkContext对象一旦成功连接到集群管理器，就可以获取到集群中每个节点上的执行

^（executor）.

执行器是一个进程（进程名：ExecutorBackend,运行在Worker节点上），用来执行计算和

为应用程序存储数据.

然后，Spark会发送应用程序代码（比如:jar包）到每个执行器.最后,Spar/?Co“text对象发

送任务到执行器开始执行程序.

DriverProgram

SparkContextClusterManager

2.2.5RDDs(ResilientDistributedDataset)弹性分布式数据集

一旦拥有了SparkContext对象，就可以使用它来创建RDD了.在前面的例子中，我们

调用sc.textFile(...)来创建了一个RDD,表示文件中的每一行文本.我们可以对这些文本

行运行各种各样的操作.

在第二部分的SparkCore中，我们重点就是学习RDD.

2.2.6clustermanagers(集群管理器)

为了在一个Spark集群上运行计算，SparkContext对象可以连接到几种集群管理器

(Spark'sownstandaloneclustermanager,MesosorYARN).

集群管理器负责跨应用程序分配资源.

2.2.7专业术语列表

TermMeaning

ApplicationUserprogrambuiltonSpark.Consistsofadriverprogramandexecutors

onthecluster.(构建于Spark之上的应用程序.包含驱动程序和运行在集

群上的执行器)

ApplicationAjarcontainingtheuser'sSparkapplication.Insomecasesuserswillwant

jartocreatean“uberjar5'containingtheirapplicationalongwithits

dependencies.Theuser'sjarshouldneverincludeHadooporSpark

libraries,however,thesewillbeaddedatruntime.

DriverThethreadrunningthemain()functionoftheapplicationandcreatingthe

programSparkContext

ClusterAnexternalserviceforacquiringresourcesonthecluster(e.g.standalone

managermanager,Mesos,YARN)

DeployDistinguisheswherethedriverprocessruns.In"cluster"mode,the

modeframeworklaunchesthedriverinsideofthecluster.In“client”mode,the

submitterlaunchesthedriveroutsideofthecluster.

WorkerAnynodethatcanrunapplicationcodeinthecluster

node

ExecutorAprocesslaunchedforanapplicationonaworkernode,thatrunstasks

andkeepsdatainmemoryordiskstorageacrossthem.Eachapplication

hasitsownexecutors.

TaskAunitofworkthatwillbesenttooneexecutor

JobAparallelcomputationconsistingofmultipletasksthatgetsspawnedin

responsetoaSparkaction(e.g.save,collect);youllseethistermused

inthedriver'slogs.

StageEachjobgetsdividedintosmallersetsoftaskscalledstagesthatdepend

oneachother(similartothemapandreducestagesinMapReduce);youll

seethistermusedinthedriver'slogs.

2.3Standalone模式

构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。

这个要和Hadoop中的Standalone区别开来.这里的Standalone是指只用Spark来

搭建一个集群，不需要借助其他的框架.是相对于Yarn和Mesos来说的.

2.3.1配置Standalone模式

步骤1：复制spark,并命名为

cp-rspark-2.I.l-bin-hadoop2.7spark-standalone

步骤2:进入配置文件目录corf,配置spar/?-evr).5»

cdconf/

cpspark-env,sh・templatespark-env.sh

在spark-env.sh文件中配置如下内容：

SPARK_MASTER_HOST=hadoop201

SPARK_MASTER_PORT=7077#默认端口就是7077,可以省略不配

步骤3:修改slaves文件，添加worker节点

cpslaves.templateslaves

在staves文件中配置如下内容：

hadoop201

hadoop202

hadoop203

步骤4:分发spark-standaLone

步骤5:启动Spark集群

sbin/start-all.sh

/opt/module/spark-standalone»myjps

hadoop201

21204Master

21387Jps

21295Worker

-hadoop202

16321Worker

16408Jps

hadoop203

25299Worker

25389Jps

可能碰到的问题

如果启动的时候报:isnotset,贝ij在sbtn/spar/?-config.s/?中添力口

入变量即可.不要忘记分发修改的文件

hodoop201:JAVA_HOMEisnotset

hadoopZOl:fulllogin/opt/module/spark-standalone/logs/spark-atguigu-org.apache.spark.deploy.worker.Worker-l-hadoop201.out

hadoop202:failedtolaunch:nice-n0/opt/module/spork-standalone/bin/spark-classorg.apache.spark.deploy.worker.Worker--webui-

port8081spark://hadoop201:7077

hadoop202:JAVA_H0MEisnotset

hodoop202:fulllogin/opt/module/spark-standalone/logs/spark-otguigu-org.apache.spork.deploy.worker.Worker-l-hadoop202.out

hadoop203:failedtolaunch:nice-n0/opt/module/spark-standalone/bin/spark-classorg.opache.spark.deploy.worker.Worker--webui-

port8081spark://hadoopZ01:7077

hadoop203:JAVA_H0MEisnotset

hadoop203:fulllogin/opt/module/5park-standalone/logs/sp"k-Qtguigu-org.apache.spark.dep'loy.worker.Worker-l-hadoop203.out

5PARK_H0ME=

SPARK_CONF_DIR-

PYTHONPATH=

PYTHONPATH-

PYSPARK_PYTHONPATH_SET-

JAVA_HOME=/opt/module/jdkl..0.172

步骤6:在网页中查看Spark集群情况

地址:http://hadoop201:8080

SparkMasteratspark://hadoop201:7077

URL:apartc/A»tfoop201:7077

RESTURL:SpvfcV/hadoop201:8066仁moot)

ANwWoriura:3

CormInUM:6Totti.0Used

Memoryknuse:3.0GBTotal.0.08Uwd

AppKcaUon*:0Running,0Comptotad

Ortvsr*:0Running.0Completed

StatusALIVE

Workers

WoZrldAddr«MStateCoraeMemory

wortur-20180131225504-182.16843201-42496192.188.43^01:42496AUVE2(0Uwd)10240MB(0.0BUaod)

wortiar-20190131226605-02-33340182.168.43202:33340AUVE2(0Used)10240MB(0.0BUsed)

wortar-20190131225505-19216843^03-36531192.168.43^03:36531AUVE2(0Used)10240MB(0.0BUsed)

RunningApplications

UserStets

CompletedApplications

ApplicationIO.NameCorasMemoryp«rNode

2.3.2使用Standalone模式运行计算PI的程序

bin/spark-submit\

--classorg.apache.spark.exampLes.SparkPi\

--masterspark://hadoop201:7077\

--executor-memory1G\

--totaL-executor-cores6\

--executor-cores2\

,/exampLes/jars/spark-exampLes_2.11-2.1.1.jar100

allcompleted,trompool

19/02/0112:08:15INFODAGScheduler:Resultstage0(reduceatSparkPi.scala:38)

finishedin3.590s

19/02/0112:08:15INFODAGScheduler:Job0finished:reduceatSparkPi.scala:38,

took4.442334s

〔Piisrouqhly3,1418383141838313]

19/02/0112:08:15INFOSparkUI:StoppedSparkwebUIat01:40

19/02/0112:08:15INFOStandaloneSchedulerBackend:

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据技术之Spark

文档简介

温馨提示

最新文档

评论

大数据技术之Spark

文档简介

温馨提示

最新文档

评论

相关文档