




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ApacheSpark
Unit
7TextBContents
NewWords
Abbreviations
Phrases参考译文NewWordsNewWordsPhrasesPhrasesAbbreviationsListeningtoTextAApacheSpark软件ApacheSpark是用于机器学习和AI应用程序的闪电般快速的开源数据处理引擎,并由最大的大数据开源社区提供支持。1.什么是ApacheSpark?ApacheSpark是用于大型数据集的开源数据处理引擎。它旨在提供大数据(特别是流数据、图形数据、机器学习和人工智能应用程序)所需的计算速度、可扩展性和可编程性。Spark的分析引擎处理数据的速度比其他的快10到100倍。它具有内置的并行性和容错能力,可通过在大型计算机群集中分配处理工作来扩展规模。它甚至包括用于编程语言的API,这些编程语言在数据分析人员和数据科学家中很流行,包括Scala、Java、Python和R。通常将Spark与ApacheHadoop进行比较,尤其是与Hadoop的本地数据处理组件MapReduce进行比较。Spark和MapReduce之间的主要区别在于,Spark处理数据并将数据保留在内存中以供后续步骤使用,而无需写入磁盘或从磁盘读取数据,从而大大加快了处理速度。参考译文2.ApacheSpark如何工作?ApacheSpark具有分层的主/从体系结构。SparkDriver是控制集群管理器的主节点,集群管理器管理工作器(从属)节点并将数据结果传递给应用程序客户端。SparkDriver根据应用程序代码生成SparkContext,SparkContext可与群集管理器(Spark的独立群集管理器或HadoopYARN、Kubernetes或Mesos等其他群集管理器)一起使用,以在节点之间分发和监控执行。它还创建了弹性分布式数据集(RDD),这是Spark处理速度优异的关键。2.1弹性分布式数据集(RDD)弹性分布式数据集(RDD)是元素的容错集合,可以在群集中的多个节点之间分布并并行处理。RDD是ApacheSpark中的基础结构。Spark通过引用数据源或通过使用SparkContext并行化方法将现有集合并行到RDD中进行处理来加载数据。将数据加载到RDD中后,Spark会对内存中的RDD执行转换和操作,这是Spark速度快的关键。Spark还会将数据存储在内存中,除非系统内存不足或用户决定将数据写入磁盘以实现持久性存储。参考译文参考译文RDD中的每个数据集都被划分为逻辑分区,可以在群集的不同节点上进行计算。用户可以执行两种类型的RDD操作:转换和行动。转换是应用于创建新RDD的操作。行动用于指示ApacheSpark进行计算并将结果传递回驱动器。Spark支持RDD上的许多行动和转换。该分布是由Spark完成的,因此用户不必担心计算正确的分布。2.2有向无环图(DAG)与MapReduce中的两阶段执行过程相反,Spark创建一个有向无环图(DAG)来调度任务和跨集群的工作节点的编排。当Spark在任务执行过程中行动和转换数据时,DAG调度程序通过在整个集群中协调工作节点来提高效率。这种任务跟踪使容错成为可能,因为它会将记录的操作重新应用于来自先前状态的数据。2.3DataFrame和Dataset除了RDD之外,Spark还处理其他两种数据类型:DataFrame和Dataset。DataFrame是最常见的结构化应用程序编程接口(API),它们表示具有行和列的数据表。尽管RDD一直是Spark的关键功能,但现在处于维护模式。由于Spark的机器学习库(MLlib)的普及,DataFrames作为MLlib的主要API发挥了主导作用。使用MLlibAPI时注意这一点很重要,因为DataFrames提供了不同语言(例如Scala、Java、Python和R)的统一性。Dataset是DataFrames的扩展,提供了类型安全的、面向对象的编程接口。默认情况下,Dataset是强类型JVM对象的集合,这与DataFrames不同。SparkSQL允许从DataFrames和SQL数据存储(例如ApacheHive)中查询数据。当以其他语言运行时,SparkSQL查询将返回DataFrame或Dataset。
参考译文2.4SparkCoreSparkCore是所有并行数据处理的基础,并处理调度、优化、RDD和数据抽象。SparkCore为Spark库、SparkSQL、SparkStreaming、MLlib机器学习库和GraphX图形数据处理提供了功能基础。SparkCore和集群管理器将数据分布在整个Spark集群中并对其进行抽象。这种分布和抽象使处理大数据变得非常快速而且用户友好。2.5SparkAPISpark包含各种应用程序编程接口(API),可将Spark的功能带给最广泛的受众。SparkSQL允许以关系方式与RDD数据进行交互。Spark还具有针对Scala、Java、Python和R的文档丰富的API。Spark中每种语言的API在处理数据方面都有其特定的细微差别。RDD、DataFrame和Datasets在每种语言的API中都可用。通过使用多种语言的API,Spark使得具有开发、数据科学和统计背景的不同人群可以访问大数据处理。参考译文参考译文3.ApacheSpark和机器学习Spark拥有各种库,这些库将功能扩展到机器学习、人工智能(AI)和流媒体处理。3.1ApacheSparkMLlibApacheSpark的关键功能之一是SparkMLlib中提供的机器学习功能。ApacheSparkMLlib提供了一种开箱即用的解决方案,用于进行分类和回归、协作过滤、聚类、分布式线性代数、决策树、随机森林、梯度增强树、频繁模式挖掘、评估指标和统计信息。MLlib的功能与Spark可以处理的各种数据类型相结合,使ApacheSpark成为必不可少的大数据工具。3.2SparkGraphX除了具有API功能外,Spark还具有SparkGraphX,这是Spark的新增功能,旨在解决图形问题。GraphX是一种图形抽象,它扩展了RDD用于图形和图形并行计算的功能。SparkGraphX与图数据库集成,该图数据库存储互连信息或连接信息的网络,例如社交网络的信息。3.3SparkStreamingSparkStreaming是核心SparkAPI的扩展,可实现实时数据流的可扩展、容错处理。在SparkStreaming处理数据时,它可以用Spark的机器学习和图形处理算法将数据传递到文件系统、数据库和实时仪表板,以进行实时流分析。SparkStreaming基于SparkSQL引擎构建,还允许增量批处理,从而可以更快地处理流数据。4.Spark与ApacheHadoop和MapReduce“Sparkvs.Hadoop”是网络上经常搜索的词语,但如上所述,Spark是Hadoop的增强版——更具体地说,是对Hadoop的本机数据处理组件MapReduce的增强。实际上,Spark是基于MapReduce框架构建的,如今大多数Hadoop发行版都包含Spark。与Spark一样,MapReduce使程序员能够编写应用程序,这些程序能够通过在大型计算机集群并行处理部分数据集来更快地处理大量数据集。MapReduce处理磁盘上的数据,这就增加了读取和写入次数,减慢了处理速度,而Spark在内存中执行计算,这要快得多。因此,Spark可以处理数据的速度比MapReduce快100倍。
参考译文与MapReduce相比,Spark内置的针对多种语言的API使它对开发人员更实用、更易上手,因为MapReduce以难以编程而著称。与MapReduce不同,Spark可以使用YARN(Hadoop的资源管理和作业调度框架)在Hadoop群集上运行流处理应用程序。如上所述,Spark添加了MLlib、GraphX和SparkSQL的功能。而且Spark可以处理Hadoop应用程序之外的其他数据源(包括ApacheKafka)中的数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国有线领夹式麦克风市场调查研究报告
- 2025至2031年中国纯氮行业投资前景及策略咨询研究报告
- 2025年中国数控打圈机市场调查研究报告
- 2025至2031年中国精密冲模行业投资前景及策略咨询研究报告
- 新疆科信职业技术学院《鄂南竹木工艺文创》2023-2024学年第一学期期末试卷
- 肇庆市实验中学高中生物三:生态系统的结构第课时导学案
- 肇庆市实验中学高中历史三:第一单元测验题
- 新疆科信职业技术学院《智慧物流设施与设备》2023-2024学年第一学期期末试卷
- 新疆农业职业技术学院《国际商务英语》2023-2024学年第二学期期末试卷
- 新疆维吾尔乌鲁木齐市2025届数学五年级第二学期期末预测试题含答案
- 高级货检员3选择题试题
- 防雷检测能力评价考试题库大全-中(判断、填空题汇总)
- 2022年地理学业水平测验复习乡土地理济宁地理归纳点
- 新概念英语青少版入门级Starter A 结业测试 含答案
- 烟草原料学-烟草的品质课件
- GB∕T 4490-2021 织物芯输送带 宽度和长度
- 寝室文化节优秀寝室宿舍展示PPT模板
- 跌倒的预防及护理预防跌倒的步骤通用课程PPT课件
- (完整版)电力排管专项施工方案
- 第三章业绩评价
- 电子皮带秤检定规程
评论
0/150
提交评论