大数据专业英语教程 课件 Unit 7 AFive Programming Languages for Big Data_第1页
大数据专业英语教程 课件 Unit 7 AFive Programming Languages for Big Data_第2页
大数据专业英语教程 课件 Unit 7 AFive Programming Languages for Big Data_第3页
大数据专业英语教程 课件 Unit 7 AFive Programming Languages for Big Data_第4页
大数据专业英语教程 课件 Unit 7 AFive Programming Languages for Big Data_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

FiveProgrammingLanguagesforBigData

Unit

7TextAContents

NewWords

Abbreviations

Phrases参考译文NewWordsNewWordsPhrasesAbbreviationsListeningtoTextA用于大数据的五种编程语言大数据专业人员必须做出的最重要的决定之一,尤其是对于那些刚进圈子或刚刚起步的人来说,就是为大数据操作和分析选择最佳的编程语言。如今,仅了解大数据问题并构筑架构以解决该问题还远远不够,也要完美执行,而且选择正确的语言任重而道远。以下是大数据最常用的五种编程语言。1.Python根据最近举行的StackOverflow开发人员调查,Python已被宣布为2018年增长最快的编程语言之一。它的通用性意味着它可以广泛使用于各种用例中,大数据编程是应用程序的一个主要领域。大数据框架中越来越多地使用许多用于数据分析和处理的库来清洗和处理大块数据,例如pandas、NumPy、SciPy都是基于Python的。不仅如此,大多数流行的机器学习和深度学习框架(例如scikit-learn、Tensorflow等)也都使用Python编写,并且正在大数据生态系统中得到越来越多的应用。使用Python的一个缺点是它运行缓慢,这也是为什么它在大数据编程方面还不是一流选手的原因。尽管非常易于使用,但大数据专业人员发现使用Java或Scala等语言构建的系统比使用Python构建的系统更快速、更强大。参考译文但是,Python用其他质量弥补了这一限制。由于Python主要是一种脚本语言,因此交互式编码和大数据分析解决方案的开发变得非常容易。Python可以轻松地与现有的大数据框架(例如ApacheHadoop和ApacheSpark)集成,从而使你能够大规模执行预测分析。为什么我们将Python用于大数据?•它是通用的。•拥有丰富的数据分析和机器学习库。•它容易使用。•它支持迭代开发。•它集成了丰富的大数据工具。•通过Jupyter笔记本进行交互式计算。参考译文参考译文2.R喜欢统计的人就喜欢R,很多人对此并不会感到惊讶。R被普遍称为“统计语言”,用于建立有效而准确的数据分析的数据模型。在大型R包存储库(CRAN,也称为综合R存档网络)的支持下,使用R,你几乎拥有完成大数据处理中的任何任务的所有类型的工具——从分析到数据可视化。R可以与ApacheHadoop和ApacheSpark以及其他流行框架无缝集成,用于大数据处理和分析。使用R作为大数据编程语言的一个问题是它不是很通用。这意味着用R编写的代码不可用于产品部署,并且通常必须转换为某些其他编程语言,例如Python或Java。也就是说,如果你的目标只是为大数据分析构建统计模型,那么你绝对应该考虑使用R。为什么我们将R用于大数据?•它是为数据科学而构建的。•它支持Hadoop和Spark。•它具有强大的统计建模和可视化功能。•它支持Jupyter笔记本。3.Java老伙计Java总是很棒。一些传统的大数据框架(例如ApacheHadoop)及其生态系统中的所有工具都是基于Java的,如今它们仍在许多企业中使用。更不用说Java是迄今为止我们讨论过的所有语言中最稳定和最现成的语言!使用Java开发大数据应用程序使你能够使用大型的工具和库生态系统来实现互操作性、监控以及更多功能,其中大多数已经过尝试和测试。Java的主要缺点之一是冗长。你必须用Java编写数百行代码来完成一项任务,而该任务用Python或Scala几乎只编写15-20行代码就行了,这一事实可能会使许多新手程序员望而却步。但是,在Java8中引入lambda函数确实使生活变得更加轻松。与Python等较新的语言不同,Java不支持迭代开发,这是将来的Java版本关注的领域。尽管Java存在缺陷,但在大数据编程的首选语言方面它仍然是强大的竞争者。为什么我们将Java用于大数据?•传统的大数据工具和框架是用Java编写的。•稳定且现成。•它是一个由久经考验的工具和库组成的大型生态系统。

参考译文4.GoGo是最近发展最快的编程语言之一。由一群对C++感到沮丧的谷歌工程师设计,我们认为Go在此列表中是一个不错的选择,这仅仅是因为它支持大数据基础架构中使用的许多工具,包括Kubernetes、Docker等。Go快速、易学且易用。更重要的是,随着企业希望构建可大规模运行的数据分析系统,基于Go的系统已用于集成机器学习和数据的并行处理。还可以相对轻松地将其他语言与基于Go的系统进行接口。为什么我们将Go用于大数据?•快速且易于使用。•大数据基础架构中使用的许多工具都是基于Go的。•具有高效的分布式计算。参考译文参考译文5.Scala最后但并非最不重要的是Scala。Scala是面向对象和函数式编程范式的完美结合,它既快速又健壮,是许多大数据专业人士常用的语言选择。事实上,在ApacheSpark和ApacheKafka中两个最受欢迎的大数据处理框架构建在Scala之上,这可告诉你有关Scala功能的所有信息。Scala在JVM上运行,这意味着用Scala编写的代码可以在基于Java的大数据生态系统中轻松使用。不过,使Scala与Java不同的一个重要因素是,相比之下,Scala要简洁得多。你可以在Scala中用不到15行来编写数百行看上去令人困惑的Java代码。但是,与Go和Python之类的语言相比,Scala的不利方面是其陡峭的学习曲线,这可能会使初学者不愿使用它。为什么我们将Scala用于大数据?•它快速而强大。•它适合与ApacheSpark等大数据工具一起用于分布式大数据处理。•它适用于JVM,可以在基于Java的生态系统中使用。你可能还需要考虑其他几种语言——Julia、SAS和MATLAB是一些主要的语言,它们本身就很有用。但是,与我们上面讨论的语言相比,我们认为它们在某些方面有所欠缺——无论在速度、效率、易用性、文档还是社区支持等方面。现在出现的问题是:你应该选择哪种语言?这完全取决于你要做什么。如果你的重点是涉及大量统计计算的核心数据分析,那么R将是你的首选语言。另一方面,如果你想为大数据开发流应用程序,Scala可能是一个更好的选择。如果你希望使用机器学习并构建预测模型,那么Python将助你一臂之力。最后,如果你打算仅使用传统上可用的工具来构建大数据解决方案,那么Java是适合你的语言。你还可以选择结合两种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论