基于Zeppelin Notebook和R的交互式数据科学_第1页
基于Zeppelin Notebook和R的交互式数据科学_第2页
基于Zeppelin Notebook和R的交互式数据科学_第3页
基于Zeppelin Notebook和R的交互式数据科学_第4页
基于Zeppelin Notebook和R的交互式数据科学_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 基于Zeppelin Notebook和R的交互式数据科学这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。然而,最新的官方版本是0.5.0,还不支持R编程语言。幸运的是,NFLabs公司做了个开源项目,让我提供了一个R的编译器。这个编译器是

2、让用户可以使用自定义的语言做为数据处理后端的一个 Zeppelin 插件。例如在 Zeppelin 使用scala代码,您需要一个 Spark编译器。所以,如果你像我一样有足够的耐心将R集成到Zeppelin中, 这个教程将告诉你怎样从源码开始配置 Zeppelin和R。准备工作我们将通过Bash shell在Linux上安装Zeppelin。如果您使用的是Windows操作系统,我建议您安装和使用Cygwin终端(它提供功能类似于Windows上的Linux发行版)。确保 Java 1.7 和 Maven 3.2.x 是已经安装并且配置到环境变量中。从源代码构建 Zeppelin第一步:下载

3、 Zeppelin 源代码去这github分支下载源代码,将这个链接复制并粘贴到你的浏览器:/elbamos/incubator-zeppelin/tree/rinterpreter在我的例子中我已经下载并解压文件夹在我的桌面第二步:构建 Zeppelin假设你是安装在单机,打开你的Terminal,运行下面的代码。如果你是安装在一个集群,会稍微复杂一点,具体步骤Zeppelin 的文档中找到。$ cd Desktop/Apache/incubator-zeppelin-rinterpreter$ mvn clean package -DskipTests这将需要约16分钟构建Zeppelin

4、、Spark,所有引擎包括R,markdown,shell,hive等。(见下图)。第三步:启动 Zeppelin运行以下命令启动Zeppelin:$ ./bin/zeppelin-daemon.shstart打开web浏览器,访问http:/localhost:8080。此时,您已经准备好开始在 Zeppelin 用代码创建交互笔记本。交互式数据科学第一步:创建一个笔记本单击下拉箭头旁边的“笔记本”页面,点击“创建新报告”。给你的笔记本命名或您可以使用指定的缺省名称。我命名为“Base R in Apache Zeppelin”。第二步:开始你的分析如下图所示,调用R可以用“%spark.r

5、”或“%spark.knitr”标签。首先让我们用 markdown 写一些介绍。根据我们可能需要我们的分析,现在让我们来安装一些包。我们将使用“flights”数据集显示2013年离开纽约的航班,现在让我们读取数据集。现在,让我们使用dplyr(用管道符)做一些数据操作。您还可以使用条形图和饼图来可视化一些描述性统计数据。现在,让我们与ggplot2共舞。现在,让我们用caret包做一些统计的机器学习。最后,绘制几个地图。结束语Zeppelin 帮助您使用多种编程语言创建交互式文档和美丽的图表。这篇文章的目的是帮助你配置 Zeppelin 和 R。希望这牛逼的的项目管理委员会(PMC)的开源

6、项目可以用R引擎发布下一个版本。到时候安装 Zeppelin肯定会更快更方便,而不必从源代码构建。还值得一提的是,还有另一个R的编译器是由 Data Layer 提供的。你可以在这里找到说明如何使用:/datalayer/zeppelin-R。你可以尝试着两个编译器,然后然后在下面的评论区分享一下你的使用体验。Data Layer提供的编译器RChartsRchats MapGoogleVizScala R BindingR Scala Dataframe BindingSparkR用Docker镜像部署为了您的方便, Datalayer 为Apache Zeppelin 提供了一个最新的 Docker镜像。你可以通过执行下面的命令来获取镜像docker pull datalayer/zeppelin-rscalaRun the Zeppelin notebook with:docker run -it

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论