spark安装部署_第1页
spark安装部署_第2页
spark安装部署_第3页
spark安装部署_第4页
spark安装部署_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、安装spark依赖的内容1.JDK    spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK    编译过程:Python、java、Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致)2.scala    由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译3.配置SSH免密码登录    集群节点无密码访问,与安装Ha

2、doop时一致4.安装Hadoop    hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on yarn,则Hadoop需要安装yarn版本的5.安装spark    安装spark,执行spark代码二、JDK安装1.下载地址    用户可以在官网下载相应版本的JDK,本例使用JDK1.6,下载地址为:     development kit的bin包2.下载后,在相应的目录下执行bin文件(假设JDK目录是 jdkpath)   

3、./ jdk-6u45-linux-i586.bin3.配置环境变量,修改/etc/profile文件增加以下内容   export  JAVA_HOME= $jdkpath   export   PATH=$JAVA_HOME/bin:$PATH   export  CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar4.生效profile(或者重启机器

4、)    source /etc/profile5.终端输入 java -version    输出类似如下说明安装成功    三、安装Scala1.下载地址    官网下载地址:/download/all.html    本例使用的是Scala 2.9.32.在安装目录下解压(假设Scala目录是scalapath)    tar -zxvf scala-2.9.3.tgz3.配置环境变量,修改/etc/p

5、rofile文件增加以下内容   export  SCALA_HOME= $scalapath   export   PATH=$SCALA_HOME/bin:$PATH4.生效profile(或者重启机器)    source /etc/profile四、配置SSH免密码登陆首先,需要配置各个机器间的相互访问:1、 配置ssh的自动登陆(在master机上):    $ ssh-keygen -t dsa -P&#

6、160;” -f /.ssh/id_dsa    完成后会在/.ssh/(用户目录下)生成两个文件:id_dsa 和id_dsa.pub。    再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys文件):    $ cat /.ssh/id_dsa.pub >> /.ssh/authorized_keys  

7、0; 完成后可以实现无密码登录本机:    $ ssh localhost2、把master上的id_dsa.pub 文件追加到slaves机器的authorized_keys 内( 以slaves1节点为例):    #拷贝master的id_dsa.pub文件(在master号机器上执行)    $ scp id_dsa.pub redmap:/home/red

8、map/注:(只需在主节点上运行ssh-kegen程序。其他节点的目录结构创建后,将刚才在主节点创建的keys通过scp拷贝到从节点的同样的目录上。)我们在实际执行中是手动把id_dsa.pub拷贝到其他slaves的节点中,而不是用scp命令。最好是直接手动拷贝过去,这样文件的权限是一致的。登录,进入用户目录下执行:    $ cat id_dsa.pub >> .ssh/authorized_keys    之后可以在master上不输入

9、密码直接SSH访问slaves1五、安装Hadoop2.x1.下载Hadoop    下载地址     本文使用hadoop-2.5.2.tar2.解压压缩包到指定目录    tar -zxvf hadoop-2.5.2.tar -C /usr/local (目录自定义)    如果需要修改拥有者    chown -R hduser:hadoop hadoop-2.5.23.配置环境变量    编辑profile文件    vi /e

10、tc/profile    在profile文件增加以下内容    python view plaincopy1.  export HADOOP_HOME=/home/root/hadoop-2.5.2 (安装路径)  2. export PATH=$PATH:$HADOOP_HOME/bin   3.   4. export PATH=$PATH:$HADOOP_HOME/sbin   

11、;5.   6. export HADOOP_MAPRED_HOME=$HADOOP_HOME   7.   8. export HADOOP_COMMON_HOME=$HADOOP_HOME   9.   10. export HADOOP_HDFS_HOME=$HADOOP_HOME   11.   12. export HADOOP_YARN_HOME=$HADOOP_HOME&#

12、160; 4.编辑配置文件    (1)进入Hadoop安装路径下的/etc/hadoop目录    (2)配置Hadoop-env.sh文件    增加 export JAVA_HOME=.(java JDK安装路径)    (3)修改hadoop安装目录下/etc/hadoop目录中的core-site.xmlhtml view plaincopy1. <configuration>  2.   <property>&

13、#160; 3.       <name>io.native.lib.available</name>  4.       <value>true</value>  5.   </property>  6.   <property>  7.    

14、   <name></name>  8.       <value>hdfs:/host:9000</value>/本机的Ip地址或者域名,端口自己设置  9.       <description>The name of the default file s

15、ystem.Either the literal string "local" or a host:port for NDFS.</description>  10.       <final>true</final>  11.   </property>  12.   <p

16、roperty>  13.        <name>hadoop.tmp.dir</name>  14.        <value>file:/home/tmp</value>  15.   </property>  16.   </configuration&g

17、t;      (4) 在etc/hadoop目录中编辑hdfs-site.xmlhtml view plaincopy1. <configuration>  2. <property>  3.  <name>.dir</name>  4.  <value>file:/usr/hadoop23/dfs/name</value>/本机保存nam

18、e数据的目录,自定义  5.  <description>Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories,then 

19、;name table is replicated in all of the directories,for redundancy.</description>  6.  <final>true</final>  7. </property>  8. <property>  9.  <name>dfs.datanode.data.di

20、r</name>  10.  <value>file:/us/hadoop23/dfs/data</value>/本机保存data数据的目录,自定义  11.  <description>Determines where on the local filesystem an DFS data node should store its blocks.If

21、60;this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored.  1

22、2.  </description>  13.  <final>true</final>  14. </property>  15. <property>  16.  <name>dfs.replication</name>  17.  <value>1</value>  18. </property> &#

23、160;19. <property>  20.  <name>dfs.permission</name>  21.  <value>false</value>  22. </property>  23. <property>  24.  <name>dfs.webhdfs.enabled</name>  25.  <valu

24、e>true</value>  26. </property>  27.    </configuration>      路径file:/usr/hadoop23/dfs/name与file:/usr/hadoop23/dfs/data是计算机中的一些文件夹,用于存放数据和编辑文件的路径必须用一个详细的URI描述。    (5) 在etc/hadoop目录中编辑mapred-site

25、.xmlhtml view plaincopy1. <configuration>  2. <configuration>  3.        <property>  4.                <name>mapreduce.framework.na

26、me</name>  5.                <value>yarn</value>  6.                <description>yarn,local,classic</de

27、scription>  7.        </property>  8.        <property>  9.                <name>mapreduce.jobhistory.ad

28、dress</name>  10.                <value>master:10020</value>  11.        </property>  12.        <

29、property>  13.                <name>mapreduce.jobhistory.webapp.address</name>  14.                <value>mas

30、ter:19888</value>  15.        </property>  16.    </configuration>      (6)编辑yarn-site.xmlhtml view plaincopy1. <configuration>  2. <property>  3. <

31、;name>yarn.resourcemanager.address</name>  4. <value>host:port</value>/本机的Ip地址或者域名,端口自己设置  5. <description>the host is the hostname of the ResourceManager and the port is the port on&

32、#160; 6.  which the clients can talk to the Resource Manager. </description>  7. </property>  8. <property>  9. <name>yarn.resourcemanager.scheduler.address</name>  10. <va

33、lue> host:port </value>/本机的Ip地址或者域名,端口自己设置  11. <description>host is the hostname of the resourcemanager and port is the port  12.     on which the Applications 

34、;in the cluster talk to the Resource Manager.  13.  </description>  14. </property>  15. <property>  16. <name>yarn.resourcemanager.resource-tracker.address</name>  17. <value&g

35、t; host:port </value>/本机的Ip地址或者域名,端口自己设置  18.  <description>host is the hostname of the resource manager and  19.     port is the port on which the NodeManage

36、rs contact the Resource Manager.  20.  </description>  21. </property>  22. <property>  23. <name>yarn.resourcemanager.admin.address</name>  24. <value> host:8033 </value>/本

37、机的Ip地址或者域名,端口自己设置  25.  <description>host is the hostname of the resource manager and  26.     port is the port on which the NodeManagers contact the Resource&

38、#160;Manager.  27.  </description>  28. </property>  29. <property>  30. <name>yarn.resourcemanager.webapp.address</name>  31. <value> host:8088 </value>/本机的Ip地址或者域名,端口自己设置  32.  

39、;<description>host is the hostname of the resource manager and  33.     port is the port on which the NodeManagers contact the Resource Manager.  34.  <

40、;/description>  35. </property>  36. <property>  37. <name>yarn.nodemanager.aux-services</name>  38. <value>mapreduce.shuffle</value>  39. </property>  40. <property>  41. <nam

41、e>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  42. <value>org.apache.hadoop.mapred.ShuffleHandler</value>  43. </property>  44. <property>  45. <name>yarn.resourcemanager.admin.address</name> &

42、#160;46. <value>master:8033</value>  47. </property>  48. <property>  49. <name>yarn.resourcemanager.webapp.address</name>  50. <value>master:8088</value>  51. </property>  52. </conf

43、iguration>  5.配置masters和slaves文件    (1)如果etc/hadoop目录下没有masters文件,则新建一个,并添加集群的主节点名称或者IP,最好和之前的配置格式一致,同为IP或者同为主机名称    比如:本文配置的masters文件内容为(master为某个主节点名称)    master    (2)修改slaves文件,添加所有slave机器的名称或IP     比如:本文配置的slaves文件内容为(由于配置

44、的是伪分布式集群,所以内容和masters文件一样)    master6.如果有多个slaves机器,则需要把配置好的Hadoop文件分发到各个节点相同路径下,修改profile文件和master一致,修改hosts文件,增加所有    的机器名称和IP对应关系,同时确保各个节点上Hadoop目录的权限,操作用户对Hadoop目录有拥有权    按以上的配置修改好集群的节点后,最好重启所有节点,确保所有配置文件生效7.格式化namenode    hadoop nameno

45、de -format8.启动Hadoop    ./sbin/start-all.sh9.查看是否启动成功   (1) 如果是单机伪分布式集群    执行 jps 命令,输出类似如下,则说明安装成功8451 SecondaryNameNode8721 NodeManager8592 ResourceManager9384 Jps8152 NameNode8282 DataNode   (2) 如果是多个几点的分布式集群    在主节点执行jps命令时,只有    &

46、#160;   8451 SecondaryNameNode        8592 ResourceManager        9384 Jps        8152 NameNode    而在slave机器执行命令时,只有        9384 Jps        8282 DataNode   

47、;     8721 NodeManager10.关闭Hadoop    ./sbin/stop-all.sh六、安装spark1.x1.下载安装包    官网地址: /downloads.html    本文使用的是spark1.0.02.解压压缩包到指定目录    tar -zxvf spark-1.0.0.tar.gz -C 指定目录(假设为sparkpath)3.修改profile文件    vi /etc/profile    添加以下内容    export SPARK_HOME=sparkpath    export PATH=$PATH:$SPARK_HOME/bin4.编辑spark安装目录下con

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论