版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一、安装spark依赖的内容1.JDK spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python、java、Scala编写的代码 - scala编译器编译解释,生成class文件 - 由jvm负责执行class文件(与java代码执行一致)2.scala 由于spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译3.配置SSH免密码登录 集群节点无密码访问,与安装Hadoop时一致4.安装Hadoop hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on y
2、arn,则Hadoop需要安装yarn版本的5.安装spark 安装spark,执行spark代码二、JDK安装1.下载地址 用户可以在官网下载相应版本的JDK,本例使用JDK1.6,下载地址为: development kit的bin包2.下载后,在相应的目录下执行bin文件(假设JDK目录是jdkpath) ./jdk-6u45-linux-i586.bin3.配置环境变量,修改/etc/profile文件增加以下内容 export JAVA_HOME= $jdkpath export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_H
3、OME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar4.生效profile(或者重启机器) source /etc/profile5.终端输入 java -version 输出类似如下说明安装成功 三、安装Scala1.下载地址 官网下载地址:/download/all.html 本例使用的是Scala 2.9.32.在安装目录下解压(假设Scala目录是scalapath) tar -zxvfscala-2.9.3.tgz3.配置环境变量,修改/etc
4、/profile文件增加以下内容 export SCALA_HOME= $scalapath export PATH=$SCALA_HOME/bin:$PATH4.生效profile(或者重启机器) source /etc/profile四、配置SSH免密码登陆首先,需要配置各个机器间的相互访问:1、配置ssh的自动登陆(在master机上):$ssh-keygen-tdsa-P”-f/.ssh/id_dsa完成后会在/.ssh/(用户目录下)生成两个文件:id_dsa和id_dsa.pub。再把id_dsa.pub追加到授权key里面(当前并没有authorized_keys文件):$cat
5、/.ssh/id_dsa.pub/.ssh/authorized_keys完成后可以实现无密码登录本机:$sshlocalhost2、把master上的id_dsa.pub文件追加到slaves机器的authorized_keys内(以slaves1节点为例):#拷贝master的id_dsa.pub文件(在master号机器上执行)$scpid_dsa.pubredmap:/home/redmap/注:(只需在主节点上运行ssh-kegen程序。其他节点的目录结构创建后,将刚才在主节点创建的keys通过scp拷贝到从节点的同样的目录上。)我们在实际执行中是手动把id_d
6、sa.pub拷贝到其他slaves的节点中,而不是用scp命令。最好是直接手动拷贝过去,这样文件的权限是一致的。登录,进入用户目录下执行:$catid_dsa.pub.ssh/authorized_keys之后可以在master上不输入密码直接SSH访问slaves1五、安装Hadoop2.x1.下载Hadoop 下载地址 本文使用hadoop-2.5.2.tar2.解压压缩包到指定目录 tar -zxvf hadoop-2.5.2.tar -C /usr/local (目录自定义) 如果需要修改拥有者 chown -R hduser:hadoophadoop-2.5.2
7、3.配置环境变量 编辑profile文件 vi /etc/profile 在profile文件增加以下内容 pythonview plaincopy1. exportHADOOP_HOME=/home/root/hadoop-2.5.2(安装路径)2. exportPATH=$PATH:$HADOOP_HOME/bin3. 4. exportPATH=$PATH:$HADOOP_HOME/sbin5. 6. exportHADOOP_MAPRED_HOME=$HADOOP_HOME7. 8. exportHADOOP_COMMON_HOME=$HADOOP_HOME9. 10. exportH
8、ADOOP_HDFS_HOME=$HADOOP_HOME11. 12. exportHADOOP_YARN_HOME=$HADOOP_HOME4.编辑配置文件 (1)进入Hadoop安装路径下的/etc/hadoop目录 (2)配置Hadoop-env.sh文件 增加 export JAVA_HOME=.(java JDK安装路径) (3)修改hadoop安装目录下/etc/hadoop目录中的core-site.xmlhtmlview plaincopy1. 2. 3. io.native.lib.available4. true5. 6. 7. 8. hdfs
9、:/host:9000/本机的Ip地址或者域名,端口自己设置9. Thenameofthedefaultfilesystem.Eithertheliteralstringlocalorahost:portforNDFS.10. true11. 12. 13. hadoop.tmp.dir14. file:/home/tmp15. 16. (4)在etc/hadoop目录中编辑hdfs-site.xmlhtmlview plaincopy1. 2. 3. .dir4. file:/usr/hadoop23/dfs/name/本机保存name数据的目录,自定义5.
10、 DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable.Ifthisisacomma-delimitedlistofdirectories,thennametableisreplicatedinallofthedirectories,forredundancy.6. true7. 8. 9. dfs.datanode.data.dir10. file:/us/hadoop23/dfs/data/本机保存data数据的目录,自定义11. Determineswhereonthelocalfilesyste
11、manDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-delimitedlistofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.12. 13. true14. 15. 16. dfs.replication17. 118. 19. 20. dfs.permission21. false22. 23. 24. dfs.webhdfs.enabled25. tru
12、e26. 27. 路径file:/usr/hadoop23/dfs/name与file:/usr/hadoop23/dfs/data是计算机中的一些文件夹,用于存放数据和编辑文件的路径必须用一个详细的URI描述。(5)在etc/hadoop目录中编辑mapred-site.xmlhtmlview plaincopy1. 2. 3. 4. 5. yarn6. yarn,local,classic7. 8. 9. mapreduce.jobhistory.address10. master:1002011. 12. 13. mapreduce.job
13、history.webapp.address14. master:1988815. 16. (6)编辑yarn-site.xmlhtmlview plaincopy1. 2. 3. yarn.resourcemanager.address4. host:port/本机的Ip地址或者域名,端口自己设置5. thehostisthehostnameoftheResourceManagerandtheportistheporton6. whichtheclientscantalktotheResourceManager.7. 8. 9. yarn.resourcemanager.scheduler.
14、address10. host:port/本机的Ip地址或者域名,端口自己设置11. hostisthehostnameoftheresourcemanagerandportistheport12. onwhichtheApplicationsintheclustertalktotheResourceManager.13. 14. 15. 16. yarn.resourcemanager.resource-tracker.address17. host:port/本机的Ip地址或者域名,端口自己设置18. hostisthehostnameoftheresourcemanagerand19.
15、portistheportonwhichtheNodeManagerscontacttheResourceManager.20. 21. 22. 23. yarn.resourcemanager.admin.address24. host:8033/本机的Ip地址或者域名,端口自己设置25. hostisthehostnameoftheresourcemanagerand26. portistheportonwhichtheNodeManagerscontacttheResourceManager.27. 28. 29. 30. yarn.resourcemanager.webapp.addr
16、ess31. host:8088/本机的Ip地址或者域名,端口自己设置32. hostisthehostnameoftheresourcemanagerand33. portistheportonwhichtheNodeManagerscontacttheResourceManager.34. 35. 36. 37. yarn.nodemanager.aux-services38. mapreduce.shuffle39. 40. 41. yarn.nodemanager.aux-services.mapreduce.shuffle.class42. org.apache.hadoop.map
17、red.ShuffleHandler43. 44. 45. yarn.resourcemanager.admin.address46. master:803347. 48. 49. yarn.resourcemanager.webapp.address50. master:808851. 52. 5.配置masters和slaves文件 (1)如果etc/hadoop目录下没有masters文件,则新建一个,并添加集群的主节点名称或者IP,最好和之前的配置格式一致,同为IP或者同为主机名称 比如:本文配置的masters文件内容为(master为某个主节点名称) master (2)修改sla
18、ves文件,添加所有slave机器的名称或IP 比如:本文配置的slaves文件内容为(由于配置的是伪分布式集群,所以内容和masters文件一样) master6.如果有多个slaves机器,则需要把配置好的Hadoop文件分发到各个节点相同路径下,修改profile文件和master一致,修改hosts文件,增加所有 的机器名称和IP对应关系,同时确保各个节点上Hadoop目录的权限,操作用户对Hadoop目录有拥有权 按以上的配置修改好集群的节点后,最好重启所有节点,确保所有配置文件生效7.格式化namenode hadoop namenode -format8.启动Hadoop ./s
19、bin/start-all.sh9.查看是否启动成功 (1) 如果是单机伪分布式集群 执行 jps 命令,输出类似如下,则说明安装成功8451 SecondaryNameNode8721 NodeManager8592 ResourceManager9384 Jps8152 NameNode8282 DataNode (2) 如果是多个几点的分布式集群 在主节点执行jps命令时,只有 8451 SecondaryNameNode 8592 ResourceManager 9384 Jps 8152 NameNode 而在slave机器执行命令时,只有 9384 Jps 8282 DataNod
20、e 8721 NodeManager10.关闭Hadoop ./sbin/stop-all.sh六、安装spark1.x1.下载安装包 官网地址:/downloads.html 本文使用的是spark1.0.02.解压压缩包到指定目录 tar -zxvf spark-1.0.0.tar.gz -C 指定目录(假设为sparkpath)3.修改profile文件 vi /etc/profile 添加以下内容 export SPARK_HOME=sparkpath export PATH=$PATH:$SPARK_HOME/bin4.编辑spark安装目
21、录下conf/spark-env.sh文件,增加以下参数 export SCALA_HOME=scalahome export JAVA_HOME=jdkhome export SPARK_MASTER_IP=master export SPARK_WORKER_MEMORY=256m (自定义,每个worker节点可用内存) export MASTER=spark:/master:7077 (master地址)5.编辑conf/slaves文件 增加所有worker节点的主机名或IP,最好所有的配置都统一为机器名6.启动spark集群 ./sparkpath/sbin/start-all.sh 如果只是一个伪分布式的集群执行jps命令时,会多出两个进程2222222 显示如上图所示,则说明配置成功,相应进程都启动 如果是多个节点的spark集群 则在master机器上只有 333333
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海师范大学《数字电子技术课程设计》2023-2024学年第一学期期末试卷
- 浙江省五校联盟2025届高三12月联考 生物试题(含答案)
- 课题申报书:岗位胜任力视域下基于知识图谱的适应性教学模式研究
- 课题申报书:多源异质海量数据的分布式高维分位数回归及其应用
- 课题申报书:多元办学形式下幼儿园发展途径研究
- 上海欧华职业技术学院《功能涂镀》2023-2024学年第一学期期末试卷
- 上海农林职业技术学院《幼儿园教育评价》2023-2024学年第一学期期末试卷
- 上海闵行职业技术学院《噪声与振动控制》2023-2024学年第一学期期末试卷
- 上海立达学院《管理会计与控制(双语)》2023-2024学年第一学期期末试卷
- 上海科技大学《数字媒体基础创作》2023-2024学年第一学期期末试卷
- 12二年级《跳跃:多种形式跳跃的练习方法》
- 电动给水泵液力耦合器基础知识ppt课件
- 样品管理控制流程图
- 超实用-组合房贷计算表
- 屋面细石混凝土保护层施工方案及方法
- 西方经济学考试题库含答案
- 监理公司各部门职责
- 论辛弃疾词作的愁情主题及其审美价值
- 新形势下我国保险市场营销的现状、问题及对策
- 完整版焦虑抑郁自评量表SASSDS
- ISO14001内审检查表
评论
0/150
提交评论