Hadoop集群搭建步骤_第1页
Hadoop集群搭建步骤_第2页
Hadoop集群搭建步骤_第3页
Hadoop集群搭建步骤_第4页
Hadoop集群搭建步骤_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop集群搭建目录Hadoop集群搭建1目录11、 基础集群环境搭建11.1、 安装JDK11.2、 修改主机名称,关闭防火墙21.3、 添加内网域名映射21.4、 配置免密码登录22、 Hadoop集群环境安装32.1、Hadoop版本选择32.2、安装Hadoop32.2.1、Hadoop伪分布式模式安装32.2.2、Hadoop分布式集群安装43、 集群初步使用73.1、Hadoop集群启动73.2、HDFS集群初步使用74、 Hadoop集群安装高级知识74.1、Hadoop HA 安装71、 基础集群环境搭建1.1、 安装JDK1、 上传jdk-8u151-linux-x64.tar.gz/usr rz2、 解压到usr目录下tar -zxvf jdk-8u151-linux-x64.tar.gzmv jdk原名 jdk1.8.0 (便于后期输入)3、 配置环境变量(1) vim /etc/profile(2) 在最后加入:JAVA_HOME=/usr/java1.8PATH=$JAVA_HOME/bin:$PATHexport JAVA_HOME PATH(3) 保存退出4、 source /etc/profile5、 检测是否安装成功,输入命令:java -version做完以上步骤,可以开始克隆虚拟机。因为以上系统的配置,都是一些基础性的操作。都是必须的1.2、 修改主机名称,关闭防火墙1、 root账号下使用命令:hostnamectl set-hostname hadoop022、 Xshell关闭连接窗口,重新连接即可更改过来3、 关闭防火墙(CentOS7)(1) firewall-cmd -state #查看防火墙状态(2) systemctl stop firewalld.service #停止firewall(3) systemctl disable firewalld.service #禁止firewall开机启动三台都做1.3、 添加内网域名映射1、 修改配置文件:vim /etc/hosts发送到另外两台上面1.4、 配置免密码登录1、 在root登录状态下,输入命令 ssh-keygen 或者 ssh-keygen -t rsa 三台都要2、 之后你会发现,在/root/.ssh 目录下生成了公钥文件3、 使用一个简单的方式,使用命令:ssh-copy-id hadoop02建立hadoop01到hadoop02的免密码登录,三台都做,包括免密自己2、 Hadoop集群环境安装2.1、Hadoop版本选择1、Apache官方版本:1.X2.X.53.0.12、商业发行版本提供完善的管理系统,修复bug可能会领先于官方版本Cloudera公司的CDH:5.7.X2.2、安装Hadoop2.2.1、Hadoop伪分布式模式安装(不弄)Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点即作为NameNode也作为DataNode,同时,读取的是HDFS中的文件。Hadoop的配置文件位于hadoop-2.7.5/etc/hadoop/文件夹中,伪分布式需要修改两个配置文件core-site.xml和hdfs-site.xml(其中hdfs-site.xml用来配置数据块的副本数量,对于伪分布式来说,不管你配置几个副本数量,它始终都只有一个副本,所以可以不用管)。Hadoop分配置文件是xml格式,每个配置文件以声明property的name和value的方式来实现1、 修改hadoop-env.sh配置文件,添加jdk安装目录roothadoop01 hadoop# vim hadoop-env.sh2、 修改core-site.xml fs.defaultFS hdfs:/hadoop01:9000 hadoop.tmp.dir /opt/hadoop-2.7.5/temp 3、 修改slaveshadoop014、 添加hadoop环境变量:vim /etc/profileHADOOP_HOME=/home/hadoop-2.7.5PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport HADOOP_HOME PATH5、 格式化namenoderoothadoop01 hadoop#hadoop namenode -format6、 启动hdfsroothadoop01 hadoop#start-dfs.sh7、 检查是否启动成功(1) 利用jps工具检测各进程是否启动成功(2) 利用web UI 查看http:/hadoop01:500702.2.2、Hadoop分布式集群安装集群规划:HDFSYARNhadoop01NameNode+DataNode 主节点NodeManagerhadoop02DataNode+SecondaryNamenodeNodeManagerhadoop03DataNodeNodeManager+ResourceManager主节点总共三个datanode节点,设置副本数为2,是为了观察数据块分布方便,各自可根据自身机器决定。具体步骤:1、 上传安装包,并解压到相关目录 /tar -zxvf hadoop-2.7.5.tar.gz -C /home/ /usr rz tar -zxvf hadoop-2.7.5.tar.gz2、 主要配置文件的配置1 修改hadoop-env.sh export JAVA_HOME=/usr/jdk1.8 2 修改core-site.xml fs.defaultFS hdfs:/hadoop01:9000 hadoop.tmp.dir /opt/hadoop-2.7.5/temp 3 修改hdfs-site.xml node.http-address hadoop01:50070 node.secondary.http-address hadoop02:50090 .dir /opt/hadoop-2.7.5/hdfs/name dfs.replication 2 dfs.datanode.data.dir /opt/hadoop-2.7.5/hdfs/data dfs.permissions false 4 修改mapred-site.xml(集群中只有mapred-site.xml.template,可以从这个文件进行复制,或者直接改名也可以) yarn 5 修改yarn-site.xml yarn.resourcemanager.hostnamehadoop03yarn.nodemanager.aux-servicesmapreduce_shuffle 6 修改slaves文件,添加以下内容,该内容是从节点列表,把上面的localhost去掉 hadoop01 hadoop02 hadoop038、 添加hadoop环境变量:vim /etc/profileHADOOP_HOME=/home/hadoop-2.7.5PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport HADOOP_HOME PATH3、 分发安装包到各个节点,Hadoop的每个节点都需要hadoop安装包 scp -r hadoop-2.7.5 roothadoop02:$PWD scp -r hadoop-2.7.5 roothadoop03:$PWD分发profile到各个节点同时在三台上 source /etc/profile4、 在HDFS主节点上执行命令进行初始化namenodehadoop namenode -format5、 在HDFS主节点上启动HDFS,其实在哪个节点启动并无关系start-dfs.sh结果:在主节点启动了NameNode守护进程 在从节点启动了DataNode守护进程 在配置的一个特定节点上会启动SecondaryNameNode进程用jps检查线程,正常情况下是 master 有 name data node01 有 data secondary node02 有 data6、 检测集群是否启动成功1、 检测hdfs是否启动成功 hadoop fs -ls /2、 Hdfs集群信息web管理界面地址 http:/hadoop01:500701.如果遇到一台都没有的情况,可能是信息不对称的情况,可以先查看jps 并且杀死所有线程 Kill -9 线程编号 或者直接 stop-dfs.sh 关掉集群 然后再去删 /opt/Hadoop-2.7.5 再重新格式化 cd /opt/ rm -rf hadoop-2.7.5 三台都把opt目录下的 hadoop-2.7.5删掉重新初始化 hadoop namenode -format 在用jps查看线程3、 集群初步使用3.1、Hadoop集群启动DFS集群启动:start-dfs.shDFS集群关闭:stop-dfs.shYARN集群启动:start-dfs.shYARN集群关闭:stop-dfs.sh3.2、HDFS集群初步使用查看集群文件:hadoop fs -ls /上传文件:hadoop fs -put filepath destpath下载文件:hadoop fs -get destpath创建文件夹:hadoop fs -mkdir /hadoopdata查看文件内容:hadoop fs -cat /hadoopdata/myfile.txt4、 Hadoop集群安装高级知识4.1、Hadoop HA 安装为什么会有hadoop HA机制?HA:High Available 高可用。在hadoop2.0之前,在HDFS集群中NameNode存在单节点故障(SPOF:A Single Point of Failure)。对于只有一个NameNode的集群,如果NameNode机器出现故障(比如宕机或是软件、硬件升级),那么整个集群将无法使用,直到NameNode重新启动。那如何解决?HDFS中HA功能通过配置Active/Standby两个NameNodes。在任何时间点,确保NameNodes中只有一个处于Active状态,其他处在Standby状态。其中ActiveNameNode负责集群中的所有客户端操作,StandbyNameNode仅仅充当备机,保证一旦ActiveNameNode出现问题能够快速切换。为了能够实时同步 Active 和 Standby 两个 NameNode 的元数据信息(实际上 editlog),需提 供一个共享存储系统,可以是 NFS、QJM(Quorum Journal Manager)或者 Zookeeper,Active Namenode 将数据写入共享存储系统,而 Standby 监听该系统,一旦发现有新数据写入,则 读取这些数据,并加载到自己内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论