单元3 任务3.1搭建Hadoop集群_第1页
单元3 任务3.1搭建Hadoop集群_第2页
单元3 任务3.1搭建Hadoop集群_第3页
单元3 任务3.1搭建Hadoop集群_第4页
单元3 任务3.1搭建Hadoop集群_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据平台部署与运维》单元3Hadoop集群搭建任务3.1搭建Hadoop集群01Hadoop集群的特点02Hadoop集群规划学习目标03Hadoop集群部署的过程任务3.1搭建Hadoop集群【任务场景】经理:小张,我们业务现在增长速度非常快,我们现在单台服务器已经满足不了数据的存储了,我们考虑下后期如何处理。小张:经理,我们的业务数据非结构化数据占大多数,我们可以搭建一套分布式存储来存储数据。经理:我们现在业务系统反应越来越慢,尤其是在业务高峰期的时候,感觉特别迟钝了,你也考虑一下解决方案。小张:我们的业务是做数据处理的,我们现在数据量非常庞大,业务处理起来压力非常大。我们可以上线一套Hadoop集群,它的HDFS可以将多台服务器组成一个文件系统,用来存储我们的数据,YARN+MapReduce可以将我们的任务分解到不同的服务器上执行,来提高效率。经理:这个方案听起来不错,你根据我们的业务情况规划一套Hadoop集群,并搭建起来吧。小张:好的,那我先搭建一套环境验证一下,评估没有问题后上线吧。任务3.1搭建Hadoop集群【任务布置】了解Hadoop集群的体系架构,总结Hadoop集群的优缺点。规划Hadoop集群,并搭建Hadoop集群。任务3.1搭建Hadoop集群3.1.1什么是集群集群是一组相互独立的、通过高速计算机网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。计算机集群简称集群是一种计算机系统,它通过一组松散集成的计算机软件/硬件连接起来高度紧密地协作完成计算工作。Hadoop作为大数据计算框架,核心关键点就是分布式集群架构,基于集群环境,大规模的数据处理任务成为可能。Hadoop的守护进程分别运行在由多个主机搭建的集群上,不同节点担任不同的角色。任务3.1搭建Hadoop集群3.1.2Hadoop集群的特点Hadoop是一个能够让用户轻松上手的用于大规模数据处理的分布式计算平台,用户可以在Hadoop上存储海量数据,并可以轻松的在Hadoop上运行处理海量数据的应用程序。集群特点如下:高可靠性高扩展性高效性高容错性本地计算低成本可在廉价机器上运行任务3.1搭建Hadoop集群3.1.2Hadoop集群规划在集群规划中,需要对每一个守护进程的部署节点进行规划。HDFS守护进程包括NameNode、SecondaryNameNode和DataNode。Yarn守护进程是ResourceManager、NodeManager。进程名称描述NameNode分布式文件系统用于存储文件系统以及数据块的元数据。SecondaryNamenode在HDFS中提供一个检查点。它是NameNode的一个助手节点,帮助NameNode进行Edits和Fsimage的合并工作。DataNodeHDFS的数据节点ResorceManagerResourceManager是Yarn集群主控节点,负责协调和管理整个集群(所有NodeManager)的资源。NodeManager管理一个YARN集群中的每一个节点。比如监视资源使用情况(CPU,内存,硬盘,网络),跟踪节点健康等。任务3.1搭建Hadoop集群3.1.3Hadoop集群规划通常在一个集群中,会选择一个节点作为Master节点,运行NameNode、SecondaryNameNode和NodeManager,其他节点作为Worker节点,运行DataNode和NodeManager。对于大型集群,NameNode、SecondaryNameNode和NodeManager会分布在不同服务器上,他们独占硬件设备来保证性能,集群中其余节点运行DataNode和NodeManager,这些都是Worker节点。任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程0102030405操作系统选择配置SSH免密登录设置主机名和hosts文件禁用selinux关闭防火墙06配置时间同步任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程Hadoop软件选择我们采用ApacheHadoop3.1.1版本,其属于开源软件,可直接从ApacheHadoop官网下载。Java的选择ApacheHadoop3.0版本到3.2版本仅支持java8。Hadoop配置文件,Hadoop的运行有两类重要的配置文件:只读默认的配置文件:core-default.xml,hdfs-default.xml,yarn-default.xml和mapred-default.xml基于站点的配置文件:etc/hadoop/core-site.xml,etc/hadoop/hdfs-site.xml,etc/hadoop/yarn-site.xml和etc/hadoop/mapred-site.xml此外,用户可通过etc/hadoop/hadoop-env.sh、etc/hadoop/mapred-env.sh和etc/hadoop/yarn-env.sh来配置Hadoop运行的环境变量。任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程配置Hadoop环境变量Hadoop运行的环境变量与服务器底层的环境变量有区别,因此需要进行修改配置。如配置Hadoop运行的环境变量,需要修改etc/hadoop/hadoop-env.sh,并加入以下内容: 其次在操作系统层面的shell环境配置HADOOP_HOME也是非常必要的,需在操作系统的/etc/profile中添加如下配置:...exportJAVA_HOME=<java的安装目录>...exportHADOOP_HOME=<Hadoop的安装目录>任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程Hadoop配置文件参数介绍etc/hadoop/core-site.xml配置文件中Hadoop的常用配置参数配置项配置内容说明fs.defaultFSNameNodeRUIHdfs://host:port/io.file.buffer.size131072SequenceFiles中使用的读/写缓冲区的大小(单位:字节)任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程Hadoop配置文件参数介绍etc/hadoop/hdfs-site.xml配置文件中NameNode和DataNode的常用配置参数配置项配置内容说明.dirNameNode持久存储命名空间和事务日志的本地文件系统上的路径。如果这是一个以逗号分隔的目录列表,则名称表将复制到所有目录中,以实现冗余dfs.blocksize268435456大型文件系统的HDFS块大小为256MB(单位:字节)node.handler.count100更多的NameNode服务器线程来处理来自大量DataNode的RPCdfs.datanode.data.dir逗号分隔的DataNode本地文件系统上的路径列表,它应该在其中存储其块.如果这是逗号分隔的目录列表,则数据将存储在所有命名目录中,通常存储在不同的设备上任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程Hadoop配置文件参数介绍etc/hadoop/yarn-site.xml配置文件中ResourceManager的常用配置参数配置项配置内容说明yarn.resourcemanager.hostnameResourceManager主机ResourceManager主机地址,组件的端口采用默认端口yarn.resourcemanager.scheduler.classResourceManager调度程序类CapacityScheduler(推荐)、FairScheduler(推荐)或FifoScheduler。使用完全限定的类名yarn.scheduler.minimum-allocation-mb在资源管理器中分配给每个容器请求的最小内存限制以MB为单位yarn.scheduler.maximum-allocation-mb在资源管理器分配给每个容器请求的最大内存限制以MB为单位任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程Hadoop配置文件参数介绍etc/hadoop/yarn-site.xml配置文件中ResourceManager的常用配置参数配置项配置内容说明yarn.nodemanager.resource.memory-mbNodeManager的可用物理内存,以MB为单位定义NodeManager上可供运行容器使用的总可用资源yarn.nodemanager.vmem-pmem-ratio任务虚拟内存使用量可能超过物理内存的最大比率每个任务的虚拟内存使用量可能会超过其物理内存限制这个比例yarn.nodemanager.local-dirs本地文件系统上写入中间数据的路径多条路径有助于分散磁盘I/O,使用SSD硬盘可提高性能yarn.nodemanager.aux-servicesMapreduce_shuffle需要为MapReduce应用程序设置的Shuffle服务任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程Hadoop配置文件参数介绍etc/hadoop/yarn-site.xml配置文件中ResourceManager的常用配置参数配置项配置内容说明yarn.nodemanager.resource.memory-mbNodeManager的可用物理内存,以MB为单位定义NodeManager上可供运行容器使用的总可用资源yarn.nodemanager.vmem-pmem-ratio任务虚拟内存使用量可能超过物理内存的最大比率每个任务的虚拟内存使用量可能会超过其物理内存限制这个比例yarn.nodemanager.local-dirs本地文件系统上写入中间数据的路径多条路径有助于分散磁盘I/O,使用SSD硬盘可提高性能yarn.nodemanager.aux-servicesMapreduce_shuffle需要为MapReduce应用程序设置的Shuffle服务任务3.1搭建Hadoop集群3.1.4Hadoop集群部署的过程Worker节点配置

Worker节点配置,对应配置文件为etc/hadoop/workers,需将worker节点信息填入。任务3.1搭建Hadoop集群【工作流程】Hadoop完全分布式集群部署工作流程包括:1.Hadoop集群规划2.操作系统准备3.部署Hadoop集群4.启动Hadoop集群5.验证Hadoop集群任务3.1搭建Hadoop集群【操作步骤】1.Hadoop集群规划:本章节将详细地演示在服务器上搭建Hadoop完全分布式集群的过程,Hadoop的版本选择3.1.1,为了保障顺利的部署并运行Hadoop集群,并可以进行基本的大数据开发调试,建议服务器节点的最低配置为:4核以上的处理器,8GB以上的内存和至少100GB的硬盘空间。节点数量为3台。节点类型节点名称IP地址组件Mastermaster0111NameNodeSecondaryNameNodeResourceManagerWorkerworker0112DataNodeNodeManagerWorkerworker0213DataNodeNodeManager任务3.1搭建Hadoop集群【操作步骤】2.操作系统准备:(1)首先在各节点上安装Centos7.X操作系统。

操作系统可在CentOS官网下载。(2)为每个节点配置IP地址。查看网卡信息,找到需要配置IP地址的网卡

[root@localhost~]#ipa

配置IP地址,其中ens192为网卡名,硬件配置不同,网卡名称亦不同,网络地址根据实际情况配置。

[root@localhost~]#vim/etc/sysconfig/network-scripts/ifcfg-ens192...BOOTPROTO=staticONBOOT=yesIPADDR=11NETMASK=GATEWAY=重启网络使配置生效[root@localhost~]#systemctlrestartnetwork任务3.1搭建Hadoop集群【操作步骤】2.操作系统准备:(3)配置ssh免密码登录

在master01节点生成密钥[root@localhost~]#ssh-keygen-trsa

将公钥传递给本机和其他节点[root@localhost~]#ssh-copy-id11[root@localhost~]#ssh-copy-id12[root@localhost~]#ssh-copy-id13

传递完成后,再通过ssh方式登录其他节点,可不用输入密码直接登录。任务3.1搭建Hadoop集群【操作步骤】2.操作系统准备:(4)配置主机名及编写hosts文件

所有节点都需要配置主机名,以master01节点为例配置主机名。

[root@localhost~]#hostnamectlset-hostnamemaster01

配置完成后,退出并重新登录系统,即可显示主机名。

在master01节点配置hosts文件。

[root@master01~]#vim/etc/hosts

localhostlocalhost.localdomainlocalhost4localhost4.localdomain4

::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6

11master01

12worker01

13worker02将master01节点的hosts文件分发给worker01和worker02节点。[root@master01~]#scp/etc/hostsworker01:/etc/hosts[root@master01~]#scp/etc/hostsworker02:/etc/hosts任务3.1搭建Hadoop集群【操作步骤】2.操作系统准备:(5)所有节点禁用selinux

[root@master01~]#vim/etc/selinux/config

SELINUX=disabled

[root@localhost~]#reboot(6)所有节点关闭防火墙[root@master01~]#systemctlstopfirewalld

[root@master01~]#systemctldisablefirewalld任务3.1搭建Hadoop集群【操作步骤】2.操作系统准备:(7)配置时间同步服务

Master01节点配置时间同步server端[root@master01~]#vim/etc/chrony.confservermaster01iburstdriftfile/var/lib/chrony/driftmakestep1.03rtcsyncallow/24localstratum10logdir/var/log/chrony

重启并查看是否可更新时间[root@master01~]#systemctlrestartchronyd[root@master01~]#chronycsources-v其他节点配置master01作为时间服务器[root@worker01~]#vim/etc/chrony.confservermaster01iburstdriftfile/var/lib/chrony/driftmakestep1.03rtcsynclogdir/var/log/chrony

重启并查看是否可更新时间[root@worker01~]#systemctlrestartchronyd[root@worker01~]#chronycsources-v任务3.1搭建Hadoop集群【操作步骤】3.部署Hadoop集群:(1)配置JAVA环境所有节点都需要安装java环境。[root@master01~]#yuminstall-yjava-1.8.0-openjdk*(2)下载并解压Hadoop安装包

Hadoop安装在可在Apache官网下载,Hadoop版本为hadoop-3.1.1。[root@master01~]#cd/opt/[root@master01~]#tar-zxvfhadoop-3.1.1.tar.gz[root@master01~]#mvhadoop-3.1.1/opt/hadoop

因设备硬件配置一样,Hadoop的配置也一致,可在master01上统一修改配置,配置修改完成后,可将安装包统一分发到其他节点。任务3.1搭建Hadoop集群【操作步骤】3.部署Hadoop集群:(3)设置Hadoop运行的环境变量

[root@master01hadoop]#vim/opt/hadoop/etc/hadoop/hadoop-env.sh

exportJAVA_HOME=/usr/lib/jvm/java

exportHADOOP_HOME=/opt/hadoop

在hadoop-env.sh中配置操作用户[root@master01hadoop]#vim/opt/hadoop/etc/hadoop/hadoop-env.shexportHDFS_NAMENODE_USER="root"exportHDFS_DATANODE_USER="root"exportHDFS_SECONDARYNAMENODE_USER="root"exportYARN_RESOURCEMANAGER_USER="root"exportYARN_NODEMANAGER_USER="root"任务3.1搭建Hadoop集群【操作步骤】3.部署Hadoop集群:(4)设置Hadoopcore-site配置[root@master01hadoop]#vim/opt/hadoop/etc/hadoop/core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://master01:9000</value><description>hdfs主节点</description></property><property><name>hadoop.tmp.dir</name><value>/hadoop/namenode/tmp</value><description>hadoop运行过程中产生的临时文件保存目录</description></property></configuration>任务3.1搭建Hadoop集群【操作步骤】3.部署Hadoop集群:(5)修改hdfs-site.yml配置文件,修改NameNode和DataNode配置[root@master01hadoop]#vim/opt/hadoop/etc/hadoop/hdfs-site.yml<configuration><property><name>.dir</name><value>/hadoop/namenode/data</value><description>namenode上存储hdfs名字空间元数据</description></property><property><name>dfs.data.dir</name><value>/hadoop/datanode/data01,/hadoop/datanode/data02</value><description>datanode上数据块的物理存储位置</description></property><property><name>dfs.replication</name><value>2</value><description>副本数量。</description></property><property><name>node.secondary.http-address</name><value>master01:50090</value><description>SecondaryNamenode运行的节点</description></property></configuration>任务3.1搭建Hadoop集群【操作步骤】3.部署Hadoop集群:(6)修改yarn-site.yml配置文件,修改ResorceManager和NodeManager配置[root@master01hadoop]#vim/opt/hadoop/etc/hadoop/yarn-site.xml<configuration><property><name>yarn.resourcemanager.hostname</name><value>master01</value><description>resourcemanager运行节点</description></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value><description>YARN集群为MapReduce程序提供的shuffle服务</description></property></configuration>任务3.1搭建Hadoop集群【操作步骤】3.部署Hadoop集群:(6)修改yarn-site.yml配置文件,修改ResorceManager和NodeManager配置添加yarn.application.classpath参数,此参数值获取方法如下:[root@master01hadoop]#hadoopclasspath/opt/hadoop/etc/hadoop:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/share/hadoop/hdfs:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/share/hadoop/yarn:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/share/hadoop/yarn/*<property><name>yarn.application.classpath</name><value>/opt/hadoop/etc/hadoop:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/share/hadoop/hdfs:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/share/hadoop/yarn:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/share/hadoop/yarn/*</value></property>任务3.1搭建Hadoop集群【操作步骤】3.部署Hadoop集群:(7)修改mapred-site.xml配置文件[root@master01hadoop]#vim/opt/hadoop/etc/hadoop/mapred-site.xml<configuration><property><name></name><value>yarn</value><description>指定mapreduce程序跑在yar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论