Hadoop大数据处理技术基础与实践(第3版)课件 第2章-Hadoop 安装与配置管理_第1页
Hadoop大数据处理技术基础与实践(第3版)课件 第2章-Hadoop 安装与配置管理_第2页
Hadoop大数据处理技术基础与实践(第3版)课件 第2章-Hadoop 安装与配置管理_第3页
Hadoop大数据处理技术基础与实践(第3版)课件 第2章-Hadoop 安装与配置管理_第4页
Hadoop大数据处理技术基础与实践(第3版)课件 第2章-Hadoop 安装与配置管理_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章Hadoop安装与配置管理1掌握集群安装过程原理熟悉SSH免密码登录原理了解Hadoop的关键配置选项

掌握动态管理节点方法学习目标28/21/2024参考书38/21/2024准备与配置安装环境48/21/2024安装虚拟机和Linux,虚拟机推荐使用vmware,PC可以使用workstation,服务器可以使用ESXi,在管理上比较方便。ESXi还可以通过拷贝镜像文件复制虚拟机,复制后自动修改网卡号和ip,非常快捷。如果只是实验用途,硬盘大约预留20-30G空间。以Centos为例,分区可以选择默认,安装选项选择DesktopGnome,以及Server、ServerGUI即可。其它Linux,注意选项里应包括ssh,vi(用于编辑配置文件),perl等(有些脚本里包含perl代码需要解析)到Oracle官网下载javajdk安装包,并且进行安装集群的概念58/21/2024计算机集群是一种计算机系统,

它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。集群系统中的单个计算机通常称为节点,通常通过局域网连接。集群技术的特点:通过多台计算机完成同一个工作。达到更高的效率两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起作用三种运行模式68/21/2024单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途

伪分布模式:在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondarynamenode等5个进程,模拟分布式运行的各个节点完全分布式模式:正常的Hadoop集群,由多个各司其职的节点构成机器分配78/21/2024机器名伪分布式模式的安装和配置步骤88/21/2024

下载并解压Hadoop安装包

进入Hadoop的解压目录,编辑conf/hadoop-env.sh文件(注意不同版本后配置文件的位置有所变化)编辑conf目录下core-site.xml、hdfs-site.xml和mapred-site.xml三个核心配置文件配置ssh,生成密钥,使到ssh可以免密码连接localhost格式化HDFS使用bin/start-all.sh启动Hadoop使用bin/stop-all.sh关闭HadoopStep1:各服务器安装JDK98/21/2024上传jdk-6u24-linux-i586.bin(下载的jdk文件)到/home/#cd/home/#./jdk-6u24-linux-i586.bin#mvjdk-6u24-linux-i586.binjdk#vi/etc/profile,在文件尾部添加exportJAVA_HOME=/home/jdkexportPATH=$JAVA_HOME/bin:$PATH保存退出#source/etc/profile#java-versionStep2:各服务器的网络设置108/21/2024修改机器名#hostname<机器名>#vi/etc/sysconfig/networkHOSTNAME=<机器名>保存退出,重启修改/etc/hosts修改/etc/sysconfig/network-scripts/相应的网络配置关闭防火墙#serviceiptablesstopifcfg-eth0文件参考:DEVICE="eth0"BOOTPROTO="static"ONBOOT="yes"TYPE="Ethernet"IPADDR=40PREFIX=24GATEWAY=hosts文件参考:40hadoop041hadoop142hadoop243hadoop3C:\WINDOWS\system32\drivers\etc\hostsStep3:SSH免密码登录118/21/2024从namenode到本身及各datanode免密码登录在各机器上执行#ssh-keygen-b1024-trsa一路回车在~/.ssh/生成文件id_rsaid_rsa.pub在namenode机器上执行:#cd~/.ssh/#scpid_rsa.pubroot@<各datanode的IP>:/home在各datanode机器上执行:#cd/home/#catid_rsa.pub>>/root/.ssh/authorized_keys

Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(SecureShell)来无密码登录启动和停止各个DataNode上的各种守护进程的同样原理,DataNode上也能使用SSH无密码登录到NameNode。Step4:在namenode安装Hadoop128/21/2024用软件上传hadoop文件到节点/home/hadoop目录解压文件#cd/home#tar-zxvfhadoop-*.tar.gz#mvhadoop-*hadoop修改/etc/profile#vi/etc/profileexportJAVA_HOME=/home/javaexportHADOOP_HOME=/home/hadoopexportPATH=$JAVA_HOME/bin:$PATH::$HADOOP_HOME/bin保存退出#source/etc/profileStep5:修改Hadoop的配置文件138/21/2024Step5:修改Hadoop的配置文件148/21/2024修改conf/hadoop-env.shexportJAVA_HOME=/home/javaexportHADOOP_HEAPSIZE=1024exportHADOOP_PID_DIR=/home/hadoop/pids保存退出配置conf/core-site.xml,增加以下内容<property><name></name><value>hdfs://hadoop0:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/hadoop/tmp</value></property>Step5:修改Hadoop的配置文件158/21/2024配置conf/hdfs-site.xml<property><name>dfs.replication</name><value>2</value></property><property><name>dfs.hosts.exclude</name><value>/home/hadoop/conf/excludes</value></property>配置conf/mapred-site.xml<property><name>mapred.job.tracker</name><value>hdfs://hadoop0:9001/</value></property>Step5:修改Hadoop的配置文件168/21/2024配置conf/mastersHadoop0配置conf/slaveshadoop1hadoop2hadoop3Step6:复制hadoop到各datanode并修改178/21/2024把hadoop0的hadoop目录、jdk目录、/etc/hosts、/etc/profile复制到hadoop1,hadoop2、hadoop3节点#cd$HADOOP_HOME/..#scp-rhadoophadoop1:/home#scp-rhadoophadoop2:/home#scp-rhadoophadoop3:/homeStep7:启动/停止Hadoop集群188/21/2024在hadoop0上第一次启动Hadoop,必须先格式化namenode#cd$HADOOP_HOME/bin#hadoopnamenode–format启动Hadoop#cd$HADOOP_HOME/bin#./start-all.sh如果启动过程,报错safemode相关的Exception执行命令#hadoopdfsadmin-safemodeleave然后再启动Hadoop停止Hadoopcd$HADOOP_HOME/bin#./stop-all.sh终端查看集群状态:#hadoopdfsadmin-report增加节点198/21/20241.修改新节点的/etc/hosts,增加namenode的主机名与IP2.修改namenode的配置文件conf/slaves添加新增节点的ip或host3.在新节点的机器上,启动服务#cd$HADOOP_HOME/bin#./hadoop-daemon.shstartdatanode#./hadoop-daemon.shstarttasktracker4.在NameNode节点执行#hadoopdfsadmin-refreshNodes5.均衡block在新节点上执行(如果是增加多个节点,只需在一个新节点)#cd$HADOOP_HOME/bin#./start-balancer.sh注意事项:1.必须确保slave的firewall已关闭;2.确保新的slave的ip已经添加到master及其他slaves的/etc/hosts中,反之也要将master及其他slave的ip添加到新的slave的/etc/hosts中删除节点208/21/2024在hadoop0上修改conf/hdfs-site.xml文件<property>

<name>dfs.hosts.exclude</name>

<value>/usr/local/hadoop/conf/excludes</value></property>确定要下架的机器dfs.hosts.exclude定义的文件内容为,每个需要下线的机器,一行一个。强制重新加载配置#hadoopdfsadmin-refreshNodes关闭节点

hadoopdfsadmin-report可以查看到现在集群上连接的节点正在执行Decommission,会显示:

DecommissionStatus:Decommissioninprogress执行完毕后,会显示:

DecommissionStatus:Decommissioned再次编辑excludes文件一旦完成了机器下架,它们就可以从excludes文件移除了登录要下架的机器,会发现DataNode进程没有了,但是TaskTracker依然存在,需要手工处理一下安全模式218/21/2024在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结

束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入

安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了

元数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论