hadoop安装指南(非常详细,包成功)

上传人：0*** IP属地：湖北上传时间：2021-11-22 格式：DOCX 页数：16 大小：348.57KB 积分：28 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、安装HADOOP集群服务器1. 规划功能HOSTNAMEIP说明MasterHDM01Namenode 兼datanode SlaveHDS02Datanode SlaveHDS03Datanode ClientHDC04HADOOP客户端(HDFS/HIVE)2. 环境2.1. 系统环境安装 centOS6.2 => 软件工作站（software Development Workstation）3. Hadoop安装3.1. 安装和配置SSH 、RSYNC( Root用户)安装 SSH和rsync

2、一般系统自带了；3.2. 创建Hadoop运行用户( Root用户)一般我们不会经常使用root用户运行hadoop，所以要创建一个平常运行和管理Hadoop的用户；Ø 创建hadoop用户和用户组 useradd hadoopPS:master和slave节点机都要创建相同的用户和用户组，即在所有集群服务器上都要建hadoop用户和用户组。 3.3. 关闭防火墙( Root用户)在启动前关闭集群中所有机器的防火墙，不然会出现datanode开后又自动关闭。所以对集群所有服务器关闭防火墙：chkconfig iptables off 查看防火墙状态：service iptables

3、status 永久关闭防火墙：chkconfig iptables off 查看防火墙状态：chkconfig -list iptables 3.4. 配置机器名和网络( Root用户) n 配置HOSTNAME vi /etc/sysconfig/network，修改：HOSTNAME=hmaster 其他节点依次改为slave1，slave2.不过必须和上面一致验证; 输入命令 hostname n 配置网络IP cd /etc/sysconfig/network-scripts vi ifcfg-eth0（因为硬件不同，其中的“eth0”可能是其他名称） n 配置IP和HOSTNAME

4、映射关系vi /etc/hosts rootNOAS # more /etc/hosts# localhost localhost.localdomain localhost4 #localhost4.localdomain4:1 localhost localhost.localdomain localhost6 localhost6.localdomain6 HDM01 HDS02 HDS03 HDC043.5. 配置非root用户免验证登录SSH（ hadoop用户）提示：Linux

5、配置ssh是通过欺骗登录用户名的。所以上面创建用户的时候，我们都把3个节点的username都设置成hadoop，主要是用户名必须一致在hadoop用户的home目录，即 cd /home/hadoop 下执行命令用hadoop用户登录（第一/二/三步分别在每一个节点上都要执行）第一步：ssh-keygen -t rsa -P '' -f /.ssh/id_rsa 意思是读取 id_dsa文件默认全部是yes安装和root用户一样，会发现多处2个文件，一个是公开密匙，一个是访问用户名字信息的第二步：cat /.ssh/id_rsa.pub >> /.ssh/a

6、uthorized_keys是把暴露出来的公共密匙按顺序导入authorized_keys中保存第三步：chmod 700 /.sshchmod 600 /.ssh/authorized_keysssh机制很严谨，对文件的权限要求非常严格我们需要把.ssh文件夹的权限改为700 ，默认是777authorized_keys的权限这里是对的，600第四步：在主节点上执行下列命令ssh HDS02 cat /.ssh/id_rsa.pub >> /.ssh/authorized_keysssh HDS03 cat /.ssh/id_rsa.pub >> /.ssh/auth

7、orized_keysscp authorized_keys hadoopHDS02:/home/hadoop/.ssh/scp authorized_keys hadoopHDS03:/home/hadoop/.ssh/最终authorized_keys文件要有各个集群服务器的信息第五步：验证第一次会要求输入密码，完成后测试，每台机都要求能联通：ssh HDM01ssh HDS02ssh HDS03不输入密码就表示成功了；3.6. 安装JDK( hadoop用户) 检查是否已安装JDK: rpm -qa|grep jdk 检查JAVA安装目录： whick java 检查是否配置JAVA_

8、HOME: env|grep JAVA_HOME which java 和 JAVA_HOME 路径不一致，是做了LINK映射rootNOAS # su - hadoophadoopNOAS $ rpm -qa|grep jdkjava-1.6.0-openjdk-javadoc--0.4.el6.x86_64java-1.6.0-openjdk-devel--0.4.el6.x86_64java-1.6.0-openjdk--0.4.el6.x86_64hadoopNOAS $ which java/u

9、sr/bin/javahadoopNOAS $ ls -l /usr/bin/javalrwxrwxrwx. 1 root root 22 Feb 26 22:26 /usr/bin/java -> /etc/alternatives/javahadoopNOAS $ ls -l /etc/alternatives/javalrwxrwxrwx. 1 root root 46 Feb 26 22:26 /etc/alternatives/java -> /usr/lib/jvm/jre-1.6.0-openjdk.x86_64/bin/javahadoopNOAS $ env|gr

10、ep JAVA_HOMEJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64 在当前用户配置JAVA_HOME,在.bash_profile文件增加蓝色部分，最后 source /home/hadoop/.bash_profile ，使生效hadoopNOAS $ cd /home/hadoop/hadoopNOAS $ more .bash_profile# .bash_profile# Get the aliases and functionsif -f /.bashrc ; then . /.bashrcfi# User specific env

11、ironment and startup programsPATH=$PATH:$HOME/binexport PATHJAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64PATH=$JAVA_HOME/bin:$PATHCLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOMEexport PATHexport CLASSPATHhadoopNOAS $ 3.7. 安装Hadoop( root用户)3.7.1. 安装rpm包：用rpm包安装

12、，目录都是默认的比较规范用root用户： rpm -ivh /opt/colud/hadoop-1.2.1-1.x86_64.rpm 3.7.2. 配置Hadoop配置文件(每台机器服务器都要配置，且都是一样的，配置完一台其他的只需要拷贝,每台机上的core-site.xml和mapred-site.xml都是配master服务器的hostname，因为都是配置hadoop的入口) core-site.xml：整个hadoop入口的配置 vi /etc/hadoop/core-site.xml，配置如下内容： <property> <name>hadoop.tmp.d

13、ir</name> <value>/home/hadoop/tmp</value> </property> <property> <name></name> <value>hdfs:/HDM01:9000</value> </property> vi /etc/hadoop/hdfs-site.xml，配置如下内容： <property> <name>dfs.replication</name> <val

14、ue>2</value> </property> vi /etc/hadoop/mapred-site.xml，配置如下内容： <property> <name>mapred.job.tracker</name> <value>HDM01:9001</value> </property>配置说明：n core-site.xmlØ hadoop.tmp.dir是hadoop文件系统依赖的基础配置，很多路径都依赖它。它默认的位置是在/tmp/$user下面，但是在/tmp路径下的存储是不

15、安全的，因为linux一次重启，文件就可能被删除。修改该参数后要格式NAMENODE: hadoop namenode -format3.7.3. 配置Hadoop集群配置文件(只需要配置namemode节点机,这里的HDM01即做namenode也兼datanode，一般情况namenode要求独立机器，namemode不兼datanode) vi /etc/hadoop/masters，配置如下内容： HDM01 vi /etc/hadoop/slaves，配置如下内容：HDM01HDS02HDS033.7.4. 配置非ROOT用户权限n （包含用非root用户启动Hadoop所需的额外项

16、）将/usr/sbin/下的以下脚本文件的owner设为testusr，且赋给owner全权rwx :chown hadoop:hadoop /usr/sbin/hadoop-create-user.shchown hadoop:hadoop /usr/sbin/hadoop-daemon.shchown hadoop:hadoop /usr/sbin/hadoop-daemons.shchown hadoop:hadoop /usr/sbin/hadoop-setup-applications.shchown hadoop:hadoop /usr/sbin/hadoop-setup-con

17、f.shchown hadoop:hadoop /usr/sbin/hadoop-setup-hdfs.shchown hadoop:hadoop /usr/sbin/hadoop-setup-single-node.shchown hadoop:hadoop /usr/sbin/hadoop-validate-setup.shchown hadoop:hadoop /usr/sbin/rccchown hadoop:hadoop /usr/sbin/slaves.shchown hadoop:hadoop /usr/sbin/start-all.shchown hadoop:hadoop /

18、usr/sbin/start-balancer.shchown hadoop:hadoop /usr/sbin/start-dfs.shchown hadoop:hadoop /usr/sbin/start-jobhistoryserver.shchown hadoop:hadoop /usr/sbin/start-mapred.shchown hadoop:hadoop /usr/sbin/stop-all.shchown hadoop:hadoop /usr/sbin/stop-balancer.shchown hadoop:hadoop /usr/sbin/stop-dfs.shchow

19、n hadoop:hadoop /usr/sbin/stop-jobhistoryserver.shchown hadoop:hadoop /usr/sbin/stop-mapred.shchown hadoop:hadoop /usr/sbin/update-hadoop-env.shchmod u+rwx /usr/sbin/hadoop-create-user.shchmod u+rwx /usr/sbin/hadoop-daemon.shchmod u+rwx /usr/sbin/hadoop-daemons.shchmod u+rwx /usr/sbin/hadoop-setup-a

20、pplications.shchmod u+rwx /usr/sbin/hadoop-setup-conf.shchmod u+rwx /usr/sbin/hadoop-setup-hdfs.shchmod u+rwx /usr/sbin/hadoop-setup-single-node.shchmod u+rwx /usr/sbin/hadoop-validate-setup.shchmod u+rwx /usr/sbin/rccchmod u+rwx /usr/sbin/slaves.shchmod u+rwx /usr/sbin/start-all.shchmod u+rwx /usr/

21、sbin/start-balancer.shchmod u+rwx /usr/sbin/start-dfs.shchmod u+rwx /usr/sbin/start-jobhistoryserver.shchmod u+rwx /usr/sbin/start-mapred.shchmod u+rwx /usr/sbin/stop-all.shchmod u+rwx /usr/sbin/stop-balancer.shchmod u+rwx /usr/sbin/stop-dfs.shchmod u+rwx /usr/sbin/stop-jobhistoryserver.shchmod u+rw

22、x /usr/sbin/stop-mapred.shchmod u+rwx /usr/sbin/update-hadoop-env.shn 将/usr/bin/下的hadoop设为所有人（不是其他人）可读可执行。即chmod 555（不是chmod 005）chmod 555 /usr/bin/hadoopn /var/log/hadoop/及其下（循环）的owner设为testusr，且赋给owner全权rwx /var/run/hadoop/及其下（循环）的owner设为testusr，且赋给owner全权rwx/home/hadoop/及其下（循环）的owner设为testusr，且ow

23、ner权限设为“rwxr-xr-x”，设为更大权限不行，主要是因为/home/hadoop/tmp/dfs/data的权限需要为“rwxr-xr-x”chown -R hadoop:hadoop /var/log/hadoop/ chown -R hadoop:hadoop /var/run/hadoop/chown -R hadoop:hadoop /home/hadoop/chmod -R u+rwx /var/log/hadoop/ chmod -R u+rwx /var/run/hadoop/chmod -R u+rwx /home/hadoop/3.7.5. 配置HADOOP的JAV

24、A环境配置Hadoop的java环境与env的JAVA_HOME保持一致,文件/etc/hadoop/hadoop-env.sh # The java implementation to use.#export JAVA_HOME=/usr/java/defaultexport JAVA_HOME=/usr/lib/jvm/jre-1.6.0-openjdk.x86_64export HADOOP_CONF_DIR=$HADOOP_CONF_DIR:-"/etc/hadoop"3.8. 格式化HDFS( hadoop用户) hadoop namenode -format（

25、用hadoop用户）重新format时，系统提示如下： Re-format filesystem in /home/hadoop/tmp/dfs/name ? (Y or N) 必须输入大写Y，输入小写y不会报输入错误，但format出错。chown -R hadoop:hadoop /home/hadoop/chmod -R 755 /home/hadoop/3.9. 启动Hadoop( hadoop用户) Hadoop用户登录命令: start-all.sh (记得关闭所有的防火墙)3.9.1. 验证hadoop （1）验证方法一：用"jps"命令在Master上用

26、 java自带的小工具jps查看5个进程都在。在Slave1上用jps查看进程。如果在查看Slave机器中发现"DataNode"和"TaskTracker"没有起来时，先查看一下日志的，如果是"namespaceID"不一致问题，采用"常见问题FAQ6.2"进行解决，如果是"No route to host"问题，采用"常见问题FAQ6.3"进行解决。（2）验证方式二：用"hadoop dfsadmin -repo

27、rt"用这个命令可以查看Hadoop集群的状态。Master服务器的状态： Slave服务器的状态 4.4 网页查看集群1）访问"http::50030" 2）访问"http: :50070" 3.10. HADOOP语法3.10.1. 启动/关闭Ø Start-all.sh / stop-all.shØ3.10.2. 进程Ø JpsMaster节点：namenode/tasktra

28、cker（如果Master不兼做Slave, 不会出现datanode/TasktrackerSlave节点：datanode/Tasktracker说明：JobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的 mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：jobclient，JobTracker与TaskTracker。1、JobClient会在用户端通过J

29、obClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker创建每个Task（即MapTask和ReduceTask）并将它们分发到各个TaskTracker服务中去执行2、JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。3、TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与Jo

30、bTracker通信，接收作业，并负责直接执行每一个任务。TaskTracker都需要运行在HDFS的DataNode上3.10.3. 文件系统HDFSn 查看文件系统根目录：Hadoop fs ls / 文件系统的目录和文件是不能再本地系统查看到的；相当于两个不同的系统；4. 常见错误4.1. 错误：(hadoop)could only be replicated to 0 nodes, instead of 1 现象：namenode端的namenodelog一直报could only be replicated to 0 nodes, instead of 1 错误，表示没

31、有一个可用的节点。datanode端一直报错:Server at /1:54310 not available yet, Zzzzz.2011-03-03 11:33:10,047 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: /1:54310,一直尝试连接master但连接不上。改正：在namenode中配置master 和 jobtracker的ip时使用的是localhost ，将这两个改成namenode以及jobtracker本机的实际ip后，问题得以解决。具体的原

32、因我也不太明白。当然这个错误还有其他的几个原因（摘自网上）：dfs的空间不足。namenode运行在safemodel下。namenode所在机器的防火墙开着是的datanode无法访问master 。这几个问题详见：Ø HADOOP 重新格式化文件后，要删除 cd /home/hadop/tmp/data rm rf dataØ Name node is in safe mode. 在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

hadoop安装指南(非常详细,包成功)

文档简介

温馨提示

最新文档

评论

hadoop安装指南(非常详细,包成功)

文档简介

温馨提示

最新文档

评论

相关文档