Hadoop的安装与配置及示例wordcount的运行_第1页
Hadoop的安装与配置及示例wordcount的运行_第2页
Hadoop的安装与配置及示例wordcount的运行_第3页
Hadoop的安装与配置及示例wordcount的运行_第4页
Hadoop的安装与配置及示例wordcount的运行_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Hadoop的安装与配置及示例程序wordcount的运行目录 TOC o 1-5 h z HYPERLINK l bookmark33 o Current Document 前言1 HYPERLINK l bookmark36 o Current Document 1机器配置说明2 HYPERLINK l bookmark39 o Current Document 2查看机器间是否能相互通信(使用ping命令)2 HYPERLINK l bookmark1 o Current Document 3 ssh设置及关闭防火墙21)fedora装好后默认启动sshd服务,如果不确定的话可以查一下g

2、aronhzau01$ service sshd status3 HYPERLINK l bookmark49 o Current Document 2)关闭防火墙(NameNode和DataNode都必须关闭)34安装jdk1.6(集群中机子都一样)3 HYPERLINK l bookmark53 o Current Document 安装hadoop(集群中机子都一样)4 HYPERLINK l bookmark56 o Current Document 配置hadoop4 HYPERLINK l bookmark60 o Current Document 1)配置JAVA环境4 HYPE

3、RLINK l bookmark63 o Current Document 2)配置 conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml 文件53)将NameNode上完整的hadoop拷贝到DataNode上,可先将其进行压缩后直接scp过去或是用盘拷贝过去7 HYPERLINK l bookmark73 o Current Document 4)配置 NameNode 上的 conf/masters 和 conf/slaves7 HYPERLINK l bookmark77 o Current Document 运行 had

4、oop7 HYPERLINK l bookmark81 o Current Document 1)格式化文件系统7 HYPERLINK l bookmark85 o Current Document 2)启动 hadoop7 HYPERLINK l bookmark89 o Current Document 3)用jps命令查看进程,NameNode上的结果如下: 8 HYPERLINK l bookmark92 o Current Document 4)查看集群状态8 HYPERLINK l bookmark95 o Current Document 运行 Wordcount.java 程序

5、8 HYPERLINK l bookmark99 o Current Document 1)先在本地磁盘上建立两个文件f1和f28 HYPERLINK l bookmark102 o Current Document 2)在 hdfs 上建立一个input目录9 HYPERLINK l bookmark105 o Current Document 3) 将f1和f2 拷贝到U hdfs的input目录下9 HYPERLINK l bookmark108 o Current Document 4)查看hdfs上有没有f1,f29 HYPERLINK l bookmark111 o Current

6、 Document 5)执行 wordcount (确保hdfs上没有output目录)9 HYPERLINK l bookmark114 o Current Document 6)运行完成,查看结果9前言最近在学习Hadoop,文章只是记录我的学习过程,难免有不足甚至是错误之处,请大家谅 解并指正! Hadoop版本是最新发布的Hadoop-0.21.0版本,其中一些Hadoop命令已发生变 化,为方便以后学习,这里均采用最新命令。具体安装及配置过程如下:1机器配置说明总共有 3 台机器:hzau01、hzau02、hzau03IP 地址分别为:、7、操作系统为:Linux-85.fc13.

7、i686.PAEjdk 版本为:jdk1.6.0_23hadoop 版本为:hadoop-0.21.0hzau01 作为 NameNode、JobTracker,其他两台台作为 DataNode、TaskTracker2查看机器间是否能相互通信(使用ping 命令)用root登录,在NameNode上修改/etc/hosts文件,加入三台机器的IP地址和机器名,如下: hzau017 hzau02 hzau03设置好后验证下各机器间是否ping通,用机器名或是IP地址都可以,例如ping hzau02 或 ping 7Hadoop要求所有机器上hadoop的部署目录结构要相同并且有一个相同的用

8、户名的帐户,我 的默认路径为/home/garon3 ssh设置及关闭防火墙IIj1)fedora装好后默认启动sshd服务,如果不确定的话可以查一下garonhzau01 $ service sshd status如没有启动的话,先启动roothzau01 # service sshd start建立 ssh 无密码登录,在 NameNode 上garonhzau01 ssh-keygen -t dsa -P -f /.ssh/id_dsa(”为两个单引号)会在/.ssh/生成两个文件:id_dsa和id_dsa.pub,这两是成对出现的,把id_dsa.pub文件追加 到 DataNode

9、 上的 authorized_keysgaronhzau01 $ scp /.ssh/id_dsa.pub hzau02:/home/garon/.ssh 注意其中目标机器后面的: 与要传到的文件路径之间没有空格,即sc706:与/home/hadoop/N间没有空格)scp /.ssh/id_dsa.pub hzau03:/home/garon/.ssh登录到U DataNode 上,garonhzau02 $ cat /.ssh/id_dsa.pub /.ssh/authorized_keys, 其 余一台一样,注意:追加完后必须修改NameNode和DataNode上的.ssh和auth

10、orized_keys 的权限,chmod命令,参数600,完成后测试下,例如ssh hzau02时不需要密码就可以登录, 就可以知道ssh设置成功。2)关闭防火墙(NameNode和DataNode都必须关闭)roothzau01 # service iptables stop注意:每次重新开机启动hadoop前都必须关闭4安装jdk1.6(集群中机子都一样)下载 jdk-6u23-ea-bin-b03-linux-i586-18_oct_2010.bin,之后直接安装,我的安装路径为: /usr/java/jdk1.6.0_23,安装后添加如下语句到I/etc/profile 中:expo

11、rt JAVA_HOME=/usr/java/jdk1.6.0_23” export JRE_HOME=/usr/java/jdk1.6.0_23/jreexport CLASSPATH=.:$JAA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH5安装hadoop(集群中机子都一样)在官网 HYPERLINK /hadoop/core/%e4%b8%8b%e8%bd%bd /hadoop/core/下载 hadoop-0.21.0.tar.gzgaronhzau01 $ tar x

12、zvf hadoop-0.21.0.tar.gz将hadoop的安装路径添加到/etc/profile中:export HADOOP_HOME=/home/garon/hadoop-0.21.0export PATH=$HADOOP_HOME/bin:$PATH为了让/etc/profile 生效,source 一下 garonhzau01 $ source /etc/profile配置 hadoop其配置文件在/conf目录下1)配置JAVA环境garonhzau01 $ vi /hadoop/hadoop-0.21.0/conf/hadoop-env.shexport JAVA_HOME=

13、/usr/java/jdk1.6.0_232 )配置 conf/core-site.xml、conf/hdfs-site.xml、 conf/mapred-site.xml 文件garonhzau01 hadoop-0.21.0$ vi conf/core-site.xmlhadoop.tmp.dir/home/garon/hadoopgaronhdfs:/hzau01/garonhzau01 hadoop-0.21.0$ vi conf/mapred-site.xmlmapred.jobtracker.address hzau01:9001 garonhzau01 hadoop-0.21.0

14、$ vi conf/hdfs-site.xml.dir/home/garon/hadoopnamedfs.data.dir/home/garon/hadoopdatadfs.replication13)将NameNode上完整的hadoop拷贝到DataNode上,可先将其进行压缩后直接scp过去或是用盘拷贝过去4)配置 NameNode 上的 conf/masters 和 conf/slavesmasters:slaves:7运行 hadoop1)格式化文件系统garonhzau01 bin$ hdfs namenode -format注意:格式化时要防止NameNode的namespace

15、 ID与DataNode的namespace ID的不一致, 因为每格式化一次会产生Name、Data、tmp等临时文件记录信息,多次格式化会产生很多, 会导致ID的不同,造成hadoop不能运行2)启动 hadoopgaronhzau01 bin$ start-dfs.sh garonhzau01 bin$ start-mapred.sh3)用jps命令查看进程,NameNode上的结果如下:5334 JobTracker5215 SecondaryNameNode5449 Jps5001 NameNode4)查看集群状态garonhzau01 bin$ hdfs dfsadmin -rep

16、ort确保运行的DataNode个数是正确的,我的是2个,这样可以查看哪个DataNode没有运行运行 Wordcountjava 程序1)先在本地磁盘上建立两个文件fl和f2garonhzau01 bin$ echo ”Hello world Bye world /input/f1garonhzau01 bin$ echo hello hadoop bye hadoop” /input/f22)在hdfs上建立一个i叩ut目录garonhzau01 bin$ hadoop fs -mkdir /tmp/input3)将fl和f2拷贝到hdfs的input目录下garonhzau01 bin$ hadoop fs -put /home/garon/input /tmp4)查看hdfs上有没有f1,f2garonhzau

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论