《大数据技术导论》课件-项目三_第1页
《大数据技术导论》课件-项目三_第2页
《大数据技术导论》课件-项目三_第3页
《大数据技术导论》课件-项目三_第4页
《大数据技术导论》课件-项目三_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本项目学习内容包括:1.安装Vmware虚拟机2.在Vmware上安装UbuntuLinux操作系统并进行网络设置3.在Ubuntu安装Hadoop并进行伪分布式配置4.利用Hadoop运行简单数据处理任务本项目学习主要内容本项目思维导图VMware虚拟机详细安装步骤请参考配套教材项目三的任务3-1。安装时请注意以下事项:1.本书提供VMware14安装文件,读者不必从官网下载。2.安装完VMware虚拟机可能需要重启计算机,请按照提示操作。任务3-1安装Vmware虚拟机Ubuntu系统详细安装步骤请参考配套教材项目三的任务3-2。安装注意事项1.本书提供ubuntukylin-16.04版本的安装文件,读者不必从官网下载。2.安装完Ubuntu需要进行网络设置。网络设置分为动态ip设置和静态ip设置,建议设置静态ip3.如偶尔发生虚拟机无法启动黑屏的现象,请按如下步骤处理。(1)windows下输入cmd,右键命令提示符,点击管理员运行,进入windows命令行窗口。(2)命令行窗口输入netshwinsockreset,然后重启计算机即可。任务3-2VMware上安装和配置Ubuntu系统

由于Hadoop运行需要依赖java环境。所以我们需要先安装java。本书提供jdk1.8版本的java安装文件。安装java的详细步骤如下。(1)在/usr/local目录下新建一个文件夹jvm用于安装java。控制台中输入命令:sudomkdir/usr/local/java。(2)把jdk-8u162-linux-x64.tar.gz文件解压到/usr/lib/java文件夹下。输入命令:sudotar-zxvfjdk-8u162-linux-x64.tar.gz-C/usr/lib/java。(3)配置java环境变量。输入命令:cd/,回到根目录。然后输入命令:sudogedit~/.bashrc。进入环境变量编辑文件。任务3-3在Ubuntu系统上安装配置Hadoop3.3.1安装配置java环境在文件最后加上如下语句,然后保存关闭文件。exportJAVA_HOME=/usr/lib/java/jdk1.8.0_162exportJRE_HOME=${JAVA_HOME}/jreexportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexportPATH=${JAVA_HOME}/bin:$PATH任务3-3在Ubuntu系统上安装配置Hadoop(4)执行命令:source~/.bashrc,重启设置,让.bashrc文件的配置生效。(5)输入以下命令:java-version验证java是否正常运行。任务3-3在Ubuntu系统上安装配置Hadoop

SSH和免密码登录一般用于完全分布式集群,为什么单机伪分布式Hadoop也要进行SSH?

Hadoop集群运行时,NameNode要远程启动DataNode守护进程,NameNode和DataNode之间需要远程SSH通信。所以我们需要安装SSH。但是Hadoop没有区分完全分布式和伪分布式,对于伪分布式Hadoop仍然会采用与集群相同的处理方式,按次序启动DataNode进程,只不过在伪分布式中NameNode和DataNode都为localhost,所以对于伪分布式,也必须要安装SSH。任务3-3在Ubuntu系统上安装配置Hadoop3.3.2安装SSH以及免密码登录设置Ubuntu默认已安装了SSHclient,我们只需再安装SSHserver即可。SSHserver安装步骤如下。(1)重新打开一个命令行终端,输入命令:sudoapt-getinstallopenssh-server,安装SSHserver。任务3-3在Ubuntu系统上安装配置Hadoop

(2)安装后,可以输入命令:sshlocalhost,验证登陆本机。如果出现如图3-53所示的提示,则输入yes。

(3)然后输入密码,就可以登陆本机了。任务3-3在Ubuntu系统上安装配置Hadoop

为什么又要设置免密码登陆呢?

Hadoop有三种运行模式,本地模式、伪分布式模式、完全分布式模式。在Hadoop完全分布式运行时,NameNode要远程启动DataNode守护进程,需要依次输入密码,如果节点太多,则启动非常麻烦。而伪分布式配置Hadoop,NameNode一样要远程启动DataNode守护进程。只不过NameNode和DataNode都是localhost,所以只需要设置sshlocalhost免密登陆就行。

设置免密码的登陆的具体做法如下。任务3-3在Ubuntu系统上安装配置Hadoop(1)我们输入命令:exit,退出已登录的ssh,然后输入以下命令:cd~/.ssh/,进入ssh目录。(2)然后输入命令:ssh-keygen-trsa,生成密钥,期间要按3次enter键。再输入命令:cat./id_rsa.pub>>./authorized_keys,将密钥加入到授权。任务3-3在Ubuntu系统上安装配置Hadoop

(3)这时我们再输入命令:sshlocalhost,验证登陆本机。此时就不需要输入密码,直接登录了。任务3-3在Ubuntu系统上安装配置Hadoop本书提供hadoop2.7.1版本的安装文件,安装配置Hadoop的步骤如下。(1)在/usr/local目录下新建一个文件夹hadoop用于安装hadoop。我们在home/soft目录下,把本书提供的hadoop-2.7.1.tar.gz文件拷贝过来。然后在soft目录下空白处点击“右键”,在弹出的窗口中点击“在终端打开”,打开命令行控制台。在控制台中输入命令:sudomkdir/usr/local/hadoop,按回车,如果需要则输入密码,然后可以看到在/usr/local目录下有一个hadoop文件夹。任务3-3在Ubuntu系统上安装配置Hadoop3.3.3安装配置Hadoop

(2)把hadoop-2.7.1.tar.gz文件解压到/usr/local/hadoop文件夹下。输入命令:cdhome/person/soft,切换到soft目录下。然后输入命令sudotar-zxvfhadoop-2.7.1.tar.gz-C/usr/local/hadoop。任务3-3在Ubuntu系统上安装配置Hadoop

(3)Hadoop解压后即可使用。我们可以输入如下命令来检查Hadoop是否可以正常运行,输入命令:cd/usr/local/hadoop/hadoop-2.7.1,将目录切换到hadoop-2.7.1文件夹下面,然后再输入命令:./bin/hadoopversion,如果正常会显示Hadoop版本信息。任务3-3在Ubuntu系统上安装配置Hadoop

(4)此时的Hadoop即可使用,默认为本地模式,无需进行其他配置。本地模式下Hadoop运行只有一个Java进程。下面我们再进行Hadoop的伪分布式配置。Hadoop伪分布式配置需要修改两个配置文件core-site.xml和hdfs-site.xml。这两个配置文件位于/usr/local/hadoop/etc/hadoop/目录下。我们继续再命令行输入命令:sudogedit./etc/hadoop/core-site.xml,修改core-site.xml文件。任务3-3在Ubuntu系统上安装配置Hadoop

(5)在core-site.xml文件<configuration>标签下输入如下内容。输入完毕后点击保存,关闭文件。<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop//hadoop-2.7.1/tmp</value><description>Abaseforothertemporarydirectories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property></configuration>任务3-3在Ubuntu系统上安装配置Hadoop(6)输入命令:gedit./etc/hadoop/hdfs-site.xml,修改hdfs-site.xml文件。(7)在hdfs-site.xml文件<configuration>标签下输入如下内容。输入完毕后点击保存,关闭文件。<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/data</value></property></configuration>任务3-3在Ubuntu系统上安装配置Hadoop

(8)然后执行NameNode的格式化,输入命令:sudo./bin/hdfsnamenode-format。这时候我们发现格式化失败,报错了。具体报错如下图,status为1。报错不能在namenode目录新建文件。这是由于我们当前用户权限不够,同时这里sudo也不起作用。我们需要给当前用户设置权限。任务3-3在Ubuntu系统上安装配置Hadoop

(9)输入命令:sudosu,切换当前用户为root。然后输入命令:sudochmod-Ra+w/usr/local/hadoop/hadoop-2.7.1/设置用户权限。然后输入命令:superson切换回原来的用户。再输入命令:./bin/hdfsnamenode-format。我们看到status为0,则成功。格式化namenode成功后,下一次只需要直接输入命令:./sbin/start-dfs.sh启动Hadoop,不需要再次格式化。任务3-3在Ubuntu系统上安装配置Hadoop

(10)输入命令:sudogedit./etc/hadoop/hadoop-env.sh,打开hadoop-env.sh文件编辑JAVA_HOME,把值改为jdk所在路径:/usr/lib/java/jdk1.8.0_162。如果不做这一步,Hadoop启动可能会报错。任务3-3在Ubuntu系统上安装配置Hadoop

(12)接着我们输入命令:./sbin/start-dfs.sh,启动HDFS,若启动成功可以输入jps命令查看进程。成功启动后,我们可以通Web界面访问Hadoop,网址为http://localhost:50070,查看NameNode、Datanode和HDFS的信息。如果要关闭Hadoop,则输入:命令stop-dfs.sh。任务3-3在Ubuntu系统上安装配置Hadoop任务3-3在Ubuntu系统上安装配置Hadoop

(13)配置环境变量使得Hadoop相关命令能在任意目录运行。之前我们启动Hadoop都是先进到/usr/local/hadoop/hadoop-2.7.1目录中,再输入./sbin/start-dfs.sh,这样不太方便,我们想要在任意目录输入start-dfs.sh就能开启Hadoop和执行Hadoop相关命令。这就需要把Hadoop加入环境变量。具体做法为:首先关闭Hadoop。重新开启一个命令行终端,输入命令:sudogedit~/.bashrc,打开.bashrc文件。在文件最后添加:exportPATH=$PATH:/usr/local/hadoop/hadoop-2.7.1/sbin:/usr/local/hadoop/hadoop-2.7.1/bin,保存并关闭.bashrc文件。

(14)然后输入命令:source~/.bashrc,更新环境变量配置。这时我们试着输入命令:start-dfs.sh,Hadoop集群能够正常启动,以后我们就可以在任意目录运行hadoop相关命令了。任务3-3在Ubuntu系统上安装配置Hadoop

本任务为在Hadoop运行wordcount程序对HDFS上的文件进行词频统计,任务步骤如下。(1)在HDFS新建input目录,并查看结果。输入如下命令:hadoopfs-mkdir/input,新建input目录。然后输入命令:hadoopfs-ls-R/,查看input目录是否创建完毕。任务3-4在Hadoop上运行wordcount程序对文件进行词频统计任务3-4在Hadoop上运行wordcount程序对文件进行词频统计

(2)上传xml文件到HDFS的input目录下。输入命令:hadoopfs-put/usr/local/hadoop/hadoop-2.7.1/etc/hadoop/*.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论