大数据平台技术实例教程 课件 【ch05】Hadoop分布式计算模型_第1页
大数据平台技术实例教程 课件 【ch05】Hadoop分布式计算模型_第2页
大数据平台技术实例教程 课件 【ch05】Hadoop分布式计算模型_第3页
大数据平台技术实例教程 课件 【ch05】Hadoop分布式计算模型_第4页
大数据平台技术实例教程 课件 【ch05】Hadoop分布式计算模型_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop分布式计算模型“新工科建设之路·数据科学与大数据系列大数据平台技术实刚教程第五章01完全分布式环境配置表5-1中各进程的作用如下所述。NameNodc:是HDFS的管理节点,维护着整个系统的文件目录树及对应的元信。DataNode:提供对数据或文件的存储服务。SecondaryNameNode:定期备份fsimage,定期合并fsimage与editlogs。02完全分布式配置步骤(1)打开VMwareWorkStation软件,依次导入ahut01、ahut02、ahot03、ahut04四个虚拟机。(2)集群IP地址的修改。①启动ahut01节点,使用v编辑器打开/etc/sysconfig/network-scripts/ifcfg-eth0文件。②修改DEVICE为eth1,修改IPADDR=192.168.159.101,GATEWAY=192.168.159.2。③输入servicenetworkrestart,保存并退出i编辑器,重启网络服务使配置生效。01虚拟机的导入(2)集群IP地址的修改。④输入ifconfig,查看ahut01的IP地址,inetaddr显示为刚才配置的可通信的IP地址,即为成功。⑤重复步骤Q~步骤@,在ahut02、ahut03、ahut04上修改对应的PP地址,如果运行截图中的IP地址和表5-2中的不一样,以表5-2为准。(3)用MobaXterm软件连接ahut01、ahut02、ahut03、ahut04,操作界面如图5-3所示。(4)输入date-s“2022-02-2222:22:22”,同步虚拟机时间(利用MobaXterm软件工具栏的MultiExec功能,在任一台虚拟机中输入命令,其余三台虚拟机可同步输入相同的命令)。(5)输入vi/etc/sysconfig/network,查看HOSTNAME的值是否与虚拟机主机名对应若不同则需修正。(6)输入vi/etc/hosts,修改每个虚拟机的hosts文件,在hosts文件末尾追加四台虚拟机各自的IP地址。(7)输入vi/etc/sysconfig/selinux,将SELINUX的值设置为disabled,修改Linux的权限管理机制。(8)为每个节点配置SSH免密登录,以具体操作详见3.6.2节。配置完毕后,分别在四台虚拟机中运行sshlocalhost命令,若不需要密码则配置成功。(9)本集群以ahut01作为主节点,以其余三个节点作为从节点,为了命令的执行更加方便快捷,需要使ahut1能够免密登录其余三个节点。(10)参考3.6.3节,在ahut01、ahut02、ahut03及ahut04上配置好JDK。(11)参考3.6.4节中的步骤(1)~步(8),在ahut01配置好Hadoop的伪分布式。(12)Hadoop的分布式安装不只是解压缩文件、运行启动命令这么简单,还需要将虚拟机的相关信息写入配置文件core-sitexml、hdfs-sitexmlslaves中,Hadoop才能正常启动。(13)在ahut01中将ahut目录、profle文件分发给其余三个节点。(14)在四台虚拟机中更新profile文件使其生效(可使用MultiExec功能)。(15)在ahut01节点对HDFS进行格式化。(16)在保证前面的步骤没有出错后,输入start-dfs.sh,就可以启动Hadoop。(17)这时可以在四个虚拟机中使用ips命令查看该节点的进程是否启动成功。(18)可能出现的问题及解决方法如下。问题:启动HDFS后,在ahut02、ahut03、ahut04中输入ips都没有DataNode进程。解决方法:①删除ahut02、ahut03、ahut04中所有的DataNode信息,重新格式化再启动;②重复步骤(15),格式化后启动HDFS问题解决。(19)快照保存。03MapReduce计算模型(1)读取输入文件内容,将输入文件的每一行解析成一个元素;(2)执行自己定义的函数逻辑,对输入进行处理,转换成新的输出;(3)对输出内容进行分区(对应不同的Reduce任务节点);(4)对不同分区的数据,按照key进行排序、分组,相同key的value放到一个集合中;1.Map任务处理(5)(可选)对分组后的数据进行归约。(1)对多个Map任务的输出,按照不同的分区,通过网络复制到不同的Reduce节点;(2)对多个Map任务的输出进行合并、排序,根据自己定义的Reduce函数逻辑,对输入进行处理,转换成新的输出;(3)把Reduce的输出保存到文件中。2.Reduce任务处理04Mapper-Reducer实例本节通过Mapper-Reducer来实现以下三项任务,详细介绍MapReduce基础编程方法。(1)实现WordCount功能;(2)统计每门课程的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论