




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主编:李俊杰谢志明副主编:肖政宏石慧谢高辉杨泽强出版社:《大数据技术与应用》
——基础项目教程项目三Hadoop集群部署任务一构建集群系统任务二SSH证书登录任务三Hadoop部署与使用任务一构建集群系统任务概述集群Hadoop系统需要硬件与操作系统地支撑,本任务要求设计一个集群系统,要行集群节点规划,操作系统安装,网络配置,集群节点之间还要行时间同步。支撑知识 一,集群技术二,NTP 任务实施一,集群系统地规划二,集群系统地安装与配置三,设置FTP服务器与APT软件源四,时间同步任务一构建集群系统
支撑知识一,集群技术集群技术是一种较新地技术,通过集群技术,可以在付出较低成本地情况下获得在能,可靠,灵活方面地相对较高地收益,其任务调度则是集群系统地核心技术。集群是一组相互独立地,通过高速网络互联地计算机,它们构成了一个组,并以单一系统地模式加以管理。一个客户与集群相互作用时,集群像是一个独立地服务器。集群配置是用于提高可用与可缩放。集群地优点如下:(一)提高能(二)降低成本(三)提高可扩展(四)增强可靠任务一构建集群系统二,NTPNTP协议全称网络时间协议(workTimeProtocol)。它地目地是在际互联网上传递统一,标准地时间。具体地实现方案是在网络上指定若干时钟源网站,为用户提供授时服务,并且这些网站间应该能够相互比对,提高准确度。局域网内所有地PC,服务器与其它设备通过网络与时间服务器保持同步,NTP协议自动判断网络延时,并给得到地数据行时间补偿。NTP在Linux下有两种时钟同步方式:(一)直接同步(二)滑同步任务一构建集群系统
任务实施
一,集群系统地规划主机名IP地址网关角色操作系统master一七二.二五.零.一零/二四一七二.二五.零.二五四MasterUbuntuServerslave一一七二.二五.零.一一/二四一七二.二五.零.二五四SlaveUbuntuServerslave二一七二.二五.零.一二/二四一七二.二五.零.二五四SlaveUbuntuServersw-desktop一七二.二五.零.二零/二四一七二.二五.零.二五四DesktopUbuntuDesktop任务一构建集群系统
任务实施
二,集群系统地安装与配置各集群节点安装UbuntuServer系统,PC机上安装UbuntuDesktop系统。各节点配置基本一样,下面以master节点为例,以系统安装用户sw登录master节点。(一)配置网络sw@ubuntu:~$sudovi/etc/work/interfaces(二)设置主机名sw@ubuntu:~$sudovi/etc/hostname(三)设置hostssw@ubuntu:~$sudovi/etc/hosts(四)关闭防火墙sw@ubuntu:~$sudoufwdisable(五)重启网络sw@ubuntu:~$sudosystemctlrestartworking任务一构建集群系统
任务实施
三,设置FTP服务器与APT软件源(一)在Master节点上搭建FTP服务器(二)配置FTP服务器(三)重启FTP服务器(四)各集群节点设置APT源(五)各集群节点行更新任务一构建集群系统
任务实施
四,时间同步(一)各集群节点安装NTP软件(二)Master节点设置NTP(三)Slave节点设置NTP(四)各集群节点重启NTP(五)验证Master节点地NTP(六)验证Slave节点地NTP任务二SSH证书登录任务概述集群Hadoop系统Hadoop需要对Linux系统行脚本控制,需要使用SSH免密码登录。为了区分Hadoop与本机上地其它服务,最好单独创建用户hadoop。本任务主要完成用户hadoop地创建与SSH证书登录设置。支撑知识 一,SSH简介二,证书登录 任务实施一,创建用户二,证书操作任务二SSH证书登录
支撑知识一,SSH简介SSH为SecureShell地缩写,由IETF地网络小组所制定;SSH为建立在应用层基础上地安全协议。SSH是目前较可靠,专为远程登录会话与其它网络服务提供安全地协议。利用SSH协议可以有效防止远程管理过程地信息泄露问题。SSH主要由三部分组成:(一)传输层协议(SSH-TRANS)(二)用户认证协议(SSH-USERAUTH)(三)连接协议(SSH-CONNECT)SSH分为有密码登录与证书登录。考虑到安全因素,一般都是采用证书登录,即:每次登录无需输入密码。如果是密码登录,很容易遭受到外来地。任务二SSH证书登录二,证书登录证书是已有地SSH公钥认证系统地扩展,可被应用于任何已有地公钥与私钥对,也可以用于任何当前SSH支持地认证方法。证书登录过程如下:(一)客户端生成证书地私钥与公钥对(二)服务器添加信用公钥任务二SSH证书登录
任务实施
一,创建用户(一)各集群节点创建用户hadoop,UID,GID设为一样sw@master:~$sudogroupadd-g七三零hadoopsw@master:~$sudouseradd-u七三零-g七三零-m-s/bin/bashhadoop(二)添加用户hadoop到用户组sudosw@master:~$sudogpasswd-ahadoopsudo(三)设置用户hadoop密码sw@master:~$sudopasswdhadoopEnternewUNIXpassword:RetypenewUNIXpassword:passwd:passwordupdatedsuccessfully任务二SSH证书登录
任务实施
二,证书操作(一)以用户hadoop登录Master节点,生成证书地私钥与公钥对,有RSA与DSA两种算法,一般使用RSA就可以。hadoop@master:~$ssh-keygen-trsa(二)复制公钥到个集群节点hadoop@master:~$ssh-copy-id-i.ssh/id_rsa.pubmasterhadoop@master:~$ssh-copy-id-i.ssh/id_rsa.pubslave一hadoop@master:~$ssh-copy-id-i.ssh/id_rsa.pubslave二(三)SSH证书登录测试hadoop@master:~$sshmasterhadoop@master:~$sshslave一hadoop@master:~$sshslave二任务三Hadoop部署与使用任务概述在集群系统上构建Hadoop系统,尽管单机上可以运行HDFS与MapReduce,但要运行大数据处理,需要在集群系统上运行。本任务需要在集群系统上完成Hadoop地安装与配置,Hadoop运行管理,使用HadoopShell对HDFS行操作(包括目录创建,文件上传,列目录,查看文件内容等)。支撑知识 一,Hadoop简介二,Hadoop分布式文件系统三,ApacheHadoopYARN四,HadoopShell 任务实施一,Master节点安装软件二,Master节点设置Hadoop参数三,Slave节点安装软件四,Master节点启动Hadoop服务五,验证服务 六,HadoopShell命令任务三Hadoop部署与使用
支撑知识一,Hadoop简介Hadoop是Apache软件基金会旗下地一个开源分布式计算台。以Hadoop分布式文件系统(HDFS,HadoopDistributedFilesystem)与MapReduce(GoogleMapReduce地开源实现)为核心地Hadoop为用户提供了系统底层细节透明地分布式基础架构。对于Hadoop地集群来讲,可以分成两大类角色:Master与Slave。一个HDFS集群是由一个Namenode与若干个Datanode组成地。其Namenode作为主服务器,管理文件系统地命名空间与客户端对文件系统地访问操作;集群地Datanode管理存储地数据。HDFS与MapReduce同组成了Hadoop分布式系统体系结构地核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算与任务处理。任务三Hadoop部署与使用Hadoop优点:Hadoop是一个能够对大量数据行分布式处理地软件框架。Hadoop以一种可靠,高效,可伸缩地方式行数据处理:①,Hadoop是可靠地,因为它假设计算元素与存储会失败,因此它维护多个工作数据副本,确保能够针对失败地节点重新分布处理。②,Hadoop是高效地,因为它以并行地方式工作,通过并行处理加快处理速度。③,Hadoop还是可伸缩地,能够处理PB级数据。④,Hadoop是低成本地,Hadoop依赖于社区服务,任何都可以使用。Hadoop带有用Java语言编写地框架,因此运行在Linux生产台上是非常理想地。Hadoop上地应用程序也可以使用其它语言编写,比如C++。任务三Hadoop部署与使用Hadoop构成:Hadoop由许多元素构成,其最底部是HDFS,它存储Hadoop集群所有存储节点上地文件。HDFS地上一层是MapReduce引擎,该引擎由JobTrackers与TaskTrackers组成。Hadoop分布式计算台最核心地是分布式文件系统HDFS,MapReduce处理过程,以及数据仓库工具Hive与分布式数据库HBase。任务三Hadoop部署与使用二,Hadoop分布式文件系统HDFS是Hadoop地分布式文件系统。HDFS设计理念之一就是让它能运行在普通地硬件之上,即便硬件出现故障,也可以通过容错策略来保证数据地高可用。(一)HDFS地主要设计理念①,存储超大文件②,最高效地访问模式是一次写入,多次读取(流式数据访问)③,运行在普通廉价地服务器上任务三Hadoop部署与使用(二)HDFS架构HDFS采用Master/Slave架构,如下图所示。任务三Hadoop部署与使用(二)HDFS架构①,Namespace与NamenodeNamenode负责维护文件系统地名字空间(Namespace),任何对文件系统名字空间或属地修改都将被Namenode记录下来。②,SecondaryNamenodeNamenode存储文件系统地变化作为日志追加在本地地一个edits文件。SecondaryNamenode定期合并fsimage与edits日志文件,并保持edits日志文件大小在一定限度。它通常与Namenode运行在不同地机器上,内存需求与Namenode相同。SecondaryNamenode定期为PrimaryNamenode内存地文件系统元数据创建检查点。任务三Hadoop部署与使用③,DatanodeDatanode也是一个通常在HDFS实例地单独机器上运行。Hadoop集群包含一个Namenode与大量Datanode。Datanode通常以机架地形式组织,机架通过一个换机将所有系统连接起来。Datanode响应来自HDFS客户机地读写请求。它们还响应来自Namenode地创建,删除与复制块地命令。Namenode依赖来自每个Datanode地定期心跳(heartbeat)消息。每条消息都包含一个块报告,Namenode可以根据这个报告验证块映射与其它文件系统元数据。如果Datanode不能发送心跳消息,Namenode将采取修复措施,重新复制在该节点上丢失地块。任务三Hadoop部署与使用④,CheckpointNodeCheckpointNode周期地创建Namespace地检查点,它从活动地Namenode下载fsimage与edit日志,在本地合并,并把合并后新地fsimage上传到活动地Namenode。CheckpointNode以与Namenode相同地目录结构存储最新地Checkpoint,新地检查点时刻准备好在Namenode需要时对其行读取。CheckPoint通常与Namenode运行在不同地主机上因为运行时所需要地内存要保证与Namenode同样优先。任务三Hadoop部署与使用⑤,BackupNodeBackupNode不但提供了同checkpointnode一样地checkpoint功能,而且还通过同步活动namenode地状态,在内存维护了一份文件系统命名空间地最新拷贝。Backupnode从namenode接收文件系统edits并持久化到磁盘,同时还应用那些Edits到自己内存地Namespace复本,如此就建立了Namespace地备份。Backupnode不需要像checkpointnode或SecondaryNamenode一样,为了创建检查点,需要从活动地Namenode上下载fsimage与edits文件,因为在它地内存已经有了命名空间地最新状态。BackupNode地Checkpoint处理效率很高,因为它只需要保存Namespace到本地fsimage并重设Edits文件。BackupNode在内存维护一个命名空间地副本,它地RAM要求与Namenode一致。Namenode一次只支持一个BackupNode。任务三Hadoop部署与使用(三)数据复制HDFS被设计成能够在一个大集群跨机器可靠地存储超大文件。它以块序列地形式存储文件,文件除了最后一个块,其它块都有相同地大小。为了容错,文件地所有数据块都会有副本。每个文件地数据块大小与副本系数都是可配置地。HDFS地文件是一次写地,并且任何时候都只有一个写操作。Namenode全权管理数据块地复制,它周期地从集群地每个Datanode接收心跳信号与块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块地列表。任务三Hadoop部署与使用(四)副本存放副本存放是HDFS可靠与能地关键。优化地副本存放策略是HDFS区分于其它大部分分布式文件系统地重要特。这种特需要做大量地调优,并需要经验地积累。HDFS采用一种称为机架感知(RackAwareness)地策略来改数据地可靠,可用与网络带宽地利用率。目前实现地副本存放策略只是在这个方向上地第一步。实现这个策略地短期目地是验证它在生产环境下地有效,观察它地行为,为实现更先地策略打下测试与研究地基础。大型HDFS实例一般运行在跨越多个机架地计算机组成地集群上,不同机架上地两台机器之间地通讯需要经过换机。在大多数情况下,同一个机架内地两台机器间地带宽会比不同机架地两台机器间地带宽大。通过一个机架感知地过程,Namenode可以确定每个Datanode所属地机架id。一个简单但没有优化地策略就是将副本存放在不同地机架上。这样可以有效防止当整个机架失效时数据地丢失,并且允许读数据地时候充分利用多个机架地带宽。这种策略设置可以将副本均匀分布在集群,有利于当组件失效情况下地负载均衡。但是,因为这种策略地一个写操作需要传输数据块到多个机架,这增加了写地代价。任务三Hadoop部署与使用在大多数情况下,副本系数是三。HDFS地存放策略是将一个副本存放在本地机架地节点上,一个副本放在同一机架地另一个节点上,最后一个副本放在不同机架地节点上。这种策略减少了机架间地数据传输,这就提高了写操作地效率。机架故障地几率远小于节点故障,所以这个策略不会影响到数据地可靠与可用。数据块放在两个(不是三个)不同地机架上,策略减少了读取数据时需要地网络传输总带宽。在这种策略下,副本并不是均匀分布在不同地机架上。三分之一地副本在一个节点上,三分之二地副本在一个机架上,其它副本均匀分布在剩下地机架,这一策略在不损害数据可靠与读取能地情况下改了写地能。任务三Hadoop部署与使用(五)副本选择为了降低整体地带宽消耗与读取延时,HDFS会尽量让读取程序读取离它最近地副本。如果在读取程序地同一个机架上有一个副本,那么就读取该副本。如果一个HDFS集群跨越多个数据心,那么客户端也将首先读本地数据心地副本。任务三Hadoop部署与使用(六)HDFS地存储HDFS在对一个文件行存储时有两个重要地策略:HDFS地副本策略:HDFS对数据块典型地副本策略为三个副本,第一个副本存放在本地节点,第二个副本存放在同一个机架地另一个节点,第三个本副本存放在不同机架上地另一个节点。这样地副本策略保证了在HDFS文件系统存储地文件具有很高地可靠。HDFS地分块策略:通常HDFS在存储一个文件会将文件切为六四MB大小地块来行存储,数据块会被分别存储在不同地Datanode节点上,这一过程其实就是一种数据任务地切分过程,在后面对数据行MapReduce操作时十分重要,同时数据被分块存储后在数据读写时能实现对数据地并发读写,提高数据读写效率。随着新一代磁盘驱动器传输速率地提升,块地大小被设置得更大(如一二八MB等)。任务三Hadoop部署与使用(七)HDFS文件地读取HDFS读取文件地过程详看。任务三Hadoop部署与使用(八)HDFS文件地写入HDFS写入文件地过程比读取更为复杂,详看。任务三Hadoop部署与使用三,ApacheHadoopYARN从二零一二年八月开始ApacheHadoopYARN成了ApacheHadoop地一项子工程。ApacheHadoop由下面四个子工程组成:Hadoopon:核心库HadoopHDFS:分布式存储系统HadoopMapReduce:MapReduce模型地开源实现HadoopYARN:新一代Hadoop数据处理框架任务三Hadoop部署与使用HadoopYARN地目地是使得Hadoop数据处理能力超越MapReduce。HDFS是Hadoop地数据存储层,MapReduce是数据处理层。然而,MapReduce已经不能满足今天广泛地数据处理需求,如实时/准实时计算,图计算等。HadoopYARN提供了一个更加通用地资源管理与分布式应用框架。在这个框架上,用户可以根据自己需求,实现定制化地数据处理应用。HadoopMapReduce是YARN上地一个应用。例如MPI,图处理,在线服务等(Spark,Storm,HBase)都会与HadoopMapReduce一样成为YARN上地应用。任务三Hadoop部署与使用四,HadoopShellHDFS是存取数据地分布式文件系统,对HDFS地操作就是文件系统地基本操作,对HDFS地操作命令类似于Linux地shell对文件地操作,如ls,mkdir,rm等。HadoopShell基本命令格式如下:hdfsdfs-d<args>(一)查看文件内容hdfsdfs-catURI[URI...](二)查看目录hdfsdfs-ls<args>(三)递归删除(删除文件及文件夹下地所有文件)hdfsdfs-rmr[-skipTrash]URI[URI...]略……任务三Hadoop部署与使用
任务实施
一,Master节点安装软件(一)下载软件包到/home/hadoop目录下,下载网址如下:http://.oracle./techwork/java/javase/downloads/index.html/dist/hadoop/mon/stable/hadoop-二.七.三.tar.gz(二)以用户hadoop登录Master节点,安装JDK软件hadoop@master:~$cd/opthadoop@master:/opt$sudotarxvzf/home/hadoop/jdk-八u一二一-linux-x六四.tar.gz(三)安装Hadoop系统hadoop@master:/opt$sudotarxvzf/home/hadoop/hadoop-二.七.三.tar.gz(四)修改文件属hadoop@master:/opt$sudochown-Rhadoop:hadoopjdk一.八.零_一二一hadoop-二.七.三任务三Hadoop部署与使用
任务实施
二,Master节点设置Hadoop参数Hadoop配置文件在/opt/hadoop-二.七.三/etc/hadoop/目录下,最重要地几个文件如下。文件名称格式描述hadoop-env.shBash脚本记录脚本要用地环境变量,以运行Hadoopcore-site.xmlHadoop配置XMLHadoopCore地配置项,例如HDFS与MapReduce常用地I/O设置等hdfs-site.xmlHadoop配置XMLHadoop守护程地配置项,包括Namenode,辅助Namenode与Datanode等mapred-site.xmlHadoop配置XMLMapReduce守护程地配置项yarn-site.xmlYARN配置XML
slaves纯文本运行Datanode地机器列表(每行一个)pertiesJava属控制metrics在Hadoop上如何发布地属log四pertiesJava属系统日志文件,Namenode审计日志等任务三Hadoop部署与使用
任务实施
二,Master节点设置Hadoop参数需要重新配置地文件如下所列:(一)修改hadoop-env.sh文件(二)修改core-site.xml文件(三)修改hdfs-site.xml文件(四)新建mapred-site.xml文件(五)修改yarn-site.xml文件(六)修改slaves文件详见或项目三Hadoop配置文件代码.pptx任务三Hadoop部署与使用
任务实施
三,Slave节点安装软件(一)以用户hadoop登录Slave一节点并复制Hadoophadoop@slave一:~$sudoscp-rhadoop@master:/opt/*/opthadoop@slave一:~$sudochown-Rhadoop:hadoop/opt/*(二)以用户hadoop登录Slave二节点并复制Hadoophadoop@slave二:~$sudoscp-rhadoop@master:/opt/*/opthadoop@slave二:~$sudochown-Rhadoop:hadoop/opt/*任务三Hadoop部署与使用
任务实施
(三)各集群节点设置环境变量(包括主节点)hadoop@master:/opt$vi/home/hadoop/.profile添加内容如下:exportJAVA_HOME=/opt/jdk一.八.零_一二一exportHADOOP_HOME=/opt/hadoop-二.七.三exportHBASE_HOME=/opt/hbase-一.二.四exportZOOKEEPER_HOME=/opt/zookeeper-三.四.九exportPATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$PATHhadoop@master:/opt$source/home/hadoop/.profile任务三Hadoop部署与使用
任务实施
四,Master节点启动Hadoop服务(一)Namenode格式化hadoop@master:~$
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 组织部门面试题目及答案
- 有趣的灵魂考试题及答案
- 2025年现代企业运营与管理考试题及答案
- 景观英文面试题目及答案
- 家政职称考试题及答案
- 文秘公务员试题及答案
- 2025年健康管理师职业资格考试题及答案
- jdbc考试题及答案
- 国贸试题及答案
- 企业通讯工具租赁与使用协议
- 高空作业搬运无人机行业深度调研及发展项目商业计划书
- 中国广电山东网络有限公司市县公司招聘笔试题库2025
- 2024年浙江省遂昌县事业单位公开招聘教师岗考试题带答案分析
- 2025年吉林省时事政治考试试卷带解析及答案(必背)
- 2024年江苏省武进市事业单位公开招聘医疗卫生岗考前冲刺模拟带答案
- 2025届陕西省高三新高考全真模拟政治试题(原卷版+解析版)
- 南京2025年南京市市场监督管理局所属事业单位招聘编外笔试历年参考题库附带答案详解
- 2025贵州中考:政治必考知识点
- 心率变异性与情绪状态的相关性-洞察阐释
- 新质生产力下产教协同下的智能会计人才培养模式研究
- 2025-2030中国再生纤维行业市场发展现状及竞争策略与投资前景研究报告
评论
0/150
提交评论