Hadoop大数据解决方案_第1页
Hadoop大数据解决方案_第2页
Hadoop大数据解决方案_第3页
Hadoop大数据解决方案_第4页
Hadoop大数据解决方案_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Hadoop大数据解决方案

方案摘要

由于Hadoop在处理海量数据的存储和计算时不同组件对于CPU、内存、

硬盘、网络等资源需求是不同的,例如Spark是典型的CPU密集型,需要更多

CPU和内存;Hive、M叩Reduce基于磁盘计算,磁盘读写比较频繁;HDFS配

置异构分级存储时,需要同时配置SSD和大容量HDD机械硬盘等。

基于通用服务器和一些高密度服务器构建Hadoop集群时,往往是捉襟见

肘,不能很好的满足。例如刀片服务器硬盘支持数量往往有限,通用服务器占用

空间太大,一些高密度服务器CPU或者磁盘支持有限等。

构建高性价比的Hadoop集群,政府和企业用户急需一个能够解决这些问

题的全新服务器产品解决方案。

NF5166M4仅需1U高度空间,即可为Hadoop集群提供满足众多组件不

同资源需求的强大计算能力、内存支持、单节点高达120TB的绝佳硬盘配比与

SSD+HDD冷热数据分级存储支撑,节约50%Hadoop机房空间,为Hadoop

集群的提供全方位高性能、高密度、高可扩展解决方案。

100台以内中小规模和100-500台大规模Hadoop集群,方案如何架构

和配置?本方案以InCloudInsigtHD为例,基于NF5166M4服务器给出500

台服务器以内两种规模Hadoop集群的部署架构和配置建议。

NF5166M4是政企用户构建Hadoop大数据集群的绝佳之选。

目录

方案摘要.....................................................................2

1.方案概述....................................................................5

2.Hadoop服务器选型问题与挑战...............................................5

3.Hadoop服务器选型需求分析.................................................6

3.1.CPU需求分析..........................................................7

3.2.内存需求分析..........................................................8

3.3.磁盘需求分析..........................................................9

3.4.异构存储优化.........................................................11

3.5.网卡需求分析.........................................................12

4.NF5166M4Hadoop大数据解决方案.........................................14

4.1.E5-2600V4强劲计算能力..............................................14

4.2.TB级大内存..........................................................15

4.3.超大容量存储.........................................................15

4.4.绝佳硬盘配比与冷热数据分离..........................................15

4.5.双万兆网络保障充足带宽...............................................16

4.6.1U超高密度空间......................................................16

5.NF5166M4Hadoop大数据解决方案优势....................................17

5.1.强劲计算能力,为Hadoop提供强大计算支撑...........................17

5.2.异构存储最大18块磁盘,为Hadoop提供强大分级存储能力.............18

5.3.1U空间业界存储密度最高,节约50%Hadoop机房空间.................18

6.Hadoop集群部署架构与配置建议............................................18

6.1.中小规模Hadoop集群部署............................................18

6.1.1.部署架构.......................................................18

6.1.2.服务器配置建议.................................................19

6.1.3.配置说明.......................................................20

6.2.大规模Hadoop集群部署.............................................22

6.2.1.部署架构.......................................................22

6.2.2.服务器配置建议.................................................23

6.2.3.配置说明.......................................................24

7.NF5166M4产品简介........................................................26

7.1.产品定位.............................................................26

7.2.关键点...............................................................26

7.3.产品规格.............................................................27

8.Hadoop简介...............................................................28

8.1.Hadoop整体框架.....................................................30

8.2.HDFS分码存储系统.................................................34

8.3.MapReduce分布式计算框架..........................................40

1.方案概述

本方案基于Hadoop服务器选型问题与挑战,基于Hadoop集群及HDFS

和MapReduce等核心组件对服务器CPU、内存、磁盘、异构存储、网卡等资

源的深入需求分析,给出NF5166M4在构建Hadoop集群上的服务器解决方

案和优势,并针对100台以内中小规模和100-500台大规模Hadoop集群,

以云海InCloudInsigtHD为例,给出部署架构和基于NF5166M4服务器的配

置建议。

本方案可用于500台以内规模Hadoop集群服务器方案设计参考。

2.Hadoop服务器选型问题与挑战

现在是一个数据爆炸的时代JDC报告显示,预计到2020年全球数据总量

将超过40ZB(相当于4万亿GB)这一数据量是2011年的22倍。在过去几年,

全球的数据量以每年58%的速度增长,在未来这个速度会更快。如何利用大数

据解决科学、医疗、能源、商业、政府管理、城市建设等领域的问题,是全世界

面临的问题。

企业中的数据包括结构化、半结构化和非结构化数据,非结构化数据越来越

成为数据的主要部分。企业的图片、视频、文档等数据很容易就可达到PB,甚

至是EB级别。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,

这些数据每年都按指数增长60%。如何为企业构建一个高效的大数据基础软硬

件存储和计算平台,为企业在大数据时代获得更加精准和全面的信息领先优势,

进而推进企业业务发展、策略制定等,就显得尤为重要。

Hadoop是一款免费开源的分布式存储和计算平台。它被用来实现在商用

硬件上以集群模式存储和计算海量数据。在过去的几年中,Hadoop成为了大数

据解决方案的事实标准。

Hadoop集群构建要求底层服务器采用通用、可以Scale-Out和Share

nothing的硬件架构。由于Hadoop在处理海量数据的存储和计算时,不同组

件对于CPU、内存、硬盘、网络等资源需求是不同的,例如Spark是典型的CPU

密集型,需要更多CPU和内存,Hive、MapReduce基于磁盘计算,磁盘读写

比较频繁。服务器CPU能力、内存大小、磁盘性能和容量、以及网络性能都直

接影响Hadoop集群的整体性能发挥。

虽然可以针对不同资源密集型需求构建多个集群,但这过于浪费且运维管理

困难、效率低下。

因此,服务器的选型对于是否能够构建高性能、高密度的Hadoop集群非

常重要,在进行服务器选型的时候,需要充分考虑Hadoop不同软件组件的需

求特点和服务器的满足程度以及扩展性。

通常基于通用服务器和一些高密度服务器构建Hadoop集群时,往往是捉

襟见肘,不能很好的满足。例如刀片服务器硬盘支持数量太有限,通用服务器占

用空间太大,一些高密度服务器CPU或者磁盘支持太有限等。

3.Hadoop服务器选型需求分析

Hadoop可在通用硬件上运行,企业不必购买昂贵的高端服务器设备也能

组建一个高可靠性的生产计算平台。Google等公司采用廉价的PC服务器即可

承载其主要大数据业务。这里的廉价并不意味着低档,低档的机器往往在组建集

群时出错的概览更大,从而导致更高的维护费用,但也不建议采用高端关键数据

库级别的服务器来组建集群,因为Hadoop本身的设计可以保证在商用的硬件

条件下正常运行。

Hadoop集群服务器的选择需要结合Hadoop各组件对CPU、内存、硬盘、

网卡、可扩展性等资源的需求特点,进行选型配置。对于企业,则需要考虑服务

器所占用的空间、能耗、可维护性等方面,以达到最高性价比。

3.1.CPU需求分析

CPU是计算机最核心的组件,在集群中任何运行最终都是通过CPU完成计

算的。Hadoop集群中,Mast节点(NameNode/JobTracker)和Slave

(DataNode/TaskTracker)节点负责的功能不同,因此它们对CPU的需求也

是不同的。

■Mast节点

NameNode节点需要管理并维护整个集群文件的元数据,并处理文件访问

服务的请求,JobTracker(ResourceManager)节点需要管理维护用户提交的所

有作业,包括作业调度的处理等,同时NameNode和JobTracker节点在

Hadoop集群架构中是逻辑单节点的部署方式,因此他们对CPU的需求和集群

规模相关,集群规模越大,作业请求越多,相应的对CPU要求也越高。

■Slave节点

Slave节点的DataNode和TaskTracker分别负责数据存储于任务计算在

集群规模相同的情况下,多核心CPU的集群计算槽位容量比单核心CPU的集

群计算槽位容量大。一般在单节点核心CPU配置下,一个物理节点可以配置一

个计算槽位,最多不超过两个计算槽位;而在多节点多核心CPU的配置下,一

个物理节点可以配置多个计算槽位,Slave单节点配置16核心CPU,那么单节

点可以配置16个计算槽位(Map槽位,Redcue槽位以及预留槽位总和),在

CPU负载不高的情况下,最多可以设置32个计算槽位。

因此Mast节点可以依据集群规模选择相应的CPU配置;Slave节点则建

议选择多核心CPU配置。在多核心CPU配置的情况下,可以在不增加集群规模

的情况下,仅通过优化配置参数来增加集群的计算槽位容量,从而增加集群的计

算槽位容量,从而增加集群的计算能力,提高底层CPU的运算效率。

3.2.内存需求分析

Hadoop集群中,Mast节点和Slave节点对内存的需求不同,一般而言,

Mast节点对内存有较大的需求,例如NameNode需要将所有文件的元数据存

储在内存中,以获取较高的响应速度。NameNode的内存大小需要根据集群规

模及存储的文件数来确定。

■NameNode节点

在通常情况下,为JVM(64bit)开启1GB堆空间大约可以维护200万个

文件的元数据信息,随着HDFS存储文件规模的增长,NameNode必须增加内

存以服务更多的文件。例如Hadoop集群需要存储管理1000万个文件,那么

在NameNode内存中至少要存储这些数据的元数据信息,因此JVM虚拟机的

堆空间应该设为5GB左右来满足存储元信息的需求,同时还需要提供额外的缓

冲空间,算上操作系统的内存需求,NameNode服务器至少应该保证有10GB

的物理内存。

■SecondaryNameNode节点

对于SecondaryNameNode而言,由于是NameNode的镜像节点,因

此其内存需求和NameNode是一样的,对于较大规模的Hadoop集群而言,

NameNode和SecondaryNameNode是需要部署在独立服务器上的,这两

台服务器需要保证具备相同的内存配置。

■Slave节点

对于Slave节点,由于其包括DataNode和TaskTack节点类型,在实际的

集群环境下这两种节点是部署在相同的物理机器上的,在集群中是真正负责存储

和计算的节点,因此其内存需求往往和用户的作业类型相关。对于Saprkjmpala.

Tez、Drill.Presto等内存密集型作业,特别是需要加载词典的作业往往需要消

耗Slave节点较多的内存,而一般的数据密集型作业则对Slave节点没有太多的

内存需求,但是建议内存预算充足的情况下,为Slave节点配置更大的内存,在

这样的情况下,可以通过修改Hadoop参数提高集群系统的性能,例如提高

Shuffle阶段的内存配置相关参数,以降低HadoopMapReduce的I/。消耗,

从而提高计算框架的效率。

3.3.磁盘需求分析

Hadoop作为一个分布式并行计算框架,可以充分利用多核心、多磁盘的服

务器资源,每个节点服务器可以同时运行多个MapReduce任务,集群节点可以

配置多磁盘并行使用,从而提高集群的I/O效率,单个节点可配备N块磁盘,

挂载在/home目录下的相应目录,配置dfs.data.dir和mapred.data.dir参数

之后,Hadoop就可以并行使用磁盘。

■Slave节点是否要做RAID

对于磁盘需求,另一个需要关注的就是是否需要做RAID,一般的服务器都

会配备RAID卡,从本质上来讲,RAID是通过冗余存储来提高数据可靠性的,

而Hadoop集群中HDFS也是通过多副本的冗余存储机制来对每个数据块进行

冗余备份的。因此部署HadoopSlave节点的服务器磁盘不需要配置RAID卡,

同时实际的使用经验也证明了配置RAID磁盘的Hadoop集群在I/O整体性能

上反而不如不做磁盘RAID的集群。来自Yah。。的测试数据表明,不做RAID在

Gridmix测试中的性能表现要比RAID0高10%,在HDFS写吞吐量测试中要

搞30%。

此外,单块磁盘损坏会造成RAID0节点所有磁盘失效,从而造成整个节点

不可用。而不做RAID时,Hadoop可以跳过损坏的磁盘其它磁盘仍可以使用。

一般情况下,Hadoop作业通常属于I/O密集型,磁盘的I/O负载较高,磁盘

损坏时常发生,是Hadoop集群硬件故障的最主要来源。如果条件允许,可以

考虑使用可靠性较高的SCSI或SAS磁盘,以降低由磁盘损坏所带来的运维成

本。

通过上述分析,建议Hadoop集群中的Slave节点不做RAID。

■Mast节点是否要做RAID

Hadoop集群中的Mast节点NameNode和JobTracker都是单点部署,

对可靠性和稳定性要求更高,因此建议给Mast节点的磁盘配置RAID卡,可配

置RAID10或RAID5。

■Mast和Slave节点的操作系统是否要做RAID

对于Mast和Slave节点的操作系统,其所在磁盘都没有冗余,还是单点,

因此建议对安装操作系统的磁盘配置RAID1,提高操作系统高可用性,降低节

点磁盘故障导致的节点失效影响。

3.4.异构存储优化

Hadoop在2.6.0版本中引入了一个新特性异构存储,异构存储可以根据各

个存储介质读写特性的不同发挥各自的优势。异构存储提供的框架将HDFS架

构概括为包括SSD、磁盘、内存等存储介质。用户可以选择将其数据存储在SSD

或内存中以获得更好的性能。

■冷热数据分级存储

一个很适用的场景就是冷热数据的分级存储,针对冷数据采用容量大读写性

能不高的存储介质存储,比如最普通的Disk磁盘,而对于热数据而言,可以采

用SSD的方式进行存储,这样就能保证高效的读性能,在速率上甚至能做到十

倍于或百倍于普通磁盘读写的速度。换句话说,HDFS的异构存储特性的出现使

得我们不需要搭建2套独立的集群来存放冷热2类数据,在一套集群内就能完

成,因此具有非常大的实用意义。

HDFS在hdfs-default.xml文件中通过dfs.storage.policy.enabled启用/

禁用存储策略功能。

dfs.datanode.data.dir-在每个数据节点上,以逗号分隔的存储位置应使

用其存储类型进行标记。这允许存储策略根据策略将块放置在不同的存储类型

±o例如:

1)DISK上的datanode存储位置/grid/dn/diskO应该使用[DISK]

file:IIIgrid/dn/diskO

2)SSD上的datanode存储位置/grid/dn/ssdO应该配置为[SSD]

file:///grid/dn/ssdO

3)ARCHIVE上的datanode存储位置/grid/dn/archiveO应使用

[ARCHIVE]文件进行配置:///grid/dn/archiveO

4)RAM_DISK上的datanode存储位置/grid/dn/ramO应该使用

[RAM_DISK]文件配置:///grid/dn/ramO

5)如果datanode存储位置的默认存储类型没有明确标记的存储类型,

则它将为DISK.

一些Hadoop商业发行版支持通过界面配置异构存储,例如,InCloud

InsightHDHadoop发行版中提供了如下配置界面,可以方便的在

DataNode中进行存储目录设置,并批量设置。

SettingsAdvanced

NameNodeDataNode

NameNodedirectoriesDataNodedirectories

/insight/Mfs/namenode[SSDj/mnt/ssd_datal/hadoop;hdfs/data.

[DlSKj/insight/datae/nadoop/hclfs/data.

[DISK]/ms»ght/data7/hadoop/hdfsj'data

[DISK]/ins»ght/data8/tiadoop./hdfs/data

NameNodeJavaheapsizeDataNodefaileddisktolerance

NameNodeServerthreadsDataNodemaximumJavaheapsize

FII"M'f-I

50000GB126.125G8»2.159GB

图云海InCloudInsigtHDManager配置界面

3.5.网卡需求分析

Hadoop集群作为一个分布式计算系统,节点之间的通信和数据传输是非

常频繁的,节点之间通信和数据传输最终都是通过网卡完成的,因此网卡的性能

对整个集群的性能至关重要,特别是对I/O性能的影响。

HDFS需要依赖网络通信,在NameNode上更新当前文件系统的状态。也

要接受和发送数据块到客户端。MapReduce任务也使用网络传递状态信息。如

果出现下列一些情况,还将需要额外的带宽。如执行任务的TaskTracker需要的

数据块不在本地以及M叩阶段产生的中间数据传递给Reduce的过程,等等。

总之在Hadoop集群中会出现很多的网络活动。

■网络带宽

对于1000Mbit/s网卡而言,节点之间的带宽就被限制在了1000Mbit/s

的范围之内(不考虑连接线的传输速率),因此建议配置更大传输速率的万兆网

卡,但是网卡速率越高价格也就越贵,同时还需要考虑集群的规模和数据传输的

速率,并在综合考虑后进行选择。

■集群密度

对于采用少量磁盘低密度机器组成的集群,即每个节点拥有少量的磁盘、

内存和CPU,通过机器的数目来提供足够的容量。对于低密度机器,需要考虑

每台机器所配置磁盘个数及其所能达到的最大写10能力,与网络带宽的比

较,如果千兆网络就能满足,则配置万兆网卡基本上没有太大的意义,这会增

加整体的集群搭建成本。

对于高密度服务器组成的集群,使用千兆的网卡可能会限制其能力,使得

很多其它资源使用的浪费。因为高密度集群的原因,万兆网卡的成本对于预算

来说不会带来特别大的影响。

4.NF5166M4Hadoop大数据解决方案

基于Hadoop集群对服务器资源众多挑剔需求的深刻理解,研发了能够完

美满足Hadoop大数据集群要求的高密度服务器产品NF5166M4解决方案。

图NF5166M4服务器整体视图

图NF5166M4服务器内部视图

4.1.E5-2600V4强劲计算能力

NF5166M4可以选择4〜22个物理核心的E5-2600V4系歹I」CPU,组成8

~44颗强大物理核心CPU处理能力。因此,Slave节点可以采用NF5166M4承

载需要更多计算槽位、更高单节点计算能力的Hadoop集群场景,Mast节点可

以选择NF5166M4或更高端通用服务器来承载支持小规模到大规模部署的

Hadoop集群。

4.2.TB级大内存

NF5166M4可以提供最大64GBx16约1TBDDR4内存,可以为

NameNode和DataNode提供充足的内存支持和扩展。NameNode建议一般

配置128GB以上内存,DataNode配置256GB以上最大1024GB内存。

4.3.超大容量存储

因此,对于Hadoop集群中Slave节点,建议选择NF5166M4,可以通过

配置2块M.2硬盘安装操作系统,M.2硬盘与其它硬盘物理隔离配置SAS3008

IR存储控制子卡做RAID1保证操作系统高可用性。

2块M.2硬盘一般采用SSD磁盘,既提高了操作系统的存取性能,又不占

用宝贵的服务器数据盘,提高了Hadoop服务器单机数据容量。

数据盘可以配置最大12块8TB企业级SATA磁盘或6TBSAS磁盘为

Hadoop集群提供高企业级高可靠性和大容量数据存储,还可以另外提供4块

SSD磁盘配置,最大存储空间达120T。

对于Hadoop集群中Mast节点,建议选择能够支持RAID1及以上,且可

配置E5-2600V4等系列CPU的通用双路服务器,NF5166M4可以通过配置存

储控制子卡支持RAID1。

4.4.绝佳硬盘配比与冷热数据分离

因此,Hadoop集群可以通过SSD+HDD磁盘方式将数据进行冷热分离,

异构存储,通过配置SSD磁盘保证高效的读性能。NF5166M4可以为Hadoop

异构存储提供2XM.2SSD系统盘+(4xSSD+12xHDD16块数据磁盘)支撑,

提供最大1.6TBx4块约6.4TB企业级SSD磁盘容量,同时支持配置最大12块

8TB企业级SATA磁盘或6TBSAS磁盘最大96TBHDD磁盘容量,从而为

Hadoop集群提供大容量SSD和HDD异构磁盘容量支持,进而提高Hadoop

集群的整体存储读写性能。

4.5.双万兆网络保障充足带宽

对于Hadoop集群的Slave节点,NF5166M4集成双千兆网口,可通过配

置双口万兆网卡(光纤接口满足高密度服务器集群高带宽网络需求为Hadoop

集群提供高速网络环境。

4.6.1U超高密度空间

Hadoop集群往往会数十台、数百台、甚至上千、上万台规模,大规模的服

务器需要占用巨大的机房空间,使得政企客户机房成本迅速攀升。

NF5166M4全新服务器结构设计,完美支持Hadoop集群上述配置,只需

1U高度紧凑空间,是传统1U服务器的3倍,相同存储容量下可节约50%机

房空间。

120x35"HDDs

图NF5166M4构建Hadoop集群密度对比

因此,NF5166M4是Hadoop大数据集群的绝佳之选,除支持双路E5-

2600V4CPU,支持16xDDR4内存,支持双万兆和双千兆网口,1U高度内

支持2xM.2forOS独享空间、4个2.5寸SSD、12块3.5/2.5寸热插拔

SATA/SASHDD或SATASSD硬盘组成的混合存储架构,充分提高Hadoop

集群的全方位性能、空间占用密度,并为日后Hadoop集群扩展做足准备。

5.NF5166M4Hadoop大数据解决方案优势

5.1.强劲计算能力,为Hadoop提供强大计算支撑

NF5166M4支持2个E5-2600V4CPU,可以提供最大44个物理核心的

强大计算性能,为Hadoop集群提供了强劲计算能力支撑;

5.2.异构存储最大18块磁盘,为Hadoop提供高达120TB强大分

级存储能力

NF5166M4支持16根DIMMDDR4内存插槽最大1TB物理内存容量,

支持2xM.2+12xHDD+4xSSD异构存储,为Hadoop集群提供高度优化

的存储支撑能力;

5.3.1U空间业界存储密度最高,节约50%Hadoop机房空间

NF5166M4是业界存储密度最高,更低空间成本的1U双路机架服务器。

在紧凑Hadoop集群空间内支持2xM.2硬盘、12块3.5寸热插拔硬盘和4个

2.5寸热插拔SATASSD,存储密度是传统1U服务器的3倍,相同存储容量下

可节约50%机房空间。

6.Hadoop集群部署架构与配置建议

Hadoop集群部署以云海InCloudInsightHD为例。

6.1.中小规模Hadoop集群部署

6.1.1.部署架构

小于100台的中小规模Hadoop集群,如下图所示,所有节点中,2台作

为MasterNode,1台作为ManagerNode(也称工具节点),其余节点为

WorkerNode(DataNode\HDFS采用HA架构,其中在MasteNodel上

部署NameNode,MasterNode2上部署StandbyNameNode,一个处于

Active状态,一个处于Standby状态。一旦ActiveNameNode出现问题,

Standby状态的NameNode就会迅速切换至Active状态并继续提供服务。

ZooKeeper节点数量为奇数,确保发挥最佳性能。通常我们将ManagerServer

部署在工具节点,从而减轻MasterNode的压力。Manager采用Mysql数据

库,在MasterNodel部署主节点,MasterNode2为从节点,通过bin-log主

从数据同步,完成数据备份。

一.前T

a■

MastNodelMa$tNode2ManagerNode

*'...-...-JI------------------------|k----------•'

[I业"IB

m网电

DataNodelDataNodeZ____DataNodeN

数据节点

图中小规模Hadoop集群(小于100台)部署示意图

6.1.2.服务器配置建议

中小规模Hadoop集群服务器配置建议如下表:

节点类型设备型号项目配置数量数量

规格1U机架式高性能服务器

E5-2650V4-

CPU2

数据节点NF5166M4Xeon2.2_12_9.6_30_1054~97

内存32GBDDR4-2133MHZRDIMM8

内置硬盘6TBSAS12

前置SSD硬盘1.2TMLCSSD2.5"4

M.2硬盘M.2硬盘80G2

外插RAID卡

INSPUR_SAS3008IR_12Gb/sSAS1

和SAS卡

网卡双口万兆网卡(光纤接口)1

电源1+1冗余电源1

集成网卡主板集成双口千兆以太网卡

规格1U机架式高性能服务器

E5-2695V4-

CPU2

Xeon2.1_18_9.6_45_120

内存32GBDDR4-2133MHZRDIMM4

内置硬盘600GSAS硬盘(1万转)2.5"8

前置SSD硬盘1.2TMLCSSD2.5”0

管理节点NF5166M43

M.2硬盘M.2硬盘80G2

外插RAID卡

INSPUR_SAS3008IR_12Gb/sSAS1

和SAS卡

网卡双口万兆网卡(光纤接口)1

电源1+1冗余电源1

集成网卡主板集成双口千兆以太网卡

6.1.3.配置说明

配置说明如下:

■管理节点主要部署的Hadoop组件

1)ManagerNode:HDManager,JournalNode,ZooKeeper

2)MasterNodel:ResourceManager,HAHadoopNameNode,

JournalNode,ZooKeeper

3)MasterNode2:HAResourceManager,HadoopNameNode,

JournalNode,ZooKeeper

■数据节点主要部署的Hadoop组件

DataNode、NodeManager等。

■管理节点ManagerNode磁盘使用与配置

ManagerNode用10块硬盘组成存储池,具体使用情况如下:

1)两块M.280GBSSD硬盘设置为RAID1安装操作系统并保存系统日

2)两块1万转600GBSAS硬盘设置为RAID1用于Database存储数据

3)一块1万转600GBSAS硬盘设置为JBOD作为ZooKeeper工作目录

4)一块1万转600GBSAS硬盘设置为JBOD作为JournalNode数据目

5)两块1万转600GBSAS两块硬盘设置为JBOD用于存放工具

6)其余两块盘作为热备盘

■管理节点MastNode磁盘的使用与配置

管理节点使用10块硬盘组成存储池,具体使用情况如下:

1)两块M.280GBSSD硬盘设置为RAID1,用于安装操作系统并保存

系统日志

2)两块1万转600GBSAS硬盘设置为RAID1,用于存储NameNode

元数据

3)两块1万转600GBSAS硬盘设置为RAID1,用于存储database数据

4)一块1万转600GBSAS硬盘作为ZooKeeper工作目录

5)一块1万转600GBSAS硬盘作为JournalNode数据目录

■数据节点DataNode磁盘的使用与配置

数据节点使用18块盘组成存储池,具体使用情况如下:

1)两块M.280GBSSD硬盘设置为RAID1安装操作系统;

2)12块6TBSAS硬盘采用JBOD模式单独挂载,作为数据盘;

3)4块1.2TBSSD硬盘采用JBOD模式单独挂载,作为SSD数据盘。

6.2.大规模Hadoop集群部署

6.2.1.部署架构

100-500台较大规模Hadoop集群,如下图所示,所有节点中,2台作为

MasterNode,3台作为ManagerNode(包括工具节点和HDFS元数据冗余节

点),其余节点为WorkerNode(DataNode1HDFS采用HA架构,其中在

MasteNodel上部署NameNode,MasterNode2上部署Standby

NameNode,一个处于Active状态,一个处于Standby状态。一旦Active

NameNode出现问题,Standby状态的NameNode就会迅速切换至Active

状态并继续提供服务。5个ZooKeeper节点数量为奇数,确保发挥最佳性能。

通常我们将ManagerServer部署在工具节点从而减轻MasterNode的压力。

Manager采用Mysql数据库,在MasterNodel部署主节点,MasterNode2

为从节点,通过bin-log主从数据同步,完成数据备份。

U,4MN

nrn«

图大规模Hadoop集群(100-500台)部署示意图

6.2.2.服务器配置建议

大规模Hadoop集群服务器配置建议如下表:

节点类型设备型号项目配置数量数量

规格1U机架式高性能服务器

E5-2650V4-

CPU2

Xeon2.2_12_9.6_30_105

内存32GBDDR4-2133MHZRDIMM8

内置硬盘6TBSAS12

数据节点NF5166M4前置SSD硬98-495

1.2TMLCSSD2.5"4

M.2硬盘M.2硬盘80G2

外插RAID卡INSPUR_SAS3008IR_12Gb/s

1

和SAS卡SAS

网卡双口万兆网卡(光纤接口)1

电源1+1冗余电源1

集成网卡主板集成双口千兆以太网卡

规格1U机架式高性能服务器

E5-2695V4-

CPU2

Xeon2.1_18_9.6_45_120

内存32GBDDR4-2133MHZRDIMM4

内置硬盘600GSAS硬盘(1万转)2.5"8

前置SSD硬

1.2TMLCSSD2.5〃0

管理节点NF5166M4盘5

M.2硬盘M.2硬盘80G2

外插RAID卡INSPUR.SAS3008IR_12Gb/s

1

和SAS卡SAS

网卡双口万兆网卡(光纤接口)1

电源1+1冗余电源1

集成网卡主板集成双口千兆以太网卡

6.2.3.配置说明

配置说明如下:

■管理节点主要部署的Hadoop组件

1)MasterNodel:ResourceManager,HAHadoopNameNode,

JournalNode,ZooKeeper

2)MasterNode2:HAResourceManager,HadoopNameNode,

JournalNode,ZooKeeper

3)ManagerNodel:HDManager,JournalNode,ZooKeeper

4)ManagerNode2:JournalNode,ZooKeeper,otherroles

5)ManagerNode3:JournalNode,ZooKeeper,otherroles

■数据节点主要部署的Hadoop组件

DataNode、NodeManager等。

■管理节点ManagerNode磁盘使用与配置

ManagerNode用10块硬盘组成存储池,具体使用情况如下:

1)两块M.280GBSSD硬盘设置为RAID1安装操作系统并保存系统日

2)两块1万转600GBSAS硬盘设置为RAID1用于Database存储数据

3)一块1万转600GBSAS硬盘设置为JBOD作为ZooKeeper工作目录

4)一块1万转600GBSAS硬盘设置为JBOD作为JournalNode数据目

5)两块1万转600GBSAS两块硬盘设置为JBOD用于存放工具

6)其余两块盘作为热备盘

■管理节点MasterNode磁盘的使用与配置

管理节点使用10块硬盘组成存储池,具体使用情况如下:

1)两块M.280GBSSD硬盘设置为RAID1,用于安装操作系统并保存

系统日志

2)两块1万转600GBSAS硬盘设置为RAID1,用于存储NameNode

元数据

3)两块1万转600GBSAS硬盘设置为RAID1,用于存储database数据

4)一块1万转600GBSAS硬盘作为ZooKeeper工作目录

5)一块1万转600GBSAS硬盘作为JournalNode数据目录

6)其余两块盘作为热备盘

■数据节点DataNode磁盘的使用与配置

数据节点使用18块盘组成存储池,具体使用情况如下:

4)两块M.280GBSSD硬盘设置为RAID1安装操作系统;

5)12块6TBSAS硬盘采用JBOD模式单独挂载,作为数据盘;

6)4块1.2TBSSD硬盘采用JBOD模式单独挂载,作为SSD数据盘。

7.NF5166M4产品简介

7.1.产品定位

NF5166M4是专为分级存储架构应用优化的高密度1U双路机架服务

器,在紧凑空间内不仅提供了超大存储空间和精密的分级存储混合架构,同时

也具备强劲的计算性能,适用于对计算性能要求较高的分布式文件系统和超融

合架构。

7.2.关键点

1)超高的存储密度,分级存储的理想选择

全新服务器结构设计,在1U的紧凑空间内支持12块3.5寸热插拔硬

盘和4个2.5寸热插拔SATASSD,最大数据存储空间达120T,存储密度

是传统1U服务器的3倍,相同存储容量下可节约50%机房空间。12个

3.5寸硬盘和4个2.5寸SSD组成的混合存储架构,实现了数据盘与缓存

盘4:1或3:1的最佳性能比,是分级存储架构的理想选择。

2)卓越的计算性能

支持2颗IntelXeonE5-2600v4处理器,最大功耗135W,支持16

条DDR4-2400内存,提供最大1.0TB的内存容量(单条64G),具备卓越

的计算性能,满足对计算性能要求较高的存储应用需求。

3)绿色节能,高能效设计

采用业内最优的高效数字电源方案,通过系统环境动态感知技术实时调节

风扇转速,可实时监控整机能耗,配合先进的风冷系统,实现最佳的工作效

率,为超大规模数据中心优化设计

7.3.产品规格

型号NF5166M4

处理器支持2个英特尔®至强®E5-2600V4

高速缓存30-45M

QPI总线速率9.6GT/S

16个内存插槽,最高支持DDR4-2400内存,最大可扩展1TB内存空间(当使用单条容

内存量64GB的内存时)

支持高级内存纠错、内存镜像、内存热备等高级功能

硬盘控制器可选SAS12Gb磁盘控制器

内置:

最大支持12块3.5/2.5寸热插拔SATA/SASHDD或SATASSD;

存储最大支持2个M.2SATASSD;

前置:

最大支持4个2.5寸热插拔SATASSD;

PQe扩展支持1个网络子卡和1个存储控制子卡

后置:2个USB3.0接口、1个VGA接口,1个串口

I/O端口

前置:1个USB2.0接口

集成双千兆网口,支持虚拟化加速、网络加速、负载均衡、冗余等高级功能,另外支持外

网络控制器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论