HCIP-Storage V5.0 学习指导HCIP-Storage V5.0 学习指导_第1页
HCIP-Storage V5.0 学习指导HCIP-Storage V5.0 学习指导_第2页
HCIP-Storage V5.0 学习指导HCIP-Storage V5.0 学习指导_第3页
HCIP-Storage V5.0 学习指导HCIP-Storage V5.0 学习指导_第4页
HCIP-Storage V5.0 学习指导HCIP-Storage V5.0 学习指导_第5页
已阅读5页,还剩148页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DOCPROPERTY"Product&ProjectName"DOCPROPERTYDocumentName华为专有和保密信息版权所有©华为技术有限公司非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼邮编:518129网址:http://HCIP-Storage学习指导第151页华为认证体系介绍华为认证是华为公司基于“平台+生态”战略,围绕“云-管-端”协同的新ICT技术架构,打造的ICT技术架构认证、平台与服务认证、行业ICT认证三类认证,是业界覆盖ICT(InformationandCommunicationsTechnology信息通信技术)全技术领域的认证体系。

根据ICT从业者的学习和进阶需求,华为认证分为工程师级别、高级工程师级别和专家级别三个认证等级。华为认证覆盖ICT全领域,符合ICT融合的技术趋势,致力于提供领先的人才培养体系和认证标准,培养数字化时代新型ICT人才,构建良性ICT人才生态。HCIP-Storage(HuaweiCertifiedICTProfessional-Storage,华为认证存储高级工程师)主要面向华为内部工程师,华为渠道工程师,高校学生,ICT从业人员。HCIP-StorageV5.0认证在内容上涵盖存储系统介绍、闪存存储技术与应用、分布式存储技术与应用、存储规划设计与实施、存储运维与故障处理等内容。华为认证协助您打开行业之窗,开启改变之门,屹立在WLAN网络世界的潮头浪尖!

存储系统介绍全闪存存储介绍产品定位华为存储可分为全闪存存储、混合闪存存储、分布式存储。全闪存存储:新一代的鲲鹏硬件平台和SmartMatrix全互联、端到端NVME架构,多种高级保护技术,最高容忍控制器8坏7,支持FlashLink、RAID-TP等技术,智能芯片端到端加速。混合闪存存储:全新硬件架构,智能处理器,支持Scale-out灵活扩展,闪存加速,控制器间负载均衡且互为热备,故障无感知,高可靠性,支持SAN与NAS一体化,资源轻松管理。分布式存储:提供块存储、HDFS、对象和文件存储服务四合一,支持EC、FlashLink等特性;支持X86与鲲鹏处理器多平台硬件共存,支持性能加速技术,I/O智能调度等。HuaweiOceanStor全闪存系列存储系统是华为技术有限公司根据存储产品应用现状和存储技术未来发展趋势,针对企业大中型数据中心,推出的新一代全闪存高端存储系统,聚焦于大中型企业核心业务(企业级数据中心、虚拟数据中心以及云数据中心等),能够满足大中型数据中心高性能、高可靠、高效率的业务需求。HuaweiOceanStor全闪存系列存储系统采用全新一代的SmartMatrix智能矩阵架构,该架构能实现业界唯一的控制框2坏1业务不中断,控制器8坏7业务不中断,能够满足大中型企业核心业务可靠性的要求。同时OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存储系统由AI智能芯片加持,能够满足数据中心大型数据库OLTP/OLAP(OnlineTransactionProcessing/OnlineAnalyticalProcessing)、高性能计算、数字媒体、Internet运营、集中存储、备份、容灾和数据迁移等不同业务应用的需求。HuaweiOceanStor全闪存系列存储系统不但能够为数据中心提供性能出色的存储服务。同时,提供各种完善的数据备份和容灾方案,保证数据业务顺利、安全的运行。除此之外,OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存储系统还提供易于使用的管理方式和方便快捷的本地/远程维护方式,大大降低了设备管理和维护的成本。软硬件架构首先,我们介绍全闪存存储的硬件架构。控制框规格:电源支持100~240V交流,240V高压直流;更换BBU会拔出电源;更换电源不需要拔出BBU接口类型:12GbSAS,32Gb/16Gb/8GbFC,25Gb/10GbEth,40bG/100GbEth,GE卡,Scale-Out接口模块只能放置在2#槽位体系架构PangeaV6ARM硬件平台,硬件全自主可控CPU采用海思自研鲲鹏920系列-Kunpeng9202U盘控一体架构支持25*2.5寸控制框、36*PALMNvme控制框Active-Active冗余双控制器硬盘框控制框采用NVMe框,硬盘框则配套NVMe级联框。采用SASSSD框,硬盘框则配套SASSSD框。硬盘框和入门级盘控一体框归作为硬盘使用时按钮功能无效,不支持按钮上下电,由引擎下发上下电命令;智能硬盘框内部,有ARMCPU,8G/16GB内存,具有运算能力,能够实现重构的卸载。接着,我们介绍全闪存存储的软件架构。华为全闪存存储支持多种高级特性,如HyperSnap、HyperMetro、SmartQOS等。通过管理网口/串口可以被SmartKit、eService等维护终端软件管理。通过iSCSI/FC通道被OceanStorBCManager、UltraPath等应用服务器端软件管理。OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存储系统采用SmartMatrix全互联均衡架构,该架构采用了具有高速、矩阵式全互联无源背板,可以连接多个控制器节点,同时接口模块(FC和后端级联)采用全共享方式接入背板,允许主机从任意端口接入,直达任意控制器进行处理。SmartMatrix全互联均衡架构允许控制节点之间紧密协调、简化软件模型,实现Active-Active细粒度均衡、高效低时延和协同作业。前端全互联高端使用共享前端接口卡,接口卡是插在控制框上,能被控制框内的四个控制器同时访问;主机IO到达接口卡后,接口卡直接把IO分发到处理控制器。控制器全互联控制框内的控制器通过背板100GbRDMA进行连接(只有5300是40GbRDMA)控制框内控制器,及Scale-Out场景,两两控制器之间都有直连链路,无需转发后端全互联HuaweiOceanStorDorado6800/18500/18800V6支持后端共享卡,同一个智能硬盘框能够连接到两个控制框上,同时被8个控制器访问,再加上软件持续镜像技术,就实现了8坏7HuaweiOceanStorDorado5300/5500/5600V6不支持后端共享卡,同时考虑到盘控一体内的盘只能被一个控制框访问,所以,硬盘框只能被一个控制框访问,不支持持续镜像全均衡(A-A)架构实现了整个存储系统业务压力的均衡分担、数据的均衡分布,使得存储资源规划变得极为简单。客户只需要关注存储系统需要的总的存储容量需求和性能需求,无需再关注容量和性能受存储系统内部分布的影响。LUN无归属,均衡打散:LUN的数据,按照64MB的粒度,划分成Slice。每个Slice按照Hash(LUNID+LBA)的结果,分发到不同的Vnode(一个vnode就是一个CPU)上。可以分为:前端均衡华为主机多路径,不同的Slice,选择Vnode对应的物理链路;前端共享卡,转发到对应的Vnode。控制器:在没有主机多路径及前端共享卡情况,及跨Slice的IO情况下,把IO转发到对应的Vnode。全局写缓存均衡数据量是均衡的,数据热点也是均衡的。全局存储池均衡盘的利用率均衡,磨损和寿命是均衡的,数据分布是均衡的,热点数据是均衡的。关键技术全闪存存储的关键技术我们从高性能、高可靠、高安全三个维度进行讲解。高性能IO传输加速技术华为OceanStor全闪存系列支持端到端的NVMe,实现了高性能IO通道,包括:存储与主机网络支持NVMeoverFC,后续将扩展到NVMeoverRoCEv2;存储控制器与硬盘框连接网络支持NVMeoverRoCEv2;NVMe是一种抽象协议层,旨在提供可靠的NVMe命令和数据传输。为了支持数据中心的网络存储,通过NVMeoverFabric可以实现NVMe标准在多种网络上的扩展,达到降低存储网络协议栈处理开销并提供高并发低延时应用,适应SSD介质驱动的存储架构演进。在端到端的NVMe高速通道上,华为采用自研ASIC接口模块,自研ASICSSD盘/框设计,从协议解析、IO转发、业务优先、硬件加速等方面对NVMe进行全面支持,为数据传输提供高速通道。自研ASIC接口模块:TCP/IP协议栈处理直接卸载到接口卡,时延降低50%;芯片直接响应主机,减少I/O交互次数;ASICIO均衡/分发;多队列轮询,免锁。自研ASICSSD盘/框:读优先级技术,优先执行SSD上的读请求,及时响应主机;智能硬盘框配备CPU、内存、硬件加速引擎,数据重构卸载到智能硬盘框,降低时延;多队列轮询,免锁。DTOE协议卸载技术传统网卡:需要CPU处理每个MAC帧,需要CPU处理TCP/IP协议(checksum,拥塞控制等),CPU资源消耗严重。TOE:网卡卸载TCP/IP协议,系统仅关注处理真正的TCP数据流。仍然存在高延迟开销,如内核中断、锁、系统调用和线程切换。DTOE优点:每个TCP连接有单独的硬件发送队列,避免锁开销;用户态直接操作硬件队列,避免上下文切换开销;采用轮训方式,更低的时延;更好的性能与可靠性。智能多级缓存技术DataIQ识别元数据和数据的冷热情况,将LUN和POOL的元数据用DRAMCache进行读加速。文件系统元数据、数据采用两级Cache加速,最热部分采用DRAM进行读加速,次热部分采用SCMCache进行读加速,文件系统元数据和数据读写时延降低30%。SmartCache技术SmartCache是华为公司OceanStor企业统一存储系列产品中推出的采用SSD作为介质提供读缓存的特性,基于华为新一代存储操作系统OceanStorOS实现。存储系统通过识别热点数据,将访问频繁的数据存入SmartCache中,以便下次读访问可以在SmartCache中命中,从而提升整个系统的性能。元数据时钟置换调度算法元数据资源统一采用时钟轮转缓存算法提升元数据命中率30%。时钟轮转缓存淘汰算法原理如下:缓存资源采用循环Buf进行管理,设置两个Buf游标(分配游标alloc、扫描游标swept);各子系统以Page粒度申请读缓存插入到alloc位置,并根据命中率设置缓存Page的权重值;后台回收任务基于缓存池利用率,触发回收扫描,swept遍历已申请Page并减其权重值,在Page权重值减为0时,触发该Page的淘汰。文件系统相关文件系统分发策略:创建目录时选择目录归属FSP,文件归属默认与目录保持一致,根目录归属FSP由FSID的HASH值决定。目录归属FSP选择有两种模式:亲和模式和均衡模式;亲和模式即优选客户端接入控制器上工作的FSP;均衡模式即目录按DHT均衡分布到所有控制器的FSP上。大目录热点文件场景,可选将文件分散到不同vNode的FSP上,提升大目录性能。文件系统访问亲和模式:主机Client通过IP访问控制器,其目录/文件在本控制器亲和处理。主机ClientX通过IP地址X与存储控制器连接,Client创建的目录/文件在接入控制器的vNode上均衡分布,同时相同IP创建的目录/文件保持在本vNode的亲和性,减少跨vNode或跨控制访问。不同vNode的容量相差5%以上时,会将新创建目录均衡到其它vNode上,达成容量均衡。文件系统访问均衡模式:主机Client通过IP访问控制器,以目录为粒度在多个控制器的vNode间均衡,100%发挥存储性能。主机Client通过IP地址与存储控制器连接,Client创建的目录均衡分布在多个vNode上;文件跟着目录也均衡到对应的vNode上。FlashLink技术相关OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存储系统采用专为闪存设计的FlashLink®技术,具备高IOPS(Input/OutputOperationsPerSecond)并发能力,同时保持稳定的低时延。FlashLink®技术的核心是通过一系列针对闪存介质的算法优化技术,实现了控制器板载CPU和SSD板载专用CPU的联动,保障了SSD算法在不同CPU之间的协同,实现系统的高性能和高可靠。FlashLink®技术主要包含以下关键技术:众核技术采用华为自研CPU,在同一个控制器内实现了业界存储产品最多的CPU数和CPU核数。通过智能众核技术,实现了存储设备性能随着CPU数量和核数线性增加。业务在Vnode内完成处理:主机IO请求根据智能分发算法,分发到VNode,业务会在VNode内完成端到端处理。避免跨CPU节点的通信开销和跨CPU访问远端内存的开销及CPU间的冲突,实现了性能随CPU个数线性增长业务分组:VNode内部CPU包含的所有核,每个业务分组对应一个CPU核分组。业务分组内的CPU核只运行对应的业务代码,不同的业务分组之间不相互干扰。通过业务分组,不同的业务隔离在不同核上运行,避免了不同业务分组对CPU的争抢和冲突核间免锁:在业务分组内部,每个核在处理业务逻辑时,使用独立的数据组织结构,避免同一个业务分组内部的CPU访问同一个内存结构的冲突,实现CPU核间的免锁2)大块顺序写解决问题:SSD盘相对磁盘,Flash颗粒具有擦写次数的限制。在传统RAID的覆盖写的方式下,如果某块盘上的数据成为了热点,那么对这些数据的不断改写,就会导致对应的Flash颗粒的擦写次数很快的耗尽。ROW满分条大块顺序写:盘控配合,也是华为OceanStorDoradoV6的一大特点,FlashLink-ROW大块顺序写机制,是指OceanStorDoradoV6基于自研SSD,控制器感知硬盘内数据布局,从而把多段小块离散写,通过聚合成一个连续的大数据块写操作,顺序写入SSD。使得RAID5,RAID6和RAID-TP都只用做一次IO操作,不用产生小块离散写带来的多次读写操作。在写性能上RAID5,RAID6和RAID-TP性能相似,不再有明显差异。3)冷热数据分流识别系统中的冷热数据,通过SSD盘和控制器的配合,提升垃圾回收的性能,减少盘内SSD颗粒擦写次数,延长SSD盘的使用寿命。垃圾回收:在SSD的垃圾回收过程中,对于每次擦除的Block,SSD硬盘期望该Block中所有数据都是无效数据,这样就可以直接擦除整个Block,而不用搬移有效数据,可以减少系统的写放大。多流技术:不同修改频率的数据写到不同的SSDblock上,减少垃圾回收。数据与元数据分流:元数据修改频率高,与数据写到不同的SSD区域。新写数据与垃圾回收数据分流:垃圾回收的数据与新写的数据冷热也不一样,写到不同的SSD区域。5)IO优先级调整IO优先级处理,针对不同的IO类型,进行资源优先级匹配,确保不同IO按照相应的SLA得到处理。就如同高速公路,有内外道以及紧急通道之分,确保不同类型的车辆均能快速通过。6)智能盘框采用最新一代自研智能硬盘框,硬盘框内有CPU和内存资源,能够对盘故障重构等任务进行卸载,减轻控制器的负载,实现在盘故障场景下,重构对业务性能无影响。传统硬盘框重构过程:RAID6(21+2)为例。数据盘D1故障,控制器就需要把数据盘D2-D21,以及P列读到控制器,再重新计算出D1。总共需要从盘上读21个数据块。再加上重构计算,对控制器CPU开销较大。智能硬盘框的重构:读数据的命令分发到智能硬盘框中,智能硬盘框在本地读数据,并用这些数据计算校验数据后,只需要将校验数据传输到控制器,大幅节省网络带宽。存储控制器任务卸载分担:每个智能硬盘框内有2个控制板,内置鲲鹏芯片CPU和内存资源。智能硬盘框从阵列控制器接管一些工作负载,把数据重构的工作卸载到智能硬盘框上实现。7)智能(AI)技术华为OceanStor全闪存系列在智能AI方面也引入了AI智能芯片,我们在存储设备端放置一颗华为昇腾310AI芯片,它可以实现存储的自我加速,可以让存储具备较高算力。Ascend310是一款高能效、灵活可编程的人工智能处理器,支持多种数据精度,能够同时支持训练和推理两种场景的应用。Ascend310兼顾AI算力提升与能效平衡,能够实现机器学习,对海量数据模型进行数据分析,如数据冷热、健康分析、数据关联等,最终学习建模完成智能分析,实现智能Cache、智能Qos、智能Dedupe等功能。高可靠接着,我们介绍高可靠方面的技术。OceanStorDorado6800V6,Dorado18500V6,Dorado18800V6存储系统对部件失效和设备断电均有保护措施,同时在降低硬盘故障和数据丢失风险方面也采用了先进的技术,保障了系统的高可靠性。同时存储系统提供了多种高级数据保护技术,即使在毁灭性的灾难下,也能够保障数据安全,从而使业务正常持续运行。高可靠性架构容忍2控同时失效:全局缓存跨引擎支持3副本技术;双控同时故障,至少保证1个缓存副本可用;单引擎3副本技术,可容忍2控同时故障。容忍单引擎失效:全局缓存跨引擎支持3副本技术;1个智能框通过后端共享模块接入8控(2引擎);一个引擎故障,至少保证1个缓存副本可用。容忍7控相继失效:全局缓存提供持续镜像技术;8控(2引擎),可容忍7个控制器相继故障。单控制器故障业务不中断主机与普通以太端口一样:单物理端口单物理链路;单端口单个Mac地址。内部链路虚拟出本地逻辑端口:4个内部链路,连接到引擎内每个控制器;每个控制器产生本地逻辑端口。IP地址配置在内部逻辑端口:IP地址配置在控制器的逻辑端口;主机与本地逻辑端口建立IP连接。控制器故障IP地址自动漂移:控制器故障对应逻辑端口Down;IP地址自动漂移到其它控制器的逻辑端口。单链路在线升级业务不中断过程如下:IO处理进程升级时间<1.5s,与主机重新建立连接<3.5s,业务归零时间<5s。SMB高级特性SMB(ServerMessageBlock)协议是一个网络文件访问协议,使本机程序可以访问局域网内计算机上的文件并请求此计算机的服务。CIFS是SMB的一个公共版本。协议文件句柄用途SMB2.0DurableHandel协议定义用于防链路闪断的文件句柄SMB3.0PersistenceHandel协议定义用于Failover的文件句柄SMB2.0实现Failover原理:将SMB2.0DurableHandel利用SmartMatrix技术将句柄在多控间持续镜像。当控制器或接口卡故障时,系统进行NAS逻辑端口透明迁移。当主机从新的控制器来恢复SMB2.0业务时,该控制器会从DurableHandel的句柄备份控制器去获取句柄,从而保证业务连续性。SMB3.0实现Failover原理:将SMB3.0PersisteceHandel利用SmartMatrix技术将句柄在多控间持续镜像。当控制器或接口卡故障时,系统进行NAS逻辑端口透明迁移。主机基于SMB3.0Failover标准来恢复句柄时,将句柄备份控制器上的PersistenceHandel恢复到指定控制器。漂移组存储系统上可用于IP漂移的端口组合。漂移组包括系统默认漂移组、VLAN漂移组和用户自定义漂移组。故障回切支持手工和自动回切,主用端口开始自动回切到恢复正常大概5秒钟。系统默认漂移组:当LIF故障时,存储在对端控制器上找到有相同位置、类型(物理/绑定)、速率(GE/10GE)、MTU的端口,并漂移过去。如果这个端口又故障了,存储会按此原则在另外一个控制器上找到合适的端口。在对称组网中,只需在创建LIF的时候选择该漂移组。VLAN漂移组:创建VLAN端口时,系统自动创建VLAN漂移组。当LIF故障时,存储会漂移到漂移组中有着相同tag和MTU且状态正常的VLAN端口。当使用VLAN组网时,更容易部署LIF,使用该漂移组。用户自定义漂移组:当用户想要自定义故障切换策略时,可以创建该组并指定使用的LIF。当LIF故障时,系统会根据之前指定的组成员找到合适的故障切换目标端口。数据可靠性解决方案目录元数据双映射冗余:目录及inode作为文件系统的核心元数据,在DoradoNAS中采用了逻辑双映射冗余设计,其中一份损坏时,可以通过逻辑冗余进行恢复快照数据冗余:文件系统数据通过本地快照冗余,在出现数据损坏时,可以拷贝快照中的数据进行恢复存盘数据冗余:存储于本地盘上的数据通过RAID2.0+冗余存放,多盘相继或多时故障用户数据不丢失;数据损坏不超过冗余的情况下,自动基于RAID进行修复站点间数据冗余:通过站点间数据冗余方案,本地站点数据损坏时,可从远端站点恢复数据到本站点进行修复高安全硬件可信安全启动安全启动思想:建立硬件信任根(不可篡改),从信任根开始,一级认证一级,建立信任链,把信任扩展到整个系统,实现系统行为可预期。华为OceanStor全闪存系列基于硬件可信根构建安全启动,保证启动过程加载的软件没有遭到黑客或者恶意软件篡改。安全启动的软件验证、加载过程:验证Gurb的签名公钥:BootROM验证Grub签名公钥完整性;如果验证不通过,启动过程中止;验证并加载Grub:BootROM验证Grub签名;验证通过后加载Grub;如果验证不通过,启动过程中止;验证软件签名证书状态:Grub根据证书注销列表验证软件签名证书的状态。如果证书无效,启动过程中止;验证并加载OS:Grub验证OS的签名。验证通过后加载OS;如果验证不通过,启动过程中止。基于角色权限管理预置默认角色:系统预置系统管理用户和租户管理用户的默认值角色。系统管理用户默认角色超级管理员super_administrator管理员administrator安全管理员securtity_administratorSAN管理员san_administratorNAS管理员nas_administrator数据保护管理员dataProtection_administrator网络管理员network_administrator租户管理用户角色租户管理员vStore_adminsitrator租户数据保护管理员vStore_dataProtection租户协议管理员vStore_protocol自定义角色:支持用户依据自己场景自定义角色。用户自定义角色时可以选择多个功能,每个功能可以选择多个对象。自定义角色支持删除和修改。安全日志审计本地日志审计实现原理:用户可指定开启审计的文件系统,以及需要审计的文件操作(如:create/delete/rename/modify/chmod等等);采用审计日志和读写IO在同一流程中完成处理,确保IO和日志同时记录;审计日志会先以元数据格式存放在每个文件系统内置的Audit-Dtree目录中,保证IO读写的性能;日志元数据(*.bin)会在后台被系统转换为可读写的*.xml格式;Xml格式的审计日志存放在每个租户vStore的Audit-Log-FS文件系统中;通过异步复制可以将日志审计数据进行容灾。应用场景存储虚拟化应用场景:OceanStorDoradoV6系列存储系统集成了服务器虚拟化的优化技术,如VAAI(vStorageAPIsforArrayIntegration)、VASA(vStorageAPIsforStorageAwareness)、SRM(SiteRecoveryManager)等,并通过诸多关键技术实现虚拟机部署效率、虚拟机承载能力、虚拟机运行效率的提升,以及虚拟环境存储管理的简化等,从容应对虚拟环境存储。跨协议访问应用场景:存储系统支持对一个文件系统同时设置NFS共享和CIFS共享。当系统中既有比如SMB业务,也有NFS业务,OceanStorDorado系列存储能够同时支持。混合闪存存储介绍产品定位随着社会的进步和业务的发展,不断增加、累积的业务数据对存储系统提出了更高的要求。但传统的存储系统无法跟上数据增长的步伐,出现诸如存储性能瓶颈;存储效能不能随业务灵活扩展;大量多类型设备管理复杂;IT设备更新换代快,旧设备难以有效利用等问题,使存储系统的运维成本占TCO(TotalCostofOwnership)的比例越来越大。为了解决这些问题,华为推出了华为OceanStor混合闪存系列存储。存储系统在实现了文件系统级和块级数据、存储协议融合统一的基础上,以业界领先的性能、多种效率提升机制为支撑,为用户提供了高性能、全方位的解决方案,使用户投资收益比最大化,能够满足大型数据库OLTP/OLAP、高性能计算、数字媒体、Internet运营、集中存储、备份、容灾和数据迁移等不同业务应用的需求。华为OceanStor混合闪存系列存储具有高规格的硬件结构,块和文件一体化的软件架构,结合多种高级数据应用和数据保护技术,使存储系统具有高性能、高可扩展性、高可靠性和高可用性等特点,满足大中型企业对存储产品的各种要求。全新架构:最新一代的多核CPU,SmartMatrix3.0架构,可扩展至32控与192PB全闪存容量,性能线性增长。极致融合:支持SAN与NAS一体化,兼容SAN和NAS两种制式,满足业务弹性发展,简化业务部署,提升存储资源利用率,有效降低TCO。卓越性能:基于闪存优化技术,将SSD发挥极致性能,支持在线重删压缩,控制器间负载均衡互为热备,可靠性更高,资源集中存储,轻松管理。软硬件架构硬件架构由于采用了7nm工艺的高性能低功耗ARM处理器,使得存储PCB板设计更加简洁,内部空间占用更小,并且ARM相对功耗较低,使得散热效果更好。因此我们可以进一步压缩存储设备的硬件设计,为客户节省占地、电能,提供更多的扩展接口。芯系列的变化如下:CPU及控制模块切换为Kunpeng自研架构;板载风扇模块,BBU模块更小;可热拔插接口卡数量增加2片,接口类型暂不支持FCoE及IB);后端硬盘框接口支持SAS3.0以及自研RDMA高速接口。登录/enterprise网站获取产品文档。按照“产品文档->基本信息->产品描述->硬件架构”的路径可以查看对应存储产品的硬件架构,如控制框、硬盘框、接口模块等等。软件架构对于混合闪存存储而言,NAS和SAN的软件协议栈完全并行,NAS和SAN在资源分配和管理平面上融合。1)SmartMatrix3.0业务全均衡:该架构具备全交换、全虚拟化、全冗余、固有负载均衡等特点,结合端到端数据完整性(End-to-endDataIntegrity)、内存ECC(ErrorCheckingandCorrecting)和传输通道CRC(CyclicRedundancyCheck)等技术,提供存储系统性能线性增长、最大的扩展性、7×24小时高可用性以及高系统安全性,能全面满足大中型数据中心关键业务的需求。2)前后端全共享架构:前后端全共享卡,配合SmartMatrix特性,可平衡多控之间的数据流动,压力均衡。新一代高端硬件的接口卡是全共享的,取消了上一代的大卡设计,部署更灵活方便,带宽更高。4控全互联:FC前端卡、后端卡、控制器全互联,前端后端IO均不转发。单链路升级:主机连接单个控制器场景下,控制器升级接口卡自动转发IO到其他控制器,主机无感知。复位不断连接:控制器复位/故障时,接口卡自动转发IO到其他控制器,主机无感知。多控冗余:控制器支持4坏3。新一代保电技术:控制器内置BBU,控制器拔出仍可保电刷Cache到系统盘,多控同时拔出数据不丢失。3)控制器故障无感知。端口:每个前端端口统一为主机提供1个FC会话,主机从每个存储端口只看到1个FC会话和WWN。芯片:4个内部链路,连接到引擎内每个控制器,一个引擎内每个控制器都与主机建立本控的FC会话。前端共享卡,它用以实现前端链路和存储所有控制器的全互联,保障任意控制器故障时前端链路不中断,控制器故障对主机“透明”。我们一起看前端共享卡是如何工作的:主机上看:每个前端端口统一为主机提供1个FC会话,主机从每个存储端口只看到1个FC会话和WWN。阵列内部看:4个内部链路,连接到引擎内每个控制器;一个引擎内每个控制器都与主机建立本控的FC会话。控制器故障:引擎内任一控制器故障,故障控制器的I/O被前端接口芯片重定向到其它控制器;主机无感知,FC链路一直保持up,业务正常运行,无任何告警/事件。关键技术华为混合闪存存储支持SAN与NAS并行访问,为不同业务提供最优访问路径,访问性能最优。块和文件一体化,无需额外购买NAS网关,降低购置成本。可以应用在政府、交通、金融、运营商等行业,诸如数据库、视频监控、VDI虚拟桌面等场景。SAN及NAS智能分级技术在整个数据的生命中期中,会逐渐从热数据变为冷数据,如果变冷的数据长期占用Cache或者SSD这类快速的设备,不仅会浪费宝贵的资源,还会影响存储系统长期的性能表现。另一方面如果因为特定事件导致一部分冷数据变热,如果这些数据还存储在类似磁带、NLSAS盘这种慢速介质上,那业务的反应速度就会一直很慢,严重影响办公效率。为了解决这种数据冷热迁移的问题,存储可以通过智能分级技术来做到后台灵活调配数据存储介质。智能分级技术需要部署在有不同介质类型的设备上,数据被实时监控,长期不被访问的数据会被标记成为冷数据,逐渐从高性能介质转移到慢速介质,保证设备不会越用越慢当冷数据被激活后也可以快速移动到快速介质是上,让整个系统性能保持平稳,不会因为数据量的增加而变得越来越慢。迁移策略可以手工可以自动,迁移粒度支持LUN和NAS,给客户一个高性价比的存储设备。RAID2.0+软件架构底层介质虚拟化+上层资源虚拟化,同时解决数据快速重构问题和资源的智能分配问题。数据快速重构:缩短数据重构时间,从10小时到30分钟,使重构速度提升20倍,大幅降低重构过程对业务的影响和多盘失效的概率。存储池内所有硬盘参与重构,仅重构业务数据;由传统RAID多对一的重构模式转变为多对多快速重构模式。自研芯片技术前端传输,智能网卡芯片支持业界最快的32GFC、100G以太协议处理实现硬件卸载,在接口卡实现原来CPU所做的协议解析,减轻CPU负载,提升传输性能。前端访问时延从160us降到80us;解析得到的数据会与CPU交互,完成高级特性的处理,如流控等。控制器芯片,鲲鹏920是首款7nmARMCPU,同时它不仅是一颗CPU,还集成南桥、网卡、SAS控制器三颗芯片。SSD存储芯片,将核心FTL算法内置在自研芯片中,芯片直接确认读写位置等信息,写时延从40us降到20us;存储系统在整个运行周期内都需要管控面的干预,使用到的就是管理芯片。管理芯片,集成华为10多年积累的故障基因库,一旦发现故障,管理芯片通过故障基因库快速匹配故障模型,定位问题给出解决方案,故障定位准确率达到93%。RDMAScale-out4控扩展到8控,无需交换机,组网简洁引擎间使用100GRDMA传输数据逻辑通讯采用VLAN分割,保障IO面和管控面的数据安全可靠加密硬盘技术SED自加密盘采用AES256加密算法,保证存储在盘上的数据是加密的,并且保证性能无影响。InternalKeyManager存储系统内嵌的密钥管理应用,在OceanStor18000/18000FV5支持采用TPM进行密钥保护。ExternalKeyManager采用KMIP+TLS的标准协议。在整个数据中心的密钥管理仅用于存储系统的场景下,建议选择InternalKeyManager。通过配置SED加密硬盘和InternalKeyManager(OceanStorV5自带密管系统)或者ExternalKeyManager(外部配置独立的密管系统),和存储系统配合完成数据静态加密,从而保证数据的安全性。算法原理AES算法基于排列和置换运算。AES使用几种不同的方法来执行排列和置换运算。AES是一个迭代的、对称密钥分组的密码,它可以使用128、192和256位密钥,并且用128位(16字节)分组加密和解密数据。与公共密钥密码使用密钥对不同,对称密钥密码使用相同的密钥加密和解密数据。通过分组密码返回的加密数据的位数与输入数据相同。迭代加密使用一个循环结构,在该循环中重复置换和替换输入数据。InternalKeyManager易部署、易配置、易管理;无需再独立部署一套密管系统。高级特性块服务特性、文件服务特性支持多种高级特性,具体情况见教材列出相应特性。应用场景多站点容灾应用场景在两地三中心的级联架构和并行架构多站点容灾应用场景中可使用混合闪存存储。方案亮点在于:高中低端阵列复制技术互通;秒级异步复制RPO,分钟级RTO;环形3DC。支持容灾中心故障后,剩余站点自动建立复制关系,提供持续数据保护。Standby复制激活后,数据增量复制,RTO不变。支持单站点配置环形3DC*,简化管理。存储分层分级应用场景不同的业务应用对性能要求和可靠性有着不一样的要求。比如CRM系统、账单交易系统属于热数据应用,备份就属于冷数据的应用场景。可以通过华为全闪存存储、混合闪存存储、分布式存储等进行整合、分层,并具备不同SLA能力等级的存储提供支撑。分布式存储介绍产品定位华为分布式存储系列专为海量数据场景设计,为虚拟化/云资源池、关键业务数据库、大数据分析、高性能计算(HPC)、视频、内容存储/备份归档等类型应用提供多样性存储服务,帮助企业释放海量数据价值。智能分布式存储:OceanStor100D是一款可大规模横向扩展的全自研智能分布式存储产品。一套集群可为上层应用提供块存储、大数据存储、对象文件存储等工业界标准接口,消除烟囱式存储系统构建导致的运营复杂问题,帮助企业实现复杂业务承载更稳、多样性数据使用效率更高、海量数据储存成本更优。块存储:支持SCSI和iSCSI接口,为上层应用提供按需获取、弹性扩展的海量存储池,大幅提升应用环境准备效率,是私有云、容器、虚拟化及数据库应用的理想存储平台。大数据存储:提供基于原生HDFS的大数据存算分离方案,实现存储与计算资源按需配置,提供一致用户体验的同时,助您降低总拥有成本;支持与原有计算存储一体化架构共存。广泛应用于金融大数据、互联网日志留存大数据、政务大数据和平安城市大数据等场景。对象存储:最大支持单桶1000亿对象承载且性能不降,消除大型应用分桶改造麻烦。广泛应用于金融电子票据影像和双录(录音/录像)、医疗影像、政企电子文档和车联网场景生产存储、备份或归档。横向扩展文件存储:华为OceanStor9000V5横向扩展文件存储采用全对称分布式架构,以其业界领先的卓越性能、大规模横向扩展能力和超大单一文件系统为用户提供非结构化数据共享资源存储,是面向海量非结构化数据存储应用的横向扩展文件存储系统。采用华为OceanStor9000V5可提高IT系统存储效率,简化工作负载及迁移流程,应对非结构化数据的增长和演变。软硬件架构首先,我们介绍分布式存储的硬件架构。当使用OceanStor100D的标准硬件时,硬件配置如下表所示。硬件类型硬件型号配置适用的存储服务类型机柜标准IT机柜提供42U内部安装空间-存储节点P1002U12盘位节点,直通机型,CPU采用2颗鲲鹏920(48core@2.6GHz)融合、对象、大数据、块说明:融合是指一个局点同时部署多个存储服务的场景。2U12盘位节点,EXP机型,CPU采用2颗鲲鹏920(48core@2.6GHz)2U25盘位节点,EXP机型,CPU采用2颗鲲鹏920(48core@2.6GHz)块C1004U36盘位节点,直通机型,CPU采用2颗鲲鹏920(48core@2.6GHz)融合、对象、大数据、块F1002U12盘位节点,EXP机型,全NVMe闪存,CPU采用2颗鲲鹏920(48core@2.6GHz)块P1102U12盘位节点,CPU采用X86处理器融合、对象、大数据、块2U25盘位节点,CPU采用X86处理器块C1104U36盘位节点,CPU采用X86处理器融合、对象、大数据、块F1102U12盘位节点,全NVMe闪存,CPU采用X86处理器2U24盘位节点,全NVMe闪存,CPU采用X86处理器块网络设备S5731-H48T4XCGE交换机,作为BMC/管理交换机,提供4个10GESFP+以太网光接口,以及48个10/100/1000BASE-T以太网电接口。-S5720-56C-EI-ACGE交换机,作为BMC/管理交换机,提供4个10GESFP+以太网光接口,以及48个10/100/1000BASE-T以太网电接口。-S5331-H48T4XCGE交换机,作为BMC/管理交换机,提供4个10GESFP+以太网光接口,以及48个10/100/1000BASE-T以太网电接口。-S5320-56C-EI-ACGE交换机,作为BMC/管理交换机,提供4个10GESFP+以太网光接口,以及48个10/100/1000BASE-T以太网电接口。-CE6881-48S6CQ10GE交换机,作为存储交换机,提供48个10GESFP+以太网光接口,以及6个40GEQSFP28以太网光接口。-CE6855-48S6Q-HI10GE交换机,作为存储交换机,提供48个10GESFP+以太网光接口,以及6个40GEQSFP+以太网光接口。-CE6857-48S6CQ-EI10GE交换机,作为存储交换机,提供48个10GESFP+以太网光接口,以及6个40GE/100GEQSFP28以太网光接口。-CE6863-48S6CQ25GE交换机,作为存储交换机,提供48个10GE/25GESFP28以太网光接口,以及6个40GE/100GEQSFP28以太网光接口。-CE6865-48S8CQ-EI25GE交换机,作为存储交换机,提供48个25GESFP28以太网光接口和8个100GEQSFP28以太网光接口。-CE8850-64CQ-EI100GE交换机,作为汇聚交换机,提供2个10GESFP+以太网光接口,以及64个100GEQSFP28以太网光接口。-SB7800100Gbit/sIB交换机,作为存储交换机,提供36个100Gbit/sQSFP28光接口。-KVM(Keyboard,Video,andMouse)提供8路键盘、鼠标和视频端口。-当使用横向扩展文件存储时,OceanStor9000的硬件系统主要由存储节点、网络设备、KVM和短信调制解调器组成。OceanStor9000的硬件组成如下表所示。硬件类型可选型号说明机柜(推荐配置)FR42612L提供42U内部安装空间存储节点P12E2U12盘节点(配置举例:12SATA硬盘,或1SSD+11SATA硬盘)P25E性能更强的2U25盘节点(配置举例:1SSD+24SAS硬盘)P36E性能更强的4U36盘节点(配置举例:1SSD+35SATA硬盘)C36E性能更强的4U36盘节点(配置举例:36SATA硬盘)P122U12盘节点(配置举例:12SATA硬盘,或1SSD+11SATA硬盘)P252U25盘节点(配置举例:1SSD+24SAS硬盘)P364U36盘节点(配置举例:1SSD+35SATA硬盘)C364U36盘节点(配置举例:36SATA硬盘)C724U72盘节点(配置举例:72SATA硬盘)网络设备CE6810-48S4Q-EI/CE6810-24S2Q-LI10GE以太网交换机S5700-52C-SI/S5352C-SIGE以太网交换机SX6018IB(InfiniBand)交换机8口KVM(Keyboard,Video,andMouse)提供8路键盘、鼠标和视频端口调制解调器用于提供告警的短信通知功能登录/enterprise网站获取产品文档。按照“产品文档->基本信息->产品描述->硬件架构”的路径可以查看对应存储产品的硬件架构。接着,我们介绍下分布式存储的软件架构。以HuaweiOceanStor100D为例,对其软件架构的关键概念解释如下:Protocol:存储的协议层,块支持iscsi协议与VSC本地挂载访问,对象支持S3/swift访问,大数据支持HDFS访问,文件支持NFS访问。VBS:块存储的块访问接入层,用户IO通过iSCSI或VSC把IO下发到VBS。EDS-B:提供具有企业特性的块服务,接收并处理从VBS转发过来的IO。EDS-F:提供大数据服务。OBSService:提供对象服务DP:提供数据保护能力。Persistencelayer:提供持久化存储能力,提供EC与多副本能力通过plogclient提供plog的appendonly访问能力。Infrastructure:提供存储使用的基础设施能力,如调度,内存分配等。OAM:存储的管理面,提供部署,升级,扩容,监控告警等功能。它支持丰富的企业级特性,块服务秒级异步复制、双活。架构微服务化,块服务/HDFS服务/对象服务可以共用Persistence服务。OceanStor100D的块服务,提供SCSI、iSCSI等标准访问接口协议,支持广泛的虚拟化平台及数据库应用,提供高性能与高扩展能力,满足虚拟化、云资源池及数据库等场景的SAN存储需求。提供Active-ActiveHyperMetro(双活)、HyperReplication(远程复制)、HyperSnap(快照)、SmartQoS(智能服务质量控制)、SmartDedupe(重复数据删除)和SmartCompression(数据压缩)等关键特性。OceanStor100D的对象服务,提供对象服务标准API,支持主流云计算生态,满足内容存储、云备份、云归档及公有云存储服务运营场景需求。提供HyperReplication(远程复制)、对象/文件互通、SmartDedupe(重复数据删除)、SmartQuota(配额)和SmartQoS(服务质量)等关键特性。OceanStor100D的大数据服务支持原生HDFS接口,不需要安装独立插件,在大数据分析场景提供大数据云化计算存储分离解决方案,满足海量数据高效处理同时,帮助用户实现真正资源按需要部署使用,降低TCO。提供SmartTier(分级)、SmartQuota(配额)和回收站等关键特性。关键技术DHT技术FusionStorage块存储采用DHT(DistributeHashTable,分布式哈希表)路由数据算法。每个存储节点负责存储一小部分数据,基于DHT实现整个系统数据的寻址和存储。相比DHT路由算法,传统存储一般采用集中式元数据管理方式,元数据中会记录所有LUN中不同偏移量的数据在硬盘中的分布,例如LUN1+LBA1地址起始的4KB长度的数据分布在第32块硬盘的LBA2上。每次IO操作都需要去查询元数据服务,随着系统规模逐渐变大,元数据的容量也会越来越大,系统所能提供的并发操作能力将受限于元数据服务所在节点的能力,元数据服务将会成为系统的性能瓶颈。不同与传统的集中式元数据管理,FusionStorage块存储采用DHT进行数据寻址,具体的算法如下图:FusionStorage块存储将哈希空间设置为2^32,并将该哈希空间划分为N等份,每1等份是1个分区(Partition),这N等份按照硬盘数量进行均分。例如:系统N默认为3600,假设当前系统有36块硬盘,则每块硬盘承载100个分区。上述“分区-硬盘”的映射关系在系统初始化时会分配好,后续会随着系统中硬盘数量的变化会进行调整。该映射表所需要的空间很小,FusionStorage块存储系统中的节点会在内存中保存该映射关系,用于进行快速路由,可见,FusionStorage块存储的路由机制不同于传统阵列,并没有集中的元数据管理,也就不存在元数据服务成为系统的性能瓶颈。举例说明:应用需要访问LUN1+LBA1地址起始的4KB长度的数据,首先构造key=LUN1+LBA1/1M,对该key进行HASH计算得到哈希值,并对N取模,得到partition号,根据内存中记录的“分区-硬盘“映射表可得知数据归属的硬盘。同时,FusionStorage块存储采用的DHT算法具有以下特点:均衡性:数据能够尽可能分布到所有的节点中,这样可以使得所有节点负载均衡。单调性:当有新节点加入系统中,系统会重新做数据分配,数据迁移仅涉及新增节点,现有节点上的数据不需要做很大调整。Range切分与WAL聚合技术要存储的数据以Range方式打散存储在不同的Node上。WAL:WriteAheadLog,数据持久化之前中间的一个存放技术,采用WAL将数据存放好后就可以直接返回给上层应用表示数据写成功。WAL的中心思想是对数据文件的修改(它们是表和索引的载体)必须是只能发生在这些修改已经记录到日志之后,也就是说,在描述这些变化的日志记录刷新到永久存储器之后。多NameNode并发NameNode是HDFS的元数据请求处理节点,DataNode是HDFS的数据请求处理节点。传统的HDFSNameNode模型:仅有一个Active的NameNode提供元数据服务,ActiveNameNode和StandbyNameNode之间不是实时一致的,有同步周期。当前Active的NameNode异常宕机之后,在切换到新的NameNode,新Namenode完成日志加载之前,无法提供元数据服务,最长可能达到小时级。单个Active的NameNode可支持的文件个数受制于单个节点的内存,只能支持到1亿。单个命名空间大压力下面的元数据并发操作因CPU和内存资源消耗多,导致性能较差。华为的HDFS多NameNode并发具有以下特点:多个Active的NameNode提供元数据服务,多节点间数据实时一致。避免传统HDFSNameNode切换导致的元数据服务中断。多个Active的NameNode支持的文件个数不再受制于单个节点的内存。多目录元数据操作多节点全并发。AppendOnlyPlog技术OceanStor100D可同时支持HDD和SSD两种类型的介质,两种介质的带宽、IOPS、时延等技术参数存在非常明显的差异,所适合的IOpattern也差异很大。为解决介质之间的差异,并实现统一的管理,OceanStor100D采用了Appendonly的Plog技术。AppendOnlyPlog技术可面向介质提供最佳的下盘性能模型,先将小IO聚合成大块,再将大块IO写盘方式改为顺序追加写下盘方式,这种写盘方式符合盘本身的特点。EC智能聚合技术基于追加写的智能聚合EC,任意时刻都能保证EC满分条写入,减少数倍的读写网络放大和读写磁盘放大。一次性完成数据聚合,更低的CPU算力开销,可提供更极致的峰值性能。多级缓存技术写缓存示意图如下:详细步骤解释:Step1:数据写入基于RAM的WriteCache(MemoryWriteCache)。Step2:写入基于SSD缓盘的WAL日志区(如果是大IO会直接写HDD),返回主机写操作完成。Step3:当内存写缓存达到一定水位,数据开始往下刷盘。Step4:对于大IO,直接写入HDD盘,小IO会先写入本节点的SSD缓存(SSDWriteCache)等待聚合成大IO后再写入HDD。说明:Step1中如果写入数据比较大(超过512KB)就直接进入Step4写入HDD。读缓存示意图如下:详细步骤解释:Step1:先从MemoryWriteCache中读取,命中则返回,没有命中则进入Step2。Step2:从MemoryReadCache中读取,命中则返回,没有命中则进入Step3。Step3:从SSDWriteCache中读取,命中则返回,没有命中则进入Step4。Step4:从SSDReadCache中读取,命中则返回,没有命中则进入Step5。Step5:最终从HDD上读取。说明:基于内存的读缓存(MemoryReadCache)会缓存预取的数据如顺序流。基于SSD缓存盘的读缓存(SSDReadCache)会缓存读过程中识别的热点数据。元数据分布式访问访问过程如下图所示:关键概念解释:CA:ClientAgentMDS:MetadataServiceDS:DataService过程解释如下:①客户端发起访问,首先从MDS(元数据服务)根路径开始查找元数据②根目录告知客户端需要到另一个MDS查询③同一MDS继续查找④需要到另一个MDS查询⑤获得元数据后,根据元数据所指位置读取数据智能负载均衡技术它的原理是基于域名(Active-Standby模式)的访问。支持分区,每个分区可以设定独立的域名和负载均衡策略。访问系统一级/二级域名,如:解析域名,并基于负载均衡策略返回一个IP地址基于IP地址进行业务访问单一文件系统资源集中管理在一个统一的资源池中,可以很容易地共享,访问单一文件系统时,用户不需要关注特定的数据存储位置。系统提供了一个统一的文件系统,用于访问所有可用空间。在单一文件系统中,文件集合以目录方式呈现。在系统启动时自动创建一个统一的文件系统。应用场景私有云、虚拟化为私有云和虚拟化提供按需获取、弹性扩展的海量存储资源池,基于通用服务器大幅提升存储资源的部署、扩展和运维效率。例如应用于金融互联网渠道接入云、开发测试云,运营商BOM域业务云化、B2B云资源池、政务云、平安城市云等。关键业务数据库通过分布式Active-Active双活、稳定低时延等企业级能力,保障OLAP或OLTP类关键业务数据库、数据仓库高效稳定运行。大数据分析大数据计算存储分离解决方案可整合传统数据孤岛,构建统一的企业大数据资源池,结合大比例EC、存储和计算分离按需部署和扩容等企业级能力,实现大数据业务效率提升及TCO降低。例如应用于金融大数据分析、运营商日志留存大数据、政务大数据和平安城市大数据等。内容存储、备份归档高性能、高可靠的企业级对象存储资源池可满足互联网数据、在线音频/视频、企业网盘等实时在线业务吞吐量大、热点数据频繁访问的业务需求,以及长期保存、在线访问需求。例如应用于金融电子票据影像、双录(录音/录像),医疗影像、政企电子文档和车联网场景存储、备份或归档。如BSS、MSS、OSS、VAS等场景可以使用华为OceanStor100D分布式存储块存储服务。对象存储服务应用场景也可以使用,方式优势体现在以下几个方面:稳定低时延,保障客户访问流程:稳定的时延<80ms,满足视频连续写入时延稳定性要求,以及提升终端客户访问体验;高并发连接:支持数百万路视频连接,保持性能稳定无波动;按需使用:可以随时根据业务增长量,动态按需使用存储,按需付费,降低拥有成本。

超融合存储介绍产品定位传统的IT架构,大多数都是小机+FC存储的方式,基于这种架构的IT基础设施,不仅价格和运维成本高企,对于大型互联网公司来说,其扩展能力明显不足,无法满足数据的爆发式增长,比如Facebook每天能增加20亿张照片,需要快速存储处理这些数据。Web-Scale的概念是由Gartner提出的一个概念,用于描述来自互联网巨头,如Facebook,谷歌,LinkedIn等公司,Web-Scale通过计算虚拟化和分布式存储能力,来应对业务和数据的爆发式增长,对于企业来说,无法使用web-scale的架构来构建自己的IT系统,因为没有足够的IT能力来支撑分布式存储软件的应用和庞大的IT系统管理超融合架构就是一个小型版的Web-Scale架构,进一步优化,使之能够通过一体化的方式架构,统一的运维来避免web-scale的复杂性,同时有具备web-scale架构的灵活性和扩展性。那什么是超融合呢?我们来看下业界的定义。超融合基础架构(Hyper-ConvergedInfrastructure,或简称“HCI”)是指在同一套单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素,而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展,形成统一的资源池。HCI是实现“软件定义数据中心”(SDDC)的终极技术途径。HCI类似Google、Facebook后台的大规模基础架构模式,可以为数据中心带来最优的效率、灵活性、规模、成本和数据保护。且同时支持ARM&X86硬件平台。NUTANIX:超融合架构(Hyper-ConvergedInfrastructure简称“HCI”)是指在同一套单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括备份软件、快照技术、重复数据删除、在线数据压缩等元素,而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展,形成统一的资源池。HCI是实现“软件定义数据中心”的终极技术途径。Gartner:HCI是一种以软件为中心的体系结构,将计算、存储、网络和虚拟化资源(以及可能的其他技术)紧密集成在单一的供应商提供的一台硬件设备中。IDC:超融合系统是一种新兴的集成系统,其本身将核心存储、计算和存储网络功能整合到单一的软件解决方案或设备中。简要理解:虚拟化+软件定义的分布式存储是HCI的最小子集。那什么是华为的超融合呢?它又具有什么的优势和特点呢?华为超融合基础设施是基于超融合架构的IT基础设施平台。融合计算、存储为一体,并预集成分布式存储引擎、虚拟化和云管理软件,资源可按需调配、线性扩展。主要应用于数据库、桌面云、容器、虚拟化等多种混合负载的场景。预集成华为FusionCube依托华为高效的端对端交付能力,能从用户报价开始,根据用户业务需求,直接交付给用户开箱即用的产品,极大地简化了用户的安装、调测时间,从几周甚至数月的调测时间缩减到几个小时之内。预集成包括如下内容:硬件预安装:设备上柜、线缆预绑(仅E9000支持)。软件预安装:BIOS和系统盘RAID设置、平台管理软件FusionCubeCenter软件安装、存储软件(FusionStorage块存储)预安装。带柜运输:立柜运输(仅E9000支持)。兼容多种虚拟化平台兼容多种主流虚拟化平台,例如VMwarevSphere。FusionCube支持为虚拟化平台提供统一的计算、存储和网络资源。集成虚拟化平台资源监控功能,一个管理界面即可提供整个系统的日常运维。计算/存储/网络融合FusionCube不再是单独的计算、网络、存储设备,而是预置集成的一体化设备,实现了计算、存储和网络资源的融合,无需额外配置存储、网络等资源。在计算、存储融合方面,通过在计算刀片中部署分布式存储引擎,减少了数据的访问时延,提升整体访问效率。在计算、网络融合方面,通过网络自动部署,用户无需关心网络具体配置,系统可自动配置网络资源,并实现与计算、存储资源的联动。分布式块存储FusionCube内置FusionStorage块存储为业务提供存储服务,FusionStorage块存储是一种分布式存储系统,采用独特的并行架构、创新的缓存算法、自适应的数据分布算法,既消除了热点也提高了性能,并且能够以超快的重建时间实现自动化自修复,提供卓越的可用性和可靠性。1)线性扩展和弹性:FusionStorage块存储采用全分布式DHT架构,将所有元数据按规则分布在各节点,避免了元数据瓶颈,支持线性扩展。FusionStorage块存储采用了独特的数据分块切片技术,以及基于DHTHash的数据路由算法,可以将卷的数据均匀的分散到较大的资源池故障域范围内,使得每个卷可以获得更大的IOPS和MBPS性能,也使得每个硬件资源的负载相对均衡。2)高性能:FusionStorage块存储免锁化调度的IO软件子系统,彻底解决了分布式锁冲突,使得IO路径上无需进行任何锁操作和元数据查询,IO路径短、时延低;分布式的无状态机头,可以充分发挥各个硬件节点的能力,大大提升了系统的并发IOPS和并发MBPS。同时FusionStorage块存储分布式的SSDcache技术,配合大容量的SAS/SATA盘做主存,使得系统的性能可以具备SSD的性能和SAS/SATA的容量。3)高可靠性:FusionStorage块存储支持多种数据冗余保护机制,如2副本、3副本等;在此基础上,FusionStorage块存储支持设置灵活的数据可靠性策略,允许将不同的副本放在不同的服务器上,保证在服务器故障的情况下,数据仍然不丢失、仍然可访问。同时FusionStorage块存储采用对有效数据分片进行数据的冗余保护,在硬盘、服务器故障的时候,能够对有效数据进行并行重建,1TB硬盘的重建时间小于30分钟,大大增强系统的可靠性。4)丰富的存储高级功能:精简配置,当用户对卷进行写操作时才分配实际物理空间,为用户提供比物理存储资源更多的虚拟存储资源。卷快照,将用户的逻辑卷数据在某个时间点的状态保存下来,作为快照点;快照不限次数且性能不下降。链接克隆,基于增量快照提供链接克隆,一个快照可以创建出多个克隆卷,各个克隆卷刚创建出来时的数据内容与快照中的数据内容一致,后续对于克隆卷的修改不会影响到原始的快照和其他克隆卷。自动化部署FusionCube采用预集成方式自动化部署系统,极大降低现场操作的复杂性,提升部署效率和质量:通过预安装、预集成、预验证,降低用户安装、部署的复杂度,减少用户安装部署时间;支持设备上电自动发现,以及向导式的系统初始化配置,实现快速完成系统计算、存储和网络资源初始化,大幅缩短业务上线时间;提供自动化安装部署工具,实现现场虚拟化平台快速切换和版本升级。统一运维管理FusionCube支持服务器、交换机等硬件设备的统一管理,也提供计算、存储和网络等资源的统一管理,大幅提高运维效率和服务质量:通过一个统一的管理界面提供机箱、服务器、交换机等硬件设备的日常维护,实时掌控系统中计算、存储和网络资源的运行状态,方便维护人员使用;自动监控IT资源和系统运行状态,对系统故障和潜在风险实时报警,告警可以通过邮件的方式通知维护人员;支持快速自动完成新资源的扩容,自动发现待扩容设备,通过向导式的扩容配置,快速完成资源扩容。典型应用场景服务器虚拟化:直接提供集成的FusionCube虚拟化基础设施,不携带任何其他应用软件。桌面云:在虚拟化基础设施上运行VDI(VirtualDesktopInfrastructure)虚拟桌面或应用虚拟化,提供桌面云服务。企业OA:在虚拟化基础设施上运行企业OA的服务端应用,如微软Exchange、Sharepoint应用。软硬件架构首先介绍下超融合存储的硬件架构。硬件形态可以分为刀片服务器、高密服务器、机架服务器。刀片服务器:E9000是华为公司研发的一款机箱产品,提供12U空间,可安装华为E9000系列计算节点、业务处理节点、存储节点以及相应的资源扩展节点。主要特性如下:1)可配置8个横插的全宽计算节点或者16个半宽计算节点,支持槽位拆分。2)半宽槽位散热能力850W。3)全宽槽位散热能力1700W。4)半宽槽位最大支持2P+24DIMM的计算节点。5)全宽槽位最大支持4P+48DIMM的计算节点。6)单机箱支持32CPU计算密度,最大24TB内存。7)背板最大交换容量5.76Tbps。8)4个(2对)交换槽位,支持Eth/IB等多种交换协议类型,支持直出I/O接口。支持多种类型的刀片:CH121V32P计算性刀片、CH222V32P计算存储刀片、CH220V32P计算IO扩展刀片、CH225V32P计算存储刀片、CH242V34P计算刀片以及CH121V52P计算性刀片、CH225V52P计算存储刀片、CH242V54P计算刀片。高密服务器:支持X6000和X6800两种高密服务器平台,其中X6800平台的存储计算密度高,4U4节点,节点可支持2块系统盘和10块3.5寸大盘,后置PCIE槽位2*8X槽位;X6000平台计算密度高,2U4节点,但节点只支持6*2.5寸盘(含系统盘),单节点磁盘容量小,网卡只有板载的2*GE+2*10GE,只配置一张NVMESSD卡做cache。机架服务器:支持FusionServerX86系列和鲲鹏TaiShan服务器。支持的机架服务器覆盖了1/2/4路服务器,可根据客户要求,灵活的配置客户需要的硬件设备。接着,我们介绍下超融合存储的软件架构。华为超融合总体架构主要由:硬件平台、分布式存储软件、安装部署和运维管理平台、虚拟化平台以及相应的备份容灾方案,其中虚拟化平台支持华为自研的FusionSphere虚拟化平台以及Vmware虚拟化平台。另外,FusionSpere场景下,FusionCubeHCI支持混合部署方案,在支持FusionSphere虚拟化平台外还能同时支持物理节点部署,为系统数据库提供相应的计算、存储和网络资源。名称说明FusionCubeCenterFusionCube的管理软件,管理其中的虚拟化资源、硬件资源,提供系统监控管理和运维管理等功能。FusionCubeBuilder提供现场快速安装部署FusionCube系统软件,可用于现场更换虚拟化平台软件或者更新版本。FusionStorage使用分布式存储技术,通过合理有序组织服务器的本地硬盘,提供高性能高可靠的块存储业务。虚拟化平台支持华为自研FusionSphere虚拟化平台和Vmware虚拟化平台,提供系统虚拟化管理平台。备份用于备份系统业务虚拟化,主要包括自研的备份软件eBackup和第三备份软件Veeam、CV、爱数等主流备份软件。容灾提供基于存储双活和存储异步复制的容灾方案,容灾软件主要采用自研BCManager和UltraVR硬件平台服务器使用E9000/X6800/X6000/机架服务器,支持计算、存储、交换、电源模块化设计,计算和存储节点按需混配,计算、存储都在服务器内部署完成,支持GPU,SSDPCIe等IO加速扩展,支持丰富的交换模块10GE/IB,根据业务要求灵活配置。传统的架构中,SANController是集中式的,这就会造成瓶颈。而在FusionCube中,分布式的架构和分布式的存储使得存储的性能瓶颈消失。每个机器含都有计算和存储,相当于每个机器都是一个分布式的存储控制器,这就解决了集中机头控制器的瓶颈问题。在计算和存储分离的架构下,所有的数据都需要通过网络读写到存储阵列,网络就成了瓶颈。而在FusionCube中,采用了业界最快的IB网络,提供了56Gbps的带宽,并且每个节点之间是P2P互联的,有效解决了网络带宽的问题。传统架构中的第三个瓶颈是读写磁盘的时候,原来的硬盘读写速度慢成了瓶颈。而华为HCI架构中采用了ES3000SSD卡作为缓存,ES3000是业界最快的SSD卡,有效解决了本地磁盘的读写问题。分布式存储逻辑结构:在整个系统中,所有模块都是按照分布式、去中心化的方式进行部署,为系统提供高扩展和高性能打下了坚实的基础。其中一些关键组件的功能解释如下:1)VBS模块是无状态接口层,为VM和数据库提供标准SCSI/iSCSI服务,与传统磁阵的控制器类似,但是又有很大的区别,VBS基本不受部署数量的限制,它可以部署在所有需要存储服务的服务器中,打破了传统磁阵控制器数量的限制。2)OSD模块提供硬盘的管理,部署在所有有硬盘的服务器中,它为VBS提供数据的读取和写入,同时它还提供高级存储服务,包括瘦分配、快照、链接克隆,Cache、数据一致性等功能。3)MDC模块提供存储集群状态的管理,以集群方式进行部署,它不参与数据的处理流程,它会实时收集集群中各个模块的状态,并根据算法进行集群视图的控制。关键技术分布式哈算法FusionStorage块存储采用DHT(DistributedHashTable,分布式哈希表)架构,将所有元数据按规则分布在各存储节点,不存在跨节点的元数据访问,彻底避免了元数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论