版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name 华为OceanStor Dorado 全闪存存储系统 DOCPROPERTY DocumentName 产品技术白皮书目 录 TOC h z t 标题 1,1,标题 2,2,标题 3,3, 标题 4,4, 标题 5,5, 标题 7,1, 标题 8,2, 标题 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,App
2、endix heading 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc520453331 1 摘要 PAGEREF _Toc520453331 h 1 HYPERLINK l _Toc520453332 2 简介 PAGEREF _Toc520453332 h 2 HYPERLINK l _Toc520453333 2.1 产品系列 PAGEREF _Toc520453333 h 2 HYPERLI
3、NK l _Toc520453334 2.2 客户价值 PAGEREF _Toc520453334 h 3 HYPERLINK l _Toc520453335 3 系统架构 PAGEREF _Toc520453335 h 5 HYPERLINK l _Toc520453336 3.1 相关概念 PAGEREF _Toc520453336 h 5 HYPERLINK l _Toc520453337 3.1.1 控制框 PAGEREF _Toc520453337 h 5 HYPERLINK l _Toc520453338 3.1.2 控制器 PAGEREF _Toc520453338 h 7 HY
4、PERLINK l _Toc520453339 3.1.3 硬盘框 PAGEREF _Toc520453339 h 7 HYPERLINK l _Toc520453340 3.1.4 硬盘域 PAGEREF _Toc520453340 h 7 HYPERLINK l _Toc520453341 3.1.5 存储池 PAGEREF _Toc520453341 h 9 HYPERLINK l _Toc520453342 3.1.6 RAID技术 PAGEREF _Toc520453342 h 10 HYPERLINK l _Toc520453343 3.2 硬件架构 PAGEREF _Toc520
5、453343 h 14 HYPERLINK l _Toc520453344 3.2.1 设备形态 PAGEREF _Toc520453344 h 14 HYPERLINK l _Toc520453345 3.2.2 自研HSSD PAGEREF _Toc520453345 h 16 HYPERLINK l _Toc520453346 盘内磨损均衡 PAGEREF _Toc520453346 h 16 HYPERLINK l _Toc520453347 坏块管理 PAGEREF _Toc520453347 h 16 HYPERLINK l _Toc520453348 数据冗余保护 PAGEREF
6、 _Toc520453348 h 16 HYPERLINK l _Toc520453349 .1 后台巡检 PAGEREF _Toc520453349 h 17 HYPERLINK l _Toc520453350 .2 支持SAS和NVMe协议 PAGEREF _Toc520453350 h 17 HYPERLINK l _Toc520453351 3.2.3 自研芯片 PAGEREF _Toc520453351 h 18 HYPERLINK l _Toc520453352 3.2.4 硬件扩展能力 PAGEREF _Toc520453352 h 19 HYPERLINK l _Toc5204
7、53353 3.2.5 硬件架构特征 PAGEREF _Toc520453353 h 23 HYPERLINK l _Toc520453354 3.3 软件架构 PAGEREF _Toc520453354 h 23 HYPERLINK l _Toc520453355 3.3.1 FlashLinkTM PAGEREF _Toc520453355 h 24 HYPERLINK l _Toc520453356 冷热数据分流 PAGEREF _Toc520453356 h 24 HYPERLINK l _Toc520453357 端到端IO优先级 PAGEREF _Toc520453357 h 25
8、 HYPERLINK l _Toc520453358 ROW满分条写 PAGEREF _Toc520453358 h 25 HYPERLINK l _Toc520453359 全局垃圾回收 PAGEREF _Toc520453359 h 26 HYPERLINK l _Toc520453360 全局磨损均衡/反磨损均衡 PAGEREF _Toc520453360 h 27 HYPERLINK l _Toc520453361 3.3.2 IO流程 PAGEREF _Toc520453361 h 28 HYPERLINK l _Toc520453362 写流程 PAGEREF _Toc520453
9、362 h 28 HYPERLINK l _Toc520453363 读流程 PAGEREF _Toc520453363 h 30 HYPERLINK l _Toc520453364 3.3.3 丰富软件特性 PAGEREF _Toc520453364 h 31 HYPERLINK l _Toc520453365 3.3.4 软件架构特征 PAGEREF _Toc520453365 h 32 HYPERLINK l _Toc520453366 4 精简高效Smart系列特性 PAGEREF _Toc520453366 h 33 HYPERLINK l _Toc520453367 4.1 在线重
10、删(SmartDedupe) PAGEREF _Toc520453367 h 33 HYPERLINK l _Toc520453368 4.2 在线压缩(SmartCompression) PAGEREF _Toc520453368 h 34 HYPERLINK l _Toc520453369 4.3 智能精简配置(SmartThin) PAGEREF _Toc520453369 h 35 HYPERLINK l _Toc520453370 4.4 智能服务质量控制(SmartQoS) PAGEREF _Toc520453370 h 36 HYPERLINK l _Toc520453371 4
11、.5 异构虚拟化(SmartVirtualization) PAGEREF _Toc520453371 h 37 HYPERLINK l _Toc520453372 4.6 智能数据迁移(SmartMigration) PAGEREF _Toc520453372 h 38 HYPERLINK l _Toc520453373 5 数据保护Hyper特性 PAGEREF _Toc520453373 h 41 HYPERLINK l _Toc520453374 5.1 快照(HyperSnap) PAGEREF _Toc520453374 h 41 HYPERLINK l _Toc520453375
12、 5.2 克隆(HyperClone) PAGEREF _Toc520453375 h 43 HYPERLINK l _Toc520453376 5.3 远程复制(HyperReplication) PAGEREF _Toc520453376 h 45 HYPERLINK l _Toc520453377 5.3.1 同步远程复制 (HyperReplication/S) PAGEREF _Toc520453377 h 45 HYPERLINK l _Toc520453378 5.3.2 异步远程复制 (HyperReplication/A) PAGEREF _Toc520453378 h 48
13、 HYPERLINK l _Toc520453379 5.4 阵列双活(HyperMetro) PAGEREF _Toc520453379 h 50 HYPERLINK l _Toc520453380 5.5 两地三中心(3DC) PAGEREF _Toc520453380 h 51 HYPERLINK l _Toc520453381 6 系统安全和数据加密 PAGEREF _Toc520453381 h 52 HYPERLINK l _Toc520453382 6.1 系统数据加密(Data Encryption) PAGEREF _Toc520453382 h 52 HYPERLINK l
14、 _Toc520453383 6.2 基于角色的访问控制管理 PAGEREF _Toc520453383 h 54 HYPERLINK l _Toc520453384 7 系统管理及兼容性 PAGEREF _Toc520453384 h 56 HYPERLINK l _Toc520453385 7.1 系统管理 PAGEREF _Toc520453385 h 56 HYPERLINK l _Toc520453386 7.1.1 Device Manager PAGEREF _Toc520453386 h 56 HYPERLINK l _Toc520453387 7.1.2 CLI PAGERE
15、F _Toc520453387 h 56 HYPERLINK l _Toc520453388 7.1.3 Call Home服务 PAGEREF _Toc520453388 h 56 HYPERLINK l _Toc520453389 7.1.4 Restful API PAGEREF _Toc520453389 h 57 HYPERLINK l _Toc520453390 7.1.5 SNMP PAGEREF _Toc520453390 h 57 HYPERLINK l _Toc520453391 7.1.6 SMI-S PAGEREF _Toc520453391 h 57 HYPERLIN
16、K l _Toc520453392 7.1.7 配套工具 PAGEREF _Toc520453392 h 57 HYPERLINK l _Toc520453393 7.2 生态集成及兼容性 PAGEREF _Toc520453393 h 57 HYPERLINK l _Toc520453394 7.2.1 VVol(Virtual Volumes) PAGEREF _Toc520453394 h 57 HYPERLINK l _Toc520453395 7.2.2 OpenStack集成 PAGEREF _Toc520453395 h 58 HYPERLINK l _Toc520453396
17、7.2.3 虚拟机环境插件 PAGEREF _Toc520453396 h 59 HYPERLINK l _Toc520453397 7.2.4 主机兼容性 PAGEREF _Toc520453397 h 59 HYPERLINK l _Toc520453398 8 最佳实践 PAGEREF _Toc520453398 h 61 HYPERLINK l _Toc520453399 9 附录 PAGEREF _Toc520453399 h 63 HYPERLINK l _Toc520453400 9.1 更多参考信息 PAGEREF _Toc520453400 h 63 HYPERLINK l
18、_Toc520453401 9.2 如何反馈意见 PAGEREF _Toc520453401 h 63 HYPERLINK l _Toc520453402 9.3 缩略语 PAGEREF _Toc520453402 h 64摘要华为公司OceanStor Dorado V3是面向企业关键业务打造的全闪存存储系统,采用专为闪存设计的FlashLinkTM 技术,实现0.5ms稳定低时延;免网关双活技术,为客户提供端到端双活数据中心解决方案,并可平滑升级到两地三中心容灾方案,实现方案级99.9999%的可靠性;在线重删和压缩技术,提供更多的客户可用容量,减少TCO。OceanStor Dorado
19、 V3能够满足数据库、虚拟桌面 (VDI)、虚拟服务器架构 (VSI) 和 SAP HANA等企业级应用的关键需求,助力金融、制造、运营商等行业向全闪存时代平滑演进。本文从产品定位、硬件架构、软件架构、特性方面详细介绍了OceanStor Dorado V3全闪存存储系统的关健技术,以及为客户带来的独特价值。简介产品系列OceanStor Dorado V3包括Dorado5000 V3 (包括 NVMe和SAS版本)、Dorado6000 V3几款产品。OceanStor Dorado5000 V3OceanStor Dorado6000 V3详细产品规格信息请参见: HYPERLINK /
20、cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3 /cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3客户价值OceanStor Dorado V3 在软件架构上针对Flash介质做了深度优化,同时又集成了华为存储十几年的技术积累和OceanStor OS存储操作系统的丰富特性,如:快照、克隆、同步/异步复制,双活,3DC、QoS、迁移,Thin等,给客户提供极致性能体验的同时,又提供无与伦比的数据保护能力。OceanStor Dorad
21、o V3通过技术创新,在以下方面为客户创造价值。极致性能在银行、海关、证券等极致性能要求场景,Dorado V3能够提供小于0.5ms的稳定时延和高吞吐量,极大提高客户的业务处理效率以及减少批处理业务需要的时间窗。灵活扩展Dorado V3支持Scale-out和Scale-up灵活扩展,以满足客户对极致性能和大容量的诉求。针对极致性能场景,可以采用Scale-out方式增加控制器,IOPS和带宽能够随控制器增加线性增加,低时延保持不变。针对大容量需求,可以通过扩展磁盘框的方式进行Scale-up。稳定可靠通过部件、系统、解决方案三级可靠性设计和实现,保证系统的可靠性。作为核心部件的华为自研S
22、SD(HSSD)盘片内部实现了闪存颗粒内部(LDPC纠错算法)、闪存颗粒间(闪存颗粒间RAID)的两级可靠性方案,实现芯片级的失效数据保护;智能矩阵式多控架构、创新的RAID2.0+及RAID-TP技术和针对闪存设计的FlashLinkTM等技术,使得系统无单点故障、能够容忍3盘同时失效和提升闪存寿命;无网关双活,实现站点发生事故或者灾难情况下业务RTO=0和RPO=0,业务连续性不受影响。融合高效采用在线全局重删和压缩技术,同等可用容量,全闪存节省75% CAPEX;支持与华为OceanStor V3融合存储通过远程复制组成容灾网络,实现全闪存阵列与传统存储的融合;通过异构虚拟化和远程复制,
23、实现与华为传统存储以及第三方阵列的融合。系统架构相关概念控制框OceanStor Dorado V3的控制框(Controller Enclosure,简称CTE)是指包含存储控制器在内的硬件框,负责所有存储业务逻辑的处理,提供主机访问、设备管理、数据服务等核心功能。包括:系统插框、控制器、接口模块、电源、BBU、管理模块等。Dorado V3系列支持2U、3U、6U三种控制框形态,分别支持盘控一体和盘控分离设计。OceanStor Dorado 2U控制框1系统插框2硬盘模块3电源-BBU模块4控制器(含接口板)OceanStor Dorado V3 3U控制框1系统插框2BBU模块3控制器
24、4电源模块5管理模块6接口模块OceanStor Dorado V3 6U控制框1系统插框2控制器3BBU模块4电源模块5管理模块6接口模块控制器OceanStor Dorado V3控制器是包含CPU、内存、主板等硬件的计算模块,主要负责处理存储业务、接收用户的配置管理命令、保存配置信息、接入硬盘和保存关键信息到保险箱硬盘。保险箱盘分为内置和外置两种保险箱盘,用于保存存储系统的数据和系统掉电后Cache中的数据。每个控制器内置一个或多个硬盘,称为内置保险箱盘。外置保险箱盘位于控制器外,对于Dorado5000 V3系列,控制框自带硬盘模块中的前4块硬盘作为保险箱盘;对于Dorado6000
25、V3系列,存储系统中第一个硬盘框的前4块硬盘规划为保险箱盘。(具体各型号保险箱盘规格及分区参考: HYPERLINK /hedex/hdx.do?docid=EDOC1000141860&lang=zh OceanStor Dorado5000 V3, Dorado6000 V3 产品文档)一个控制框支持2个控制器或4个控制器,两两配对成一个高可用控制器对。在单控制器故障的时候,可以由其配对的另一个控制器接管存储处理业务,保证系统的高可用性。控制器前端通过IO模块提供主机业务接入的访问接口,支持8G/16GFC/10GE/FCoE/56G IB主机接口。硬盘框OceanStor Dorado
26、V3硬盘框支持25盘位的2.5英寸SAS SSD,包括:系统插框、级联模块、电源模块和硬盘模块,提供2个SAS3.0级联接口,是系统容量Scale-up的基本单位。硬盘框硬件架构1系统插框2硬盘模块3电源模块4级联模块硬盘域硬盘域是由多块硬盘组合而成,RAID组在硬盘域的范围内选择成员盘。OceanStor Dorado V3支持创建一个或者多个硬盘域,支持跨控制框创建硬盘域(硬盘域最大只能跨2个控制框创建)。硬盘域跨控制框上图示例为一个Dorado V3双控制框系统,可以对系统的所有硬盘创建一个硬盘域,也可以对每个控制框分别创建一个硬盘域。硬盘域有热备策略和加密类型两个属性。热备策略提供高、
27、低、无三种策略,热备策略可以在线修改。高:高热备空间比例,硬盘域会预留更多的热备空间用于硬盘故障时存储系统重构数据。热备空间的容量随着硬盘数量的增加呈非线性增长。低(默认值):低热备空间比例,硬盘域会预留较少(至少保障重构一块硬盘的空间)的热备空间用于硬盘故障时存储系统重构数据。热备空间的容量呈非线性增加。无:系统不提供热备空间。硬盘域热备空间容量随硬盘数量的变化情况(表中列出了200盘以内的情况)硬盘数高热备策略热备空间(块)低热备策略热备空间(块)8121113252265032517547612553126175617620074硬盘域支持普通硬盘域和加密硬盘域两个选项,此属性在创建硬盘
28、域时配置,一旦配置无法更改。普通硬盘域:非加密的普通硬盘可以创建普通硬盘域,加密硬盘也可以创建普通硬盘域作为非加密硬盘,但无法启用加密功能;加密硬盘域:只能使用加密硬盘创建,并需要配置密管服务。硬盘域创建示例存储池存储池创建于硬盘域中,是存放存储空间资源的容器,所有应用服务器使用的存储空间都来自于存储池。一个硬盘域中包含一个存储池。创建存储池的时候,需要指定RAID级别。存储池的容量会默认包括选定的硬盘域的所有可用容量。存储池默认RAID策略配置为RAID 6, RAID 6可以满足绝大部分场景的可靠性要求,同时可以提供较好的性能和容量利用率。在单盘容量较大的场景下(如8T盘),单盘重构时间很
29、长会降低可靠性,此时使用RAID-TP可以弥补可靠性的降低。创建存储池RAID技术OceanStor Dorado V3 RAID技术采用华为专利EC(Erase-Code)算法,能够同时支持RAID 5,RAID 6,RAID-TP,RAID10*。RAID-TP能够容忍三盘失效,提供更高的可靠性。如有*号标注处规格要求,请联系华为销售人员。OceanStor Dorado V3 数据冗余机制RAID采用RAID2.0+块级虚拟化技术:多个SSD组成一个硬盘域;每个SSD盘被切分成固定大小的Chunk(简称CK,大小为4MB)进行逻辑空间管理;来自不同SSD盘的CK按照客户配置RAID冗余级
30、别组成Chunk组(CKG)。CKG冗余算法支持3种冗余度配置:RAID 5,采用EC-1算法,每个校验条带生成1个校验数据;RAID 6,采用EC-2算法,每个校验条带生成2个校验数据;RAID-TP,采用EC-3算法,每个校验条带生成3个校验数据;CKG再被划分为更细粒度的Grain,通常为8K,为满分条写盘的最小粒度,OceanStor Dorado V3 写盘采用满分条写,避免传统RAID的大小写导致系统额外开销。RAID映射流程如下所示:OceanStor Dorado V3 RAID冗余映射图OceanStor Dorado V3 通过EC算法,RAID组能够支持更多的成员盘数,能
31、够获取更高的空间利用率。EC算法支持的RAID利用率RAID级别EC算法推荐的成员盘数RAID利用率传统算法推荐成员盘数RAID利用率RAID 522+195.6%7+187.5%RAID 621+291.3%14+287.5%RAID-TP20+386.9%不支持NA当发生硬盘故障或者长时间拔出时,该硬盘上的Chunk将通过所在的CKG进行RAID重构。具体描述如下:硬盘故障,导致该硬盘上的Chunk不可用;故障Chunk所在的CKG处于RAID降级状态;系统从存储池中分配空余的CK用于数据修复;系统根据存储池的RAID级别,利用校验列和未损坏的数据列,计算出损坏的数据块写到空闲的CK中;由
32、于故障硬盘导致多个Chunk不可用,多个chuck又分布在多个CKG中,多个CKG将同时启动重构,而新分配的Chunk也是分布在多个硬盘中,所以重构过程是故障硬盘所在的硬盘域内所有硬盘都可能参与重构,充分利用了系统所有硬盘的IO能力,可以极大的提升数据重构速度,缩短数据恢复时间。Dorado V3 RAID重构采用动态RAID重构,并支持两种重构方式:普通重构和缩列重构,系统自动选择重构方式,保证各种场景下RAID冗余度不降低,维持高可靠。普通重构通过将恢复数据写入新分配CK的重构称为普通重构,重构前后RAID成员列数保持不变。RAID成员列数为M+N(M为数据列数,N为校验列数),如果硬盘域
33、中状态正常的成员盘数大于等于M+N,则执行普通重构。重构过程中,对故障的CKG,系统选择空闲的CK替换故障的CK,然后进行数据重构。如下图所示,D0、D1、D2、P、Q组成CKG,当disk2发生故障,那么从disk5中选择一个CK(D2_new)替换disk2中的D2,把D0、D1、D2_new、P、Q一起组成CKG,把D2中的数据重构到D2_new中;普通重构完成后,所有的数据保持RAID成员盘数不变,冗余级别不变。普通重构示意图缩列重构当硬盘域可用成员盘数小于RAID成员盘数时,系统将采用缩列重构。缩列重构和普通重构不同的地方是,由于硬盘域总的可用硬盘小于RAID成员盘数,缩列重构时保持
34、N(校验列)不变,减少M(数据列)的方式进行重构,重构前后RAID校验列数不变,数据列数变少。发生缩列重构时候,故障CK的数据,会重新写入到新的CKG上,RAID列数将减少(如果系统只有M+N-1块盘,那么新的CKG就是M-1+N)。未故障的数据列(M-1),加上新选择的P、Q列,组成新的CKG,数据列保持不变,重新计算P、Q。如下图所示,以6块可用盘(4+2)为例,disk2发生故障,那么CKG0中的数据D2会当做新数据写到新的CKG1上(图中D2),RAID列数则为3+2;原CKG0上的数据D0、D1、D3则重新计算P、Q组成3+2的新CKG0。缩列重构完成后,RAID组成员盘数减少,但是
35、RAID冗余级别不变。缩列重构示意图RAID列数是根据硬盘域的硬盘数由系统自动调整。OceanStor Dorado V3在选择RAID列数时是综合考虑了容量的利用率,RAID可靠性和重构速率等因素。硬盘域中硬盘数与RAID列数的对应关系如下表:RAID列数与硬盘域硬盘数对应表硬盘域硬盘数RAID列数高热备策略热备空间X(812)X-11X(1325)X-22X(2627)X-33X(X27)25大于等于3RAID列数M+N遵循如下原则:当硬盘域内故障的硬盘数小于等于高热备策略热备空间内的盘数,系统均不应引起缩列重构。尽量保证较高的容量利用率。M+N不大于25。当盘数小于13盘时,热备空间为1
36、个盘的容量,RAID列数M+N为X-1,优先保证了系统容量利用率。当盘数大于等于13盘小于25盘时,高热备空间2个盘的容量,RAID列数M+N为X-2,优先保证系统在损坏多块硬盘时尽量避免产生缩列重构。当盘数在2627盘之间时,此时参照表3-1,高热备策略的情况下,系统是有3块盘的空间作为热备空间。由于热备空间是系统设计的允许的坏盘数,在这个范围内的坏盘(这里指的不是同时损坏的情况)均应视为正常故障场景。此时RAID列数选择为X-3,是为了保证客户当系统先后故障达3块盘时,系统不启动缩列重构。当盘数大于27盘后,系统采用最大M+N为25,既保证了较好的容量利用率又避免M+N数值太大时RAID重
37、构而引起的读放大过程。比如采用30+2的RAID算法,那么损坏一块盘时,故障CKG中每重构一个CK都需要读取另外30个盘的CK,产生了较大的读放大,因此系统设计最大M+N为25。系统扩容时,RAID策略中的M+N将随着盘数的增加而增加。所有新写入的数据(包括垃圾回收产生的写入数据),都将采用新的M+N的方式来写入。原有数据保持原来的RAID列数不变。比如,系统硬盘域内原有15块硬盘,采用的RAID策略为RAID6,对照表3-3那么M+N为11+2,如果客户扩容至25块盘,那么新数据写入为21+2,而原来的数据保持11+2不变。当系统启动垃圾回收时,会把11+2中的有效CK写入到21+2中,原先
38、11+2的CKG将会被存储池回收。OceanStor Dorado V3数据冗余和恢复机制优势如下:快速重构:硬盘域所有盘参与重构。根据实测数据OceanStor Dorado V3 1TB数据不带业务重构只需要30min可以完成,而传统RAID重构1TB数据的时间超过2小时。RAID保护机制灵活,可靠性高:OceanStor Dorado V3支持3种不同级别的RAID冗余机制,用户可以根据不同业务场景灵活选择,对于可靠性要求高场景,RAID-TP可以提供同时故障3盘可靠性保障。支持智能选择RAID成员盘策略:在系统发生单盘持续故障场景,通过智能缩减RAID成员盘机制以及缩列重构,保证新写入
39、的数据还是可以保持原来的冗余度级别,不会因此导致数据降级写,降低数据数据保护可靠性。避免传统RAID的Write Hole导致数据不一致:OceanStor Dorado V3采用满分条追加写的方式,避免传统RAID 由于Write Hole问题而引入的数据不一致问题。硬件架构OceanStor Dorado V3系列存储系统采用智能矩阵式多控架构,以控制框为单位横向扩扩展,达到性能和容量的线性增长。单个控制框采用双控冗余架构,双控间采用板载PCIE3.0实现双控缓存镜像通道,多控制框之间通过PCIe3.0交换机实现Scale-out。后端硬盘框扩展采用SAS3.0实现硬盘框的Scale-up
40、。控制框内硬盘通过双端口连接到两个控制器,支持SAS接口的SSD和NVMe接口的SSD两种类型硬盘。通过BBU(Backup Battery Unit),在系统掉电时把cache中的缓存数据持久化到保险箱盘上实现缓存数据的保护和系统掉电后的数据一致性。主机接口采用华为自主研发的SmartIO卡支持16GFC、10GE/FCoE接口的融合,同时支持56G的IB接口。存储智能矩阵式多控架构设备形态OceanStor Dorado V3系列包含OceanStor Dorado5000 V3和OceanStor Dorado6000 V3二种产品形态。OceanStor Dorado V3产品形态产品
41、型号控制框形态控制器数/控制框硬盘类型Dorado5000 V3盘控一体(2U)2NVMe/SASDorado6000 V3控制框和硬盘框独立架构(3U)2SASOceanStor Dorado5000 V3采用盘控一体,实现高密度的性能和容量。控制框为2U背板互联的双控架构,硬盘有NVMe接口和SAS接口两种类型。NVMe版本后端通过PCIe交换芯片扩展,连接到25个2.5英寸双端口NVMe SSD;SAS版本后端通过SAS交换芯片扩展,连接到25个2.5英寸双端口SAS SSD。OceanStor Dorado5000 V3 NVMe 设备架构图OceanStor Dorado5000 V
42、3 SAS 设备架构图OceanStor Dorado6000 V3均采用控制框和硬盘框分离的架构,控制框为3U背板互联的双控架构,可实现灵活的Scale-out和Scale-up的扩展。控制框内的控制器通过背板上的PCIE3.0通道互联,跨控制框通过PCIE3.0交换机实现Scale-out。通过SAS3.0支持硬盘框的扩展以实现容量的Scale-up。自研HSSDOceanStor Dorado V3采用自主研发的SSD(HSSD),通过存储软件和HSSD盘的深度配合,可以发挥Dorado V3全闪存系统的极致性能。SSD主要由控制单元和存储单元(当前主要是FLASH闪存颗粒)组成,控制单
43、元包括SSD控制器、主机接口、DRAM等,存储单元主要是NAND FLASH颗粒。NAND FLASH内部存储读写的基本单元为Block和Page。Block:能够执行擦除操作的最小单元,通常由多个Page组成;Page:能够执行编程和读操作的最小单元,通常大小为4KB/8KB/16KB等。对NAND FLASH读写数据的操作主要涉及擦除(Erase)、编程(Program)和读(Read),其中编程和读的基本操作单位是Page,擦除的基本操作单位是Block。在写入一个Page之前,必须要擦除这个Page所在的整个Block。因此在写入某个Page时,需要把Block中其他有效的数据拷贝到新
44、的存储空间,从而把原先的整个Block擦除,这一过程称为垃圾回收(Garbage Collection,简称GC)。每一次对Block的编程写入和擦除称为一次P/E(Program/Erase)。不同于机械硬盘HDD,SSD盘中对每个Block的擦写次数是有限制的。如果某些Block的擦写次数太多,将会导致该Block不可用。针对SSD的这些特点,华为自研的HSSD盘采用了多项关键技术来保证SSD的可靠性和性能。盘内磨损均衡磨损均衡是指SSD控制器通过对NAND Flash中Block的P/E次数进行监控,通过一定的软件算法使所有Block的P/E次数比较平均,防止单个Block因过度擦写而导
45、致失效,延长NAND FLASH整体的使用寿命。华为HSSD采用的磨损均衡分为动态磨损均衡和静态磨损均衡。动态磨损均衡是指在主机数据写入的时候,优先挑选磨损较小的Block使用,这样保证P/E消耗平均分布;静态磨损均衡是指盘片定期在整个盘片的范围内寻找P/E消耗较少的Block并回收其上的有效数据,从而使得保存冷数据的Block也参与到磨损均衡的循环中。HSSD通过这2种方案的结合来保证全盘磨损均衡。坏块管理NAND FLASH芯片在制造和使用过程中会逐渐出现一些不符合要求的存储单元,此类Block将被标志为坏块。HSSD根据大量的实验数据和应用场景确定了坏块的判断标准,该标准会根据NAND
46、FLASH的擦写次数,错误类型,发生的频率等因素来判断Block是否为坏块。如果出现坏块,则通过NAND FLASH间XOR冗余校验数据来计算出坏块上的数据,并将数据恢复到新的可用Block上。在一个SSD生命周期内,盘片大概会出现1.5%左右的坏块,HSSD在盘片内部预留了空间用作坏块替换,确保在生命周期内可能出现的坏块可以及时被替换,保障SSD上的数据安全可靠。数据冗余保护由于SSD在使用过程中可能会出现数据位翻转和跳变,HSSD采用冗余校验对用户数据进行多维度的保护。数据在SSD的DRAM中使用了ECC和CRC校验来防止数据跳变和篡改;数据在NAND FLASH中使用了LDPC和CRC校
47、验来保护Page上的数据;而在不同的NAND FLASH之间则采用了XOR冗余进行保护以防止颗粒失效导致的数据丢失。多维度数据冗余保护LDPC即低密度奇偶校验码(Low Density Parity Check Code),是通过校验矩阵定义的一类线性码,主要用于数据校验和纠错,广泛应用于无线通信、卫星数字传输等领域。在数据写入NAND FLASH的Page时,计算出数据的LDPC校验信息一起写入到Page中;在从Page中读取数据的时候通过LDPC进行校验和纠错。HSSD盘片还通过闪存颗粒间内置XOR异或引擎对用户数据进行冗余保护,当Flash颗粒出现物理故障(页失效、块失效、DIE失效甚至
48、颗粒失效)时,采用校验数据块对故障块上的用户数据进行恢复,确保用户数据不丢失。后台巡检NAND FLASH上的数据会由于存放时间过长,读干扰、写干扰、随机失效等原因导致数据发生错误。HSSD会周期性的读取NAND FLASH上的数据,识别数据跳变情况,对于出现高比特位跳变的数据及时读取并写入到新的Page。通过这一后台巡检过程可以提前识别出现的风险并进行处理,能有效防止这些错误导致的数据丢失,提高数据的安全性和可靠性。支持SAS和NVMe协议华为自主研发的HSSD支持SAS和NVMe(Non-Volatile Memory Express)接口。NVMe协议相对传统的SAS协议更为简洁高效:从
49、软件栈来看,去掉了SCSI层,协议交互次数减少;从硬件传输路径来看,无需SAS控制器、SAS Expander,直接与CPU通过PCIe总线连接,实现更低的时延。同时NVMe可以支持更大的并发和队列深度(64K个队列,每队列深度可达64K),充分发掘SSD的性能。华为自研的NVMe接口的SSD通过多年在闪存技术方面的积累,能够支持双端口,热插拔能力,有效的提升了系统的性能、可靠性和可维护性。NVMe盘片与SAS盘片传输路径对比NVMe SSD写请求数据间通信次数相比SAS SSD从4次减少到2次。如下图所示:SAS:在SCSI(SAS后端)协议会通过4次协议交互的步骤才能完成一次写操作;NVM
50、e:在NVMe协议只需要2次协议交互就能完成一次写操作。NVMe协议与SAS协议交互流程对比 自研芯片华为通过在芯片领域不断的积累和持续投入,自主开发了SSD盘片控制器芯片、前端接口芯片(SmartIO芯片)、板级管理 BMC 芯片等存储系统的一些关键芯片,并应用在OceanStor Dorado V3上。SSD控制器芯片:HSSD使用华为自研的新一代控制器,该控制器是一款面向企业级应用,提供目前业界标准SAS 3.0X2和PCIe 3.0X4接口,该控制器具备高性能、低功耗特点。针对介质磨损寿命下降的问题,通过增强ECC、内置RAID等技术延长SSD寿命,满足企业级可靠性应用要求;该控制器使
51、用28nm工艺并支持最新的DDR4、SAS 12Gb/s、PCIe 8Gb/s接口速率以及硬件加速FTL等技术,为企业级应用提供稳定、低时延的性能。SmartIO芯片:Hi182x(IOC)芯片是华为公司在存储接口芯片领域的第一颗独立开发的芯片,自研并集成10GE/8GFC/16GFC/FCoE多种协议接口,性能卓越、接口密度高,协议种类多、端口灵活可变,为存储量身打造,构建独特的不可替代的价值。BMC芯片:Hi1710是一款针对 X86 CPU 平台的板级管理 BMC 芯片,包括A9 CPU,协处理 8051、传感器电路、控制电路、接口电路等组件。支持IPMI(Intelligent Pla
52、tform Management Interface)即智能平台管理接口标准,实现了对存储系统硬件部件的监测和控制,包括:系统上下电控制,控制板监控,接口卡监控,电源/BBU管理,风扇监控等主要功能。硬件扩展能力OceanStor Dorado V3架构设计同时支持Scale-up和Scale-out两种能力,给用户提供灵活的扩展方式。Dorado V3支持Scale-out和Scale-upScale-upOceanStor Dorado V3 Scale-up能力,控制框和硬盘框之间通过冗余SAS3.0链路直连。Dorado6000 V3硬盘框级联采用双上行组网,Dorado5000 V3
53、 SAS级联的硬盘框采用单上行组网方式。双上行是指硬盘框的两个级联口都作为上行口与控制器连接,每个硬盘框与控制框通过4条SAS线缆进行连接。OceanStor Dorado V3 双上行组网SSD盘片相比传统磁盘,单盘性能大幅提升。相比传统的磁盘存储系统,全SSD存储系统的性能瓶颈点从盘转移到了SAS级联链路及控制器CPU处理能力等方面。通过采用双上行组网,消除链路瓶颈,提升系统后端带宽,降低时延。单上行组网,是指硬盘框的一个级联口作为上行口与控制器连接,每个硬盘框与控制框通过2条SAS线缆进行连接。OceanStor Dorado V3单上行组网Dorado5000 V3 SAS是盘控一体架
54、构,控制框中的25盘采用双上行方式,外接的硬盘框采用单上行级联组网实现容量的扩展。在首次部署的时候,推荐使用相同容量的硬盘。在后续扩容时,新扩的硬盘可以是相同容量的盘,也可以扩展为更大容量的盘。SSD盘容量会越来越大,通过支持扩展更大容量的盘,客户后期扩容时可以选择当时最主流的盘片,降低TCO。Scale-outOceanStor Dorado V3 支持Scale-out能力,一个控制框内部的2个或者4个控制器,采用控制框背板上的镜像通道互联;控制框之间采用PCIe3.0交换机进行互联。每个控制器通过双端口的PCIe接口卡,分别接到两台PCIe交换机上,形成冗余链路。任何一个交换机、控制器、
55、接口卡、链路故障,系统都有冗余能力,保证系统的高可用性。详细的组网如下图所示:OceanStor Dorado V3 Scale-out数据网络互联组网示意图Scale-out互联的管理网络采用菊花链的方式连接。菊花链把控制器和PCIe交换机一起纳入管理,节省管理网络的交换机端口,为客户节省网络资源。Scale-out管理网络互联组网示意图硬件架构特征极致性能:端到端高速架构,PCIe 3.0总线;SAS 3.0硬盘接口/PCIe 3.0 * 4硬盘接口;16G FC/10GE/FCoE/56G IB主机接口;高性能自研硬盘NVMe SSD的应用,实现更高的性能,更低的时延;稳定可靠:采用成熟
56、硬件,全冗余硬件架构经过现网上万套系统验证,稳定可靠。稳定可靠的PCIe暴力热拔插技术,确保系统支持NVMe SSD在线维护和更换;极致高效:同时支持Scale-out和Scale-up,控制器和硬盘均可在线扩展。模块化设计,IO模块采用可热插拔设计,前端、后端接口支持灵活按需配置。软件架构OceanStor DoradoV3采用华为自研的面向SSD设计的OceanStor OS存储软件,通过特有的FlashLinkTM技术和丰富的特性为用户提供高性能、高可靠、高效率的存储产品。OceanStor Dorado V3软件架构框图存储控制器软件架构整体分为管控面(Cluster & Manage
57、ment)和业务面。管控面提供系统运行的基本环境,多控Scale-out的管理控制逻辑,以及告警、性能监控和用户操作管理。业务面负责存储业务IO调度,实现数据Scale-out能力以及FlashLinkTM技术中控制器软件相关的功能,诸如重删压缩、ROW满分条写、冷热数据分流、垃圾回收、全局磨损均衡与反磨损均衡等功能。FlashLinkTMFlashLinkTM技术的核心是通过一系列针对闪存介质的优化技术,实现了存储控制器和SSD之间的的协同和联动,在保证可靠性的同时,最大限度的发挥闪存的性能。FlashLinkTM针对闪存介质特点设计的关键技术主要有:冷热数据分流技术、端到端IO优先级、RO
58、W满分条写,全局垃圾回收以及全局磨损均衡/反均衡等有效的解决了闪存系统中写放大、垃圾回收给系统带来的性能抖动等问题,保障了OceanStor Dorado V3稳定的低时延和高IOPS。冷热数据分流在SSD的垃圾回收过程中,对于每次擦除的Block,SSD硬盘期望该Block中所有数据都是无效数据,这样就可以直接擦除整个Block,而不用搬移有效数据,可以减少系统的写放大。而存储系统中不同数据具备不同的冷热程度。比如:系统的元数据更新频繁,属于热数据,产生垃圾的概率更高;而用户数据一般修改的频率要低,属于冷数据,产生垃圾的概率要低。FlashLinkTM技术通过硬盘驱动和控制器软件配合,在控制
59、器软件中将修改频率不同的数据(元数据、用户数据)带上不同的标示发给SSD,使得冷热数据存放在不同的Block中,从而增加Block中数据同时无效的概率,达到减少GC过程中搬移有效数据的数据量,提升SSD的性能及可靠性。冷热数据分流技术示意图下图中红色代表元数据,灰色代表用户数据。使用冷热数据分流技术前,用户数据和元数据混合分布在SSD盘片的相同Block上。由于元数据变化快,很快成为垃圾数据,盘片进行Block擦除的时候,就需要把有效的用户数据搬移到新的Block上。使用冷热数据分流技术后,元数据和数据分布到不同的Block上。对元数据所在的Block,该Block上的数据很快都会成为垃圾,B
60、lock擦除需要搬移的有效数据就很少。冷热数据分流技术效果示意图端到端IO优先级OceanStor Dorado V3为保证稳定时延,控制器对各类IO进行了优先级标识。根据这些标识,系统在CPU调度、资源调度、排队等方面进行控制,实现端到端的优先级保障。如SSD在接收IO时,会检查IO的优先级标识,并优先处理高优先级IO,实现SSD盘对高优先级IO的快速响应。OceanStor Dorado V3系统把IO分为5类:数据读写IO,高级特性IO,重构IO,Cache刷盘写IO,垃圾回收IO,并为这5类IO分别赋予从高到低的优先级(如下图所示)。通过对这些IO的优先级控制,从整体上获得最均衡的内外
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年智能化铁艺护栏设计与施工一体化合同3篇
- 感恩的心演讲稿模板锦集7篇
- 电话拨号课程设计
- 春节放假的通知范文锦集9篇
- 2024年度物流园区综合管理承包合作协议3篇
- 2024年城市综合体投资方合作协议6篇
- 2024年版证券交易居间合同
- 在宿舍手机被收检讨书范文(14篇)
- 2025年山东济宁市兖州区事业单位急需紧缺高层次人才引进(第二批)23人管理单位笔试遴选500模拟题附带答案详解
- 2025年山东济南市南部山区事业单位公开招聘工作人员9人管理单位笔试遴选500模拟题附带答案详解
- 统编版六年级语文词句段运用练习
- 打叶复烤工艺流程简图课件
- 施工现场入场安全教育课件
- ce自我声明模板
- 克与千克说课课件
- 国开电大行管本科《政府经济学》期末考试总题库2024版
- 生产与运作管理第三版课后习题含答案版
- 高频考点之评价与文本互证考题专练-2024年高考语文二轮复习三点突破讲解专练
- 《高铁酸钾的制备》课件
- 上海财经大学《801经济学》历年考研真题及详解
- 城市交通枢纽运营故障应急预案
评论
0/150
提交评论