FusionCube 6技术白皮书 (数据库)_第1页
FusionCube 6技术白皮书 (数据库)_第2页
FusionCube 6技术白皮书 (数据库)_第3页
FusionCube 6技术白皮书 (数据库)_第4页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name FusionCube DOCPROPERTY ProductVersion 6.0 DOCPROPERTY DocumentName 技术白皮书 (数据库)前言概述本文档华为FusionCube 6.0版本数据库基础设施的产品价值、产品架构、高性能、线性扩展、系统安全以及系统可靠性。读者对象本文档主要适用于以下工程师:营销工程师技术支持工程师维护工程师符号约定在本文中可能出现下列标志,它们所代表的含义如下。符号说明表示如不避免则将会导致死亡或严重伤害的具有高等级风险的危害。表示如不

2、避免则可能导致死亡或严重伤害的具有中等级风险的危害。表示如不避免则可能导致轻微或中度伤害的具有低等级风险的危害。用于传递设备或环境安全警示信息。如不避免则可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。“须知”不涉及人身伤害。对正文中重点信息的补充说明。“说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。目 录 TOC h z t 标题 1,1,标题 2,2,标题 3,3, 标题 4,4, 标题 5,5, 标题 7,1, 标题 8,2, 标题 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2

3、,2,Appendix heading 3,3,Appendix heading 4,4,Appendix heading 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc83362492 前言 PAGEREF _Toc83362492 h ii HYPERLINK l _Toc83362493 1 产品概述 PAGEREF _Toc83362493 h 1 HYPERLINK l _Toc8336249

4、4 2 产品价值 PAGEREF _Toc83362494 h 2 HYPERLINK l _Toc83362495 3 产品架构 PAGEREF _Toc83362495 h 3 HYPERLINK l _Toc83362496 3.1 节点架构 PAGEREF _Toc83362496 h 4 HYPERLINK l _Toc83362497 3.2 典型配置 PAGEREF _Toc83362497 h 5 HYPERLINK l _Toc83362498 3.3 组网 PAGEREF _Toc83362498 h 7 HYPERLINK l _Toc83362499 4 分布式存储 P

5、AGEREF _Toc83362499 h 8 HYPERLINK l _Toc83362500 4.1 架构概述 PAGEREF _Toc83362500 h 9 HYPERLINK l _Toc83362501 4.2 关键业务流程 PAGEREF _Toc83362501 h 12 HYPERLINK l _Toc83362502 4.2.1 数据路由 PAGEREF _Toc83362502 h 12 HYPERLINK l _Toc83362503 4.2.2 IO路径 PAGEREF _Toc83362503 h 13 HYPERLINK l _Toc83362504 4.2.3

6、Cache机制 PAGEREF _Toc83362504 h 15 HYPERLINK l _Toc83362505 4.3 存储管理 PAGEREF _Toc83362505 h 17 HYPERLINK l _Toc83362506 4.3.1 存储集群管理 PAGEREF _Toc83362506 h 17 HYPERLINK l _Toc83362507 4.3.2 存储服务化 PAGEREF _Toc83362507 h 17 HYPERLINK l _Toc83362508 4.4 数据冗余 PAGEREF _Toc83362508 h 18 HYPERLINK l _Toc833

7、62509 4.4.1 多副本 PAGEREF _Toc83362509 h 18 HYPERLINK l _Toc83362510 4.4.2 Erasure Code PAGEREF _Toc83362510 h 18 HYPERLINK l _Toc83362511 4.5 特性介绍 PAGEREF _Toc83362511 h 19 HYPERLINK l _Toc83362512 4.5.1 SCSI/iSCSI块接口 PAGEREF _Toc83362512 h 19 HYPERLINK l _Toc83362513 4.5.2 精简配置 PAGEREF _Toc83362513

8、h 21 HYPERLINK l _Toc83362514 4.5.3 重删压缩 PAGEREF _Toc83362514 h 22 HYPERLINK l _Toc83362515 4.5.4 快照 PAGEREF _Toc83362515 h 24 HYPERLINK l _Toc83362516 4.5.5 链接克隆 PAGEREF _Toc83362516 h 26 HYPERLINK l _Toc83362517 4.5.6 多资源池 PAGEREF _Toc83362517 h 26 HYPERLINK l _Toc83362518 4.5.7 QoS PAGEREF _Toc83

9、362518 h 27 HYPERLINK l _Toc83362519 5 硬件设备平台 PAGEREF _Toc83362519 h 28 HYPERLINK l _Toc83362520 5.1 机架服务器平台 PAGEREF _Toc83362520 h 28 HYPERLINK l _Toc83362521 5.1.1 1288H V5机架服务器 PAGEREF _Toc83362521 h 28 HYPERLINK l _Toc83362522 5.1.2 2288H V5机架服务器 PAGEREF _Toc83362522 h 29 HYPERLINK l _Toc8336252

10、3 5.1.3 2488H V5机架服务器 PAGEREF _Toc83362523 h 30 HYPERLINK l _Toc83362524 5.1.4 ARM机架服务器 PAGEREF _Toc83362524 h 31 HYPERLINK l _Toc83362525 5.2 E9000刀片服务器平台 PAGEREF _Toc83362525 h 32 HYPERLINK l _Toc83362526 5.2.1 E9000机框 PAGEREF _Toc83362526 h 32 HYPERLINK l _Toc83362527 5.2.2 E9000刀片 PAGEREF _Toc83

11、362527 h 33 HYPERLINK l _Toc83362528 5.2.3 高性能交换板 PAGEREF _Toc83362528 h 35 HYPERLINK l _Toc83362529 6 安装部署和运维管理 PAGEREF _Toc83362529 h 37 HYPERLINK l _Toc83362530 6.1 自动化部署 PAGEREF _Toc83362530 h 37 HYPERLINK l _Toc83362531 6.1.1 FusionCube Builder PAGEREF _Toc83362531 h 37 HYPERLINK l _Toc83362532

12、 6.1.2 系统初始化 PAGEREF _Toc83362532 h 39 HYPERLINK l _Toc83362533 6.1.3 设备自动发现 PAGEREF _Toc83362533 h 40 HYPERLINK l _Toc83362534 6.2 统一运维管理 PAGEREF _Toc83362534 h 41 HYPERLINK l _Toc83362535 6.2.1 一键式运维 PAGEREF _Toc83362535 h 42 HYPERLINK l _Toc83362536 6.2.2 Call Home PAGEREF _Toc83362536 h 45 HYPER

13、LINK l _Toc83362537 7 性能和可扩展性 PAGEREF _Toc83362537 h 46 HYPERLINK l _Toc83362538 7.1 系统高性能 PAGEREF _Toc83362538 h 46 HYPERLINK l _Toc83362539 7.1.1 分布式I/O环 PAGEREF _Toc83362539 h 46 HYPERLINK l _Toc83362540 7.1.2 分布式SSD Cache加速 PAGEREF _Toc83362540 h 47 HYPERLINK l _Toc83362541 Read/Write Cache PAGE

14、REF _Toc83362541 h 48 HYPERLINK l _Toc83362542 大块Pass Throught PAGEREF _Toc83362542 h 50 HYPERLINK l _Toc83362543 7.1.3 硬件加速 PAGEREF _Toc83362543 h 51 HYPERLINK l _Toc83362544 7.2 线性扩展 PAGEREF _Toc83362544 h 52 HYPERLINK l _Toc83362545 7.2.1 存储平滑扩容 PAGEREF _Toc83362545 h 52 HYPERLINK l _Toc83362546

15、7.2.2 性能线性扩展 PAGEREF _Toc83362546 h 53 HYPERLINK l _Toc83362547 7.2.3 一键式扩容 PAGEREF _Toc83362547 h 54 HYPERLINK l _Toc83362548 7.3 FusionCube分布式存储相对于传统SAN的性能优势 PAGEREF _Toc83362548 h 55 HYPERLINK l _Toc83362549 7.3.1 更高的性能 PAGEREF _Toc83362549 h 55 HYPERLINK l _Toc83362550 7.3.2 线性Scale-up/Scale-out

16、 PAGEREF _Toc83362550 h 56 HYPERLINK l _Toc83362551 7.3.3 大池POOL PAGEREF _Toc83362551 h 58 HYPERLINK l _Toc83362552 7.3.4 SSD Cache vs SSD Tier PAGEREF _Toc83362552 h 59 HYPERLINK l _Toc83362553 8 系统可靠性 PAGEREF _Toc83362553 h 61 HYPERLINK l _Toc83362554 8.1 数据可靠性 PAGEREF _Toc83362554 h 61 HYPERLINK

17、l _Toc83362555 8.1.1 块存储集群可靠性 PAGEREF _Toc83362555 h 61 HYPERLINK l _Toc83362556 8.1.2 数据一致性 PAGEREF _Toc83362556 h 62 HYPERLINK l _Toc83362557 8.1.3 数据冗余保护 PAGEREF _Toc83362557 h 62 HYPERLINK l _Toc83362558 8.1.4 快速数据重建 PAGEREF _Toc83362558 h 63 HYPERLINK l _Toc83362559 8.2 硬件可靠性 PAGEREF _Toc833625

18、59 h 64 HYPERLINK l _Toc83362560 8.3 管理可靠性 PAGEREF _Toc83362560 h 64 HYPERLINK l _Toc83362561 8.4 系统亚健康增强 PAGEREF _Toc83362561 h 64 HYPERLINK l _Toc83362562 9 系统安全 PAGEREF _Toc83362562 h 69 HYPERLINK l _Toc83362563 9.1 系统安全威胁 PAGEREF _Toc83362563 h 69 HYPERLINK l _Toc83362564 9.2 总体安全框架 PAGEREF _Toc

19、83362564 h 70 HYPERLINK l _Toc83362565 9.2.1 网络安全 PAGEREF _Toc83362565 h 71 HYPERLINK l _Toc83362566 9.2.2 应用安全 PAGEREF _Toc83362566 h 72 HYPERLINK l _Toc83362567 权限管理 PAGEREF _Toc83362567 h 72 HYPERLINK l _Toc83362568 Web安全 PAGEREF _Toc83362568 h 72 HYPERLINK l _Toc83362569 数据库加固 PAGEREF _Toc833625

20、69 h 73 HYPERLINK l _Toc83362570 日志管理 PAGEREF _Toc83362570 h 73 HYPERLINK l _Toc83362571 9.2.3 主机安全 PAGEREF _Toc83362571 h 74 HYPERLINK l _Toc83362572 操作系统加固 PAGEREF _Toc83362572 h 74 HYPERLINK l _Toc83362573 9.2.4 数据安全 PAGEREF _Toc83362573 h 74 HYPERLINK l _Toc83362574 数据加密 PAGEREF _Toc83362574 h 7

21、4 HYPERLINK l _Toc83362575 10 兼容性 PAGEREF _Toc83362575 h 76 HYPERLINK l _Toc83362576 10.1 数据库兼容性 PAGEREF _Toc83362576 h 76产品概述随着数据不断增长以及互联网业务的兴起,新兴业务的激增、业务数据呈现几何倍数增加,传统服务器+存储的架构已经无法很好满足业务发展需求,分布式、云化技术应运而生。越来越多的企业采用虚拟化与云计算技术来构建IT系统,提升IT系统的资源利用率以及缩短业务上线周期。但在应用过程中,企业面临如下挑战:管理复杂,运维费用仍然维持增长趋势。安装部署复杂,硬件来自

22、多厂商,规划、部署、调优需要丰富的经验支撑。多厂商设备,售后支持界面多,解决问题慢。系统庞大(不同厂商硬件设备维护、虚拟平台管理),维护难度大。企业越来越关注成本控制、业务敏捷、风险管控,希望能拥有总成本低、新业务的上线时间快、资源可弹性伸缩、安全可靠、高性能的IT系统。华为FusionCube是一个开放的、可扩展的系统,具有计算/存储/网络融合、预集成、高性能、高可靠、高安全、业务自动化快捷部署、统一管理、资源智能弹性伸缩、运维简单的特点,可帮助客户业务快速上线,快速实现不同云应用的部署,同时降低维护管理的难度。产品价值FusionCube遵循开放架构标准,集成服务器、分布式存储及网络交换机

23、为一体,无需外置存储设备,并预集成了分布式存储引擎及管理软件,资源可按需调配、线性扩展。主要价值如下:融合FusionCube实现了计算、存储和网络资源的融合:硬件融合:计算存储网络高度集成,线性扩容。管理融合:统一运维管理,提高资源利用率,降低OPEX费用。应用融合:针对应用业务模型,软硬件深度调优,实现性能提升。简单FusionCube实现了预集成和预验证、上电后的设备自动发现、统一的维护管理,端到端的简化了业务交付:简化安装:提供快速安装工具,一键完成系统软件安装。简捷交付:设备上电自动发现,参数自动配置,实现业务快速上线。简单维护:统一界面管理,故障主动排查,简化日常运维。优化Fusi

24、onCube通过采用业界领先硬件,以及分布式存储软件,为应用提供最优的业务体验:存储优化:通过内置分布式存储,为数据库应用提供了高并发、高吞吐量的存储服务。网络优化:支持100Gbps InfiniBand,提供业界最快的交换网络开放FusionCube DB是开放的数据库基础设施平台,不绑定特定的上层应用,可以为业界主流数据库等提供计算、存储和网络资源:开放高效的平台,兼容Oracle RAC、IBM DB2、GuassDB、人大金仓、Mysql、IBM informix等各种主流商用数据库。产品架构华为FusionCube DB总体架构主要由:硬件平台、分布式存储软件、安装部署和运维管理平

25、台构成,可提供Oracle RAC、DB2、GuassDB、人大金仓、Mysql、Informix等数据库相应的运行资源。华为FusionCube DB总体架构详细构成如下图所示:华为FusionCube DB总体架构华为FusionCube DB总体架构组件说明名称说明FusionCube CenterFusionCube的管理软件,管理其中的虚拟化资源、硬件资源,提供系统监控管理和运维管理等功能。FusionCube Builder提供现场快速安装部署FusionCube系统软件,可用于现场更换虚拟化平台软件或者更新版本。FusionStorage使用分布式存储技术,通过合理有序组织服务器

26、的本地硬盘,提供高性能高可靠的块存储业务。硬件平台服务器使用E9000/X6800/X6000/机架服务器,支持计算、存储、交换、电源模块化设计,计算和存储节点按需混配,计算、存储都在服务器内部署完成,支持GPU,SSD PCIe等IO加速扩展,支持丰富的交换模块IB,根据业务要求灵活配置。华为FusionCube DB是华为公司IT产品线的旗舰产品。FusionCube遵循开放架构标准,融合服务器、分布式存储及网络交换机为一体,无需外置存储设备,并预集成了分布式存储引擎及管理软件,资源可按需调配、线性扩展。 HYPERLINK l _ZH-CN_TOPIC_0207594089 o 3.1

27、节点架构 HYPERLINK l _ZH-CN_TOPIC_0207594082 o 3.2 典型配置 HYPERLINK l _ZH-CN_TOPIC_0207593979 o 3.3 组网节点架构在FusionCube DB场景下,分布式存储与数据业务分离部署在不同的节点上,根据节点提供的功能特性差异,又分为管理节点、存储节点、计算节点和物理数据库节点。存储软件部署在存储节点OS内,节点的HDD和SSD Cache存储介质通过FusionCube分布式存储软件构造成系统共享的存储池资源;计算节点上部署存储软件块设备机头,提供数据库存储资源;管理节点上部署FusionCube Center管

28、理平台,提供系统的管理运维能力,详细的节点架构如下图:FusionCube DB场景节点架构FusionCube场景各类节点说明名称说明部署原则MCNA(管理节点)具有管理功能的节点,其上部署了FusionCube Center管理平台。必须部署1个。SNA(存储节点)具有存储功能的节点。提供FusionCube分布式存储HDD磁盘以及SSD Cache存储资源。根据需要部署3个多个。DBN(数据库节点)物理部署节点,可提供系统数据库计算资源根据需要部署1个多个。典型配置FusionCube 6.0版本可支持大容量的HDD+SSD Cache混合部署场景以及高性能的全SSD部署场景。具体的场景

29、配置具体如下:混合部署场景节点典型配置:配置项典型配置说明服务器类型V5机架服务器/E9000 V5刀片服务器(停止销售)根据客户对机柜空间、磁盘大小、密度、PCIE网卡数量等选择合适的服务器类型;机架服务器:最灵活,支持各类硬盘类型,预留多个PCIE槽位。但空间占用大;E9000刀片:集成度高,可支持计算、存储、网络集成在一个E9000机柜内,但只支持2.5寸HDD以及NVME SSD盘,单节点容量偏小,节点网卡配置固定;CPU/内存配置2*Intel Xeon Gold 5120 Processor8*32GB RDIMM DDR4 2666MHzCPU/内存配置根据客户的业务规格和配置可

30、以动态调整配置,提供更多的计算资源磁盘2T/4T/6T/8T SATA盘,1.2T/1.8T/2.4T SAS盘操作系统盘默认为2*600GB SAS盘FusionCube分布式存储要求SATA盘必须要采用3副本或者EC配比为N+2以上的冗余策略,SAS盘可采用2副本、三副本或者EC配比为N+2以上的冗余策略。Cache华为自研NVME SSD V5盘或卡;华为自研SAS SSD V5盘;系统的cache大小可根据客户业务压力灵活配置,一般默认配置为2*3200GB NVME SSD V5盘/卡;Cache类型出华为自研的NVME SSD和SAS SSD外,还可支持Intel、三星、镁光等完成

31、兼容性验证的SAS/SATA SSD盘。网卡2*GE/10GE+2*10GE+4*100Gb IB(计算)2*GE/10GE+2*100Gb IB(存储)计算和存储节点存储网络平面默认采用IB网卡;管理平面默认采用GE/10GE网卡;计算节点业务平面根据实际的业务网络需求配置一张或多张10GE网卡。全闪存部署场景节点典型配置:配置项典型配置说明服务器类型V5机架服务器/E9000 V5刀片服务器(停止销售)根据客户对机柜空间、磁盘大小、密度、PCIE网卡数量等选择合适的服务器类型;机架服务器:最灵活,支持各类硬盘类型,预留多个PCIE槽位,但空间占用大;E9000刀片:集成度高,可支持计算、存

32、储、网络集成在一个E9000机柜内,但只支持2.5寸HDD以及NVME SSD盘,单节点容量偏小,节点网卡配置固定;CPU/内存配置2*Intel Xeon Gold 5120 Processor8*32GB RDIMM DDR4 2666MHzCPU/内存配置根据客户的业务规格和配置可以动态调整配置,提供更多的计算资源磁盘ES3000 NVME SSD V5盘; ES3000 SAS SSD V5盘操作系统盘为2*480GB SATA SSD盘或2*600GB SAS盘FusionCube分布式存储默认全闪存场景采用2副本或者EC配比为N+2以上的冗余策略,客户如果要求更高的可靠性也可采用三

33、副本()。全闪存磁盘默认采用华为自研盘,推荐采用3DWPD磁盘,业务写入数据量不大场景下,可采用1DWPD磁盘。网卡2*GE/10GE+2*10GE+4*100Gb IB(计算)2*GE/10GE+2*100Gb IB(存储)计算和存储节点存储网络平面默认采用IB网卡;管理平面默认采用GE/10GE网卡;计算节点业务平面根据实际的业务网络需求配置一张或多张10GE网卡。组网华为FusionCube 6.0版本的系统组网包含:管理平面、存储平面、业务平面、BMC平面。详细的组网情况如下:FusionCube DB 场景系统组网图通信平面类型说明介绍:管理平面:FusionCube系统的管理网络平

34、面,用于系统的业务操作和运维管理,支持TCP/IP协议,支持GE/10GE组网;存储平面:FusionCube分布式存储节点间数据读写操作网络平面,支持IRDMA协议,支持IB组网,独占IB网卡;数据库心跳默认复用存储IB网络平面,支持IPOIB,默认为UDP方式,支持RDS协议(华为自编译,且驱动版本有一定约束,不推荐使用);业务平面:客户业务通信网络平面,支持TCP/IP协议,支持GE/10GE组网,根据业务带宽要求,配置一张或多上10GE网卡;BMC平面:服务器设备管理IP平面,访问FusionCube系统服务器设备的运维管理;分布式存储FusionCube内置分布式存储为业务提供存储服

35、务,FusionCube分布式存储提供是块存储设备,采用独特的并行架构、创新的缓存算法、自适应的数据分布算法,既消除了热点也提高了性能,并且能够以超快的重建时间实现自动化自修复,提供卓越的可用性和可靠性。线性扩展和弹性FusionCube分布式存储采用全分布式DHT架构,将所有元数据按规则分布在各节点,避免了元数据瓶颈,支持线性扩展。FusionCube分布式存储采用了独特的数据分块切片技术,以及基于DHT Hash的数据路由算法,可以将卷的数据均匀的分散到较大的资源池故障域范围内,使得每个卷可以获得更大的IOPS和MBPS性能,也使得每个硬件资源的负载相对均衡。高性能FusionCube分布

36、式存储免锁化调度的IO软件子系统,彻底解决了分布式锁冲突,使得IO路径上无需进行任何锁操作和元数据查询,IO路径短、时延低;分布式的无状态机头,可以充分发挥各个硬件节点的能力,大大提升了系统的并发IOPS和并发MBPS。同时FusionCube分布式存储采用分布式的SSD cache技术,配合大容量的SAS/SATA盘做主存,使得系统的性能可以具备SSD的性能和SAS/SATA的容量。高可靠性FusionCube分布式存储支持多种数据冗余保护机制,如2副本、3副本、EC等;在此基础上,FusionCube分布式存储支持设置灵活的数据可靠性策略,允许将不同的副本放在不同的服务器上,保证在服务器故

37、障的情况下,数据仍然不丢失、仍然可访问。同时采用对有效数据分片进行数据的冗余保护,在硬盘、服务器故障的时候,能够对有效数据进行并行重建,1TB硬盘的重建时间小于30分钟,大大增强系统的可靠性。丰富的存储高级功能精简配置,当用户对卷进行写操作时才分配实际物理空间,来为用户提供比物理存储资源更多的虚拟存储资源。卷快照,将用户的逻辑卷数据在某个时间点的状态保存下来,作为快照点;快照不限次数且性能不下降。链接克隆,基于增量快照提供链接克隆,一个快照可以创建出多个克隆卷,各个克隆卷刚创建出来时的数据内容与快照中的数据内容一致,后续对于克隆卷的修改不会影响到原始的快照和其他克隆卷。卷的灵活划分,可以根据整

38、个业务实际需求,灵活创建卷,且卷的大小不受物理磁盘空间的限制,单卷最大支持256TB。 HYPERLINK l _ZH-CN_TOPIC_0207593985 o 4.1 架构概述 HYPERLINK l _ZH-CN_TOPIC_0207594063 o 4.2 关键业务流程 HYPERLINK l _ZH-CN_TOPIC_0207594039 o 4.3 存储管理 HYPERLINK l _ZH-CN_TOPIC_0207594099 o 4.4 数据冗余 HYPERLINK l _ZH-CN_TOPIC_0207594103 o 4.5 特性介绍架构概述FusionCube分布式存储采

39、用分布式集群控制技术和DHT路由技术,提供分布式存储功能特性。FusionCube分布式存储功能架构如REF _fig64797827 r h图4-1所示。FusionCube分布式存储功能框架图系统描述类型描述业务系统访问接入用于应用访问存储系统的标准访问接口,支持SCSI/iSCSI标准访问接口协议卷特性层卷提供各种特性,如快照,克隆,迁移,异步复制,双活等企业级特性,均在此层实现索引层用于数据逻辑空间和物理空间的转换,重删压缩等在该层实现持久化层采用Plog接口访问(一种Append Only的ROW写机制)用于数据的存放,包括多副本,EC,数据均衡与重构等,并通过OSD/VDB对盘进行

40、管理和数据读写管理系统业务管理子系统FusionStorage Manager资源管理存储资源池进行管理和分配,提供数据冗余保护,包括多副本保护和纠错码保护业务管理支持按存储资源池发放块存储服务系统管理支持对系统进行初始化配置和必要的业务功能配置,设备拓扑管理,可提供系统设备拓扑关系图,方便查看和管理设备间的拓扑关系。用户管理支持对用户的增删改查,包括用户的等级,权限等安装部署完成系统的初始安装,部署升级支持对系统的升级,包括软件升级,操作系统升级,固件升级扩容完成系统的在线扩容缩容巡检/信息收集设备详情管理,可提供设备详细配置和运行状态信息收集,方便了解设备配置信息和健康状态。FusionC

41、ube分布式存储逻辑架构如REF _fig1425420459165 r h图4-2所示。FusionCube分布式存储逻辑架构图FusionCube分布式存储逻辑组件名称说明FSMFusionStorage Manager缩写,FusionStorage管理模块,提供告警、监控、日志、配置等操作维护功能。与FusionCube Center共部署在一起,工作在主备模式下FSAFusiostorage Agent缩写,代理进程,部署在各节点上,实现各节点与FusionStorage Manager通信,可收集各节点的监控与告警信息或在升级本节点软件组件时接收升级包与执行升级。ZKZookeep

42、er缩写。一个系统需部署3、5、7等奇数个Zookeeper组成。Zookeeper集群,为MDC集群提供选主仲裁,Zookeeper至少3个,必须保证大于总数一半的Zookeeper处在活跃可访问状态。MDC元数据控制组件,实现对分布式集群的状态控制,以及控制数据分布规则、数据重建规则等。一个系统至少部署3个MDC,形成MDC集群,系统启动时由Zookeeper集群在多个MDC中选举主MDC,主MDC对其它MDC进行监控,主MDC故障时产生新的主MDC。每个资源池有一个归属MDC,当某池的归属MDC故障时,主MDC指定另外的MDC托管这个资源池,一个MDC最多管理两个资源池。MDC作为一个进

43、程可以在每个存储节点启动,增加资源池会自动启动MDC,一个系统最多启动96个MDC。VBS虚拟块存储管理组件,执行卷元数据管理,VBS通过SCSI或iSCSI接口提供分布式存储接入点服务,使计算资源能够通过VBS访问分布式存储资源。VBS与其所能访问的资源池的所有OSD点对点通信,使VBS能并发访问这些资源池的所有硬盘。每个节点上默认部署一个VBS进程,多个节点上的VBS形成VBS集群,VBS启动时与主MDC连接并协调主VBS。节点上也可以通过部署多个VBS来提升IO性能。OSDKV设备服务,执行具体的I/O操作。在每个节点上部署多个OSD进程,一块磁盘默认对应部署一个OSD进程。在SSD卡作

44、主存时,为了充分发挥SSD卡的性能,可以在1张SSD卡上部署多个OSD进程进行管理,例如2.4TB的SSD卡可以部署6个OSD进程,每个OSD进程负责管理400GB。EDSEEnterprise Data Service组件,接收到来自VBS的I/O业务之后,执行具体的I/O操作。在EDS服务里面,会执行有关快照、克隆等与块相关的特性,同时还对存储空间的做管理,将块的数据与存储空间建立索引关系,确保每块数据通过索引都能找到对应的存储位置;同时在数据存储到物理空间之前,可以进行重删压缩处理。CMCluster Manager,集群管理软件,用于管理整个存储集群的状态信息,包括各组件的状态信息,实

45、时监控各组件的状态,当组件出现故障时,根据组件状态触发相关措施来恢复错误。CCDBCluster Configuration Database,集群配置数据库,用于保存用户配置信息的数据库,当前在EDS组件中会采用CCDB存放配置信息。关键业务流程数据路由FusionCube分布式存储数据路由采取分层处理方式:VBS通过计算确定数据存放在哪个节点的哪块硬盘上。OSD通过计算确定数据存放在硬盘的具体位置。具体流程如下图所示:FusionCube分布式存储数据路由示意图第一层DHT hash环的目的是通过hash算法将数据分发到计算出来的存储服务器节点处理该数据,通过该hash算法,确保每个数据都

46、有对应的服务器节点来处理,保证了业务处理的均衡。系统根据LUNID和LBA定位到服务器节点,然后再定位到该服务器上的vnode上,由该vnode逻辑处理单元来处理该数据;vnode是一种逻辑处理单元,将物理服务器节点分为4个逻辑处理单元,即4个vnode,例如:一个由6个物理服务器组成的一个存储集群,当其中1个物理服务器故障时,该服务器上的4个vnode处理的业务,可以分别被该集群中另外的4个物理服务器去接管,这样剩下的5个物理服务器中,有4个物理服务器运行有5个vnode,1个物理服务器运行4个vnode,通过vnode机制,可以确保故障节点的业务可以分散到不同的服务器节点上去接管,就可以防

47、止只用一个物理服务器接管带来的业务处理瓶颈问题。该DHT hash环打散粒度是按64MB对齐打散。第二层DHT hash环的目的是通过hash算法将数据转到对应存储空间去保存,完成数据的持久化。通过该hash算法,确保数据存储空间的均衡性。系统根据PlogID和Offset定位到硬盘应该存放的具体位置,避免在海量数据中进行查找和计算,该DHT路由技术,采用华为自研算法,不仅能保证数据在各个硬盘的均衡性,而且在硬件增减(故障或扩容)时,自动快速调整,并保证数据迁移的有效性,确保自动快速自愈,自动资源均衡。存储空间根据可靠性有机柜级、节点级、硬盘级,默认是跨节点组织副本/EC。IO路径读IO流程F

48、usionCube分布式存储系统中的读IO(EC)流程如REF _fig74362371173 r h图4-4所示。FusionCube分布式存储读IO流程 上层应用下发读IO请求到存储服务,存储服务的VBS(Virtual Block Service)模块收到该IO请求,根据第一层的DHT hash算法将数据转到指定服务器; 服务器上的EDS(Index+Dedup)模块处理该数据。EDS接收到读IO请求后,优先在内存的写缓存中查找,如果找到就返回给VBS。 如果内存写缓存中没有命中,则再在内存读缓存中去查找,如果仍然没有找到,则到存储介质中去读,先在SSD Cache中去读,如果还不命中,

49、则到存储介质)中去读(详细见Read Cache章节说明)。写IO流程FusionCube分布式存储系统中的写IO(EC)流程如REF _fig223055615173 r h图4-5所示。FusionCube分布式存储写IO(EC)流程上层应用下发写IO请求到存储服务,存储服务的VBS(Virtual Block Service)模块收到该IO请求(图中),根据第一层的DHT hash算法将数据转到指定服务器;由这个服务器上的EDS(Index+Dedup)模块处理该数据(图中上);EDS接收到写IO请求后,以小比例EC形式写入Cache Layer层的SSD缓存盘上(图中下),同时该EDS

50、所在服务器的内存中仍然保持一份该数据,EDS返回写IO成功给VBS(图中),再由VBS返回给上层应用。待内存中的数据聚合到更大的块,走刷盘流程异步刷入(图中)到Capacity Layer的存储介质中。Cache机制FusionCube分布式存储采用多级Cache机制提升存储IO性能,读、写Cache机制采用不同流程。Write CacheVBS发送的写IO操作(图中Write IO From Host)时,会将Write IO在Memory Write Cache内存中保存一份,同时同步以日志的方式(采用固定的2+2小分片EC)记录到SSD WAL Cache中并返回成功完成本次写操作,这个

51、流程通常称为Host Write IO流程。通常SSD Disk Cache分为两个部分:SSD Write Cache和SSD Read Cache。Memory Write Cache中的数据会进行IO排序重整并等待满分条以副本或EC的方式直接写入到SSD Write Cache中并返回;对于大块IO则直接由Memory Write Cache直通写到HDD中,而不驻留在SSD Write Cache里;当SSD Write Cache中的保存数据水位达到40%时,则由SSD Write Cache往HDD中搬迁。随着Memory Write Cache中的数据逐步刷盘到SSD Write

52、 Cache时,SSD WAL Cache中的数据将逐步淘汰掉,我们通常会进行异步的垃圾回收。FusionCube分布式存储写Cache机制示意图相比较传统的副本方式写入SSD Cache,然后异步的再从SSD Cache中读出满分条到持久化存储层HDD,FusionCube分布式存储的SSD WAL Cache方案带来4大优势:FusionCube分布式存储的SSD WAL Cache的写放大比较小,2+2的EC的Overhead为2;而副本方式的SSD Cache,OverHead最低必须为2。由于写放大较小,FusionCube分布式存储对网络的带宽消耗也较低FusionCube分布式存

53、储的SSD WAL Cache可靠性高,是+2的冗余保护。FusionCube分布式存储的数据往主存上刷盘通常是由RAM中触发完成的,比传统的后台异步先从SSD Cache读出再写到主存中的效率高。Read CacheFusionCube分布式存储的读缓存采用分层机制。第一层为内存Cache,内存Cache采用LRU机制缓存数据; 第二层为SSD Cache,SSD Cache采用热点读机制,系统会统计每个读取的数据,并统计热点访问因子,当达到阈值时,系统会自动缓存数据到SSD中,同时会将长时间未被访问的数据移出SSD。OSD在收到VBS发送的读I/O操作时,会进行如下步骤处理:从内存“Mem

54、ory Write Cache”中查找是否存在所需I/O数据,如果存在,则直接返回,同时调整该IO数据到“读Cache”LRU队首,否则执行 HYPERLINK l li1787011516337 o 步骤2;从内存“Memory Read Cache”中查找是否存在所需IO数据,如果存在,则直接返回,同时增加该IO数据的热点访问因子,否则执行 HYPERLINK l li12678853193310 o 步骤3;从SSD的“SSD Write Cache”中查找是否存在所需IO数据,如果存在,则直接返回,如果不存在,执行 HYPERLINK l li1750018559338 o 步骤4;从

55、SSD的“SSD Read Cache”中查找是否存在所需IO数据,如果存在,则直接返回,同时增加该IO数据的热点访问因子;如果热点访问因子达到阈值,则会被缓存在SSD的“SSD Read Cache”中,如果不存在,执行 HYPERLINK l li13172757103319 o 步骤5;从硬盘中查找到所需IO数据并返回,同时增加该IO数据的热点访问因子,如果热点访问因子达到阈值,则会被缓存在SSD的“SSD Read Cache”中。结束FusionCube分布式存储读Cache机制示意图存储管理存储集群管理FusionCube分布式存储通过集群管理软件完成集群的管理工作,功能包括集群基

56、本信息监控、性能监控、告警管理、用户管理、license管理、硬件管理。集群基本信息监控:查看集群的基本信息,包括集群名称、健康状态、运行状态、节点信息、节点进程信息、卷的挂载点查询、存储使用空间等。性能监控:查看CPU利用率、内存利用率、带宽、IOPS、时延、磁盘利用率、存储池利用率统计。告警管理:提供查看告警信息、清除告警、屏蔽告警的功能。用户管理:系统管理员可以创建新的管理员,为该管理员赋予一定的管理权限,以便多个管理员按照所授权限进行系统或资源管理。对用户的操作包括:查询、删除、创建、解锁、冻结用户等。支持设置密码策略以提升系统安全。License管理:提供查看已激活的license和

57、导入新license功能。硬件管理硬件管理包括服务器管理个磁盘管理。服务器管理对系统中的所有服务器集中管理,可查看服务器的软件安装状态、软件版本号、是否加入集群,可查看在服务器上创建的存储池状态以及存储池在该服务器的拓扑信息,支持将服务器设置为维护模式以方便对服务器进行故障恢复处理,支持对服务器的CPU、内存进行性能监控。磁盘管理将系统中所有的磁盘集中管理,支持查看磁盘的状态、槽位号、序列号、磁盘使用率、类型等,支持磁盘包括IOPS、时延、带宽、利用率等监控性能统计。存储服务化FusionCube分布式存储的管理平台用户按角色分为“系统管理员”、“系统操作员”和“系统查看员”,提供的管理功能可

58、分为资源接入和配置、资源管理和维护、系统管理和维护三类。资源管理维护包括系统概览汇总信息、存储池管理、块客户端管理、卷管理、虚拟文件系统管理、硬件管理等。存储池管理存储池管理可查看选定存储池的统计信息,查看选定存储池的硬盘拓扑,为选定存储池扩容、减容,以及删除存储池。还提供创建新存储池功能。块客户端管理块客户端管理提供创建、删除客户端功能。也提供查看块客户端的挂载信息与CPU 及内存的监控统计信息,为块客户端进行挂载和卸载卷等操作。卷管理卷管理提供卷的创建和删除功能。创建卷需指定资源池、卷名、卷大小等信息。对于创建后的卷若按SCSI协议使用需要挂载卷,若按iSCSI协议使用需要做iSCSI 映

59、射。还提供iSCSI卷映射界面完成创建主机/主机组、配置启动器、配置CHAP认证、为主机/主机组映射/解映射卷等操作。注:默认情况下iSCSI功能是关闭的,若要使用iSCSI功能需要先开启iSCSI功能并添加iSCSI监听的IP地址和端口。QoS策略管理QoS策略管理支持创建、删除QoS策略,及分页查看QoS策略信息。快照管理快照管理支持分页出查看快照列表,列表信息包括快照名称、容量、所属存储池和创建时间;支持创建链接克隆卷、设置QoS策略和删除快照。数据冗余FusionCube分布式存储支持两种数据冗余保护机制,一种是多副本方式,一种是Erasure Code(EC,纠错码)方式。多副本Fu

60、sionCube分布式存储采用数据多副本备份机制来保证数据的可靠性,即同一份数据可以复制保存为23个副本。针对系统中的每1个卷,默认按照1MB进行分片,分片后的数据按照DHT算法保存集群节点上。如REF _fig1450518463392 r h图4-8所示,对于节点Server1的磁盘Disk1上的数据块P1,它的数据备份为节点Server2的磁盘Disk2上P1,P1和P1构成了同一个数据块的两个副本。例如,当P1所在的硬盘故障时,P1可以继续提供存储服务。FusionCube分布式存储多副本示意图Erasure CodeFusionCube分布式存储也可以采用Erasure Code(E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论