2024基于+DPU+的高性能存储网络技术报告-24正式版_第1页
2024基于+DPU+的高性能存储网络技术报告-24正式版_第2页
2024基于+DPU+的高性能存储网络技术报告-24正式版_第3页
2024基于+DPU+的高性能存储网络技术报告-24正式版_第4页
2024基于+DPU+的高性能存储网络技术报告-24正式版_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC-2024-03001]基于DPU的高性能存储网络技术报告开放数据中心标准推进委员会2024.09发布基于DPU的高性能存储网络技术报告版权声明制单位共同享有著作权。转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。和翻译出版等侵权行为,ODCC合与支持。I基于DPU的高性能存储网络技术报告编写组项目经理:许豪豪中国移动通信集团公司工作组长:何泽坤腾讯科技深圳有限公司贡献专家:程宇中国移动通信集团公司肖爱元中国移动通信集团公司房梽斅中国移动通信集团公司储琴琴中国移动通信集团公司董少杰中国移动通信集团公司覃小娜中国移动通信集团公司裴照华中国移动通信集团公司张耀华中国移动通信集团公司高坚中国移动通信集团公司许豪豪中国移动通信集团公司刘子轶中国移动通信集团公司曹辉中国移动通信集团公司王少鹏中国信息通信研究院孙聪中国信息通信研究院II基于DPU的高性能存储网络技术报告目录版权声明.................................................I编写组..................................................一、存算分离数据中心架构................................1(一)NVMe-oF网络存储协议............................2(二)存算分离数据中心面临的存储问题.................3二、基于DPU的高性能存储架构及关键技术..................4(一)RDMA网络.......................................6RoCE技术.......................................7RDMA技术.......................................8(二)NVMeoverFabric..............................(三)DPU核心技术...................................11(四)DPU实现NVMeoF虚拟存储卸载....................12三、基于DPU的高性能存储架构应用场景...................(一)裸金属场景....................................(二)虚拟化场景....................................四、挑战与展望.........................................III基于DPU的高性能存储网络技术报告一、存算分离数据中心架构题[1]1灵活性,降低存储成本和维护难度。图1数据中心存算分离架构1基于DPU的高性能存储网络技术报告存算分离式数据中心常用的网络协议为TCP(TransmissionControlProtocol和RDMA(RemoteDirectMemoryAccess程直接内存访问)协议。TCP协议作为计算节点和存储节点之间的通性和易用性;RDMA则连接存储服务器,包括块服务器和块存储服到计算机内存中,可旁路CPU控制。为支持更高性能的高速存储设NVMe-oF(NVMeoverFabrics存储介质接口)被广泛采用,旨在解决传统网络存储协议在高速存储设备上的性能瓶颈。(一)NVMe-oF网络存储协议NVMe是面向基于PCIe的SSDNVMe-oF协议基于NVMe协议设计的高性能、低延迟的网NVMe-oF架构包括包括NVMeNVMe传输层以及网络层。2基于DPU的高性能存储网络技术报告图2NVMe-oF架构[2]NVMe网络存储定义NVMe设备的结构以及它与主机的交互方式,包括NVMe的层次结构,即命名空间、控制器、队列和数据结构等。传输层绑定标准将NVMe协议转换为特定的网络传输格式。NVMe传输层定义NVMe语义基于不同网络传输层的交互机制与数TCPRDMA和FC传输保证。(二)存算分离数据中心面临的存储问题3释放SSD介质的能力,要求更高性能的存储网络支持。相比于传统的iSCSI(InternetSmallComputerSystemInterface计算机系统接口协议,NVMe-oF协议作为存储阵列与前端主机连接的通道,避免将存储协议封装成TCP/IP数据包的多次的序列化和反3基于DPU的高性能存储网络技术报告的时延。图3存算分离数据中心的新需求基于NVMe-oF存储网络协议,存算分离数据中心仍然面临挑战“存储税10-20%的主机服务器CPU核心需要用于实现云存储需要的虚拟化等功能[3]从主机侧解耦,从而释放主机到用户服务,并提升存储访问性能。智算中心已经普遍使用NVMe-oF载可以有效帮助智算中心进一步向前发展。二、基于的高性能存储架构及关键技术随着网络带宽及存储性能的不断提升,以CPU为中心处理这部分网络和存储协议等占用了服务器主机约30%的资源,引入高昂的4基于DPU的高性能存储网络技术报告“数据中心税[4]。另一方面,随着CPU性能提升的放缓,通用CPU在处理网络和存储等数据中心基础设施服务的能效比降低。DPU(DataProcessingUnit)是一种以数据为中心构造的专用处理络存储遇到的性能瓶颈。基于DPU的存算分离数据中心架构如图4所示,将网络存储协议从主机侧CPUCPU与压缩解压缩等,能够进一步加快对存储数据的处理。DPU通过硬搬运次数、降低访问延迟,从而提高虚拟化环境下存储访问的性能。图4基于DPU的存算分离数据中心架构5基于DPU的高性能存储网络技术报告(一)网络RDMARemoteDirectMemoryAccess,CPU资源。RDMA具有以下三个方面的技术特征:1RDMA的参与,消除了系统调用开销。2RDMA网卡和应用内存缓冲区之间直接传输。3CPU卸载:RDMA网卡将传输协议以及底层网络协议固化到硬件。实现RDMA的协议主要包括以下三种:(InfiniBandInfiniBandTradeAssociation原生RDMA技术,其规定了一整套完整的链路层到传输层规范。IBIB技术的RDMA网络需要购买和IB网卡配套的系列交换设备。iWARP(InternetWideAreaRDMAProtocal)基于TCP/IP协议的RDMA技术,由IETF标准定义。iWARP支持在标准以太网基础设施上使用RDMA技术,但服务器需要使用支持iWARP的网卡。6基于DPU的高性能存储网络技术报告RoCE(RDMAoverConvergedEthernet)基于以太网的RDMAIBTA提出。RoCE将IB而支持在标准以太网基础设施上使用RDMARoCE包括v1和两个版本,v1版本网络层仍然使用了IB使用了UDP+IPRoCE需要交换机支持无损以太网传输,因此企业需要采购支持RDMA流控的交换机配合RoCE网卡使用。图5RDMA协议综合考虑性能和价格,目前业界比较常用的网络方案是InfiniBand方案和RoCEv2方案。1.RoCE技术RoCE技术支持在以太网上承载IB协议,实现RDMAoverEthernetRoCE与InfiniBand技术有相同的软件应用层及传输控制层,仅网络层及以太网链路层存在差异,RoCE架构如图5所示。7基于DPU的高性能存储网络技术报告图6RoCE架构RoCE协议分为两个版本:RoCEv1RDMA它的报文结构是在原有的IB架构的报文上增加二层以太网的报文头,通过Ethertype0x8915标识RoCE报文。RoCEv2UDP/IP协议承载RDMAIB架构的报文上增加头、IP头和二层目的端口号4791标识RoCE报文。RoCE支持基于源端口号hash,采用ECMP实现负载分担,提高网络利用率。2.RDMA技术RDMA的服务类型,包含连接服务及数据报服务,按照可靠性QPQueuePairContext中包含有远端节点8基于DPU的高性能存储网络技术报告的信的在内的对端信息。数据报服务与面向连接恰好相反,不会跟一个唯一的远端节点绑定,而是通过WQE(WorkQueueElement)来指定目的节点。靠同学是客户端与服务端通信报文不需要进行应答的通信方式。按照连接和可靠两个标准,RDMA可以支持四种不同的传输模式:RCReliableConnected):可靠连接,一个只和另一个QP相连,RDMA网卡保证一个发出的数据包都能够被另外一个正确接收。RC连接很类似于TCP连接。(UnreliableConnected只和另一个相连,连接是不可靠的,所以数据包可能有丢失。传输层出错的消息不会进行重传,错误处理必须由高层的协议来进行。RD(ReliableDatagram):可靠数据报,一个和多个相连,消息通过akc/nak机制可靠的发送到多个QP。UDUnreliableDatagram):不可靠数据报,一个可以和其它任意的UP/QP进行数据传输和单包数据的接收。不保证按序性和9基于DPU的高性能存储网络技术报告(二)overFabricNVMe-oF是一种基于NVMe处理能力和数据处理效率。NVMe-oF目前主要支持三种网络协议,分别是TCP、RDMA与FC(FibreChannel)网络。NVMeoverTCP基于现有的IPTCP协议在网络基础设施不变的情况下实现端到端NVMe据包的分段和重组,引入额外传输延迟和开销,因此其性能最差。NVMeoverRDMA基于RDMA网络协议,包括RoCE、IB(InfiniBandiWARPInternetWideAreaRDMAProtocol基于以太网的RoCE目前已成为RDMA的主流网络承载方式。该方案允许远程主机直接从存储器中读写数据,无需CPU的干预,从而能计算和存储系统。NVMeoverFC协议标准为FC-NVMe,可复用传统的FC网络,FC网络带宽限制以及其较高的技术壁垒,难以推广应用。在本报告的实现方式中,采用最为广泛应用的NVMeoverRDMA主要是RoCE为实现标准。10基于DPU的高性能存储网络技术报告(三)核心技术DPU(DataProcessUnits,数据处理器)是以数据处理为核心的强I/O处理器,采用软件定义技术路线支撑基础设施层资源虚拟化,存储、安全服务质量管理等基础设施层服务[5]。网络是DPU最基础的功能之一,通过卸载TCP/IP协议栈和虚拟交换机等方式,加速传统网络处理。加速存储也是DPU一个重要的功能,通过卸载网络存储协议和执行计算密集型算法,提高存储访问性能。DPU是一种把数据中心的计算、存储、网络等基础设施云化并接入DPU,质量弹性云计算算力集群。DPU的主要组成部分为[6]:1IO硬件设备虚拟化2VPCoverlay网络硬件加速3EBS分布式存储接入硬件加速4)本地存储虚拟化硬件加速5)弹性RDMA6)安全硬件加速7)弹性裸金属支持8)池化能力基于DPU的高性能存储网络技术报告(四)实现NVMeoF虚拟存储卸载考虑公有云生态兼容,I/O设备模型符合标准。因此实现基于virtio-blk、NVMe等业界标准I/O设备模型,成为了必须。NVMe/virtio-blk设备虚拟化通过调度外部存储资源,基于本地PCIeSSD盘Host或hypervisorDPU的NVMe或virtio-blk设备虚署本地存储资源。任何需要产生IO请求或者访问数据的业务逻辑,都会通过NVMe/virtio-blk设备虚拟化框架重定向到基于网络的对远端存储。在NVMeoverRDMA协议的场景,NVMe/virtio-blk设备虚拟化卸载有三种实现方式:Non-offload模式图7Non-offload模式12基于DPU的高性能存储网络技术报告所有数据都经过EmbeddedCPU侧处理,数据首先从Host内存DMA到EmbeddedCPUEmbeddedCPU侧内存DMA到NIC发送出去。基于SPDK框架实现,每个设备对应一个SPDKbdeviSCSINVMe-oFRBD实现自己的存储协议Zero-Copy模式图8Zero-copy模式Zero-copy模式允许应用直接从主机内存传输数据到远端存储,无需进入EmbeddedCPU缓存。DataBuffer可以直接从主机内存传输到远端存储,不再需要两次DMAHost->EmbeddedCPU,EmbeddedCPU->NICZero-copy模式仍是基于SPDKbdev13基于DPU的高性能存储网络技术报告实现,基于RDMAHost、ECPU双侧内存管理和DMA功能,故远端存储必须支持RDMANon-offloadRDMA(或者RoCEFull-offload模式图9Full-offload模式Full-offload模式进一步降低了对ECPU的占用,完全offload数full-offload平面完全交给硬件,软件不能干预。因此,用户无法控制后端设备,后端设备是自动发现的,并且无需命名空间配置管理。三、基于的高性能存储架构应用场景14基于DPU的高性能存储网络技术报告虚拟化成多个虚拟机,然后将这些虚拟机提供给一到多个用户使用。DPU卸载的高性能存储网络在裸金属和虚拟化两种应用场景下,具有不同的性能和功能需求。(一)裸金属场景应用场景,如大型数据库、高性能计算等。(NVMe驱动)的处理,然后通过网络存储协议栈(NVMe-oF驱动)的处理到网络协议栈,的下降。远程资源本地化是裸金属场景优化的重点,即利用DPU卸载的时,存储资源对主机只表现为NVMe设备,裸金属服务器可以直接通过NVMe驱动访问远端的存储,而不需要经过频繁的上下文切换15基于DPU的高性能存储网络技术报告与数据拷贝(如图所示),从而利用DPU卸载的高性能存储网络达到远端存储与本地存储相同的性能。(a)裸金属场景网络存储协议(b)DPU卸载网络存储协议图10裸金属场景下DPU卸载网络存储协议(二)虚拟化场景虚拟化场景中云服务提供商通过虚拟化技术将物理机变为多个展性和可靠性。通常被用于需要灵活性和弹性的应用场景,如Web应用程序、大数据分析、软件开发和测试等。等。这些内存拷贝操作会占用大量CPU时间,影响网络访问性能。16基于DPU的高性能存储网络技术报告耗大量CPU时间和资源。在虚拟化环境中,多个虚拟机共享一个物外,在虚拟机访问网络存储时,如果使用额外的存储服务如加解密、压缩解压缩等,不仅需要增加CPU时间计算,而且会增加额外的数据拷贝次数和延迟,性能进一步降低。远程资源虚拟化是虚拟机场景优化的重点,即利用DPU卸载的高性能存储网络,在主机侧模拟远端存储设备成为本地NVMe存储NVMe设备

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论