DPU金融行业发展白皮书-2023.12_第1页
DPU金融行业发展白皮书-2023.12_第2页
DPU金融行业发展白皮书-2023.12_第3页
DPU金融行业发展白皮书-2023.12_第4页
DPU金融行业发展白皮书-2023.12_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京金融科技产业联盟2023

11

月DPU

金融行业发展白皮书版权声明本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。IDPU

金融行业发展白皮书编委会主编:聂丽琴编委:刘承岩

张学利

健执笔:王

沈震宇

杨晓峰

王启宇

黄明飞

陈文斌

郭建强赵

孙传明

邓德源

刘继江

张乾海

阚立宸杜建成参编单位:北京金融科技产业联盟秘书处中国工商银行金融科技研究院深圳云豹智能有限公司北京火山引擎科技有限公司IIDPU

金融行业发展白皮书前

言党的二十大报告提出,要增强国内大循环内生动力和可靠性,提升国际循环质量和水平。这既离不开金融对资源配置的引导优化,也离不开科技创新在激发市场活力方面的重要作用。“十四五”时期,我国开启全面建设社会主义现代化国家新征程,数据成为新的生产要素,数据技术成为新的发展引擎,数字经济浪潮已势不可挡。2023

2

月,中共中央、国务院印发《数字中国建设整体布局规划》(以下简称《规划》),指出建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。《规划》明确了数字中国建设将按照“2522”的整体框架进行布局,“2522”中的第一个“2”即夯实数字基础设施和数据资源体系“两大基础”。数字中国建设是数字金融发展的重要契机,对金融行业的数字化发展指出了明确的方向,也契合了我国促进数字经济高质量发展的总体规划。在云计算、大数据、5G、人工智能等技术的蓬勃发展下,金融云也迎来了发展的契机。金融云依据自身特点对云计算基础设施建设提出了更加严苛的要求,提供高效、安全、高容灾和高可用的云基础设施是金融云发展的重要关切点。中国工商银行高级金融科技专家刘承岩谈到:“以云计算为核心的数据中心,是金融机构数字化转型的核心基础设施。与公IIIDPU

金融行业发展白皮书有云不同,金融行业在追求计算多样化、高性能的同时,更加注重系统的安全可靠、绿色高效和开放兼容。当前,软件定义的云计算架构主要依靠

CPU

算力进行相关云资源的抽象,而随着计算规模和网络带宽的增大,用于云管控和

IO

处理的

CPU

开销越来越大,以

CPU

为核心的云计算架构正在向软硬协同的新型架构演进。从业界实践来看,以数据加速处理为核心,具备通用可编程能力的

DPU

处理器是支撑软硬协同云计算架构的关键。通过将云平台的控制面和数据面卸载至

DPU,并根据金融场景进行定向优化,实现更低的单位算力成本,更高的

IO

性能,以及更灵活安全的云管控,将是更加云原生的计算架构。然而,当前

DPU、服务器、云操作系统之间的生态并不完善,制约着金融云架构的演进,需要产业侧和用户侧共同推进构建良性、开放的生态,以促进云原生金融云算力的全行业落地”。面向云基础设施的通用数据处理器(Data

Processing

Unit,以下简称

DPU)是连接算力资源和网络资源的关键节点。DPU

要解决的不仅是云基础设施“降本增效”的问题,也要解决现有云计算应用中网络资源与算力资源发展不协调的问题。随着各种应用在云环境中部署的复杂度持续增高和规模的不断扩展,数据交换不再仅仅是简单的服务器之间的数据搬运,还需要对数据进行有效的智能化处理。传统网卡(NIC)及其后续的智能网卡(SmartNIC)由于自身技术结构的限制,无法在飞速发展的云计算应用中满足数据交换和智能化处理的需求,正在被

DPU

这种通IVDPU

金融行业发展白皮书用数据处理器所取代。DPU

作为通用的数据处理器,不是对

NIC或

SmartNIC

的简单替代,而是对网络基础架构的本质改变。DPU本身所具有的通用可编程特性、低时延网络、统一资源管控以及持续发展的加速卸载特性,使得

DPU

正在促进云计算应用从架构上实现优化和重构。DPU

作为通用数据处理的基础部件,主要聚焦当前应用中消耗

CPU、GPU

算力资源的网络、存储、安全以及和应用相关的数据处理任务。DPU

将这些任务从

CPU、GPU

中卸载下来,释放

CPU、GPU

的算力,支撑

CPU、GPU

发挥更大的效能。针对金融云的发展需求,DPU

本身具有的特点和能力,能很好地促进金融行业的数字化转型。本白皮书分析了金融行业在云部署中的发展趋势及面临的行业挑战,概述了

DPU

的技术演进历程、生态发展和典型案例,系统阐述了

DPU

技术在促进金融云绿色低碳发展方面的重要作用和应用实践,加快助力金融行业构建开放共享、稳定可靠、高效绿色、自主可控的金融级安全云平台。VDPU

金融行业发展白皮书目

录一、云原生浪潮下金融行业云基础设施的发展趋势和挑战

...........

1(一)发展趋势

...........................................

1(二)行业挑战

...........................................

5二、DPU

发展与趋势

..........................................

11(一)DPU

历史演进

......................................

11(二)DPU

生态发展

......................................

17(三)DPU

典型案例

......................................

19三、基于

DPU

构建绿色低碳金融云

..............................

24(一)统一部署弹性调度

..................................

25(二)计算实例高可用

....................................

28(三)加速云原生网络

....................................

29(四)加速云原生存储

....................................

31(五)加速微服务应用

....................................

33(六)加速云原生安全

....................................

34(七)加速大模型训练

....................................

35(八)提升计算资源利用率

................................

36四、DPU

在金融云的应用分析

..................................

41(一)弹性裸金属

........................................

41(二)零信任安全

........................................

43(三)高性能扁平化容器网络

..............................

45(四)人工智能大模型

....................................

47五、DPU

在金融云平台发展中的展望

............................

50六、结语

....................................................

52插图附录

....................................................

54缩略语

......................................................

55VIDPU

金融行业发展白皮书一、云原生浪潮下金融行业云基础设施的发展趋势和挑战(一)发展趋势在云原生技术快速发展、经济与商业模式正发生深刻变化的背景下,金融云平台作为金融行业数字化转型的依托,在金融行业生态格局中扮演着非常重要的角色。金融云包含平台基础设施(IaaS)、应用平台(PaaS)和金融生态(SaaS)3个层面(如图1所示),其中基础设施是构建体系完备、规模超大、自主可控和灵活高效的金融云平台的基石。图

1

金融云平台1.绿色计算与低碳发展在碳达峰碳中和的双碳背景下,金融机构也在绿色转型和数字化转型升级中寻求突破,促进绿色计算和数字低碳技术创新。有数据显示,我国数据中心年用电量在全社会用电量中的比1DPU

金融行业发展白皮书重正在逐年升高,为确保实现碳达峰碳中和目标,就需要在数据中心建设模式、技术、标准和可再生能源利用等方面进一步挖掘节能减排潜力。近年来,云计算发展迅猛,其本身就是一种绿色技术,提高了CPU的整体利用率。通过聚集计算资源和转移工作负载,云的资源利用率持续得到提高。推动数据中心绿色可持续发展,加快节能低碳技术的研发应用,提升能源利用效率,降低数据中心能耗,从而实现绿色计算与低碳的发展目标。2.部署模式多样化金融领域云计算部署模式主要包括私有云、团体云以及由其组成的混合云等。在实际的落地部署中,不论是采用私有云建设方式,还是采用与第三方合作的公有云建设方式,亦或混合云建设方式,越来越多的金融企业都在尝试利用云计算技术来降低运营成本,促进产品创新。当前,越来越多的金融机构开始尝试将IT

业务搭建在云上,而未来这一趋势还将不断深化。私有云或者混合云的建设模式在传统银行、证券等企业中得到青睐,而公有云模式则成为大量新兴互联网金融企业的选择,通过与第三方公有云厂商合作,得以实现自身业务的快速扩展,业务快速上线。金融业务上云呈现多样化的趋势,不同的金融企业也正在根据自身情况选择适合自身发展的建设模式。3.稳定与敏捷并存当前金融业务的发展中,既有针对稳态业务的高稳定性、高2DPU

金融行业发展白皮书可靠性、高安全性要求,也有针对大数据、人工智能、区块链等新数字化技术业务的敏捷支持要求。随着金融业务规模的不断扩大,以及面向互联网业务场景的不断丰富,传统金融行业的信息管理系统已经严重制约了金融行业向数字化转型的发展。一方面,越来越多的用户通过互联网进行经济活动(例如查询信息、购物和理财等)。另一方面,金融行业也正在借助与互联网技术的结合推出更多业务,增加用户量及用户黏性。因此对未来的金融云平台提出了新的需求。在资源利用上,需要对资源进行池化管理,解耦计算、存储、网络和安全,从而实现对计算、存储、网络和安全资源的统一高效调度管理,进而实现透明、按需供给的资源管理模式。在安全上,不仅是现有的应用层数据需要安全监控和管理能力,随着金融业务的不断变化,虚拟化层的引入以及基于云原生的容器、微服务的应用部署也需要依赖整个云原生平台的安全监控和管理能力。总体上,需要在实现安全和高效的前提下,保证具有高容灾和高可用性。4.安全可信与可控随着金融业务上云的不断深化,经济活动安全越来越受到国家和监管部门的重视。金融行业对于数据的安全性和合规性要求非常高,金融云需要提供高度安全的数据存储和传输机制,确保客户敏感信息的保护和隐私安全。因为金融业务中涉及大量的资金、交易、用户隐私信息等敏感数据,所以对数据和隐私保护有更高的安全要求,这直接关系到国家的经济安全,同时也影响着3DPU

金融行业发展白皮书老百姓生活的方方面面,使得金融云服务的安全可靠、可信、可控成为其发展必须满足的条件。当前,金融云发展所面临的安全问题并没有完全有效解决,已成为阻碍金融云发展的障碍之一。对数据加密性要求最高的金融行业将整体系统上云之后,建设更高的安全、可信、可控的金融云平台是未来的必然趋势。5.高可用需求金融行业对规划、建设和运维的专业性要求也非常高,从规划、建设到各个系统的迁移和管理,都与其他行业的云服务有着很大的不同,在行业和系统内部都有着严格的规范要求。针对高可用性,规范就要求云计算平台应具备软件、主机、存储、网络节点、数据中心等层面的高可用保障能力,能够从严重故障或错误中快速恢复,保障应用系统的连续正常运行,满足金融领域业务连续性要求。由于金融行业的特殊性,高可用是金融云基础设施建设中需要重点关注的问题。随着金融应用数量和类型的不断增加,以及对网络复杂度的要求也越来越高,高可用性成为金融云持续发展的重要保障。6.数据分析和AI能力支撑随着

AI

的发展,金融行业越来越多地使用数据分析和人工智能来优化业务决策和风险管理。因此,金融云通常会提供数据分析和

AI

训练推理的能力。此外,通用人工智能(AGI)所取得的成果使人们看到了一种可能性,即依托基础大模型的训练结果,4DPU

金融行业发展白皮书针对垂直领域特定场景和行业进行精细化模型训练,使

AI

在垂直领域实现落地应用,提高生产率。金融云平台在这个层面也在逐步加大投入,为

AI

训练提供网络和算力的基础设施支撑。总体而言,在金融云基础设施向云计算架构的发展过程中,需要着力打造具有快速响应、弹性伸缩、高可用、低成本和安全的云计算环境。在整体的演进过程中,也面临着诸多挑战需要一一克服,这些挑战主要体现在以下方面。(二)行业挑战1.资源利用率低为支撑应用平台(PaaS)和金融生态(SaaS)的服务功能,在基础设施(IaaS)层需要对计算、网络以及安全等基础资源进行优化和管理。目前在

PaaS

SaaS

层,金融云的应用有着向以微服务为主,采用容器、K8s

集群、Service

Mesh

等管理框架实现管理和部署的趋势。这种“容器+微服务”的方式将基础设施的计算资源释放给上层使用,容器技术拥有自身独特的优势,尤其是在金融云平台的生产环境中得到了广泛应用。然而容器技术的发展却对基础设施的资源管控提出了新的挑战,通过微服务,将复杂系统拆分为易于开发和维护的服务单元,从而实现敏捷性开发,例如

Kubernetes,

Istio

等框架和方案都是这种思想的应用和实践。但是,随着各种应用程序组件分布在不同的服务器和虚拟机之中,带来了东西向流量业务激增。这些激增的东西向流量主要是来自不同虚拟机之间、不同容器应用之间的通信流量。5DPU

金融行业发展白皮书这种微服务架构带来了分布式系统的复杂性,每个服务需要进行管理、调度和监控,这些管理组件的引入,无疑加重了额外的资源管理开销。随着容器和微服务部署规模的扩大,Kubernetes、Istio

组件消耗的主机

HOST

算力资源的比重将逐渐增大,最终将导致云计算平台无法提供有效的算力资源给容器和微服务应用,极大降低了金融云平台对计算资源的有效利用。2.部署模式的挑战在云计算技术金融用规范的要求中,明确金融云平台在实际的部署过程中,首先必须秉持安全优先、对用户负责的原则,根据信息系统所承载业务的重要性和数据的敏感性、发生安全事件的危害程度等,充分评估可能存在的风险隐患,谨慎选用与业务系统相适应的部署模式。所以,如何选择金融云平台系统的部署模式是极具挑战的任务。目前,金融领域云包括私有云,团体云和混合云等多种模式,为了承载不同的业务需求就需要灵活的部署模式,这是未来的发展方向,但当前面临的问题是如何有效管理这种灵活多变的部署模式。从私有云的这个单点上来看,私有云是企业传统数据中心的延伸和优化,可以针对各种功能提供网络、存储、计算资源。在金融云领域,私有云是金融企业单独使用并构建的,对数据、安全和服务质量有自身的要求,需要根据特定的应用场景进行适配,这就对私有云部署过程中具体软件和硬件的底层基础设施技术的支撑提出了要求。通常,金融机构和企业更加关注自身业务6DPU

金融行业发展白皮书的研发和应用,对底层基础设施技术的掌控和管理并不是强项。这就增加了金融企业在部署私有云过程中的成本和技术风险,因为在实现自身私有云应用需求的时候,很难根据来自不同软硬件供应商的软件、硬件组件增加符合自身业务需求的功能。另一个层面,从私有云、团体云和混合云相组合的这个面上来看,也更具挑战性。不同云部署模式下的管理和互联互通也是目前面临的挑战之一。总体而言,金融云平台在部署模式上的挑战是没有成熟和标准的云平台部署方案,需要金融企业投入大量的自有研发力量来进行定制化开发。3.资源弹性不足资源弹性不足主要体现在如下方面。一是金融云平台面对的业务类型复杂多变,为了应对不同的业务需求通常会存在多数据中心以及多集群部署情况,资源的调度和编排受到跨集群能力的限制。二是实际业务运行过程中存在峰值波动的情况,这就需要整个云平台具有自动伸缩能力,当前的资源管控在面对跨集群、跨资源(例如计算资源、存储资源、网络资源池化之后的管理和调度)管控时能力不足。三是裸金属服务器的弹性不足,目前裸金属服务器需要进行操作系统自动安装,创建和回收速度较慢,并且无法迁移。四是受到容灾和高可用技术实现的限制,为了保证可靠的业7DPU

金融行业发展白皮书务服务能力,不得不采用折中的双备份资源的方式,但是这样的实现模式限制了资源的灵活调配能力。4.安全防护的挑战云原生技术在金融云平台的使用促进了金融云的数字化进程,以容器和微服务为代表的云原生技术得到了大力发展,同时基于云原生技术的安全性也得到了更多的关注。在基于容器和微服务提供高可靠、高灵活、高性能的情况下,高安全也非常重要。这里的安全尤其指基于

Docker

K8s

的容器安全。从云原生平台的架构来看会面对来自不同层面的挑战。首先,在容器及

K8s

层面,镜像安全、容器运行时安全、容器网络安全、权限安全等问题需要进行管理和监控。其次,在平台层面,集群隔离、租户安全、用户隔离等问题也对云平台提出了要求,当前云平台对资源的分散管理更凸显了这个问题。基于如上因素,一个典型的挑战来自针对东西向流量的安全管控。如上所述,云原生技术的应用大大增加了数据中心服务器之间的数据交换(东西向流量),有数据表明东西向流量在数据中心总流量中的占比接近

80%,这就面临一个问题,一旦攻击者绕过南北向流量的边界防御,就可能在内网中肆意蔓延,如何有效控制内网中的东西向流量成为一个重要的安全问题。采取更严格的细粒度安全模型是解决这个挑战的路径之一,其中分布式防火墙技术可以将安全和工作负载在细粒度上联系起来。但是,是8DPU

金融行业发展白皮书采用纯软件方式、还是其他软硬一体的解决策略也需要具体分析和讨论。这些因素都对金融云平台在安全防护上提出了持续的挑战。5.高可用的挑战云原生技术在企业实际场景中的实施落地,特别是在金融场景的实施落地,仍然面临诸多挑战。如何实现金融云平台的高可用性是当前的挑战之一。金融云平台的高可用是一个系统级平台层面的要求,是分布式系统架构设计中必须考虑的因素之一。架构实现上可以通过冗余和自动故障迁移来实现,在故障迁移方面,首先就需要能够识别故障,能够在技术风险事件中有全链路的监控和管理能力。这就包括事件发生前、发展中、发生后的连续的业务监控和追溯能力。具体到风险事件发生前,就需要具备日常业务巡检、故障演练、业务监控,建立风险发现等手段;在风险事件发生时,需要具备应急管理快速拉起应急流程的能力,完成故障快速诊断,并通过应急预案、容灾切换实现故障的快速恢复;在风险事件结束后,需要具备风险管理回溯、复盘等机制,加固风险事件发现和诊断能力。这些能力和手段保证了高可用性的实现,但这些功能的具体实现依托于具体的基础设施(IaaS)所能提供的能力。在高可用层面一个有代表性的挑战来自裸金属的应用,在裸金属应用中需要额外的网关服务器来承担虚拟化网络的开销,在

PXE

装机,本地盘迁移等能力上性能不高且耗时长。基于这些基本的能力现状,裸金属服务器在出现硬件故障时,无法9DPU

金融行业发展白皮书像虚拟机一样在短时间内恢复或迁移,不能满足故障应急需要,无法提供高可用能力。另外还有其他的情形,例如容器平台的宿主节点使用了

IaaS

虚拟机且启用了

SDN

网络,当容器平台启用CNI

特性时,容器平台上的应用就可以和

IaaS

虚拟机的业务应用直接通信。如果和传统网络中的旧应用通信,则需要开启

IaaS的

NAT

特性或者为宿主节点配置

EIP

地址。可以看到,不同业务部署和实现方法对保证高可用性需要提供针对性的功能实现,一方面增加了适配开发的工作量和维护成本,另一方面无法解耦软件与软件之间、软件与硬件之间的耦合性。6.人工智能大模型训练难度大大模型通过海量数据的训练学习,具备了强大的语言理解和表达、思维链推理等能力,在文本图像理解、内容生成等人工智能任务中表现出显著优势和巨大潜力。相较于传统人工智能算法一事一议的建模方式,大模型具备更强的通用能力,可处理多种任务,可较好解决传统模型的碎片化问题。大模型作为一种新型人工智能技术,在金融领域的应用范围涵盖了风险管理、欺诈检测、语音识别和自然语言处理等方面。通过人工智能大模型可以提高金融行业的应用效率,降低成本,提高精确性和安全性,并且为客户和投资者提供更好的服务和体验。训练一个大模型当前主要面临以下几方面挑战。(1)内存墙。GPT3

模型拥有

1700

亿的参数,光内存消耗需要近

800GB。训练过程因为会有权重、激活、优化器状态,再10DPU

金融行业发展白皮书加上自动微分所产生临时变量,需要

3500GB

内存,一个大模型的训练就需要

100

多块具有

32GB

内存的

GPU。随着大模型的发展,参数会变得越来越大。而

GPU

GPU

之间的内存如何高效的进行交换,对大模型的训练效率有直接影响。(2)通信墙。大模型通过模型并行、流水线并行切分到大模型训练集群后,通讯便成了主要的性能瓶颈。对于大规模的深度学习模型,动辄需要几百甚至几千张

GPU

卡的算力,服务器节点多,跨服务器通信需求巨大,使得网络性能成为

GPU

集群系统的瓶颈。传统基于以太网络的

TCP

通信方式,不仅时延高,而且极大消耗了宝贵的计算资源和内存带宽资源,不能满足大规模的深度学习的网络通信需求。(3)存储墙。大模型训练过程中需要读取和存放海量数据到磁盘中,如何高效存放这些数据,以及集群中的

GPU

如何共享这些数据将直接影响到大模型训练的时间。二、DPU

发展与趋势(一)DPU

历史演进随着云计算、虚拟化技术的发展,网卡也随之发展,从功能和硬件结构上基本可划分为

4

个阶段。1.传统基础网卡(NIC)。负责数据报文的收发,具有较少的硬件卸载能力。硬件上以

ASIC

硬件逻辑实现网络物理链路层,以及

MAC

层的报文处理,后期

NIC

标卡也支持了,诸如

CRC

校验的功能。不具有编程能力。11DPU

金融行业发展白皮书2.智能网卡(SmartNIC)。具备一定的数据平面硬件卸载能力,例如

OVS/vRouter

硬件卸载。硬件结构上以

FPGA

或者是带有

FPGA

和处理器内核的集成处理器(这里处理器功能较弱)来实现数据面硬件卸载。3.FPGA+CPU

DPU

网卡(FPGA-Based

DPU)。兼具智能网卡功能的同时,可以支持数据面和控制面的卸载以及一定的控制平面与数据平面的可编程能力。硬件结构的发展上,基于

FPGA增加了通用

CPU

处理器,例如

Intel

CPU。4.DPU

SoC

网卡(Single-Chip

DPU)。单芯片的通用可编程

DPU

芯片,具备丰富的硬件卸载加速和可编程能力,支持不同云计算场景和资源统一管理特性。硬件上,采用单芯片的

SoC

形态,兼顾性能和功耗。FPGA-Based

DPU

在硬件设计上的挑战主要来自芯片面积和功耗。面积上,PCIe

接口的结构尺寸限定了板上的芯片面积;功耗上,板卡的散热设计与芯片和整板的功耗密切相关。这两个因素制约着

FPGA

方案的持续发展。DPU

SoC方案吸取了从

NIC

FPGA-Based

DPU

的发展过程的软硬件经验和成果,是目前以

DPU

为中心的数据中心架构的重要演进路径。DPU

作为软件定义芯片的典型代表,基于“软件定义、硬件加速”的理念,是集数据处理为核心功能于芯片的通用处理器。DPU

通用处理单元用来处理控制平面业务,专用处理单元保证了数据平面的处理性能,从而达到了性能与通用性的平衡。DPU

专用处理单元用来解决通用基础设施虚拟化的性能瓶颈,通用处理12DPU

金融行业发展白皮书单元则保证

DPU

的通用性,使得

DPU

能够广泛适用于云基础设施的各种场景中,实现虚拟化软件框架向

DPU

的平滑迁移。1.NIC的发展和应用传统基础网卡

NIC,又称网络适配器,是构成计算机网络系统中最基本和最重要的连接设备,其主要工作是将需要传输的数据转换为网络设备能够识别的格式(如图

2

所示)。图

2

NIC

在虚拟化中应用在网络技术发展的带动下,传统基础网卡的功能也更加丰富,已经初步具备了一些简单的硬件卸载能力(如

CRC

校验、TSO/UFO、LSO/LRO、VLAN

等),支持

SR-IOV

和流量管理

QoS,传统基础网卡的网络接口带宽也由原来的百兆、千兆发展到

10G、25G

乃至100G。在云计算虚拟化网络中,传统基础网卡向虚拟机提供网络接入的方式主要分为以下

3

种。13DPU

金融行业发展白皮书(1)网卡接收流量经操作系统内核协议栈转发至虚拟机。(2)由

DPDK

用户态驱动接管网卡,让数据包绕过操作系统内核协议栈直接拷贝到虚拟机内存。(3)使用

SR-IOV

技术,将物理网卡

PF

虚拟化成多个具有网卡功能的虚拟

VF,再将

VF

直通到虚拟机中。随着

VxLAN

等隧道协议以及

OpenFlow、OVS

等虚拟交换技术的应用,网络处理的复杂度在逐渐增大,需要消耗更多的

CPU

资源,因此智能网卡

SmartNIC

诞生了。2.SmartNIC的发展和应用智能网卡

SmartNIC

除了具备传统基础网卡的网络传输功能外,还提供丰富的硬件卸载加速能力,能够提升云计算网络的转发速率,释放主机

CPU

计算资源(如图

3

所示)。图

3

SmartNIC

在虚拟化中应用14DPU

金融行业发展白皮书智能网卡

SmartNIC

上没有通用处理器

CPU,需要主机

CPU进行控制面管理。智能网卡

SmartNIC

主要卸载加速对象是数据平面,如虚拟交换机

OVS/vRouter

等数据面

Fastpath

卸载、RDMA网络卸载、NVMe-oF

存储卸载以及

IPsec/TLS

数据面安全卸载等。但是随着云计算应用中网络速率的不断提高,主机仍会消耗大量宝贵的

CPU

资源对流量进行分类、跟踪和控制,如何实现主机

CPU

的“零消耗”成了云厂商下一步的研究方向。3.FPGA-Based

DPU网卡的发展和应用相比智能网卡

SmartNIC,FPGA-Based

DPU

网卡在硬件架构上增加了通用

CPU

处理单元,组合成

FPGA+CPU

的架构形态,从而便于实现对网络、存储、安全和管控等通用基础设施的加速和卸载(如图

4

所示)。图

4

DPU

在虚拟化中应用15DPU

金融行业发展白皮书在这个阶段中,DPU

的产品形态主要以

FPGA+CPU

为主。基于

FPGA+CPU

硬件架构的

DPU

具有良好的软硬件可编程性,在

DPU发展初期大部分

DPU

厂商都选择了这个方案。该方案开发时间相对较短且迭代快速,能够迅速完成定制化功能开发,便于

DPU

厂商快速推出产品,抢占市场。但是随着网络带宽从

25G

100G的迁移,基于

FPGA+CPU

硬件架构的

DPU

受到芯片制程和

FPGA

结构的限制,导致在追求更高吞吐能力时,难以做到对芯片面积和功耗的很好控制,从而制约了这种

DPU

架构的持续发展。4.DPU

SoC网卡的发展和应用DPU

SoC

是基于

ASIC

的硬件架构,结合了

ASIC

CPU

的优势,兼顾了专用加速器的优异性能和通用处理器的可编程灵活性的单芯片

DPU

技术方案,是驱动云计算技术发展的重要因素。如前一段所述,虽然

DPU

在云计算扮演着重要的作用,但传统的

DPU

方案多以

FPGA-based

方案呈现,随着服务器从

25G

向下一代

100G

服务器迁移,其成本、功耗、功能等诸多方面受到了严重的挑战。单芯片的

DPU

SoC

不仅在成本、功耗方面有着巨大优势,同时也兼具高吞吐和高灵活编程能力,不仅支持虚拟机、容器的应用管理部署,也支持裸金属应用(如图

5

所示)。16DPU

金融行业发展白皮书图

5

DPU

SoC

在虚拟化和裸金属中的应用随着

DPU

技术的不断发展,通用可编程的

DPU

SoC

正在成为云厂商在数据中心建设中的关键部件。DPU

SoC

可以实现对数据中心中的计算资源和网络资源的经济高效管理,具备丰富功能和可编程能力的

DPU

SoC

可以支持不同云计算场景和资源统一管理,优化数据中心计算资源利用率。(二)DPU

生态发展可以看到

DPU

技术是由需求驱动,然后快速发展起来的新技术形态。近几年来,经过国内外互联网公司在不同应用场景下的尝试和验证,取得了不错的成本收益。例如在国外

AWS

使用

NitroDPU

系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,降低了数据中心总体的运行成本;在国内阿里云发布了云基础设施处理器

CIPU,实现了网络、存储、虚拟化全硬件卸载。17DPU

金融行业发展白皮书随着

DPU

技术的不断完善和功能定位的逐步明晰,DPU

的生态建设也在积极推进,在行业内取得了很大的进展。在国外,首先

Nvidia

推动

DOCA

软件栈的发展,促进和降低终端用户对

DPU

的使用门槛。从

CUDA

软件生态之于

Nvidia

GPU的作用,可以看到

DPU

软件生态对

DPU

技术发展的重要性,因此DOCA

广泛受到了业界的持续关注。其次,除了

DOCA

之外,OPI(Open

Programmable

Infrastructure,开放可编程基础设施),在

2022

6

月由

Linux

基金会发布,旨在为基于

DPU/IPU

等可编程硬件承载的软件开发框架培育一个由社区驱动的开放生态,简化应用程序中的网络、存储和安全

API,从而在开发运维、安全运维以及网络运维之间的云和数据中心中实现更具可移植性和高性能的应用程序。在国内,也在积极推进

DPU

产业的软件生态建设。例如,2023年

6

ODPU

作为算网云开源操作系统(CNCOS)项目

1.0

的子项进行了发布,在

DPU

管理、计算卸载、存储卸载、网络卸载、安全卸载和

RDMA

支持等方面提供通用软件开发框架和兼容性接口。与此同时,如中国信息通信研究院、中国通信标准化协会等部门和组织,也在制定积极制定相应的标准,从多个维度,例如兼容性规范、硬件编程规范、应用生态接口规范等维度,来实现

DPU的软硬件解耦和互联互通的互操作能力。当前,国内外都在围绕着

DPU

这个新兴技术积极推进相关软硬件生态的开发和迭代。并且,立足于国内,无论从行业本身还18DPU

金融行业发展白皮书是来自政策的引导,都在积极推动着

DPU

的生态建设和标准化进程。不过需要强调的是,目前

DPU

的生态发展还处在早期。软硬件都还面临诸多挑战。例如在硬件层面,服务器中的电源管理、BMC

带外管控逻辑与

DPU

的需求并不完全匹配;在软件层面还没有形成统一的软件栈(包括

SDK

和运行时环境),也没有完善的定义清晰的

API

接口实现与云平台软件系统的兼容性对接;在操作系统层面,例如

Linux、windows、VMware

以及各类国产操作系统(OpenEuler

等),也面临适配的需求。长期来看,DPU

生态建设是一个不断迭代长期完善的过程。(三)DPU

典型案例在

DPU

的设计、开发和使用中,国内外芯片巨头和头部云服务商都投入了大量的研发资源,经过不断探索和实践,取得了很好的成本收益。1.DPU在AWS(亚马逊云)中的应用AWS

是全球领先的云计算服务和解决方案提供商,AWS

NitroDPU

系统已经成为

AWS

云服务的技术基石。AWS

借助

Nitro

DPU系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,极大地降低了成本。Nitro

DPU

在亚马逊云中的应用可以使一台服务器每年可以多获得几千美元的收益。19DPU

金融行业发展白皮书图

6

AWS

Nitro

DPU(来源

AWS

官网)Nitro

DPU

系统主要分为以下几个部分(如图

6

所示)。(1)Nitro

卡。一系列用于网络、存储和管控的专用硬件,以提高整体系统性能。(2)Nitro

安全芯片。将虚拟化和安全功能转移到专用的硬件和软件上,减少攻击面,实现安全的云平台。(3)Nitro

控制卡。一种轻量型

Hypervisor

管理程序,可以管理内存和

CPU

的分配,并提供与裸机无异的性能。Nitro

DPU

系统提供了密钥、网络、安全、服务器和监控等功能支持,释放了底层服务资源供客户的虚拟机使用,并且

NitroDPU

使

AWS

可以提供更多的裸金属实例类型,甚至将特定实例的网络性能提升到

100Gbps。2.Nvidia

DPU的应用Nvidia

是一家以设计和销售图形处理器

GPU

为主的半导体公司,GPU

产品在

AI

和高性能计算

HPC

领域被广泛应用。2020年

4

月,Nvidia

69

亿美元的价格收购了网络芯片和设备公司Mellanox,随后陆续推出

BlueField

系列

DPU。20DPU

金融行业发展白皮书图

7

Nvidia

BlueField-3

DPU

介绍(来源

Nvidia

官网)Nvidia

BlueField-3

DPU(如图

7

所示)延续了

BlueField-2DPU

的先进特性,是首款为

AI

和加速计算而设计的

DPU

。BlueField-3

DPU

提供了最高

400Gbps

网络连接,可以卸载、加速和隔离,支持软件定义网络、存储、安全和管控功能。3.Intel

IPU的应用Intel

IPU

是一种具有硬化加速器和以太网连接的高级网络设备,可使用紧密耦合的专用可编程内核来加速和管理基础设施功能。IPU

提供完整的基础设施卸载,并充当运行基础设施应用的主机控制点,以提供额外的安全层。使用

Intel

IPU,可以将全部基础设施业务从服务器卸载到

IPU

上,释放服务器

CPU

资源,也为云服务提供商提供了一个独立且安全的控制点。21DPU

金融行业发展白皮书图

8

Intel

IPU

产品

roadmap(来源

Intel

官网)2021

年,Intel

Intel

Architecture

Day

上发布了

OakSprings

Canyon

Mount

Evans

IPU

产品(如图

8

所示)。其中,Oak

Springs

Canyon

是基于

FPGA

IPU

产品,Mount

EvansIPU

是基于

ASIC

IPU

产品。Intel

Oak

Springs

Canyon

IPU

配备了

Intel

Agilex

FPGA和

Xeon-D

CPU。Intel

Mount

Evans

IPU

Intel

Google

共同设计的

SoC

(System-on-a-Chip),Mount

Evans

主要分为

IO子系统和计算子系统两个部分。网络部分用

ASIC

进行数据包处理,性能相比

FPGA

高很多,且功耗更低。计算子系统使用了

16个

ARM

Neoverse

N1

核心,拥有极强的计算能力。4.DPU在阿里云中的应用阿里云也在

DPU

的技术上不断进行着探索。2022

年阿里云峰会上,阿里云正式发布了云基础设施处理器

CIPU,CIPU

的前22DPU

金融行业发展白皮书身是基于神龙架构的

MoC

卡(Micro

Server

on

a

Card),从功能和定位符合

DPU

的定义。MoC

卡拥有独立的

IO、存储和处理单元,承担了网络、存储和设备虚拟化的工作。第一代和第二代MoC

卡解决了狭义上的计算虚拟化零开销问题,网络和存储部分的虚拟化仍由软件实现。第三代

MoC

卡实现了部分网络转发功能硬化,网络性能大幅提升。第四代

MoC

卡实现了网络、存储全硬件卸载,还支持了

RDMA

能力。阿里云

CIPU

作为一颗为飞天系统设计的数据中心处理器系统,对于阿里云构建新一代完整的软硬件云计算架构体系有着重大意义。5.DPU在火山引擎中的应用火山引擎同样在不断探索自研

DPU

的道路,其自研

DPU

采用软硬一体虚拟化技术,旨在为用户提供可弹性伸缩的高性能计算服务。在火山引擎弹性计算产品中,第二代弹性裸金属服务器和第三代云服务器都搭载了自研

DPU,在产品能力和应用场景上进行了广泛验证。2022

年正式对外商用的火山引擎第二代

EBM

实例首次搭载火山自研

DPU,在整体性能上既保留了传统物理机的稳定性和安全性优势,能够实现安全物理隔离,又兼具虚拟机的弹性和灵活性优势,是新一代多优势兼具的高性能云服务器。2023

年上半年发布的火山引擎第三代

ECS

实例同样结合了火山引擎自研最新

DPU

的架构和自研虚拟交换机、虚拟化技术,网络及存储

IO

性能均实现了大幅提升。23DPU

金融行业发展白皮书三、基于DPU构建绿色低碳金融云近年来,为落实双碳等国家重大战略,金融业积极实施绿色发展转型。数据中心作为金融业的关键基础设施以及数字经济的重要基础,是金融业发展和数字化转型中的重要抓手。而在数字化转型中,数据中心一方面需要支撑大量数据吞吐和运算能力,另一方面还要面对来自服务器等

IT

产品的散热与功耗挑战,需要大量运维成本和能源消耗,已经成为金融机构的主要开支。党的二十大报告最新提出,要加快发展方式绿色转型,完善支持绿色发展的金融政策和标准体系,发展绿色低碳产业。如何让金融业数据中心建设既满足大量数据吞吐和运算能力的要求,又满足绿色低碳的发展方针成为当前一大难题。当前金融云计算平台架构体系可分为基础硬件设施与设备、资源抽象与控制、云服务、运维运营管理等部分(如图

9

所示)。图

9

云计算平台架构体系DPU

具备高效数据处理、内置安全、网络可编程、弹性资源24DPU

金融行业发展白皮书调度等能力,作为资源调度的中心,可以将计算、存储、网络等硬件设备与云计算架构中的资源抽象层有机结合起来(如图

10所示),充分利用软件定义计算、软件定义网络、软件定义存储等技术提升资源利用率,使得金融云更加灵活弹性,从而助力金融业建设绿色、安全和高效的数据中心,积极践行国家战略。图

10

基于

DPU

的云平台架构体系(一)统一部署弹性调度随着云原生技术的快速发展和大规模应用,当前云原生在金融行业中的落地应用也越来越多,通过将云计算、大数据、区块链等技术和云原生理念有机结合在一起,以实现数据中心计算、存储、网络等资源的弹性调度和弹性伸缩,从而构建跨层级、跨区域的智能化云原生数据中心,最终提升金融行业的运营效率。云原生技术平台可以通过混合云对接多种基础设施,例如容器、虚拟机、裸金属服务器等计算资源。用户可以通过申请或释25DPU

金融行业发展白皮书放云化的计算资源来实现成本的最优化,同时通过云原生的混合调度能力实现各种资源的个性化配置,做到业务的多样化部署。在传统的数据中心中,要满足云原生架构下不同业务对计算资源的个性化需求,一般需要对整个数据中心的资源进行预先分配,划分出容器、虚拟机、裸金属服务器所占资源的比例,并以此比例注册相应的计算资源。同时,为了实现裸金属服务器和虚拟化平台或者容器云平台的互通,一般需要为裸金属服务器单独划定专用的物理交换机来实现裸金属服务器与虚拟化网络的互通(如图

11

所示)。在这种架构下,虚拟机、容器、裸金属服务器所使用的资源都是预先固定的,因此计算资源的类型属于不可调度状态,并不符合云原生的理念。在云原生时代,应用的发展非常迅速,而计算资源实例类型的使用是不可预测的,很可能出现虚拟化资源不够满足需求的情况,而为了满足虚拟化资源就只能通过增加虚拟化服务器来解决资源不足的问题。而此时,若裸金属或者容器所预先分配的资源处于空闲状态,但因为物理上的预先限制而无法转换为虚拟化所需要的资源,依然会占用数据中心的空间和运维等成本,导致计算资源没有完全充分利用,最终出现数据中心的整体利用率不高,而所消耗的运维和能源成本却很高的情况。26DPU

金融行业发展白皮书图

11

传统数据中心架构为使云原生技术在金融行业实现标计算资源标准化和更加灵活的弹性调度,并能更好地支撑对计算、网络和存储等资源进行弹性伸缩,同时又降本增效,让数据中心的计算资源发挥更大的价值,DPU

应运而生。在以

DPU

为中心构建云原生金融数据中心的架构下(如图12

所示),数据中心的建设从一开始就不需要从硬件层面预分配虚拟机、容器、裸金属服务器等计算资源,特别是裸金属服务器不再需要为其单独配置专用的交换机以及相应的裸金属镜像PXE

服务器。通过

DPU

特有的云盘启动能力支持,能够以分钟级提供裸金属计算实例,同时

DPU

能够为裸金属实例提供弹性磁盘和弹性网卡,大幅降低了运维和部署的成本和复杂度。此外,DPU内置虚拟交换机,用户可以根据自己的需要配置相应的虚拟网络,实现原先需要专用交换机才能实现的功能。27DPU

金融行业发展白皮书图

12

基于

DPU

的金融云架构通过

DPU

对数据中心的计算资源虚拟机、容器、裸金属服务器进行统一并池管理,可以大幅提升数据中心空间利用率,降低数据中心能耗,使得数据中心运维更加简单方便,实现从数据中心建设层面践行云原生的理念,打造符合金融行业绿色、高效、灵活、高度集成的云原生数据中心。(二)计算实例高可用金融云平台对外提供的计算实例主要包括虚拟机、容器

、裸金属。在以

DPU

为中心构建的数据中心,通过

DPU

的云盘启动能力,每台服务器可以进行分钟级别的灵活调整,切换角色。根据该特性,云平台对裸金属实例进行生命周期管理,当发现服务器故障或裸金属实例不可达时,首先通过云平台的高可用机制将业务引导到正常状态节点,同时利用

DPU

提供的云盘启动方式将故障的裸金属实例在另外的服务器迅速拉起恢复业务集群到正常28DPU

金融行业发展白皮书状态,实现裸金属实例的高可用。在虚拟机实例方面,DPU

提供硬件级热迁移能力,可以将使用

Passthrough

技术的虚拟机根据需要迁移到合适的节点,在迁移过程中业务不中断。依靠该特性,云平台在监控到宿主机异常或虚拟机异常后,对虚拟机进行热迁移以实现虚拟机实例对外业务的高可用。在容器实例方面,通过把

service

mesh

卸载到

DPU

将多个由

DPU

提供网络和存储的容器构建为一个服务网格,通过服务链的方式提供对外服务,当出现容器故障时,利用

service

mesh

的自动选路功能保证对外服务正常工作,同时利用云原生平台提供的容器副本监控机制可以快速的将故障容器进行重建,在这两种机制的配合下保证容器实例的高可用。(三)加速云原生网络随着云计算和容器化技术的发展,云原生架构已经成为现代应用程序的主流架构之一。云原生网络是一种专门为云原生应用程序设计的网络架构,是指在云环境下构建、管理和运行应用程序的网络。这种网络的特点是高度自动化和可编程,以适应云原生下快速变化的应用需求和规模。在云原生网络中,网络功能通常以虚拟化的方式存在,以提供更好的灵活性并做到兼容原有的物理网络设备。在云原生大浪潮下,金融业务相较于传统金融业务更加多元化和规模化,需要更灵活、敏捷的业务和技术架构来支撑。传统的集中式单体业务架构和多层架构已经无法满足业务变化和行29DPU

金融行业发展白皮书业发展的需求。云原生的应用程序通常采用分布式微服务架构,一个应用程序由多个微服务组成,这些微服务之间会频繁地通信和交换,这种架构的特点是能够提升应用程序的可伸缩性和灵活性,这就对网络提出了更高的要求,要做到稳定、高带宽和低时延。目前主流的网络方案还是基于内核协议栈或者虚拟交换机,当业务对带宽和时延的要求比较高时,当前架构就无法满足应用程序对网络的需求。特别是在统一资源管理的需求下,容器

、虚拟机、裸金属服务器需要在同一网络平面下,若虚拟机使用虚拟网卡的方式接入网络,网络的带宽和时延都不能得到保证。为了满足应用程序的网络需求,只能增加更多的工作负载,这在另一种程度上降低了数据中心的真实利用率,并带来了更多的运维和能耗成本。DPU

作为数据处理的核心,借由半虚拟化几乎能够达到物理设备性能的特性,DPU

为主机侧提供硬件实现的半虚拟化设备virtio-net,使容器、裸金属服务器和虚拟机都使用统一的网络设备类型进行通信。另外,DPU

内置硬件包处理引擎,可以做到完全卸载虚拟交换机的快速路径到硬件,实现高带宽、低时延的可编程虚拟网络(如图

13

所示)。30DPU

金融行业发展白皮书图

13

基于

DPU

的网络卸载加速(四)加速云原生存储云原生存储是一种针对云原生应用设计的存储架构,可更好地适应动态的云环境,提高应用的可用性和可伸缩性。云原生存储通常采用分布式存储技术,将数据分散存储在多个节点上,提高存储系统的可靠性和可用性,并支持动态扩展和收缩。常见的云原生存储技术包括如下几种。1.对象存储(Object

Storage)。对象存储是一种分布式存储方式,将数据分散存储在多个节点上,并使用元数据管理数据。对象存储通常具有高可靠性、高扩展性、高性能和低成本等优点,适用于存储非结构化数据。2.分布式块存储(Distributed

Block

Storage)。分布式块存储将数据分割成块,然后将块分散存储在多个节点上,可以提供高可靠性和高性能,适用于存储结构化数据和虚拟机磁盘。3.分布式文件系统(Distributed

File

System)。分布式文件系统将文件分散存储在多个节点上,并提供文件系统接口,31DPU

金融行业发展白皮书支持多个客户端访问,可以提供高可靠性和高性能,适用于存储大型文件和共享文件。其中虚拟机、裸金属服务器以及一些应用对块存储的性能和延迟、兼容性和互操作性有强烈的需求。目前为了应对这些挑战,普遍的做法是优化存储协议、缓存,采用支持多种存储协议和接口的分布式存储系统。但随着数据规模和数量越来越大,各种应用对存储的带宽、时延等性能指标的要求越来越高,存储系统也变得越来越庞大和复杂。DPU

作为数据处理的核心,一方面可以对裸金属服务器、虚拟机提供标准的半虚拟化设备

virtio-blk

nvme

设备,同时这些设备的存储后端通过

DPU

可连接各种存储后端(如

iSCSI、NVME、RBD

),从而节省大量的非计算损耗。另一方面,通过

DPU

提供的

RDMA

技术和内置的存储协议加速引擎,为计算实例提供高带宽、低时延的数据读写,提升数据中心存储资源的效率,降低数据中心存储资源的运维和能耗等成本(如图

14

所示)。图

14

基于

DPU

的存储卸载加速32DPU

金融行业发展白皮书(五)加速微服务应用伴随着云原生和微服务的技术在金融行业的普及,以及服务网格(Service

Mesh)技术的逐渐成熟,解决了金融行业分布式系统的历史包袱。服务网格架构引入

SideCar

使现有的服务可以在不改造的情况下引入了服务治理能力,大大降低了中间件的研发投入和演进成本,也降低了业务和中间件的耦合,基础架构与业务架构可以独立演进。服务网格架构也为多语言栈提供了服务治理能力。面向大规模金融级的微服务应用,引入新系统架构服务网格以实现分布式平台的架构转型和技术组件能力进化。服务网格通过

SideCar

接管业务进程的出入口流量,将微服务治理的逻辑从业务中独立出来,由服务网格框架提供服务鉴定、过载保护、负载均衡等分布式服务治理的功能。尽管

Sidecar

在服务网格中带来许多好处,但它也可能会带来一些缺点。其中一种常见的缺点是延迟,这主要是因为许多服务网格解决方案需要通过Sidecar

来处理网络流量、域名解析和负载均衡等复杂的工作。当本来应该直接在进程内部完成的工作被转移到了

Sidecar

中时,会额外增加一定的延迟。另外,在高负载情况下,Sidecar

还可能成为瓶颈,导致服务的性能下降。并且,随着微服务规模不断扩大,服务网格资源占用量较大的问题逐渐凸显,同时由于服务网格代理进程与业务进程部署在一起共享资源,也存在相互影响的情况。33DPU

金融行业发展白皮书利用

DPU

异构计算进行卸载和加速的技术正不断发展和演进,通过将

SideCar

卸载到

DPU

上,业务和服务网格的关系从“逻辑隔离”演进为“物理隔离”,服务器上只运行业务逻辑。在保持多语言的

RPC

SDK

向业务输出能力的同时,对于卸载到DPU

上的

SideCar

部分,通过软硬件结合等方式,将

SideCar重复性、高频的操作用硬件卸载和加速,从而解决了服务网格链路延迟和资源隔离的问题。(六)加速云原生安全云原生作为一种新的软件开发和部署理念,它强调应用程序的可移植性、可扩展性和弹性。云原生环境中有许多不同的组件和服务,包括容器、微服务、自动化部署工具等。这些新的组件和服务使得安全方面的需求也发生了变化。金融行业是对安全性要求最高的行业之一,因此金融行业的云原生架构需要具备高可用、高可靠、高安全等特点,需要采用一系列安全解决方案来保证整个云原生平台的安全性。在云原生网络中,mTLS

是确保云原生应用程序中微服务之间的通信安全的首选协议。DPU

作为云原生架构中数据处理的核心,对虚拟机、容器、裸金属网络进行卸载加速的同时,可以将mTLS

卸载到

DPU

上,加速微服务安全应用,可以将

IPS,防病毒,防火墙等安全软件部署在

DPU

上并使用

DPI

硬件引擎进行加速,将计算实例产生的流量导入到这些安全软件中,从而构建零信任的网络解决方案,对东西向流量进行节点级的防护。同时,DPU34DPU

金融行业发展白皮书支持国密硬件引擎,能够为数据的加解密提供更高安全的防护。(七)加速大模型训练随着

AI

模型的规模越来越大,分布式训练成为

AI

大模型训练的主要方式。所谓分布式训练,即跨越单台

GPU

服务器的算力限制,使用数据中心不同的物理服务器的

GPU

算力卡,通过高速低延迟网络及存储构建

GPU

计算集群,实现更大规模的、多机多卡的

GPU

并行计算。通过

GPU

分布式训练技术,可以在更短时间内将模型训练到满足工业级应用的精度。GPU

分布式训练优化涉及计算、网络、存储硬件层面,也包括数据并行、模型并行、GPU参数同步通信的算法和软件实现层面,GPU

集群任何一点出现性能短板,都可能会成为整体训练过程中的性能瓶颈关键点,其中,“内存墙”与“通信墙”是

GPU

分布式训练最主要的性能瓶颈点。为了解决“内存墙”与“通信墙”,通常会使用

RDMA

技术和

100G

带宽的网卡。传统的

RDMA

网卡通过

SR-IOV

技术可以拆分出多个

VF

以供虚拟机使用。在云原生架构下,为了资源利用率的最大化,大模型的训练需要做到快速部署训练,需要每个容器、虚拟机都有使用

RDMA

设备的能力,DPU

通常可以支持上千个

RDMA

设备可以充分满足通信需求。同时,通过基于

DPU

的内存和存储交换方案,可以加速

GPU

与存储设备之间,GPU

GPU之间的信息交换,降低通信时延,从而降低大模型训练的消耗时间。35DPU

金融行业发展白皮书(八)提升计算资源利用率虚拟化和容器化是云原生技术的核心技术之一,通过虚拟化技术和容器化技术提供的计算资源是云计算基础设施的核心组成部分,也是计算能力的基础。充分利用计算资源是云计算技术一直努力的方向。当前主要通过以下途径来提升计算资源的利用率。1.资源虚拟化。通过虚拟化技术,可以将物理计算资源划分为多个虚拟计算资源,从而使得计算资源可以更好地被多个租户共享,提高计算资源的利用率。2.弹性计算。通过资源动态调度技术,根据应用程序的需要动态调整计算资源的分配,从而实现计算资源的最大化利用,减少计算资源浪费,提高计算资源利用率。3.自动化管理。通过自动化管理技术,减少人工操作和管理通过自动化方式完成计算资源的管理和调度,提高计算资源的利用率。随着云原生业务的发展和应用,云原生业务也变得越来越庞大和复杂,各个应用对网络和存储等

IO

的需求也越来越高,单台服务的带宽需求开始从

10Gb

25Gb

甚至

100Gb、200Gb

开始转变。为了应对网络和存储对带宽的挑战,各种解决方案也应运而生(如图

15

所示),比如网络使用

XDP

技术加速内核协议栈,使用

DPDK

技术旁路内核协议栈,存储采用

RoCEv2

来加速存储提供更低的带宽和时延等。36DPU

金融行业发展白皮书图

15

旁路内核加速数据处理但这些软件方案随着云原生业务对带宽的要求越来越高,也逐渐面临很多问题。以一台

56

核的服务器,采用

DPDK

技术对网络进行加速为例:单服务器带宽需求为

10Gb

时,需要消耗大概4

个核作为网络转发、52

核作为业务,计算资源利用率为

92%;单服务器带宽需求为

25Gb

时,需要消耗大概

10

个核作为网络转发、46

核作为业务,计算资源利用率为

82%;当服务器带宽需求为

100Gb

时,可能需要消所有的

CPU

核作为网络转发,已经没有资源留给业务了(如图

16

所示)。37DPU

金融行业发展白皮书图

16

基于

CPU

转发的

CPU

利用率图

12

基于

HOST

转发的

CPU

利用率从以上案例中可以看到,随着

IO

的越大,传统的各种

IO

加速方案已经不再适用,如果不引入新的解决方案,那么只能靠更多、更强的服务器来满足业务的

IO

需求,这使得数据中心的真实计算资源利用率十分低下,并大幅提升数据中心的能耗和运维成本。DPU

作为数据处理的核心,内置可编程报文处理引擎,可以将网络、存储所消耗的

IO

资源全部卸载到

DPU

上,完全释放服务器的

CPU

资源,让云原生业务可以

100%利用服务器的计算资源(如图

17

所示)。38DPU

金融行业发展白皮书图

17

基于

DPU

转发的

CPU

利用率在以

DPU

为中心的数据中心架构下,所有

IO

DPU

来处理和加速,一方面因为

DPU

低功耗的特点,数据中心

IO

的能耗可以大幅降低。另一方面,计算资源可以

100%用于计算,这提升了单台服务器的计算密度,与同等规模的数据中心相比,该架构可以提供更多的计算资源,提升数据中心的计算资源利用率。以构建一个

1000

台服务器的

IaaS

集群,每台服务器

80core的硬件配置为例,每台服务器要预留出

20%左右的资源给虚拟机的网络、存储和虚拟机生命周期管理。当前服务器的网络带宽一般在

100

pps

左右,按照

2vcore,4G

内存的虚拟机规格可以分出

30

个左右网络带宽为

5MB(3

pps)带宽的虚拟机。宿主机

CPU

支持超分的能力,一般按

1

2

或者更多来超分虚拟机,但是由于网络

IO

瓶颈的存在,无法充分利用

CPU

的能力。DPU可以提供超过

1000

pps

的网络性能,可以将虚拟机的超分比39DPU

金融行业发展白皮书做到

1

4

甚至

1

8。基于以上,综合硬件和运维等成本因素,可以从两个方面计算

DPU

所带来的收益:在提供同等算力的情况下

DPU

可以节省20%的服务器数量,与之对应的成本下降

13%,功耗下降

28%,空间收益

30%。在

1000

台服务器数量不变的情况下,虚拟机的超分比可以进一步提升,可以新增

40%的虚拟机售卖资源(如图

18所示)。图

18

DPU

带来的算力收益金融行业普遍都使用

Kubernetes

作为容器编排平台,Kubernetes

通过节点组件(如

kubelet、containerd

runtime)来管理容器化应用程序。尽管这些组件对于

Kubernetes

的正常运行至关重要,但它们也会占用大量的计算资源和存储空间。在以

DPU

为中心的数据中心架构下,通过将节点组件(如

kubelet、containerd

runtime)卸载到

DPU

上,可以释放出较多计算资源和大量的存储空间,从而提升主机资源售卖率。40DPU

金融行业发展白皮书在云原生应用中,runV

容器是一种基于轻量级虚拟机技术的容器化解决方案。它利用虚拟化技术提升了容器的隔离性、稳定性和安全性等,同时也支持弹性计算和自动化管理技术,可以根据应用程序的需要动态调整计算资源的分配,从而实现计算资源的最大化利用,减少计算资源浪费。并且

runV

容器与传统虚拟机相比,具有单节点实例密度高的特点:传统虚拟机一般最小支持一核的虚拟机,而

runV

容器可以支持小数核(例如

0.5

核)的虚拟机,进而使得单节点有着更高的实例密度;通过将

runV容器卸载到

DPU

上,可以实现更高效的网络通信和存储访问,减少网络和存储对主机

CPU

的占用,从而提高容器实例密度以及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论