通信行业AI超算互联网市场分析_第1页
通信行业AI超算互联网市场分析_第2页
通信行业AI超算互联网市场分析_第3页
通信行业AI超算互联网市场分析_第4页
通信行业AI超算互联网市场分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

通信行业AI超算互联网市场分析1.AI超算互联网——算力的后周期市场当下,随着大模型训练的兴起,全球显卡与算力正在进入一段时间的快速膨胀期,国内外均欲打造AI超算互联网。与此同时,算力后周期市场也正在快速兴起。“后周期”中的后,与传统市场中的行业末期,行业后期不同,“后”指的更多的是后服务市场,我们认为的后服务,包括了显卡服务器到货IDC后,从形成稳定算力到输出稳定的商业推理结果的全过程。其中主要的环节包括了云化、调优、调度、部署、落地、数据管理等等软硬结合的数个环节,参与其中的既包括全球一线大厂,也包括许多海外优秀的创业公司。算力的后周期的市场需求迸发,我们认为核心原因在于大模型训练的难、大模型商用的贵以及大模型安全的忧。大模型训练的难在于,超大规模的参数和运算量远超单张或者单服务器显卡的容量,各个显卡之间如何实现数据并行与运算合作,是整个业界面临的首要问题,为此,诞生出了云化、调优、调度等后周期需求。大模型商用的贵体现在参数、效果、费用三者的矛盾之上,参数越多的模型,其对于实际问题的准确度越高,但其反应时间和消耗费用也越高,同时,如何将新迭代的模型快速部署至应用场景,也是开发者需要面临的问题。大模型安全的忧则更多的体现在数据层面,如何实现安全情况下,企业原有数据库与训练系统的相互调用,如何实现原有数据对于“AI”训练的可用等等。纵观全球算力后周期的发展态势,我们认为正在形成两个迥然不同的生态,首先,在涉及算力使用和大模型训练的等上层建筑时,整个行业对于资本支出、模型经验积累等等方面的壁垒正在逐渐加深,正如黄仁勋在发布会上经常提到的“buymoresavemore”,大模型时代,天量资本支出已经成为这一领域的入场券,模型研究从“巧夺天工”到“重剑无锋”的转变,使得大算力,大模型的壁垒不断提高,行业格局加速走向巨头通吃。但在涉及到商业落地,数据安全,平台可视化等等模型偏下游环节时,我们反而从北美的创业公司上看到了百花齐放的生态,在训练过程与资源可视化,数据库调用,模型加速部署与性价比调节等方面,都涌现出了一批优秀的创业公司与解决方案,同时原有领域内的龙头软件公司也在积极开发方案,对接AI需求。与大模型和算力战争中的巨头垄断局面相比,这里的各个环节更加富有生机,也更容易在细分环节中成长出新的优秀独角兽公司。最后,复盘海外前沿,展望国内发展,我们认为随着国内算力资源起量与模型训练深入,对于算力和模型层面的投资将会再度聚焦,聚焦大厂,聚焦通信能力。同时国内相关软件市场仍处于萌芽阶段,对标海外优秀创业产品,提早满足客户需求,将给国内软件和创业公司带来新一轮机会。同时,国内由于海外算力制裁等影响,国内如昇腾等国产优秀生态发展和起量过程中,可能也会涌现出一批优秀的行业加速库、生态软件公司,基于此再扩展出中国特色的相关模型服务体系,有望走出一条有中国特色的模型服务体系之路。2.云化/调优/调度——巨头战场,技术为骨,通信为魂2.1算力云化:算力租赁势起,被AI重定义的云计算2.1.1AGI时代到来,GPU算力需求爆发,云计算面临新挑战云计算是科技行业过去十年发展最为迅速的领域之一,伴随的是全球数字化程度的持续提升。互联网的高速发展,众多中小型及初创公司数字化需求爆发,通过自购ICT基础设施的形式支出巨且运维难度高,不适合具有灵活需求高速发展的长尾客户。而通过云计算,使用者可以随时获取云上资源,按需使用按需付费,可无限扩展。云计算将计算资源池化,通过软件实现自动化管理,让资源高效输出,并发展出IAAS、PAAS、SAAS以及其他众多形式,极大的促进了互联网发展和全球数字化进程。生成式AI兴起,算力需求从CPU向GPU跃迁。随着openai旗下chatgpt的涌现,在全球范围内引爆了生成式AI的发展浪潮,作为下一代最重要的技术方向,企业人工智能发展需求正在爆发,拥有能够支持开发人员创建新一波人工智能应用程序需求的基础设施至关重要。许多企业正在转向云计算,但与主流企业工作负载不同,人工智能提出了传统云基础设施无法充分支持的新需求。从CPU到GPU再到GPU集群,企业发现自己正在采用越来越复杂的基础设施来满足其人工智能模型训练的需求。大模型持续发展,高速互联高性能GPU集群是门槛。以openai为例,其gpt3具有1750亿个参数,是上一代版本的117倍,模型的持续发展迭代需要前所未有的规模,而对于大模型训练而言,多GPU互联基础设施是门槛,不仅仅是gpu,更重要的是gpu之间的高速互联,是gpu与交换机、光模块等基础设施共同互联后的集群,其资本开支和技术难度相较于以cpu和存储服务器为主的传统基础设施,有明显的提升,这也进一步抬高了大模型的门槛。大模型训练需要数千片甚至上万片GPU集群连续训练数月时间,海量计算的同时还有海量数据交换需求,与传统cpu和存储集群比较,内部通信互联要求提高十分明显。在传统云计算时代,只有超大型数据中心核心节点才会用到高速光模块和高端交换机,如400G和对应光模块,而在超算集群中,以H100集群为例,其中第一层便使用400G光模块,向上则使用800G光模块和对应交换机,网络互联要求提升十分明显。AI云计算对应能力要求全面提升。云服务能力对于致力于布局AGI的企业而言,传统的云基础设施即服务产品并没有针对企业规模的人工智能进行优化,随着基础设施的日益复杂,宕机的风险也越来越大,需要花费越来越多的精力和资源在维持运行上,开发企业人工智能不仅需要基础设施服务,更需要的是全栈能力,人工智能企业需要将所有这些功能集成到他们的平台中,从而避免与基础设施的作斗争:1、用于开发和部署特定于领域的端到端人工智能工作流的框架和工具——从数据准备和训练到推理和部署。2、一个以开发人员为中心的平台,用于管理从最简单的计算机视觉应用程序到最复杂的大型语言模型的一切。3、智能编排层和调度程序,为每个作业提供适当大小的资源,动态高效地回收和重新分配资源。4、自动化的基础设施管理,最大限度地提高了平台的性能和正常运行时间,使每项工作都可以无忧地执行。5、超高带宽、低延迟的网络集群,专门用于多节点训练,可以在许多加速计算节点上并行处理大型人工智能模型。2.1.2DGXCloud发布,云算力进入GPU新时代2023年3月21日,英伟达正式发布了DGXCloud,这款多节点AI训练即服务解决方案,针对企业AI的独特需求进行了优化。英伟达表示,DGXCloud将改变传统的计算框架,为现代深度学习提供理想的环境。英伟达一直处于AI技术的前沿,其DGXCloud将人工智能和云计算结合,旨在为企业提供最先进的AI训练服务。该平台基于NVIDIADGXSuperPOD架构,可进行分布式训练,其速度是不支持NVIDIA网络的服务的两倍以上。DGXCloud由BaseCommand平台提供支持,BaseCommand是一个全面的AI工作流管理SaaS,涵盖云和内部资源,这个平台可以帮助AI开发人员更有效地构建、部署和管理AI应用。通过将BaseCommand与DGXCloud相结合,企业可以更灵活地满足其独特的AI需求。对于希望构建自定义生成式AI模型的企业来说,DGXCloud提供了完整的AI开发环境,包括训练、优化和部署等环节,降低了AI开发的门槛,同时也极大地提高了开发效率。英伟达DGXCloud为现代AI开发树立了新的标杆。DGXCloud是世界上第一个专门用于开发生成式人工智能的人工智能平,英伟达推出DGXCloud专门针对了传统laaS产品在AI时代面临的困境,根据英伟达官网表述,DGXCloud的使用效率是传统基础设施的三倍,其集成了NVIDIA基础命令平台,简化了人工智能开发。BaseCommandPlatform有效地配置和管理人工智能工作负载,提供集成的数据集管理,并在从单个GPU到大规模多节点集群的适当大小的资源上执行它们。DGXCloud还包括NVIDIAAIEnterprise,它提供加速的数据科学库、优化的框架和预训练的模型,使开发人员能够更快地获得生产就绪的模型。DGXCloud全面领先传统IaaS。DGXCloud基于领先的NVIDIADGX技术,这是一个加速每个行业创新的解决方案。借助DGXCloud,企业可以专注于人工智能创新,而不用纠结于基础设施,企业可获得到可靠、快速的资源分配、完全优化的执行工作负载以及更少的时间精力,从而降低总体拥有成本。根据英伟达官网给出的比较,DGXCloud相比较传统IssS服务,有着2-3倍的训练速度,通过算力调优有三倍的GPU利用率。以GPT-3为例,其具有400亿个参数和3000亿个token,训练GPT-3大约需要160块NVIDIAA100gpu训练约一个月。从比较上来看,选择DGXCloud的企业训练速度将是传统IaaS的2-3倍,仅需约一个月的时间仅可完成模型训练,若升级采用DGXCloudH100则仅需20天,而传统IaaS则需要超过3个月时间。DGXCloud能够帮助企业快速迭代模型,降低成本的同时抢占先机。英伟达DGXCloud发布后,标志着英伟达正式入局AI云计算,考虑到英伟达GPU在AI领域的一家独大,云计算行业正在进入新的时代。与此同时,甲骨文通过与英伟达深度绑定,正在越来越多的拿下AI领域的客户,而亚马逊aws、微软azure、谷歌云为代表的头部公有云也正在加速布局AI领域,英伟达凭借自身优势在AI云计算领域领先众对手,云计算格局正在发生变化。而国内,算力租赁也在高速发展,拥有算力资源的公司和具备算力运营能力的企业正在逐渐体现出相应优势,伴随国内AI产业的高速发展,算力租赁行业也进入高速发展阶段。2.1.3GPUVS比特币矿机——爆发的需求、紧缺的供给和极短的回款周期算力行业正处于茁壮成长期,众多企业“各显神通”参与其中。我们认为,算力租赁生态链还远未到格局固化的阶段,可以积极关注新进入者。利通电子:算力租赁新“玩家”。公司此前披露已订购255台GPU服务器,近期公司表示,DGX服务器已批量到货,预计10月全部完成交付。中科金财:算力租赁+AI应用双布局。公司9月公告拟2亿元投资设立全资子公司,主营算力租赁、AI应用生态服务等AGI业务。东方材料:算力调度平台汇聚全国分布式算力群。子公司东方超算的“银河”算力调度平台联合13家IDC打造全国一体化算力集群,现已提供基于英伟达A100、A800、H800、华为910B等GPU算力服务,面向全国政企用户提供现货算力资源服务。2.1.4现状:GPU禁令,国产算力进程加速,合理分配利用资源重要性突显高端人工智能芯片被禁售。根据英伟达2023年10月23日提交给SEC的8-K文件,美国政府通知英伟达,题为“实施附加出口管制:某些先进计算项目;超级计算机和半导体最终用途;更新和更正”,适用于“总处理性能”为4800或更高并为数据中心设计或销售的产品,立即生效。本次影响的公司产品有:A100、A800、H100、H800和L40S。这些产品在10月17日被要求将于30天后限制出售。美国实体清单更新,无理加强对我国先进芯片限制。BIS将13家实体添加单实体清单中,其中包括壁仞高科技和摩尔线程两家涉及先进计算芯片开发的中国实体及其子公司,这些实体还将受到使用美国技术生产的海外产品的限制。代工厂为这些列出的各方生产芯片将需要BIS许可证,然后代工厂才能将此类芯片发送给这些实体或代表这些实体行事的各方。被新列入实体清单的13家实体包括壁仞科技及其子公司、摩尔线程及其子公司、光线云(杭州)科技有限公司、超燃半导体(南京)有限公司,实体清单新规的生效日期为2023年10月17日。算力国产进程提速。国内人工产业发展如火如荼,但随着高端算力芯片禁令的立即生效,包括英伟达、AMD、intel在内的众多AI芯片均将无法购买,算力作为最核心的基本战备物资,其国产进程必然将加速。目前来看华为、寒武纪、海光、壁仞、摩尔线程等均国产算力芯片商业化和生态建设有望加速,此前科大讯飞曾表示已与华为昇腾启动专项攻关,合力打造通用人工智能新底座,当前华为昇腾910B能力已经基本做到可对标英伟达A100。目前云计算形式获取被限AI算力仍被允许。尽管市场担心美国有可能禁止我国通过企业访问AWS、Azure、谷歌云等在内的公有云获取AI算力资源,但截止到本报告发出日期为止,尚未有正式文件发布,AWS、Azure等云计算仍对中国地区开放如nvdaA100gpu等产品的云服务购买权限,用户可通过其部署在全球各地的云计算资源来选择需要的云服务满足自身需求。现货AI服务器持续涨价,合理分配利用资源重要性突显。禁令落地生效后,AI服务器短期确定性涨价,渠道及第三方、个人等屯货的AI服务器产品数量不容小觑。在被禁大背景下,如何利用好这些零散分布在各种渠道的现货AI服务器成为一个现实问题,若能统筹规划,则将大大缓解产业算力困境。此外消费级显卡如rtx4090也有着不错性能,若能将长尾消费级显卡利用在如推理测等要求较低的场景,也能缓解部分算力需求。2.1.5跨区域、跨集群、跨架构的算力调度调优能力日益重要在大规模训练上,和传统云计算比较,需要考虑的问题更加复杂。首先,面对单卡无法装载的大模型,如何利用多卡来突破内存限制的瓶颈是个问题。其次,大规模训练会用到大量的计算资源,大量计算资源间如何通信、协作是另一个难题。最后,如何平衡各类层出不穷的大规模训练技术,使得众多技术形成一个完整高效的训练方案,更是系统性工程。我们将大规模训练技术面临的挑战分为四个部分:内存、通讯、计算和调优。内存墙(GPUMemoryWall):在计算过程中,神经网络模型每一层的卷积或者全连接计算,都会把权重W_m长期保存下来,用作网络的权重参数更新(静态内存)。另外针对诸如ADAM的优化器,会存储优化器的动量等信息,用于优化器计算(动态内存)。一块有16G显存的AI芯片,最大能塞满20+亿参数的模型,但是这时候已经没有额外空间,留给动态内存进行分配了。静态内存和动态内存都可能造成内存墙的问题。通讯墙:大模型通过模型并行、流水线并行切分到AI集群后,通讯便成了主要的性能瓶颈。随着机器规模的扩大,基于同步的AllReduce通讯聚合方式,会因为大量的AI芯片和服务器之间频繁进行同步,出现水桶效应,也就是最慢的一路通讯,将会决定整个AI集群的通讯的高度。如果采用目前比较流行的Ring-AllReduce的通信聚合方式,当通讯的环越大,通讯的延长将会不断地被扩大。另外网络协议的多次握手的方式,诸如此类的开销会导致训练无法有效利用带宽。性能墙:性能墙呢主要是指计算资源利用率的问题。随着大模型的提出,对算力需求更加迫切,理论上在4K的集群上每块卡快1分钟,总体就快了68个小时。大模型会增加对算力的需求,但是随着大模型引入各项分布式并行技术的同时,会降低计算资源的利用率。调优墙:所以在数千节点的集群上,需要考虑到提升算法工程师分布式调试调优的效率,另外还要考虑降低工程师对大模型进行并行切分的难度。除了对人的考虑,还要对硬件集群的管理,需要保证计算的正确性、性能、可用性。要是有一台机器坏了,如何快速恢复训练中的参数。总结来看,现阶段大模型训练上,最核心的两个要素分别是数据和算力,过去AI的发展方向聚焦在用少量的数据和参数做出模型,而随着openAI现象级产品爆发后,人们发现用海量的数据和算力训练出来的模型能力有了质的飞跃,当前大模型还处在早期阶段,现阶段模型参数和算力需求依旧有这极大的提升空间,因此我们判断,在很长一段时间,不断地提高参数量和提升算力集群规模,是大模型发展的主要思路,通过“大力出奇迹”的形式反而更容易训练出高质量大模型。我们以百度为例,为了支撑超大规模的这张AIPod网络,百度选择了3层无收敛的CLOS组网结构。服务器在最下面,连接到Leaf层交换机,也就是图里的LF,然后Leaf交换再通过Spine交换机连接起来,就是图里的SP。最后Spine交换机再通过SuperSpine,也就是SSP互联起来。根据百度的数据,平均单GPU的Allreduce带宽有5GB/s的时候,大规模分布式的整体加速比只有70%。想要获得90%的加速比,单GPU的AllReduce带宽则需要做到20GB/s,相当于单GPU跑满400G网卡。百度AIPod网络采用了8通道的架构。每个服务器上的8个网口,对应8个GPU,分别连接8个不同的Leaf交换机。这8个Leaf交换机一组,构成了一个汇聚组Group。这样的一个汇聚组下最大可以有512张GPU。进一步,8个Leaf交换机再往上连入不同的8个通道,每个通道内Spine交换机和Leaf交换机之间做fullmesh全互联。这样的一个集群最大可以支持超过16KGPU。虽然主要的通信发生在同一个通道内,但总还是会存在跨通道的通信。百度通过SuperSpine把不同的通道的Spine交换机连接起来,打通各个通道。这就是AIPod的组网方式。AIPod的网络采用了无收敛,或者说收敛比为1:1的方案,交换机的上联带宽等于下联带宽,确保集群内互通带宽充足。为了尽可能支撑更大的规模,百度在选择交换机的时候,会选用当前顶级容量的交换芯片,比如曾经的12.8T或者25.6T芯片,现在已经演进到了单芯片51.2T的交换机。AI算力全球龙头英伟达的通信之路。英伟达作为全球GPU领军企业,早在十年前就开始布局AI领域,对AI发展有着深刻思考和理解。我们回顾英伟达超算方案,从DGXA100到DGXH100,再到最新的DGXGH200,我们可以清楚的看到,除了GPU芯片计算能力的提升以外,通信能力的大幅度持续增长,是另一个最明显的变化。在AI领域,通信的作用不亚于计算,通信能力的不足或确实将直接限制GPU芯片计算能力的发挥,英伟达早在2019年收购网络交换公司Mellanox,加码布局数据中心网络交换领域,充分体现英伟达的超前眼光和对于通信的重视。我们以GH200为例,NVlink双向宽带900GB/s,单向宽带450GB/s,8张卡即3.6Tbps,总带宽28.8Tbps,分摊到三个NVlinkSwitch,单个NVlinkSwitch的上下行带宽为9.6Tbps,对应800G光模块为9.6T/800g*2=24只,一台服务器共有72只800G光模块,GPU与800G光模块比例为1:9。而此前DGXH100架构GPU与800G光模块比例约为1:3,DGXA100则主要以400G光模块为主。从英伟达产品的迭代来看,我们也清晰的看到算力龙头在通信上的持续发力,通信匹配计算能力的提升将会一直演绎。打破通信墙,是目前高效发挥算力集群能力的无二之选。集群中显卡数量的增长,对应算力若不能匹配线性提升,则无法发挥出高价买入的GPU能力。当前,最佳的发挥集群中GPU能力的方式,便是打破通信强,通过更高速率的互联,允许万卡规模集群中跨GPU之间的数据交换,保证数据交换不出现阻塞,可以说,通信能力的提高,是当前最高效的“调优”方式,再出色的调度和调优,也比不上广泛使用高性能交换机和高端高速率光模块修建的集群内部“高速公路”。次外,目前跨架构、跨集群的算力调度也是现实问题,英伟达不同代际产品之间并不能混合组网,而不同数据中心之间的算力调度难度也不小。东数西算等跨区域算力调度需求也正在增长。具体到模型训练层面,调优也是一个重要方面。2.1.6从比特币算力演变看AI算力发展1)根源:都有增长的内驱力在过去的十年中,抖音、小红书等平台大幅降低了内容创作、分享的壁垒,UGC模式的内容丰富程度和规模远超过往。而当前无论是带货直播还是内容创作,门槛均比之前有所提高,UGC也“卷”了起来。而当AIGC来临时,内容竞争又将升维,例如数字虚拟人将实现包括外形、声纹、对话内容的模拟,我们看到的很多内容将是AI生成,作为个体需要保证自身的内容生产、进化速度快于行业均值,背后的算力投入将首当其冲,否则将直接影响账号盈利能力。我们认为,市场忽略了算力的竞争性,考虑商业因素,算力生意存在分子与分母端。对比特币挖矿而言,其分子是个体的算力,分母是全网算力,个体矿工能挖得的比特币数量取决于其自身算力占全网算力的比例。而对AIGC而言,其能获得的用户注意力的分子是个体算力驱动下的内容生产能力,分母是全网的内容膨胀速度。从UGC到AIGC的升维中,谁的内容生产力提升更快,谁就能获得更多商业利益,因此产业自驱之下,市场将追求更高的算力、更优的模型算法、更高功耗比的网络架构以及更便宜的电力。2)需求端:都增长迅猛根据BitInfoCharts,2023年10月31日比特币全网日平均算力达476.73EH/s,相比2009年全网算力5MH/s上下波动,14年时间,比特币算力增长超过89万亿倍。AI这端,在ChatGPT引发AI浪潮后,国内大模型也开始于3、4月份密集发布,自研AI大模型进入“百花齐放”阶段,而大模型的涌现开启了算力“军备赛”。根据OpenAI测算,自2012年至2018年,用于训练AI所需要的算力大约每隔3-4个月翻倍,总共增长了30万倍(而摩尔定律在相同时间只有7倍的增长),每年头部训练模型所需算力增长幅度高达10倍,整体呈现指数级上涨。举例来说,AI大模型所需算力与模型参数及模型训练使用的数据量正相关。2017年以来,AIGC模型的参数量逐年增加,2021年以来,这一趋势呈现出明显加快的状态,从ELMo的9400万个参数一路飙升,至2020年年中,GPT-3引领行业走入千亿参数时代,参数达1750亿个,截至2021年年中,英伟达大语言模型MT-NLG更是超过了5300亿。3)业态:都在从个体户走向集中化与云化从2009年1月中本聪使用多核CPU挖出比特币创世区块,到液冷矿机面市,比特币矿机的发展经历了一个短暂而迅速的发展历程。对比特币挖矿而言,个体矿工能挖得的比特币数量取决于其自身算力所占全网算力的比例。随着全网算力持续增长,比特币产出竞争逐渐成为芯片性能竞争,算力竞争推动矿机技术和挖矿模式产生变革。芯片更专业:比特币挖矿最初用CPU,后来用计算能力更强的GPU,后来用FPGA,目前用更专业的ASIC矿机。集中化与云化:挖矿模式方面,最初的矿工个人挖矿逐渐被矿场、矿池、云挖矿的方式取代。矿场:将大量矿机在物理上集中起来,共同运维管理。矿场负责寻找优质电力资源、通过风冷、液冷等方式为矿机散热、检测有无矿机宕机。矿池:突破了地理位置的限制,将分散在全球的矿工及矿场算力联结,云端合作“挖矿”。云挖矿:云挖矿服务提供商在云端向散户出租算力。与比特币挖矿相比,AI云算力发展也经历了类似过程。芯片更专业、计算能力更强:2012年,多伦多大学的研究人员AlexKrizhevsky在ImageNet计算机视觉挑战赛中,首次使用GPU驱动的深度学习网络击败其他竞争对手。由此,在深度学习算法中使用GPU驱动逐渐变为主流,各大厂商开始使用GPU训练神经网络模型。我们统计了部分英伟达有代表性的显卡,发现2017年以来,2022年3月面世的H100较2017年3月推出的GTX1080ti,在单精度(FP32)上,是后者的12倍(134/11.34),在AIGC常用的双精度(FP64)算力上,是后者的192倍(68/0.35)。集中化:我们注意到,多个上市公司涉足AIDC行业,类似于比特币矿场,它们集中管理GPU,负责寻找优质电力、检测GPU宕机情况并维修、调度算力与散热等等。云化:面临暴增的AI算力需求,大模型训练模型使用的算力资源GPU陷入了供应短缺,“云算力”模式兴起。它能让AI大模型厂商无需购买英伟达A100显卡等硬件,而直接按需租用云算力平台算力,这使得初创企业或非头部模型厂商也能尝试进入AIGC领域。2.2算力调优:大模型时代,通信即调优2.2.1算力调优是算力发展的终身课题算力调优概念范畴庞大,囊括软硬件技术,涵盖宏微观场景。“算力调优”概念伴随AI引发的算力需求热潮随之诞生,本质上算力调优是将算力作为一种资源,资源都是有限的,将有限的算力资源进行重新配置并达到帕累托最优的过程即可称之为“算力调优”。算力调优可以区分为宏观和微观两大场景:微观层面:微观层面的算力调优聚焦于模型调优。一方面,大模型训练最直接接触到算力资源,伴随深度学习模型越来越大,训练模型需要的GPU越来越多,通过算力调优,可以减少模型训练时占据的显存,是降本增效的关键步骤;另一方面在大模型的推理领域,将模型放入嵌入式系统的需求相当普遍,通过算力调优减少模型推理时的内存也至关重要。宏观层面:宏观层面算力调优包含模型调优、网络调优、算力调度三大层级,除了直接影响算力使用效率的模型调优,网络调优的重要性也日益提高,在大模型对大规模分布式并行训练有更强诉求的背景下,适应AI大模型的高性能网络至少具备超大规模、超高带宽和超长稳定三大性能;算力调度本质上是将算力作为资源,进行资源分配和优化的过程,核心解决了算力资源供需不匹配的问题。算力发展产生三大边际变化,推动算力调优成为核心议题。算力调优概念的诞生与兴起,主要伴随了算力及网络的三大变化,算力需求总量、扩散趋势和需求特征均在5G、AI等产业加速发展的背景下发生边际变化:算力需求总量增加:一方面通用算力需求不断增加,5G推进逐步落地,各类应用逐渐兴起,对算力需求逐步提升,此外大数据、智能汽车、智慧城市、物联网等各类新业态新平台的兴起也加大通用算力的需求量;另一方面智能算力需求提升迅速,伴随AIGC产业的加速发展,国内大模型训练及推理快速推进,智算成为大模型落地必不可缺的生产力之一,需求空间庞大,根据IDC及浪潮预测,到2026年国内通用算力规模将达到111.3EFLOPS,智能算力规模将达到1271.4EFLOPS。算力需求扩散:算力需求期初主要集中在单一设备上如计算机、工业智能设备等,伴随5G和AI时代的到来,海量数据扩散到各类设备上,汽车、公路、城市智慧屏等各类终端都需要数据处理能力,算力需求从数据中心向网络边缘和终端设备扩散。算力需求多样化:随着数字经济的崛起,算力需求逐渐走向多元化,如自动驾驶对算力需求集中在高性能、低延迟、实时性;而生成式AI由于需要大量GPU并行计算,对算力需求集中在稳定长时间输出能力上;边缘计算的需求点主要在于短距离和低时延。未来伴随AI、5G、数字经济的持续发展,算力资源持续紧缺,算力调优将成为算力使用者的终身课题。无论是传统算力、智算算力、或边缘算力,都对算力具备相当持久的需求,未来技术的迭代创新、各类AI应用的渐次爆发、算力辐射范围从B端到C端的扩大,都会进一步加大算力资源的紧缺,无论是从效用角度、成本角度出发,算力调优都将成为算力使用方必须重视和投资的关键环节。2.2.2网络调优:算力调优的核心手段1)源起:从GPU的通信出发AI时代GPU成为核心处理器,分布式训练诉求提升。GPU采用并行计算方式,擅长处理大量、简单的运算,因此多适用于图像图形处理和AI推理。但是大模型复杂度日益提升,单卡GPU显存有限,无法满足训练需求,比如百度文心一言大模型有2600亿个参数,但是实际上一个80G显存的A800,算上训练中间的计算状态,只能存放10-20亿参数,存放2600亿的模型就需要100-200块GPU;此外,后续大模型训练需要更多参数和更多计算,由此产生的GPU需求更为庞大。为适应算力需求,需要联合多张GPU甚至多台服务器协同工作,分布式训练成为核心训练方式。网络连接在分布式系统中担任重要角色。网络在分布式系统中提供了连接作用,可以根据连接层级区分为单卡、多卡、多机互联,单卡内的网络为计算用的神经网,多卡之间的连接(即GPU互联)通常采用PCIe或各种高带宽通信网络,多机之间的连接(即服务器互联)通常采用RDMA网络。①多卡互联:传统PCIe与NVLINK/CAPI/GenZ/CCIX/CXL的“百家争鸣”总线是数据通信必备管道,PCIe是最泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管道,对数据传输速度起到决定性作用,目前最普及的总线协议为英特尔2001年提出的PCIe(PCI-Express)协议,PCIe主要用于连接CPU与其他高速设备如GPU、SSD、网卡、显卡等,2003年PCIe1.0版本发布,后续大致每过三年会更新一代,目前已经更新到6.0版本,传输速率高达64GT/s,16通道的带宽达到256GB/s,性能和可扩展性不断提高。PCIe总线树形拓扑和端到端传输方式限制了连接数量和速度,PCIeSwitch诞生。PCIe采用端对端数据传输链路,PCIe链路的两端只能各接入一个设备,设备识别数量有限,无法满足有大量设备连接或需要高速数据传输的场景,因此PCIeSwitch诞生。PCIeSwitch具备连接和交换双重功能,可以让一个PCIe端口识别和连接更多设备,解决通道数量不够的问题,并可以将多条PCIe总线连接在一起,从而形成一个高速网络,实现多设备通信,简言之PCIeSwitch相当于PCIe的拓展器。GPU互联时代,PCIe传输速率和网络延迟无法满足需求,NVLINK/CAPI/GenZ/CCIX/CXL等“百家争鸣”时代开启。AIGC的发展极大刺激算力需求的增加,GPU多卡组合成为趋势,GPU互联的带宽通常需要在数百GB/S以上,PCIe的数据传输速率成为瓶颈,链路接口的串并转换会网络延时,影响GPU并行计算效率,还由于GPU发出的信号需要先传递到PCIeSwitch,PCIeSwitch涉及到数据的处理又会造成额外的网络延时,此外PCIe总线与存储器地址分离,每次访问内存会加重网络延迟,因此PCIe协议在GPU多卡通信中效率并不高。为了将总线通信效率提升,降低延时,各家纷纷推出替代协议:CAPI协议:由IBM最早推出,后逐渐演化成OpenCAPI,本质是现有高速I/O标准之上的应用程序扩展,添加了缓存一致性和更低延迟等内容,但由于IBM服务器份额的持续下降,CAPI协议缺少用户基础,最终未能广泛流传。GenZ协议:GenZ是不依赖于任何芯片平台的开放性组织,众多厂家参与其中包括AMD、ARM、IBM、Nvidia、Xilinx等,GenZ将总线协议拓展成交换式网络并加入GenZSwitch提高了拓展性。CXL协议(陆续兼并上述两个协议):2019年由Intel推出,与CAPI协议思路类似,2021年底吸收GenZ协议共同发展,2022年兼并OpenCAPI协议,CXL具备内存接口,逐渐成长为设备互连标准的重要主导协议之一。CCIX协议:ARM加入的另一个开放协议,功能类似GenZ但未被吸收兼并。NVLINK协议:英伟达提出的高速GPU互联协议,对比传统PCIe总线协议,NVLINK主要在三个方面做出较大改变:1)支持网状拓扑目,解决通道有限问题;2)统一内存,允许GPU共享公共内存池,减少GPU之间复制数据的需要,从而提高效率;3)直接内存访问,不需要CPU参与,GPU可直接读取彼此的内存,从而降低网络延迟。此外,为解决GPU之间通讯不均衡问题,英伟达还引入NVSwitch,一种类似交换机ASIC的物理芯片,通过NVLink接口将多个GPU高速互联,创建高带宽多节点GPU集群。2023年5月29日,英伟达推出AI超级计算机DGXGH200,通过NVLink和NVSwitch连接256个GH200芯片,所有GPU连接成一个整体协同运行,可访问内存突破100TB。②多机互联:IB网络与以太网络并存分布式训练下RDMA网络成为最佳选择,包含IB网络和以太网络。传统的TCP/IP网络通信是通过内核发送消息,涉及较多数据移动和数据复制,不适用高性能计算、大数据分析等需要IO高并发、低时延的场景。RDMA是一种计算机网络技术,可以直接远程访问内存数据,无需操作系统内核介入,不占用CPU资源,可以显著提高数据传输的性能并且降低延迟,因此更适配于大规模并行计算机集群的网络需求。目前有三种RDMA:Infiniband、RoCE、iWARP,后两者是基于以太网的技术:Infiniband:是专为RDMA设计的网络,从硬件级别保证可靠传输,具备更高的带宽和更低的时延。但是成本高,需要配套IB网卡和IB交换机。RoCE:基于以太网做RDMA,可以使用普通的以太网交换机,成本较低,但是需要支持RoCE的网卡。iWARP:基于TCP的RDMA网络,利用TCP达到可靠传输。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的内存资源,对系统规格要求更高。可以使用普通的以太网交换机,但是需要支持iWARP的网卡。2.2.3现状:AI的网络新需求AI大模型的训练和推理对网络提出了有三大新的需求:超大规模、超高带宽以及超长稳定。1)超大规模-训练快慢:规模的大小直接决定模型训练的快慢。一个1750亿的模型,如果采用2千张GPU,需要训练100天以上。采用8千卡则可以把时间压缩到30天左右。2)超高带宽-效率:Allreduce带宽直接决定大规模分布式下的整体效率。平均单GPU的Allreduce带宽有5GB/s的时候,大规模分布式的整体加速比只有约70%;平均单GPU的Allreduce带宽20GB/s才能获得约90%的加速比,相当于单GPU跑满400G网卡。3)超长稳定-训练不中断:大模型训练时长至少是几个星期,长时间下的稳定性尤为重要。稳定性又可以细分为GPU可用性+网络可用性:GPU可用性:根据百度智能云技术站测算,假定单GPU的月可用性是99.9%,那么在千卡规模下模型训练一月内遇到故障发生中断的概率是60%,而如果采用8千卡中断概率就有99%。即使GPU的可用性提升到99.99%,8千卡下的中断概率仍然在50%左右。网络可用性:存储的读写性能也对大模型的训练非常重要,这里面就包括了数据集的读取以及训练过程中checkpoint的读写。网络必须保证更高的可用性,才能尽可能减少模型的训练中断,降低模型做checkpoint的频率以及开销。超长稳定性能在三大基础性能中,属于必不可少的刚需地位,直接影响模型训练和后续推理的延续性以及成功率。保持任务长时间不中断对于大模型训练至关重要,一旦硬件出现故障,在光模块集群中容易造成“多米诺骨牌”式失误,即演变成1*N个硬件出错,影响模型训练的整个流程,根据百度智能云技术站测算,一个可以承载16000卡的集群会有将近10万个光模块,假定一个模块的MTBF(一个硬件设备在故障前的平均使用时长)是1千万小时,由于模块基数太大,哪怕是1000万小时的MTBF,也会导致平均下来4天左右就会发生一个故障发生,在大基数背景下,单体的小概率事件会演变成总体的大概率事件。大模型训练中,网络极其复杂度,一些硬件故障无法被显式直接感知,为保障模型训练的长期稳定性,各大平台均在不同程度上应用智算可视化工具,对数据进行实时监控采集。百度百舸平台大模型配备两大核心工具,任务可视化工具+故障诊断工具。其高精度可视化工具可以把一个任务的几百上千个实例的监控数据合并到一起来看,用于判断任务是否正常训练。openAI在训练过程中加checkpoint保证连续性。在OpenAI和机器学习的背景下,checkpoint(检查点)是指在训练过程中保存的已训练模型的特定时间点的版本,包含模型的权重、参数和其他重要信息。在训练过程中加入checkpoint以后,一旦出现训练中断,可以随时返回并使用已保存的checkpoint处的模型,无需从头开始训练。此外,checkpoint除了能提供恢复训练功能,还有其他几个作用,如实验可重现性、模型评估、迁移学习等。2.2.4未来:网络为主,可视化为辅面对AI大模型对算力网络通信功能提出的新需求,核心在于网络通信能力的提升,辅助以智算可视化等必备硬件。超大规模、超高带宽、以及超长稳定三大新需求,核心都在于网络通信能力的提升,一方面可以采用英伟达全套架构,搭配以专业的IB网络,另一条出路在于自研高规格的网络架构,其本质都是集中精力提升网络性能。此外,辅助以核心硬件如网络可视化,也是调优的重要部分。在一个算力集群中,无论是使用以太网还是InfiniBand协议搭建通信网络,数据都是以若干个包(packet)的形式进行传输。为了实现对通信网络的流量监控,避免网络拥堵或硬件失效影响整个系统的效率,就需要实时监测每条通信链路的的工作状态。例如,在一个常规的三层网络架构中,有一种经典的调优方式DPFR(DataPlaneFastRecovery),可以做到毫秒级收敛。网络调优最核心的原理就是利用软件或硬件技术抓取数据包进行分析。数据包的嗅探抓取分为软件实现和硬件实现两种路径。以软件实现的数据抓包最常用,国内外知名产品有Wireshark(处理TCP/UDP)、Fiddler(处理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。以Wireshark为例,其基本工作原理是:程序将网卡的工作模式设置为“混杂模式”(普通模式下,网卡只处理属于自己的MAC地址的数据包,混杂模式下,网卡会处理所有流经的数据包),同时由Wireshark进行数据包的截获、重发、编辑和转存。软件抓包会占用部分系统性能。首先,混杂模式下网卡处于“广播模式”,会处理网络下层收发的所有数据包,本身就会消耗网卡一部分性能;其次,软件抓包不是在链路层串行或并行抓取,而是将数据包进行复制和存储,占用了一部分CPU和存储的资源。同时,类似Wireshark这种软件大多只能做到对系统里的单一网络节点进行流量监控,难以覆盖到全局网络,适合被动的故障排除作业,不适用于主动风险监测。为不影响系统整体性能,并行或串行接入的软硬件结合工具应运而生,常用的工具有DPI和DFI。DPI(DeepPacketInspection,深度报文检测)是一种基于报文的应用层信息对流量进行检测和控制的功能。DPI着重对应用层的分析,能够识别各种应用及其内容。当IP数据包、TCP或UDP数据流通过支持DPI技术的硬件设备时,设备会通过深入读取报文载荷来进行重组和分析,从而识别整个应用程序的内容,然后按照设备定义的管理策略对流量进行后续处理。DFI(Deep/DynamicFlowInspection,深度/动态流检测)采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。DPI技术适用于需要精细和准确识别、精细管理的环境;而DFI技术适用于需要高效识别、粗放管理的环境。DPI/DFI由独立硬件串/并接在物理层,不会影响物理层的性能表现。以浩瀚深度的DPI软硬件产品为例,其可以部署在电信网络的各层级网络节点,同时通过SaaS/PaaS完成对各层级监测节点数据收集、分析和呈现。DPI硬件串接或并接在通信物理层,通过镜像数据包实现近乎无损的网络监测。DPI软件嵌入在DPI硬件、独立服务器或交换机/路由器中,实现网络监测。网络可视化——流量监控高效工具。流量监控SaaS/PaaS用来实现对各层级DPI监测节点的数据收集、分析和呈现,将网络数据以客户和应用所需要的方式展示,帮助用户精准掌握网络运行情况,以及其中蕴含的有价值信息;同时结合大数据分析与挖掘、多维度数据关联分析、流量控制和管理等手段,实现网络管理、信息安全与商业智能的一类应用系统,通常称为网络可视化。恒为科技进一步投入智算可视化研发,从传统网络可视化、信创基础产品,向智算基础架构方向积极扩展,新产品以及新技术研发持续推进,其中包括针对智算系统100G以太网/IB网、200G以太网/IB网的智算可视化运维系统,以及100G类IB的低延时国产智算加速网卡和交换机系统。2.2.5模型调优模型层面调优,亦或者是软件层面调优,与我们平时所认为的例如对于游戏,软件等等的性能优化有一定区别。在当下模型快速迭代,参数战争依然如火如荼的当下,如何削减参数,如何减少训练时所需的GPU总数亦或是算力总量,并不是头部玩家关注的重点,头部玩家关心的是,如何让自己重金投入的GPU集群快速达到满载算力,从而进一步实现领先于对手的模型迭代与参数扩张。综上,模型层面的调优,在当下的业界,可以理解为,如何通过模型架构的设计,进一步压榨GPU的性能,而并非压缩模型的非必要环节,从而节省模型的训练所需的算力。当前的AI模型训练过程主要基于两个主要框架进行,即TensorFlow和PyTorch。这两个框架除了给予AI训练所必须的基本环境,包括了操作系统、工具和运算流程,也在压榨GPU算力层面给予了较为完善的框架。模型训练过程与我们日常生产中的流水线类似,即一个模型中有几层训练步骤,对应了生产线上有几道工序。模型架构层面优化GPU使用能力的方法主要是并行,即对流水线的工人的任务分配或者流水线的优化。模型层面的并行主要有两种,第一种是数据并行,第二种是模型并行。首先,第一种数据并行。数据并行,是指将一层模型运算中所需要的数据切分至N张显卡进行运算,N张显卡运算出结果后,即可汇总进行下一层。模型并行指的是将一次模型训练需要的N层运算,分别放入N张显卡进行运算,但随着模型体积愈发庞大,单个显卡难以容纳一整层的计算,所以模型并行在当下正在加速被数据并行所替代,数据并行的瓶颈则在于数据实时的切分与沟通,并行方式的变化,也在一定程度上,进一步提高了通信能力的重要性。此外除了框架或者训练原理层面自带的并行能力外,专用的训练过程中调优工具也进一步方便了用户的使用,当下,全球模型训练者使用的训练调优工具基本以微软提供的开源工具库Deepspeed为主,DeepSpeed通过将训练数据预处理等方式,优化了数据进入GPU的效率和所需空间,从而为发挥GPU集群性能或者提高小GPU训练上限提供了解决方案。有了模型调优层面的两大工具,框架与Deepspeed,接下来的调优便是利用这两个环节提供的能力,进行经验的积累,例如数据并行的时候如何保证各个环节的先后顺序,数据块分配,如何利用Deepspeed进行进一步的数据处理等等,经验的积累会进一步加深各个头部大模型厂商的训练能力壁垒,从而使得大模型格局更集中。正如本节开头所说,当下大模型时代,模型的算法层面调优,或者是去优化模型训练中所需要的算力与金钱性价比这种路线已经逐渐式微。在过往的小模型时代,由于资金投入的有限,对于快速商业化的追求,行业内和实验室会更多的关注小算力下的小模型优化。但是随着以GPT为代表的大模型的横空出世,重剑无锋的参数、数据、算力堆叠,被业界逐渐认为是走向AGI的必经之路,当下,模型算法层面的调优,模型性价比的提升可能会在一定程度上放缓,模型层面的进化,可能更多的会发生于训练系统和工具库层面如何去更好的调用GPU算力。2.3算力调度:全局最强辅助2.3.1What-算力调度是什么算力调度本质上是将算力作为资源,进行资源分配和优化的过程。从宏观来看,算力调度是通过智能分配策略实现算力的灵活流动,解决国内算力需求与资源分布不均的矛盾;从微观来看,算力调度是对用户的各种需求匹配合适的资源,根据不同业务场景对多样性算力资源进行自动的需求匹配和调度。算力调度核心解决了算力资源供需不匹配的问题。算力调度主要用于解决算力供需矛盾、算力网络传输问题、以及算力资源普惠问题,根据算力资源提供方的供给能力和应用需求方的动态资源需求,进行算力资源整合和分配,涉及基础设施底层的计算、存储、网络等多维资源的一致性管理、一体化编排和统一调度。2.3.2Where-算力在哪里调度算力调度的场景较为广泛,既可以按照产业链分为云与云之间、云和数据中心之间、云网端之间,也可以按照行业、地区、层级进行划分,目前较为典型的两个调度场景存在于跨区域和跨层级:跨区域调度:即“东数西算”,东部科技企业数量较多对算力的依赖性较高,且由于数据中心建设相对较早,缺乏统筹规划,对需求估计不足,打通东西部算力资源、实现东西部算力协同,是建立在算力资源跨区域调度核心能力至上的。跨层级调度:算力不仅仅集中于数据中心,更是扩散到边缘网关、甚至各类终端,因此云—边—端的算力资源协调也称为算力调度的重要应用场景之一。2.3.3How-如何实施算力调度目前尚处于逐步落地阶段,具体实施步骤有待在执行中逐渐完善,但是根据算力分布分散、需求具备多样性和灵活性等特质,通常情况下算力调度至少需要包含三大步骤:整合多元异构资源:算力调度首先需要标准化底层算力资源,如CPU、GPU、神经网络处理器等,建立度量模型,形成评估标准。然后,摸清算力调度区域的基础设施和资源情况,整合不同所有方的闲置资源。搭建算力调度平台:通过统一的平台整合如实时感知、供需匹配、智能调度、服务运营和监测管理等多种功能,平台充当算网大脑,根据资源分布情况动态计算最佳调度策略,实现统一的算力交易和售卖。建立标准规范体系:标准规范体系包括算力交易、管理和安全规则,涉及产品定价、自动结算、账本记录、权利义务和可信服务机制。2.3.4Who-谁在参与算力调度平台作为算网大脑,通过整合不同来源、类型和架构的算力资源,按需调动分配算力,在算力发展中后期重要性将会进一步提升,目前国内已经涌现多个算力调度平台,按照主导方的不同可以分为四大类,其中运营商算力调度平台的基础能力优势较为显著:电信运营商主导平台:由中国电信、中国移动、中国联通牵头或参与建设并运营的算力调度平台,拥有强大的网络基础设施,能够在全国范围内实现算力资源的高速互联,保障数据和算力的快速传输和稳定运行。比如中国移动推出移动云智能算力调度平台,中国电信天翼云下的“息壤”平台即具备智能高效算力调度能力,中国联通推出算网一体化编排调度体系进行算网资源的智能调配。地方政府主导平台:由西部一些节点城市牵头或建设运营的算力调度平台,依托西部地区的自然资源和能源优势,建设低成本且符合低碳要求。比如贵州大数据与实体经济深度融合公共服务平台,将建成面向全省专注于服务大数据与实体经济深度融合、数字化产业转型的公共服务平台。企业主导平台:由部分互联网或科技巨头企业牵头或参与的算力调度平台,依托企业在AI、大数据、云计算等方面的技术积累和客户积累,整合算力资源并实现跨区域、跨境、跨平台的互联互通和优化配置。比如阿里云发布的洛神云网络具备云企业网的全球化智能云网调度能力,中科曙光推出的曙光云计算平台可提供云服务器、云存储、云数据库、云安全等服务。行业机构主导型平台:主要由行业机构牵头或参与参与的算力调度平台,以强大的政策支撑力和行业影响力为基础,促进算力资源的整合和共享,保证算力调度平台的稳定性和安全性。如中国信通院联合中国电信发布全国一体化算力算网调度平台可以实现跨资源池/跨架构/跨厂商的异构算力资源调度,目前已接入天翼云、华为云、阿里云等。3.软件服务——海外先行,百花齐放,部署先行3.1软件服务的三个方向:数据管理、模型落地、训练可视化3.1.1数据管理模型微调的基础是数据管理。优质的、结构化的数据要素,推动大模型训练向着高精确度、高安全性和垂直化专业化的方向前进。现有的开源LLM称为“预训练模型”,也就是说其他人已经收集了大量的训练数据并提前训练了模型,例如NVIDIANeMo和MetaLlama都是“多面手”,它们能流利地使用英各种语言,并且对各种话题都有不同程度的了解,但是碍于训练时的数据,这些LLM往往对某个专业领域不够深入。以sno

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论