百度AI大底座大模型研发基础设施方案_第1页
百度AI大底座大模型研发基础设施方案_第2页
百度AI大底座大模型研发基础设施方案_第3页
百度AI大底座大模型研发基础设施方案_第4页
百度AI大底座大模型研发基础设施方案_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

百度AI大底座大模型研发基础设施方案大模型Al新时代的基础设施Jared,etal.Jared,etal.2020.模型大小(十亿参数)(蓝色:语言模型;绿色:中文语言模型;橘色:多模态模型;黄色:视觉模型)模型大小(十亿参数)GPT-3(175B)GPT-3(175B)ERNIE3.0Titan(260B)●50Turing-NLG(17B)T5(11B)50Turing-NLG(17B)T5(11B)v-MOE(15B)ERNIE3.0(10B)ERNIE-VILG(10B)5GPT-2(1.5B)CogView(4B)●DALL-E(1.2B)5GPT-2(1.5B)BERT(340M)viT(630M)viT-G(2B)SwinV2(3B)BERT(340M)ERNlE2.0(330M)ERNlE2.0(330M)ELMo(90M)ERNlEELMo(90M)0.052017/8/142018/9/182019/10/232020/11/262021/12/312017/8/14模型参数演进计算规模大单卡A100训练需要32年模型参数大350G+计算规模大单卡A100训练需要32年模型参数大350G+存储空间以GPT-3为例,1750亿参数模型、3000亿词语,计算量314ZFLOPS新摩尔定律成本投入大理成本计算精度存储瓶颈分布式架构us时代的万卡互联训练显存,推理服务,芯片存算比计算精度存储瓶颈分布式架构us时代的万卡互联训练显存,推理服务,芯片存算比整体向低精度迁移,混合精度是常态高性价比智算集群构建易用性训练加速优化高性价比智算集群构建易用性利用率提升多级存储弹性按需异构算力利用率提升多级存储弹性按需异构算力万卡集群高速互联弹性容错一站式平台最佳实践高性能算子显存优化集群加速比算法收敛速度____________二____________二心______二____________二____________二心______二百度AI大底座全景图应用百度AI大底座由AIIaaS层(百舸AI异构计算平台)、AIPaaS层(AI中台)两大部分组成应用文心大模型及相关应用第三方模型及相关应用基础管控AI服务运行平台基础管控AIAI台AI资产共享平台全功能AI开发平台BML零门槛AI开发平台EasyDLGPU调度AI作业调度弹性训练可观测性分布式训练加速AIAK-Training推理加速AIAK-Inference计百分布式训练加速AIAK-Training推理加速AIAK-Inference计百算舸平异台构海量数据湖存储对象存储海量数据湖存储对象存储BOS并行文件存储PFS高速互联异构芯片昆仑芯高速互联异构芯片昆仑芯GPURDMAInfiniBandX-MANRDMA百度AI大底座全景图基于Al大底座的大模型研发基础设施方案概览稳定收敛一键跑通千亿大模型训练推理最优的训练推理性能稳定性万卡模型训练不中断稳定收敛一键跑通千亿大模型训练推理最优的训练推理性能稳定性万卡模型训练不中断百舸控制面网络产品配置容器平台配置云原生AI套件配置百舸控制面网络产品配置容器平台配置云原生AI套件配置计算产品配置存储产品配置计算产品配置云原生AI套件GPU架构感知Tor架构感知公共数据集公共模型库模型/数据预热高性能存储BF16优化参数推荐CostModel通信overlapBinpack调度Gang调度服务部署多卡部署灰度发布流量控制动态伸缩容错训练云原生AI套件GPU架构感知Tor架构感知公共数据集公共模型库模型/数据预热高性能存储BF16优化参数推荐CostModel通信overlapBinpack调度Gang调度服务部署多卡部署灰度发布流量控制动态伸缩容错训练故障感知算力容错网络容错任务容错推理加速动态batch张量并行模型轻量化模型稀疏化云原生平台异构调度数据加速训练加速CCE-StackCCE-Stack(私有云)、A800、昆仑)、A800、昆仑)基础设施大模型研发集群构建方案180Gbps50M+Gbps2GB/s180Gbps50M+Gbps2GB/s32(裸金属终态)OVS-Nova-大模型集群可达万卡级别,单作业千卡;兼顾P2P大模型集群可达万卡级别,单作业千卡;兼顾P2P延迟和通信吞吐8导轨优化的三层8导轨优化的三层CLOS架构•IB可支撑16000卡规模,RoCE可支••结合网络流量特点,重点优化同号卡AllReduce操作•一组机器有8台Tor组成,分别连接20台机器对应•多组Unit间的同号卡通过Leaf层连接,支持最大4•异号GPU网卡通过Spine层连接,使能异号卡网络与DragonfIY与DragonfIY、Torus拓扑比较的优势•节点间跳步数更稳定MDISKDISKMDISKDISKDISEMDISKEM*数据集存储/上传-月光宝盒/对象存储EMKKTCP/InfiniBand/RoCETCP*预训练模型存储-训练开始时远端拉取到本地-TCP/InfiniBand/RoCETCP并行文件存储PFS并行文件存储PFS分布式缓存加速RapidFS托管BCC/BBC集群*容错检查点存储-训练过程中的checkpoint存储到托管BCC/BBC集群对象存储BOS标准存储低频存储冷存储归档存储*Conda/VSCode代码库对象存储BOS标准存储低频存储冷存储归档存储*支持存储可观测性数据集上云方案有闲置的公网带宽)到端直连,需IDC中转,并部署迁移移数据流转平台CloudFlow*IO并行**IO并行*亚毫秒延时*百GB/s吞吐*内核客户端*高速硬件*极短IO路径托管BCC/BBC集群MDSMDSMDS……MDSMDSMDSMDS……MDSOSSOSSOSS……OSSOSSOSSOSS……OSSOSSOSS大规模训练场景下,支持高并发、低延迟数据访问、大模型训推加速优化方案通信效率优化高性能算子通信优化策略:隐藏/融合/压缩/卸载/拓扑低精度训练计算效率优化显存利用优化IO和预处理优化DataLoader优化单机多卡TCP多机优化RDMA多机优化重计算技术预处理加速算子融合参数/梯度/优化器分片显存卸载机制高性能训练通信库ECCL通信效率优化高性能算子通信优化策略:隐藏/融合/压缩/卸载/拓扑低精度训练计算效率优化显存利用优化IO和预处理优化DataLoader优化单机多卡TCP多机优化RDMA多机优化重计算技术预处理加速算子融合参数/梯度/优化器分片显存卸载机制高性能训练通信库ECCLAll2AllAll2All加速:通过机内NVLink减轻对网络的压力8导轨优化下,同号卡最多经过Leaf层,异号卡通信需要经过spine层((NCCL2.12+)0.9All2All性能提升(%) TVM一4D混合并行框架高效流水并行编排4D混合并行框架高效流水并行编排大模型天然适合切分混合多种并行策略大模型天然适合切分混合多种并行策略竖切、横切、纵向扩展竖切横切模型切分竖切横切模型切分纵向扩展纵向扩展Transformer层内大Transformer层内大,称为模型并行(MP)训练,称为数据并行 (DP)层切分,称为流水线并行(PP)显存占用(Groupsharding)干亿模型训练配置策略参与节点机内8卡AllReducesharding机内8卡Broadcast多机—组,机间同号卡P2P通信多组数据并行(多机—个单元)主流框架支持最佳实践和案例操作流程图:集群创建:架构图:任务提交:为全球最大中文单体模型提供高效稳定的训练平台为全球最大中文单体模型提供高效稳定的训练平台26002600

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论