大模型分布式训练性能优化与实践:大模型分布训练基础原理-百度智能云_第1页
大模型分布式训练性能优化与实践:大模型分布训练基础原理-百度智能云_第2页
大模型分布式训练性能优化与实践:大模型分布训练基础原理-百度智能云_第3页
大模型分布式训练性能优化与实践:大模型分布训练基础原理-百度智能云_第4页
大模型分布式训练性能优化与实践:大模型分布训练基础原理-百度智能云_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原理TokensLLaMA-65B1.4万亿2048卡(A100-80G)21天GLM-130B4000亿768卡(A100-40G)60天BLOOM-176B3660亿384卡(A100-80G)105天TokensLLaMA-65B1.4万亿2048卡(A100-80G)21天GLM-130B4000亿768卡(A100-40G)60天BLOOM-176B3660亿384卡(A100-80G)105天ScalingLaw:大模型训练需要足够的数据和算力稳定模型能力与数据模型能力与数据、参数、算力等正相关百舸控制面配套服务高性能网络插件高性能存储插件异构资源调度AI基础组件深度学习框架AI任务编排任务工作流管理AI编排调度套件百舸控制面配套服务高性能网络插件高性能存储插件异构资源调度AI基础组件深度学习框架AI任务编排任务工作流管理AI编排调度套件控制台控制台OpenAPISDK命令行工具PrometheusPrometheus监控镜像服务日志服务账号&安全模型训练加速模型推理加速模型生态适配健康检测多维故障感知自动任务容错K8S内核K8S内核基础设施高性能存储基础设施高性能存储高性能计算AIAKAIAK训练加速套件大模型:AIAK-Training-LLM49%~391%+391%+142%+117%Swin-Lyolov7CenterNetFCOS3DBEVFormerCenterPointPointPillarsTransFusion+119%49%~391%+391%+142%+117%Swin-Lyolov7CenterNetFCOS3DBEVFormerCenterPointPointPillarsTransFusion+119%AIAKAIAK-Training统一加速接口Loss计算优化数据并行通信优化数据并行通信优化AIAK编译基础设施主流训练框架参数量大于百亿的模型时间线参数量大于百亿的模型时间线开源模型为例:基于基座模型,微调领域专用模型开源模型为例:基于基座模型,微调领域专用模型模型和工具分布式框架硬件模型和工具分布式框架硬件优化器融合算子通信换显存策略重计算策略优化高性能融合算子数据并行优化显存管理策略低精度训练GPU0 GPU0GPU0GPU1权重分布:权重分布:Embedding、L层TransformerLayer(Attention/MLP)、head,核心是矩阵乘法GEMM权重按列切分:Y=XW=X[W0,W1]=[XW0,XW1] fW0TY000allreduceallgather XW0 Y0 Y1XW1权重输出输入*YXgallreduceallreduce**backward:dY,无操作Y=XW=[X0,X1][]=X0W0+X1W1GEMM权重按行切分: fWT0dY0dw0W0X0X0T0Y0 Y0 Y1 X0W0allgather X1W1 X0 X1Yg模型按Layer切分为多个stage,分配到不同设备计算,通过点对点Send/Recv同步激活与梯度GPipeGPipe:将mini-batch切分成多个micro-batch,将micro-batch的计算在ppstage之间进行流水1F1B:1F1B:一个micro-batch前向计算结束后,直接进行反向计算,目标尽快将前向激活消耗掉warmup和1F1B两阶段:设备最多缓存 p−1可通过调整p和m减少气泡p−1+minterleavedinterleaved1F1B:每个stage分配多个不连续的layer段,更短的时间完成一次计算,缩减其他stage等待时间045671231.EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LMBackwardOP1AllReduce1AllReduce1BackwardOP2AllReduce2AllReduce2BackwardOP1BackwardOP2BackwardOP1AllReduce1AllReduce1BackwardOP2AllReduce2AllReduce2BackwardOP1BackwardOP2BackwardOP1BackwardOP2BackwardOP3BackwardOP4BackwardOP4BackwardOP1BackwardOP2BackwardOP3AllReduce1AllReduce1AllReduce2AllReduce2前向计算反向计算优化器更新参数前向计算反向计算优化器更新参数下一轮迭代数据读取数据读取计算激活计算梯度主要显存占用模型参数模型参数中间激活中间激活参数梯度参数梯度优化器状态优化器状态模型参数量训练数据(bs、seqlen)Zero3Zero2Zero3Zero2ZeroZero1o大模型训练,一般推荐开启zero1融合收益6避免中间结果来回搬运,减少访存读写次数,降低访存开销6提升计算密度,充分利用计算资源,提升计算效率6按计算密度可以分为计算密集型和访存密集型6GEMM通常为计算密集型算子,Elementwise通常是访存密集型算子6期望的目标是所有算子都是计算密集型,可以充分利用算力6计算密集型+访存密集型算子,访存密集型算子之间进行融合混合精度训练作用:减少内存需求量,使用更少的内存带宽,加速数据传输操作低精度计算效率更快,特别在支持TensorCoreGPU上FPFP16:表示范围和精度低于FP32,可能出现溢出或精度误差BF16:表示范围与FP32相同,精度低于FP16,数值稳定性较好使用FP16:精度误差:FP32权重备份,FP32更新参数数值溢出:LossScaling,动态调整LossScaleoAIAK训练镜像oCCE客户端工具oAIAK数据预处理工具oBOS/PFS数据上传o模型YAML模板oCCE客户端提交o任务日志查看o任务故障诊断o资源监控视图o训练收敛视图内置SFT指令微调代码模板内置SFT指令微调代码模板配套服务套件配套服务套件百舸控制面控制台OpenAPI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论