版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大模型场景下智算平台的设计与优化实践2024.06.14不同时期对智算平台的需求2引言客户B我的模型跑起来耗时长,能加速吗?客户A我资源比较少,几十卡的规模,如何提升卡的利用率?客户C我想跑大模型,需要多少资源?网络如何构建?多长时间能跑完?客户D国产卡怎么用?能否与
NV
卡一起使用?20182024目录01 大模型时代,智算平台新特点402智算平台需解决的问题603大模型场景技术实践804对于智算平台发展的未来思考2501
大模型时代,智算平台新特点小模型
vs.
大模型小模型
vs.
大模型5大模型时代,智算平台新特点ResNet50(小模型)训练时长训练成本工程问题增强:参数爆炸突破显存墙,多机多卡成为常态增强:卡间和机间高性能通信愈发重要增强:耗时长凸显大模型训推加速需求新增:成本高带来稳定性需求,减少资源闲置维持:GPU切分在小模型和推理场景依然存在新增:新卡适配和芯片利旧,多芯混合调度新增:数据集处理加速新增:数据湖存储和高性能存储参数算力128块
V100数据167G(ImageNet)158秒$1525M(0.025B)GPT-4(大模型)训练时长训练成本参数算力8192块
H100数据13T55天$2150万1800Bvs.新要求*数据来源:非官方数据,为业界推测基础设施、调度、应用、运维大模型场景下智算平台需解决的问题基础设施、调度、应用、运维7智算平台需解决的问题基础设施调度应用算力存储网络适配多种异构芯片固件、OS内核、驱动兼容混合多芯优化存储读写性能镜像加速、镜像预铺搭建和调试高性能网络资源管理任务管理大规模异构算力高效调度和分配算力虚拟化多种AI框架和并行策略支持AI
任务调度和任务流管理云原生容器化数据训练推理数据集下载和转储加速数据集的清洗和加工处理训练任务的性能优化任务的监控和容错Flash
Checkpoint推理任务的性能优化在线服务的监控告警运维03
大模型场景技术实践基础设施层国产卡能否与
NV
卡一起使用?9基础设施——混合多芯拟合性能系数统一并行策略AI
效能矩阵图谱通信整合10基础设施——高性能存储托管
BCC/BBC
集群MEMDIS
KME
MDIS
KME
MDIS
KME
MDIS
KTCP/InfiniBand/RoCE并行文件存储
PFSTCP分布式缓存加速存储
RapidFS对象存储
BOS标准存储低频存储冷存储归档存储镜像加速超大镜像预加载P2P镜像分发流式镜像拉取训练数据加速高性能并行文件系统全SSD闪存RDMA链路加速模型加速大吞吐数据湖存储分布式缓存加速镜像服务流式读取P2P加速如何实现数据集加速?如何
I/O
加速?11基础设施——高性能网络Tor拓扑感知调度NCCL通信拓扑感知3层无收敛RDMA网络Upto512Upto512Upto
16K+如何实现通信库加速?03
大模型场景技术实践调度层如何提高单卡资源利用率?13调度——GPU虚拟化用户态方案CUDAdriver
API,提供显存限制,算力时分复用CUDA
runtime
API,提供远程调用,显存限制,算力时分复用内核态方案内核模块修改,提供显存限制,算力时分复用Full/para-虚拟化,内核模块修改,MMIO拦截,显存划分,算力时分复用NV官方,硬件划分,提供显存划分、算力划分、编解码划分(1/7)硬件方案SR-IOV,硬件划分,提供显存划分、算力划分(1/3、1/2)Nvidia
MIG昆仑2
SR-IOV双引擎
GPU
虚拟化14调度——GPU虚拟化优势:性能好,长尾延迟低缺点:故障隔离差优势:故障隔离好缺点:有一定性能损耗用户态内核态如何调度资源?15调度——资源管理和调度逻辑PodPodPodPodGroup入
队资源分配资源回收资源抢占回填调度会话插件集合Gang调度Gang抢占Binpack/Spread调度亲和性调度GPU拓扑Tor架构感知混部调度多租户资源管理选择最优调度集群资源视图CPU/MEM异构芯片(独占/共享)RDMA自定义资源配额管理资源调度03
大模型场景技术实践应用层17应用——AIAK
训推加速算子优化显存优化并行优化算子优化算子融合图精简算子融合注意力机制优化调度优化模板化优化显存重算显存卸载细粒度显存切分数据并行优化张量并行优化流水线并行优化访存密集型算子融合GEMM/Conv
长尾运算融合背靠背
GEMM 融合数学等价代换/死代码移除量化/剪枝/蒸馏训练性能提升30%+推理性能提升60%+如何优化训练和推理性能?兼容Llama2、ChatGLM2等20余种开源模型,一键部署,透明加速大模型训练加速镜像 大模型推理加速镜像访存优化如何提升训练稳定性?18应用——训练容错基础设施稳定性硬件故障快速感知硬件端到端上线预检测节点热维修/秒级冷迁移恢复调度容错效率任务异常快速感知重调度容错镜像/数据缓存加速框架容错代价Ckpt
存储加速异步Ckpt加速×(任务故障恢复时长+任务故障重算时长)
+
任务常态任务无效训练时间
=
故障中断次数写Ckpt总时长••降低节点故障率提升故障感知召回率••提升调度效率降低节点MTTR降低Ckpt时长,缩短Ckpt间隔周期分布式Ckpt加速主流框架/分布式库,打开开关即可容错Pytorch…PaddlePaddleDeepspeedMegatron19应用——Flash
CheckpointFlash
CKPT
并行内存写入,
快速完成checkpoint操作,提升整体有效训练时长。业务可制定更细粒度的检查点策略,从而降低故障恢复时间1秒千亿大模型CKPT写入3小时每日节省有效训练时长MemoryNVME
SSD同步close流式分块上传远端对象存储等待last
part训练框架同步写Memory加速层小时级CKPT,容错恢复时间长秒级CKPT,更细粒度的打点恢复Memory异步
close并行文件存储PFS训练框架同步写Memory加速层分布式,异步写有效训练时间有效训练时间Checkpoint
等待Checkpoint
等待如何降低
Checkpoint
时间?Checkpoint
容错机制带来了计算时间片浪费传统方案FlashCKPT03
大模型场景技术实践运维21运维目标运维目标故障处理容量管理&优化任务性能调优集群资源视图(集群资源概览,利用率、分配率变化&趋势,任务资源概览)节点资源视图(节点资源详情、GPU分配/利用分析)任务资源视图(任务资源详情、GPU使用分析、Pod分配情况)任务性能大盘(训推吞吐指标,任务并行策略、性能关联参数)任务收敛监控&告警(监控任务loss收敛情况,异常报警)分阶段指标(诊断训练分阶段耗时,助力训练性能调优)任务告警(变更告警、故障告警、阈值告警)任务稳定性大盘(任务关联的节点、组件,配套服务健康情况)发现快速定位根因排查(集群、任务事件,任务运行日志)根因排查智能排障建议(基于大模型的智能故障分析)辅助止损故障定位时间小时级->分钟级发现资源瓶颈提升分配/利用率发现任务性能瓶颈,避免空跑可观测能力03
大模型场景技术实践百度百舸架构和演进23智算平台架构百度百舸大模型任务增强百舸资源池CCE
K8S集群A800/H800/昆仑/升腾异构算力高性能分布式存储PFS 万卡RDMA网络百舸组件98.8%有效训练时长30%训练吞吐提升60%推理吞吐提升95%带宽有效性大模型IO加速方案Flash
Checkpoint大镜像预加载大规模镜像P2P加速大模型训推任务加速镜像开源大模型定制优化高性能算子高效显存利用高效并行策略高性能训推框架AI基础组件异构资源调度高性能存储插件高性能网络插件AI编排调度深度学习框架AI
任务编排任务工作流管理多维故障感知自动任务容错通信测试工具稳定性&容错
可观测大盘集群资源视图任务稳定性大盘性能监控&调优24百度百舸发展历程百舸1.0AI基础设施产品化百舸2.0AI基础设施云原生化AI硬核能力积累支撑百度核心业务发展视觉&自然语言处理自动驾驶&生命科学百舸3.0一站式大模型算力平台大模型新业态百度十年AI实践20212022太行.弹性裸金属沧海.高性能存储AI容器服务X-MAN
超级AI服务器RDMA高性能网络孔明超级计算集群云原生作业调度GPU容器虚拟化通信&算子加速2023AIA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024简易离婚合同范本:双方权益保障版
- 二零二五年度资源勘探承包合同3篇
- 2025年度叉车租赁企业信用评估与风险控制合同4篇
- 2025年度沉井施工施工许可证申请协议模板下载4篇
- 二零二五版离婚协议书:女性权益全面维护新策略2篇
- 2025版车辆抵押借款合同(含贷款利率调整)4篇
- 2025版生态城市建设用绿植采购合同4篇
- 二零二五百货集团会员数据安全保护合同3篇
- 2025年度户外报刊亭承揽加工安装与智能管理系统合同4篇
- 个性化动迁房买卖合同:2024年房产交易指南版
- (一模)临汾市2025年高考考前适应性训练考试(一)语文试卷(含答案)
- 2024-2025学年沪科版数学七年级上册期末综合测试卷(一)(含答案)
- 2023年广东省公务员录用考试《行测》真题及答案解析
- 2024年公证遗产继承分配协议书模板
- 燃气经营安全重大隐患判定标准课件
- 深圳小学英语单词表(中英文)
- 护理质量反馈内容
- 抖音搜索用户分析报告
- 钻孔灌注桩技术规范
- 2023-2024学年北师大版必修二unit 5 humans and nature lesson 3 Race to the pole 教学设计
- 供货进度计划
评论
0/150
提交评论