算力网络原创技术与NICC新型智算中心技术体系_第1页
算力网络原创技术与NICC新型智算中心技术体系_第2页
算力网络原创技术与NICC新型智算中心技术体系_第3页
算力网络原创技术与NICC新型智算中心技术体系_第4页
算力网络原创技术与NICC新型智算中心技术体系_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

算力网络原创技术与NICC新型智算中心技术体系中国移动段晓东2023.9中国移动算力网络发展历程回顾算力网络发展主线主线一面向算网基础设施构建物理空间、逻辑空间、异构空间、多主体算力融通“4+N+31+X”布局,1100边缘节点打造20ms、5ms、1ms三级时延圈SRv6/G-SRv6打造统一算网底座

主线二面向业务融合创新实现算网高效协同,支持CHBN务融合发展,打造算网全新生态产品算力化和算力产品化发布算网服务1.0构筑算网大脑

主线三面向创新技术引领实现创新技术引领,打造原创技术策源地三横两纵体系架构提出十大三十二个继往开来,成功迈入算力网络新阶段跨越:一体内生一体服务,模式创新智慧内生算网一体起步:泛在协同一站服务、协同运营协同编排网随算动发展:融合统一智慧内生算网一体起步:泛在协同一站服务、协同运营协同编排网随算动发展:融合统一算网融合智能编排 十四五阶段 十五五阶段及更长期构筑算力网络发展源动力,开创算网一体原创技术体系总线互联算力路由突破互联网架构协议广域RDMA突破广域传输性能瓶颈全调度以太突破无损以太性能瓶颈新一代SD-WANUnder与Overlay协同算力并网实现算力供给侧改革算力智能内生移动算力5G、6G新增计算面算力原生实现应用跨架构迁移存算一体算力度量打破单维算力指标在网计算打破算网边界隐私计算总线互联算力路由突破互联网架构协议广域RDMA突破广域传输性能瓶颈全调度以太突破无损以太性能瓶颈新一代SD-WANUnder与Overlay协同算力并网实现算力供给侧改革算力智能内生移动算力5G、6G新增计算面算力原生实现应用跨架构迁移存算一体算力度量打破单维算力指标在网计算打破算网边界隐私计算安全数据分析计算算力卸载多算力形态统一底座400G/800G超高速大容量全光网络G-SRv6空芯光纤新型光纤介质与系统算力解构应用模块化解构部署50GPON+FTTR新型接入网架构云原生敏捷高效体系OTN光电联动新型全光网架构全光接入应用感知空天地一体原创技术“5颗珍珠”:算力原生、算力路由、全调度以太、在网计算、G-SRv6提升高度拓展提升高度拓展广度挖掘深度多要素融合③开创一体化服务④模式网为根基②实现深度融合统一算为中心①打造算力供给高峰以算为中心①、网为根基②,网、云、数、智、安、边、端、链等深度融合③、提供一体化服务④的新型信息基础设施打造智能算力新高峰——NICC新型智算中心新型智算中心以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理新互联

新算效

新存储 新平台 新节能1、新型智算中心是对传统云数据中心的飞跃中大模型(百亿-千亿)中大模型(百亿-千亿)超级池化时期(2025~)大模型(千亿-万亿)传统云数据中心互联单机8卡高速互联高性能无损网络百卡高速总线互联GSE异构时期(~2021)中小模型算效扣卡模组DPU存算一体存储海量非结构化数据,融合存储内存池化PCIe25G传统以太平台算力池化,分布式训练算力原生独立存储风冷节能单机柜40KW,冷板式液冷冷板/浸没式液冷裸机/虚机/容器智算运维运维管理模块开发管理 交付管理智算运维运维管理模块开发管理 交付管理IaaS管理模块虚机 容器 裸机存储 网络应用使能TesnsorFlowPyTorch应用使能TesnsorFlowPyTorchAI开发框架PaddlePaddleDeepSpeed...智算运营运营管理模块智算运营运营管理模块算力原生编排调度计量计费跨架构编译器 算力抽象运行时算力交易用户界面智算平台ROCmCUDACANN...平台跨节点分布式训练调度裸金属实例Hypervisor+虚拟机实例容器实例算效互联计算基础设施CPUGPUDPUCIM网络RoCE存储 存储文件 对象 块 内存池节能液冷GSE融合存储全局统一存储机房配套高效供电冷却水系统模型参数从千亿迈向万亿,模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间千亿模型:高通信需求(张量并行)集中8卡之间04152637...04152637Sever1SeverNSuperSever(S2)架构万亿模型:高通信需求(MoE并行)集中在百卡之间…012…0123012345674567基于高速计算总线的S²的架构总线Switch总线Switch计算总线总线Switch总线Switch0 1 2 3 4 5 ...N一组有N张GPU/AI卡更低延迟的内部通信更高效的数据读写更灵活的拓扑连接3-1、NICC新互联——高性能新以太互联网络传统:网络性能和成本无法兼得 未来:突破以太技术、升级高速互联InfiniBand专用网络、超高性能、成本昂贵传统无损以太InfiniBand专用网络、超高性能、成本昂贵传统无损以太生态开放、性能有限、性价比高流级ECMP被动拥塞控制独立转发决策基础转发机制导致AI场景性能受限创新全调度以太网(GSE),革新以太网底层转发机制,AS-ISTO-BE分发粒度逐流分发逐“报文容器”分发发流模式盲发+被动拥塞控制感知+主动流量控制转发策略“局部”决策转发“全局”最优调度3-1、全调度以太网组网场景GSE协议可根据网络设备和网卡能力,将方案各组件功能在网络组件中重新分工,支持多种组网场景,为后续网络建设和设备选型提供灵活的选择方案SpineGSFLeafGSP…SpineGSFLeafGSP……GSFGSF网卡网卡网卡网卡GSP GSPGSP计算卡 计算卡 计算卡计算卡 计算卡 计算卡Leaf

GSF GSP 网卡 网卡 网卡

GSFGSP网卡 网卡 网卡计算卡 计算卡 计算

计算卡

计算卡 计算卡GSP和GSF角色均由网络设备担任,执行GSE路径分发、端到端授权应答及报文排序传统RoCE网卡,对网卡无额外要求

源GSP、GSF由网络设备担任,执行GSE分发等功能网卡承担部分GSP角色,负责授权应答及报文排序、GSE原型机系统特性产品规格:当前32*100G(),盒式设备、1U采用P4+FPGA芯片实现GSP和GSF硬件设备,软件功能特性:支持基于报文容器的全路径“喷洒”支持端到端DGSQ请求及授权支持报文乱序重排报文容器长度支持16KB性能特性:场景JCT时间可缩短2-3倍3-1、全调度以太网(GSE)工作进展及计划2023.52023.52023.62023.82023.9联合产业发布《全调度以太网(GSE)技术架构》白皮书

在CCSA成功立项《全调度以太网总体技术要求》

中国算力大会正式启动全调度以太网(GSE)推进计划

中国网络大会发布业界首款GSE原型系统 期待更多产学研合作伙伴加入GSE推进计划,携手共建新型智算中心网络产业生态!3-2、NICC新存储——内存池化传统:HBM和DDR分立 未来:HBM和DDR池化数据多次复制,延迟高,影响模型训练效率CPUDDRAI模型开发复杂,需要手动管理数据搬移CPUDDR

数据无需多次搬运,GPU可快速访问巨量共享内存CPUCPUCPU统一内存池DDRDDRHBMHBMGPUHBMGPUGPUGPUGPUGPUGPUGPUHBMGPUGPUGPUGPUGPUGPU3-3、NICC新算效——升级计算架构下一代GPU芯片设计

GPU、CPU、DPU三大芯片协同

存算一体,突破传统计算范式性能瓶颈数据搬移的功耗激增演进路线① 存储一体化设计性能瓶颈数据搬移的功耗激增演进路线① 存储一体化设计② 稀疏化设计③ 算法和芯片协同设计④ 低时延推理架构设计三大芯片协同提升算效迎接更加爆炸式的数据处理需求CPUGPUDPUGPU+DPU,参数面网卡升级,进一步满足可编程拥塞控制及大QP数量等前沿需求GPU+DPU+CPU,智算资源并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程突破冯·诺依曼架构达到能效比数量级提升面向大模型推理场景基于SRAM,中大算力,100Tops+无限擦写,数模混合,精度拼接3-4、NICC新平台——引入算力原生CANNoneAPICUDAROCmNeuWare应用层框架层Pytorch……应用层框架层Pytorch……跨架构流转的原生程序原生运行时程序加载动态链接工具链硬件层……编程模型转换、编译、优化算力原生层

跨架构综合编译器√实现图算融合的跨架构综合编译、多级IR互转优化,生成中间元语格式的算力原生程序√原生程序格式规范√全系统共识的“中间元语”。Host侧、Device侧指令元语及执行策略的一体承载√原生运行时√实现“中间元语”跨厂商的再装配,智算应用跨架构、可变粒度映射执行√3-5、NICC新节能——标准化大规模液冷技术挑战1:单一AI服务器功耗超过10kWTDP(W)挑战1:单一AI服务器功耗超过10kWTDP(W)700GPU500400CPU300W 300-400 250150-2502016~2019250-3002020~20212022~挑战2:单机柜功耗超过40kWkW/架30-60kW/架单机架功率15kw/架5-10kW/架通用服务器AI服务器举措:制定五大统一标准,实现三“极”目标举措:制定五大统一标准,实现三“极”目标①②③④⑤五大统一机柜尺寸标准液冷接口标准液冷工质要求供电系统标准监控管理要求冷却塔5液冷机柜三“极”目标CDU冷水机组1•••极致能效极高密度极简运维PUE≤1.15单机柜功耗>40kW兼容传统机房一次侧回水342一次侧供水 二次侧供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论