中国移动研究院副院长段晓东在中国国际服务贸易交易会AIGC创新发展论坛上的演讲:构筑NICC新型智算中心加速大模型发展_第1页
中国移动研究院副院长段晓东在中国国际服务贸易交易会AIGC创新发展论坛上的演讲:构筑NICC新型智算中心加速大模型发展_第2页
中国移动研究院副院长段晓东在中国国际服务贸易交易会AIGC创新发展论坛上的演讲:构筑NICC新型智算中心加速大模型发展_第3页
中国移动研究院副院长段晓东在中国国际服务贸易交易会AIGC创新发展论坛上的演讲:构筑NICC新型智算中心加速大模型发展_第4页
中国移动研究院副院长段晓东在中国国际服务贸易交易会AIGC创新发展论坛上的演讲:构筑NICC新型智算中心加速大模型发展_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

构筑NICC新型智算中心加速大模型发展2023.9人类社会正在步入通用人工智能新时代,科学技术体系、产业布局及社会治理模式都将被深刻改变生产力发展数字经济时代020s2AI+产品AI+网络…AI+产品AI+网络…3充分发挥人工智能从“X+AI”到“AI+X”的变革性作用,重塑业务流程、形态、服务模式、价值呈现AAI+客服AI+OAaaS为实现AI赋能网络设计目标,需重点关注网络内生数据和模型的构建问题为实现网络使能AI设计目标,需重点解决网络边缘算力资源共享、端边协同的平台化服务网络平台服务4“AI赋能网络”+“网络使能AI”=AI内生6G网络为实现AI赋能网络设计目标,需重点关注网络内生数据和模型的构建问题为实现网络使能AI设计目标,需重点解决网络边缘算力资源共享、端边协同的平台化服务网络平台服务4面面向设计目标,AI赋能网络的设计重点在于数据和模型、网络使能AI的设计重点在于计算和平台AI赋能网络赋能场景AI赋能网络赋能场景使使能场景支撑驱动调用支撑驱动第三方模型数据模型数据构建构建构建CUDUAAUCUDU云用户无线网MEC云用户无线网MEC为实现为实现AI内生网络的整体性能最优设计,需重点解决AI赋能网络和网络使能AI在资源、功能和服务层的耦合关系,实现至简灵活的架构5研发九天人工智能大模型••基础大模型:加快构建适用于泛场景的自主可控通用基础大模型,打造国家级通用智能底座•行业大模型:聚焦供给侧,加快构建行业大模型,加速各行业各领域智能化转型升级,促进我国整体生产力跃升 支撑………衍衍生6新型智算中心以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,新型智算中心以高性能GPU、AI加速卡为中心,以高速互联智算集群为目标,形成集约化建设的E级超大规模算力基础设施,具备软硬件AI全栈环境,支撑AI大模型的高效训练和推理新互联新算效新存储新平台新节能7集群时期(~2025)单机8卡高速互联扣卡模组集群时期(~2025)单机8卡高速互联扣卡模组海量非结构化数据,融合存储算力池化,分布式训练单机柜40KW,冷板式液冷互联算效存储平台节能高性能无损网络DPU传统云数据中心异构时期(~2021)25G传统以太风冷独立存储PCIe在新互联、新算效、新存储、新平台、新节能等五大方面进行系统性重构,推动NICC新型智算中心超超级池化时期(2025~)亿)百卡高速总线互联存算一体内存池化算力原生冷板/浸没式液冷GSE裸裸机/虚机/容器8TesnsorFlowDeepSpeedPyTorch...AI开发框架应用使能算力原生算力抽象运行时CUDA+虚拟机实例实例容器实例架构编译器CANN...跨ROCm智算平台平台Hypervisor裸金属互联算效智算运维存储网络RoCEGSE文件对象块PUCIM算总线存储TesnsorFlowDeepSpeedPyTorch...AI开发框架应用使能算力原生算力抽象运行时CUDA+虚拟机实例实例容器实例架构编译器CANN...跨ROCm智算平台平台Hypervisor裸金属互联算效智算运维存储网络RoCEGSE文件对象块PUCIM算总线存储GPUCPU高速互联计计算D内存池基础设施融合存储全局统一存储节能机房配套高效供电液冷冷却水系统强化互联技术、深化算力协同、定义新型存储、新增算力原生、升级绿色节能构建标准统一、技术领先、软硬协同、兼容开放的NICC新型智算中心技术体系智算运营智算运营运营管理模块编排调度算力交易跨节点分布式训练调度计量计费用户界面运运维管理模块开发管理IaaS管理模块裸机存储交付管理虚机容器网络926Sever145037101234567Sever2模型参数26Sever145037101234567Sever2模型参数从千亿迈向万亿,互联高需求从8卡扩展到百卡间26SeverN45037126SuperSever(S2)架构26260…44455500333777111通信需求(张量并行)集中8卡之间信需求(MoE并行)集中在百卡之间模型从千亿到万亿,高速卡间互联需求从8卡扩展到百卡,智算设备形态将从S(Server服务器)演变为S2(SuperServer,超级服务器),带来智算中心底层互联技术的全新变革计算总线总线Switch总线Switch4一组有N张GPU/AI卡更低延迟的内部通信更高效的数据读写更灵活的拓扑连接一组有N张GPU/AI卡总线Switch总线Switch总线SwitchSwitchSwitch总线总线455220033NN11......独立转发决策被动拥塞控制流级独立转发决策被动拥塞控制流级ECMP以创新提性能基础转发机制导致AI场景性能受限大模型以分布式训练为基础,通信开销导致GPU集群有效算力难以线性提升,网络成为AI算力“瓶颈”,亟需构建以新型以太网技术为基础,开放兼容、超高性能的新型智算中心网络技术体系传统:网络性能和成本无法兼得未来:突破以太技术、升级高速互联专用网络、超高性能、成本昂贵•传统无损以太生态开放、性能有限专用网络、超高性能、成本昂贵•传统无损以太生态开放、性能有限、性价比高以开放破垄断分发粒度发流模式转发策略逐逐流分发盲盲发+被动拥塞控制““局部”决策转发逐逐“报文容器”分发感感知+主动流量控制““全局”最优调度统一内存池3-2、NICC新存储——内存池化统一内存池传统CPU和GPU分立的存储架构,导致数据大量搬移,影响模型训练效率需要构建CPU和GPU间的统一内存池,减少数据搬运,简化编程开发,使模型训练更加高效传统:HBM和DDR分立•数据多次复制,延迟高,影响模型训练效率•AI模型开发复杂,需要手动管理数据搬移未来:HBM和DDR池化•数据无需多次搬运,GPU可快速访问巨量共享内存•提供统一寻址空间,AI软件模型开发简化①存储一体化设计②稀疏化设计③①存储一体化设计②稀疏化设计③算法和芯片协同设计④低时延推理架构设计•面向大模型推理场景•基于SRAM,中大算力,100Tops+•无限擦写,数模混合,精度拼接随着NICC向超级池化阶段发展,解决海量数据处理要求,需要聚焦GPU升级,突破性能瓶颈,加强CPU、GPU、DPU三大芯片协同。未来,探索存算一体新型计算范式,达到能效比数量级提升下一代GPU芯片设计GPU、CPU、DPU三大芯片协同存算一体,突破传统计算范式达到能效比数量级提升性能瓶颈迎接更加爆炸式的数据处理需求显存带宽和容量的制约数据搬移的功耗激增演进路线•GPU+DPU,参数面网卡升级,进一步满足可编程拥塞控制及大QP数量等前沿需求•GPU+DPU+CPU,智算资源并池,大幅优化智算集群管理效率,实现文件存储卸载,加速训推过程框架层跨架构流转的原生程序原生运行时Pytorch……3-4、NICC新平台——引入算力原生框架层跨架构流转的原生程序原生运行时Pytorch……智算应用难以在多样竖井化智算生态间迁移部署,制约系统整体运用效能。中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,打破“框架+工具链+硬件”紧耦合生态锁定,屏蔽底层硬件差异,繁荣全“芯”生态应用层编程模编程模型转换、编译、优化程序加程序加载动态链接工具链NeuWareROCmCANN硬件层……CUDA oneAPINeuWareROCmCANN硬件层……CUDA•跨架构综合编译器实现图算融合的跨架构综合编译、多级IR互•原生程序格式规范实现“中间元语”跨厂商的再装配,智算用跨架构、可变粒度映射执行√√√挑战1:单一AI服务器功耗超过10kW700GPU5挑战1:单一AI服务器功耗超过10kW700GPU500400CPU300-400300W250-300150-2502016~20192020~2021TDP(W)2022~250智算中心走向超大规模,面对不断攀升的能耗需求,液冷是必经之路但液冷产业生态不完善,设备标准化程度低,需要通过“五大统一”实现三“极”目标挑战2:单机柜功耗超过4挑战2:单机柜功耗超过40kW30-6030-60kW/架15kw/架5-10kW/架通用服务器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论