NICC新型智算中心算力池化技术白皮书_第1页
NICC新型智算中心算力池化技术白皮书_第2页
NICC新型智算中心算力池化技术白皮书_第3页
NICC新型智算中心算力池化技术白皮书_第4页
NICC新型智算中心算力池化技术白皮书_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国移动通信有限公司研究院I中国移动通信有限公司研究院中国移动通信有限公司研究院 I II1.算力池化技术背景 21.1.1GPU资源利用率不足30% 21.1.2资源碎片化导致分配率低 3 42.算力池化定义与目标 6 6 63.算力池化架构与关键技术 8 8 3.3.1软件定义的资源分配方式 3.3.2算力资源高质量管理技术 3.3.3泛在化碎片的池化整合技术 164.算力池化产业实践 5.展望与倡议 26参考文献 27缩略语列表 281中国移动通信有限公司研究院1.算力池化技术背景着5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发2AI应用服务企业也在布局自有智算基础设施建设。然而,据公开数-Facebook2021年机器学习负载分析报告:平均GPU利用率3中国移动通信有限公司研究院片的概率则越大。近几年来,AI业务迅速发展,从训练到推动,从4中国移动通信有限公司研究院辑上聚合,AI任务在创建时,不再是将零散的、孤岛式的资源进行5中国移动通信有限公司研究院6中国移动通信有限公司研究院2.算力池化定义与目标7中国移动通信有限公司研究院8中国移动通信有限公司研究院3.算力池化架构与关键技术3.1算力池化平台技术架构图1算力池化平台技术架构-Kubernetes管理组件:基于Kubernetes原生管理服务组件定制化增强,如支持分布式文件存储、支持POD多网络平面、支持-Kubernetes调度扩展:关联Kubernetes调度服务扩展专用9-池化服务代理:根据智算资源池化控制器的调度结果,将池);-Kubernetes服务代理:基于Kubernetes原生服务代理组件创建应用时,可按新增的池化资源类型指定申请的资源数量(如中国移动通信有限公司研究院应的真实智算资源位置、规格,按查询结果分配智算资源、执行AI3.2算力池化技术能力层级L3:池化管理图2算力池化技术能力层级),实时响应上层应用对资源需求的变化,实现vGPU/AI芯片资源基于中国移动通信有限公司研究院3.3算力池化关键技术3.3.1软件定义的资源分配方式传统的依赖于硬件支持的虚拟化技术下,AI应用通过访问GPU/AI芯片的运行时所提供的接口,以获得对智算资源的中国移动通信有限公司研究院图3API劫持技术图解中国移动通信有限公司研究院),),图4应用程序监视器技术图解3.3.2算力资源高质量管理技术中国移动通信有限公司研究院式来对业务进行支撑,导致预留的资源量与实际的使用量之间存在较大的差距。如果能够将业务的波谷时段利用起来,就能减少波谷时间,从时间维度提升效能;同理,将资源预留冗余缩小,就能从空间维度提升效能。因此将不同优先级、不同波动周期的业务进行混合部署,为两个维度提升利用率提供了可能性,即利用低优先级任务占用空闲资源,同时高优先级任务能及时抢占到资源,从而保证关键业务的服务质量。算力池化技术可以通过软件定义,将底层物理硬件资源抽象后做适当的中国移动通信有限公司研究院放大,利用算力硬件计算周期空闲时间,通过时分复用有效使用算力,同时,利用单一指针进行内存托管,将显存、系统内存进行统一维护,在CPU与GPU之间形成内存池共享内存资源,由系统来自动地进行内存迁移,以实现GPU显存扩展,如CUDAunifiedmemory。AI训练任务的执行效率,算力池化技术可提供智能算力资源排队的3.3.3泛在化碎片的池化整合技术Alibaba-PAI》分析了阿里一个训练集群上):中国移动通信有限公司研究院图5阿里某训练集群的负载特征中国移动通信有限公司研究院在兼顾训练任务的整体吞吐率、GPU/AI芯片资源的整中国移动通信有限公司研究院4.算力池化产业实践4.1业界厂商池化技术实践图6趋动科技OrionX软件架构20中国移动通信有限公司研究院vSphereBitfusion服务器软件的虚拟机或容器POD上共享对远程图7VMwareBitFusion软件架构21中国移动通信有限公司研究院图8VMwareRadium软件架构占一个或者多个GPU、使多个KubernetesPod共享一个GPU;针对22中国移动通信有限公司研究院图9中兴TECSOpenPaletteGPU方案架构23中国移动通信有限公司研究院图10华为基于Volcano的CCE方案架构-在线离线混合调度:CCE可以将离线和在线业务在同一集群-应用感知智能调度:为了进一步提升混合部署后的资源利用-大规模分布式调度:为了保障业务混合部署后,海量任务并24中国移动通信有限公司研究院4.2中国移动池化技术实践图8中国移动智算中心技术架构25中国移动通信有限公司研究院26中国移动通信有限公司研究院5.展望与倡议27中国移动通信有限公司研究院参考文献[1]算力网络白皮书[R],中国移动,2021[2]算力网络技术白皮书[R],中国移动,2022[3]中国算力发展指数白皮书[R],中国信息通信研究院,2021[4]AI框架发展白皮书[R],中国信通院,2022[5]新型数据中心发展三年行动计划(2021-2023年),中国工业和信息化部,2021[6]CharacterizingDeepLearningTrainingWorkloadsonAlibaba-PAI,WangM,MengC,LongG,etal.,201928中国移动通信有限公司研究院缩略语列表缩略语英文全程中文释义AIArtificialIntelligence人工智能CPUCentralProcessingUnit中央处理器GPUGraphicsProcessingUnit图形处理器CUDAComputeUnifiedDeviceArchitectureNVIDIA推出的GPU运行时APIApplicationProgramInterface应用程序接口TCOTotalCostofOwnership总体拥有成本K8SKubern

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论