人工智能算力资源池技术规范_第1页
人工智能算力资源池技术规范_第2页
人工智能算力资源池技术规范_第3页
人工智能算力资源池技术规范_第4页
人工智能算力资源池技术规范_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Q/LB.□XXXXX-XXXX人工智能算力资源池技术规范范围本文件规定了人工智能算力资源池的总体架构、总体要求、功能要求、兼容性要求、组件通信要求、部署集成要求及安全和可靠性要求。本文件适用于人工智能算力资源池的设计、开发和运维。规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T41867-2022信息技术人工智能术语GB/T42018-2022信息技术人工智能平台计算资源规范术语、定义和缩略语术语和定义GB/T41867-2022、GB/T42018-2022界定的以及下列术语和定义适用于本文件。为方便使用,以下重复列出了GB/T42018-2022中的一些术语和定义。

人工智能加速卡artificialintelligenceacceleratingcard专为人工智能计算涉及、符合人工智能服务器硬件接口的扩展加速设备。[来源:GB/T42018-2022,3.6]

物理计算资源physicalcomputingresource为人工智能应用提供信息处理能力(如存储、计算等)的实体设备。人工智能服务器、人工智能加速卡和人工智能加速模组等。[来源:GB/T42018-2022,3.3]

虚拟计算资源virtualcomputingresource为人工智能应用提供信息处理能力(如存储、计算等)的逻辑设备。逻辑设备是物理设备的虚拟化形态,它与物理设备间存在映射关系。[来源:GB/T42018-2022,3.4]

AI算力池化AIcomputingpowerpooling对物理计算资源进行抽象,软件化后形成一个统一的资源池,方便用户按需对计算资源进行有效调用,无需关注实际物理计算资源的大小、数量、型号以及安插的物理位置。缩略语下列缩略语适用于本文件。AI:人工智能(ArtificialIntelligence)API:应用程序编程接口(ApplicationProgrammingInterface)ASIC:专用集成电路(ApplicationSpecificIntegratedCircuit)CPU:中央处理器(CentralProcessingUnit)FPGA:现场可编程逻辑门阵列(FieldProgrammableGateArray)GPU:图形处理单元(GraphicsProcessingUnit)KVM:基于内核的虚拟机(Kernel-basedVirtualMachine)总体架构人工智能算力资源池总体架构见图1。总体架构其中:人工智能业务:基于自然语言处理、计算机视觉、机器学习等技术实现的业务应用;异构算力资源池:通过软件定义的方式将多种异构算力变成可动态管理的资源池;运行时:一套兼容各类计算资源的API编程环境的运行环境,模拟API编程的运行时接口,实现与上层AI框架的对接和管理;调度控制服务:资源池的核心管理、调度模块,实现对节点IP地址、物理计算资源信息、虚拟计算资源信息以及应用任务信息等的汇总管理;运维管理:提供图形用户界面,实现资源池全方位管理与监控;AI算力池化服务:发现并管理节点上的物理计算资源,将物理计算资源池化,将计算能力提供给集群中各个物理节点,以及各个物理节点上的虚拟机、容器;异构算力:GPU、FPGA、ASIC等多种计算资源。总体要求资源池应采用分布式架构、模块化设计,在架构及功能方面应具备良好的系统可扩展能力,使得系统在为用户提供服务的过程中能实现平滑扩展,持续运行。资源池应支持纳管GPU、FPGA、ASIC等各类异构计算资源。资源池采用的软硬件应便于安装、升级,并具有友好的管理界面。资源池应具备人工智能应用和计算资源的解耦能力,在同一集群的任意节点上运行人工智能业务均可调用人工智能算力资源池内的资源。资源池应具备提供细粒度算力资源的能力。虚拟算力资源池本地调用性能损耗应不高于1%,RDMA网络情况下远程调用性能损耗不高于8%。资源池应对能耗进行有效的监控和管理,通过远程管理提高运维管理效率。资源池应支持业务不停机的灰度升级部署。资源池在运维管理方面应具备计算资源全局监控、告警、日志、数据统计、报表等能力。功能要求池化管理功能应支持AI应用与物理计算资源解耦合,AI应用向资源池软件调取虚拟计算资源,资源池软件再匹配物理计算资源;应支持多台物理计算资源节点跨机资源聚合,为单一容器/虚拟机提供多卡虚拟计算资源;应支持运行在普通CPU节点的人工智能业务通过网络远程调用物理GPU计算资源节点上的虚拟计算资源;应支持虚拟计算资源动态调整,无需重新加载/重置/重启容器/虚拟机等运行环境。池化调度功能应支持配置多种算力资源池任意调度策略,包括本地调度、本地优先、节点均衡/紧凑、设备均衡/紧凑等调度策略;应支持为不同的AI任务提供个性化的计算资源调度策略;应支持AI任务调度计算资源时,可指定物理计算资源节点、人工智能加速卡芯片型号。提供任意规格算力资源功能应支持为上层业务提供聚合多台计算资源节点上的物理计算资源的能力,提升计算能力。应支持为上层业务提供的虚拟计算资源按照算力1%和显存1MB两个维度进行任意切分,提供小算力资源,提供给小任务使用,以此节约算力使用。虚拟算力资源隔离功能应支持同一张人工智能加速卡上多任务虚拟计算资源并发运行,虚拟计算资源多任务隔离保护,异常虚拟计算资源任务不影响其他正常任务。业务热迁移功能应支持人工智能业务无需中断的业务迁移能力,迁移过程中不影响AI业务对计算资源的远程调用,能够有效保证业务连续性,减少上层业务宕机时间,提升用户使用体验。横向扩展功能应支持资源池平滑扩容、缩容,支持添加和删除计算资源节点或者人工智能加速卡。兼容性要求网络兼容性:TCP/IP以太网络、RDMA网络(InfiniBand和RoCE)。GPU设备兼容性:NVIDIAGPU、寒武纪MLU、中科海光DCU。API版本兼容性:NVIDIACUDA、寒武纪Neuware、中科海光ROCm。操作系统兼容性:64位CentOS6/7、64位Ubuntu16/18/20。云平台兼容性:容器环境、kubernetes环境、KVM环境。深度学习框架:TensorFlow、Pytorch、PaddlePaddle、MXNet、Xgboost、Deepsheech、NVCaffe、TensorRT、ONNX。组件通信要求管理平面网络在部署人工智能算力资源池时,使用基于TCP/IP网络的管理平面,来承载整个系统的管理工作。通过管理网络,分布在各个节点的功能组件都保持和GPU资源池控制模块同步。管理平面网络逻辑结构见图2。管理平面网络通过私有的同步协议,分布式部署的各个功能组件应满足如下要求:算力资源池控制模块支持多副本、高可用的部署模式;各个功能组件启动的次序无要求;当某一个功能组件从错误中恢复之后,可以自动同步到正确状态。数据平面网络在应用运行的过程中,应用所在环境和计算资源物理节点之间的数据传输使用的是资源池软件的数据面。该数据面支持多种后端数据传输载体,包括TCP/IP以太网络、RoCERDMA、InfinibandRDMA、ShareMemory等。数据平面网络逻辑结构见图3。数据平面网络数据平面网络应满足如下要求:——高带宽、低延迟;——同时支持多种传输协议,根据优先级自动使用高性能的传输方式;——支持虚拟机、容器和宿主机之间的TCP/IP网络隔离。部署集成要求部署要求资源池的各个服务组件,应支持集中式单机部署或者分布式多机部署,部署形式包括直接部署在裸金属服务器上,即安装操作系统后,直接以Binary形式部署,也支持以容器镜像方式部署。集成要求资源池应具备适配多种Linux操作系统和云平台的能力,同时支持基于KVM的虚拟机云平台和基于Docker的容器云平台。应支持原生容器,提供完善的虚拟GPU资源调度插件,以实现和Kubernetes的平滑对接。安全和可靠性要求安全要求资源池架构应考虑系统整体运行的安全策略和机制,应采用多种安全技术手段,为系统提供完善的安全保障。应具备自动或手动恢复措施,保证发生故障时能够快速恢复正常运行。资源池应对登录操作系统、数据库系统和应用系统的用户进行身份标识和鉴别,应严格限制匿名用户的访问权限;对管理系统本身的操作进行分权、分级管理。资源池内主机应具备对外界入侵、恶意代码的告警、监控和防护功能。资源池应对物理计算资源使用情况进行有效的监

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论