OrionX AI算力资源池化解决方案技术白皮书_第1页
OrionX AI算力资源池化解决方案技术白皮书_第2页
OrionX AI算力资源池化解决方案技术白皮书_第3页
OrionX AI算力资源池化解决方案技术白皮书_第4页
OrionX AI算力资源池化解决方案技术白皮书_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录引言 1GPU资池技的进 2OrionX品述 3OrionX品势 4OrionX件构 5OrionX逻架构 5OrionX功组件 6OrionXController(OC) 6OrionXServerService(OSS) 6OrionXClientRuntime(OCRT) 7OrionXGUI(OG) 7OrionX件通信 7管理面 8数据面 8部署态 10OrionX容云台成 10OrionX与KubernetesOrionX与KVMOrionX与VMware12OrionX用景 14OrionX持模场典型用 14通过“零整”能持练 14通过“空物”能持练 15OrionX持模场典型用 16通过“整零”能持理 16通过“空物”能持理 17OrionX持大/模场的典应用 18通过“需变”能持练/推理 18通过“务列”能持练/推任自排队 19通过“占”能持务占资源 20通过“存分”能持任务加驻 21通过“类源池功支物理/拟换 22通过“迁移功支持AI任务滑移 23通过“多Arch”架可支持AI算图渲染 25OrionX持元构芯片 28性能试 30测试境 30测试果 31兼容列表 33图表目录图表1-1全球人工智能市场规模走势图 1图表2-1GPU资源池化技术演进图 2图表3-1ORIONX架构图 3图表5-1ORIONX逻辑架构图 5图表5-2管理平面逻辑结构图 8图表5-3数据平面逻辑结构图 9图表6-1ORIONX与容器云平台集成 10图表6-2ORIONX和KUBERNETES集成 11图表6-3ORIONX和KVM12图表6-5ORIONX和VMWARE集成 13图表7-1通过化零为整功能支持训练 15图表7-2通过隔空取物功能支持训练 16图表7-3通过化整为零功能支持推理 17图表7-4通过隔空取物功能支持推理 18图表7-5通过随需应变功能支持训练/推理 19图表8-1模型推理测试结果 31图表8-2模型训练测试结果 32引言20202025620201600图表1-1全球人工智能市场规模走势图作为AIGPUFPGAAI根据IDC202156.920202025108.6亿美元,其五年复合增长率为25.3%。AI地使用昂贵的AIAIAIAIAI杂性、提高AIGPU资源池化技术的演进GPU资源池化技术从初期的简单虚拟化,到资源池化,经历了四个技术演进阶段。简单虚拟化GPU2的NPUUPUAIAI任意虚拟化AI应vGPU。远程调用AI应用与物理GPUGPUAIGPU资源池化vGPU图表2-1GPU资源池化技术演进图OrionX产品概述趋动科技的OrionX(猎户座)AI算力资源池化解决方案已经实现了上述四个阶段的技术功能,可以为用户提供GPU资源池化的整体解决方案。OrionXAI使用数据中心内任何服务器之上的AIOrionXAIAI图表3-1OrionX架构图OrionXAIAIGPUAIAIvGPUOrionXvGPUGPUOrionXGPUGPUOrionX产品优势OrionXGPUAIGPUAIOrionX提高利用率GPUAIGPU3-10倍,1N高性能vGPUvGPU2%。vGPU轻松弹性扩展GPUGPU全分布式部署,通过TCP/IP灵活调度支持AIGPUCPUGPU全局管理GPUAI开发人员友好AIGPU/CPUOrionX软件架构OrionX的逻辑架构一个典型的XU资源池的逻辑架构中包含了iXClr(C、iSrce(SiXlitRieCTXU()OrionXGPUAI算力。OrionX图表5-1OrionX逻辑架构图CUDA(ComputeUnifiedDeviceArchitecture)NvidiaGPU2007AI、MXNetPaddlePaddle都是基于CUDAOrionX在管理物理GPUCUDAAI应用提供一个与NvidiaCUDASDK接口功能一致的运行环境,从而使得AI应用透明无感知地运行在OrionXGPUOrionXCUDACUDAOrionX的功能组件OrionXController(OC)OrionXControllerOrionX接或者间接通过网络连接到iXClriXPUIPGPUOrionXGPUOrionXControllerOrionX2+1OrionXControllerLicense提供运维所需要的各种RestAPI。OrionXServerService(OSS)OrionXServerServiceGPUOrionXOrionXServerServiceOrionXOrionXServerServiceGPUGPU资源抽象成弹性的vGPU。执行AIOrionXClientRuntime(OCRT)OrionXClientRuntime是一套兼容NvidiaCUDACUDAAI应用在使用NvidiaGPUOrionXClientRuntime。由OrionXClientRuntime提供和NvidiaGPUCUDAGPUOrionXClientRuntime部署在每一个应用环境下,替代原有的NvidiaCUDASDK。OrionXClientRuntime提供如下功能:兼容CUDAOrionXGUI(OG)OrionXGUI给运维提供一个友好的GUI界面,方便管理员对OrionX整体资源池进行全面管理。OrionXGUI提供如下功能:OrionX组件间通信OrionX的各个功能组件通过管理平面网络和数据平面网络进行通信,共同完成GPU资源池的管理以及GPU资源的调度等功能。管理平面OrionXTCP/IPOrionXController图表5-2管理平面逻辑结构图通过私有的同步协议,分布式部署的各个功能组件具有如下特点:OrionXController数据平面OrionX的数据面。该数据面支持多种后端数据传输载体,包括TCP/IP以太网络、RoCERDMA、InfinibandRDMA、ShareMemory支持虚拟机、容器和宿主机之间的TCP/IP图表5-3数据平面逻辑结构图部署形态OrionXBinaryOrionXLinuxOrionXCentOS、UbuntuDebianLinuxKVMDockerKubernetesOrionX与容器云平台集成OrionXOrionXOrionXGPUOrionXGPUDrivers、CUDA、CUDNNNCCLOrionXClientRuntimeAI应AI图表6-1OrionX与容器云平台集成OrionXKubernetes集成OrionXKubernetesK8SK8SGPUvGPUDefinedDataCenter,OrionXKubernetesOrionXKubernetesDevicePluginOrionXControllerOrionXGPU通过Kubernetes定义的DevicePlugin标准向Kubernetes注册名字为/gpu的资源。OrionXKubernetesSchedulerExtender提供基于HTTPAPI通过配置文件向K/gpuOrionKubernetesSchedulerExtender的HTTP图表6-2OrionX和Kubernetes集成OrionX与KVM集成OrionX支持原生KVM,各个组件都可以通过Binary方式部署。在KVM环境中,客户使用OrionX组件的安装脚本,就可以完成OrionX的基础部署,轻松实现GPU资源池化。OrionXKVMOrionXControllerOrionXServerServiceBinary方OrionXClientRuntimeVMGPUDriversCUDA、CUDNN和NCCL等软件栈都下沉到宿主机上。这样,VM内部只需安装OrionXClientRuntimeAIAI基础基于KVM的云平台,例如OpenStack,OrionX提供全开放的RestAPI接口,与Nova组件对接,实现GPU资源池中的vGPU资源在OpenStack中的集中配置和调度管理。图表6-3OrionX和KVM集成OrionXVMware集成iXVeSiyVMS中,将物理,在该VMOrionXController和OrionXServerServiceVMVMAIOrionXClientRuntimeGPUGPU6-4OrionX和VMware集成OrionX应用场景OrionX支持大模型场景的典型应用AI通过“OrionXGPU(HorovodDistributedDataParallel)AIGPU支持训练等大模型场景,为用户的AIHorovod是UberPython、、MXNetDistributedDataParallel(DDP),DDP属于DatabatchsizeDDP通过Ring-Reduce的数据交换方法提高了通讯效率,并通过启动多个进程的方式减轻PythonGIL的限制,从而提高训练速度。图表7-1通过化零为整功能支持训练通过“OrionXGPUGPUAIOrionXGPUAIGPU物CUP“”图表7-2通过隔空取物功能支持训练OrionX支持小模型场景的典型应用GPU卡AIOrionXGPU通过“OrionXGPUvGPUvGPU算力切分的最小颗粒度为原物理GPU算力的1%;显存切分的最小颗粒度为1MB。图表7-3通过化整为零功能支持推理通过“OrionXGPUAI帮助用户实现了CPUGPUCPUGPU需可以更好的平衡CPUGPU“”GPUvGPU图表7-4通过隔空取物功能支持推理OrionX支持大/小模型场景的典型应用通过“/OrionXGPUGPUOrionXvGPUAI而无需重启挂载vGPUOrionXvGPU预留模式:GPUvGPU获取模式vGPUAI资源GPUAI应用结束,物理GPU图表7-5通过随需应变功能支持训练/推理通过“/vGPU/OrionXOrionX允许对任务进行队列优先级预设,一旦资源缺乏导致任务进入等待队列,按照优先级进行全局排列,优先匹配重要任务。图表7-6通过任务队列功能支持训练/推理任务自动排队通过“抢占”OrionX图表7-7通过抢占功能支持任务抢占资源通过“通常推理任务为满足最佳用户体验,会将推理模型常驻显存,24小时不中断,以便拥有最快响应速度。但是这类常驻任务一般算力利用极低,而且潮汐效应明显。iXiXPU在逻辑上扩大GPUGPU根据业务特点,OrionX还支持不同任务设置不同优先级,从而保证突发高优先级任务的服务质量。图表7-8通过显存超分功能支持多任务叠加常驻通过“”/个别AINativeGPUOrionX支rnX(roXNativeGPU(GPU。OrionXOrionXGPU,GPUNativeGPUOrionXGPUNativeGPUOrionXAINativeGPUGPU7-9通过双类资源池功能支持物理/虚拟切换通过“”功能支持AIOrionXGPUGUIdriver/runtime应用场景1:算力池资源负载均衡GPUGPU迁移前:迁移后:图表7-10算力池资源负载均衡应用场景2:算力资源碎片整理GPU迁移前:迁移后:图表7-11算力资源碎片整理应用场景3:GPU服务器下线维护GPU服务器下线维护,主要应用在GPU物理服务器计划停机维护场景,GPU物理服务器因为迁移前:迁移后:图表7-12GPU服务器下线维护通过“Arch”AIOrionXMulti-Arch(Arch)vGPUAICUDAOpenGLArch架构下,单个容器或虚拟机可运行多协议CUD+OpnGICDOpenL图表7-13通过多Arch架构可同时支持AI计算与图形渲染应用场景1:虚拟数字人推理场景IP24ArchvGPUAI图表7-14虚拟数字人推理场景应用场景2:研究科学计算场景GPUOpenGLArchvGPU图表7-15研究科学计算场景OrionX支持多元异构算力芯片OrionXAI()AI()OrionXGPU(AI()图表7-16OrionX支持多元异构算力芯片AIOrionXAIAIAI11MBAIAI性能测试测试环境硬件配置IntelXeonGo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论