




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1IIII目 次前 言 III引 言 IV1范围 1规范性引用文件 1术语和定义 14 缩略语 3人工智能计算虚拟化系统架构 3虚拟化技术要求 46.1 概述 4基本要求 4资源抽象 5CPU虚拟化 6GPU虚拟化 7NPU虚拟化 8FPGA虚拟化 9虚拟化接口 10计算资源调度 117.1 概述 11资源调度技术要求 147.3 运维监控 158 测试 16虚拟化测试 16集群调度测试 20PAGEPAGE26技术 人工智能 计算设备调度与协第1部分:虚拟化与调度范围本文件规定了人工智能计算设备虚拟化与调度系统的技术要求,关于人工智能计算设备虚拟化与调度系统的测试方法与测试指标。本文件适用于指导人工智能计算设备虚拟化与调度系统的设计、研发、测试。规范性引用文件本文件没有规范性引用文件。术语和定义下列术语和定义适用于本文件。3.1人工智能计算单元 artificial intelligence computing unit可执行完整的AI计算任务所必要部件的最小集合。注:人工智能计算单元一般封装在AI处理器或加速卡中。3.2人工智能加速卡 artificial intelligence accelerating card专为人工智能计算设计、符合人工智能服务器硬件接口的扩展加速设备。注1:本文件中,在不至于误解的语境中,将人工智能加速卡简称为AI加速卡。注2:人工智能加速卡按功能可分为人工智能训练加速卡,人工智能推理加速卡等。[来源:GB/TBBBBB.BBBB,3.7]3.3人工智能计算实例 artificial intelligence computing instance可执行完整机器学习训练或推理计算任务的虚拟化对象,可以是AI计算单元的组合。3.4[异构]资源池 [heterogeneous] resource pool调度软件集合。注1:异构资源池提供一种可伸缩计算架构,有利于合理分配计算资源,为不同运行环境(例如云、集群、移动设备、物联网)的人工智能应用系统的开发和部署提供计算能力、存储、带宽和延时保障。注2:人工智能计算资源包括中央处理单元(CPU),图形处理单元(GPU),神经网络处理单元(NPU),现场可编程逻辑门阵列(FPGA),数字信号处理器(DSP),专用集成电路(ASIC)等。[来源:GB/TAAAAA—AAAA,3.1.9]3.5计算能力 computing capability产品或系统参数能够满足计算需求的最大程度。注1:参数指能处理的作业数量,能服务的最大用户数量或事务吞吐量等。注2:标称计算能力是特定产品或系统在单位时间内理论上能完成的计算操作次数。3.6神经网络处理器 Neural-network Processing Unit一种专门针对神经网络计算进行特殊优化设计的集成电路元件。注:该类集成电路元件擅长处理视频、图像、语音类多媒体数据。3.7人工智能[计算]任务 artificial intelligence computing task为取得特定人工智能计算目标所需的活动。注:本文件中,在不至于误解的语境中,人工智能计算任务一般指推理或训练任务。[来源:ISO/IEC25062—2006,4.9,有修改]3.8性能 performanceAI性。注1:可包含定性及定量的特征;注2:性能可基于一个或多个参数(如能耗、流量、吞吐率、运行时间以及速率等)的测量或计算获得,以表征在某机器中运行的某技术过程的行为、特性以及效率。[来源:ISO/IEC20000.10—2018,3.1.16,有修改]3.9人工智能集群 artificial intelligence cluster遵循统一控制的,人工智能计算功能单元的集合。注1:人工智能计算功能单元可包含:人工智能加速处理器,人工智能服务器,人工智能加速模组等。注2:当由人工智能服务器组成时,人工智能集群可称为人工智能服务器集群。[来源:GB/TAAAAA—AAAA,3.1.4,有修改]3.10节点 node由网络连接的,能完成特定人工智能计算任务的物理或逻辑AI计算设备。[来源:ISO/IEC14575—2000,3.2.27,有修改]缩略语下列缩略语适用于本文件:AI人工智能(ArtificialIntelligence)ALU算术逻辑单元(ArithmeticLogicUnit)BAR基址寄存器(BaseAddressRegister)CPU中央处理器(CenterProcessingUnits)DDR双倍速率传输率(DoubleDataRate)DMA直接存储器访问(DirectMemoryAccess)DoS拒绝服务(DenialofService)FPGA现场可编程逻辑门阵列(FieldProgrammableGateArray)GDDR图形双倍速率传输存储器(GraphicsDDRSDRAM)GPU图形处理器(GraphicsProcessingUnits)HBM高带宽存储器(HighBandwidthMemory)HRP硬件资源池(HardwareResourcesPool)MLU机器学习单元(MachineLearningUnit)NIC网络接口控制(NetworkInterfaceController)NPU神经网络处理器(Neural-networkProcessingUnits)PCIE外设部件互联高速通道(PeripheralComponentInterconnectExpress)QEMU快速模拟器(QuickEmulator)QoS服务质量(QualityofService)SDM空分复用(Space-DivisionMultiplexing)TDM分时复用(Time-DivisionMultiplexing)USB通用串行总线(UniversalSerialBus)VFIO虚拟功能输入/输出(VirtualFunctionInputOutput)VM虚拟机(VirtualMachine)VMX虚拟机扩展(VirtualMachineExtension)VMM虚拟机监视器(VirtualMachineMonitor)人工智能计算虚拟化系统架构注:本文件涉及图中实线框起部分的标准化,虚线框起的部分不属于本文件的标准化范畴。图 1 人工智能计算资源虚拟化参考架构1AICPU,GPU,NPU,FPGA虚拟化技术要求概述AI系统的虚拟化技术是一种计算资源管理的方法,将用于AI任务的含有异构加速器的不同AI加速卡,切分,调配或整合,目的是提高利用率,减少AI加速卡计算资源的浪费。注:本文件中计算资源虚拟化规定的范围不包含其它计算资源,如网络、存储等。基本要求人工智能加速卡的虚拟化,符合以下要求:AI加速卡的虚拟化,应符合以下要求:AI加速卡虚拟化为多个AI计算实例;AI加速卡虚拟化为单个AI计算实例;虚拟化技术得到的AI计算实例,满足物理机、虚拟机和容器的使用场景;支持算AI加速卡的灵活切分、隔离;支持PCIE、HCCS、USB连接部署;虚拟化组件或系统,宜支持对AI计算实例的监控,包括:资源的利用率,包括计算资源的利用率;算子时延的统计;各虚拟机的带宽可观测;小时长平均的比值;虚拟化后,AI加速卡的算力损耗;AI负载特性与资源可变特性。应符合以下关于隔离功能的规定:虚拟化得到的AI计算实例满足隔离要求,以确保用户和硬件设备的安全。故障隔离:——计算实例的业务故障隔离,计算实例内的单点故障只上报给该虚拟机;——计算实例之间不干扰;——计算实例的业务故障可以通过用户API返回;——支持以下类型设备故障隔离:,PCIE故障、DDR故障、内存总线挂死等;——整体设备的单点故障上报给所有的计算实例。用户间的性能隔离,满足每个用户使用计算资源的性能不被并发执行的多个用户所破坏。安全隔离,支持以下功能,包含但不限于:——防止仿冒;——防止篡改;——防止信息泄露;——防止DoS攻击;——防止权限提升;——防止抵赖。统的性能。应具有QoS保证,使单个AI任务单独运行。应支持公平性保证,可多个任务同时运行。虚拟化宜支持以下技术,包含但不限于:——支持高可用集群技术;((务器、防火墙等)或多条链路,从而提高了业务处理能力,保证了业务的高可靠性;——支持内存复用技术,方式包括内存气泡、内存置换、内存共享等;——支持易扩容技术。资源抽象人工智能计算资源抽象,符合以下要求:AI加速器的虚拟化应抽象资源,为资源调度层提供可调度的属性及相关状态信息,包含:物理资源的抽象,可为资源调度层提供重新分配的资源;虚拟化技术抽象出的AI计算实例可以是全部的物理资源或部分物理资源;虚拟化技术抽象出的每个AI计算实例应能执行完整的神经网络计算:——完整的卷积计算;——完整的向量计算;——完整的标量计算;——数据传输和交换能力;虚拟化技术得到的AI计算实例应包含以下部件并作为可调度的属性:——计算部件;——缓存部件;——寄存器;——存储器;——数据通信部件;虚拟化技术得到的AI计算实例,应具有以下状态信息:——实例使用状态;——空闲可使用;——已占用;——待使用;——待释放;——损坏;AI计算实例规格,如计算能力、内存空间、数据传输率等;AIAI计算实例所属的AIAI计算图资源是对AI任务的抽象,包含:数据流图:——用有向图由点和边构成,表示神经网络的计算流程,是一种逻辑流图,在硬件上转换为物理流图;——有向图中的点表示计算;——有向图中的边表示数据依赖;——数据流连接线以外出箭头表示将数据写入数据存储;——数据流连接线以输入箭头表示从数据存储中读取数据;——输入和输出数据流必须在数据流图之间保存一致。2)设备(Device)是用于执行数据流图的虚拟设备。——计算流的同步:一个计算流中的任务依赖于另一个计算流中的任务。——计算流可并行处理,一般硬件资源约束。任务(Task)包括,如算子计算、数据同步、数据迁移等;事件(Event)可用来标记计算流,用于计算流的同步,操控设备的运行步调。标识(Notify)可用于表示任务同步,用于实现集合通信时不同设备间的任务同步。核心(Kernel),如二进制指令的注册,内核函数的注册,Kernel的启动等;(Context)defaultstreamstream性(如调度策略);任务、事件、标识可以时硬件实现,也可软件实现;AI存等资源进行切分,映射成不同的设备,会受到硬件资源总数限制;若事件、标识和任务等抽象概念可以以软件形式实现,则不受硬件资源总数的限制。CPU概述CPU虚拟化分为基于软件的虚拟化和硬件辅助虚拟化;CPU宜用于AI推理任务;虚拟机(guestVM)所使用的多个CPU计算实例(vCPU)可以是:1)CPU;2)由多个物理CPU提供;CPU虚拟化的参考架构可见附录A.2;CPU虚拟化技术应满足6.2节中的基本要求。CPUCPU虚拟化后的计算实例(vCPU),应符合以下要求:能完成机器学习的推理作业;能避免宿主机上CPU资源的浪费;能通过vCPU的热插拔特性动态的为虚拟机添加vCPU;能配置vCPU的亲和性;CPU计算实例的规格,应使用以下指标衡量:处理器内核数;每个内核的线程数;CPU划分的比例;内存大小;缓存大小。GPU概述对于计算集群中的GPU复用或空分复用的方式得到GPUGPU计算、加解密(明确如算法)等场景。GPUa)GPU计算实例(vGPU),应满足以下要求:1)GPU可执行的机器学习算法;满足6.2中的基本要求;通过时分复用或空分复用的方式得到;GPU计算实例,应包含以下部件:——计算部件:执行计算的单元,即流处理器,完成整形和浮点型计算;——视频编解码部件;——内存,包括DDR、GDDR和HBM等),其容量单位为MB、GB;其带宽为GB/s——各级缓存,其容量单位为MB或GB,其带宽单位为GB/s;——共享存储;——支持负载均衡;GPU计算实例的规格,应由以下指标统一衡量:——计算能力(单位:GOPS或GFOPS);——视频编解码能力(单位:1路1080P,30FPS);——内存/显存容量(单位:GB);——缓存容量(单位:MB);——网络宽带能力和收发包能力(注GPU间);6)GPU虚拟化技术应提供最小规格计算实例(即最小调度单元)。NPU概述图 2 NPU虚拟化架构图NPU的虚拟化架构见图2。NPU的虚拟化,符合以下规定:虚拟化应能对1个或多个NPUNPU时间片或空间片分配给虚拟机,供虚拟机调度使用;NPU虚拟化,应满足5.1节的基本要求。c)NPU虚拟化的参考方案,见附录A.1;d)能够支持对NPU计算QoS的控制;e)NPU的计算单元,应:支持独立完成一次完整的神经网络计算;具备以下单元:——AI核心:执行神经网络类算子的计算;——向量核心:执行非神经网络类的向量算子计算;——协处理CPU:流水线调度及逻辑、标量运算执行;——宿主机CPU:NPU设备所挂载主机的CPU,执行训练过程中模型和数据的读写;f)NPU的属性包括功耗和算力;g)应能按人工智能计算任务量,动态分配计算实例规格,实现加速卡的虚拟化;h)虚拟化的NPU应支持AI推理和训练;i)应支持NPU与CPU(或协处理CPU)的协同处理完成特定任务。NPUNPU虚拟化后得到的AI计算实例,应满足:提供矩阵乘的计算部件,执行卷积与全连接的计算:——具有执行矩阵计算的计算核心;——具备缓存矩阵分别存储中间过程数据和结果数据;——具备数据寄存器,寄存矩阵运算的过程数据与结果;提供向量运算的部件,以执行池化、激活函数以及批正则化等运算:——具备执行向量计算的核心单元;——具备相关的存储单元;提供控制和标量运算的计算部件:——具备执行标量运算的单元;——具备通用寄存器;——具备专用寄存器;数据的存储部件;数据通路部件,保证计算部件与存储部件之间的数据供应。b)NPU虚拟化得到的计算实例规格,应由以下指标衡量:计算能力;吞吐量;内存;缓存;剩余带宽。FPGA概述FPGA虚拟化是在时间和空间维度上,对多个FPGA的各类资源的调度与使用。FPGA虚拟化满足以下要求:;应符合6.2节的规定;支持深度学习加速,并具备性能隔离;支持多路计算;支持FPGAOverlay,在FPGA硬件之上,形成虚拟可编程架构,支持上层使用;支持FPGA动态重构和配置。FPGAFPGA计算实例(vFPGA)应满足以下要求:支持其非虚拟化版本所能执行的机器学习任务;FPGA划分为多个vFPGA;为一个或多个动态重构的FPGA区域;vFPGA实施动态重构时,其他vFPGA的运行不受影响;FPGA资源的空置和浪费;FPGA虚拟化得到的计算实例规格,应由以下指标衡量:1)算力;吞吐量;延迟;功耗;灵活性。虚拟化接口概述CPU,GPU,FPGA,NPU层的接口。计算实例的发现下信息的API接口:对于一个物理AI加速卡,虚拟化技术应提供:1)AI加速卡虚拟后可用计算实例的最大数量;2)已经在执行计算任务的计算实例数量;3)——执行任务的计算实例资源占比;——剩余可虚拟化的资源占比;计算实例的规格信息接口,应满足6.3a)6)的要求;计算实例的状态应包含:已使用:当前的计算实例正在执行相关的计算任务;未使用:当前的计算实例应处于空闲状态;损坏:当前的计算实例已经被损坏,无法执行相关的计算任务;等待:计算实例没有执行计算任务,但已经被分配;应支持资源池在以下情况时的更新:1)计算实例被释放;空闲计算实例被占用;计算实例进入等待队列;计算实例被损坏;损坏的计算实例修复;对单个AI加速卡的虚拟化,宜提供以下接口信息:创建的AI虚拟计算资源,指定其归属的父设备,即AI虚拟计算资源所在的物理AI并提供相关的查询方式,包括但不限于:Python编程接口,Sysfs接口,或命令行接口;(如GPUNPUFPGACPU及其型号用于创建虚拟化节点的信息,只提供可写的接口;厂商对设备的描述信息;每个虚拟化计算节点的驱动接口信息,即驱动API;指向每个虚拟化计算节点的软链接。计算实例的删除应支持对虚拟化计算资源的删除与恢复的接口:1)2)支持将删除资源恢复的能力,即对计算资源的重新发现。计算实例的监控应支持对计算实例的实时监控接口:状态监控,包含是否已使用、未使用、损坏和等待等;算力监控,即资源调度层所管理的物理算力的总和;计算实例所在的AI加速卡;计算实例的规格信息,包括内存、可观测带宽等;计算实例的频率、温度、功率以及电压;每个计算实例的算子时延剖析、时延统计信息。计算资源的分配应提供相应的接口:单个AI加速器或处理器的分配;多个AI配失败。计算实例的回收应提供对AI计算实例回收的接口:对于一次回收单个计算实例;对于一次回收多个计算实例,保证操作的原子性。接口的形式虚拟化提供给资源调度层的接口形式,可以是:API接口;命令行接口;SDK接口。计算资源调度概述任务流程框架图 3 AI任务流程框架计算资源调度的任务流程(如图3所示),包含以下步骤:a)AI任务放入任务池;资源调度层从AI(和可用的AI加速卡,申请符合AI任务要求的计算实例;资源调度层对所有的异构计算资源和AI计算实例监控,完成任务的调度。训练场景AI的资源利用较高。单个训练任务对AI加速卡资源的占用情况包括如下情形:a)AI加速卡上运行,该卡资源被全部占用,见图4;b)AI加速卡上运行,该卡资源未被全部占用,见图5;c)AI加速卡上运行,全部加速卡资源均被占用,见图6;d)AI加速卡上运行,部分加速卡存在空闲资源,见图7;图 4 训练任务占满一块卡图 5 训练任务占用一块卡,有空闲图 6 任务占用多块卡图 7 任务占满多块卡推理场景场景1:模型推理需要异构的AI(排推理任务,尽可能的使单块芯片满载。一种单个芯片上的任务划分情况实例见图8。图 8 单芯片上的推理任务划分示意图场景2:大规模的AI推理任务计算层数繁多(如至少1000AI算总时间最短,计算资源空闲时间最短。一种多芯片上的推理任务划分情况实例见图9。图 9 多芯片上的推理任务划分示意图资源调度技术要求实现计算资源调度的人工智能计算系统,符合以下要求:a)应支持的计算资源调度,包含:对整块AI加速卡(处理器)的调度;对在资源池中的多个AI加速卡的调度;对单个AI加速卡的计算单元调度;对单个AI加速卡中的计算实例(多个计算单元)调度;对多个AI加速卡中的多个计算单元的调度;对于多个计算单元或多个AI加速卡的调度应保证调度操作的原子性;c)全局资源的利用率,使全局利用率最高;资源的全局平均使用率;调度的计算资源涉及到多个AI度;d)e)给不同计算实例的能力;成另一个神经网络运行的能力;负载均衡能力:支持任务的合理分配,避免单卡或单片或单块负载过大,以提高整体效率;h)AI任务在异构计算设备上的系统性能分析工具,帮助用户识别性能瓶颈:支持对硬件和软件性能数据的采集、分析和汇总:CPUCPUAI(NPU中的AI计算单元外围设备、DDR等设备;——软件性能数据;i)Host设备和Device设备上AI任务的性能信息:——计算图相关信息:计算图执行时间、推理时间、图像等数据的预处理时间;——算子的执行时间:每个算子的起止时间、可支持每个算子的耗时,帮助推理任务确定性能瓶颈;——每个线程调用运行时API的时序信息;——AI计算单元上内核函数的运行时序信息;——任务调度的任务运行时序信息;颈,如读写带宽过低可能是算子编写的数据搬运过程有问题;AI处理器函数和CPU函数视图:——采集各形式处理器上的热点函数(执行频率较高的函数),调度层或用户可以根据热点函数进行优化,提高性能;对应子项的循环次数等;概括性视图,对采集的信息以汇总的形式展示,应包含:——采集的的性能数据大小、性能采集耗时以及性能采集的起止时间;——性能采集的Host侧基本信息,包括Host侧的操作系统和CPU信息;——呈现本次性能数据采集的Device侧信息(如GPU信息、NPU信息、FPGA信息),如CPU的核数、AI计算单元数量等;——DDR及高级缓存信息:整个采集过程中内存读写带宽的平均值;——CPU的利用率;——系统信息,包含但不限于:系统总内存、空闲空间、内存缓冲区大小、高速缓冲存储器使用大小、共享内存、虚拟内存限值等;——控制CPU——AI计算单元的信息;——算子统计信息,包括但不限于:算子的个数、名称、耗时、对应的起止调度时间、输入输出张量的内存大小、权重大小等;——对于图像视频任务的信息,包括但不限于:任务的时间、任务的帧数、利用率信息等;——模型的数据输入、执行AI任务的过程(推理或训练)、数据输出的耗时。运维监控运维监控的对象包括对计算实例、AI加速卡、AI任务、日志的收集与处理等的监控:a)对计算实例的监控,应满足以下要求:支持对计算实例状态的监控,具体指标参考5.8.4节“计算实例的监控”;支持对计算实例的异常检测,并对用户开放定制化的检测项;支持计算实例的异常警告,并支持用户自定义警告的阈值和警告的方式;支对计算实例的日志收集、分析和可视化展示的功能。b)AI加速卡的监控,应满足以下要求:AI加速卡的属性监控:——算力;——带宽;——内存。AI加速卡虚拟化后的计算实例数:——计算实例的总数;——可用的计算实例数;——占用的计算实例数。一个AI加速卡上各计算实例的性能偏移的情况;注:对于一个AI加速卡,虚拟化N个相同规格的计算实例,每个实例的参考性能应是1/N,实际性能与参考性能的绝对值就是性能偏移。一个AI加速卡的状态:——资源占用比例;——可用比例;——是否损坏。应支持以下关于AI任务的监控:一个训练任务或推理任务的吞吐量;一个训练任务或推理任务所占用的计算实例信息,以及计算实例所处的AI加速卡。d)支持设备(Device)的管理,如Device设备的增加、删除、修改功能;对用户,提供日志查询功能,按关键字搜索日志内容;提供清除显示的功能;提供和日志下载和保存的功能。e)提供一般级别错误的日志(ERROR):——非预期的数据或事件;——影响面较大但是内部模块可处理的错误;——限制在模块内的错误;——对其他模块有影响但较轻微的错误,如统计任务创建失败;——引起调用失败的错误。提供警告级别的日志(WARNING),如设备状态与预期不一致,但不影响系统的运行。提供正常级别的日志(INFO),设备正常运行的信息;提供调式级别日志(DEBUG),记录调式信息,协助开发维护人员定位问题;提供关键事件的日志(EVENT),如:——整网运算启动\完成\异常终止;——内存耗尽;——设备温度超出正常阈值。日志的记录格式至少应包含以下信息:1)产生日志的模块名称;进程的ID;进程的名称;日志打印的时间;各模块具体的日志内容。测试虚拟化测试性能隔离测试性能隔离的测试,符合以下要求:a)要求单个AI顾性能和利用率;对于每个AI块AI加速卡时,训练或推理的性能是𝑃,当给计算实例分配25%的计算资源时,其性能理论上应该为𝑝=𝑃*25𝑝′理论值𝑝的偏差来衡量性能隔离的效𝑝𝑑𝑒𝑣𝑖=|𝑝′−𝑝|;测试规则AIAI(比例为计算资AI加速卡的计算资源总量为AI推理或训练任务可以分配给的计算资源为s=C×a;注:a∈(0,1],可以取0.1,0.2,0.3,0.4,0.5,0.6,…,1.0。AI加速器上执行的最大任务数量用户数量被测任务使用Ca的计算资源,剩余n-1个任务(用户)分配剩余的计算资源;对于被测任务(用户),需要得到其基准性能,即在独占一个AI加速卡时,其性能值𝑃4)8.1.1a)2)。性能隔离的测试模式,可从下面两个维度进行划分:1)单一模型或多模型负载;是否满载。d)(满一个AI(无虚拟化得到基准性能单位:FPS),见图10。负载见表1;图 10 基准性能测试表 1 基准负载测试测试项序号模型分配资源占比数据集1MobileNet100%(无虚拟化)ImageNet20122ResNet50100%(无虚拟化)ImageNet20123VGG16100%(无虚拟化)ImageNet20124InceptionV3100%(无虚拟化)ImageNet2012AI个计算实例运行相同的AI任务,见图11。负载见表2;图 11 单模型满载测试表 2 单模型满载训练测试项序号模型负载个数数据集分配比例1MobileNet2ImageNet20121:22MobileNet4ImageNet20121:1:2:43ResNet502ImageNet20121:14ResNet504ImageNet20121:1:2:45InceptionV32ImageNet20121:16InceptionV34ImageNet20121:1:2:47VGG162ImageNet20121:18VGG164ImageNet20121:1:2:4AI例运行不同的模型,见图12。负载见表3:图 12 单一模型满载测试表 3 多模型满载训练测试项序号模型1/分配计算实例占比模型2/分配计算实例占比模型3/分配计算实例的占比数据集1MobileNet/25%ResNet50/25%VGG16/50%ImageNet20122MobileNet/50%MobileNet/25%VGG16/25%ImageNet20123MobileNet/25%Resnet50/25%InceptionV3/50%ImageNet2012AI每个计算实例运行不同的模型,见图13。负载见表3:图 13 多模型非满载测试AI一,每个计算实例运行相同的模型,见图14。负载见表4:图 14 单模型非满载测试表 4 单模型非满载训练测试项序号模型负载个数数据集分配比例1MobileNet2ImageNet201225%,50%2MobileNet3ImageNet201212.5%,12.5%,25%3ResNet502ImageNet201225%,50%4ResNet503ImageNet201212.5%,12.5%,25%5InceptionV32ImageNet201225%,50%6InceptionV34ImageNet201212.5%,12.5%,25%7VGG162ImageNet201225%,50%8VGG164ImageNet201212.5%,12.5%,25%任务扩展测试任务扩展测试,应符合以下要求:测试虚拟化方案在单个AIAI训练与推理的(见图小;图15 任务扩展测试测试规则:——练方法等;——任务数取值为1,2,4,8,16;——记录不同任务数下的吞吐量(如果为视觉任务,单位为images/s);测试负载见表5:表5 基准负载测试测试项序号模型任务数数据集1MobileNet1,2,4,8,16ImageNet20122ResNet501,2,4,8,16ImageNet20123VGG161,2,4,8,16ImageNet20124InceptionV31,2,4,8,16ImageNet2012性能损耗测试性能损耗的定义及计算方式见8.1.4a)3);测试规则:被测AI加速卡虚拟化实例应不小于3个;测试维度应分为,多计算实例相同负载测试和不同负载测试;3)images/s;测试负载见8.1.1d)三种场景。测试指标通用指标利用吞吐率来衡量虚拟化的性能,对于视觉任务,可以利用帧率来衡量(fp/s)。性能偏差(隔离):——虚拟化后的AI计算资源理论上的性能𝑃与实际性能𝑃′差的绝对值。——计算方法如下:∆𝑝
=1∑|𝑝∗𝑎−𝑝|(1)𝑖𝑖
𝑛
𝑖 𝑖𝑖其中,∆𝑝𝑖𝑖为一个AI加速卡虚拟化后的性能偏差,n为虚拟化后AI计算实例的个数、p为基准性能,𝑎𝑖为每个计算实例分配的资源占整卡的比例,取值可以但不限于:12.5%,25%,50%,75%;𝑝𝑖𝑖为每个AI计算实例的实际性能。性能损耗:——对于单AI值;——性能损耗的计算方式如下:𝐶 =1−∗𝐶𝑜𝑟𝑒𝑝∗100%(2)𝑙𝑜𝑠𝑠
𝑇𝑝
𝐶𝑜𝑟𝑒𝑣是AI是同一个AI的执行时长,𝑐𝑜𝑟𝑒𝑝是物理机的计算单元数,𝐶𝑜𝑟𝑒𝑣是虚拟化后计算实例的计算单元数。性能波动——性能波动的计算方式如下:一个物理加速卡上虚拟化得到多个规格相同的计算实例,同时运行相同的AI任务,性能波动值=所有计算实例中最大的执行时长平均/最小执行时长平均;保真度系统与原计算芯片中均可提供的有效算子数量/计算公式为:𝛼=𝑂1∗𝛿1𝑂∗𝛿(3)虚拟化系统中的算子效率,𝛿为原计算芯片中的算子效率。资源复用就越高,计算方式如下:γ=𝑈1(4)𝑈注:γ为资源复用率,𝑈1为进行第二次运算的单元,𝑈为总运算单元。集群调度测试概述集群调度测试范围包含:集群利用率:所有AI加速卡的整体使用情况,包含已经故障下线的AI加速卡;(健康力;任务资源利用率:实际分配给单个AI任务使用的计算资源整体的使用情况;注:一般情况下,GPU的利用率是指流处理器的利用率。测试规则a)任务负载的组合应从以下几个维度考虑:数据量大小,数据集包含小数据级和大规模的数据集;计算量的大小,包括轻量模型和大模型;典型场景,覆盖基础模型,如resnet系列、MobileNet系列等;4)——任务集中峰值到达;——任务均匀到达;——任务以泊松分布的形式到达;测试负载包含单卡、单机和分布式三种请求;测试负载应包括训练任务和推理任务。测试方法a)检测周期,集群利用率的检测周期为1个月,如一张AI加速卡,在一个月内进行固定频率的检测,记录每次的利用率:1)检测频率为每T秒一次;2)统计的时间范围(𝑡0,𝑡1],且(𝑡0,𝑡1)/𝑇是整数,𝑡1时刻刚好完成一次指标采集。b)应包含以下测试负载:单一负载形式:——视觉负载,包括图片、视频任务;——NLP负载;——普通机器学习负载(结构化数据);混合负载,即三种单一负载,按特定比例组合,实施测试。测试指标集群利用率,计算公式(5):Q=1∑𝑞𝑘𝑘𝑘(5)注:k为集群中的AI加速卡数量,𝑞𝑘为单个AI加速卡的利用率。AI加速卡的比例,计算公式(6):𝑞𝑗𝑘
= 𝑇𝑡1−𝑡0
∗
(6)注:𝑞𝑗𝑘是统计周期内,AI加速卡处于可用状态,或正在被使用状态的时长占比,实际测试时可用次数替代时长,𝑁𝑗𝑘是按一定频率检测时,健康状态的次数;可用AI加速卡的利用率,计算公式(7):𝑞𝑧𝑦|𝑗𝑘
=𝑁𝑧𝑦𝑁𝑗𝑘(7)注:𝑞𝑧𝑦|𝑗𝑘是统计周期内,显卡处于可用状态,且被占用的时长比例,同样可用次数代替实际测量的时长;AI加速卡的利用率,计算公式(8):𝑞𝑙𝑦|𝑧𝑦,𝑗𝑘
=1
∑
(8)注:𝑞𝑙𝑦|𝑧𝑦,𝑗𝑘是统计周期内,被占用AI加速卡的利用率,𝑁𝑧𝑦是该AI加速卡被占用的次数,𝑞𝑙𝑦是检测时的瞬时利用率;故障的连带损失,有以下情况:如果没有断点续传,那么整个任务已经运行的卡时被认为是故障引起的连带损失;的连带损失;AIAB带损失)核算到卡B上;AI(开销状态,这种中间状态可根据调度系统的优化减少;单个AI加速卡的利用率,见计算公式(9):q=𝑞𝑗𝑘∗𝑞𝑧𝑦|𝑗𝑘∗𝑞𝑙𝑦|𝑧𝑦,𝑗𝑘−𝑞𝑔𝑧−𝑞𝑑𝑑
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山东省临沂市兰陵县第一中学2025届高三第三次适物理试题含解析
- 湘潭医卫职业技术学院《分子生物学韩》2023-2024学年第二学期期末试卷
- 山东省菏泽市第一中学2024-2025学年高三“零诊”考试物理试题含解析
- 山西水利职业技术学院《钢琴即兴伴奏(2)》2023-2024学年第二学期期末试卷
- 四川省成都市青羊区石室教育集团2025年初三期末物理试题含解析
- 四川师范大学《智能信息处理》2023-2024学年第二学期期末试卷
- 井陉矿区2025届数学三下期末质量检测试题含解析
- 四川铁道职业学院《大学体育(4)》2023-2024学年第二学期期末试卷
- 江西信息应用职业技术学院《电机学》2023-2024学年第二学期期末试卷
- 山西警官职业学院《小学数学课程标准与教材研究》2023-2024学年第二学期期末试卷
- 土地承包合同易懂一点(2025年版)
- 企业健康管理计划规划方案讨论
- 隧道高空作业施工方案
- 雨季三防知识培训
- 危险性较大的分部分项工程专项施工方案严重缺陷清单(试行)
- 2025年上半年第二次商务部国际贸易经济合作研究院招聘7人重点基础提升(共500题)附带答案详解
- 2025年陕西省土地工程建设集团有限责任公司招聘笔试参考题库附带答案详解
- 第7课《不甘屈辱 奋勇抗争》第1课时 虎门销烟 课件 五年级道德与法治下册 统编版
- 《多样的中国民间美术》课件 2024-2025学年人美版(2024)初中美术七年级下册
- DB13-T5742-2023醇基燃料使用安全规范
- 《慢性阻塞性肺疾病的健康宣教》课件
评论
0/150
提交评论