




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
团信息技术人工智能服务器系统性能测试规范2021-08-26发布2021-09-01实施中国电子工业标准化技术协会发布 1范围 2规范性引用文件 13术语和定义 4缩略语 35测试模式 45.1封闭模式 45.2开放模式 45.3场景 45.4测试信息 56训练过程 66.1测试流程 66.2场景 86.3指标及测量方法 6.4训练用测试系统要求 7推理过程 7.1测试流程 7.2场景 7.3指标及测量方法 267.4推理用测试系统要求 31附录A(规范性)测试代码公开规则 33A.1通则 A.2训练测试代码公开规则 A.3推理测试代码公开规则 35B.1图像识别 B.2物体检测 B.3语义分割 B.4推荐 B.5自然语言处理 B.6语音识别 B.7光学字符识别 B.8人脸识别 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中国电子技术标准化研究院提出。本文件由中国电子技术标准化研究院、中国电子工业标准化技术协会归口。本文件起草单位:中国电子技术标准化研究院、中国科学院软件研究所、北京航空航天大学、华为技术有限公司、浪潮电子信息产业股份有限公司、腾讯云计算(北京)有限责任公司、上海依图网络科技有限公司、中科南京软件技术研究院、百度在线网络技术(北京)有限公司、北京旷视科技有限公司、曙光信息产业(北京)有限公司、科大讯飞股份有限公司、联想(北京)信息技术有限公司、飞腾信息技术有限公司、英特尔(中国)有限公司、上海商汤阡誓科技有限公司、上海仙塔智能科技有限公司。本文件主要起草人:张琦、曹晓琦、鲍薇、董建、孟令中、薛云志、董乾、刘祥龙、尤昉、王恺、吴韶华、康真健、李仁刚、杨晓光、刘海涛、赵春昊、许源、武斌、高卉、刘珊珊、熊亮、魏荣、崔吉顺、梅敬青、张艺伯、许欣然、戴荣、许涛、尹斌、程鸣、谷潇聪、罗玉、王海宁、马超、温炜、金古、蒋慧、田绍清、郑洁。人工智能服务器和人工智能服务器集群是当前各行业应用中,承载人工智能计算的主要形态,已被广泛采用。人工智能计算设备的性能关系到各行业实施人工智能应用的效率和成本。然而,因为设备实现技术的多样性、各行业应用能力差异和大数据量训练、高并发推理等需求因素,设备实际性能成为应用关注的重点。对人工智能计算系统的性能瓶颈识别和验证,是推进人工智能应用优化,提升效率的先决条件。本文件旨在提供规范、全面、兼顾行业常见场景的人工智能服务器和人工智能服务器集群性能测试方法及指标,为各领域用户人工智能计算系统的优化提供依据和途径。1信息技术人工智能服务器系统性能测试规范本文件规定了人工智能服务器系统,完成深度学习训练及推理任务的性能(运行时间、能耗、实际吞吐率、能效、效率、弹性、承压能力等)测试方法。本文件适用于人工智能服务器系统的性能评估。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。一次测试中,处理测试者给出的测试作业,并返回结果的系统。一次测试中,筹备、操作被测系统实施测试,并按测试协议的规定享有测试结果使用权的机构或个用于定义系统测试要求的标准化的模型。[来源:ISO/IEC14776—2009,3.1.87,有修改]获取并返回被测系统当前时间戳。2人工智能服务器artificialintelligenceserver含有专为人工智能计算设计的计算机构,能够为人工智能应用提供专用加速计算能力的服务器。人工智能服务器集群artificialintelligenceservercluster集群遵循统一控制的,人工智能计算功能单元的集合。人工智能服务器系统artificialintelligenceserversystem由人工智能服务器及其他必要的计算、存储设备组成,承担人工智能运算任务的计算系统。测试集用于测试最终机器学习模型功能的数据。[来源:ISO/IECDIS22989—2021,3.2.19]组织、开展测试的机构或个人。注:测试者使用测试系统实施测试,它向被测系统(3.10)发送作业(3.11),接收输出,计算性能(3.12)指标。测试系统testsystem执行测试所使用的硬件、软件及数据。3作业job含有测试样本的数据包。性能performance人工智能服务器系统运行计算任务时,可被测量的特性。[参考:ISO/IEC20000.10—2018,3.1.16和ISO13372—2012,2.3]训练数据trainingdata训练集用于训练机器学习模型的输入样本子集。[来源:ISO/IECDIS22989—2021,3.2.22]验证集用于评估一个或多个备选机器学习模型功能数据样本。[来源:ISO/IECDIS22989—2021,3.2.24]4缩略语下列缩略语适用于本文件。AI人工智能(ArtificialIntelligence)AUC曲线下面积(AreaUndAUTOML自动机器学习(AutomatedMachineLearning)BFLOAT16脑半精度浮点数(BrainFloating-point)BLEU双语评估替换(BilingualEvaluationUnderstudy)FP16半精度浮点数(Half-precisionFloating-pointformat)FP32单精度浮点数(Single-precisionFloating-pointformat)FP64双精度浮点数(Double-precisionFloating-pointformat)INT44位整型数(4-bitInteger)INT88位整型数(8-bitInteger)4MAP平均准确率均值(MeanAveragePrecision)MIOU平均交并比(MeanIntersectionOverUnion)NFS网络文件系统(NetworkFileSystem)OCR光学字符识别(OpticalCharacterRecognition)SUT被测系统(SystemUnderTest)TF32张量单精度浮点数UINT44位无符号整型数UINT88位无符号整型数5测试模式5.1封闭模式5.1.1封闭式训练给定训练集和目标模型结构、精度,利用受测AI服务器系统,运行建模、优化算法得到目标模型,应符合给定测试集上的准确率门限。5.1.2封闭式推理给定模型(参考实现)、精度、测试集,利用受测AI服务器系统,运行模型定义的推理过程,输出推理结果,结果应符合精度及给定测试集上的准确率要求。5.2开放模式5.2.1开放式训练给定训练集,利用受测AI服务器系统实施训练模型,结果模型应符合精度及给定测试集上的准确率要求。5.2.2开放式推理给定测试集,被测者提供已训练好的模型,利用AI服务器系统,运算输出推理结果,结果应符合精度及给定测试集上的准确率要求。AI服务器系统性能测试的场景类型,应包含:a)通用:针对共性问题,参考或使用公共可获得的模型和数据集,完成训练、推理任务;b)专用:针对行业领域问题,使用专用模型和数据集,完成训练、推理任务;5c)场景类型涉及的技术要素的可变性,见表1及表2。通用封闭专用封闭√√√训练过程中数据预处理(训练算法自带)√√√√√√目标模型精度√√√√“测试集",“验证集”,“训练集”不含相同样本。表2推理模式及可变要素通用封闭专用封闭√√√√√√√√√√√√√√√√"测试集",“验证集","训练集”不含相同样b)测试ID(用于标识测试);c)是否开放(0-封闭、1-开放);d)是否专用(0-通用、1-专用);e)是否训练(0-推理、1-训练);f)模型编号(对封闭模式有效,开放模式为模型名);g)提交时间(格式[yyyy:MM:ddHH:mm:ss]);h)测试对象类型(0-单机、1-集群/计算中心);6i)节点数(当“"测试对象类型”不为“0”时有效);j)每节点信息[节点型号、节点标称计算能力、节点芯片数];k)节点间通信协议和带宽;1)节点间组织关系(0-单节点、1-主从、2-环形、3-树状、4-其他);m)操作系统标识(名称、内核版本号);n)机器学习框架标识(名称、版本号);o)是否应用虚拟化技术(0-不使用、1-使用);p)虚拟化组件标识(名称、版本号);q)批(minibatch)大小(batchsize)可变标识(0-不可变、1-可变);r)批(minibatch)大小的值(正整数,仅当q)为0时有效];s)优化器声明(算法名);t)是否混合精度训练(仅对训练有效,0-不使用、1-使用,附加精度列表);u)是否使用AUTOML完成测试(0-不使用、1-使用,附加AUTOML算法名称);v)是否使用并行训练完成测试(0-不使用、1-模型并行、2-数据并行、3-混合并行、4-其他并行算法并附加算法名称);w)并行训练时,是否采用异步参数更新[0-不使用(即同步更新)、1-使用];x)是否使用稀疏化(对推理有效,0-不使用、1-使用,附加方法名称);y)是否使用量化(对推理有效,0-不使用、1-使用,附加量化方法名称)。6训练过程6.1测试流程6.1.1基本要求训练测试过程,应符合以下要求:a)在一次测试中,训练测试对象包含以下AI服务器系统硬件及配套软件(不含模型或算法负载):2)AI服务器集群(含云化的AI服务器集群);b)训练测试过程,包含以下步骤:·被测者于测试前,取得测试集;·如需要,被测者可对数据进行必要的格式转化或封装;·被测者按测试内容,编写并运行必要的训练代码(包含数据预处理、数据读入、训练、结果模型格式转化与持久化),得到结果模型;·训练期间,记录过程数据、计算指标值、记录日志、生成结果数据;·被测者发送测试结果给测试者;7·测试者检查结果合规性;6.1.2规则深度学习训练规则,符合以下规定:a)训练测试,不应实施以下操作:1)在测试过程中进行硬件或软件改配;2)使用本文件规定之外的训练集进行模型训练,也不应实施模型预训练及迁移学习策略;3)训练测试过程中,对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载(要求被测者实现的方法除外);4)在数据准备过程中:·减少数据集中的样本(封闭模式有效,除不足1batch的残余数据之外);·除b)2)规定的操作生成的样本外,增加数据集中的样本(封闭模式有效);·分析数据规律或预先提取、编码、保存样本特征(封闭模式有效);·对数据做排序、索引或拆分操作(封闭模式有效);5)在训练过程中改变指定的优化方法(封闭模式有效);6)使用AUTOML完成训练任务时,在整个b)训练测试,符合以下规定:1)应编制并运行的训练测试代码:·使用测试工具提供的过程指标计算方法;·使用测试工具提供的日志记录方法(对工具的要求见6.4);2)数据准备时:·训练数据尺寸不同或不符合模型需要时,可实施尺寸调整操作;·在不改变输入图像(对视觉类场景)像素值的情况下,可实施插值操作,包含但不限于:线性插值、双线性插值、区域插值等;·训练集、验证集、测试集的划分比例,默认为75%、10%及15%,特殊的划分应符合表3的规定(封闭模式有效);·可利用分布式环境实施数据准备;3)训练过程中:·可使用可变学习率,学习率改变方法,由训练算法确定;·权重及偏执应以常量或随机值初始化;·试验次数应符合场景要求(封闭模式见表3,开放模式在测试时统一确定);·如实施混合精度训练,应符合5.4的要求;·应按6.1.2b)1)-6.1.2b)3)的要求执行(除6.1.2b)2)中注明为“封闭模式有效”的规定外];·应区分模型结构生成(变异)阶段和训练(针对某一代变异调整模型参数)阶段,至少在模型结构生成(变异)过程执行前后、训练开始前后,分别记录时点;·模型变异及搜索空间应是有限并确定的;5)实施分布式训练时:8·并行训练,方式可包含但不限于模型并行、数据并行及混合并行;·可使用分布式文件系统(如NFS)或存储服务器存放、使用训练数据。6.1.3训练结果训练结果,符合如下要求:a)训练结果模型与参考模型一致,符合以下要求:1)训练结果模型精度应符合表3及表5的规定;2)封闭模式下,训练模型脚本与参考脚本(见表3及表5)应定义一致的网络结构,训练模型脚本不应导致以下情况的发生:·多余或缺失的层;·多余或缺失的神经元;·改变的激励函数(对应层之间);·多余或缺失的跨层连接;·改变的池化方法(对应层之间);b)训练过程应符合6.1.2的规定;c)结果应包含以下信息:1)5.4规定的数据;2)场景要求的指标值(见表3及表5);3)训练程序源代码,符合附录A的要求;4)训练日志:·对非AUTOML训练,日志按每个epoch输出。每个epoch对应的格式为:“[yyyy:MM:ddHH:mm:ss]-[trial_number]-[epoch_number]-[accuracy]”。其中,第一项为日志输出时的时间戳,第二项为训练次数(正整数),第三项为epoch数(正整数),第四项为当前测试集上的准确率(依照场景要求的指标定义);·对AUTOML训练,日志按每次模型变异及对应训练过程输出。每次模型变异后,输出变[generation_number]-[number_of_nodes]"。其中,第一项为变异开始时间,第二项为变异完成时间,第三项为变异代次计数,第四项为当前变异结果模型的节点数(对初始化模型的训练,变异起止时间为空,代次记为0);对变异后模型的训练,日志按每个epoch输出,格式符合4中“对非AUTOML训练”规定;5)结果模型文件(含权重和结构信息;AUTOML训练,为最终结果模型文件);6)规则检查结果(对AUTOML训练,6.1.2中关于AUTOML的规则有效)。6.2.1通用测试场景6.2.1.1封闭测试场景应符合表3的要求,场景说明见附录B。9表3通用训练性能测试场景(封闭)图像识别1数据集门限57结果模型精度2门限57结果模型精度分割1数据集门限57结果模型精度识别1数据集门限57结果模型精度1门限Wide:FTRL;Deep:AdagWide:FTRL;Deep:Adag57结果模型精度表3通用训练性能测试场景(封闭)(续)检测1f门限57结果模型精度回归损失;fasterrcnn:softmax+c回归损失;2门限5结果模型精度自然语言1门限55结果模型精度2WMT18英-德、英-中门限5结果模型精度表3通用训练性能测试场景(封闭)(续)改变数据的值(如图像像素值),数据格式转换过程不计表中门限为参考值,测试实施时可作调整,但应在各被测系统受测时保持统一。°表中WER为GreedyWER指标。bert-large测试项中,sequence-length=512。表中的SSD损失函数[3]:Lconf——分类损失函数,使用交叉熵损失;Lloc——定位损失函数,使用smoothL1损失;c——检测框的标签类别;g——ground-truth的坐标;x——模型对ground-truth类别预测的概率;表中fasterrcnn的RPN层损失函数[4]:Lcls——分类损失;Lreg——包围盒的回归损失;i——一个anchor的序号;Pi——anchor的预测结果是检测对象的概率;Pi——ground-truth的标签;ti——预测包围盒的坐标;t"——ground-truth中包围盒的标6.2.1.2开放测试场景应符合表4的要求,场景说明见附录B。表4通用训练性能测试场景(开放)图像识别1结果模型精度检测1结果模型精度表4通用训练性能测试场景(开放)(续)分割1门限结果模型精度1门限结果模型精度自然语言1WMT18英->德、英->中门限结果模型精度2门限结果模型精度识别1门限结果模型精度准确率门限,依照封闭场景定义,在测试时可由测试者调整、确定指标及取值。57结果模型精度识别57结果模型精度表5专用训练性能测试场景(封闭)(续)79结果模型精度训练数据的格式,没有严格的限定,被测者可以根据本地框架进行格式转换,格的值(如图像像素值),数据格式转换过程不计时。表中未确定的模型及数据集,可在具体测试前,由测试者按专用系统的要求统一确定。°EAST和FaceNet的损失函数的定义与实现分别见[8]和[9]6.2.2.2开放测试场景应符合表6的要求,场景说明见附录B。表6专用训练性能测试场景(开放)(无结果模型精度识别结果模型精度注:表中的“/”符号,表示“或”。训练数据的格式,没有严格的限定,被测者可以根据本地框架进行格式转换,格的值(如图像像素值),数据格式转换过程不计时。b表中未确定的模型及数据集,可在具体测试前,由测试者按专用系统的要求统一确定。说明总体训练用时T从训练开始读入数据,到模型训练完毕、完成在非电易失性存储器上的持久化,所使用的总时长a)在读入训练数据命令前,紧邻该命令计时,获得时间点ts;b)在输出模型持久化完成后,串行并紧邻调用计时时间点tg;c)计算总体训练时间:T₁=t-ts表7训练时间测量方法(续)说明数据读入用时TLbe时,可为主存),达至可用状态,所使用的时间a)在读入训练数据命令前,紧邻该命令计时,等于Ts;b)在训练数据读取完成时,串行并紧邻调用计时命令,获得时间点c)计算数据读入时间:TŁ=t₂-tu训练启动用时T多加速器训练时,从训练开始指令到所有加速器都被分配并开始执行训练任务所经历的时长a)训练开始前,串行并紧邻调用计时命令,获得时间点t₁;b)在每个加速器进入训练状态时,取时间点,直到最进训练状态,获得时间点t₂;c)计算训练启动用时:T,=t₂-tn出“之间的时间间隔a)训练开始前,串行并紧邻调用计时命令,获得时间tTb)训练退出时,串行并紧邻调用计时命令,获得时间点tT₂;c)计算训练用时:TR=tTR2-tTRI正整数)epoch运行训练过程第i次遍历(使用)训练集所用的时间a)第i个epoch开始前,串行并紧邻调用计时命令,获得时间tP()-1;b)第i个epoch结束后,串行并紧邻调用计时命令,获得时间teP(i)-2;c)第i个epoch用时:TEPi)=tp()-2-正整数)验当前模型,得出当前模型准确率等指标值的过程a)第j次验证开始前,串行并紧邻调用计时命令,获得时间trs)-1;b)第j次验证结束后,串行并紧邻调用计时命令,获得时间trG)-2;化用时Tα为要求格式所耗费的时间a)模型格式转化前,串行并紧邻调用计时命令,获得时间tcv;b)模型转化完毕后,串行并紧邻调用计时命令,获得时间tcv2;并完整写入非电易失性存储所a)模型持久化前,串行并紧邻调用计时命令,获得时间tp₁;b)模型持久化后,串行并紧邻调用计时命令,获得时间tp2;c)模型持久化用时:Tp=tp2-t时延Tc点完全接收数据的用时a)在发送数据前,串行并紧邻调用计时命令,获得时间tnc;b)在完整接收数据后,串行并紧邻调用计时命令,获得时间t₂;c)节点间通信时延Tc=tc2-trc训练退出可有多种充分条件。正常结束训练退出条件,如测试集准确率门限等。数据并行时,数据读入用时为数据读入开始至所有工作节点都完整获得所需数据的总用时(含网络传输用时)。数据读入过程可伴随训练同步发生,时间计入训练用时。干次验证动用时总体训练用时(T)第i+6次验证验证tovitw格式转化用时持久化用时训练启动命令注1:训练时间按“训练用时”计。注2:数据读入过程可伴随训练同步发生。说明a)在SUT,配套使用功率计;b)空载600s,采样100次以上,测得时整机的空载c)在训练用时中(见图1),周期性测量整机的负载功率,并求均值PmE;d)求得PR=P-PTIE训练瞬时峰值全程(TTR)中,服务器各部件处于(接近)满负载压力状态下的最大瞬时功率a)在SUT,配套使用功率计;b)按单机训练平均功率测量方法测得PTIE;c)测得单机训练过程中,最大负载功率计量值Pmux;1)在SUT各节点配套使用功率计;的平均功率PTR-i。件系统扩容的同样效果。对视觉类测试,单位为图片数每秒(images/s),对自然语言处理类说明实际吞吐率中,每个epoch处理的数据量与时间的比值a)统计每个epochi(i为正整数)所使用的时间TEP();b)基于1)的结果,统计每epoch平均TP;率a)在集群每个节点n(n为正整数)上,计算该节点训练吞吐率Th;c)计算AI服务器集群训练综合相对吞吐率(见上4))能力(AI服务吐率综合加速集合S上,实际吞吐率与每任务基线吞吐率之比的加权几何平均a)对于给定的训练场景集合S,对每个场景负载s∈S,使用某特定参照计算系统,在s上测得吞吐率Th*,作为基线;b)设SUT在s上测得的训练实际吞吐率为Ths,则训练综合相对吞吐率,由Ths在s上的加权几何平均计算:α——调整系数(α>0,α∈R+),默认为100.0;ThA——resnet50_v1.5对应的基线吞吐率;Thm*——bert-large对应的基线吞吐率;TRN——resnet50_v1.5对应的权值;b基线吞吐率是参考计算系统在特定场景上的吞吐率,t、α及参照计算系统由测试者按实测资源利用率包含加速器利用率,单位为百分率(%)。训练相关资源利用率及测量方法,应符合表10的规定:表10训练过程资源利用率测量方法说明器资源利用率上所有指定参与训练任务的加速芯片的平均利a)在每个epochi内(假设一趟训练过程有I个e加速芯片k(假设有K个加速芯片),采样N次使用率Pk(i,k,N,n,K,I为正整数,N>=3,0<=P<1,为正实数,精确到0.01);b)对每个加速芯片k,求出在i的平均利用c)对每个epochi,求出多芯片平均利用率(如K=1,本步骤忽略):d)对所有epoch求平均,得出训练阶段A加速器资源利集群上所有指定参与训练任务的加速芯片的平数据传输芯片利用率不含在加速器资源利用率6.3.5能效训练能效是AI服务器系统在单位时间,消耗单位功耗,消化的训练数据量,单位为兆字节每秒瓦表11训练过程能效测量方法说明AI服务器训AI服务器单位时间内消数据量a)对任意一趟训练,测量每个epoch的平均功率P;b)测量每个epoch的平均用时T;c)计算AI服务器训练能效:式中:sizeof(训练集)——训练集大小,单位为兆字节(MB)AI服务器集群单位时间内消耗单位功耗消化的训练数据量a)算出每台AI服务器,每epoch的平均功率PP;(i为正整数)和用时b)计算AI服务器集群训练能效:6.3.6效率训练效率是AI服务器系统训练得到某模型,其预测准确率与训练代价的比值,单位为每秒千瓦时[1/(s·kWh)]。训练效率及测量方法,应符合表12的规定:表12训练过程效率测量方法说明效率标参见场景列表);b)记录训练时长TTR;c)记录TTR时间内的实际能耗Pg;d)计算训练效率:实际判别准确率与训练能耗的比值标参见场景列表);b)记录训练时长T;c)记录T时间内的集群实际能耗P;d)计算训练效率:注2:AI服务器集群训练效率,参考了[14]定义的能a当准确率指标(设值为a,0≤a≤1)为负向指标时(如WER),以(1-a)计。°能耗是训练模型过程中特定时间段内消耗的电量。6.4训练用测试系统要求测试系统符合以下规定,包含但不限于:a)应能自动检测服务器或接收手动填表的被测系统软、硬件信息,符合5.4的规定;b)应能使用机器学习框架,AI服务器系统提供的使能软件函数库及其他必要信息,完成6.3规定指标的测量,提供指标计算函数;c)应至少能实施6.2.1规定的场景的测试;d)应至少支持以下计算精度中的一种:e)应支持配置了容器或使用虚拟化组件的AI服务器系统的性能测试;f)测试完成后应能完全卸载,不残留任何测试组件(不含测试数据);g)应提供日志函数,日志所含内容及格式符合6.1.3c)的规定;h)应支持测试者对测试过程的管理和监测,包含但不限于:1)训练过程子阶段开始或完成事件,包含:·每趟训练的开始和结束;·训练结果数据上传及其完成;2)训练结果数据,符合6.1.3c)的规定;3)测试者对重测的允许及次数控制;4)能提供证据辅助测试者实施测试结果的有效性判定,或自动判定;i)在提前获得测试项目授权后,应支持被测者在测试期内的任意时间发起测试;j)应能在测试者,为不同测试项维护独立的结果数据目录;k)应能支持本地测试(测试者不介入的测试,如预测试、系统调试等)及远程测试(测试者介入)。6.4.2公平性保障要求应提供策略及实现,支持以下公平性保障功能,包含但不限于:a)防止对指标计算函数的修改;b)防止测试时对指标计算函数的替代使用;c)防止在测试结果上传前对测试结果数据的修改,结果的规定见6.1.3;d)防止在测试开始后,结果上传完毕之前对测试代码的修改;e)防止除测试系统外的其他进程向被测者传输过程及结果数据;f)实施远程测试时,关于测试者授权的鉴别;g)测试过程中测试者与被测者通信的加密,信息完整性检查。7推理过程7.1测试流程7.1.1基本要求推理测试过程,应符合以下规定:a)推理测试对象包含:1)AI服务器单机;2)AI服务器集群(包含云化的AI服务器集群)。b)推理测试过程,包含以下步骤:1)测试准备:·被测者向测试者发送测试请求,取得测试集;·测试者指定测试数据集,告知获取方法;·被测系统下载数据集,检验合规性。2)测试运行:·被测者按测试内容,载入模型(可预先准备好)和数据集;·被测者运行测试;·记录过程数据,计算指标值;·结果合规性检查。3)结果报送:·被测者发送测试结果数据测试者;·测试者检验结果合规性;·测试结束。7.1.2规则推理测试过程,符合以下规定:a)符合以下合规性要求:·应实现必要接口(数据准备、输入、输出);·应使用测试系统提供的指标计算方法;·应使用测试系统提供的日志记录方法;·不应对已实现的指标测量函数或测试流程控制函数实施改动、继承或重载(要求被测者实现的函数或接口除外)。2)推理过程符合:·模型编译、部署时,不应使用其他模型替换测试模型;·测试前,除数据集封装格式转化外,不应浏览或记录数据、修改数据(非预处理)、浏览数据、拷贝数据,以及分析、提取、缓存数据特征;·测试过程中,不应实施以下操作:以推理测试进程之外的任何进程,修改、记录日志;以推理测试进程之外的任何进程,存取测试输入、输出数据;缓存、复用输入、输出及过程(预处理结果、后处理输入)数据;修改内存中模型参数;保存、缓存后处理过程输入数据;记录、分析或使用作业到达模式来预测某时段内的作业量;根据过程中准确率、丢失率等指标值,故意忽略待处理数据。b)封闭模式推理时,模型压缩,不应实施如下操作:1)删除非零权重;2)使用剪枝或其他改变模型结构的方法;c)封闭模式推理时,模型量化,符合以下要求:1)不同场景下量化的模型对象应与表15一致;2)量化结果不应出现6.1.3a)2)列出的情况。d)推理精度应符合7.2.3,7.2.4中按场景的要求;e)应声明推理所用批大小的信息,符合5.4的规定。推理结果,应符合如下要求:a)通过合规性检查;b)推理结果包含如下信息:1)5.4规定的测试信息;2)推理作业到达模式序号(见表14);3)推理使用的实际精度;4)场景要求的指标值(具体指标,符合“通用推理性能测试场景(封闭)”表及“专用推理性能测试场景(封闭)”的要求);5)推理测试源码符合附录A的规定;HH:mm:ss]-[accuracy]-[已处理作业数]-[已处理样本数]-[样本丢失数]”。其中:·第一项为本条日志输出时的时间戳;·第二项为当前累计的准确率(具体指标的选取,符合“通用推理性能测试场景(封闭)”表及“专用推理性能测试场景(封闭)”的要求);·第三项为当前已返回结果的作业数;·第四项为当前已返回结果的样本数;·第五项为当前未能在超时范围内处理的样本数,即丢失样本数;7)合规性检查结果。7.2.1推理作业推理作业,应符合以下要求:a)作业从测试系统发往被测系统,结果从被测系统发送回测试系统;b)每个样本仅含有推理模块要求的必要(输入)参数,不含有额外信息;c)推理作业遵循特定的到达模式,符合7.2.2的要求;d)作业丢失指被测系统无法在超时控制门限内返回结果的情况;e)超时控制门限指测试者从发送作业到收到对应结果之间允许的最大时间间隔。7.2.2作业到达模式推理作业到达模式,应符合表13的定义:表13推理作业到达模式表定义(是/否)(趟)0第i(i为正整数)个作业在第(i-1)个作业完成后紧邻到达。作业(i-1)未完成或超时控制门限未达到时,作业i不发送否12固定周期1是14泊松分布2作业以泊松分布到达:其中:k是某单位时间内到达的作业数(k为正整数),是143发性大量作业,周期持续一定时长T₆(如5s-10s),并维持一定并发度水平σ(o为正整数,如σ>2¹°到达模式(T与n可在测试时结合需要选取)是1离线4是15到达、离线到达模式中,加入与当前测试场景不同的作业是17.2.3通用测试场景7.2.3.1封闭测试场景应符合表14的要求,场景说明见附录B。表14通用推理性能测试场景(封闭)图像识别1泊松分布到达(λ=20)、离线到达、2表14通用推理性能测试场景(封闭)(续)检测1泊松分布到达(λ=20)、离线到达、分割11泊松分布到达(λ=20)、离线到达、自然语言1泊松分布到达(λ=20)、离线到达、高峰到达,mask_lm_accuracy>0.72WMT18英->德、英->中BLEU>24%(适用于两种翻译)识别1未注明时,表中泊松分布,固定周期到达模式涉及的参数,参考值为λ=5,T=500ms,n=b表15通用推理性能测试场景(开放)图像识别1门限连续单一、固定周期到达(500ms)、泊松分布到达(λ=5)、离线到达、高峰到达泊松分布到达(λ=20)、离线到达、检测1门限连续单一、固定周期到达(500ms)、泊松分布到达(λ=5)、离线到达、高峰到达泊松分布到达(λ=20)、离线到达、分割1门限连续单一、固定周期到达(500ms)、泊松分布到达(λ=5)、离线到达、高峰到达泊松分布到达(λ=20)、离线到达、1门限连续单一、固定周期到达(500ms)、泊松分布到达(λ=5)、离线到达、高峰到达泊松分布到达(λ=20)、离线到达、自然语言1门限连续单一、固定周期到达(500ms)、泊松分布到达(λ=5)、离线到达、高峰到达泊松分布到达(λ=20)、离线到达、2WMT18英→德、英→中门限BLEU>24%(适用于两种翻译)连续单一、固定周期到达(500ms)、泊松分布到达(λ=5)、离线到达、高峰到达识别1门限连续单一、固定周期到达(500ms)、泊松分布到达(λ=5)、离线到达、高峰到达泊松分布到达(λ=20)、离线到达、未注明时,表中泊松分布,固定周期到达模式涉及的参数,参考值为λ=5,T=500ms,n=1。b准确率的具体数值为参考值。表16专用推理性能场景(封闭)(无预分测试集来源°连续单一、固定周期到达、泊松分布到泊松分布到达(λ=20)、离线到达、识别ArcFace(Resnet101+arclo连续单一、固定周期到达、泊松分布到泊松分布到达(λ=20)、离线到达、识别测试集来源°连续单一、固定周期到达、泊松分布到泊松分布到达(λ=20)、离线到达、未注明时,泊松分布,固定周期到达模式涉及的参数,参考值为λ=5,T=500ms,n=1。未确定的模型及数据集,可在具体测试前,由测试者按专用系统的要求统一确定。°推理数据的格式,没有严格的限定,被测者可以根据本地框架进行格式转换,格式转换过程不应改变数据的值(如图像像素值),数据格式转换过程不计时。表17专用推理测试场景(开放)(无预分金融行业测试集b连续单一,固定周期到达,泊松分布到泊松分布到达(λ=20),离线到达,识别测试集来源“连续单一,固定周期到达,泊松分布到泊松分布到达(λ=20),离线到达,未注明时,泊松分布,固定周期到达模式涉及的参数,参考值为λ=5,T=500ms,n=1。表中未确定的模型及数据集,可在具体测试前,由测试者按专用系统的要求统一确定。°推理数据的格式,没有严格的限定,被测者可以根据本地框架进行格式转换,格式转换过程不应改变数据的值(如图像像素值),数据格式转换过程不计时。时间单位为毫秒(ms)。推理相关用时及测表18推理时间测量方法说明多次连续推理端到端总延时a)测试者在发送第1个样本的第1字节前,紧邻计时,得到时间点tis;计时,得到时间点tE;c)计算得到推理总延时T₁=tE-t₁s理延时Tπ测试者发送样本时间与收到结果时间的差a)测试者在发送某样本第1字节前,紧邻计时,得到时间点tis;c)计算端到端推理延时:T=tTE-tTIs测试者发送样本时间与被测者收到样本时间的差a)测试者在发送某样本第1字节前,紧邻计时,得到时间点tns(ts=tris);b)被测者在收到样本最后1字节后,紧邻计时,得到时间点trm;c)计算作业发送延时:Tr=trTR-ts结果传送延时T₁R被测者发送结果时间与测试者收到结果时间的差a)被测者在发送结果第1字节前,紧邻计时,得到时间点tn;b)测试者在收到结果最后1字节后,紧邻计时,得到时间点tm(tTE=tm);c)计算结果传送延时:TIR=trRR-tHs被测者收到样本时间到处理b前时间的差a)被测者收到样本最后1字节后,紧邻计时,得到时间点toiss;b)被测者开始处理前,紧邻计时,得到时间点toise;c)计算任务分派延时Tors=torse-torss预处理延时TIPR时间的差a)被测者对某样本的预处理开始前,紧邻计时,得到时间点trgs;b)被测者对某样本的预处理结束后,紧邻计时,得到时间点trpPE;c)计算预处理延时T=tIPE-trs的开始时间与结束时间的差a)被测者针对某样本推理开始前,紧邻计时,得到时间点trss;b)被测者针对某样本推理结束后,紧邻计时,得到时间点tNE;c)计算推理延时TIx=tINE-tNs后处理延时To时间的差a)被测者对某样本的后处理开始前,紧邻计时,得到时间点trros;b)被测者对某样本的后处理结束后,紧邻计时,得到时间点trE;c)计算后处理延时Tm=tIPE-trPS始时间与结束时间的时间的总和a)被测者对某样本的处理开始前,紧邻计时,得到时间点ts(trs=trps);b)被测者对某样本的处理结束后,紧邻计时,得到时间点tre(trpe=trpo);c)计算样本处理延时Tp=tipe-tIps的时间与处理结束时间的差a)被测者收到样本最后1字节后,紧邻计时,得到时间点tois(tors=tniss);b)被测者对某样本的处理结束后,紧邻计时,得到时间点torPE(toIPE=tPE);c)计算分派处理延时Top=tipe-toiPs表18推理时间测量方法(续)说明处理超时测试者从发送样本到收到对应结果的允许的最大时间间隔时间的差为绝对值。处理时间的计法为:存在预处理时,以预处理开始时间计;如不存在,以推理开始时间d因作业到达模式不同,推理总延时T可能包括被测者等待作业的间隔时间。第1个样本端到端推理用时分派处理延时第1个样本端到端推理用时分派处理延时(Top)第j个样本端到端推理用时推理总延时(T,)转移转移拷页拷贝分派预处理推理延时(TN)延时延时处理延时(Tp)端到端推理时间转移转移拷贝拷贝第/个样本后处理结果延时传送样本发送R注2:推理的中间结果,可在AI服务器系统内部转移或拷贝,以便处理。图2推理时间序推理功耗以功率计算,单位为瓦(W)。推理功耗及测量方法,应符合表19的规定:表19推理功耗测量方法说明机推理平均a)在SUT,配套使用功率计;b)在推理延时(T)期间,周期性测量整机的负载功率;表19推理功耗测量方法(续)说明据预处理平全程中,数据预处理阶段的平均功率a)在SUT,配套使用功率计;b)在数据预处理延时(TIp)期间,周期性测量整机的负载功率; (接近)满负载压力状态下的最大瞬时功率a)在SUT,配套使用功率计;b)在数据预处理延时(TI)期间,周期性测量整机的负载功率;群推理平均a)在SUT各节点配套使用功率计;b)在相同时间点,周期性测量每个节点服务器的负载功率;c)相同时间点各节点功率加和为集群瞬时负载功率;7.3.3实际吞吐率实际吞吐率代表人工智能服务器系统对特定推理作业的有效计算能力,提升有效计算能力可达到硬件系统扩容的同样效果。对视觉类测试,单位是images/s,对自然语言处理类测试,单位是sentences/s。推理相关实际吞吐率及测量方法,应符合表20的规定:表20推理吞吐率测量方法说明推理实际吞吐率AI服务器系统在单位时间a)在整个推理测试过程中(T₁内),累计所有实际发送的样本,及实际返回结果,计算样本数量;推理有效计算能力(AI服务器系统推理吞吐率综合加速比)集合S上,实际吞吐率与每任务基线吞吐率之比的加权几何平均a)对每个场景负载s∈S,使用某特定参照计算率,作为基线;b)对每个场景负载s∈S,使用SUT,在s上测得推理实际吞吐率;c)使用表9“AI服务器系统训练吞吐率综合加速比”的公式计算推理能效以额定工作情况下能效比计算。分场景推理能效比指标、单位与测量方法,应符合表21表21推理能效比测量方法说明(帧)数[图像(帧)数/(s-W)]a)被测者在整个推理测试过程中(T₁内),在每个端到端推理时间内,周期性读取功率计测量值,求出平均功率P;b)测试者累计返回结果的任务图像(帧)数N;c)测试者累计实际分派处理延时总覆盖时间Tpp;自然语言任务能效比a)在整个推理测试过程中(T₁内),在每个端到端推理时间内,周期性读取功率计测量值,求出平均功率P;b)累计返回结果的单词数W;c)累计实际分派处理延时总覆盖时间TpIp;a)在整个推理测试过程中(T₁内),在每个端到端推理时间内,周期性读取功率计测量值,求出平均功率P;b)累计返回结果的句子数S;c)累计实际分派处理延时总覆盖时间TP;d)计算语音任务能效比行业任务能效比比计算推理效率是AI服务器系统完成推理任务与代价的比值,单位为每秒千瓦时[1/(s·kWh)]。推理效率及测量方法,应符合表22的规定:表22推理效率测量方法说明效率a)推理结束时,记录模型在测试集上的实际准确率(具体指标参见场景列表);b)记录实际分派处理延时总覆盖时间TDIP;c)记录Tpp内的能耗Ps;表22推理效率测量方法(续)说明效率理能耗的比值f)记录实际分派处理延时总覆盖时间Tp;g)记录Tp内的能耗Pg;h)计算推理效率:注:AI服务器及集群推理效率的定义,分别参考了[13]当准确率指标(设值为a,a≥0且a≤1)为负向指标(如WER)时,则以(1-a)计。推理弹性单位是百分率每兆字节(%/MB)。推理弹性指标及测量方法,应符合表23的规定:表23推理弹性测量方法说明的数量增加时,分派处理时间的变化a)使用高峰模式;b)被测者记录,每单位时间内,收到的样本数据总量分派处理时间;c)当第i+1个单位时间收到的样本数据总量>第i个单位时间内收到的样本数据总量时,计算区间(i,i+1)的推理弹性:式中:7.3.7承压力表24推理承压力测量方法说明被测AI服务器系统在并发压力门限[单位为兆字节(MB/s)]以上a)使用高峰模式;期间已处理的样本数据总量;的比值注2:针对不同场景,实际吞吐率可使用7.3.3规定的指标。视频分析最大路数,单位是“路”,指标及测量方法,应符合表25的定义:说明能承受的最大路数用解码器(软件或硬件实现);初始值为1,每个作业含有1帧(1个图像样本);结果,则将n的值调整为(n+1);e)重复步骤a)和b),直至有任1路视频无法在规可使用视觉类模型,如表14-表17规定的图像识别、物体检测、语义分割、OCR或人a)应能自动检测服务器或接收手动填表的被c)应能接收推理结果并为完成计算指标实现必要的功能,包含:2)作业超时(丢失)率门限检查;d)应能使用机器学习框架,AI服务器系统提供的使能软件函数库及其他必要信息,完成7.3规定指标的测量,提供指标计算函数;e)应至少能实施7.2.3规定的场景的测试;f)应支持数据类型,符合6.4.1d)的规定;g)应支持配置了容器或使用虚拟化组件的AI服务器系统的性能测试;h)测试完成后应能完全卸载,不残留任何测试组件(不含测试数据);i)应提供日志函数,日志所含内容及格式符合7.1.3b)6)的规定;j)应支持测试者对测试过程的管理和监测,包含但不限于:1)推理过程子阶段的开始或完成事件,包含:·推理结果数据上传及其完成;2)推理结果数据,符合7.1.3b)的规定;3)测试者对重测的允许及次数控制;4)能提供证据辅助测试者实施测试结果的有效性判定,或自动判定;k)在提前获得测试项目授权后,应支持被测者在测试期内的任意时间发起测试;1)应能在测试者,为不同测试项维护独立的结果数据目录;m)应能支持本地测试(测试者不介入的测试,如预测试、系统调试等)及远程测试(测试者介入)。7.4.2公平性保障要求应提供策略及实现,包含但不限于6.4.2规定的项目。其中,对推理结果的要求符合7.1.3b)。(规范性)测试代码公开规则A.1通则测试代码公开,应按以下规则执行:a)测试代码公开流程,包含:1)公开条件检查:测试者确认测试结果有效性,应符合6.1.3及7.1.3的规定;2)公开协议检查:代码公开前,按协议检查并实施公开事项。未签署协议的,按本文件的规3)代码公开:公布于测试者与被测者商定的场所或网络媒体;4)结束公开:在规定的公开周期后,结束公开,原公开场所、媒体上,代码将不可访问。代码结束公开时,代码公开协议即告结束。b)公开义务:1)测试代码可向测试者及组织成员公开。具备合法访问权限时,组织、成员应能浏览、下载;2)被测者不负责向测试者及组织成员之外的机构、团体、企业及个人解释、讲解代码原理或实施结果复现事项;3)已达成协议的不公开部分,不应公开;4)测试代码公开,可不包含:——被测者私有的工具源码(如模型格式转化、部署),该源码功能不含a提出的项目;——被测者使用的公共网络可见的程序源码,但需在测试代码中注明(如://ref:[源码包名_版本,地址])。A.2训练测试代码公开规则训练测试代码公开,应在符合A.1规定的基础上,包含以下功能的实现:b)测试工具函数调用(含指标计算,计时,日志,测试起止,校验等);c)日志生成;d)训练数据获取;e)训练数据读入;f)训练数据预处理;g)训练启动过程(含学习率调整);h)训练过程(含epochs循环,损失函数调用,精度转化(如实施),模型、数据(在被测系统内)传输指令等);i)配置文件;j)模型保存。A.3推理测试代码公开规则推理测试代码公开,应在符合A.1规定的基础上,附加包含以下功能的实现代码:a)测试工具约定的待实现部分(如能耗计量,数据提供,结果取出等);b)测试工具函数调用(含作业到达模式,计时,日志,测试起止,校验等);c)推理过程;f)数据预处理(如实施了预处理);g)数据后处理(如实施了后处理);i)模型格式转化(至少应公开调用语句);j)模型部署(至少应公开调用语句);(资料性)测试场景说明B.1图像识别图像识别是利用计算机处理、分析和理解图像的过程,以识别图像中的目标和对象。图像识别过程的输入一般是特定格式的图像,输出可包含图像的类别(假设已有预先定义的类别集合),特性(如物体的颜色,人的性别、年龄等)或其他业务逻辑所关心的信息。图像识别,广泛的应用于各类视觉系统 (如安检,工业制造流水线,农业养殖,电力巡检,医疗诊断等)。人工智能服务器系统对图像识别过程的加速能力,对提升视觉系统的应用效率具有意义。B.2物体检测物体检测是计算机对给定的图片或视频帧,自动识别已知物体并标识物体在图像中的位置(一般使用矩形框及坐标)的过程。物体检测的输入一般是特定格式的图像或视频帧,输出可为已知物体位置信息。物体检测,广泛应用于各类视觉系统(如交通,(空拍)图像分析,分拣流水线等)。人工智能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 证券从业资格证相关资讯通知试题及答案
- 2025年证券投资理念发展试题及答案
- 如何成功通过证券从业资格证考试的试题及答案
- 廉政承诺书内容
- 标新立异的工作方案计划
- 国际业务发展月度工作计划
- 2025年注册会计师考试中时间分配策略的重要性试题及答案
- 资格认证考试复习重点试题及答案
- 品牌与用户生命周期分析计划
- 行政管理师知识理解提升试题及答案
- 《民宿管家》课件-民宿管家之预订接待
- MOOC 软件质量保证-西安交通大学 中国大学慕课答案
- 24春国家开放大学《农业推广》形考任务1-5参考答案
- 新教科版五下科学1.5《当环境改变了》教学设计
- 郑州工业应用技术学院单招《职测》参考试题库(含答案)
- 提醒纳米颗粒对环境的影响
- 血液科护士的造血干细胞移植护理
- HGE系列电梯安装调试手册(ELS05系统SW00004269,A.4 )
- 护理教学查房组织与实施
- 小学五年级家长会课件
- 机动车检测站仪器设备日常维护和保养作业指导书
评论
0/150
提交评论