CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿_第1页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿_第2页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿_第3页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿_第4页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS

团体标准

T/CESAXXXX—2020

信息技术应用创新人工智能服务器

技术规范

InformationTechnologyApplicationInnovation-TechnicalSpecificationfor

ArtificialIntelligenceServer

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申

请证明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利

申请号和申请日期。

2020-XX-XX发布2020-XX-XX实施

中国电子工业标准化技术协会发布

T/CESAXXXX—2020

前  言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

本文件由华为技术有限公司提出。

本文件由中国电子技术标准化技术协会信息技术应用创新工作委员会提出并归口。

本文件不涉及专利。

本文件不代替其它文件。

本文件与其它文件的关系:

1)与通用服务器国标的关系:本文件涉及的人工智能服务器遵循通用服务器功能国标GB/T9813.3

《计算机通用规范第三部分:服务器》提出的电气、电子功能,质量评定程序,标志、包装、运输和

贮存要求。但在GB/T9813.3基础上,着重提出人工智能涉及的独特技术功能、兼容性、基础性能等技

术要求和测试方法;

2)与通用电子设备安全要求的关系:本文件涉及的人工智能服务器遵循GB/T4943.1《信息技术

设备安全第一部分:通用要求》提出的对所有电子设备电气、辐射、机械安全技术要求;

3)与机器学习服务器通用技术要求的关系:本文件涉及的人工智能服务器设备遵循T/CESA

1043-2019《面向深度学习的服务器通用规范》提出的设计、制造、检验过程要求。并在其基础上,着

重提出机器学习推理、训练等实际功能、兼容性、性能等技术要求及测试方法,形成面向实操的指引,

是人工智能服务器相关标准体系的重要组成部分;

4)与计算资源调度国标的关系:20192139-T-469《信息技术人工智能平台资源供给》提出了人

工智能资源调度方法,定义了必要参考指标。本文件不涉及资源调度方法。人工智能服务器可作为一种

计算资源,被调度。

5)与ISO/IEC人工智能标准的关系(JTC1SC42):

●ISO/IECCD22989:2019InformationTechnology—ArtificialIntelligence—

ArtificialIntelligenceConceptsandTerminology提出了人工智能系统的组成构架,构架中含有

计算基础设备(Compute)部分,这些设备可按某种组织方式,组成更复杂的计算架构(如(云计算)。

22989CD版本并未对服务器做详细介绍。本文件提出的人工智能服务器对应ISO/IECCD22989:2019提

出的计算设备。本文对此提出功能、性能、兼容性等基础技术要求,并提出面向实际操作的测试方法;

●ISO/IECCD23053:2019FrameworkforArtificialIntelligence(人工智能)SystemsUsing

MachineLearning(ML)在6.1章节中提出服务器影响机器学习(人工智能的主要分支)系统效率,但

未对服务器给出详细论述。本文件提出的人工智能服务器是ISO/IECCD23053:2019中“设施

(infrastructure)”-“硬件(hardware)”的主要形态。本文件进一步研究并提出细致的功能、性

能、兼容性技术要求和测试方法。

6)与ISO/IEC可持续性、IT及数据中心标准的关系(JTC1SC39):ISO/IEC21836:2020

Informationtechnology—Datacentres—Serverenergyeffectivenessmetric及ISO/IEC

III

T/CESAXXXX—2020

30134-4:2017Informationtechnology—Datacentres—Keyperformanceindicators—Part4:

ITEquipmentEnergyEfficiencyforservers(ITEEsv)面向数据中心所使用的通用服务器,提出了

能效测试指标及设计方法论,本文件中关于能效的测试指标的设计,遵循21836及30134-4的要求,并

在人工智能领域提出专门定义,用于衡量人工智能服务器完成人工智能应用计算任务的效能。

本文件起草单位:华为技术有限公司,杭州海康威视数字技术股份有限公司,北京中科寒武纪科技

有限公司,北京紫光恒越网络科技有限公司,国家计算机质检中心(北京尊冠科技有限公司),上海依

图网络科技有限公司,海光信息技术有限公司,云从科技集团股份有限公司,北京中科睿芯科技集团有

限公司,第四范式(北京)技术有限公司。

本规范主要起草人:金勇,李军,胡本强,赵春昊,罗仕胜,张秀莺,彭剑峰,叶挺群,浦世亮,

肖羽,卢冕,刘一鸣,王英,孙高飞,王子彦,史谨璠,钟于义,曹华伟,沈梦南,阳小珊,田雄军,

袁圆,张良,王渭巍,苗树明,陈常水,刘鑫,曹晓琦,杨志龙,李侃,李强等。

IV

T/CESAXXXX—2020

信息技术应用创新人工智能服务器技术规范

1范围

本文件规定了人工智能服务器的基础功能、性能、兼容性要求及测试方法。

本文件适用于工智能系统建设,也可为人工智能服务器设备基础功能、性能、兼容性的测试提供参

考。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T9813.3计算机通用规范第三部分:服务器

GB/T4943.1信息技术设备安全第一部分:通用要求

ISO/IECCD22989InformationTechnology—ArtificialIntelligence—Artificial

IntelligenceConceptsandTerminology

ISO/IECCD23053FrameworkforArtificialIntelligenceSystemsUsingMachineLearning(ML)

T/CESA1026-2018人工智能深度学习算法评估规范

T/CESA1043-2019面向深度学习的服务器规范

3术语和定义

下列术语和定义适用于本文件。

3.1

人工智能服务器artificialIntelligenceserver

信息系统中,能够为人工智能应用提供高效能计算处理能力的服务器。

注1:人工智能服务器如配备了面向深度神经网络的加速器部件,可称为面向深度学习的服务器,或面向深度学习任务的人工智能

服务器;

注2:人工智能服务器如配备了面向非深度学习过程的加速器部件,可称为面向非深度学习任务的人工智能服务器。

3.2

人工智能服务器集群artificialIntelligenceservercluster

使用网络连接设施连接超过1台人工智能服务器,协同提供人工智能应用服务的计算机系统。

1

T/CESAXXXX—2020

3.3

人工智能高性能计算设施artificialIntelligenceHPCinfrastructure

可承担人工智能专用计算任务,理论算力总和在PFLOPS(1015次,FP16)或INT8精度等同等算力及

以上的计算设施。

3.4

人工智能加速板卡artificialIntelligenceacceleratorcard

专为人工智能设计,符合人工智能服务器硬件接口的扩展加速设备。

注:本文件中简称为“加速卡”或“加速板卡”。

3.5

人工智能加速模组artificialIntelligenceacceleratormodule

专为固定领域人工智能设计,能部署在智能摄像机、机器人、无人机等边缘计算场景中的扩展加速

设备。

注:本文件中简称为“模组”或“加速模组”。

3.6

人工智能加速芯片artificialIntelligenceacceleratorchip

具备适配人工智能算法的运算架构,能够完成人工智能应用运算处理的集成电路元件。

注:本文件中简称为“芯片”或“加速芯片”。

3.7

精确率precision

人工智能系统推理准确性指标之一,是推理正确的正例占所有正例的比例。

注:精确率又称为查准率。

3.8

召回率recall

人工智能系统推理准确性指标之一,是推理正确的正例占所有推理正确样本的比例。

注:召回率又称为查全率。

3.9

准确率accuracy

人工智能系统推理准确性指标之一,是推理正确的正例及负例之和占所有样本的比例。

2

T/CESAXXXX—2020

3.10

Top-1准确率Top-1accuracy

图像分类结果中排名第一的分类类别与实际结果相同的比例。

3.11

Top-5准确率Top-5accuracy

图像分类结果中排名前五的分类类别包含实际结果的比例。

3.12

平均精确率均值meanaverageprecision

数据集中所有类别的平均精度的均值。计算公式:

注:其中,为类别数量,,是第类精确率()。

3.13

平均交并比meanintersectionoverunion

在分类任务中,所有类别上真实值集合和预测值集合的交集与并集的元素个数之比的平均值。

3.14

能效比energyefficiencyratio

人工智能系统在额定工作情况下单位时间处理数据数量与平均功耗的比值。计算公式:

注1:是处理数据的总量;

注2:在图像处理场景中,N为图像张数,能效比的单位是images/sec/watt;

注3:在自然语言处理场景中,N为单词数量,能效比的单位是word/sec/watt;

注4:为处理数据所用的时间总和;

注5:为平均功耗。

3.15

吞吐量throughput

3

T/CESAXXXX—2020

在某测试中,人工智能系统能处理的有效数据总量。

注:人工智能系统在单位时间内能处理的有效数据的总量称为吞吐率。

3.16

线性度linearity

人工智能处理单元组合的实际总吞吐量与单卡总吞吐量的比值。卡线性度计算公式:

注1:其中,为人工智能处理单元的数量;是单个人工智能处理单元的吞吐量;

注2:多卡线性度是多卡吞吐量T与(单卡吞吐量*卡数)的比值。

3.17

平均推理时间averagedinferencetimeduration

从第一个样本进入模型推理开始到最后一个样本推理完成的总时间与推理总样本数的比值。

3.18

训练时间trainingtimeduration

人工智能系统按给定结构训练模型,达到给定训练准确度门限所需要的时间。

3.19

曲线下面积areaundercurve

被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线

一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。

3.20

平均均方误差meansquareerror

该统计参数是预测数据和原始数据对应点误差的平方和的均值,计算公式为:

3.21

平均绝对误差meanabsoluteerror

该统计参数是预测数据和原始数据对应点误差的绝对值和的均值,计算公式为:

4

T/CESAXXXX—2020

3.22

机器学习machinelearning

通过获取、重组新知识或技能提升功能单元效能的过程。

注:参考[ISO/IEC2382:2015(en),2123789]。

3.23

深度学习deeplearning

训练神经网络构建含多个(≥1)隐藏层的层次化表达的方法。

注:参考[ISO/IEC23053:2020CD,3.13]。

4缩略语

下列缩略语适用于本文件。

ASIC专用集成电路(ApplicationSpecificIntegratedCircuit)

AUC曲线下面积(AreaUnderCurve)

BF16:大脑浮点数格式(BrainFloatingpointformat,Bfloat16)

CPU:中央处理器(CentralProcessingUnit)

DRAM动态随机存取存储器(DynamicRandomAccessMemory)

EER能效比(EnergyEfficiencyRatio)

FAR误识率(FalseAcceptRate)

FPGA现场可编程门阵列(FieldProgrammableGateArray)

FP16半精度浮点数格式(half-precisionFloating-Pointformat)

FRR拒识率(FalseRejectRate)

FLOPS每秒浮点运算次数(Floating-PointOperationsPerSecond)

GBDT梯度提升迭代决策树(GradientBoostingDecisionTree)

GPU图形处理器(GraphicsProcessingUnit)

HBM高带宽内存(HighBandwidthMemory)

HDD硬盘(HardDiskDrive)

HDFSHadoop分布式文件系统(HadoopDistributedFileSystem)

HPC高性能计算(HighPerformanceComputing)

IB无限带宽(InfiniBand)

IR识别正确率(IdentificationRate)

IoU交并比IoU(IntersectionoverUnion)

LR逻辑回归(Logisticregression)

MAE平均绝对方差(MeanAbsoluteError)

mAP平均精确率均值(MeanAveragePrecision)

mIoU平均交并比(MeanIntersectionoverUnion)

5

T/CESAXXXX—2020

MSE平均均方误差(MeanSquareError)

MTBF平均故障间隔(MeanTimeBetweenFailures)

NDCG归一化折扣累积增益(NormalizedDiscountedCumulativeGain)

NPU神经网络处理单元(NeuralnetworkProcessingUnit)

NVMe非易失性内存标准(Non-VolatileMemoryExpress)

OPS每秒操作数(OperationsPerSecond)

RDMA远程直接内存访问(RemoteDirectMemoryAccess)

RoCE基于融合以太网的远程直接内存访问(RDMAoverConvergedEthernet)

SAS串行连接SCSI(SerialAttachedSCSI)

SATA串口硬盘(SerialAdvancedTechnologyAttachment)

SER句错误率(SentenceErrorRate)

SCSI小型电脑系统接口(SCSI)

SDD固态硬盘(SolidStateDisk)

SoC片上系统(SystemonaChip)

TPU张量处理单元(TensorProcessingUnit)

UOS统一操作系统(UnifiedOperatingSystem)

WER词错误率(WordErrorRate)

5技术要求

5.1深度学习训练技术要求

5.1.1处理器架构兼容性

5.1.1.1基础要求

面向深度学习任务的人工智能服务器,应满足以下要求:

a)支持以下1种架构或多种混合架构上的训练:

1)基于复杂指令集计算机架构的处理器,如X86、X86-64架构;

2)基于精简指令集计算机架构的处理器,如ARM、MIPS、PowerPC等架构;

b)应支持以下1种加速器上的训练:

1)ASIC类型的处理器,如FPGA、TPU、NPU等;

2)类脑芯片。

5.1.1.2增强要求

面向深度学习任务的人工智能服务器,应满足技术要求,包含但不限于:

a)支持一种以上国内人工智能处理器;

b)支持加速器,其兼容的精度至少包含下列之一:

1)FP16;

2)BF16;

3)FP32;

4)INT8;

6

T/CESAXXXX—2020

5)INT16。

c)OPS至少是通用CPU的10倍(OPS=时钟频率x加速器核心x每个时钟操作数);

d)能效比大于0.6;

e)支持加速部件间的高速互联通道,带宽不低于PCIev3x4的规定。

5.1.2操作系统兼容性

5.1.2.1基础要求

面向深度学习任务的人工智能服务器,用于模型训练,应能在至少1种基于Linux的操作系统上实施。

5.1.2.2增强要求

面向深度学习任务的人工智能服务器,用于模型训练,应能在任何基于Linux内核的操作系统发行

版上实施。

5.1.3框架兼容性

5.1.3.1基础要求

面向深度学习任务的人工智能服务器,支持至少1种深度学习计算框架。

5.1.3.2增强要求

面向深度学习任务的人工智能服务器,应深度学习框架兼容性技术要求,包含但不限于:

a)支持两种以上机器学习计算框架;

b)至少支持一种国内机器学习框架。

5.1.4模型兼容性

5.1.4.1基础要求:

面向深度学习任务的人工智能服务器,应支持以下场景及模型的训练:

a)图像分类(ResNet50v1.5,Inceptionv3);

b)目标检测(Yolov3,SSD);

c)自然语言处理(NMT,Bert)。

5.1.4.2增强要求

面向深度学习任务的人工智能服务器,应支持推荐系统(wide&deep)场景及模型的训练。

7

T/CESAXXXX—2020

5.1.5分布式训练

5.1.5.1基础要求

面向深度学习任务的人工智能服务器,应满足分布式训练技术要求,包含但不限于:

a)支持通过以太网、RDMA或其他互联网络;

b)支持不少于2台服务器组网,完成分布式训练,线性度≥80%。

c)支持分布式存储;

d)支持数据并行;

e)提供线性度数据。

5.1.5.2增强要求

面向深度学习任务的人工智能服务器,应支持8台以上服务器组网,实施分布式训练,线性度大于

90%。

5.1.6基于容器的训练

面向深度学习任务的人工智能服务器,应满足基于容器训练的技术要求,包含但不限于:

a)支持基于容器的多加速器训练;

b)支持基于容器的分布式训练;

c)支持训练环境快速配置、部署,可加载包含深度学习框架的镜像,结合用户数据集和训练脚本,

进行训练。

5.1.7训练作业管理

5.1.7.1基础要求

面向深度学习任务的人工智能服务器如有配套软件,应提供训练作业管理功能,应满足技术要求,

包含但不限于:

a)支持数据管理、预处理,包含:

1)非结构化数据标注;

2)非结构化数据变换。

b)支持平台管理,包含作业调度和负载均衡;

c)支持可视化资源检视;

d)支持部件诊断和容错;

e)支持数据的存储、备份和容灾。

5.1.7.2增强要求

面向深度学习任务的人工智能服务器如有配套软件,应提供训练作业管理功能,满足技术要求,包

含但不限于:

a)支持批量软件部署和升级;

8

T/CESAXXXX—2020

b)支持基于剩余资源的任务调度机制;

c)支持基于通信要求的同机/同拓扑局域作业调度和分配。

5.1.8性能要求

面向深度学习任务的人工智能服务器性能测试,使用表1中的指标和单位:

a)训练性能评估,应使用表1定义的门限指标和单位;

b)能够7*24小时运行训练任务,不出现因为硬件错误而导致的停滞、崩溃等情况。

表1面向深度学习任务的人工智能服务器训练性能评估表

指标二级指标单位

图像分类top1-accuracy%

目标检测mAP%

模型训练准确率门限

自然语言翻译WER%

推荐NDCG%

图像分类(不涉及)

目标检测(不涉及)

训练时间s

自然语言翻译(不涉及)

推荐(不涉及)

单卡(不涉及)

吞吐率Byte/s

集群(不涉及)

能效比(不涉及)Images/watt/s

PCIe标卡(不涉及)

功耗Watt

整机(不涉及)

多卡线性度(不涉及)%

5.2深度学习推理技术要求

9

T/CESAXXXX—2020

5.2.1处理器架构支持

5.2.1.1基础要求

面向深度学习任务的人工智能服务器:

a)处理单元,应至少支持在以下1种CPU架构或多种混合架构上进行测试:

1)基于复杂指令集计算机架构的处理器,如X86、X86-64架构;

2)基于精简指令集计算机架构的处理器,如ARM、MIPS、PowerPC等架构;

b)应支持推理加速器,至少支持以下1种处理器架构:

1)ASIC类型的处理器,如FPGA、TPU、NPU等;

2)类脑芯片。

5.2.1.2增强要求

面向深度学习任务的人工智能服务器,应满足以下要求:

a)支持一种及以上国内人工智能处理器;

b)支持加速器,其处理精度至少支持INT8,FP16,BF16或FP32中的一种。

5.2.2操作系统支持

5.2.2.1基础要求

面向深度学习任务的人工智能服务器用于推理,应能在至少1种基于Linux的操作系统上实施。

5.2.2.2增强要求

面向深度学习任务的人工智能服务器用于推理,应能在任何基于Linux内核的操作系统发行版上实

施。

5.2.3深度学习框架支持

5.2.3.1基础要求

面向深度学习任务的人工智能服务器,支持至少1种深度学习计算框架,能实施带框架推理。

5.1.3.2增强要求

面向深度学习任务的人工智能服务器,应满足深度学习框架兼容性技术要求,包含但不限于:

a)支持两种以上机器学习计算框架;

b)至少支持一种国内机器学习框架。

5.2.4模型支持

10

T/CESAXXXX—2020

面向深度学习任务的人工智能服务器,支持以下场景及对应的深度学习模型推理:

a)图像分类:Inceptionv3,ResNet101v1,ResNet50v1.5;

b)目标检测:SSD,YOLOv3。

5.2.5支持容器推理方式

5.2.5.1基础要求

面向深度学习任务的人工智能服务器,应支持基于容器的推理,满足如下技术要求,包含但不限于:

a)支持推理应用的容器化部署;

b)支持基于容器的管理和调度。

5.2.5.2增强要求

面向深度学习任务的人工智能服务器,应支持基于容器的远程应用部署。

5.2.6性能要求

面向深度学习任务的人工智能服务器,实施推理性能测试,应使用表2中的指标和单位:

表2面向深度学习任务的人工智能服务器推理性能要求表

指标二级指标单位

top1%

图像分类

模型推理准确率top5%

目标检测mAP%

平均推理时间(不涉及)ms

最大吞吐性能(不涉及)Images/s

功耗(不涉及)Watt

能效比(不涉及)Images/watt/s

注:指标说明参考第3节。

5.3非深度学习训练技术要求

5.3.1处理器架构兼容性

11

T/CESAXXXX—2020

训练处理器架构兼容性要求同5.1.1。

5.3.2操作系统兼容性

训练操作系统兼容性要求同5.1.2。

5.3.3框架兼容性

5.3.3.1基础要求

宜支持至少一种非深度学习计算框架,可完成对结构化数据的二分类建模。

5.3.3.2增强要求

宜支持非深度学习计算框架,可完成对结构化数据的多分类、回归建模。

5.3.4模型兼容性

面向非深度学习任务的人工智能服务器,应支持逻辑回归及梯度提升决策树模型训练。

5.3.5分布式训练

面向非深度学习任务的人工智能服务器,用于分布式训练,应满足5.1.5提出的技术要求。

5.3.6基于容器的训练

面向非深度学习任务的人工智能服务器,用于分布式训练,应满足5.1.6提出的技术要求。

5.3.7训练作业管理

5.3.7.1基础要求

面向非深度学习任务的人工智能服务器如有配套软件,提供训练作业管理功能,应满足技术要求,

包含但不限于:

a)支持数据管理、预处理,包含结构化数据清洗和变换;

b)支持平台管理,包含作业调度及负载均衡;

a)支持可视化资源检视;

b)支持部件诊断和容错;

c)支持数据的存储、备份和容灾。

5.3.7.2增强要求

12

T/CESAXXXX—2020

面向非深度学习任务的人工智能服务器如有配套软件,提供训练作业管理功能,应满足技术要求,

包含但不限于:

a)支持批量软件部署和升级;

b)支持基于剩余资源的任务调度机制;

c)支持基于通信要求的同机/同拓扑局域作业调度和分配。

5.3.8性能要求

面向非深度学习任务的人工智能服务器,实施训练,应满足以下性能技术要求:

a)训练性能评估,使用表3中的指标和单位;

b)能够7*24小时运行训练任务,不出现因为硬件错误而导致的停滞、崩溃等情况。

表3非深度机器学习任务的人工智能服务器训练性能评估表

指标二级指标单位

二分类AUC无单位,取0到1之间的值,保留三位小数

精确率%

召回率%

模型训练准确率门限

多分类Top-1Accuracy%

回归MSE%

MAE%

二分类(不涉及)

训练时间多分类(不涉及)s

回归(不涉及)

PCIe标卡(不涉及)

功耗Watt

整机(不涉及)

5.4非深度学习推理技术要求

5.4.1处理器架构兼容性

13

T/CESAXXXX—2020

面向非深度学习任务的人工智能服务器,执行推理任务,应满足5.2.1提出的处理器兼容性技术要

求。

5.4.2操作系统支持

面向非深度学习任务的人工智能服务器,执行推理任务,应满足5.2.2提出的操作系统兼容性技术

要求。

5.4.3非深度学习框架支持

5.4.3.1基础要求

面向非深度学习任务的人工智能服务器,支持至少一种机器学习计算框架,可完成对结构化数据的

二分类推理。

5.4.3.2增强要求

面向非深度学习任务的人工智能服务器,应支持的机器学习计算框架可完成对结构化数据的回归推

理。

5.4.4非深度学习模型支持

面向非深度学习任务的人工智能服务器,应支持以下模型推理:

a)逻辑回归;

b)梯度提升决策树;

5.4.5支持容器推理方式

面向非深度学习任务的人工智能服务器,满足的基于容器的推理技术要求同5.2.5

5.4.6性能要求

面向非深度学习任务的人工智能服务器,使用表4中的指标和单位:

14

T/CESAXXXX—2020

表4面向非深度学习任务的人工智能服务器推理性能表

指标二级指标单位

二分类AUC无单位,取0到1之间的值,

保留三位小数

精确率%

模型训练准确率门限

召回率%

回归MSE%

MAE%

平均推理时间(不涉及)ms

最大吞吐性能每秒查询次数查询次数/s

功耗(不涉及)Watt

注:指标说明参考第3节。

5.5通用技术要求

5.5.1处理器架构

人工智能服务器:

a)应是CPU与异构计算单元构建的协同计算架构;

b)整个系统由CPU提供统一应用接口;

c)异构计算单元为人工智能应用提供高效运算加速处理服务。

5.5.2硬件组成

人工智能服务器,应包含如下组成部分,包括但不限于:

a)通用计算子系统;

b)深度学习加速计算子系统(仅限于面向深度学习任务的人工智能服务器);

c)存储子系统;

d)供电子系统;

e)管理子系统等。

5.5.3通用计算子系统功能要求

15

T/CESAXXXX—2020

5.5.3.1基础要求

通用计算子系统,应满足以下技术要求,包含但不限于:

a)支持单CPU运行;

b)如计算子系统以CPU为核心,则应包含如下硬件装置:

1)运算单元;

2)缓存;

3)内存控制器;

4)总线控制器;

5.5.3.2增强要求

通用计算子系统,应支持多CPU运行(数量≥2)。

5.5.4深度学习加速计算子系统功能要求

面向深度学习任务的人工智能服务器的加速计算子系统,应满足以下技术要求,包含但不限于:

a)支持基于GPU、FPGA的深度学习加速计算子系统;

b)不支持a)时,支持基于ASIC的专用处理器,协助通用计算子系统,完成运算。

c)基于ASIC专用处理器的计算设施,形态包含以下之一但不限于:

1)芯片;

2)模组;

3)板卡;

4)扩展箱

d)支持独立内存控制器,可为加速计算任务提供独占内存空间;

e)支持高速总线接口,可与主处理器互连。

5.5.5存储子系统要求

5.5.5.1基础要求

存储子系统,应满足以下技术要求,包含但不限于:

a)支持存储扩展接口,含:

1)内存扩展接口;

2)外部存储扩展(如HDD、SSD等),支持扩展SATA、SAS、PCIe及NVMe协议;

b)支持DDR4或以上同步动态随机存储器标准;

c)支持内存查错和纠错;

d)支持故障警告;

5.5.5.2增强要求

存储子系统,应满足以下基础要求,包含但不限于:

a)支持内存镜像。

16

T/CESAXXXX—2020

b)支持本地数据多存储媒体备份。

5.5.6供电子系统要求

5.5.6.1基础要求

供电子系统,应满足以下技术要求,包含但不限于:

a)支持100~240VAC;

b)支持AC/DC转换;

c)支持上电时序控制;

d)支持故障报警,系统运行状态监控;

5.5.6.2增强要求

供电子系统,应满足以下技术要求,包含但不限于:

a)支持电源冗余控制,在局部故障时仍能正常供电;

b)支持通过电源模块给其它子系统直流供电;

c)支持双路及多路冗余供电(除边缘计算设施外)。

5.5.7管理子系统要求

5.5.7.1基础要求

管理子系统,应满足以下技术要求,包含但不限于:

a)支持查询硬件资源信息,包含:

1)设备序列号;

2)设备类型。

b)支持查询和管理硬件资源使用信息,包含:

1)硬件资源占用率;

c)支持人可操作的管理界面;

d)支持机间接口,使系统可被集成、管理,实现如下功能:

1)设备序列号查询;

2)网络使用,运行时间查询;

3)软件、固件升级;

4)日志收集。

e)支持系统软件维护,包含以下功能:

1)固件升级合法性校验;

2)基础软件合法性,可防止恶意程序植入;

3)支持基于Web及命令行的单机运维界面;

5.5.7.2增强要求

管理子系统,应满足以下技术要求,包含但不限于:

17

T/CESAXXXX—2020

a)支持芯片级安全启动。

b)支持双机备份。

c)设备温度、电压、功耗状态查询;

d)固件主备备份;

e)故障监控与告警

5.5.8安全要求

人工智能服务器,应符合GB4943.1-2011的要求。

5.5.9环境要求

人工智能服务器,应满足以下环境要求,包含但不限于:

a)云侧人工智能服务器,应符合GB/T9813.3-2017的气候适应性和机械结构适应性规定;

b)边缘侧人工智能服务器气候环境适应性要求如表5:

表5环境分类表

环境类别

环境条件

IIIIIIIV

高温(℃)45556070

低温(℃)0-10-25-40

1)I类环境:包括但不仅限于居住或办公环境的室内(如客厅、办公室、机房);

2)II类环境:包括但不仅限于室内公共区域(如购物区域、商店、餐厅、楼梯、工厂生产装

配间,入口和储藏室等);

3)III类环境:包括但不仅限于有直接淋雨防护和日晒防护的室外,或者极端环境条件的室内

(如车库、阁楼、仓库和进料台等);

4)IV类环境:一般意义上的室外;

注:具体的温度湿度区间参考产品说明文档。

5.5.10电磁兼容性要求

人工智能服务器,满足电磁兼容性要求,包含但不限于:

a)工智能计算服务器,应符合GB/T9254-2008的无线电抗干扰技术要求,产品应明确标明以下级

别抗干扰极限:

1)A级;

2)B级。

b)静电放电抗扰度应符合GB/T17626.2中等级2的要求。试验期间,允许出现性能降低,但不应损

坏,故障或发生状态改变,试验后产品应正常工作;

c)电源端口、I/O及通信端口的射频电磁场辐射抗扰度应符合GB/T17626.3中等级2的要求。试验

期间和试验后,无需操作人员介入,受试样品应能按预期持续工作,不允许出现低于制造商规

定的性能等级的降级或功能损失;

18

T/CESAXXXX—2020

d)电快速瞬变脉冲群抗扰度应符合GB/T17626.4的规定,AC电源端口应符合等级3的要求;线长超

过3m的直流电源端口、通信端口和控制端口应符合等级2的要求。试验期间,允许出现性能降

低,但不应损坏,故障或发生状态改变,试验后产品应正常工作;

e)浪涌(冲击)抗扰度交流电源线线应符合GB/T17626.5等级2的要求,线地应符合GB/T17626.5

等级3的要求,其他供电端口和信号线应符合GB/T17626.5线地等级2的要求。对于实际使用长

度小于10m的数据电缆可以不进行试验。试验期间,允许样机出现性能降低,但不应损坏,故

障或发生状态变化,试验后产品应正常工作;

f)传导抗扰度应符合GB/T17626.6等级2的要求。试验期间和试验后,无需操作人员介入,受试样

品应能按预期持续工作,不允许出现低于制造商规定的性能等级的降级或功能损失;

g)若产品内有对磁场敏感的装置(如CRT监视器、霍尔器件、电动麦克风、磁场传感器等),则产

品的工频磁场抗扰度应符合GB/T17626.8等级2的要求。试验期间,允许样机出现性能降低,

但不应损坏,故障或发生状态变化,试验后产品应正常工作;

h)电压暂降、短时中断和电压变化的抗扰度应符合GB/T17626.11表1的2类要求,电压暂降过程允

许性能或功能短暂丧失或降低,但在骚扰停止后能自行恢复,不需要操作者干预;短时中断过

程允许性能或功能短暂丧失或降低,可由操作者干预恢复;

i)谐波电流发射限值应符合GB17625.1中表1的A类设备的限值要求;

j)电压变化、电压波动和闪烁限值应符合GB/T17625.2中第5章的限值要求。

5.5.11可靠性要求

5.5.11.1基础要求

人工智能服务器采用MTBF衡量可靠性水平,应符合GB/T9813.3-2017中的要求。

5.5.11.2增强要求

服务器提供者具备可靠性预测机制、实验方法和报告。

5.5.12电源能耗要求

人工智能服务器,应符合GB/T9813.3-2017中对电源能耗的要求。

6测试方法

6.1概述

人工智能服务器测试,按照以下规则实施:

a)面向深度学习任务的服务器,按6.2,6.3,6.4的要求测试;

b)面向非深度学习任务的服务器,按6.5,6.6的要求测试;

c)6.7的要求,适用于所有人工智能服务器的测试。

6.2深度学习测试指标

19

T/CESAXXXX—2020

6.2.1基础要求

面向深度学习任务的人工智能服务器测试,使用以下指标,包含场景准确率门限指标及单位,训练

时间

时间。

6.2.2增强要求

面向深度学习任务的人工智能服务器测试,使用以下指标,包含能效比,线性度,系统初始化耗时

及模型初始化耗时。

6.3深度学习训练测试方法

6.3.1环境配置

6.3.1.1硬件环境

面向深度学习任务的人工智能服务器训练测试,应提供硬件环境描述,包括表6中的信息:

表6训练测试硬件环境信息表

硬件环境描述

主板信息主板拓扑信息(如PCIE、芯片间高速互联总线拓扑等)

架构处理器处理器品牌与架构、型号、主频、个数、核心数

内存信息内存品牌与型号、容量、个数、带宽、主频

网络信息以太网信息或高速网络信息

存储信息品牌、型号、容量、数量、Raid信息

加速计算芯片信息1、计算芯片硬件架构信息

2、浮点/定点运算算力信息

3、张量运算信息

4、内存信息

5、功耗信息

6、主频信息

注1:为满足基础要求测试时,测试服务器数量≥2;

注2:为满足增强要求测试时,测试服务器数量≥8,并可以远程验证。

6.3.1.2软件环境:

面向深度学习任务的人工智能服务器训练测试,应提供软件环境描述,包括表7中的信息:

20

T/CESAXXXX—2020

表7训练测试软件环境信息表

软件环境描述

操作系统1、明确支持具体操作系统

2、测试基于指定操作系统,明确操作系统版本

加速芯片软件信息1、加速芯片驱动与版本

2、加速芯片计算库及版本

3、加速芯片加速库及版本

训练框架信息1、训练框架支持情况

2、训练框架支持版本

容器环境1、容器版本

2、容器加载与启动要求

3、容器运行要求

6.3.2深度学习框架兼容性测试

面向深度学习任务的人工智能服务器深度学习框架兼容性测试,方法如下:

a)按照5.1.3,5.2.3要求,安装、配置深度学习框架;

b)按照6.3.5的训练过程,实施训练。

6.3.3模型兼容性测试

面向深度学习任务的人工智能服务器应满足模型兼容性测试,按照6.3.2要求,训练5.1.4.1要求的

模型。

6.3.4基于容器的训练测试

面向深度学习任务的人工智能服务器,基于容器的训练测试,方法如下:

a)安装、配置容器;

b)按照6.3.2测试要求,基于容器,训练5.1.4.1要求的模型;

c)在训练过程中,检视以下内容:

1)是否能调用多个加速单元实施训练;

2)是否能实施分布式训练;

3)是否能加载深度学习框架镜像,结合用户数据集和脚本,实施训练。

6.3.5性能测试

面向深度学习任务的人工智能服务器,训练性能测试,方法如下:

a)使用框架提供的编程接口,训练如5.1.4.1规定的模型之一,得出训练结果模型;

b)结果模型结构与5.1.4.1所列模型结构一致;

21

T/CESAXXXX—2020

c)训练结果符合6.3.7要求。

6.3.6训练功耗测试

面向深度学习任务的人工智能服务器,训练功耗测试,方法如下:

a)测量待机功耗,包括:

1)加速器功耗;

2)集群功耗;

b)测量服务器整机负载功耗,在6.3.5规定的测试过程中,计量功耗。

6.3.7训练结果统计

6.3.7.1基础要求

面向深度学习任务的人工智能服务器,训练测试,满足结果统计要求:

a)至少提供5次结果;

b)训练准确率实际指标值;

c)端到端训练时间;

d)线性度。

6.3.7.2增强要求

面向深度学习任务的人工智能服务器,训练测试,满足结果统计要求:

a)功耗数据(见6.3.6);

b)加速器利用率数据,包括:

1)HBM;

2)芯片利用率。

6.4深度学习推理测试方法

6.4.1环境配置

6.4.1.1硬件环境

面向深度学习任务的人工智能服务器推理测试,应提供硬件环境描述,包括表8中的信息:

22

T/CESAXXXX—2020

表8推理测试硬件环境信息表

硬件环境描述

主板信息描述主板信息

1、主板拓扑信息

架构处理器1、处理器品牌与架构

2、处理器型号

3、处理器主频

4、处理器个数

5、处理器核心数

内存信息1、内存品牌与型号

2、内存容量

3、内存个数

4、内存带宽

5、内存主频

网络信息1、以太网信息

2、高速网络信息

存储信息1、品牌、型号

2、容量

3、数量

4、Raid信息

加速计算芯片信息1、计算芯片硬件架构信息

2、浮点/定点运算算力信息

3、张量运算信息

4、内存信息

5、功耗信息

6、主频信息

6.4.1.2软件环境

面向深度学习任务的人工智能服务器推理测试,应提供软件环境描述,包括表9中的信息:

23

T/CESAXXXX—2020

表9推理测试软件环境信息表

软件环境描述

操作系统1、明确支持具体操作系统

2、测试基于指定操作系统,明确操作系统版本

加速芯片软件信息1、加速芯片驱动与版本

2、加速芯片计算库及版本

3、加速芯片加速库及版本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论