CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿编制说明_第1页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿编制说明_第2页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿编制说明_第3页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿编制说明_第4页
CESA-2020-4-018 信息技术应用创新 人工智能服务器技术规范 征求意见稿编制说明_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、工作简况

(一)产品和行业发展情况

人工智能服务器是人工智能计算基础设施的主要应用形态,逐步应用在国内

外各行业产学研场景中。

1、国外发展情况:

1)人工智能计算的特点是高度并行化,国外技术的发展来自其通用计算发

展成果的并行化。出现了一些引领世界人工智能计算技术的研究机构和厂商;

2)人工智能服务器是突出的产品化方向。人工智能服务器,因其优化的机

内连接及专为人工智能计算设计的板级支撑,能够高效提供专用算力,提升应用

效率。

3)与人工智能服务器配套的软件框架、工具发展迅速,应用生态初步形成;

4)在功能、性能、兼容性等关键子领域,有稳定技术产出,保持上升。产

业合作、产品、服务已扩展到我国国内应用行业。

2、国内发展情况:

1)出现了一些人工智能芯片设计、研发机构,形成了基于不同架构的人工

智能计算芯片产品;

2)基于芯片研制成果,人工智能服务器的发展也逐步展开,已同步出现了

一些具有独特技术功能的,性能上具备一定竞争力的产品实践,应用规模逐步增

大;

3)软件、应用生态持续发展,与人工智能计算设备的整体应用已存在相当

规模的成功试点;

4)在功能、性能、兼容性等关键技术子领域,已有关键技术产出并持续活

跃。

3、国内外发展情况对比:

1)国内外人工智能计算设备,尤其是人工智能服务器存在差距。国外在硬

件构架设计、兼容性、算力释放、软件工具、应用生态方面,以GPU为核心,建

立了较为完整的标准及产品体系;

2)国内人工智能芯片、服务器研制领域投入较大,参与者众多,但技术、

生态碎片化明显,厂商多而不强。大多服务器产品或多或少地,存在兼容性,算

力释放,软件工具,应用生态等方面的不足。特别地,在产品化及应用实践方面,

无基础性技术标尺,用户难以选择。国内人工智能芯片、服务器研发成果的应用

规模有待提高。

(二)主要承办单位和参编单位

本文件编制由华为技术有限公司提出标准需求并牵头,联合杭州海康威视数

字技术股份有限公司,北京中科寒武纪科技有限公司,北京紫光恒越网络科技有

限公司等发起,并获得了国家计算机质检中心(北京尊冠科技有限公司),上海

依图网络科技有限公司,海光信息技术有限公司,云从科技集团股份有限公司,

北京中科睿芯科技集团有限公司,第四范式(北京)技术有限公司等单位的协同

编制与指导。

(三)主要工作过程

2019年2月,信息技术应用创新工作委员会AI工作组标准征集。

2020年2月15日,确定《信息技术应用创新人工智能服务器技术规范》列入

信息技术应用创新工作委员会人工智能工作组工作计划对该项标准进行研制,并

在信息技术应用创新范围内征集参编单位。

2020年3月20日,信息技术应用创新工作委员会各参编单位完成第一轮标准

研制工作并汇总形成初步文稿。

2020年4月20日,标准组第二次标准编制讨论会,各参与单位交换、讨论编

制意见,形成文件讨论稿第二版。

2020年5月15日,标准组第三次标准编制讨论会,对标准草案涉及的关键问

题进行了讨论并修改文稿。

2020年6月8日,讨论解决了关键问题,形成了组内征求意见文稿;

2020年7月7日,征集组内意见,并进行了讨论,将确定的修改合入文稿,形

成了标准初稿;

2020年10月14日,上工委会标准立项评审会,通过评审,准许立项。

(四)主要起草人及其所做的工作

本文件的主要起草人包括金勇,李军,胡本强,赵春昊,罗仕胜,张秀莺,

彭剑峰,叶挺群,浦世亮,肖羽,卢冕,刘一鸣,王英,孙高飞,王子彦,史谨

璠,钟于义,曹华伟,沈梦南,阳小珊,田雄军,袁圆,张良,王渭巍,苗树明,

陈常水,刘鑫,曹晓琦,杨志龙,李侃,李强等。各起草人皆参与了编制会议,

对文件中的条款和重点问题进行了技术及编制方面的探讨。

二、标准编制原则和确定主要内容的论据及解决的主要问题

编制原则:

a)先进性原则:本文件的编制以对人工智能计算产业的发展及痛点洞察为先

导,研究人工智能计算设备主要产品——人工智能服务器的产业、生态发展情况,

分析国外先进研究机构、厂商技术动作及其对产业发展的带动作用。将国内外产

业发展做了分析对比,识别我国人工智能服务器产业发展的特点及不足及标准化

文件缺失,有针对性地,选取了标准化对象;

b)实用性原则:本文件制定时充分分析了众多应用领域对人工智能服务器的

需求,着力于解决用户、厂商在实际应用人工智能服务器过程中的共同技术问题

和难点,引导用户、厂商针对产品能力达成一致预期,在实际项目中增强国内人

工智能服务器产品应用落地能力;

c)兼容性原则:本文件编制时时,充分考虑了人工智能服务器与其它信息技

术、人工智能软件、应用等相关技术、工具、产品的兼容性。加之,本文件在研

制过程中,广泛参考了国内外相关标准,如GB/T9813.3《计算机通用规范第

三部分:服务器》,GB/T4943.1《信息技术设备安全第一部分:通用要求》,

T/CESA1043-2019《面向深度学习的服务器通用规范》,20192139-T-469《信息

技术人工智能平台资源供给》,ISO/IECCD22989:2019Information

Technology—ArtificialIntelligence—ArtificialIntelligence

ConceptsandTerminology,ISO/IECCD23053:2019FrameworkforArtificial

Intelligence(AI)SystemsUsingMachineLearning(ML)及ISO/IEC

21836:2020Informationtechnology—Datacentres—Serverenergy

effectivenessmetric等。可保证与现有技术生态和标准的兼容性。

d)可扩展性原则:本文件中编制过程中,调研了人工智能服务器技术生态所

涉及的硬件扩展、软件、工具、应用等的技术路径和使用情况,可保证各厂商在

使用时兼顾规范性的同时具备可扩展能力。

主要内容:

文件规定了人工智能服务器的基础功能、性能、兼容性要求及测试方法。适

用于工智能系统建设,也可为人工智能服务器设备基础功能、性能、兼容性的测

试提供参考。主要内容包含:

1)人工智能服务器相关概念定义;

2)深度学习训练、推理及通用技术能力要求;

3)非深度学习训练、推理及通用技术能力要求;

4)测试指标和训练、推理测试方法,推理测试方法,通用技术能力测试方

法等。

主要内容的论据(必要性,或期望解决的产业发展问题):

1)(应用基础和前景良好,但基础技术要求不明确)人工智能服务器专为

人工智能运算研制,是当前各行业应用人工智能技术的必备设备。人工智能服务

器的应用已逐步形成规模,获得各行业应用认可。但人工智能服务器的应用没有

基础技术要求。选取、采用决策缺乏规范化参考;

2)(缺乏基础技术能力界定)当前,人工智能服务器的基础功能、性能指

标及测试方法没有界定;

3)(缺乏基础技术能力规范化的测试方法)厂商标称指标,不能完全代表

真实的、可发挥的实际能力,各自实施测试并解释测试结果,标尺不一,用户应

用、系统建设选择、设计存在风险。国内人工智能服务器产业规模逐步扩大,参

与者增多;

4)(与国外起步时间接近,有机会超越,需要扶持)国内外在人工智能计

算领域的发展程度相对接近(相较于通用计算),应抓住时机推进国内人工智能

服务器产业发展,凝聚智慧,标准化核心问题,支撑后续发展。

目的、意义:

1)(界定基础技术能力)定义人工智能服务器基础功能、性能指标,为产

业发展提供标尺;

2)(统一基础技术能力测试方法,为用户提供明确的标尺)定义统一的测

试指标及方法,为用户提供明确标尺,缓解厂商自测,结果自解释的现象,对用

户应用、系统建设带来的技术风险;

3)(扶持国内产业发展,缩小国内外水平差距)人工智能服务器在国内的

发展已经起步,正处于上升初期,应用逐步展开。标准是产业运行的重要规则之

一,参考国外先进水平,并争取在某些技术方面引导产业形成超越,支撑我国人

工智能计算技术国际竞争力的提升,打好开局。

三、主要试验[或验证]情况分析

本文件研制之前已调研了国内外人工智能服务器产品发展情况,着重对实际

指标、测试方法和应用结果做了总结。基于此,首先定义了人工智能服务器的相

关概念,明确了标准化对象的范围。在这方面,参考对比了已有的国内外相关标

准。本文件对人工智能服务器相关概念的定义,符合国内外已有标准的定义,在

标准化的技术栈中占有确定的地位,国内外产品形态明确且常见。

另外,在本文件的编制前及过程中,参考了各参与单位的往期实验,确定了

测试项目、方法和指标。验证的测试项目包含:单机单卡、多卡,多机多卡在指

定模型、数据集上的训练和推理基础性能实验,操作系统、模型兼容实验,整机

可靠性实验,功耗实验等。验证的测试指标包含:精确率、召回率、准确率、平

均精确率均值、平均交并比、能效比、吞吐量、线性度、训练时间、平均均方误

差、平均绝对误差等。基于理论论证、实际检验和验证,本文件具备切实可行性。

四、知识产权情况说明

未发现有知识产权问题。

五、产业化情况、推广应用论证和预期达到的经济效果

产业发展情况:

请见第一.(一)节。

推广应用论证:

一方面,本文件面向各行业人工智能应用,对必要计算设备——人工智能服

务器,提出了基础技术要求,可以规范化功能、性能、兼容性等重要技术特性基

线,为各行业用户提供系统设计和选择依据;另一方面,人工智能应用前景广阔,

各行业的应用逐步展开,对人工智能服务器的需求数量大。应用产业对技术基准

的需求明确。

因此,面向人工智能典型计算设备——人工智能服务器,建立基础技术规范,

十分必要。在学习、应用国际先进技术的同时,向产业普及人工智能服务器基本

技术要求和测试方法,可为当前碎片化的国内人工智能计算设备产业提供明确的

发展标尺,提升整体水平。

预期经济效果:

对人工智能服务器基础技术要求和测试方法的标准化工作,将为我国人工智

能服务器的发展和应用提供依据,有效缓解用户看到却不选择使用的问题。利用

此技术标尺,逐步为我国人工智能服务器开拓市场信赖空间,切实提升购置、使

用率,为产业、厂商、测试机构、用户创造经济效果。

六、采用国际标准和国外先进标准情况

无。

七、与现行相关法律、法规、规章及相关标准的协调性

政策、法律、法规协调性:

国务院:《新一代人工智能发展规划》及《国务院关于印发新一代人工智能

发展规划的通知》国发〔2017〕35号,文中指出:构建泛在安全高效的智能化

基础设施体系,高效能计算基础设施。继续加强超级计算基础设施、分布式计算

基础设施和云计算中心建设,构建可持续发展的高性能计算应用生态环境。推进

下一代超级计算机研发应用。人工智能服务器的诞生就是为了针对性地提升关于

人工智能负载的计算性能,大力发展人工智能计算基础设施,是提升国家技术核

心竞争力,各行业运行效率的关键。

本文件在2020年颁布的《国家新一代人工智能标准体系建设指南》中属于

软件和信息技术服务标准体系中属于“信息技术”-“人工智能”-“C基础软硬

件平台”。

与国际、国内标准文件的协调性:

本文件是人工智能服务器领域,国内外先进标准的重要补充。本文件与国内

外先进标准文件的关系总结如下:

国内标准文件:

1)与通用服务器国标的关系:本文件涉及的人工智能服务器遵循通用服务

器功能国标GB/T9813.3《计算机通用规范第三部分:服务器》提出的电气、

电子功能,质量评定程序,标志、包装、运输和贮存要求。但在GB/T9813.3基

础上,着重提出人工智能计算涉及的独特技术功能、兼容性、基础性能等技术要

求和测试方法;

2)与通用电子设备安全要求的关系:本文件涉及的人工智能计算设备遵循

GB/T4943.1《信息技术设备安全第一部分:通用要求》提出的对所有电子设

备电气、辐射、机械安全技术要求;

3)与机器学习服务器通用技术要求的关系:本文件涉及的人工智能服务器

设备遵循T/CESA1043-2019《面向深度学习的服务器通用规范》提出的设计、制

造、检验过程要求。并在其基础上,着重提出机器学习推理、训练等实际功能、

兼容性、性能等技术要求及测试方法,形成面向实操的指引,是人工智能计算设

备标准体系中的重要组成部分;

4)与计算资源调度国标的关系:20192139-T-469《信息技术人工智能平

台资源供给》提出了人工智能计算资源调度方法,定义了必要参考指标。本文件

不涉及资源调度方法。人工智能服务器可作为一种计算资源,被调度。

国际标准文件:

1)与ISO/IEC人工智能标准的关系(JTC1SC42):

a)ISO/IECCD22989:2019InformationTechnology—Artificial

Intelligence—ArtificialIntelligenceConceptsandTerminology提出

了人工智能系统的组成构架,构架中含有计算基础设备(Compute)部分,这些

设备可按某种组织方式,组成更复杂的计算架构(如(云计算)。22989CD版本

并未对计算设备做详细介绍。本文件提出的人工智能服务器是ISO/IECCD

22989:2019中计算设备的典型形态,本文对人工智能服务器提出功能、性能、兼

容性等基础技术要求,并提出面向实际操作的测试方法;

b)ISO/IECCD23053:2019FrameworkforArtificialIntelligence

(AI)SystemsUsingMachineLearning(ML)在6.1章节中提出计算设备影响机

器学习(人工智能的主要分支)系统效率,但未对计算设备给出详细论述。本文

件提出的人工智能服务器是ISO/IECCD23053:2019中“设施(infrastructure)”

-“硬件(hardware)”的主要形态。本文件进一步研究并提出细致的功能、性

能、兼容性技术要求和测试方法。

2)与ISO/IEC可持续性、IT及数据中心标准的关系(JTC1SC39):ISO/IEC

21836:2020Informationtechnology—Datacentres—Serverenergy

effectivenessmetric及ISO/IEC30134-4:2017Informationtechnology—

Datacentres—Keyperformanceindicators—Part4:ITEquipment

EnergyEfficiencyforservers(ITEEsv)面向数据中心所使用的通用服务器,

提出了能效测试指标及设计方法论,本文件中关于能效的测试指标的设计,遵循

ISO/IEC21836及ISO/IEC30134-4的要求,并在人工智能计算领域提出专门定

义,用于衡量人工智能计算设备完成人工智能应用计算任务的效能。

八、重大分歧意见的处理经过和依据

无。

九、标准性质的建议

建议列为推荐性标准。

十、贯彻标准的要求和措施建议

标准项目计划:

1)2020.11立项;

2)2020.12完成编制、发布;

3)2021:发布后,按照工委会部署,择机,展开测试、评估。

组织措施:

为应用本文件,建议实施以下组织措施:

1)在信息技术创新标准中心指导下,确定技术要求测试的执行代表机构;

2)由代表机构建立测试组织工作组,评审专家组,技术测试组,按照本标

准实施测试,及对测试过程及结果进行指导、评审;

3)由信息技术创新标准中心及执行代表机构,联合向人工智能服务器应用

领域的利益相关方,发布测试结果。

技术措施:

为应用本文件,建议实施以下技术措施:

1)广泛调研和遴选测试工具,对存在的测试工具进行验证,明确其适用性

和准确性;

2)对拟增强的测试工具,实施技术分析,研制完善测试功能;

3)标准各参与单位,对执行代表机构人员,进行技术培训,明确工具测试,

访谈等涉及的技术要求范围;

4)制定测试组织流程。

十一、替代或废止现行相关标准的建议

无需要替代或废止的现行相关标准。

十二、其它应予说明的事项

无。

《信息技术应用创新人工智能服务器技术规范》团体标准编制工作组

2020-11-19

一、工作简况

(一)产品和行业发展情况

人工智能服务器是人工智能计算基础设施的主要应用形态,逐步应用在国内

外各行业产学研场景中。

1、国外发展情况:

1)人工智能计算的特点是高度并行化,国外技术的发展来自其通用计算发

展成果的并行化。出现了一些引领世界人工智能计算技术的研究机构和厂商;

2)人工智能服务器是突出的产品化方向。人工智能服务器,因其优化的机

内连接及专为人工智能计算设计的板级支撑,能够高效提供专用算力,提升应用

效率。

3)与人工智能服务器配套的软件框架、工具发展迅速,应用生态初步形成;

4)在功能、性能、兼容性等关键子领域,有稳定技术产出,保持上升。产

业合作、产品、服务已扩展到我国国内应用行业。

2、国内发展情况:

1)出现了一些人工智能芯片设计、研发机构,形成了基于不同架构的人工

智能计算芯片产品;

2)基于芯片研制成果,人工智能服务器的发展也逐步展开,已同步出现了

一些具有独特技术功能的,性能上具备一定竞争力的产品实践,应用规模逐步增

大;

3)软件、应用生态持续发展,与人工智能计算设备的整体应用已存在相当

规模的成功试点;

4)在功能、性能、兼容性等关键技术子领域,已有关键技术产出并持续活

跃。

3、国内外发展情况对比:

1)国内外人工智能计算设备,尤其是人工智能服务器存在差距。国外在硬

件构架设计、兼容性、算力释放、软件工具、应用生态方面,以GPU为核心,建

立了较为完整的标准及产品体系;

2)国内人工智能芯片、服务器研制领域投入较大,参与者众多,但技术、

生态碎片化明显,厂商多而不强。大多服务器产品或多或少地,存在兼容性,算

力释放,软件工具,应用生态等方面的不足。特别地,在产品化及应用实践方面,

无基础性技术标尺,用户难以选择。国内人工智能芯片、服务器研发成果的应用

规模有待提高。

(二)主要承办单位和参编单位

本文件编制由华为技术有限公司提出标准需求并牵头,联合杭州海康威视数

字技术股份有限公司,北京中科寒武纪科技有限公司,北京紫光恒越网络科技有

限公司等发起,并获得了国家计算机质检中心(北京尊冠科技有限公司),上海

依图网络科技有限公司,海光信息技术有限公司,云从科技集团股份有限公司,

北京中科睿芯科技集团有限公司,第四范式(北京)技术有限公司等单位的协同

编制与指导。

(三)主要工作过程

2019年2月,信息技术应用创新工作委员会AI工作组标准征集。

2020年2月15日,确定《信息技术应用创新人工智能服务器技术规范》列入

信息技术应用创新工作委员会人工智能工作组工作计划对该项标准进行研制,并

在信息技术应用创新范围内征集参编单位。

2020年3月20日,信息技术应用创新工作委员会各参编单位完成第一轮标准

研制工作并汇总形成初步文稿。

2020年4月20日,标准组第二次标准编制讨论会,各参与单位交换、讨论编

制意见,形成文件讨论稿第二版。

2020年5月15日,标准组第三次标准编制讨论会,对标准草案涉及的关键问

题进行了讨论并修改文稿。

2020年6月8日,讨论解决了关键问题,形成了组内征求意见文稿;

2020年7月7日,征集组内意见,并进行了讨论,将确定的修改合入文稿,形

成了标准初稿;

2020年10月14日,上工委会标准立项评审会,通过评审,准许立项。

(四)主要起草人及其所做的工作

本文件的主要起草人包括金勇,李军,胡本强,赵春昊,罗仕胜,张秀莺,

彭剑峰,叶挺群,浦世亮,肖羽,卢冕,刘一鸣,王英,孙高飞,王子彦,史谨

璠,钟于义,曹华伟,沈梦南,阳小珊,田雄军,袁圆,张良,王渭巍,苗树明,

陈常水,刘鑫,曹晓琦,杨志龙,李侃,李强等。各起草人皆参与了编制会议,

对文件中的条款和重点问题进行了技术及编制方面的探讨。

二、标准编制原则和确定主要内容的论据及解决的主要问题

编制原则:

a)先进性原则:本文件的编制以对人工智能计算产业的发展及痛点洞察为先

导,研究人工智能计算设备主要产品——人工智能服务器的产业、生态发展情况,

分析国外先进研究机构、厂商技术动作及其对产业发展的带动作用。将国内外产

业发展做了分析对比,识别我国人工智能服务器产业发展的特点及不足及标准化

文件缺失,有针对性地,选取了标准化对象;

b)实用性原则:本文件制定时充分分析了众多应用领域对人工智能服务器的

需求,着力于解决用户、厂商在实际应用人工智能服务器过程中的共同技术问题

和难点,引导用户、厂商针对产品能力达成一致预期,在实际项目中增强国内人

工智能服务器产品应用落地能力;

c)兼容性原则:本文件编制时时,充分考虑了人工智能服务器与其它信息技

术、人工智能软件、应用等相关技术、工具、产品的兼容性。加之,本文件在研

制过程中,广泛参考了国内外相关标准,如GB/T9813.3《计算机通用规范第

三部分:服务器》,GB/T4943.1《信息技术设备安全第一部分:通用要求》,

T/CESA1043-2019《面向深度学习的服务器通用规范》,20192139-T-469《信息

技术人工智能平台资源供给》,ISO/IECCD22989:2019Information

Techn

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论