CESA-2021-3-018《信息技术 人工智能 深度学习框架多硬件平台适配技术要求与评价指标》团体标准(征求意见稿)_第1页
CESA-2021-3-018《信息技术 人工智能 深度学习框架多硬件平台适配技术要求与评价指标》团体标准(征求意见稿)_第2页
CESA-2021-3-018《信息技术 人工智能 深度学习框架多硬件平台适配技术要求与评价指标》团体标准(征求意见稿)_第3页
CESA-2021-3-018《信息技术 人工智能 深度学习框架多硬件平台适配技术要求与评价指标》团体标准(征求意见稿)_第4页
CESA-2021-3-018《信息技术 人工智能 深度学习框架多硬件平台适配技术要求与评价指标》团体标准(征求意见稿)_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.200

CCSL70

团体标准

T/CESAXXXX—202X

信息技术人工智能

深度学习框架多硬件平台适配

技术要求与评价指标

InformationTechnology-ArtificialIntelligence-TechnicalRequirements

andEvaluationBenchmarksforDeepLearningFrameworkAdaptationto

MultipleHardwarePlatforms

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

已授权的专利证明材料为专利证书复印件或扉页,已公开但尚未授权的专利申请证

明材料为专利公开通知书复印件或扉页,未公开的专利申请的证明材料为专利申请

号和申请日期

202X-XX-XX发布202X-XX-XX实施

中国电子工业标准化技术协会发布

T/CESAXXXX-202X

前  言

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

本文件由中国电子技术标准化研究院提出。

本文件由中国电子技术标准化研究院、中国电子工业标准化技术协会归口。

本文件起草单位:。

本文件主要起草人:。

III

T/CESAXXXX-202X

人工智能深度学习框架多硬件平台适配技术要求与评价指标

1范围

本文件面向深度学习框架定义了适配多硬件平台的技术要求与评价指标,为建立人工智能软硬件协

同能力提供技术与评价依据。

本文件适用于支持训练和推理功能的深度学习框架,可用于深度学习框架硬件适配能力的评估,指

导人工智能软硬件适配评测平台建设。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

YD/T3944-2021人工智能芯片基准测试评估方法

3术语和定义

下列术语和定义适用于本文件。

3.1深度学习deeplearning

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性

类别或特征,以发现数据的分布式特征表示。

[来源:YD/T3944-2021,3.1.2]

3.2深度学习框架deeplearningframework

一种利用预先构建和优化好的组件集合定义模型,实现对人工智能算法封装、数据调用以及计算资

源使用的工具。

3.3多硬件平台适配multiplehardwareplatformsadaptation

深度学习框架可同时支持除CPU、GPU以外的多种异构硬件作为计算资源完成深度学习模型训练与

推理任务的能力。

3.4计算图computationalgraph

一种由节点和边构成的,表示计算流的图,张量和算子属于图中的对象,其基本块是有向无环的。

计算图节点包括变量和函数,变量节点通过边相连作为函数节点的输入与输出。

3.5整图graph

用于描述某个深度学习特定任务的计算过程,由一系列算子和张量组成的完整的计算图。

1

T/CESAXXXX-202X

3.6子图subgraph

将全图依据某种规则抽取为多个特定部分,每个部分都被称为一个子图,包含一个或多个算子和张

量。子图的抽取规则一般依据硬件支持能力而定,子图的输入节点必须是支持无输入的算子。

3.7图引擎graphengine

硬件平台SDK中执行计算图的训练或推理引擎,支持通过GraphAPI进行计算图构建与执行。

3.8张量tensor

多维数组,数组中的每个元素称为张量的元素,在深度学习中特指计算图中用于存储计算结果的一

个变量节点。

3.9算子operator

数据到数据的操作、映射、运算或函数,在深度学习领域特指计算图中的一个函数节点,一个在张

量上执行的计算操作,它接受零或多个张量作为输入,得到零或多个张量作为输出。

3.10算子注册接口operatorregistrationinterface

向深度学习框架提交算子信息以实现新增算子的接口,提交的内容可包括算子名、输入、输出、属

性等信息。

3.11AI加速器artificialintelligenceaccelerator

一类专用于人工智能硬件加速的微处理器或计算系统,通常由专用AI芯片制成,在通用或特定人工

智能领域上较通用GPU可达到或发挥更好的性能优势。

3.12内核函数computeKernel

一类在计算中运行在AI加速器上的执行单元,与主程序分开。需通过AI加速器提供的接口进行调

用,或者通过AI加速器支持的单独的编程语言直接嵌入高级语言的应用程序代码。

3.13神经网络编译器NeuralNetworkCompiler

一类提供自动算子生成,接收来自不同框架的计算图模型结构,并支持计算图中间结构转化、自动

生成深度学习硬件可执行指令的编译器。

3.14中间表示IntermediateRepresentation

神经网络编译器的中间表示结构。

注:通常分为高层中间表示和低层中间表示,可作为神经网络编译器的输入。

4缩略语

下列缩略语适用于本文件。

AI:人工智能(ArtificialIntelligence)

ASIC:专用集成电路(ApplicationSpecificIntegratedCircuit)

CPU:中央处理器(CentralProcessingUnit)

DNN:深度神经网络(DeepNeuralNetwork)

2

T/CESAXXXX-202X

GPU:图形处理器(GraphicProcessingUnit)

GAN:生成式对抗网络(GenerativeAdversarialNetworks)

TPU:张量处理器(TensorProcessingUnit)

NPU:神经网络处理器(Neural-networkProcessingUnit)

NLP:自然语言处理(NaturalLanguageProcessing)

SKD:软件开发工具包(SoftwareDevelopmentKit)

5总体架构与环境要求

5.1深度学习框架基础软硬件平台总体架构

深度学习框架多硬件平台适配包括:训练框架和推理框架适配不同组合的操作系统、训练芯片和推

理芯片,深度学习框架与硬件平台的兼容适配及优化等关键技术。深度学习框架多硬件平台适配总体架

构见图1:

a)适配评价指标:安装部署、模型支持与验证、训练或推理性能、易用性、稳定性、压力测试与

大规模分布式测试等。

b)适配技术要求:分布式通信层接入接口(仅面向训练框架)、设备管理层接入接口与算子适配

层接入接口要求。

c)硬件平台环境:本文件不对硬件平台进行技术要求定义,仅规范框架适配硬件平台的环境要求。

图1.深度学习框架多硬件平台适配总体架构

5.2训练框架与硬件平台适配环境要求

训练框架环境要求包括:

a)学习框架:应具备基础单卡、多卡与多机的模型训练功能;

b)版本要求:深度学习框架与硬件AI加速库版本应是尚在维护中的版本,并需支持最新稳定版。

训练框架适配的硬件平台环境要求包括:

a)操作系统:应支持基于Linux内核的操作系统;

b)芯片类型:应在通用CPU和GPU之外支持至少一种AI训练芯片;

c)设备识别:硬件驱动应支持选定操作系统的安装/卸载,设备可正确识别,宜支持容器映射;

3

T/CESAXXXX-202X

d)分析监控:硬件宜提供设备的状态监控工具与性能分析工具,用于检测设备健康状态。

5.3推理框架与硬件平台适配环境要求

云侧推理框架与硬件平台适配环境要求应符合本文件5.2章节的规定。

端侧推理框架环境要求应符合本文件5.2章节“训练框架环境要求”的规定。

端侧推理框架所适配的硬件平台环境要求包括:

a)操作系统:宜支持常用智能终端操作系统、嵌入式操作系统等;

b)芯片类型:应在通用CPU和GPU之外支持至少一种专用AI推理芯片;

c)设备识别:硬件驱动应支持选定操作系统的安装/卸载,设备可正确识别,宜支持容器映射;

d)分析监控:硬件宜提供设备的状态监控工具和性能分析工具,用于检测设备健康状态。

6深度学习框架多硬件平台适配技术要求

本文件面向深度学习训练及推理框架,规范多硬件平台适配接口技术要求,包括设备管理层、算子

适配层接口与分布式通信层接口,见图2。

图2.深度学习框架多硬件平台适配接口

a)设备管理层接口:如图2接口a(训练侧定义见6.1.1,推理侧定义见6.2.1),对硬件平台驱动与

运行时的接入接口进行抽象与封装,并向算子适配层、训练与推理框架提供一致的设备管理层

接口,包括设备管理接口、内存管理接口、执行流管理接口和事件管理接口,允许各硬件自行

实现相应设备管理接口接入框架。

b)算子适配层接口:即深度学习框架算子与目标硬件算子内核函数的映射与匹配,针对不同硬件

类型规范不同的适配接口。算子层适配接口应提供算子开发或映射、子图或整图接入2种适配

接口,宜提供编译器后端接入适配接口。硬件平台可根据环境类型的不同,选择不同的适配接

口。

1)算子开发或映射:如图2接口b(训练侧定义见,推理侧定义见),若硬件支

持可编程算子内核开发语言,或硬件具备对应的AI算子库,则可以选择该方式接入;

2)图引擎接入:如图2接口c(训练侧定义见,推理侧定义见),若硬件支持图

引擎,则可以选择该方式进行子图或整图接入;

4

T/CESAXXXX-202X

3)编译器后端接入:如图2接口d(训练侧定义见,推理侧定义见),若硬件支

持编译器后端,或硬件支持代码生成器,则可以选择该方式进行神经网络编译器的算子接

入。

c)分布式通信层接口:如图2接口e(训练侧定义见6.1.3),对硬件平台的集合通信库接入框架的

接口进行封装与抽象,为上层的训练框架提供一致的分布式通信层接口,允许硬件自行实现相

应接口接入框架。推理框架无需实现分布式通信接口。

6.1训练多硬件平台适配技术要求

6.1.1设备管理层接口

深度学习框架应提供设备管理层接口供硬件平台的驱动和运行时接入,使硬件可被框架识别为可分

配管理的计算资源进行模型训练。设备管理层接口包括设备管理接口、内存管理接口、执行流管理接口

和事件管理接口,允许各硬件自行实现相应设备管理接口接入框架。

设备管理接口

设备管理接口提供硬件设备的创建、销毁、申请和释放等接口,见表1。

表1设备管理接口

接口中文名称接口英文名称是否必选接口说明

获取驱动版本号get_driver_version是获取驱动版本号

获取运行时版本号get_runtime_version是获取运行时版本号

获取设备算力get_compute_capability是获取设备算力

设置当前使用设备set_device是后续任务执行在该设备上

获取当前使用设备get_device是获取当前使用的硬件设备

同步设备synchronize_device是等待指定设备上所有任务完成

获取可用设备数量get_device_count是获取当前可用设备数量

获取可用设备列表get_device_list是获取当前可用设备号列表

初始化硬件initialize否初始化硬件后端

去初始化硬件finalize否去初始化硬件后端

初始化设备init_device否初始化指定硬件设备

去初始化设备deinit_device否去初始化指定硬件设备

内存管理接口

内存管理接口提供设备内存和主机内存的申请、释放、拷贝、查询等接口,见表2。

表2内存管理接口

接口中文名称接口英文名称是否必选接口说明

申请设备内存device_memory_allocate是申请设备内存

5

T/CESAXXXX-202X

释放设备内存device_memory_deallocate是释放设备内存

申请主机锁页内存host_memory_allocate否申请主机锁页内存

释放主机锁页内存host_memory_deallocate否释放主机锁页内存

申请统一地址内存unified_memory_allocate否申请统一地址内存

释放统一地址内存unified_memory_deallocate否释放统一地址内存

主机到设备同步内存拷贝memory_copy_h2d是主机到设备同步内存拷贝

设备到主机同步内存拷贝memory_copy_d2h是设备到主机同步内存拷贝

设备内同步内存拷贝memory_copy_d2d是设备内同步内存拷贝

设备间同步内存拷贝memory_copy_p2p是设备间同步内存拷贝

主机到设备异步内存拷贝async_memory_copy_h2d否主机到设备异步内存拷贝

设备到主机异步内存拷贝async_memory_copy_d2h否设备到主机异步内存拷贝

设备内异步内存拷贝async_memory_copy_d2d否设备内异步内存拷贝

设备间异步内存拷贝async_memory_copy_p2p否设备间异步内存拷贝

设备内存填充device_memory_set否使用值填充某块设备内存

查询设备内存状态device_memory_stats是设备内存使用情况查询

获取设备内存最小块大小device_min_chunk_size是获取设备内存最小块大小

获取设备内存最大块大小device_max_chunk_size否获取设备内存最大块大小

设备最多可分配内存大小device_max_alloc_size否设备最多可分配内存大小

分配设备内存的填充字节device_extra_padding_size否分配设备内存的填充字节

设备初始分配的内存大小device_init_alloc_size否设备初始分配的内存大小

设备重分配的内存大小device_realloc_size否设备重分配的内存大小

执行流管理接口

执行流管理接口提供设备执行流创建、销毁、查询和阻塞等接口,见表3。

表3执行流管理接口

接口中文名称接口英文名称是否必选接口说明

创建设备执行流create_stream是创建设备执行流

销毁设备执行流destroy_stream是销毁设备执行流

查询设备执行流状态query_stream否查询设备执行流状态

同步设备执行流synchronize_stream是等待执行流所有任务完成

添加主机回调函数stream_add_callback否添加主机回调函数

等待执行流某个事件完成stream_wait_event是等待执行流某个事件完成

6

T/CESAXXXX-202X

事件管理接口

事件管理接口提供设备事件对象的创建、销毁、记录和同步等接口,见表4。

表4事件管理接口

接口中文名称接口英文名称是否必选接口说明

创建设备事件对象create_event是创建设备事件对象

销毁设备事件对象destroy_event是销毁设备事件对象

设备执行流上记录事件record_event是设备执行流上记录某事件

查询事件是否完成query_event否查询该设备事件是否完成

同步设备事件synchronize_event是阻塞直到该设备事件完成

6.1.2算子适配层接口

算子开发或映射接口

深度学习框架应提供硬件算子的内核函数注册接口,供目标硬件进行内核函数或DNN算子库的接

入,见表5。

表5硬件算子注册接口

项目内容

接口中文名称算子内核函数注册

接口英文名称REGISTER_KERNEL

接口功能说明注册框架算子的内核函数

接口输入参数见表6

接口输出参数无(void)

硬件算子注册接口所需的输入参数见表6。

表6硬件算子注册接口输入参数

参数名称输入/输出类型数据类型是否必选参数说明

算子名称输入参数字符串是框架算子名称

硬件名称输入参数字符串是硬件后端名称

布局类型输入参数枚举否输入张量的数据布局类型

内核函数输入参数函数是硬件算子内核函数

数据类型输入参数枚举是算子支持的输入张量的数据类型

图引擎接入接口

深度学习框架应提供整图或子图组网信息与定义,由硬件平台的图引擎自行接管计算图的组网与执

行并返回计算结果。

a)框架应提供计算图构建接口,见表7。

表7硬件计算图构建接口

7

T/CESAXXXX-202X

项目内容

接口中文名称硬件计算图构建

接口英文名称GraphBuilder

接口功能说明根据框架计算图,构建硬件图引擎的可执行对象

接口输入参数见表8

接口输出参数见表8

其中硬件计算图构建接口所需的输入参数见表8。

表8硬件计算图构建接口输入参数

参数名称输入/输出类型数据类型是否必选参数说明

框架计算图输入参数框架计算图是框架计算图对象,见附录C

输入张量名称输入参数张量列表是计算图所有输入张量名称列表

输出张量名称输入参数张量列表是计算图所有输出张量名称列表

硬件计算图输出参数硬件计算图是硬件计算图对象,见附录C

b)框架应提供硬件计算图执行接口,见表9。

表9硬件计算图执行接口

项目内容

接口中文名称硬件计算图执行

接口英文名称GraphExecute

接口功能说明硬件图引擎接管计算图并执行

接口输入参数见表10

接口输出参数见表10

其中硬件图引擎编译接口所需的输入输出见表10。

表10硬件图引擎编译接口输入参数

参数名称输入/输出类型数据类型是否必选参数说明

硬件计算图输入参数硬件计算图是硬件计算图对象,见附录C

输入张量列表输入参数张量列表是计算图所有输入张量列表

输出张量列表输出参数张量列表是计算图所有输出张量列表

编译器后端接入接口

深度学习框架训练侧宜提供编译器后端接入接口规范。硬件厂商为其硬件提供编译器后端,通过编

译器将框架侧的计算图模型根据特定硬件目标产生编译器端的低级IR,然后根据硬件后端再转化为某个

具体硬件上的可执行代码。

若深度学习框架支持神经网络编译器后端接入,则训练框架应提供框架计算图转化为编译器高层中

间表示(High-levelIR)接口,见表11。

8

T/CESAXXXX-202X

表11框架计算图转化编译器高层中间表示的接口

项目内容

接口中文名称编译器高层中间表示构建

接口英文名称HighLevelIRBuild

接口功能说明根据框架计算图,构建编译器高层中间表示

接口输入参数见表12

接口输出参数见表12

其中框架计算图转化编译器高层中间表示的接口所需的输入参数见表12。

表12硬件图引擎编译接口参数

参数名称输入/输出类型数据类型是否必选参数说明

框架计算图输入参数框架计算图是框架计算图对象,见附录C

高层中间表示输出参数高层中间表示是神经网络编译器高层中间表示

6.1.3分布式通信层接口

深度学习训练框架应提供分布式通信层接口供硬件平台的集合通信库接入,支持框架大规模分布式

训练功能,分布式通信层接口定义见表13。

表13分布式通信层接口

接口中文名称接口英文名称是否必选接口说明

生成通信ID编号ccl_get_unique_id是生成通信ID编号

生成集合通信对象ccl_common_init_rank是生成集合通信对象

销毁集合通信对象ccl_comm_destroy是销毁集合通信对象

全量聚合累加通信ccl_all_reduce是全量聚合累加通信

广播通信ccl_broadcast是广播通信

累加通信ccl_reduce是累加通信

聚合通信ccl_all_gather是聚合通信

累加分发通信ccl_reduce_scatter是累加分发通信

通信组合起始ccl_group_start否通信组合起始

通信组合结束ccl_group_end否通信组合结束

点对点发送ccl_send否点对点发送

点对点接收ccl_recv否点对点接收

获取集合通信版本ccl_get_version否获取集合通信版本

9

T/CESAXXXX-202X

6.2推理多硬件平台适配技术要求

6.2.1设备管理层接口

推理侧设备管理层接口应符合本文件6.1.1章节的规定。

6.2.2算子适配层接口

算子开发或映射接口

推理侧算子开发或映射接口应符合本文件章节的规定。

图引擎接入接口

深度学习框架应提供子图检测和融合的能力,运行时将检测到的子图原始算子通过下发子图的方式,

供硬件接管,硬件负责相关算子的调度和执行,并向框架返回输出结果,包括子图检测、融合和执行接

口、提供硬件通用适配层接口。

a)子图检测、融合和执行接口:包括子图检测接口、子图编译执行接口。

1)子图检测接口:根据硬件支持的算子,提供将全图切分、融合生成若干子图的接口,包括

检测符合条件的所有子图、将符合条件的子图进行融合接口,定义见表14与表15。

表14检测符合条件的所有子图

参数输入/输出类型是否必选参数说明

Lambda表达式或IR输入参数是符合要检测子图的模式

描述文件

表15将符合条件的子图进行融合

参数输入/输出类型是否必选参数说明

子图表示列表输入参数是子图检测得到的子图表示列表

子图OP类型输入参数是要替换子图表示列表的子图OP类型

2)子图编译、执行接口:将各个子图按照执行顺序下发至硬件通用适配层,包括编译模型生

成硬件代码、执行模型接口,定义分别见表16与表17。

表16编译模型生成硬件代码

参数输入/输出类型是否必选参数说明

模型输入参数是需要在硬件上执行的模型

表17执行模型

参数输入/输出类型是否必选参数说明

输入Tensor输入参数是模型的输入数据

输出Tensor输出参数是模型的输出数据

b)硬件通用适配层接口:执行子图转硬件Graph、模型生成和执行、输入和输出内存管理操作。

包括设备管理接口、模型生成接口、模型执行接口。

10

T/CESAXXXX-202X

1)设备管理接口:进行设备基本信息的注册、参数配置和context管理,包括获取硬件设备、

释放设备句柄、创建设备上下文、销毁设备上下文接口,定义分别见表18、表19、表20

与表21。

表18获取硬件设备

参数输入/输出类型是否必选参数说明

设备名称输入参数是需要获取的硬件设备名称

设备句柄输出参数是获取的设备句柄

表19释放设备句柄

参数输入/输出类型是否必选参数说明

设备句柄输入参数是需要释放的设备句柄

表20创建设备上下文

参数输入/输出类型是否必选参数说明

设备列表输入参数是需要创建上下文的设备列表

设备上下文列表输出参数是创建得到的设备上下文列表

表21销毁设备上下文

参数输入/输出类型是否必选参数说明

设备上下文输入参数是需要销毁的设备上下文

2)模型生成接口:完成子图转硬件Graph(算子转硬件IR)、生成硬件模型。包括创建硬件

无关的深度学习网络模型、释放深度学习网络模型、网络中添加操作符、网络中添加操作

数、标识模型的输入和输出参数、创建硬件模型编译对象、释放硬件模型编译对象、调用

硬件驱动完成硬件模型的生成接口,定义分别见表22、表23、表24、表25、表26、表27、

表28、表29。

表22创建硬件无关的深度学习网络模型

参数输入/输出类型是否必选参数说明

模型输出参数是初始化深度学习网络模型

表23释放深度学习网络模型

参数输入/输出类型是否必选参数说明

模型输入参数是需要释放的网络模型

表24网络中添加操作符

参数输入/输出类型是否必选参数说明

模型输入参数是需要添加操作符的网络模型

操作符输入参数是需要添加的操作符

表25网络中添加操作数

参数输入/输出类型是否必选参数说明

11

T/CESAXXXX-202X

模型输入参数是需要添加操作数的网络模型

操作数输入参数是需要添加的操作数

表26标识模型的输入和输出参数

参数输入/输出类型是否必选参数说明

模型输入参数是需要确定输入输出的模型

输入操作数输出参数是模型的输入操作数

输出操作数输出参数是模型的输出操作数

表27创建硬件模型编译对象

参数输入/输出类型是否必选参数说明

模型输入参数是需要编译的模型

编译对象输出参数是得到初始化的编译对象

表28释放硬件模型编译对象

参数输入/输出类型是否必选参数说明

编译对象输入参数是需要释放的编译对象

表29调用硬件驱动完成硬件模型的生成

参数输入/输出类型是否必选参数说明

编译对象输入参数是需要生成硬件模型的编译对象

3)模型执行接口:根据输入、输出参数,完成硬件的内存分配和模型的执行。包括创建硬件

模型的执行引擎、释放硬件模型的执行引擎、设置硬件模型的输入维度和数据、设置硬件

模型的输出维度和数据、执行引擎启动计算接口,定义分别见表30、表31、表32、表33

与表34。

表30创建硬件模型的执行引擎

参数输入/输出类型是否必选参数说明

编译对象输入参数是模型对应的编译对象

执行引擎输出参数是得到初始化的模型执行引擎

表31释放硬件模型的执行引擎

参数输入/输出类型是否必选参数说明

执行引擎输入参数是需要释放的执行引擎

表32设置硬件模型的输入维度和数据

参数输入/输出类型是否必选参数说明

执行引擎输入参数是需要设置输入的执行引擎

维度信息输入参数是模型输入的维度信息

数据输入参数是模型输入的数据

12

T/CESAXXXX-202X

表33设置硬件模型的输出维度和数据

参数输入/输出类型是否必选参数说明

执行引擎输入参数是需要设置输出的执行引擎

维度信息输出参数是得到模型输出的维度信息

数据输出参数是得到模型输出的数据

表34执行引擎启动计算

参数输入/输出类型是否必选参数说明

执行引擎输入参数是需要运行的执行引擎

编译器后端接入接口

深度学习框架推理侧宜提供编译器后端接入接口。若深度学习框架支持神经网络编译器后端接入,

则推理侧编译器后端接口要求应符合本文件章节的规定。

7深度学习框架多硬件平台适配评价指标

7.1训练多硬件平台适配评价指标

7.1.1安装部署

基于选定的基础软硬件平台,深度学习框架应具备多种安装部署能力,以便开发/测试/运维人员进

行使用/管理/维护/升级等工作:

a)应提供对应软/硬件环境下的深度学习开发框架的安装包,支持安装/卸载功能;

b)应提供对应软/硬件环境下的深度学习开发框架的容器运行镜像,支持容器内运行环境;

c)应提供对应软/硬件环境下的深度学习开发框架的容器编译镜像,支持容器内源码编译;

d)宜支持异构CPU编译并支持纯CPU训练场景,支持CPU算子kernel优化与加速。

7.1.2模型支持与验证

基于选定的基础软硬件平台,深度学习框架应支持在图像分类、目标检测、图像分割、语义表示、

机器翻译、视频分类、智能推荐等应用领域的10个模型及其精度评估指标,如附录A.1所示。

7.1.3训练性能与稳定性

基于选定的基础软硬件平台,深度学习框架应在训练性能、压力与稳定性方面达到以下要求:

a)性能测试:应提供可供性能分析的数据来衡量模型训练性能,例如固定配置下模型训练时间;

b)稳定性测试:应保证多次训练精度误差在一定范围内,训练精度结果可稳定复现;

c)压力测试:应支持7天以上长时间训练,保证性能不出现严重下降和精度误差在允许范围内;

d)大规模分布式测试:支持多机多卡训练,应提供多卡与多机加速比数据。

7.1.4易用性

深度学习框架在多硬件接入适配工作上应满足易用性的要求:

13

T/CESAXXXX-202X

a)深度学习框架应提供说明文档,对新硬件接入深度学习框架的工作进行指导,硬件厂商可根据

说明文档进行独立的深度学习框架的新硬件接入与适配开发工作。

b)深度学习框架应提供使用文档,指导用户针对不同目标硬件进行模型开发工作与训练任务提交

工作等。

7.2推理多硬件平台适配评价指标

7.2.1安装部署

基于选定的基础软硬件平台,与深度学习框架应具备多种安装部署能力,以便开发/测试/运维人员

进行使用/管理/维护/升级等工作:

a)应提供对应软/硬件环境下的深度学习推理框架的安装包,支持安装/卸载功能;

b)应提供对应软/硬件环境下的深度学习推理框架的C/C++推理库,支持模型部署上线;

c)应提供对应软/硬件环境下的深度学习推理框架的容器运行镜像,支持容器内运行环境;

d)应提供对应软/硬件环境下的深度学习推理框架的容器编译镜像,支持容器内源码编译。

7.2.2模型支持与验证

基于选定的基础软硬件平台,深度学习框架应支持基础模型,结果正确,性能符合对应硬件预期,

压力测试下无异常结果。

a)云侧推理:本文件规定了在图像分类、目标检测、图像分割、语义表示、机器翻译等应用领域

的主流模型的评估指标,如附录B.1所示。

b)端侧推理:本文件规定了在图像分类、目标检测、图像分割等应用领域的主流模型的评估指标,

如附录B.2所示。

7.2.3推理性能与稳定性

基于选定的基础软硬件平台,深度学习推理框架应在推理性能、压力与稳定性方面达到以下要求:

a)推理性能要求:在相应硬件下符合性能预期;

b)稳定性要求:多次测试结果一致;

c)压力测试要求:压力测试下,性能符合预期,无内存显存泄露等异常情况。

7.2.4易用性

深度学习推理框架在多硬件接入适配工作上应满足易用性要求:

a)应提供说明文档,对新硬件接入深度学习推理框架的工作进行指导,硬件厂商可根据说明文档

进行独立的新硬件接入与适配开发工作;

b)应提供使用文档,指导用户针对不同目标硬件进行推理模型部署和推理任务提交工作等。

14

T/CESAXXXX-202X

附录A

(资料性)

训练模型列表

基于选定的基础软硬件平台,深度学习训练框架应支持的模型列表及其评价指标见表A.1。

表A.1训练基础模型列表及其评价指标

应用领域模型名称数据集准确率约束(>

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论