CESA -2019-3-003人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法_第1页
CESA -2019-3-003人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法_第2页
CESA -2019-3-003人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法_第3页
CESA -2019-3-003人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法_第4页
CESA -2019-3-003人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在提交反馈意见时,请将您知道

ICS

的相关专利连同支持性文件一并

附上

团体标准

T/CESAXXXX—2019

人工智能芯片面向端侧的深度学习芯片

测试指标与测试方法

AIChipsTestIndexandTestMethodofDeepLearningChipsforTerminalSide

(征求意见稿)

2019--发布2019-XX-实施

中国电子工业标准化技术协会发布

T/CESAXXXX-2019

前  言

本标准依据GB/T1.1—2009《标准化工作导则第1部分:标准的结构和编写》给出的规则起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。

本标准起草单位:

本标准主要起草人:

II

T/CESAXXXX-2019

人工智能芯片面向端侧的深度学习芯片测试指标与测试方法

1范围

本标准规定了对端侧深度学习芯片进行功能、性能测试的测试指标、测试方法和要求,适用于通用

端侧深度学习芯片。本标准只规定端侧深度学习芯片基准测试的一般原则,针对具体端侧深度学习芯片

产品应制定相应的测试细则。

本标准适用于第三方机构对通用端侧深度学习芯片进行性能测试与评估,也适用于端侧深度学习芯

片产品的采购、设计。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T5271.31-2006信息技术词汇第31部分:人工智能机器学习

GB/T5271.34-2006信息技术词汇第34部分:人工智能神经网络

20190851-T-469信息技术人工智能术语

T/CESA1026-2018人工智能深度学习算法评估规范

3术语和定义

下列术语和定义适用于本文件。

3.1

机器学习Machinelearning

一种程序或系统,用于根据输入数据构建(训练)预测模型。这种系统会利用学到的模型根据从分

布(训练该模型时使用的同一分布)中提取的新数据(以前从未见过的数据)进行实用的预测。机器学

习还指与这些程序或系统相关的研究领域。

3.2

深度学习DeepLearning

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性

类别或特征,以发现数据的分布式特征表示。

3.3

卷积神经网络Convolutionalneuralnetwork

1

T/CESAXXXX-2019

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性

类别或特征,以发现数据的分布式特征表示。

3.4

循环神经网络RecurrentNeuralNetwork

一种神经网络,是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)

且所有节点(循环单元)按链式连接的递归神经,网络具有短期记忆能力的神经网络。

3.5

递归神经网络Recursiveneuralnetwork

深度学习(deeplearning)算法之一,具有树状阶层结构且网络节点按其连接顺序对输入信息进行

递归的人工神经网络(ArtificialNeuralNetwork,ANN)。

3.6

层Layer

神经网络中的一组神经元,负责处理一组输入特征,或一组神经元的输出。

3.7

推理Inference

在机器学习中,推断通常指将训练过的模型应用于无标签样本,进而来做出预测的过程。

3.8

批次Batch

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

3.9

批次大小Batchsize

一个批次中的样本数。批次大小在训练和推断期间通常是固定的。

3.10

测试集testset

数据集的子集,用于在模型经由验证集的初步验证之后测试模型。

4缩略语

下列缩略语适用于本文件。

2

T/CESAXXXX-2019

mAP:平均精度均值(MeanAveragePrecision)

mIoU:平均交并比(MeanIntersectionoverUnion)

FAR:误识率(FalseAcceptRate)

FRR:拒识率(FalseRejectRate)

IR:识别正确率(IdentificationRate)

WER:词错误率(WordErrorRate)

SER:句错误率(SentenceErrorRate)

5技术要求

5.1测试框架

针对端侧深度学习芯片的测试,主要是根据本标准中规定的评估方法,对其每个测试指标进行评估。

详细内容见“5试验方法”。

5.2测试对象

端侧人工智能处理器,具体形式有以下两种:

(1)端侧人工智能处理器芯片(卡):指以芯片卡形态进行使用的人工智能芯片,如FPGA以及ASIC

等人工智能芯片(卡),可通过PCIE等接口与测试主机连接;

(2)搭载人工智能处理器的端侧产品。

5.3测试网络架构

1)控制主机处理器架构:X86架构或ARM架构。

2)支持主流的机器学习框架:Tensorflow、Caffe、MindSpore等。

5.4测试场景信息

1)典型应用场景:计算机视觉任务(图像分类、目标检测、语义分割等)和自然语言处理任务;

2)数据集:公开数据集或真实应用场景数据集;

3)模型:经典神经网络模型或自定义模型。

6测试方法

6.1测试指标

主要测试指标如表1所示:

表1应用场景测试指标

类型主要指标

1.1平均前向推理时间

端侧芯片1.2最大吞吐性能

1.3前向处理延迟性能

3

T/CESAXXXX-2019

1.4功耗

1.5能效比

6.2测试指标描述

6.2.1平均前向推理时间

指模型完成一个样本的推断所需要时间。在图像处理相关领域,利用指标每秒帧率(FramePer

Second,FPS)评估速度,即每秒内可以处理的图片数量。

6.2.2最大吞吐性能

指单芯片或者多芯片在前向推理过程或训练过程中可同时处理的最大样本数量。

6.2.3前向处理延迟性能

硬件在进行前向推理计算过程中,从图片输入完成到计算结果开始输出之间的时间间隔。

6.2.4功耗

进行模型推断过程中,芯片(或其所在测试板)或搭载人工智能处理器的云的平均功率。

6.2.5能效比

进行模型推断过程中,单芯片或者多芯片单位时间内执行运算的次数与芯片功耗之比。

6.3测试类型

6.3.1通用测试

参照附录中“典型场景测试参照表”,针对不同领域采用公开数据集和经典神经网络模型对端侧深

度学习芯片进行测试,验证端侧深度学习芯片在使用所属应用领域主流公开数据集及主流神经网络模型

时的功能及性能特征。

6.3.2专用测试

采用用户提供的真实应用场景数据集(公开可获取)或者其自定义神经网络模型对端侧深度学习芯

片进行测试,验证其端侧深度学习芯片在使用真实应用场景数据集或者自定义神经网络模型时的功能及

性能特征。

6.4指标测试方法

6.5.1平均前向推理时间

平均前向推理时间的单位是ms(毫秒)。

指被测硬件使用神经网络模型平均预测一单位测试数据所需要的时间。

计算公式:

平均前向推理时间=

注:

4

T/CESAXXXX-2019

总预测时间:被测硬件使用神经网络模型,在测试数据集上完成测试所使用的总计算时间(硬件一

次处理一单位的测试数据)。

总测试样本数量:指测试数据集中样本的总数量。

6.5.2最大吞吐性能

硬件在进行训练和前向推理计算过程中,单位时间内能输入的最大样本数量。

可以在训练和前向推理计算前,通过不断调整参数,增加单位时间内输入样本的数量,来最终确定

硬件的最大吞吐性能。

6.5.3前向处理延迟性能

前向处理延迟的单位是ms(毫秒)

硬件在进行前向推理计算过程中,从图片输入完成到计算结果开始输出之间的时间间隔。

计算公式:

前向处理延迟=当前帧处理结果开始输出的时刻-当前帧输入完成时刻

6.5.4功耗

功耗的单位是watt(瓦特)。

指执行测试期间的被测硬件平均功耗。

针对不同形态的被测对象使用对应的功耗测试方法,对被测硬件在执行测试期间的功耗情况进行记

录,最终通过计算得到该硬件的平均功耗情况。

6.5.5能效比

能效比的单位是:images/sec/watt(处理图像数量/秒/瓦特)。针对自然语言处理任务,能效比

的单位是:word/sec/watt(处理单词数量/秒/瓦特)。

计算公式:

能效比=

注:

总计算操作数量:指用于测试的神经网络模型中,所有计算操作的总数量和。

功耗:指执行测试期间的硬件平均功耗。

5

T/CESAXXXX-2019

附录通用端侧深度学习芯片测试参数参照表

测试测试神经关键指标

分类编号应用场景推理精度

数据集网络模型推理速率处理延迟功耗

ResNet-50,

ResNet-101,

图像分类

ImageNetVGG-16,top-1,top-5

1(准确识别图片

Inception-v3,算法准确率

中的物体类别)

MobileNet

计算目标检测Faster-RCNN

机视2(定位物体位置,并MicrosoftCOCO(withFPN),mAPFPS

觉任标注物体类别)YoloV3,SSD

务语义分割mswatt

VOC2012SegNet,U-Net,

3(识别图像中mIoU,F-Score

CitescapeFCN,Deeplabv3+

所有像素类别)

FAR、FRR、

人脸识别(根据人面CASIA-WebFaceDeepID3,

4Identification

部特征识别身份)LFWArcFace

Rate

联合国平行语料库、

自然1机器翻译AIChallenger文本seq2seqBLEU,METEOR翻译速度

语言翻译数据集

处理THCHS30

DFSMN

任务2语音识别AISHELLWER、SER识别速度

DFCNN

AudioSet

6.2.1应用场景描述说明:

6.31.图像分类及分类效果评估

任务为准确识别图片中的物体类别,拟采用模型ResNet-50、ResNet-101、VGG16、Inception-v3和

MobileNet,数据集为ImageNet。

衡量图像分类效果的性能评价指标为:

Top-1准确率:图像分类结果中排名第一的分类类别与实际结果相同的准确率;

Top-5准确率:图像分类结果中排名前五的分类类别包含实际结果的准确率。

6

T/CESAXXXX-2019

6.42.目标检测及检测效果评估

任务为在给定的图片中精确找到物体所在位置、并标注出物体的类别。包括两阶段模型(Faster

R-CNN)和一阶段模型(YoloV3、SSD),数据集为VOC、COCO。

衡量目标检测效果的性能评价指标为:

平均精度均值(MeanAveragePrecision,mAP):数据集中所有类别的平均精度的均值。

计算公式:

平均精度均值=所有类别的平均精度值之和/所有类别的数目

6.53.语义分割及分割效果评估

任务为逐像素的标注任务,即为输入图像中每一个像素赋予预先设定的类别,选取模型为

Deeplabv3+,SegNet,U-Net和FCN,数据集VOC2012和Citescape。

衡量图像语义分割任务的性能评价指标为:

平均交并比(MeanIntersectionoverUnion,mIoU):所有类别的交并比IoU的平均值。计算真实

值(groundtruth)和预测值(predictedsegmentation)两个集合的交集和并集之比,即为每个类别的交

并比IoU。

F分数:综合权衡精确率和召回率的指标。

计算公式:

PrecisionRecall

F−Score=

β2Precision+Recall

注:

精确率(Precision):识别正确的结果在所识别出的结果中所占的比率;

召回率(Recall):识别正确的结果占数据集中所有要识别出的总数的比率。

6.64.人脸识别及识别效果评估

任务为在给定的人脸中准确的识别出人的特征,选区模型为DeepID3和ArcFace,数据集为WebFace

和LFW。身份衡量人脸识别效果采取的性能评价指标为:

7

T/CESAXXXX-2019

误识率(FalseAcceptRate,FAR):此处表示将其他人误作指定人员的概率;拒识率(FalseRejectRate,

FRR):此处表示将指定人员误作其它人员的概率;识别正确率(IdentificationRate):此处表示

正确识别人次与参与识别的注册人员总人次之比。

6.75.机器翻译及效果评估

任务为将给定的中文、英文或其他语言文本翻译成另外一种制定语言的过程。使用模型seq2seq,

数据集采用联合国平行语料库、AIChallenger文本翻译数据集。

衡量机器翻译效果采取的性能评价指标为:

BLEU(bilingualevaluationunderstudy):用于评价机器译文与参考译文的相似度。

计算公式:

BLEU=同时出现在机器译文和参考译文中的词的个数/机器译文的单词数目

METEOR(MetricforEvaluationofTranslationwithExplicitOrdering):用于评价机器学习翻译系统

的指标,为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均。

6.语音识别及效果评估

任务为将给定的中文或英文语音识别为文字,采用的模型为阿里巴巴的DFSMN,科大讯飞的

DFCNN,数据集采用THCHS30、AISHELL、AudioSet。

衡量语音识别的性能测试指标为:

词错误率(WER):语音识别后插入(/替换/删除)的词的总个数占标准的词序列中词的个数的百分

比。

句错误率(SER):句子中如果有一个词识别错误,那么这个句子被认为识别错误,SER即句子识

别错误的个数占句子总数的百分比。

8

T/CESAXXXX-2019

中国电子工业标准化技术协会(CESA)是全国电子信息产业标准化组织和标准化工作者自愿组成的

社会团体。广泛联系全国电子信息产业标准化机构和标准化工作者,协助政府部门搞好电子信息产业标

准化工作,开拓信息技术领域的标准化工作是中国电子工业标准化技术协会的主要工作内容之一。中国

境内从事科研开发、制造、营销和服务的企事业单位、高等院校、社会组织和个人均可随时向中国电子

工业标准化技术协会团体标准工作部提出团体标准项目建议。

中国电子工业标准化技术协会标准按照《电子工业标准化技术协会协会团体标准管理办法》进行制

定和管理。

在本标准实施过程中,如发现需要修改或补充之处,请将意见和有关资料寄至中国电子工业标准化

技术协会,以便修订时参考。

本标准版权归中国电子工业标准化技术协会所有。

中国电子工业标准化技术协会地址:北京市海淀区万寿路27号

电话子邮箱:standards@

网址:

A

9

T/XXXXXXXX—XXXX

目次

前  言...............................................................................................................................................................II

人工智能芯片面向端侧的深度学习芯片测试指标与测试方法....................................................................1

1范围.....................................................................................................................................................................1

2规范性引用文件.................................................................................................................................................1

3术语和定义.........................................................................................................................................................1

4缩略语.................................................................................................................................................................2

5技术要求.............................................................................................................................................................3

5.1测试框架.........................................................................................................................................................3

5.2测试对象.........................................................................................................................................................3

5.3测试网络架构.................................................................................................................................................3

5.4测试场景信息.................................................................................................................................................3

6测试方法.............................................................................................................................................................3

6.1测试指标.....................................................................................................................................................3

6.2测试指标描述.................................................................................................................................................4

6.2.1平均前向推理时间.................................................................................................................................4

6.2.2最大吞吐性能..........................................................................................................................................4

6.2.3前向处理延迟性能.................................................................................................................................4

6.2.4功耗.........................................................................................................................................................4

6.2.5能效比.....................................................................................................................................................4

6.3测试类型.........................................................................................................................................................4

6.3.1通用测试.................................................................................................................................................4

6.3.2专用测试.................................................................................................................................................4

6.4指标测试方法.................................................................................................................................................4

6.5.1平均前向推理时间.................................................................................................................................4

6.5.2最大吞吐性能.........................................................................................................................................5

6.5.3前向处理延迟性能.................................................................................................................................5

6.5.4功耗.........................................................................................................................................................5

6.5.5能效比.....................................................................................................................................................5

附录通用端侧深度学习芯片测试参数参照表..............................................................6

I

T/CESAXXXX-2019

人工智能芯片面向端侧的深度学习芯片测试指标与测试方法

1范围

本标准规定了对端侧深度学习芯片进行功能、性能测试的测试指标、测试方法和要求,适用于通用

端侧深度学习芯片。本标准只规定端侧深度学习芯片基准测试的一般原则,针对具体端侧深度学习芯片

产品应制定相应的测试细则。

本标准适用于第三方机构对通用端侧深度学习芯片进行性能测试与评估,也适用于端侧深度学习芯

片产品的采购、设计。

2规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。

凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

GB/T5271.31-2006信息技术词汇第31部分:人工智能机器学习

GB/T5271.34-2006信息技术词汇第34部分:人工智能神经网络

20190851-T-469信息技术人工智能术语

T/CESA1026-2018人工智能深度学习算法评估规范

3术语和定义

下列术语和定义适用于本文件。

3.1

机器学习Machinelearning

一种程序或系统,用于根据输入数据构建(训练)预测模型。这种系统会利用学到的模型根据从分

布(训练该模型时使用的同一分布)中提取的新数据(以前从未见过的数据)进行实用的预测。机器学

习还指与这些程序或系统相关的研究领域。

3.2

深度学习DeepLearning

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性

类别或特征,以发现数据的分布式特征表示。

3.3

卷积神经网络Convolutionalneuralnetwork

1

T/CESAXXXX-2019

机器学习中一种基于对数据进行表征学习的方法,通过组合低层特征形成更加抽象的高层表示属性

类别或特征,以发现数据的分布式特征表示。

3.4

循环神经网络RecurrentNeuralNetwork

一种神经网络,是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)

且所有节点(循环单元)按链式连接的递归神经,网络具有短期记忆能力的神经网络。

3.5

递归神经网络Recursiveneuralnetwork

深度学习(deeplearning)算法之一,具有树状阶层结构且网络节点按其连接顺序对输入信息进行

递归的人工神经网络(ArtificialNeuralNetwork,ANN)。

3.6

层Layer

神经网络中的一组神经元,负责处理一组输入特征,或一组神经元的输出。

3.7

推理Inference

在机器学习中,推断通常指将训练过的模型应用于无标签样本,进而来做出预测的过程。

3.8

批次Batch

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

3.9

批次大小Batchsize

一个批次中的样本数。批次大小在训练和推断期间通常是固定的。

3.10

测试集testset

数据集的子集,用于在模型经由验证集的初步验证之后测试模型。

4缩略语

下列缩略语适用于本文件。

2

T/CESAXXXX-2019

mAP:平均精度均值(MeanAveragePrecision)

mIoU:平均交并比(MeanIntersectionoverUnion)

FAR:误识率(FalseAcceptRate)

FRR:拒识率(FalseRejectRate)

IR:识别正确率(IdentificationRate)

WER:词错误率(WordErrorRate)

SER:句错误率(SentenceErrorRate)

5技术要求

5.1测试框架

针对端侧深度学习芯片的测试,主要是根据本标准中规定的评估方法,对其每个测试指标进行评估。

详细内容见“5试验方法”。

5.2测试对象

端侧人工智能处理器,具体形式有以下两种:

(1)端侧人工智能处理器芯片(卡):指以芯片卡形态进行使用的人工智能芯片,如FPGA以及ASIC

等人工智能芯片(卡),可通过PCIE等接口与测试主机连接;

(2)搭载人工智能处理器的端侧产品。

5.3测试网络架构

1)控制主机处理器架构:X86架构或ARM架构。

2)支持主流的机器学习框架:Tensorflow、Caffe、MindSpore等。

5.4测试场景信息

1)典型应用场景:计算机视觉任务(图像分类、目标检测、语义分割等)和自然语言处理任务;

2)数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论