给 AI 换个“大动力小心脏”之 CNN 加速设计_第1页
给 AI 换个“大动力小心脏”之 CNN 加速设计_第2页
给 AI 换个“大动力小心脏”之 CNN 加速设计_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【Word版本下载可任意编辑】给AI换个“大动力小心脏”之CNN加速设计K

U115芯片由两个DIE对堆叠而成,加速器平行放置了两组处理单元PE。每个PE由4组32x16=512的MAC计算DSP组成的XBAR构成,设计的关键在于提升设计中的数据复用降低带宽,实现模型权重复用和各layerfeaturemap的复用,提升计算效率。

应用场景及性能比照

当前深度学习主流使用GPU做深度学习中的Training过程,而线上Inference部署时需综合考虑实时性、低成本以及低功耗特性选择加速平台。按深度学习落地场景分类,广告推荐、语音识别、图片/视频内容实时监测等属于实时性AI服务以及智慧交通、智能音箱以及无人驾驶等终端实时低功耗的场景,FPGA相较于GPU能够为业务提供强有力的实时高性能的支撑。

对于使用者而言,平台性能、开发周期以及易用性终究如何呢?

加速性能

以实际googlenetv1模型为例,CPU测试环境:2个6核CPU(E5-2620v3),64G内存。

将整机CPU打满,单张基于KU115的加速器相较于CPU性能提升16倍,单张图片检测延时从250ms降低到4ms,TCO成本降低90%。

同时,FPGA预测性能略强于Nvidia的GPUP4,但延时上有一个数量级的优化。

开发周期

通用的CNNFPGA加速架构,能够支持业务快速迭代持续演进中的深度学习模型,包括Googlenet/VGG/Resnet/ShuffleNet/MobileNet等经典模型以及新的模型变种。

对于经典模型以及基于标准layer自研的算法变种,现有加速架构已经可以支持,可以在一天内通过编译器实现模型对应指令集,实现部署上线。

对于自研的特殊模型,例如不对称卷积算子和不对称pooling操作等,需要根据实际模型构造在本平台上开展相关算子迭代开发,开发周期可缩短在一到两周之内开展支持。

易用性

FPGACNN加速器对底层加速过程开展封装,向上对加速平台的业务方提供易用SDK。业务方调用简单的API函数即可完成加速操作,对业务自身逻辑几乎无任何改动。

结语

基于FPGA的通用CNN加速设计,可以大大缩短FPGA开发周期,支持业务深度学习算法快速迭代;提供与GPU相媲美的计算性能,但拥有相较于GPU数量级的延时优势。通用的RNN/DNN平台正在紧张研发过程中,FPGA加速器为业务构建强劲的实时AI服务能力。

在云端,20**年初,我们在**云首发了国内台FPGA公有云服务器,我们将会逐步把根底AI加速能力推出到公有云上。

AI异构加速的战场很大很精彩,为公司内及云上业务提供的解决方案是架平FPGA团队持续努力的方向。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论