版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 对深度学习硬件平台的要求:首先在表层上,我们 有一个巨大的数据集,并选定了一种深度学习模型。 每个模型都有一些内部参数需要调整,以便学习数 据。而这种参数调整实际上可以归结为优化问题, 在调整这些参数时,就相当于在优化特定的约束条 件。 百度的硅谷人工智能实验室(SVAIL)已经为深度学 习硬件提出了DeepBench基准,这一基准着重衡量的 是基本计算的硬件性能。 现在的深度学习算法主要包括卷积神经网络(CNN) 和循环神经网络(RNN)。基于这些算法, DeepBench提出以下四种基本运算: 矩阵相乘(MatrixMultiplication)几乎所有的深度学习 模型都包含这一运算,它
2、的计算十分密集。 卷积(Convolution)这是另一个常用的运算,占用了模 型中大部分的每秒浮点运算(浮点秒)。 循环层(RecurrentLayers)模型中的反馈层,并且基本 上是前两个运算的组合。 AllReduce这是一个在优化前对学习到的参数进行传递或 解析的运算序列。在跨硬件分布的深度学习网络上执行同步优 化时(如AlphaGo的例子),这一操作尤其有效。 除此之外,深度学习的硬件 加速器需要具备数据级别和 流程化的并行性、多线程和 高内存带宽等特性。 另外,由于数据的训练时间 很长,所以硬件架构必须低 功耗。因此,效能功耗比 (Performanceper Watt)是 硬件
3、架构的评估标准之一。 目前来说,GPU贵,功耗高,运行效率 比FPGA高,易使用。 FPGA功耗,单颗性能是低的,单颗FPGA 的硬件设计挑战没有GPU大,但是总体 性价比和效率不占优;FPGA如果实现深 度学习功能,还需要大批量使用,才能 实现完整的功能,且需要与CPU相结合。 另外一个问题是,FPGA的大规模开发难度偏高, 从业人员少。 FPGA犹如乐高,其灵活性,根据实际应用的需 求,构建我所需要的硬件组件。但是乐高本身 就是一种浪费:其功耗性能比,可变布线资源、 多余的逻辑资源,其实都是浪费。 FPGA在深度学习的应用场景,存在的价值在于 其灵活性。DNN是深度神经网络系统的统称, 实
4、际使用的时候,使用几层网络,最终结果用 什么样的筛选策略,在不同的应用和不同的设 计框架下面,对硬件的诉求并不相同。 GPU的一个缺点是,他的组件模块是乘法器、 加法器。虽然深度学习的参数都是数学模型, 需要对RTL级别的变化,但是GPU的硬件资源是 以乘法器、加法器这样量级的硬件单元组成 的。 如果GPU的预先配置与使用者的模型相差甚远。 例如:加法器配置15个,乘法器配置15个。但 实际使用的时候,乘法器使用量是15个,但是 加法器只需要2个。这就浪费了13个加法器的 资源。而FPGA是以查找表和触发器子单元,组 合成任意运算单元。 但是换种角度来看FPGA本身就是一种浪费。 增加训练自由
5、度 : 对于深度学习,模型在参数量上的复杂程度经常伴随着 大量可能的超参数组合。可以调整的超参数包括训练迭 代次数、学习速率、批梯度尺寸、隐藏单元数和层数等 等。调整这些参数,等于在所有可能的模型中,挑选最 适用于某个问题的模型。 固定架构让模型内的超参数设置探究变得很容易(比如, 隐藏单元数、层数等),但去探索不同模型间的参数设 置变得很难(比如,模型类别的不同),因为如果要就 一个并不简单符合某个固定架构的模型来进行训练,就 可能要花很长时间。 相反,FPGA灵活的架构,可能更适合上述优化类型,因 为用FPGA能编写一个完全不同的硬件架构并在运行时加 速。 低耗能计算节点集群: 目前的解决
6、方案使用具备Infiniband互连技 术的GPU集群和MPI,从而实现上层的并行计 算能力和节点间数据的快速传输。 然而,当大规模应用的负载越来越各不相同, 使用FPGA可能会是更优的方法。FPGA的可编 程行允许系统根据应用和负载进行重新配置, 同时FPGA的能耗比高,有助于下一代数据中 心降低成本。 当然ASIC是能效最高的,但目前,都在早期阶段, 算法变化各异。想搞一款通用的ASIC适配多种场 景,还是有很多路需要走的。 谷歌发布了人工智能芯片:Tensor Processing Unit,这是ASIC。 据知情人士说,TPU已经在谷歌的数据中心运行了 一年时间,由于谷歌严守TPU的秘
7、密,所以TPU一 直不为外界所知。 这位知情人士说,从目前的运行效果来看,TPU每 瓦能耗的学习效果和效率都比传统的CPU、GPU高 出一个数量级,达到了摩尔定律预言的七年后的 CPU的运行效果。 在深度学习方面,TPU可以兼具桌面机与嵌入式设 备的功能,也就是低能耗高速度。 谷歌资深硬件工程师Norman Jouppi刊文 表示,谷歌的专用机器学习芯片TPU处理 速度要比GPU和CPU快15-30倍(和TPU对比 的是英特尔Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是 提升了30到80倍。 参数进来后,可从顶部加载到矩阵乘法单元中。同 时,可以
8、从左边加载激活(或从“神经元”输出)。 那些以收缩的方式进入矩阵单元以产生矩阵乘法, 它可以在每个周期中进行64,000次累加。 256*256阵列缩放数据流引擎,经过矩阵乘法积累后实现非线性输出 在Google的测试中,使用64位浮点数学运算器的18核心 运行在2.3 GHz的Haswell Xeon E5-2699 v3处理器能够 处理每秒1.3 TOPS的运算,并提供51GB/秒的内存带宽; Haswell芯片功耗为145瓦,其系统(拥有256 GB内存) 满载时消耗455瓦特。 相比之下,TPU使用8位整数数学运算器,拥有256GB的主 机内存以及32GB的内存,能够实现34GB/秒的
9、内存带宽, 处理速度高达92 TOPS ,这比Haswell提升了71倍,此外, TPU服务器的热功率只有384瓦。 如上图所示,在小批量任务中(16),Haswell CPU的响 应时间接近7毫秒,其每秒提供5482次推断(IPS),其 可以实现的最大批量任务(64)每秒则可以完成13194次 推断,但其响应时间为21.3毫秒。相比之下,TPU可以做 到批量大小为200,而响应时间低于7毫秒,并提供 225000个IPS运行推理基准,是其峰值性能的80,当批 量大小为250,响应时间为10毫秒。 Intel Stratix10 FPGA 硬件:与高端GPU相比,FPGA具有卓越的能效(性能/
10、 瓦),但它们不具有高峰值浮点性能。 FPGA技术正在迅速发展,即将推出的 IntelStratix10FPGA提供超过5,000个硬件浮点单元 (DSP),超过28MB的片内RAM(M20Ks),与高带宽内存 (高达4x250GB/s/stack或1TB/s)的集成,以及新 HyperFlex技术提供的频率改进。 英特尔FPGA提供了一个全面的软件生态系统,从低级 Hardware Deion语言到具有OpenCL、C和C+的更高级的 软件开发环境。 英特尔将进一步利用MKL-DNN库,针对Intel的机器学习 生态系统和传统框架(如今天提供的Caffe)以及其他不 久后会出现的框架对FPG
11、A进行调整。基于14nm工艺的英 特尔Stratix10在FP32吞吐量方面达到峰值9.2TFLOP/s。 相比之下,最新的TitanX Pascal GPU的FP32吞吐量为 11TFLOP/s。 Intel Stratix10 FPGA 新兴的低精度和稀疏DNN算法,其效率较 之传统的密集FP32DNN有数量级的巨大改 进,但是它们引入了GPU难以处理的不规 则并行度和定制数据类型。 反之,FPGA正是为极端的用性而设计的。 在用于运行不规则并行度和自定义数据类 型时,正能大显身手。 这样的趋势使未来FPGA成为运行DNN、AI 和ML应用的可行平台。黄先生说:“FPGA 专用机器学习算法
12、有更多的余量。” Intel Stratix10 FPGA Intel Stratix10 FPGA 测试结果显示,英特尔 Stratix 10 FPGA 在 GEMM 稀疏、Int6 和二值化 DNN 中的 表现(TOP/sec)比英伟达 Titan X Pasacal GPU 分别要好 10%、50% 和 5.4 倍。在 Ternary-ResNet 中,Stratix 10 FPGA 可以输出超过 Titan X Pascal 60% 的表现,而功耗效率则比对手好上 2.3 倍。 实验结果表明:FPGA 可以成为下一代 DNN 的最佳计算平台之选。 中兴通讯创造了一项新纪录人脸识别 速度
13、超过每秒一千张图像并达到其特 定拓扑的理论精确度。 英特尔Arria10 FPGA使原始设计性能提速 10倍以上同时保持算法精确度。 Arria10 FPGA拥有高达1.5TFIOP的单精度 浮点运算性能,1l5万个逻辑元件,以及 超过1Tb/s的高速连接性。 此类深度学习设计可以从Arria10 FPGA系 列无缝迁移至高端英特尔Stratix10 FPGA 系列,用户可以期望得到多达9倍的性能 提升。 FPGA异构平台处理性能是纯CPU计算的性能4倍, 而TCO成本只是纯CPU计算的三分之一。本方案 对比中CPU为2颗E5-2620,FPGA为Virtex-7 VX690T,这是一个28n
14、m器件,如果采用20nm或 16nm的器件会得到更好的性能。 清华大学新型Thinker芯片 Thinker芯片基于该团队长期积累的可重构 计算芯片技术,采用可重构架构和电路技 术,突破了神经网络计算和访存的瓶颈, 实现了高能效多模态混合神经网络计算。 Thinker芯片具有高能效的突出优点,其能 量效率相比目前在深度学习中广泛使用的 GPU提升了三个数量级。 Thinker芯片支持电路级编程和重构,是一 个通用的神经网络计算平台,可广泛应用 于机器人、无人机、智能汽车、智慧家居、 安防监控和消费电子等领域。 清华大学新型Thinker芯片 Optimizing Optimizing FPGA
15、-based Accelerator FPGA-based Accelerator Design Design for for Deep Convolutional Deep Convolutional Neural NetworksNeural Networks Optimizing Optimizing FPGA-based Accelerator FPGA-based Accelerator Design Design for for Deep Convolutional Deep Convolutional Neural NetworksNeural Networks DLAU: A
16、Scalable Deep Learning Accelerator Unit on FPGA Xilinx Zynq Zedboard development board 。 DLAU: A Scalable Deep Learning Accelerator Unit on FPGA DLAU: A Scalable Deep Learning Accelerator Unit on FPGA NVIDIA Tesla K40c as the baseline. K40c has 2880 stream cores working at peak frequency 875MHz, and
17、 the Max Memory Bandwidth is 288 (GB/sec). Accelerating Deep Convolutional Neural Networks Using Specialized Hardware Accelerating Deep Convolutional Neural Networks Using Specialized Hardware Accelerating Deep Convolutional Neural Networks Using Specialized Hardware 基于FPGA的深度学习加速器 设计与实现 采用6种不同的神经网络
18、结构分别测试 了深度学习的预测过程、本地预训练过 程和全局训练过程下CPU(i7_4790K)、 FPGA(Zedboard)和GPU(K40c)的性能、 功率和能耗数据。 对深度神经网络下分别使用OpenBLAS和 cuBLAS优化对应的CPU程序和GPU程序做 对比测试。 基于FPGA的深度学习加速器 设计与实现 基于FPGA的深度学习加速器 设计与实现 在能耗方面,基于Zedboard开发板的FPGA加速 器基本上要优于CPU、CPU+OpenBLAS、GPU和 GPU+cuBLAS,相对于CPU相关程序最高有56倍 的能耗减少,对于GPU相关程序最高节约能耗 约36倍。 只有在计算卷积神经网络全局算法时,Mnist 数据集和Cifar-10数据集下的FPGA加速器能耗 要稍微多于GPU程序,主要是一方面由于加速 器的加速比较低,另一方面由于这里宿主端 ARM处理器有计算任务,ARM的能耗也加入到 FPGA加速器的整体能耗统计中。 基于FPGA的神经网络的研究与实 现-K均值聚类算法的硬件加速 软件运行是在Windows操作系统下VC+ 的环境中,机器主频为2.40GHz,硬件 实现在Xilinx公司的Spartan-3E 500, 000 门平台FPGA型号为XC3S500E-4FG 320,仿真环境为ModelSim及ISE自带仿 真器。 基于FP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2018年全国普通高考二轮新题速递仿真卷(1)文综地理试题
- 2017-2018学年人教版英语必修一教案Unit5NelsonMandelaamodernhero
- 172欧姆定律-2023-2024学年九年级物理全册举一反三(原卷版)(人教版)
- 三年级下册生命生态安全教案教学提纲
- 大班食品安全教育教案40篇
- 新闻媒体行业报告
- 2024年经营权承包合同范本
- 2024年福州驾驶员货运从业资格证考试题
- 2024年呼和浩特道路客运输从业资格证仿真考试题库
- 2024年天津驾驶员客运资格证模拟考试题及答案
- 公路安全员b证考试试题库及答案全考点
- 高中历史学习方法指导课件
- 国有公司信息化工作管理办法 模版
- 幼儿园大班数学:《认识单双数》课件
- 时间线常用模板课件
- 河北省张家口市各县区乡镇行政村村庄村名居民村民委员会明细
- 5养老洗涤服务-洗衣消毒流程
- 小学体育人教四年级全一册目录四年级体育公开课教案
- 武汉市企业(单位)就业人员登记册
- 纲要上第12课辽宋夏金元的文化-课件(共32张PPT)
- (完整版)2017年上海高三语文一模汇编·文言文二
评论
0/150
提交评论