2022英伟达AI推理平台技术概述_第1页
2022英伟达AI推理平台技术概述_第2页
2022英伟达AI推理平台技术概述_第3页
2022英伟达AI推理平台技术概述_第4页
2022英伟达AI推理平台技术概述_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

技术概述推理平台推理平台从数据中心到网络终端,实现AI服务性能和效率的巨大飞跃NVIDIANVIDIAAI||PAGE10简介AIAIAIAIAI的产品和服务。(DL)2012KrizhevskyNVIDIAGPUImageNetNVIDIAResearch团队合作开发出GPUAI2015GoogleMicrosoftImageNet挑战赛中均超越了人类的最高得分。2016DeepMindAlphaGoMicrosoft的语音识别能力已达到人类水准。GPU已经证明它们能够极有效地解决某些最复杂的深度学习问题,虽然NVIDIA深度学习平台是业界标准的训练解决方案,但其推理能力并非广为人知。从数据中心到终端,部分全球领先企业已使用NVIDIAGPU构建其推理解决方案。其中包括以下实例:SAP的品牌影响力服务401/32。Bing视觉搜索1/601/10。SparkBoardSparkRoomKitNVIDIA®Jetson已实现无线4K深度学习工作流程9098%

图1)进(DNN)训练过程中会将数百个训练输入(例如,图像分类网络中的图像或者用于语音识别的声谱图)分作一批并同时处理,以期在大量输入之间摊销GPU显存的负载权重,从而大幅提高计算效率。,牺牲吞吐量以换取最1010毫秒内批量处理TensorRT超大规模推理平台NVIDIATensorRT™超大规模推理平台旨在让世界各地的每一位开发者和数AINVIDIATuringNVIDAT4GPUT4依托NVIDIATuringT4、、MXNet、ChainerCaffe2。NVIDIATensorRT能为图像分类、分割、物体检测、机器语言翻译、语音和推荐GPU或GPUTensorRTTuringGPUFP32INT8TensorRTTensorFlowONNX格式的主要框架。NVIDIATensorRTNVIDIAGPUCloudGPUNVIDIATensorRTGPU加速推理架构的转换过程。NVIDIAGPUKubernetes,将训练和推理部署无缝扩展到多云GPU(DevOps)GPUNVIDIAGPUKubernetes,开发者和工GPUGPU集群。NVIDIATuringT4GPUNVIDIAT4GPUAIT4NVIDIATuringAIT4NVIDIAAIAI的开发和部署工作。TuringAITuringGPU还继承了NVIDIAVoltaNVIDIACUDA®TuringGPU架构拥有诸(MPS)、统一内存寻址和地址转换服务以及协作组等。NVIDIATuring创新技术图2:NVIDIATURINGTU102GPUTuring的主要特性Turing(SM)TuringSM基于VoltaGV100架构上经过重大改进的SM而构建,NVIDIAPascalGPUTuringVoltaFP16和FP32INT8INT4与Volta类似,TuringSM也提供独立的浮点型和整型数据通路,能够通过混合计算和地址运算更有效地执行常见工作负载。此外,独立线程调度功能还可在线程之间实现细粒度同步与合作。最后,组合共享内存和L1缓存能够显著提高性能,同时简化编程。用于推理的深度学习功能TuringGPU能够提供出色的推理性能、通用性和高效率。Turing、CUDACuDNNTuringGPUTuring还包括INT4INT1高性能显存子系统Turing是首款利用GDDR6显存的GPU架构,该显存系统代表了GDDRDRAMGPUGDDR6GDDR5XTuringGDDR6显存的提升。将视频解码性能提升一倍视频持续呈爆炸式增长,已占据互联网全部流量的三分之二以上。AIT4GPUAI视频应用程序实现了性能T438T4具有TensorRT5特性NVIDIAT4推理加速器、5高性能深度学习推理优化器和运5准确度,并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台。在对各大框架中训练的模型进行推理时,GPU上基于TensorRT的应用程序推理性能最高可达CPU的50倍。TensorRT优化

图3TensorRT和TensorFlow现已紧密集成,能够让开发者同时尽享TensorFlow的灵活性和TensorRT的超强优化性能。MATLAB已通过GPU编码器实现与TensorRT的集成,这能协助工程师和科学家在使用MATLAB时为Jetson、NVIDIADRIVE™和Tesla平台自动生成高性能推理引擎。TensorRT能够加速各种各样的应用程序,包括图像、视频、语音识别、神经网络机器翻译和推荐系统。虽然深度学习框架也支持开展推理操作,但不仅能轻松优化网和时间递归神经网络相关数据,用以说明二者的结合如何提供高达CPU服务器45倍的吞吐量。TeslaGPU与TensorRT推理优化器组合后,能够为卷积神经网络(CNN)(常用于基于图像的网络)以及RNN(常用于语音和翻译应用程序)带来巨大的性能提升。推理性能:概述推理性能:概述PLASTER概括了推理性能:概述PLASTER概括了PProgrammabilityLatencyAccuracySizeofModelThroughputEnergyEfficiencyRateofLearning可编程性延迟吞吐量准确度网络大小能效学习率图4深度学习是一项复杂的任务,因此我们要选择正确的深度学习平台。任何一种决策分析都应考虑这七个因素,而且这些因素中许多都是相互关联的。下面我们来了解一下这七个因素及其各自的作用。NVIDIACUDATensorRT,后者NVIDIANVIDIA加快所有深度学习框架的训练和推理速度。AI仍在迅猛发展,但实时服务的延迟目标却始终不变。例如,消费者和客户服务应用程序均对数字助理有着广泛的需求。但是,在人类尝试与数字助理交互时,即使是短短几秒的延迟也会开始让人感到不自然。深度学习模型的大小和处理器之间的物理网络容量会对PLASTER这不仅有助开展更详细的分析,还能推动对更强大训练系统的需求。(SLA)同时还有可能致使服务失败。随着DL学习解决方案带来投资回报(ROI)功)学习率:DL系统获得商DevOpsDLIT吞吐量(ImageNet在三个不同P4GPU12V100GPUCPU服务器的45倍。样本/样本/秒图像/秒12000CPFP3)10067TeslaP4(INT8)eslaV10100008000627560004000314322082000747426884300GoogleNetResNet-502018(FP16/FP32累加)@3.7GHzTeslaP4TensorRTGPUOpenVINORNN适用于时间序列或序列数据,并且常用作翻译、语音识别、自然语言处理乃至语音合成等应用的解决方案。此处所示数据源自OpenNMT80,00070,000CPU服务器TeslaP4TeslaV1007002280,00070,000CPU服务器TeslaP4TeslaV1007002260,00050,00040,00030,00020,00010,0001990SD24为FP3V00FP6/FP32累加)@3.7GHzTeslaP4TensorRTGPU2低延迟吞吐量(ASR)CNNRNN在没有批处理1)的情况下立即处理请求;或2)使用“自动批处理”技术,即首先设置一个延迟限值7大小的值,然后再通过网络发送所处理的样本以77图像/秒毫秒来得出7图像/秒7710,000CPFP3)TeslaP4(INT8)9,0008740eslaV108,0007,0006,000 56705,0004,0003,000 280019702,00013871,000 544163582800GoogleNetResNet-50OpeVNO28R2的CP2CPU为FP3V00FP6/FP32累加4为NT8@3.7GHzTeslaP4TensorRTGPU1的情况下1TeslaP4V1001.81.1CPU6CPU163P4562TeslaV100870张图像。样本样本/秒111,000900CPU服务器TeslaP4 TeslaV100870800700600 562500400300200 1000CPU服务器TeslaP4TeslaV100OpenVINO2018R2V100INT8@3.7GHzTeslaP4TensorRT效能我们已达到最高吞吐量水平,尽管极高的吞吐量是深度学习工作负载的关键因素,但平台提供这种吞吐量的效率也是关键因素。P4T470T4AIT4P4的两倍以上。推理效率80CPU服务器推理效率80CPU服务器TeslaP4 TeslaV100 TeslaT47060 565040302521201100CPU服务器TeslaP4TeslaV100Tesla@3.7GHzTeslaP4TensorRTTeslaensorRT5RC的esla(OpeVNO28R2的CP2CPU为FP3V00为(FP16/FP32累加INT8每瓦每秒处理的图像数NVIDIA深度学习推理平台性能研究|技术概述|12NVIDIANVIDIAAI||PAGE20GPU推理:商业意义TeslaV100和P4可大幅提升性能和能效,但这对于购入预算和运营预算有何益处呢?简而言之:性能高,省得多。GPU推理:商业意义V100P416T4GPU200台占用四个服务器机架并需要60GPU推理:商业意义V100P416T4GPU200台占用四个服务器机架并需要60CPUT41/301/200。图5Jetson:终端推理NVIDIAJetsonTX2AIAIJetsonTX2NVIDIA7.5JetsonTX2能够在终端设备上运行更大、更深Jetson、cuDNN平台上使用的工具极为相似。JetsonTX27.5Max-QGPU的Max-Q854MHz,ARMA57CPU1.2GHzJetsonTX2NVIDIAMax-Q配置也可用I数据中心过高时,nMax-Q可经配置以其他频率范围)Max-P是每瓦每秒处理的图像数15瓦功耗的条件下达到最高系统GPUMax-P1.12GHzARMA57CPU2GHzCPU的频率为1.4GHz。每瓦每秒处理的图像数80CPU服务器JetsonTX27062605038403020310GoogleNetResNet-50系统配置:至强可128TX2@3.7GHzTensorRTJetsonTX2SDK;对于许多网络终端应用程序而言,低延迟是必备条件。执行设备端推理远优于试着通过无线网络及在远程数据中心基于CPU的服务器内外发送此工作。除了设备端本地化功能以外,JetsonTX2还能以通常低于10毫秒的超低延迟处理小批量工作负载。相比之下,基于CPU的服务器延迟约为23毫秒,再加上往返网络和数据中心的行程时间,该延迟数据会远超100毫秒。加速计算的崛起(TPU),该款处理器适用于深度学习训练NVIDIAIe2U)dTPUv2TPU芯片NVIDIAV100的深度学习训练125NVIDIA8GPU配置的深度学习计1petaflop。NVIDIA的方法是面向每家公司、每个行业以及每个计算平台普及AI计算,并为从云端到企业、汽车乃至网络终端中的每个开发框架实现加速。NVIDIAAI世界。FPGA说明(FPGA)已在网络交换机、4G基站、汽车电机控制器和半导体测试设备等使用案例中用作(ASIC)ASIC本身的效率并不高。Build推理ResNet-50500P4GPU3751676StratixFPGAGoogLeNet网络上运行得出。图像图像/秒投射投射12,00010,0008,0006,0004,000280030502,00076092412490GPUFPGAGPU*E5-2690v4CPUTeslaP4TensorRT关于可编程性和解决方案时间的注意事项PLASTER最近几年,我们经历了新型网络架构的寒武纪大爆发,而且这一创新速度丝毫没有减缓的迹象。卷积网络递归网络卷积网络递归网络生成对抗网络强化学习新类别除软件开发外,FPGA提出的另一项挑战是,FGPA必须重新进行硬件级配置,才能运行新一代的神经网络架构。这种复杂的硬件开发减缓了提供解决方案的时间,由此也将创新速度减慢了数周乃至数月。另一方面,GPU仍然是可编程平台的理想选择,得益于可靠的框架加速支持、TeslaV100的Tensor内核等深度学习专用逻辑以及为部署推理优化经训练的网络的TensorRT,它能够快速完成原型设计、测试和迭代前沿网络设计。结束语深度学习掀起了一场计算革命,为多个行业领域的企业带来了深远影响。NVIDIA深度学习平台是训练作业的行业标准,各领先企业已纷纷为其推理工作负载部署GPU以利用其强大的优势。神经网络呈指数级迅速增长并不断复杂化,从而刺激了计算需求和成本激增。在一些情况下AI服务需要迅捷反应,而现代网络对于传统CPU而言计算任务过重。PLASTERGPU1/200TX210AI系统、文字转语音和语音合成。NVIDIA如需了解有关NVIDIATesla产品的更多信息,请访问:/tesla如要深入了解JetsonTX2,请访问:/zh-cn/autonomous-machines/embedded-systems如需了解有关TensorRT和其他NVIDIA开发工具的更多信息,请访问:/tensorrt如需了解目前已利用GPU加速的大量应用程序的列表,请访问:www.NVIDIA.com/GPU-applications性能数据表CNN TESLAP4(INT8)网络 批量大小

每秒处理的图像) 主板平均功率 每瓦性能 延毫)GoogLeNet19233724.91.141631416314238.82.58 2197 46 47.8 3.7646431186349.520128 3191 64 49.1 40ResNet-5015694412.91.8497449744919.94.18 1291 57 22.6 6.2646416776326.638128 1676 62 27 76VGG-191206553.74.943464346605.8128 398 65 6.1 206464429636.8149128 430 62 6.9 298CNN TESLAV10)网络 批量每秒处理的图像) 主板平均功率 每瓦性能 延毫GoogLeNet1102713180.974268442684118231.58 4502 152 29 1.864649421284336.8128 10067 290 35 13ResNet-50147612042.1416314163113212.42.58 2685 153 17.5 36464587727421.411128 6275 285 22 20VGG-1914971513.3227931944.12.5411942205.43.4814882545.95.46421612907.53012822082917.658RNN TESLAP4(FP32)网络 批量大小

每秒处理的令牌) 主板平均功率 每瓦性能 延毫)OpenNMT18941038.71.121260126101.64174612913.52.38290116817.32.864590328920.411128625929421.320RNN TESLAV10)网络 批量大小每秒处理的令牌) 主板平均功率 每瓦性能 延毫)OpenNMT134579636152479110047.9214807610576.925813475108124.830645075874685.9641287002284833.693JETSONTXMAX-Q每秒处AP+DRAMAlexNet1每秒处AP+DRAMAlexNet11196.618.02.3528.4

上行功率

AP+DM性能

GP功率

GPU性能/功率延迟(毫秒)426442646.739.32.99115.28 276 6.1 45.1 2.8 99 29.064644006.462.63.2125160.0128 425 6.4 66.4 3.2 132.6 301.3GoogLeNet11415.724.72.654.37823.58 180 6.4 28.2 3.0 60.6 44.564641896.6337.8128 191 6.6 28.9 3.1 61.6 671.8ResNet-501645.411.92.328.315.64814815.415.12.334.849.48 83 5.4 15.4 2.4 35.4 95.96464895.516.22.437715.5128 90 5.5 16.2 2.4 37.7 1,424.3VGG-191197.22.63753.12227.23.03.16.993.147.2176.887.3351.3647.12,792.41287.25,660.6JETSONTXMAX-P每秒处AP+DRAMAlexNet1每秒处AP+DRAMAlexNet11468.916.33.62416.85

上行功率

AP+DM性能

GP功率

GPU性能/功率延迟(毫秒)433043309.534.84.5372.912.128 349 8.8 39.8 4.42 79.0 22.9064645159.554.15.2198.8124.36128 546 9.6 56.9 5.28 103 234.32GoogLeNet117443.25.6421842189.024.24.6147.218.48 231 9.3 24.8 4.83 47.8 34.764642439.725.15.0349263.6128 244 9.6 25.3 5.02 48.6 52ResNet-501827.411.13.492312.2410441047.613.63.7127.938.68 107 8.0 13.4 3.95 27.1 74.864641157.914.63.8130.1558.9128 115 7.9 14.6 3.82 30.1 1,113.2VGG-19123.7102.355.042.2428.2428.2102.74.975.7142.08 28.3 10 2.8 4.96 5.7 282.7646428.72,226.7128 28.4 10 2.8 5.09 5.6 4,514.0*Up=上行功率,Dwn=下行功率)网络 批量

处理RAM

JETSONTX1AP+DRAM性能/GPU下行功率*

GPU性能/功率延迟(毫秒)的图像数)

) 功

(瓦)AlexNet1918.610.5215810.315.26.424.512.7424411.321.77.632.016.4825311.322.37.832.031.66441812.5339.444.0153.212844912.5369.646.9284.9GoogLeNet111910.78.44173417311.614.98.021.623.28 185 12.3 15.1 9.0 20.6 43.2646419612.715.09.420.7327.0128 196 12.7 15.0 9.5 20.7 651.7ResNet-506.39.716.4480.546.612.149.78 84.2 10.2 8.3 7.0 12.0 95.0646491.210.09.16.913.2701.7128 91.5 10.4 8.8 7.3 12.6 1,399.3VGG-19113.31.775.0419.248.92.2207.88 19.5 12.0 1.6 8.6 2.3 410.6646420.32.23,149.6128 20.5 12.5 1.6 9.3 2.2 3,187.3*Up=上行功率,Dwn=下行功率)测试方法我们的性能分析侧重于四种神经网络架构。AlexNet(2012ImageNet)GoogLeNet(2014ImageNetAxNetVGG-19ResNet-50ImageNet竞赛中获胜的架构。2的小批量情况。X1X2P4V100GPUTensorRT2EAJetPack更新2017)6140SDKv2061部署工具。GPUTensorRT版本附带的“giexec”prototxtCa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论