工业互联网边缘计算 课件 任务2.7 MEC服务器上的模型部署和推理_第1页
工业互联网边缘计算 课件 任务2.7 MEC服务器上的模型部署和推理_第2页
工业互联网边缘计算 课件 任务2.7 MEC服务器上的模型部署和推理_第3页
工业互联网边缘计算 课件 任务2.7 MEC服务器上的模型部署和推理_第4页
工业互联网边缘计算 课件 任务2.7 MEC服务器上的模型部署和推理_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

——工业互联网边缘计算——模块2部署MEC服务器和端侧感知设备目录CONTENTSMEC服务器和端侧感知设备选型任务2.1工业智慧园区规划任务2.2边缘计算设备的硬件选型任务2.3MEC服务器及端侧设备的硬件部署任务2.4边缘计算设备的软件部署任务2.5端侧设备的数据采集和预处理任务2.6MEC服务器上的模型部署和推理任务2.7任务2.7MEC服务器上大的模型部署和推理导入边缘计算智能是指在硬件设备上在本地处理的人工智能算法,可以在没有网络连接的情况下处理数据,无需流式传输或在云端数据存储的情况下进行数据分析与处理等操作。例如,工厂的机器人和自动驾驶汽车都需要以最小的延迟高速处理数据。边缘计算能够在云端利用深度学习生成数据模型,而在设备本身(边缘)执行模型的推断和预测。2.7.1模型部署和推理概述在深度学习模型的部署(即模型推理)阶段,为了在算力和能耗均受限的边缘或终端设备实现低延迟和高效能的模型推理,现有的优化技术主要可以分为模型压缩、模型分割、模型提前退出、模型选择、边缘缓存、输入过滤、面向应用优化等7种。1.模型压缩:通过压缩深度学习模型,可以使模型从“大”变“小”,从而降低模型复杂度和资源需求,更好地在资源受限的边缘设备上实现低延迟和低能耗的模型推理。模型压缩的常用方法包括权重剪枝(weightpruning)和数据量化(quantization)。其中,权重剪枝的基本思想为:深度学习模型中含有大量的权重参数,然而不同的权重参数对模型表示能力(即模型精确度)的贡献具有差异。因此,通过删除重要程度低(即对模型表示能力贡献少)的权重参数,可以达到以牺牲少量模型精度为前提,显著降低模型资源消耗的目的。数据量化是另一项用于模型压缩的主流技术,其基本思想为通过低精度的数值来表示权重参数,例如8比特、4比特甚至1比特,从而降低模型的复杂度和资源消耗。值得注意的是,数据量化同样会降低模型精度。2.模型分割:深度学习模型通常由多层神经元网络组成,不同网络层的资源消耗和中间数据输出量均不同。基于这一事实,深度学习模型分割技术将模型分割成若干部分,并以较小的传输代价,将其中计算密集的部分卸载到多个边缘服务器或邻近的移动设备。实现边缘计算模型推理,从而获得更好的实时性能图。为了实现性能最优化,模型分割点的选择通常需要考虑不同节点的可用计算和网络带宽资源。2.7.1模型部署和推理概述3.模型提前退出:为了加速深度模型推理,模型提前退出技术通过处理较为靠前的网络层输出结果提前结束模型推理,并获得最终输出结果,节省运行时间。值得注意的是,模型提前退出技术虽然能够有效降低资源消耗量,但同样会损害模型精度,因此在选择最佳模型退出点时,需要权衡优化性能与模型精度。4.模型选择:实现同一深度学习功能的模型通常有多个。以视觉应用中常用的物体检测功能为例,常用的模型有Yolo、VGG和AlexNer等。然而,针对同一输入,不同模型的资源消耗和识别精度不同。因此,我们可以针对输入动态自适应地选择最优模型,从而协同优化资源消耗和模型精度。5.边缘缓存:在很多AI应用中,部分查询任务具有时间重复性特征。例如,在公司、学校或者园区的人脸识别应用中,存在大量频繁重复的人脸输入。对于这些重复性输入,可以将它们的识别结果缓存在边缘节点,从而避免重复性计算,降低时延与资源消耗。考虑到边缘缓存容量有限,如何动态调整缓存的结果是需要解决的关键问题。6.输入过滤:对于很多AI应用,大量的输入是对查询结果无意义的非目标输入。例如在安防监控中,摄像头中的大量输入为非目标的视频背景。通过提前识别并去除这些非目标输入,可以有效避免深度学习模型推理的冗余计算,从而显著降低模型推理的资源消耗。7.面向应用优化:面向应用优化主要考虑针对应用的某些特定属性进行优化。例如,对于图片识别应用而言,图片分辨率对深度学习模型的资源消耗有非常大的影响。我们可以通过降低输入图片辨率来降低资源消耗。进一步,针对视频分析应用我们可以通过同时调整视频输入的分辨率和帧速率来降低视频分析过程中的资源消耗。2.7.1模型部署和推理概述在边缘智能系统设计中,往往可以综合以上多种手段来满足应用需求。例如,我们联合模型分割和模型提前退出这两种技术手段,提出了基于端边协同的深度学习推理加速优化框架Edgent。Edgent的优化逻辑分为三个阶段:离线训练阶段、在线优化阶段以及协同推断阶段。在离线训练阶段,我们训练好满足任务需求的多分支网络(含有模型提前退出点),同时为分支网络中的不同神经网络层训练回归模型,以此估算神经网络层在边缘服务器与终端设备上的运行时延;在线优化阶段,回归模型将被用于寻找符合任务时延需求的退出点以及模型分割点:在协同推断阶段边缘服务器和终端设备将按照得出的方案进行分布式执行。如此,通过优化模型退出点与分割点的选择,我们可以充分利用边缘侧分布式计算资源来满足应用实时性能要求,同时尽可能提升模型推理精度。2.7.2模型部署和推理案例分析现在以深度模型在视觉应用中的物体检测为例,进行模型部署与推理的简单实验。该实验首先利用torch环境准备好深度学习模型,然后将torch模型转换成开放神经网络交换格式模型onnx(OpenNeuralNetworkExchange,onnx)。onnx是一个用于表示深度学习模型的标准,用于存储训练好的模型,可使模型在不同框架之间进行转移。再将onnx模型转换成TensorRT模型。TensorRT是一个高性能的深度学习推理优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。最后利用TensorRT模型进行物体识别。模型部署与推理的步骤如下:2.7.2模型部署和推理案例分析1.Torch模型,在torch环境下,设置resnet18模型参数,读取resnet18模型。编写torch2onnx.py文件内容如图所示。2.7.2模型部署和推理案例分析2.Torch模型转onnx模型,在torch2onnx.py文件的基础上添加图中torch模型转onnx代码。2.7.2模型部署和推理案例分析3.onnx模型转trt模型,编写onnx2trt.py文件代码如图所示,实现onnx模型转trt模型。2.7.2模型部署和推理案例分析经过以上三步的操作,在Linux桌面上可以看到如图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论