![2024人工智能 计算设备调度与协同第2部分:分布式计算框架_第1页](http://file4.renrendoc.com/view2/M01/3B/23/wKhkFmZ9kzKAWme1AABX6ENZGXU436.jpg)
![2024人工智能 计算设备调度与协同第2部分:分布式计算框架_第2页](http://file4.renrendoc.com/view2/M01/3B/23/wKhkFmZ9kzKAWme1AABX6ENZGXU4362.jpg)
![2024人工智能 计算设备调度与协同第2部分:分布式计算框架_第3页](http://file4.renrendoc.com/view2/M01/3B/23/wKhkFmZ9kzKAWme1AABX6ENZGXU4363.jpg)
![2024人工智能 计算设备调度与协同第2部分:分布式计算框架_第4页](http://file4.renrendoc.com/view2/M01/3B/23/wKhkFmZ9kzKAWme1AABX6ENZGXU4364.jpg)
![2024人工智能 计算设备调度与协同第2部分:分布式计算框架_第5页](http://file4.renrendoc.com/view2/M01/3B/23/wKhkFmZ9kzKAWme1AABX6ENZGXU4365.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2目 次前 言 II范围 1规范性引用文件 1术语和定义 1缩略语 2概述 2总体框架 2适用性 3计算设备技术要求 3云侧设备 3边缘设备 4终端设备 4分布式计算协同技术要求 5架构 5通用要求 5组件要求 6云云协同要求 8云边端协同要求 9多端协同要求 11云边端分布式计算协同接口 12边缘节点管理 12部署及更新 14任务运行管理 17参 考 文 献 19IPAGEPAGE11PAGEPAGE10人工智能计算设备调度与协同第2部分:分布式计算框架范围本文件适用于用于分布式人工智能计算的系统设计、开发和测试。规范性引用文件(包括所有的修改单)适用于本文件。GB/TXXXXX.1—202X1规范GB/TAAAAA—202X人工智能异构人工智能加速器统一接口术语和定义GB/T41867—2022,GB/T42018—2022,GB/TXXXXX.1—202X和GB/TAAAAA—202X中界定的以及下列术语和定义适用于本文件。3.1分布式机器学习distributedmachinelearning注1:互联网络可包含局域互联网及广域互联网。注2:分布式训练任务,不同子系统上协同完成一个训练任务。注3:分布式推理任务,不同子系统协同完成一个推理任务。[来源:ISO/IEC2382:2015,2178059,有修改]3.2联邦机器学习federatedmachinelearning[来源:IEEE3652.1,3.1]3.3增量学习incrementallearning一种分为多个阶段的自适应学习方法,其中在前驱阶段学得的知识被转化为适当形式,以便为后继阶段的新知识提供基础。注1:在机器学习领域的某些文献里,增量学习称为“(机器学习模型的)增量(预)训练”。注2:模型微调是增量学习的方式之一。[来源:ISO/IEC2382:2015,2123002,有修改]3.4边缘计算edgecomputing一种分布式计算方法或过程,其中处理及存储过程发生在分布式系统的边缘。注:计算发生靠近边缘的程度按系统的需求定义设定。[来源:ISO/IECTR23188:2020,3.1.3]3.5集合通信collectivecommunication(称为节点注:一次通信一般包含有多个接受者和发送者。缩略语下列缩略语适用于本文件。AI:人工智能(ArtificialIntelligence)CPU:中央处理单元(CentralProcessingUnit)FPGA:现场可编程逻辑门阵列(FieldProgrammableGateArray)GPU:图形处理单元(GraphicsProcessingUnit)NPU:神经网络处理单元(Neural―networkProcessingUnit)RDMA:远程直接内存访问(RemoteDirectMemoryAccess)RoCE:基于融合以太网的远程直接内存访问(RDMAoverConvergedEthernet)SSL:安全套接字层(SecureSocketsLayer)概述总体框架AI分布式计算协同的总体框架见图1,包含:a)提供AI任务生命周期内的协同计算支持(如统一资源池化、分配、调度等);b)支持设备(如云/边/端设备)的分布式运行环境;实现不同物理部署形态的设备间的通信、控制及任务管理;提升任务执行保障能力,降低分布式应用的作业延时,提升作业吞吐率;实现AI(1AI适用性(云云协同(见7.4)、云边端协同(见7.5)、多端协同(见7.6)),并满足相应的技术要求。不要求单个特定系统符合所有的协同模式和技术要求。计算设备技术要求云侧设备云侧AI计算设备及其使用:a)类型包含:云侧训练(包含微调);云侧推理;增量训练;联邦学习。遵循以下使用原则:训练过程与数据源分离;AI共享计算资源;使用虚拟化技术管理计算资源;针对计算需求,弹性伸缩计算资源的使用。技术要求云侧AI计算设备,符合以下要求:a)符合GB/T42018—2022中6.1.1.1和6.1.1.2的要求;应支持模型训练所需的软件和模式,包含:机器学习框架;云侧分布式集群训练;过程可视化,包含训练过程、数据处理过程等。应提供与边缘设备或终端设备兼容的互操作协议及接口;d)e)宜支持异构AI加速处理器的资源池化和统一调度。边缘设备边侧AI计算设备参与协同计算,遵循以下使用原则:a)考虑将小规模的计算与服务部署在边侧或端侧;b)考虑存储、传输、计算和安全任务;c)在本地执行数据处理,避免数据网络传输中的风险;d)考虑业务场景要求的实时性。技术要求边侧AI计算设备,符合以下要求:注:边缘AI计算设备包含但不限于应用于边缘计算场景的AI服务器、AI加速卡、AI加速模组;应提供与终端设备或云侧设备的协同接口;应具备数据隔离措施,在受攻击时只影响本地设备,而非其他参与协同的设备;c)d)宜支持流数据的实时处理;e)宜能在边缘存储实时信息;f)宜能独立本地监控或配合云侧设备监控边缘节点的运行状态;g)宜支持推理任务或训练任务。终端设备端侧AI设备参与协同计算,一般部署在数据或处理需求发生(如数据源)的位置附近。技术要求端侧AI计算设备,符合以下要求:应支持基于轻量化机器学习框架的运行(训练或推理);b)其他终端设备、云侧设备或边缘设备协同训练;1支持差分隐私机制。d)宜支持数据预处理(如图像缩放、图像填充、图像旋转、声音去噪等);e)宜支持与边缘设备或云侧设备的交互,完成推理;宜支持多端协同,包含但不限于:管理多个终端设备;多个终端设备之间的数据协同与共享;多个终端设备之间计算任务的调度与分发。分布式计算协同技术要求架构AI计算设备分布式计算的架构见图2。图2AI计算设备分布式计算架构注:虚线框起的部分是GB/TXXXXX.1―202X中规定的内容,也是分布式管理架构中的必备组件之一。通用要求AI计算设备分布式计算协同整体符合以下要求:AI应支持云侧模型裁剪、压缩和优化;宜支持联邦学习;宜支持云内、云边或云端协同推理;应支持云侧分布式训练,宜支持边缘侧分布式训练;宜支持云边协同的增量训练。实现分布式计算过程,符合以下要求:(宜提供统一的编程模型,屏蔽不同机器学习框架或异构计算设备的差异;(如云侧内部端云,边云等)设置相应的存储方式;AIAI注:计算设备的管理和调度,见GB/TXXXXX.1—202X。分布式多终端协同,符合如下要求:AI应实现节点状态的实时维护与共享(含节点资源使用状态);应实现在调度实时性保障机制(如超时机制等);注:集群组网使用无线连接(如无线局域网或蓝牙)时,可能会出现传输速率有限且不稳定的情况。宜实现设备状态或能力适应性协同策略(如按可用计算能力调度);注:多终端设备结构不同则能力不同,计算资源的分布可能不均衡。(如正常的视频播放任务不应被打断,或导致播放卡顿等)。组件要求机器学习框架用于分布式机器学习任务的机器学习框架,符合以下要求:应能在云侧、边侧设备或端侧等设备上运行;配备模型部署工具,符合以下要求:应支持模型的云侧部署;(特定场景中非必要组件被剪裁应支持在内存受限的设备或环境中的运行。1云侧训练-端侧推理;云侧训练-边侧推理;云侧-端侧联邦学习;云侧-边侧联邦学习;云侧-边侧-端侧联合推理。AI云侧训练-端侧增量训练-端侧推理;云侧训练-边侧增量训练-边侧推理;云侧训练-边侧增量训练-端侧推理。虚拟化与调度组件AI加速处理器或AI加速卡的虚拟化与调度组件,符合以下技术要求:GB/TXXXXX.1―202XAIAIAIAIAI任务调度,符合以下要求:应支持云侧之间的训练任务调度,实施分布式训练;宜支持边侧之间的训练任务调度,支持边侧增量训练或分布式训练;(如联邦学习);宜支持云侧和端侧间的训推任务调度,完成云侧训练—端侧推理任务;(如增量训练安全组件安全原则AI分布式协同计算相关组件的应用,应按图1规定的生命周期和流程识别以下风险,包含但不限于:易受窃取等攻击的资产及相关攻击模式,包含:训练脚本或代码文件;训练数据集文件;(。模型文件,在云、边、端侧的完整性被破坏(如被修改);(的机密性被破坏;被恶意攻击,导致输出结果错误,或无法正常输出结果;推理输入数据被截获或修改;云侧或边侧的容器构建、部署、运行安全威胁;边侧接口的非授权接入和访问;(如无云侧安全要求为训练阶段实现安全防护机制,符合以下要求:云侧:应能对上载到云侧的加密模型、训练数据和训练脚本,实施解密;应能在运行训练脚本前,校验训练镜像文件。边侧:应支持云侧下发镜像校验和模型加解密;宜支持联邦学习梯度信息的加解密;宜支持端侧设备上传数据的签名和加密。端侧,宜支持联邦学习梯度数据的加密。为推理阶段实现安全防护机制,符合以下要求:云侧:应支持在云侧配置模型所在容器的最小访问权限;应支持模型的解密;应能对加载到云侧的镜像实施完整性校验。边侧:宜支持秘钥管理,能对云侧下发的镜像或模型实施校验;宜支持推理数据的加解密;宜支持入侵检测,实现用户权限管理,能记录和警告非授权访问;宜支持边用户身份校验,实现应用授权访问。端侧:宜支持秘钥管理,对云侧下发到端侧模型实施身份校验;宜支持推理数据本地加解密;宜能在模型上传至云侧或边侧进行推理前,加密模型;集合通信库集合通信库符合如下要求:AIAI(如云侧内部分布式训练所需的通信);1Mesh);星形拓扑结构(Star);环形拓扑结构(Ring);树拓扑结构(Tree);5)3DTorus拓扑结构;6)Dragonfly拓扑结构。宜实现同步机制或超时控制机制;1RoCERDMA应支持集合通信效率衡量指标,如延时、延时方差、延时均值等;GB/TAAAAA—202X云云协同要求云云协同的框架如图3所示,协同过程符合以下要求:图3云云协同框架应实现有中心调度或无中心调度(如基于云联邦的调度);对有中心调度,中心调度器:应能收集和监视全网计算资源的状态;应能跨云(或计算中心)调度作业,转发和传输作业运行数据;1(对有中心调度,调度适配器:应能收集调度器资源和作业执行状态信息,并上报至中心调度器;宜能向授权用户提供统一视图,使其能驱动特定计算资源执行计算任务。宜实现基于统一账户的认证和确权;宜实现统一计算消耗计量和计费。云边端协同要求管理协同图4云边端协同框架云边端协同框架见图4,管理协同符合如下要求:应支持边侧或端侧中单节点或节点组管理;(如使用不同类型的AI加速处理器应支持边缘计算任务监控,包含运行于容器中的应用;应支持操作系统异构(如基于Linux的操作系统,Android,Windows等)边缘设备的管理和任务协同;应为边缘或终端设备提供统一运行时组件,屏蔽边缘或终端设备操作系统差异;应支持边缘许可证的管理和使用,宜能根据许可信息控制边缘AI计算任务的数量、数据接入路数(如摄像头视频数据)、请求并发度阈值或使用时长;应支持模型加密;应支持秘钥的云侧加密保存;应支持基于秘钥的边缘模型运行控制(运行前需解密模型);应支持秘钥的云侧导出和边缘本地秘钥导入解密;应支持边缘设备上用于模型解密的证书的合法性校验;宜支持远程安全链接(如SSL)登录、监视、调试边缘设备;宜能管理不小于128个边缘节点;宜支持至少2类设备的接入,如:移动通信终端(如手机、计算机);摄像机;智能机器人;物联网传感器;激光雷达、毫米波雷达;信号机;气象要素传感器;道路单元。b)宜支持基于图形界面的边缘或终端设备管理。任务协同云边任务协同,符合以下要求:应支持云上模型训练、边缘或终端侧部署、推理的协同模式;应支持向边缘设备或终端设备直接部署含有模型的容器;应支持大模型在边缘或终端的部署及推理(在边缘或终端设备功能允许时);应支持边缘或终端设备(在云侧注册后)的离线运行;(AIAIAI(如按时段或固定频率);宜支持边缘或终端设备上应用的服务次数统计(如调用次数、调用成功率等);宜支持基于多个边缘设备形成资源池,实现以下功能:资源池创建、状态查询、配置修改(如修改描述、边缘节点等);池内设备间的负载均衡,自动分发请求、调度和利用边缘或终端设备;池内设备节点管理,包含节点创建、修改、删除、激活、去活、状态查询。宜支持边缘模型回流到云上的增量训练;宜支持边缘节点从云侧获取镜像完成本地更新;数据协同云边数据协同,符合以下要求:应实现梯度数据和增量样本数据的云侧压缩和传输(在云侧与边缘或终端之间),包含边缘推理数据(在授权状态下)回流云侧;应用于多媒体处理场景的边侧或端侧设备,符合以下要求:应支持云侧、其它边侧或终端设备之间的数据转发或互访;宜支持多媒体数据的转码、点播、直播、录像和检索;宜支持地图数据的共享分发。边侧设备支持数据存储时,符合以下要求:应能将推理结果的本地缓存;(如通过数据库实现应支持数据实时传递(如监视器或摄像机采集的视频数据回传云侧分析)。多端协同要求多端数据协同图5多端协同框架多端协同框架示意见图5。多端数据协同,符合以下要求:应能在多个终端设备间传输数据,实现设备间的数据读写;应支持多端、多模数据(2)融合;宜实现离线时数据在端侧设备的自动保存;宜支持端侧对云侧或边侧的自动数据同步(网络状态允许时)。多端设备协同多端协同系统,应支持跨设备的输入、输出(如摄像机捕捉的影像,直接在大屏显示,并不需在移动通信终端等主控端介入或协调)。多端计算协同多端协同系统,符合以下计算协同要求:应能拆分并分配任务到多个端侧设备上,分别计算完成后整合、返回结果;应支持以下推理计算任务:发起、拆分、分发和管理推理任务;端侧设备能依据自身计算、存储资源动态加载对应模型;端侧设备能按节点状态、网络状态、计算功耗等因素判断并选择协同模式;端侧实现容错机制,包含异常检测、任务重试和失败重发。云边端分布式计算协同接口边缘节点管理概述边缘AI计算节点管理过程的示意见图6,管理操作含节点查询、删除和注册等。注:管理组件一般部署在云侧或按需独立部署在特定服务器上。图6边缘节点和节点组的管理接口边缘节点管理的接口,应符合表1~表3的要求:1注册设备名称功能语义描述参数输入/输出备注批量注册数量,默认为1输入可选设备描述输入可选是否开启设备上的AI处理器输入a可选日志配置输入可选b备注册注册特定边缘或终端设备到计算协同系统设备名输入必选(用于提示设备分组。说明设备可能的类型、分组。1个输入可选设备可拥有多个标签。有效时间输入可选设备标识。设备注册成功后,返回系统给予的设备标识输出必选ab适用于包含AI加速处理器的边缘或终端设备。接口在特定系统中实现时,可根据系统需求增加参数(如指定AI加速处理器的型号)。2查询设备名称功能语义描述参数输入/输出备注查询设b备状态使用设备标识查询返回设备状态设备标识输入必选设备处理器架构输出可选设备内存空间输出可选设备名字输出必选设备描述输出可选a设备组标识符输出可选a设备组状态输出可选a设备在设备组中的工作类型。包含管理节点,工作节点等输出可选设备状态。包含未注册,运行中,故障,停用,升级中等输出必选中央处理器个数输出可选AI加速处理器信息,包含个数、型号等输出可选操作系统信息,包含名称、版本、类型等输出可选是否使用容器输出必选是否启用了AI加速器输出可选设备标签列表输出可选设备日志输出可选a在系统支持或应用设备编组时适用。b接口在特定系统中实现时,可根据系统需求增加参数(如指定AI加速处理器的型号)。表3删除、启动或停止设备名称功能语义描述参数输入/输出备注ab设备算任务的协同设备标识输入必选c操作类型输入可选操作状态输出必选a接口在特定系统中实现时,可根据系统需求增加参数(如指定AI加速处理器的型号)。b在某些系统中,删除、启动、停止设备可分为多个接口分别实现。c本参数仅对启动、停止操作有效。部署及更新概述接口模型或应用在边缘或终端节点上的部署和更新,应符合表4~表7定义的接口:表4创建部署名称功能语义描述参数输入/输出备注创建部b署创建应用部署设备标识列表输入a可选设备组标识输入a可选应用描述输入可选许可证,包含使用时长额度,计费量纲,并发路数许可,允许的实例数等输入可选部署名称输入必选部署标签输入可选应用标识输入可选应用名字输入必选应用参数配置输入可选应用来源地址。如镜像地址或存储服务器中的地址输入必选容器启动参数输入可选容器启动命令输入可选应用版本输入可选容器运行资源配置。包含处理器数量,AI加速器数量,内存数量等输入c可选卷参数。如挂载路径,卷类型,卷名称,读写权限,卷来源等输入可选每增加1路所需处理数据,增加的资源数量。用于满足可伸缩边缘计算的需要输入可选部署操作状态描述输出可选已经就需的实例节点数输出可选实例节点数输出可选创建时间输出可选部署名称输出必选部署标识输出必选部署的状态,包含运行、创建中、创建失败、启动中、启动失败、停止中、停止失败、删除中、删除失败、休眠等输出必选部署结果列表,包含每个节点上的部署结果(失败的部署,含有错误信息)输出必选a设备标识或设备组标识应至少选择1项。b接口在特定系统中实现时,可根据系统需求增加参数。c在某些系统中,可指定2个资源配置,分别定义容器运行可使用的最大资源和最小资源。表5更新部署名称功能语义描述参数输入/输出备注更新部a署更新应用部署部署名称输入必选部署标签输入可选应用标识输入可选应用名字输入必选应用参数配置输入可选应用来源地址。如镜像地址或存储服务器中的地址输入必选容器启动参数输入可选容器启动命令输入可选应用版本输入可选容器运行资源配置。包含处理器数量,AI加速器数量,内存数量等输入b可选卷参数。如挂载路径,卷类型,卷名称,读写权限,卷来源等输入可选每增加1路所需处理数据,增加的资源数量。用于满足可伸缩边缘计算的需要输入可选部署操作状态描述输出可选已经就需的实例节点数输出可选实例节点数输出可选创建时间输出可选部署名称输出必选部署标识输出必选部署的状态,包含运行、创建中、创建失败、启动中、启动失败、停止中、停止失败、删除中、删除失败、休眠等输出必选部署结果列表,包含每个节点上的部署结果(失败的部署,含有错误信息)输出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家具购销的简单合同范本
- 全新财务人员劳动合同
- 大楼物业管理委托合同
- 后八轮自卸车租赁合同范本
- 沪教版(上海)七年级地理第一学期祖国篇(上)4.3《长江》听课评课记录
- 股东合作协议合同模板
- 加盟合同协议书范本
- 搅拌站矿粉购销简易合同
- 《研究性学习》课程实施方案
- 合同书样本范文电子版
- 2024年江苏经贸职业技术学院单招职业适应性测试题库一套
- 药用植物种植制度和土壤耕作技术
- 《火力发电企业设备点检定修管理导则》
- 重庆市渝北区2024年八年级下册数学期末统考模拟试题含解析
- 保安服务项目信息反馈沟通机制
- 《团队介绍模板》课件
- 常用中医适宜技术目录
- 冲压模具价格估算方法
- 运动技能学习与控制课件第十一章运动技能的练习
- 虫洞书简全套8本
- 2023年《反电信网络诈骗法》专题普法宣传
评论
0/150
提交评论