人工智能 计算设备调度与协同 第2部分:分布式计算框架 征求意见稿_第1页
人工智能 计算设备调度与协同 第2部分:分布式计算框架 征求意见稿_第2页
人工智能 计算设备调度与协同 第2部分:分布式计算框架 征求意见稿_第3页
人工智能 计算设备调度与协同 第2部分:分布式计算框架 征求意见稿_第4页
人工智能 计算设备调度与协同 第2部分:分布式计算框架 征求意见稿_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1GB/TXXXXX.1—XXXX人工智能计算设备调度与协同第2部分:分布式计算框架本文件确立了人工智能计算设备分布式计算的架构,规定了功能和性能技术要求,定义了分布式计算协同接口。本文件适用于用于分布式人工智能计算的系统设计、开发和测试。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/TXXXXX.1—202X人工智能计算设备调度与协同第1部分:虚拟化与调度系统技术规范GB/TAAAAA—202X人工智能异构人工智能加速器统一接口3术语和定义GB/T41867—2022,GB/T42018—2022,GB/TXXXXX.1—202X和GB/TAAAAA—202X中界定的以及下列术语和定义适用于本文件。3.1分布式机器学习distributedmachinelearning一种机器学习的方法或过程,利用互联网络作为首选通信载体,在不同子系统上完成同一个机器学习任务。[来源:ISO/IEC2382:2015,2178059,有修改]3.2联邦机器学习federatedmachinelearning一种机器学习方法或过程,能让多个参加者协作构建及使用机器学习模型而不暴露参加者所拥有的原始数据或私有数据。[来源:IEEE3652.1,3.1]3.3增量学习incrementallearning一种分为多个阶段的自适应学习方法,其中在前驱阶段学得的知识被转化为适当形式,以便为后继阶段的新知识提供基础。2GB/TXXXXX.1—XXXX[来源:ISO/IEC2382:2015,2123002,有修改]3.4边缘计算edgecomputing一种分布式计算方法或过程,其中处理及存储过程发生在分布式系统的边缘。[来源:ISO/IECTR23188:2020,3.1.3]3.5集合通信collectivecommunication一种通信模式,其所传递数据在一组处理器单元(称为节点)上处理,其进程或计算节点之间协同工作以进行数据交换和同步。4缩略语下列缩略语适用于本文件。AI:人工智能(ArtificialIntelligence)CPU:中央处理单元(CentralProcessingUnit)FPGA:现场可编程逻辑门阵列(FieldProgrammableGateArray)GPU:图形处理单元(GraphicsProcessingUnit)NPU:神经网络处理单元(Neural―networkProcessingUnit)RDMA:远程直接内存访问(RemoteDirectMemoryAccess)RoCE:基于融合以太网的远程直接内存访问(RDMAoverConvergedEthernet)SSL:安全套接字层(SecureSocketsLayer)5概述5.1总体框架AI分布式计算协同的总体框架见图1,包含:a)提供AI任务生命周期内的协同计算支持(如统一资源池化、分配、调度等);b)支持设备(如云/边/端设备)的分布式运行环境;c)实现不同物理部署形态的设备间的通信、控制及任务管理;d)提升任务执行保障能力,降低分布式应用的作业延时,提升作业吞吐率;e)实现AI任务的分布式协同(如分布式训练、模型多端部署推理、增量训练、联邦学3GB/TXXXXX.1—XXXX图1AI分布式计算协同的总体框架5.2适用性在使用本文件时,应基于计算协同系统的组成和目标应用场景,匹配协同模式(云云协同(见7.4)、云边端协同(见7.5)、多端协同(见7.6)),并满足相应的技术要求。不要求单个特定系统符合所有的协同模式和技术要求。6计算设备技术要求6.1云侧设备6.1.1概述云侧AI计算设备及其使用:a)类型包含:1)云侧训练(包含微调);2)云侧推理;3)增量训练;4)联邦学习。b)遵循以下使用原则:1)训练过程与数据源分离;2)监控AI任务全生命周期过程;3)共享计算资源;4)使用虚拟化技术管理计算资源;5)针对计算需求,弹性伸缩计算资源的使用。6.1.2技术要求云侧AI计算设备,符合以下要求:a)符合GB/T42018—2022中6.1.1.1和6.1.1.2的要求;4GB/TXXXXX.1—XXXXb)应支持模型训练所需的软件和模式,包含:1)机器学习框架;2)云侧分布式集群训练;3)过程可视化,包含训练过程、数据处理过程等。c)应提供与边缘设备或终端设备兼容的互操作协议及接口;d)应支持训练或推理任务镜像管理;e)宜支持异构AI加速处理器的资源池化和统一调度。6.2边缘设备6.2.1概述边侧AI计算设备参与协同计算,遵循以下使用原则:a)考虑将小规模的计算与服务部署在边侧或端侧;b)考虑存储、传输、计算和安全任务;c)在本地执行数据处理,避免数据网络传输中的风险;d)考虑业务场景要求的实时性。6.2.2技术要求边侧AI计算设备,符合以下要求:注:边缘AI计算设备包含但不限于应用于边缘计算场景的AI服务器、AIa)应提供与终端设备或云侧设备的协同接口;b)应具备数据隔离措施,在受攻击时只影响本地设备,而非其他参与协同的设备;c)宜支持视频分析、文字识别、图像识别、声音处理等应用;d)宜支持流数据的实时处理;e)宜能在边缘存储实时信息;f)宜能独立本地监控或配合云侧设备监控边缘节点的运行状态;g)宜支持推理任务或训练任务。6.3终端设备6.3.1概述端侧AI设备参与协同计算,一般部署在数据或处理需求发生(如数据源)的位置附近。6.3.2技术要求端侧AI计算设备,符合以下要求:a)应支持基于轻量化机器学习框架的运行(训练或推理);b)应支持脱离机器学习框架的模型部署,在设备上直接运行;c)宜支持分布式训练,包含:1)其他终端设备、云侧设备或边缘设备协同训练;2)兼容至少1种分布式训练框架;3)支持差分隐私机制。d)宜支持数据预处理(如图像缩放、图像填充、图像旋转、声音去噪等e)宜支持与边缘设备或云侧设备的交互,完成推理;f)宜支持多端协同,包含但不限于:5GB/TXXXXX.1—XXXX1)管理多个终端设备;2)多个终端设备之间的数据协同与共享;3)多个终端设备之间计算任务的调度与分发。7分布式计算协同技术要求7.1架构AI计算设备分布式计算的架构见图2。图2AI计算设备分布式计算架构注:虚线框起的部分是GB/TXXXXX.1―202X中规定的内容,也是分布式管理7.2通用要求AI计算设备分布式计算协同整体符合以下要求:a)应能管理机器学习算法的运行环境配置,包括支持云侧设备、边缘设备和终端设备;b)支持应用在云侧、边侧或端侧的AI计算设备上的运行,满足以下要求:1)应支持云侧模型裁剪、压缩和优化;2)宜支持联邦学习;3)宜支持云内、云边或云端协同推理;4)应支持云侧分布式训练,宜支持边缘侧分布式训练;5)宜支持云边协同的增量训练。c)实现分布式计算过程,符合以下要求:1)应具备容错性,在训练过程中有节点或网络连接出现故障(如节点、交换或路由设备不工作或性能下降)时,保证原有任务的继续进行,直到完成;2)宜提供统一的编程模型,屏蔽不同机器学习框架或异构计算设备的差异;3)宜能利用集群中分布式存储设备,根据不同的分布式计算场景(如云侧内部端云,边云等)设置相应的存储方式;4)应支持计算设备管理,能虚拟化并分配AI加速卡或AI加速处理器资源。注:计算设备的管理和调度,见GB/TXXXXd)分布式多终端协同,符合如下要求:1)宜实现去中心化的多终端设备AI任务协同;2)应实现节点状态的实时维护与共享(含节点资源使用状态);6GB/TXXXXX.1—XXXX3)应实现在调度实时性保障机制(如超时机制等);注:集群组网使用无线连接(如无线局域网或蓝牙)时,可能会出现传输速4)宜实现设备状态或能力适应性协同策略(如按可用计算能力调度注:多终端设备结构不同则能力不同,计算5)计算调度过程不应影响其他设备或应用的运行(如正常的视频播放任务不应被打断,或导致播放卡顿等)。7.3组件要求7.3.1机器学习框架用于分布式机器学习任务的机器学习框架,符合以下要求:a)应能在云侧、边侧设备或端侧等设备上运行;b)配备模型部署工具,符合以下要求:1)应支持模型的云侧部署;2)应支持轻量化框架(特定场景中非必要组件被剪裁在云侧训练的模型,能部署在端侧或边侧;3)应支持在内存受限的设备或环境中的运行。4)宜支持模型量化,并在用户需求允许的误差范围内,使模型从云侧迁移至端侧或边侧;c)应支持以下至少1种计算协同模式:1)云侧训练-端侧推理;2)云侧训练-边侧推理;3)云侧-端侧联邦学习;4)云侧-边侧联邦学习;5)云侧-边侧-端侧联合推理。d)宜支持云端边AI计算协同模式,包含但不仅限于:1)云侧训练-端侧增量训练-端侧推理;2)云侧训练-边侧增量训练-边侧推理;3)云侧训练-边侧增量训练-端侧推理。e)宜在跨云侧、边侧、端侧应用统一的计算图中间表示,支持一次训练后的模型在端、边、云上的无(格式)转换部署。7.3.2虚拟化与调度组件AI加速处理器或AI加速卡的虚拟化与调度组件,符合以下技术要求:a)应符合GB/TXXXXX.1―202X中规定的虚拟化要求;b)资源调度系统应能调用AI加速卡或AI加速处理器及其虚拟化实例,包含:1)AI训练加速卡;2)AI推理加速卡;3)能用于训练及推理任务的AI加速卡。c)任务调度,符合以下要求:1)应支持云侧之间的训练任务调度,实施分布式训练;2)宜支持边侧之间的训练任务调度,支持边侧增量训练或分布式训练;7GB/TXXXXX.1—XXXX3)应支持云侧或边侧之间的推理任务调度,支持大模型推理,克服单处理器或单卡运行时内存限制;4)宜支持云侧和边侧之间的训练任务调度,能完成云侧训练—边侧增量训练的任5)宜支持云侧和端侧之间的训练任务调度,完成云侧—端侧协同训练任务(如联邦学习);6)宜支持云侧和端侧间的训推任务调度,完成云侧训练—端侧推理任务;7)宜支持边侧和端侧间的训推任务调度,完成边侧训练(如增量训练)—端侧推理的任务。7.3.3安全组件7.3.3.1安全原则AI分布式协同计算相关组件的应用,应按图1规定的生命周期和流程识别以下风险,包含但不限于:a)易受窃取等攻击的资产及相关攻击模式,包含:1)训练脚本或代码文件;2)训练数据集文件;3)模型文件(包含预训练模型文件、训练结果文件和在计算节点中的模型文件)。b)模型文件,在云、边、端侧的完整性被破坏(如被修改);c)模型及相关文件(含训练脚本、训练数据集、模型的参数文件等)的机密性被破坏;d)被恶意攻击,导致输出结果错误,或无法正常输出结果;e)推理输入数据被截获或修改;f)云侧或边侧的容器构建、部署、运行安全威胁;g)边侧接口的非授权接入和访问;h)在无中心(如无云侧)架构系统中忽略使用热备、冗余机制,造成数据丢失或业务7.3.3.2安全要求7.3.3.2.1为训练阶段实现安全防护机制,符合以下要求:a)云侧:1)应能对上载到云侧的加密模型、训练数据和训练脚本,实施解密;2)应能在运行训练脚本前,校验训练镜像文件。b)边侧:1)应支持云侧下发镜像校验和模型加解密;2)宜支持联邦学习梯度信息的加解密;3)宜支持端侧设备上传数据的签名和加密。c)端侧,宜支持联邦学习梯度数据的加密。7.3.3.2.2为推理阶段实现安全防护机制,符合以下要求:a)云侧:1)应支持在云侧配置模型所在容器的最小访问权限;2)应支持模型的解密;8GB/TXXXXX.1—XXXX3)应能对加载到云侧的镜像实施完整性校验。b)边侧:1)宜支持秘钥管理,能对云侧下发的镜像或模型实施校验;2)宜支持推理数据的加解密;3)宜支持入侵检测,实现用户权限管理,能记录和警告非授权访问;4)宜支持边用户身份校验,实现应用授权访问。c)端侧:1)宜支持秘钥管理,对云侧下发到端侧模型实施身份校验;2)宜支持推理数据本地加解密;3)宜能在模型上传至云侧或边侧进行推理前,加密模型;4)宜能在终端设备使用虚拟机或容器时,在多终端设备间实现基于虚拟机或容器的安全隔离机制。7.3.4集合通信库集合通信库符合如下要求:a)应实现AI加速卡间或AI加速器间通信(如云侧内部分布式训练所需的通信);b)应能在下列至少1项集合通信拓扑结构上工作:1)全网状结构(FullMesh);2)星形拓扑结构(Star);3)环形拓扑结构(Ring);4)树拓扑结构(Tree);5)3DTorus拓扑结构;6)Dragonfly拓扑结构。c)宜实现同步机制或超时控制机制;d)应支持或兼容至少1种集合通信协议,如RoCE或RDMA等;e)应支持集合通信效率衡量指标,如延时、延时方差、延时均值等;f)应实现统一的集合通信接口,宜符合GB/TAAAAA—202X的要求。7.4云云协同要求云云协同的框架如图3所示,协同过程符合以下要求:9GB/TXXXXX.1—XXXX图3云云协同框架a)应实现有中心调度或无中心调度(如基于云联邦的调度);b)对有中心调度,中心调度器:1)应能收集和监视全网计算资源的状态;2)应能跨云(或计算中心)调度作业,转发和传输作业运行数据;3)宜实现至少1种调度策略(如负载感知调度、价格感知调度、网络感知调度或数据感知调度等)。c)对有中心调度,调度适配器:1)应能收集调度器资源和作业执行状态信息,并上报至中心调度器;2)宜能向授权用户提供统一视图,使其能驱动特定计算资源执行计算任务。d)宜实现基于统一账户的认证和确权;e)宜实现统一计算消耗计量和计费。7.5云边端协同要求7.5.1管理协同GB/TXXXXX.1—XXXX图4云边端协同框架云边端协同框架见图4,管理协同符合如下要求:a)应支持边侧或端侧中单节点或节点组管理;b)应支持边缘或终端异构设备(如使用不同类型的AI加速处理器)的管理,提供统一的管理接口;c)应支持边缘计算任务监控,包含运行于容器中的应用;d)应支持操作系统异构(如基于Linux的操作系统,Android,Windows等)边缘设备的管理和任务协同;e)应为边缘或终端设备提供统一运行时组件,屏蔽边缘或终端设备操作系统差异;f)应支持边缘许可证的管理和使用,宜能根据许可信息控制边缘AI计算任务的数量、数据接入路数(如摄像头视频数据)、请求并发度阈值或使用时长;g)应支持模型加密;h)应支持秘钥的云侧加密保存;i)应支持基于秘钥的边缘模型运行控制(运行前需解密模型);j)应支持秘钥的云侧导出和边缘本地秘钥导入解密;k)应支持边缘设备上用于模型解密的证书的合法性校验;l)宜支持远程安全链接(如SSL)登录、监视、调试边缘设备;m)应支持云侧对边缘设备的监控,或边缘设备本地的监控,监控的对象包含设备内存、磁盘、AI加速处理器使用率,宜支持运行异常警告;n)宜能管理不小于128个边缘节点;o)宜支持至少2类设备的接入,如:1)移动通信终端(如手机、计算机);2)摄像机;3)智能机器人;4)物联网传感器;5)激光雷达、毫米波雷达;6)信号机;7)气象要素传感器;8)道路单元。GB/TXXXXX.1—XXXXb)宜支持基于图形界面的边缘或终端设备管理。7.5.2任务协同云边任务协同,符合以下要求:a)应支持云上模型训练、边缘或终端侧部署、推理的协同模式;b)应支持向边缘设备或终端设备直接部署含有模型的容器;c)应支持大模型在边缘或终端的部署及推理(在边缘或终端设备功能允许时);d)应支持边缘或终端设备(在云侧注册后)的离线运行;e)应支持对边缘或终端设备的功能或服务实施查询和配置(如服务名称、状态、请求模式、部署方式、创建时间、描述等);f)应支持边缘AI计算任务的启动和停止;g)宜支持边缘AI计算任务的创建、查询、修改和删除;h)宜支持设定边缘AI计算任务的运行计划配置(如按时段或固定频率);i)宜支持边缘或终端设备上应用的服务次数统计(如调用次数、调用成功率等);j)宜支持基于多个边缘设备形成资源池,实现以下功能:1)资源池创建、状态查询、配置修改(如修改描述、边缘节点等);2)池内设备间的负载均衡,自动分发请求、调度和利用边缘或终端设备;3)池内设备节点管理,包含节点创建、修改、删除、激活、去活、状态查询。k)宜支持边缘模型回流到云上的增量训练;l)宜支持边缘节点从云侧获取镜像完成本地更新;m)在边缘或终端计算任务运行期间,边缘或终端设备宜能接收云侧下发的模型,完成模型更新。7.5.3数据协同云边数据协同,符合以下要求:a)应实现梯度数据和增量样本数据的云侧压缩和传输(在云侧与边缘或终端之间包含边缘推理数据(在授权状态下)回流云侧;b)应用于多媒体处理场景的边侧或端侧设备,符合以下要求:1)应支持云侧、其它边侧或终端设备之间的数据转发或互访;2)宜支持多媒体数据的转码、点播、直播、录像和检索;3)宜支持地图数据的共享分发。c)边侧设备支持数据存储时,符合以下要求:1)应能将推理结果的本地缓存;2)应能存储媒体数据、关系型数据(如通过数据库实现)、键值数据或时序数据。d)应支持数据实时传递(如监视器或摄像机采集的视频数据回传云侧分析)。7.6多端协同要求7.6.1多端数据协同GB/TXXXXX.1—XXXX图5多端协同框架多端协同框架示意见图5。多端数据协同,符合以下要求:a)应能在多个终端设备间传输数据,实现设备间的数据读写;b)应支持多端、多模数据(至少2种模态)融合;c)宜实现离线时数据在端侧设备的自动保存;d)宜支持端侧对云侧或边侧的自动数据同步(网络状态允许时)。7.6.2多端设备协同多端协同系统,应支持跨设备的输入、输出(如摄像机捕捉的影像,直接在大屏显示,并不需在移动通信终端等主控端介入或协调)。7.6.3多端计算协同多端协同系统,符合以下计算协同要求:a)应能拆分并分配任务到多个端侧设备上,分别计算完成后整合、返回结果;b)应支持以下推理计算任务:1)发起、拆分、分发和管理推理任务;2)端侧设备能依据自身计算、存储资源动态加载对应模型;3)端侧设备能按节点状态、网络状态、计算功耗等因素判断并选择协同模式;4)端侧实现容错机制,包含异常检测、任务重试和失败重发。8云边端分布式计算协同接口8.1边缘节点管理8.1.1概述边缘AI计算节点管理过程的示意见图6,管理操作含节点查询、删除和注册等。GB/TXXXXX.1—XXXX图6边缘节点和节点组的管理8.1.2接口边缘节点管理的接口,应符合表1~表3的要求:表1注册设备边缘或终端设注册特定边缘或终端接口在特定系统中实现时,可根据系统需求增加参数(如指定AI加速表2查询设备查询设使用设备标识查询返GB/TXXXXX.1—XXXX设备在设备组中的工作类型a。包接口在特定系统中实现时,可根据系统需求增加参数(如指定AI加速表3删除、启动或停止设备动或停止边缘或终端在某些系统中,删除、启动、停止设备可分为多8.2部署及更新8.2.1概述模型或应用从云

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论