人工智能 模型即服务(MaaS)性能规范(征求意见稿)_第1页
人工智能 模型即服务(MaaS)性能规范(征求意见稿)_第2页
人工智能 模型即服务(MaaS)性能规范(征求意见稿)_第3页
人工智能 模型即服务(MaaS)性能规范(征求意见稿)_第4页
人工智能 模型即服务(MaaS)性能规范(征求意见稿)_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

准T/CESAXXXX—2024人工智能模型即服务(MaaS)性能规范Artificialintelligence―ModelasaService(MaaS)performancespecification征求意见稿2024-XX-XX发布2024-XX-XX实施中国电子工业标准化技术协会发布 V 1 1 1 1 1 2 2 4 5 5 V传输带宽以及时延等多个可扩展性的关键性能维度,拟由——第2部分:MaaS基础设施。目的在于规范指导MaaS基础设施涉及的各类性能评价指标及测试方——第3部分:模型开发平台。目的在于规范指导模型开发平台涉及的各类各类性能评价指标及测1GEMM:通用矩阵乘法(GeneralIOPS:每秒的输入输出量(Input/OutputPerRDMA:远程直接内存访问(RemoteDirectMemoryAD2H:设备到主机(DevicetoGDR:GPU直接远程直接内存访问(GPUDirGPU:图形处理单元(GraphicsProcessiTFLOPS:每秒万亿次浮点运算(TeraFloatingPointXLA:加速线性代数(Accelerate25.1概述模型即服务(MaaS)是将模型全生命周期能力及所需要资源作为服务提供给用户的一种智能服务模式,能够简化模型开发和部署流程、降低模型使用门槛、促进模型共享和复用。MaaS主要由基础设MaaS性能影响任务响应速度、业务生产效率、用户使用体验、模型使用成本等,是评估MaaS的2)模型开发平台性能指标,包括训练性能和推理性能等3)模型服务性能,包括模型服务、生成式语言模型服务4)AI应用开发平台性能指标,包括AI应用服务、生3基础设施性能指标见表1,模型开发平台性能指标见表2,模型服务性能指标见表3,AI应用开发平123进入数据存取操作就绪状态前显存响应的时4人工智能加速处理器按指定文件格式编码视频的5人工智能加速处理器按指定文件格式解码视频的12341RDMA网络每秒传输的数据量,单位Gbi2346allgather、reduce_scattreduce_perfscatter_perf、receive等通信方式。12在相同资源环境下,不同超参数配置下的训练3在训练处理数据总量一定时,人工智能加速处414231234生成式语言模型服务从接收到单个请求到生成并返512用户创建的AI应用服务在单位时间内能够345生成式AI应用服务单位时间生成的token数量,单MaaS性能测试典型网络拓扑结构见5矩阵乘算子性能测试工具,如gemmperf。b)指定测试矩阵尺寸,形成测试矩阵尺寸列表c)将数据类型列表和矩阵尺寸列表作为输入,在人工智能加速处理6显存性能测试工具,如memoryperf。a)指定待测文件包尺寸,形成文件包尺寸列表,选择文件包尺寸时,应考虑常见的显存性能测试工具,如memoryperf。a)指定待测文件包尺寸,形成文件包尺寸7b)记录视频解码帧率。8a)创建千万级数量小文件,多线程并发运行海量9b)在集合通信带宽测试工具中执行allredud)在集合通信带宽测试工具中执行broadcf)在集合通信带宽测试工具中执行reduce_scath)在集合通信带宽测试工具中执行senda)确定训练测试任务场景,如训练图像识别模型、广告点击率预测模型、文本合成利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使f)。业务平台训练benchmark数据,可与Nvia)确定训练测试任务场景,如训练图像识别模型、广告点击率预测模型、文本合成d)设置参数,如BatchSize、数据精度、GPU是否开启XLA等。利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使k)结合测试任务,重新设置BatchSq)记录不同参数配置下的模型开发平台训练吞加速比.模型开发平台Weakscaling测a)确定训练测试任务场景,如训练图像识别模型、广告点击率预测模型、文本合成模型开发平台Strongscaling测a)确定训练测试任务场景,如训练图像识别模型、广告点击率预测模型、文本合成d)设置BatchSize、数据精度、GPU是否开启XLA等参数。利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使d)设置BatchSize、数据精度、GPU是否开启XLA等参数。利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使r)计算在训练处理数据量一定时,计算资源增加前后的训练吞吐率之比,得出扩展a)选择测试的推理预测模型,如图像识别模型、广告点击率预测模型、文本合成语b)设置数据精度、GPU是否开启XLA等参数。利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使s)计算在单位人工智能加速处理器的训练处理数据量一定时,训练处理数据量和计算资源数量同时增加前后的训练吞吐率之比,得a)选择测试的推理预测模型,如图像识别模型、广告点击率预测模型、文本合成语b)设置数据精度、GPU是否开启XLA等参数。利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使a)选择测试的推理预测模型,如图像识别模型、广告点击率预测模型、文本合成语b)设置数据精度、GPU是否开启XLA等参数。利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使g)记录模型推理预测平均时延、90%分位时延、95%分位时延、99利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使利用率、内存利用率、人工智能加速处理器利用率、人工智能加速处理器显存使利用率、内存利用率、人工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论