2024电力超融合计算技术要求第1部分异构算力融合_第1页
2024电力超融合计算技术要求第1部分异构算力融合_第2页
2024电力超融合计算技术要求第1部分异构算力融合_第3页
2024电力超融合计算技术要求第1部分异构算力融合_第4页
2024电力超融合计算技术要求第1部分异构算力融合_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1II目 次前 言 II引 言 III电力融计第1分异算融合 11范围 12规性用件 13术和义 14缩语 25技架构 26功性求 3本求 3力用力求 3件架力求 4力度力求 4力拟能要求 4件源合力求 5构GPU同练力要求 5障错断续能力求 5练务态展力要求 5电通算适求 57非能要求 7全要求 7移要求 7定要求 78技验要求 7容验证 7配验证 7能证 8拟验证 10IIIIII123PAGEPAGE10电力超融合计算技术要求第1部分异构算力融合范围本标准适用于电力超融合计算相关集群和平台的设计、研发、集成和验证等。(适GB/T32400-2015信息技术云计算概览与词汇GB/T34982-2017云计算数据中心基本要求GB/T37737-2019信息技术云计算分布式块存储系统总体技术要求GB/T22239-2019信息安全技术网络安全等级保护基本要求GB/T20220413-T-469信息技术云计算超融合系统通用技术要求(制订中)GB/T20221795-T-469信息技术人工智能深度学习框架多硬件平台适配技术规范(制订中)GB/T20221790-T-469信息技术人工智能异构人工智能加速器统一接口(制订中)GB/T20221793-T-4691中GB/T20221793-T-4692制订中下列术语和定义适用于本文件。3.1超融合系统hyper-convergedinfrastructure一种新兴的集成系统,其本身将核心存储、计算和存储网络功能整合到单一的软件解决方案或设备中。[来源:IDC定义]3.2云计算cloudcomputingGB/T32400-2015]3.3资源池化resourcepoolingGB/T32400-2015]3.4资源池resourcepoolGB/T34982-2017]3.5存储池storagepoolGB/T37737-2019]缩略语下列缩略语适用于本文件。K8s:Google(Kubernetes)CPU:(CentralProcessingUnit)GPU(GraphicsProcessingUnit)FPGA:现场可编程门阵列(FieldProgrammableGateArray)SSD:固态硬盘(SolidStateDrives)HDD:机械硬盘(HardDiskDrive)RRAM:忆阻器(ResistiveRandomAccessMemory)DRAM:动态随机存取内存(DynamicRandomAccessMemory)TP:张量并行(TensorParallelism)PP:流水线并行(PipelineParallelism)DP:数据并行(DataParallelism)API:应用程序编程接口(ApplicationProgrammingInterface)FP32:32位单精度浮点数(32-bitFloatingPointNumber)TF32:32位浮点数(TensorFloat32)FP16:半精度浮点数(16-bitfloatingpointnumber)BF16:16位Brain浮点数(16-bitBrainFloatingPoint)INT8:8位定点整数(8-bitInteger)CPUGPUFPGA异构算力融合的技术架构图,如下图所示:图1电力超融合计算技术架构图K8sK8sUbuntu表1电力专用模型分类设备运维安全监管营销客服杆塔缺陷识别模型人员行为类违章识别模型人员仪表类识别模型绝缘子缺陷识别模型装置类违章识别模型人员行为类识别模型防触类违章识别模型文档信息提取类模型放倒断杆类违章识别模型表计类识别模型导地线缺陷识别模型作业信息类违章识别模型人机会话意图问答类模型PyTorch、PaddlePaddle;ResNet50、YOLOBERTK8sGPUGPUGPUGPUGPU1)2)GPUGPUGPUGPU;GPUCPUGPUGPU1%;1MB;10%。对于GPU12、45CPU与GPUCPU、GPU、FPGAGPUGPUGPU异构GPU两种不同类型的GPU服务器节点协同训练的总吞吐应大于任意一种GPUTP(Tensor)PP(、DP(GPUGPUcheckpointcheckpointcheckpointcheckpointcheckpoint从checkpoint,loss6.2ResNet50YOLOBERTFP32(或TF32),BF16(或FP16适配如PyTorch1)PyTorchPythonAPI;PythonAPIATenC++OPC++APIPythonAPIATenC++OpPythonAPI表2电力通用算子算子名称算子描述NICSLUSolve基于NICSLU的稀疏矩阵求解算子KLUSolve基于KLU的稀疏矩阵求解算子LLTSolve基于LLT的稀疏矩阵求解算子LDLTSolve基于LDLT的稀疏矩阵求解算子LUSolve基于LU的稀疏矩阵求解算子QRSolve基于QR的稀疏矩阵求解算子CGSolve基于共轭梯度法的稀疏矩阵求解算子LSCGSolve基于稀疏共轭梯度法的稀疏矩阵求解算子BICGSolve基于双共轭梯度法的稀疏矩阵求解算子JacobiSolve基于雅可比迭代法的稀疏矩阵求解算子GaussSeidelSolve基于高斯-赛德尔迭代法的稀疏矩阵求解算子NewtonSolve基于牛顿法的稀疏矩阵求解算子GaussSolve基于高斯消元法的稀疏矩阵求解算子MechNode识和源荷出力预测等应用场景LogicDiagNode故障应对能力LogicNode诊断分析算子,擅长从视频行为检测和ReID(Re-Identification)推演和源网荷储优化异构算力融合相关平台应符合GB/T22239—2019的安全通用要求。电力超融合计算平台上训练好的模型,可以在其他异构芯片上运行推理服务。异构算力融合应具备如下的稳定性要求:CPU、GPUGPUGPU72电力超融合计算平台资源纳管能力验证方法应具备如下要求:YAMLK8sCPUSDK;NLP表3电力验证模型任务数据集基础算法训练参数电力设备样本ResNet50精度:FP32/FP16/TF32/BF16/AMP其他超参数默认输电无人机智能巡检场景缺陷识别智能巡检缺陷样本YOLOv3精度:FP32/FP16/TF32/BF16/AMPImagesize:640*640其他超参数默认YOLOv4精度:FP32/FP16/TF32/BF16/AMPImagesize:608*608其他超参数默认YOLOv5s精度:FP32/FP16/TF32/BF16/AMPImagesize:640*640其他超参数默认作业行为识别样本YOLOv5s精度:FP32/FP16/TF32/BF16/AMPImagesize:640*640其他超参数默认准规范分词主设备标准规范知识样本BERT-base精度:FP32/FP16/TF32/BF16/AMP其他超参数默认电力语义大模型Transformer精度:FP32/FP16/TF32/BF16/AMP其他超参数按实际情况电力视觉大模型电力目标识别类图像样本VIT精度:FP32/FP16/TF32/BF16/AMP其他超参数按实际情况CPUSDK;NLPGPUGPU表4训练验证指标指标计算说明理论算力分别采用但不限于FP32/TF32、FP16/BF16、INT8等精度浮点吞吐指标(即每秒的浮点操作数量),单位TFLOPS访存能力存带宽指标,单位GB/s卡间互联带宽AllreduceAllgather、Broadcast等带宽指标,单位GB/s多机互联带宽宜支持GDR,宜采用点到点通信、聚合通信如Allreduce、Allgather、Broadcast带宽指标,单位GB/s训练平均耗时在特定数据集上训练模型达到目标准确率的平均耗时,不包括预训练模型加载时间。训练通量NLPQPS。训练卡平均利用率调用芯片状态查询命令,多次采样训练卡使用率,取所有采样的平均值。单机多卡加速比增加芯片数量时,实际FPSFPSFPSPPS为PFsFPS为QF,加速比为Q/P。芯片数量可采用1、2和4。训练性能所关注的指标,均应在训练日志或屏幕回显中输出足够的信息进行计算或推表5推理验证指标指标计算说明准确率ResNettop1YOLOF1低于准确率下限。单样本推理延迟单样本推理耗时,不包括模型加载和缩放、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论