如何选择AI存储:MLPerf+Storage+benchmark工具解读-焱融科技+张文涛_第1页
如何选择AI存储:MLPerf+Storage+benchmark工具解读-焱融科技+张文涛_第2页
如何选择AI存储:MLPerf+Storage+benchmark工具解读-焱融科技+张文涛_第3页
如何选择AI存储:MLPerf+Storage+benchmark工具解读-焱融科技+张文涛_第4页
如何选择AI存储:MLPerf+Storage+benchmark工具解读-焱融科技+张文涛_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MLPerfStorage评测工具解读焱融科技/CTO&联合创始人MLPerfStorageBenchmarkMLPerfStorage测试结果解读AI业务特点和对存储的挑战..MLPerfStorageBenchmarkMLCommons是什么组织?MLPerf是由图灵奖得主大卫·帕特森(DavidPatterson)联合谷歌、斯坦福大学、哈佛大学等顶尖为全球AI领域的“奥运会”。MLCommons的基础源于2018年的MLPerf基准2.通过公平和有实际意义的衡量标准加速AI进步MLPerfStorage的核心目标和关键成果MLPerfStorage工作组的主要目标是创建一个测试基准,用来评估特定的硬件。存储测试基准路标MLPerfStorage是第一个测量机器学习(ML)工作负载存储性能的基准测试套件MLPerfStorageBenchmark工作原理MLPerfStorage通过对多种AI工作负载在各种加速器上的I/O型进行混合匹配。MLPerfStorage可以在PyTorch和Tensorflow上评测MLPerf训练和HPC工作负载的存储系统性能,并且无需使用昂捕获了神经网络训练的完整真实行为。MLPerfStorageBenchmarkv1.0种类型的加速器。“thinktime”MLPerfStorageBenchmarkv1.0模型TaskDatasetReferenceNetworkSamplesizeFrameworkReferenceQualitysegmentation(medical)Synthetic-fromKiTS193D-Unet146MBPyTorchmaximizeMB/s,and#ofacceleratorswith>90%acceleratorutilizationclassificationSynthetic–fromImageNetResNet50150KBTensorflowmaximizeMB/s,and#ofacceleratorswith>90%acceleratorutilizationScientific(cosmology)Synthetic–fromCosmoflowN-bodysimulationParameterprediction2MBTensorflowmaximizeMB/s,and#ofacceleratorswith>70%acceleratorutilization1.能够模拟NVIDIAA100或者H1003.每个样本的计算时间相差两个数量级MLPerfStorageBenchmark概念加速器数量(ACC)一个ACC代表一个加速器数量(ACC)一个ACC代表一个GPU在满足AU的前期下,ACC数量越ACC数量成正比MLPerfStorage通过DLIO生成每个MLPerfStorage基准测试都需要至少5倍内存大小的数据集AU表示加速器处于活动状态时间AU=(total_compute_time/total_benchmark_runing_time)*100基准测试运行5个epoch,AU最终要取5个epoch的平均值,并且5个epoch的结果误差不超过5%MLPerfStorageBenchmarkv1.0结果分类closeddivision在同一类测试环境中进行测试,不同存储产品是可以进行横向比较opendivision鼓励创新,可以修改benchmark工具,以便于获取更好的性能和测试效果avaliable现实生产环境中可用的产品,已经发布的成熟产品preview实验性的产品,或者开发中的原型,未发布MLPerfStorageBenchmarkv2.0v2.0subgroupsv2.0roadmap12345MDTESTVDBENCHIO500带宽、IOPS和延迟的测试工具,模拟各类并发文件系统元数据性能测试工具,模拟各类元数据操作带宽和IOPS的测试工具,在高性能领域应用广泛模拟业务场景的测试工具IOR+MDTEST,模拟超算的复杂业务场景,最全面的文件系统测试集合!!!MLPerfStorage测试结果解读MLPerfStorage测试结果分析18000016000014000012000010000080000MB/sMB/s40000200000MBMB/sACC(Accelerator)3D-Unet700006000050000400003000020000100000 MBMB/sACC(Accelerator)CosmoFlow12000010000080000600004000020000096270540ACC(Accelerator)ResNet503D-Unet每GPU需要2.9GBps的读带宽千卡集群需要2.9TBps读带宽cosmoFlow每GPU需要600MBps的读带宽千卡集群需要600GBps读带宽ResNet50每GPU需要200MBps的读带宽千卡集群需要200GBps读带宽不同GPU类型对存储的性能要求3D-Unet模型训练性能数据600005000030000200001000001GPU10GPU20GPU 5606724960270047026127807026379361012802914V100A100H100坐标轴标题如果是B200,存储带宽又需要多少?并且GPU的演进还在继续...模型验证Pre-Process•CheckpointNVIDIA存储性能推荐/dgx-superpod/reference-architecture-scalable-infrastructure-h100/latest/storage-architecture.html容量文件数量6.7PB65亿28PB57亿7.6PB370亿1.1PB36亿500TB18亿1.1PB1.4亿AI未来对存储性能要求的AI未来对存储性能要求的定期的checkpoint产生瞬硬件升级弹性扩展软件升级硬件升级弹性扩展软件升级2倍以上带宽性能提升F8000X全闪存储2倍以上带宽性能提升F8000X全闪存储带宽成本下降60%带宽成本下降60%/400GbEEthernetRoCE支持E3.S/U.2PCIe5.0TLC和QLCNVMeSSD第4代AMD7543CPUNVIDIAHDR200InfiniBand支持U.2PC/200GbEEthernetRoCEQLCNVMeSSDNFSClientNFSNFSClientNFSClientNFSClientNFSClient !Disks传统NAS升级为并行文件系统TCP/IP升级为RDMANFS协议升级为POSIX私有协议posixclientposixclientposixclient-posixclientposixclientposixclient--------->posixclientPFSServerPFSPFSServerPFSServerPFSServerScaleout-Scaleout--------->PFSServer1000500100050024250121251000存储集群读带宽(存储集群读带宽(GBps)800600400200066331个SU2个SU4个SU8个SU计算集群规模605040存储集群规模存储集群规模30200•元数据处理能力也可以随MDS集群规模扩大而提升// file2↓ file file2↓ file2 file2口MDS1口MDS2 ↓ file file2口MDS4Mast

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论