版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Alluxio资深架构师.....0ScalingLaw:大语言模型(LLM)训练的性能受到训练过程中不断增长的token数量、模型检查点(checkpoint)大小的驱动。*来源:OpenAI:ScalingLawsforNeuralLanguageModels:htps:/LLM训练需要大量数据(数十亿至15万亿token)。随着模型扩容,需要更快、更高效的I/O来应对数据集的快速增长。来源:Wilwerunoutofdata?LimitsofLLMscalingbasedonhuman-generateddata:htps:/大模型的规模从7B到1T不等随着大模型参数的增多,为避免训练进度丢失,训练过程中进行频繁的checkpointing十分关键要高效管理和存储checkpoint,确保模型更新不会成为训练速度的瓶颈,I/O性能至关重要*图:LLM模型规模逐年增长情况*图:训练作业故障来源:来源:*HuggingFace:htps:/**Meta:htps:/高性能的数据访问高性能的数据访问数据管理全局数据访问分布式缓存数据管理全局数据访问分布式缓存性能和可扩展性企业安全与合规性能和可扩展性企业安全与合规云去中心化架构,支持100亿以上对象降低数据工程复杂性和成本模型迭代更高效2-8x数据访问速度提升集训可扩展性高、训练任务容错性高模型训练扩展到100亿对象以上,满足AI需求模型训练✔✔[降本]可在标准的低成本存储部署运行✔[增效]训练数据访问加速,GPU利用率保持90%以上✔[灵活]减少数据副本,统一数据访问,灵活对接GPU集群模型部署支持超高并发的模型服务(从训练集群到推理集群)模型部署✔✔[快速部署]生产环境下的部署时间降低至原先的1/2-1/3✔[规避瓶颈]减轻网络带宽竞争,降低底层存储负载✔[高效管理]根据使用模式实施数据预加载大数据ETL大数据查询模型训练基于一致性哈希选择WorkerABCABCAlluxioWorker1AlluxioWorker2···AlluxioWorkerns3://buckets3://bucket/file1s3://bucket/file2ABCBCObjectStoreAlluxio命名空间/本都数仓AWSus-east-1Alluxio可被视为是一个逻辑文件系统多个不同的存储服务可以挂载到同一逻辑下的Alluxio命名空间中一个Alluxio路径对应一个持久化存储地址alluxio://ip:port/Data/Sales<->hdfs://service/salesdata/Sales高并发随机读高并发随机读解决高达150倍的读放大问题非结构化文件的并行读性能提升高达9倍结构化文件的随机读性能提升2倍至15倍零拷贝数据传输提高内存效率提高大文件顺序流式读取性能30%-达到的效果核心优化逻辑达到的效果据。术去中心化元数据管理架构WAWA对象存储底层存储1···Data底层存储2PYTorchHDFSDataLANMetaDataMetaData···MetaData底层存储2底层存储1对象存储HDFSDataDataWANLANGPU服务器通过AlluxioFuse客户端可在10s内加载完100GB的Checkpoint,即单客户端的加载吞吐达到10GB/s。(bs=256kb,32threads)(bs=256kb,32threads)(bs=256kb,32threads)在训练任务写checkpoint的过程中,所有参与在训练任务写checkpoint的过程中,所有参与或者磁盘速度将checkpoints先写到本地,再异步上传到慢速持久层,从而大幅缩减GPU闲置时间 ●AlluxioV3.2:在单节点环境下,当Theads=1时可以达到2GiB/s,当Theads=32时可以达到8GiB/s,3.2版本性能明显优于3.1版本。●AlluxioV3.2在随机热读性能方面也实现了优化数据对比—单卡吞吐100.00%100%Weka96.61%92.24%Hammerspace93.66%99.99%93.71%95.41%GPU利用率平均GPU利用率平均SourceSource:/test-iframe/NAS读和写,导致NAS性能很差品降低数据运维的复杂度降低数据运维的复杂度提升GPU利用率提升GPU利用率拉到NAS,造成大量的数据冗余GPU资源利用率不高:30-50%GPU资源利用率不高:30-50%主要挑战主要挑战Fuse·1tttNFuseFuse··使用NAS带来了额外的成本,并品使用NAS,增加了架构复杂度,本地高性能SSD盘资源,通过缓外购买NAS的成本,又将GPU上空闲的SSD盘有效利用模型部署模型训练模型上线模型部署模型训练模型上线模型训练个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 司机劳务派遣合同范本
- 2025年度陶瓷水杯研发生产采购合同范本3篇
- 初中语文常见病句类型、技巧总结
- 2025年度高品质物业服务小区商铺租赁合同范本2篇
- 2025年度版权转让合同的履行程序与条件2篇
- 2025年度预算编制与执行合同3篇
- 二零二五年度高速公路智能交通监控系统施工合同2篇
- 2025年建筑项目技术服务合同6篇
- 二零二五年度抵债协议:金融债权债务处理及资产置换合同3篇
- 2025年度科技企业委托担保合同范本2篇
- 《生物质热电联产工程设计规范》
- 前端年终述职报告
- qt软件设计报告
- 羊肉销售人员工作汇报
- 律所标书模板
- 法院开展保密教育培训课件
- 2024年九省联考甘肃新高考政治卷答案详解讲评课件(精编)
- 危险化学品安全监管执法培训课件
- 小学英语小升初专题训练-时态专项练习:一般过去时-50题(含答案)
- 基于深度学习的医学图像增强与生成
- 2023《楼体亮化工程施工合同》电子版
评论
0/150
提交评论