面向AI时代的智能无损数据中心网络方案_第1页
面向AI时代的智能无损数据中心网络方案_第2页
面向AI时代的智能无损数据中心网络方案_第3页
面向AI时代的智能无损数据中心网络方案_第4页
面向AI时代的智能无损数据中心网络方案_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、AI Fabric,面向AI时代的智能无损数据中心网络AI时代已经开启网页邮件云视频社交AI无人驾驶人脸识别智能推荐生命科学聚焦应用,业务弹性伸缩快速部署2聚焦数据,从数据中挖掘智慧实现价值变现86%2025华为GIV:企业AI采用率AI时代主题高效挖掘数据价值语音/视频等非结构化数据占比非结构化数据依赖AI处理180z数字洪水挑战处理能力年度新增数据:8.6 ZB(2015) 180ZB(2025)95%网络?计算CPUGPUAI芯 片AI存储HDDSSDSCM2025年一年新增的数据,若存储成1080P的高清视频,全人类花一年时间都看不完。“数据本身不是目的,知识和智慧才是永恒的价值”计算

2、和存储变革提升数据处理效率3分布式架构是AI时代智能化转型的必然AS-IS 集中式架构TO-BE 分布式架构标准服务器+高速网络+企业总线数据库集群主机集群应 用 一应 用 二应 用 三应 用 四企业总线应用一应用三主主应用二主主应用四大型机/小型机+数据库+集中存储50+ 亿 移动用户 比全球人口增速快两倍实时快捷 体验ROADS标准500 亿 新设备2020年后所有设备都会智能化高吞吐3000笔 300,000笔高可用7*8服务 7*24在线互联网体验自助交易,实时到账云计算/分布式4分布式业务架构演进对网络诉求的变化AS-IS 传统以太网网络诉求低:业务量小:带宽要求不高,GE/10GE

3、接入即可静态时延为主:单进单出,流量模型单一采用TCP/IP,业务系统效率低,且耗费CPU资源TO-BE 新一代以太网网络诉求高:高带宽:需要更高的带宽25G/100G,提升时延的前提动态时延为主:多打一丢包引起的时延(1ms)是静态时延1000倍采用RDMA,效率提升68倍,对丢包率的要求提升到十万分之一集中式业务模型5分布式业务模型 GE/10G 新一代以太网传统以太网TCP/IPTCP/IPRDMARDMAClientServer GE/10G 25G25G关注动态时延N:M访问,流量模型复杂 Bcase/Reduce/Gather/Scater/AlltoAll关注静态时延1:1访问,

4、流量模型单一 Client-Server网络发展动向:“分布式RDMA”跨越式升级分布式存储TCPIPRDMAHDSSD SCM介质访问时延大幅缩短分布式计算TCPIPRDMACPUGPU AI Chip计算速度大幅增加存储场景计算场景410倍采用RDMA通信效率提升云存储容量全对称分布式网络6RDMARDMA25G25GAImsusRDMA支撑E2E时延降低,8xIOPS性能GPU大数据网络性能已成为AI时代业务的关键瓶颈空闲时间天天采集的数据天天训练的时间周一次训练7AI时代RDMA的广泛部署,驱动数据中心网络变革带宽一旦超过25G,RDMA优势明显TCP问题传统TCP慢启动,吞吐差3次拷

5、贝,延迟大流量对CPU的消耗1Hz/bitRDMA优势快启动,最大限度带宽使用 1次拷贝,有效降低内核时延 网卡卸载,CPU 0消耗30us1us30us1usRDMA三大优势,适用AI场景传统以太网丢包对RoCE吞吐率影响大传统以太网易丢包,导致RDMA吞吐率急剧下滑2%丢包0% RDMA吞吐率8AI集 成算 法+AIAI内 嵌芯 片自动驾驶人脸识别智能推荐生命科学Built for AI Era,Powered by AI TechAI Fabric,智能无损数据中心网络iLossless算法专用芯片AI计算平台分布式存储HPC平台AI总成本TCO53%全融合,DC内三网合一网卡:智能Ro

6、CE网卡归一网络:计算,存储和数据网三网合一大带宽,400GE组网演进带宽:从25GE到400GE均支持 规模:从小规模到大规模全覆盖最大满足1000025/100G服务器组网零丢包,加速RDMA通信计算:AI训练效率比思科高27.5%存储:分布式存储IOPS性能比思科高30.5%AI业务运行效率30+%400GPODn计算集群存储集群100G,RDMAPOD1100G,RDMA100G,RDMA存储计算混合集群9i Lossless智能无损算法AI 芯片10us E2E时延0 丢包100% 吞吐率计算集群存储集群CloudEngine 8861CloudEngine 6865CloudEng

7、ine 8850CloudEngine 1680010CloudEngine 16800AI Fabric,实现0丢包的以太网,100%发挥AI算力面向AI时代的数据中心核心交换机,卓越性能5X36x100GE/槽位576x100GE/框其他厂商48x400GE/槽位768x400GE/框CloudEngine 16800内嵌AI芯片48*400GE线卡11AI Fabric通过Tolly测试验证,性能全面领先业界思科方案AI Fabric数据计算效率(每秒AI训练样本数Iteration/s)Source:国际权威评测机构Tolly Group数据存储效率(每秒存储次数IOPS)375478

8、9631257+27.5%+30.5%计算效率提升可减少昂贵的GPU服务器投资思科方案AI FabricIOPS性能提升,带来云盘收益增加12AI Fabric:0丢包,低时延,高吞吐得到权威认证AI Fabric0丢包,低时延,高吞吐Interop金奖“华为的AI Fabric在HPC场 景,所有的测试模型下均实现了 0丢包,同时计算时间比传统以 太网最高可以缩短44.3%,同时 EANTC发现,在流量模型越复 杂的情况下,优化效率越高,平 均可优化40%。”Carsten RossenhoeveEANTC 联合创始人13AI Fabric智能无损算法演进路线本地调优网络网卡联动AI训练在网

9、计算存储访问加速大数据应用加速本地设备级最优策略0丢包,低时延,高吞吐基于模型训练,全局最优策略AI芯片 未来应用体验最佳 现在全局网络性能最高 过去本地网络性能最高全局网络级最优策略真正意义的0丢包,100%吞吐下的0丢包201820192020被动调整全局调优 主动预测应用加速 业务规划实时调整1410 us 端到端时延0 丢 包100% 吞吐率PFC帧数量队列出口利用率感知网络感知业务AI训练高性能数据库流和队列动态水线iLossLessTM 算法独创的智能无损iLossless算法逐流业务感知百万流和上万队列流与队列智能最优匹配15AI Fabric为DC构建统一融合网络,降低总体拥有

10、成本AS-ISLAN/SAN/IPC独立三张网网络成本高:FC专网和IB专网价格昂贵运维代价高:FC的SAN和IB的IPC需要专人运维,且无法云网协同iNICTO-BEAI Fabric融合网络降低网络成本:开放以太网同时承载SAN和IPC流量 降低运维成本:无需专人运维,支持SDN云网自动化AI FabricEthernet低成本 无丢包 低时延iNIC100G Eth LANEth Infiniband( 56G )8G FC10G EthHCANICHBAIPCInfiniband低时延SANFC无丢包低成本HCANICHBA160123TCO:¥M+20%分布式存储场景0丢包,低时延,

11、 IOPS性能提升20%节省20%的存储节点招行:AI Fabric加速分布式存储和AI训练,重构数据面重构数据面,实现AI时代高效商业决策加快AI运行效率,提升获客率和降低商业风险加速分布式存储性能,获得本地盘一样的体验基于GoogleNet的AI训练场景AI Fabric 40G vs. InfiniBand 56G相同的业务效率: 每秒4 5次迭代010203040IOPS(k)InfinibandAI FabricAI Fabric与IB有一样的业务效果,但是可以节省53%TCO传统以太AI Fabric通过AI Fabric,少于20%的存储节点达到同样的性能,45xROI注:以1000个GPU服务器测算-53%存储集群

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论