AI网络光交换机技术报告 2024_第1页
AI网络光交换机技术报告 2024_第2页
AI网络光交换机技术报告 2024_第3页
AI网络光交换机技术报告 2024_第4页
AI网络光交换机技术报告 2024_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

[编号ODCC-2024-05006]开放数据中心标准推进委员会2024.09发布版权声明转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明编写组 1 1 1 2 2 2 2 3 4 5 7 7 8 12 13 13 15 15 15 21 22 23 23 28 34 34 35 36 36 36 37 37 38 38 38一、研究目的及范围(一)研究目的与意义本白皮书旨在深入研究和探讨光交换技术在数据中心网络中的(二)研究范围与方法1和工程师提供有价值的参考,并为整个行业的二、光电混合网络的发展(一)光电混合网络(二)光电混合网络的发展历程在2000年代初期,随着互联网流量的快速增长,研究人员开始2探索如何利用光网络的高带宽优势来提升数据中心和骨干网络的性在2010年代,随着光网络和电网络技术的不断进步,光电混合网络的研究取得了显著的进展。在SIGCOMM会议上发表了许多关年发表的论文《Helios:AHybridElectrical/OpticalSwitchArchitecture种名为c-Through的系统,能够动态地调整光路配置,以适应数据中3适用于大规模数据中心的应用场景。SIGCOMM2017年发表的论文《RotorNet:AScalable,Low-complexity,OpticalDatacenterNetwork》用,提升了数据传输性能和网络效率。例如,SIGCOMM2022年谷歌发表的论文《MissionApollo:LandingOpticalCircuitSwitchingat4ReconfigurableDragonflyNetworkinHPC》详细介绍了如何保证每个(三)光电混合网络的应用场景5英伟达也在其数据中心内研究通过弹性可重构网络提高网络可6三、光交换机关键技术分析(一)光交换(OCS)技术简介要。根据实现技术的不同,光交换技术一般可分为3DMEMS(Micro-Electro-MechanicalSystem)技术、数字液7输入MEMS微镜阵列,输出MEMS微镜阵及配套驱动、控制软硬件构成。其中输入输出MEMS微镜单元为二入射MEMS微镜阵列对应微镜单元,每个微镜单元拥有独立的驱动控制,通过施加不同的电信号实现所需的转角;输入MEMS微镜阵列通过调整微镜单元的转角将入射信号偏转到目的输出微镜阵列对89图6MEMS光交换a)微镜阵列示意图b)阵元组成与原理示意图2.数字液晶技术DLC光交换和各向异性,使得液晶材料具备和晶体材料一样的折射率各向异性、数字液晶光交换系统利用液晶的电光效应与晶体光楔的级联相结合,能够将N个端口的输入光任意调度到N个端口进行输出,完数字液晶光交交换利用液晶的电光效应与晶体光楔的级联产生行S偏振与P偏振的分束与合束LCLM液晶光模块阵列(LC可调延迟器与双折射晶体光楔的组合经过多层级联而成,实现N*N信号光偏转如下图7所示。2个离散角度的偏转(2态调制)。系统交换维度扩展到M换则需要共L层组合,满足2^L>M。例如,对于256端口,需要对直接光束偏转光交换是将光纤准直器直接固定在压电陶瓷驱动MEMS低~3低~4高~综上所述,光交换机实现了任意输入N端口到输出N端口的无(二)故障恢复与能耗光交换网络的故障恢复策略和容错机制是确保数据中心网络稳(三)控制平面四、光交换机在数据中心网络中的应用(一)数据中心网络架构过去20年,受计算规模的驱动,数据中心网络架构和解决方案发生了显著变化。总体而言,数据中心的物理拓扑从传统的接入-汇聚-核心三级架构演变为基于Clos的Spine-and-Leaf核心交换机处理所有南北向流量,记录所有节点的IP和MAC地址2008年,随着云计算时代的到来,数据中心逐步演进,计算资为主要流量。网络虚拟化使每个宿主机运行一个虚拟交换机拟机的IP/MAC信息,以支持虚拟机的全网迁移。2016年后,数据中心进入大规模容器时代。容器作为轻量级虚务,服务的IP地址作为访问入口,屏蔽计算资源的细节。由于容器瓶颈。因此,每个服务器节点内替换虚拟交换机为虚拟路由器换机只需记录服务器节点的IP和其管理的网段信息,与容器数量无低扩展传统树形拓扑来满足带宽需求不仅成本高昂,而且难以实东西向流量的增加使得传统三层数据中心架构的带宽成为瓶颈,在Clos架构中,如下图所示,每个Leaf交换机都与所有SpineSpine层则负责将所有Leaf交换机连接起来。当Leaf层的接入端口(二)光电混合网络架构谷歌公布的Jupiter项目,通过使用光交换机(OCS)实现可重中心互联层采用基于MEMS技术的光交换机(OCS)来实现动态拓扑重新配置、用于流量工程的集中式软件定义网性,并且不需要任何停机时间或服务流失。除了比静态Clos结构提为了支持AI训练等大规模计算,谷歌陆续研发了TPUv4和互联上采用3D环面实现TPU之间的互联,部署OCS的优势有以下采用OCS方案可以将集群可用率提高到约50%。因此每个43块在安装和测试64个芯片和必要的电缆后立即投增量部署大大提高了TPUv4超级计算机的生产使用时间,从而提高v4可以轻松地更改拓扑,以匹配应用程序、节点数量和运行这些作网状替代方案相比,这使重要的结合通信操作(例如,all-to-all)的可重构OCS拓扑提高网络性能:用户可以更改TPUv4拓扑以匹配所使用的并行度类型,AI训练经常将并行类型组合起来以获得(三)光交换机性能评估光交换机(OpticalCircuitSwitch,OCS)作为数据中心网络中的测试各端口的插损和回损,可以评估光交换机五、AI网络光交换机应用展望(一)技术趋势与发展方向从文本生成到图片生成再到以Sora为代表的视频生成。Sora是由无论是AI生成图片还是生成视频,背后都离不开大规模算力的而对训练算力的需求也大幅度提升。这也驱动了GPU算力在8年的合训练。2023年大模型训练算力需求为万卡左右,到了2024年则需每次重启找回checkpoint都需要几十分钟,影响训练效率。(二)测试数据分析卡的实验环境,对胖树网络架构和OCS灵活组网的RingAll-Reduce(三)潜在的研究领域与创新点随着大模型的迭代发展,对算力的需求也更加巨大,未来需要5-10万GPU卡联合模型训练,单卡已经放不下模型的时候,百GB/PP数量AllReduce百GB/PP数量All2All插损需求:极低插损,机房环境复杂有可能过多级光纤配线架(四)面临的挑战六、结论与建议(一)研究成果总结光交换机关键技术路径主要包括MEMS技术、DLC技术、和现代数据中心网络架

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论