版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2缩略语列表 41.背景与需求 52.GSE网络架构介绍 6 6 62.2.1GSE整体架构 62.2.2GSE架构设备 72.2.3GSE架构特性 8 82.3.1兼容以太网技术 82.3.2无阻塞网络 92.3.3提高有效带宽 92.3.4优化长尾时延技术 103.GSE网络核心技术 10 113.1.1PKTC概念 113.1.2PKTC开销 123.1.3GSEHeader位置 12 133.2.1动态负载信息构建 133.2.2动态路径切换技术 143.2.3流量排序机制 15 153.3.1基于全局的转发技术 163.3.2基于DGSQ的调度技术 17 18 18 19 194.组网应用展望 21缩略语列表缩略语英文全名中文解释AIArtificialIntelligence人工智能AIGCAI-GeneratedContent人工智能生产内容CPUCentralProcessingUnit中央处理器DataProcessingUnit数据处理单元ECMPEqualCostMultiPath等价多路径路由ExplicitCongestionNotification显式拥塞通告FibreChannel光纤通道GPUGraphicsProcessingUnit图形处理器GSFGlobalSchedulingFabirc全调度交换网络GSOSGlobalSchedulingOperatingSystem全调度操作系统GSPGlobalSchedulingProcessor全调度网络处理节点Head-of-lineblocking队首阻塞JCTJobCompletionTime任务完成时间MachineLearning机器学习Priority-basedFlowControl基于优先级的流量控制Physical端口物理层PKTCPacketContainer报文容器RDMARemoteDirectMemoryAccess远程直接内存访问RDMAoverConvergedEthernet融合以太网承载RDMAVOQVirtualOutputQueue虚拟输出队列DGSQDynamicGlobalSchedulingQueue动态全局调度队列军企业竞相推出千亿、万亿级参数量的大模型,底层GPU算力部署规模也达到万卡级别。以GPT3.5为例,参数规模达1750亿,作为训练数据集的互联网文本量也超过45TB,其训练过程依赖于微软专门建设的AI超算系统,以及由1分布式并行计算是实现AI大模型训练的关键手段,通常包含数面向未来智算中心规模建设和AI大模型发展及部署需求,中国移动联合多为打造无阻塞、高带宽、低时延的高性能网络务于高性能计算,满足AI大模型部署及训推图2-1GSE技术分层架构考虑到AIGC等AI/ML应用快速发展以及当理层、MAC层的定义,以兼容现有以太),造成网络阻塞的核心原因是分布式转发结构中各节优先级管理,丢包将是无差别的,会给应用带来直接的2.3.4优化长尾时延技术与传统以太网基于流进行负载分担的机制不同,GSE交换网络采用定长的图3-1GSE网络端到端流量转发示意图(1)源端GSP设备从计算侧收到Packet后,通过转发表找到最终出口,并基于(3)当报文到达目的端GSP设备后,先进行PKTC级别的排序,再通过转发表辑上组成虚拟容器,并以该容器为最小单元在交换网络中传输。本节分将从PKTC概念、PKTC开销和PKTC位情况下尽可能短,以达到精细切分数据流,充分提图3-2PKTC转发机制示意图报文容器的实现是逻辑虚拟的,当一个报文进入GSP节点时,GSP节点将过虚拟报文容器设定长度时,将该报文调度并GSE网络各节点均直接转发报文,无需缓存报文构建实际容器。对于归属标识和系统DGSQ建立目标有关。一般情况下,可基于源设备、目标端口以及在该端口下的优先级建立唯一的DGSQ标识。当然,也可根据业务需求简化进入DGSQ后的报文,需要经过下行调度授权才能被发送到交换网络中。此时,可将同一个入口Leaf节点发往同一个出口Leaf节点的图3-3PKTC头构建方式示意图———图3-4标准扩展头方式传输效率高,但是兼容以太网能力较差,只有在特图3-5重定义以太帧方式的兼容性和传输效率,但是网络中对GSE额外信息的处理会需要深入到报图3-6协议头扩充方式为了减少并消除传统ECMP转发模型中出现的哈希极化、负载不均等问题导致的长尾时延或丢包,基于PacketContainer的技术可以分为负载信息构建、3.2.1动态负载信息构建图3-7流量转发模型示意图图3-8动态负载均衡决策过程3.2.2动态路径切换技术图3-9动态路径切换机制图3-10目的端流量排序机制3.3基于PKTC的DGSQ调度技术图3-11网络Incast流量发生场景宽才可避免。因此,引入基于全局的转发技术和基于DGSQ的调度技术,才可3.3.1基于全局视图的转发技术图3-12流量转发模型示意图图3-13基于全局视图的选路机制口的虚拟队列,用以模拟本设备到对应端口的流量调度。本设备DGSQ的调度到端授权。由于中间节点的流量压力差异,GSP去往最终目的端口不再通过的负载能力,也不会超出中间任一网络节点的转发能力,可降低网络中Incast图3-14基于DGSQ的调度技术基于PKTC的负载均衡技术和DGSQ全局调度技术在平稳状态下可很好得图3-15网络拥塞场景示意图例如,如上图所示,GSF1的B4出口出现拥塞,会降低甚至暂停对此的DGSQ调度授权。如果还有其他路径选择,将会触发采用动态负载均衡的方的流量,去往其他设备的流量不受影响。更近一步的精细控制策略是通过GSF采用了基于PKTC的逐级负载均衡技术。当Fabric网络中的某条链路或某台GSF发生故障时,与其相连的设备节点能够实时感知到链路状态变化,并自动将相应链路从负载均衡备选列表中移除,回收DGSQ涉及此路径的调度希结果或链路数量少的影响,可避免某条链3.7全调度以太网操作系统分为全调度控制器、设备侧NOS两大部分,同时采图3-16全调度以太网操作系统架构网络操作系统。每台GSP和GSF具备独立的控制面和管理面,可以运行属于设备自身的网络功能,提升系统可靠性,降低部署难度。分布式NOS可NOS控制管理通路:得益于全调度以太网架构的兼容性原则,网络的GSF再采用带外(Out-band)控制管理通路,而是统一到带内通路,便于运维管图3-17:带内模式的控制和管理通路GSE面向无损、高带宽、超低时延等高性能网络需求业务场景,兼容以太在两种方式,一种是仅在网络侧运行该架构,一种是GSE本身可以支持网卡侧无感知的组网解决方案,若网卡侧有能力参与协同,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 申请组长申请书6篇
- 生活垃圾焚烧发电和污泥处理建设项目可行性研究报告
- 酱油工厂的实习心得5篇
- 扫墓免责协议书范本
- 销售的年度体会总结5篇
- 物联网项目招投标会签流程
- 沥青路面施工组织设计1
- 毕业演讲稿感人2024(3篇)
- 总代理保密协议
- 体育健身区房产买卖合同范本
- 医科大学2024年12月精神科护理学作业考核试题答卷
- 论青少年合理怀疑精神的培育
- 机关干部礼仪培训课件
- 安徽省合肥市2024年七年级上学期期中数学试卷【附答案】
- 《剪映专业版:短视频创作案例教程(全彩慕课版)》 课件 第2章 剪映专业版快速入门
- 中考物理试题及答案经典大全集高分
- DB11T 854-2023 占道作业交通安全设施设置技术要求
- 2024-2025学年浙教版八年级上册科学期中模拟卷
- 第6课《我们神圣的国土》 (教学设计)-部编版道德与法治五年级上册
- 模拟电子技术说课
- 2024年秋新精通版(三年级起)英语三年级上册课件 Unit 5 Lesson 1
评论
0/150
提交评论