版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
段晓东中国移动算网一体定义算力网络未来通信网络正加速向新型信息通信网络演变技术范式产业范式资源范式通信网络新型信息通信网络架构范式算力为核心的信息数据处理提供计算、感知、智能、安全等一体化的新一代信息通信服务网络为核心的信息交换提供语音、短信、移动宽带等通信服务2中国移动算力网络发展历程——中国移动《算力网络白皮书》算力网络是以算为中心、网为根基
,网、云、数、智
、
安
、
边
、
端
、
链(ABCDNETS)等深度融合、提供一体化服务的新型信息基础设施。杨杰董事长提出“
算力网络”
概念与愿景成为“5G+算力网络+能力中台”新型信息基础设施的关键一环发布《算力网络技术白皮书》,提出十大技术方向提出新概念发布中国移动《算力网络白皮书》和发展倡议发布新理念融入新战略开创新方向算力网络子链组建14支攻关战队联合攻关产业问题组建新战队5G智慧中台算力网络构建新装置发布《算力网络科技创新成果》,CFITI试验网与中国算力网、中科院信息高铁联合打造科学装置中国移动深刻把握算力时代发展脉搏,发挥运营商网络领先优势,以网强算提出“算力网络”全新理念。两年来,继往开来、开拓创新,全力推进算力网络发展启动算力网络试验网CFITI
1.0,发布算网服务体系1.0打造新平台3算力与网络跨学科交叉融合创新网络演进需求算力发展需求从通信服务向新型信息通信服务转变性能代际提升对算力提出更高要求单一速率范式制约网络规模发展摩尔定律下单点算力面临性能瓶颈多样性算力需要异构融通、互补协同泛在算力闲散分布,需要高效集约利用研判:算和网已经呈现双向驱动趋势,为了进一步呈现整体的能效、性能和利用率优势,需要算网一体化的系统思维和多学科交叉创新算网一体=F(Computing,Network)必要条件:Network,
Computing互相影响充分条件:F(Computing,Network)
>=F(Computing)+F(Network)限制条件:
有限的Computing资源,和有限的Network资源优化目标:
=G(能效、性能、利用率)算为核心,网为根基,算力与网络的融合体现在“以算促网”和“以网强算”两个方面,二者“双向驱动”,算网交叉融合创新成为发展新范式算力4网络能效性能利用率算网一体是算力网络的发展目标走过算力网络“泛在协同”的重要阶段,迈入
“融合统一”的发展新阶段起步:泛在协同发展:融合统一一站服务、协同运营协同编排网随算动融合服务、统一运营算网融合智能编排跨越:一体内生一体服务,模式创新智慧内生算网一体5算网一体主要特征设备一体以外挂或内嵌/内生的方式,形成“算力感知”、“网络感知”或“转发即计算”的计算形态,构建异构融合的设备硬件协议一体支持算力、网络、应用等多维资源感知和调度的新协议,可通过网络协议扩展并携带计算信息,或者定义新型协议架构一体构建统一编程范式和异构算力抽象机制,形成一体编译链接、跨架构动态运行的基础软件架构,实现应用跨架构无感迁移服务一体网络和计算服务统一入口,通过能力的相互补充和调用,面向用户提供无感知的网络和计算服务算网一体原创技术深度赋能算网基础设施、编排管理、运营服务多层次一体化发展6算网一体发展需要原创技术创新算力网络是算网交叉学科创新的重大契机。为构筑算力网络发展源动力,开创算网一体原创技术体系,已形成一批标志性的原创技术数据快递突破广域传输性能瓶颈空芯光纤新型光纤介质与系统在网计算打破算网边界全调度以太突破无损以太性能瓶颈算力度量打破单维算力指标移动算力5G、6G新增计算面算力路由突破互联网架构协议存算一体突破冯氏架构算力原生实现应用跨架构迁移400G/800G超高速大容量全光网络G-SRv6统一IP承载协议算力卸载多算力形态统一底座算力并网实现算力供给侧改革新一代SD-WANUnder与Overlay协同算力解构应用模块化解构部署算力智能内生计算要素创智能服务空天地一体突破异构算网融合隐私计算安全数据分析计算应用感知应用类型识别OTN光电联动新型全光网架构全光接入新型接入网架构云原生敏捷高效体系总线互联卡间高速通信50G
PON+FTTR新型接入网架构7算网一体“5颗珍珠”:算力原生、全调度以太、算力路由、在网计算、数据快递算网一体需要解决的核心技术问题1构筑新型智算中心的问题传统无损以太存在性能天花板,网络技术成为AI算力瓶颈,通过创新以太网转发机制,以网强算构建无阻塞、高带宽、低时延的新型智算中心网络。23大规模数据广域高效传输的问题针对传统协议吞吐随着传输距离、丢包率增加而急剧下降问题,设计新型可靠传输协议,实现长肥网络下超高吞吐数据传输。面向网络和计算的联合优化问题基于互联网协议体系,在路由中引入算力因子,开创算力路由协议,实现距离向量和计算向量在路由技术的叠加,满足新型业务网络和计算的时延需求。①算力路由CATS突破互联网架构协议②全调度以太GSE突破无损以太性能瓶颈③数据快递GSN突破广域传输性能瓶颈81、算力路由CATS(1/3)AR/VR时延需要低于20ms保障用户体验,包括:传感器采样延迟:<1.5ms(客户端)显示刷新延迟:≈7.9ms(客户端)GPU的帧渲染计算延迟≈5.5ms(服务器)网络延迟(预算)=20-1.5-7.9-5.5=5.1ms(网络)结论:需要同时考虑网络和计算资源状态,进行路由协议层面的联合优化典型场景1:Computing-Aware
AR/VR典型场景2:Computing-Aware
V2X通过算力路由在本地优先处理低时延业务(如辅助驾驶业务),保证其用户体验和可用性将时延不敏感业务(如车载娱乐业务)从本地调度到远端9算力路由将算力因子引入路由域,实现网络和计算的联合优化,克服面向边缘计算的“性能反转”问题,满足时延和计算敏感新型业务需求观察1:计算延迟和网络时延在同量级观察2:仅根据网络或计算负载选择服务节点,总时延无法满足观察3:根据两者选择边缘站点3,总延迟≈19.4ms1、算力路由CATS(2/3)技术方向:新型算网多因子算路算法构建算力路由信息表(CA-RIB),考虑距离因子、算力因子以及权重,生成算网cost=w1*网络cost+w2*算力cost提出分域通告、分类通告,约束算力信息更新的范围,减少算力信息的无效通告。通过仿真建模量化分析算力信息通告信令开销的影响技术方向:自适应的算力通告问题3:路由求解,多维因子路由优化问题在距离矢量上叠加算力向量,改变选路方法,影响路由决策。简单叠加将导致路由不收敛问题2:合理的算力信息通告问题通告频率越高,算力信息越实时,但开销越大,如何找到通告信令开销与信息实时性的平衡点问题1:算力度量问题算力信息维度较多,需要定义面向路由调度的高可用性计算信息,兼顾报文封装成本以及可用性技术方向:简单高效的算力信息封装统一量纲,使用与网络和业务相同的度量维度信息,应用于路由调度,例如通过BGP
PathAttribution扩展封装计算时延信息ABCEBCE连接算力
A的网络节点网络拓扑网络节点算力网络节点拓扑网络节点算力网络状态拓扑101ABCE连接算力的网络节点算力节点能力通告算力节点状态通告网络节点算力路由需要解决算力扩展、算力信息通告、多因子路由求解等多方面的问题,实现基于网络因子和计算因子的联合路由1、算力路由CATS(3/3)2019~2022年5次研讨会2023年3月CATSWG成立暨首次会议,是路由域最受欢迎的工作组之一完成场景和需求立项推动面向AI大模型的算力路由场景写入CATSWG标准基于CATS的分布式推理基于CATS+AI的内容获取AI-basedMediaDistributionandTraffic
Steering完成实验系统,验证全局时延优化上约30
的性能提升合力攻关算力路由技术,围绕IETF
CATS构建标准体系,推动产业生态加速构筑领先优势历经4年,中国移动在IETF发起成立算力路由工作组(CATS,
Computing-Aware
Traffic
Steering),中国移动担任主席,是IETF路由域近20年由中国高校/公司牵头成立的两个工作组之一112、全调度以太GSE(1/3)2
的丢包就会使RDMA吞吐率下降为0芯片容量提升2倍,组网规模提高4倍随着GPU单卡算力受限,获得同等算力的难度持续增加,以网强算成为提升大模型训练效率的关键GPU集群性能
≠
单GPU性能*NAI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”
智算中心建设进入快车道,网络技术发展已滞后于AI模型演进,新型AI网络方案成为业界创新焦点集群有效算力∝{GPU单卡算力*总卡数*线性加速比*有效运行时}网络设备能力决定GPU集群组网规模
网络性能决定GPU集群算力加速比
网络可用性决定GPU集群稳定性1212、全调度以太GSE(2/3)从“局部”决策到“全局”调度从“流”分发到“报文”分发从盲发+被动控制到感知+主动控制将业务流拆分到不同“报文容器”转发,提供逐“报文容器”负载均衡机制,提升带宽利用率从被动拥塞控制,到基于“授权请求和响应机制”的主动流控,最大限度避免网络拥塞产生全局视野的转发调度机制,实现集中式管理运维、分布式控制转发,提高网络可用性当前:逐流负载,链路利用率低、发生拥塞被动降速未来:逐报文容器转发,链路负载均衡,全局调度,避免拥塞SpineSpineSpine目的leaf32
1321321源leaf321321321拥塞3 2 13 2 12 1丢包中国移动提出全调度以太网(GSE)技术架构,最大限度兼容以太网生态,创新基于报文容器(PKTC)的转发及调度机制,构建无阻塞、高带宽、低时延的新型智算中心网络,形成标准开放的技术体系,助力AI产业发展创新以太网转发机制,实现三大核心机制转变1312、全调度以太GSE(3/3)全调度以太网(GSE)特设组研究范畴2023.11云网智联大会发布《全调度以太网技术架构》白皮书中国算力大会正式启动全调度以太网(GSE)推进计划中国网络大会发布业界首款GSE原型系统CCSA成功立项《全调度以太网总体技术要求》2023.8
2023.92023.5 2023.6ODCC冬季全会GSE工作组成立及第一次工作组会议低延迟FEC、光交换、故障快速检测、400G/800G以及更高速率接口物理层扩展等改进的PFC、GSE高级调度技术、链路级安全、链路级容错等新型网络拓扑、新型路由协议、新型组播协议等改进的RDMA、新型拥塞控制协议、网络多路径能力、乱序重排、选择性重传等运维和管理体系端到端网络可视化、可调试能力、部署/运维/变更/故障恢复等多维自动化能力物理层数据链路层网络层传输协议层中国移动,中国信息通信研究院,中国广电、华为、盛科、中兴、锐捷、新华三、浪潮信息、Intel、Broadcom、清华大学、上海交通大学、鹏城实验室、紫金山实验室、北京邮电大学、中科院计算机网络信息中心、中信科、Spirent、是德科技、云合智网、楠菲微电子、燧原科技、昆仑芯、迈普,星云智联、云脉芯联、中科驭数、云豹智能、大禹智芯、中盈优创等四十余家产学研机构及厂商全调度以太网(GSE)合作伙伴141中国移动携手中国信通院,联合国内外三十余家主流互联网,设备商、芯片商、高校院所联合发起GSE推进计划,推动智算中心网络技术创新、标准完善和产业应用,打造高速无损、开放兼容的新型智算中心网络技术体系3、数据快递GSN(1/2)数据量大单次传输在TB级别天文观测:几十TB/次基因测序:TB~100TB/次影视渲染:10TB~100TB/节目传输距离远属于长肥网络(LFN)带宽时延积(BDP)大网络传输带宽:>10Gbps传输时延:20ms~50ms网络复杂多样设备异构、拓扑复杂,难以无损链路层误码率不可避免大象流负载不均,存在拥塞丢包多流竞争,存在微突发丢包传统TCP协议在数据快递中吞吐受限,有效吞吐与链路时延、丢包率成反比,使用多流传输会使单流吞吐下降,且受主机CPU性能限制,同样存在吞吐瓶颈单流传输时,时延由1ms增加到10ms时吞吐下降约10倍1.22*MSSTCP网络吞吐
=
——————RTT*
Sqrt(L)RFC
3649:HighSpeed
TCP
for
Large
Congestion
Windows8条流并发传输,单流吞吐下降7算力分布的不均衡以及智算、超算业务的蓬勃发展对广域数据传输提出更高要求,中国移动提出“数据快递”技术体系,充分利用高带宽网络实现高吞吐数据传输153、数据快递GSN(2/2)贵州FAST北京国家天文台传输距离远2200km广域长肥网络测试结果:新型传输协议是传统TCP协议吞吐的18倍(单流吞吐:7.94Gbps
vs
424Mbps)5 ①新型传输协议设计,消除端侧吞吐瓶颈大
②新型拥塞控制算法,提升网络有效利用率核
③丢包快速恢复算法,降低数据传输尾时延心技 ④丢包精确重传机制,降低丢包对吞吐影响术 ⑤端到端多路径传输,实现带宽聚合与均衡基于新型传输协议,构建
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医用高频仪器设备项目提案报告模范
- 生命小学作文15篇
- 2024-2025学年许昌市魏都区三年级数学第一学期期末综合测试试题含解析
- 2024-2025学年新源县三上数学期末检测试题含解析
- 2025年水用电磁阀项目立项申请报告模范
- 个人辞职报告19篇
- 个人年终总结合集15篇
- 2024年校园护卫人员标准聘用合同模板版B版
- 员工离职证明书(15篇)
- 2023行政主管年终工作报告五篇
- 项痹中医护理课件
- 新版查对制度专项检查表(涵盖患者身份识别、临床诊疗行为、设备设施运行和医疗环境安全等相关方面)
- 成人有创机械通气气道内吸引技术操作解读护理课件
- 贵州省黔南布依族苗族自治州2023-2024学年九年级上学期期末数学试题(含答案)
- 基坑开挖降水课件
- (小学)语文教师书写《写字教学讲座》教育教研讲座教学培训课件
- 智能胶囊内镜导航算法研究
- 《新疆大学版学术期刊目录》(人文社科)
- 2024年初级社会工作者《社会工作综合能力》模拟试卷一
- 重庆市2023-2024学年高一上学期期末联合检测物理试卷(含答案解析)
- 糖尿病性视网膜病变汇报演示课件
评论
0/150
提交评论