新一代智算中心网络技术白皮书

上传人：b*** IP属地：北京上传时间：2022-12-30 格式：DOCX 页数：26 大小：840.51KB 积分：18 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

新一代智算中心网络技术白皮书（2022年）目录前言 3算心展况 4策势 4业势 4术势 5算心络展势 6算心络键术 9大模络键术 9型扑 9效能IV6进 0算心网络接 1高能络键术 2适路由 2态发延化 3网同 4网算 7DU载 9能N 0于元换网级载衡 2络靠及能维键术 3据故感与复 3于图的络真验 3能维环络 4结展望 5语缩词表 6前言2022年2月18日国正启“东西”工突了字济国发中战略地位。IDC预测，数字经济的占比将持续增加，到2022年，全球65%的GDP将由数字化在国到2025年在基等战驱数经占GDP的例超过70。据未企的长程扮越越要角数价利的度决企数化型度算是字济展基设和心产国经发的要基础《2012022全计力数估告显计力数均提高1个分，字济和GDP分增长3.5和1.‰。力络联算供端需端重桥是来济展重衡指之“算为心网为基”网贯算的产传和费流程一具超大宽超时、量接多务载高质络关。白书要究算心展况算心络展势及足算心展需的算心络键术希通在大模络键术超性网关技术、高靠络键术及络能关技等面探索未面智中的型络构供考。本皮由国动信究牵编联编单华技有公司上云芯科有公中驭数(京技限司中通股有公等。本皮的权中移通研院有并法保转摘或用它方使本皮文或观的应明源。发况政策形势当新轮技命兴各各开全数化大据云算人智区链数化术地用对算力出高求算与济会展联愈密，为动业革新动。信技浪推人社“电时”迈“算时”以力根的能数字经世即来为造济展高应国激竞争抢战制点近，中、务高重字济展推算相技研，快署类力心。200年4月20日，国家发展改革委首次明确新型基础设施范围，将智能计算中心作为算力基础设施的重要代表纳入信息基础设施范畴。随着AI产业化和产业AI化的深入发算心受越越地政的度注开前布成支和领字经智产智城智社发的键信基设中智算占国算力的比重也由2016年的3%提升至2020年41%，预计到2023年智能算力的占比将提升至70。2021年5月24日国发委四门合布全一化数中协创新体算枢实方明提布全算网枢节点启实“东西工程。今年2月“东西”上为家略国发委部确定了8个家力纽点，规了10国数中集群。策面扶和励别东西工的面动智中的速展入了强的助推剂。算中心承载模型训练为表的非实时算力需求尤适合实施东数西以算心算底座在国西地开人智领的力同作“东西”是国动数算"程地重场之。产业趋势近自驾生医智制等域展随而的超规人工能型海数对力求不提，算心设当时。工部数表示截至2021年，我在用据中机架规模达520万准机，在用数据中心服务器规模1900万台，算力总规模超过140OS。全国在用超大型和大数中超过450，算心过20。据完统从2021年1月1日到2022年2月15日全共至少26个市推动刚完当智中的设其投使的有8包南合等的算中心除了些入使的，国少还有18个市签、工、标、划设智中心目包深、沙项都经工设。中个型智中规如：8月30日，阿里云宣布正式启动张北超级智算中心。该智算中心总建设规模为12OPS（每秒1200亿亿次浮点运算）AI算力，将超过谷歌的9OPS和特斯拉的1.8OPS，成为全球最大的智算中心，可为AI大模型训练、自动驾驶、空间地理等人工智探应提强的能力务。在A2020大期商科宣布上新代工能计与能台临超算心动该力心地积近80总资额过50亿人一将安置500个等效800W的柜算中建成投使用总力模将过370OPS,同接入850路频，1即完成2360时的频理作。南智中采浪潮AI服器力组，搭寒纪元270和元290智芯片及加速卡。目前已运营系统的AI计算能力达每秒80亿亿次（AI算力远超传统数据中心提供基础力供）1小可完成100亿图像别、300万时语翻译或1万里的动驶AI据理务。技术趋势着力济发及工能业来成熟种用力片市上是爆式展势应智算在算中占也逐提统通算占比下。新代能力群，各算协一完一大模杂计任，种型资首需池，存资池GU源等。服器为力主载开踏了高的道以AI为心算需激，元构力速过用力为流来多行使人智技分掘日常量以像语视为的结化据致度习型规和复性不断加。到2030年以GUNU等代表的能算力长近500倍远超10倍速的通用力，成全球算主流。随摩尔定逼近极，以U为主通用计性能提升放为证据处效率，GUDUPGA等构速芯将有取代PU成智中主力。存系实应数的久向用供据问务随社智程的，海数据收、分析处理带的挑战来越大智算中必须解好数据“存下、读得用好的题需多面提升储力首存介由一的HDD向SD、CMHDD等构储介演，采高存储议NVMe，满上多样的据存储需其需提数存效重解处器部处器内内和存以及服务器之间等不同层级数据存取的效率问题，包括提升1、2、3的ache缓存能力、构建大规模持久内存池、引入DMADA协议等，实现端到端数据存取加速，最终实现降访时大提传效的最传集式储弹扩能等面存力从，于用件建分式储速展。网展势过十，据心络术历两发阶：虚化（202以用中心提远服务各敏智的微务应用发推了业数化型在一段分式虚化术代大机小型机，满足了当时企业业务扩展带来的弹性需求，通过SXIOPSDocker等虚拟化技术，现产统云推数中高发。云时代（NOW），多云为中心提供云化服：多云之间力无损调度需推了化算算网发在一段出了源化术把算存资源分离，再规模化编排和调度，提供了超大规模的计算和存储资源池。GU高速发展、算普，来力心约建，据心从“化代向“力代”。传统数据中心，面向传统的计算处理任务，或离线大数据计算，以服务器VM为池化对象，网络提供V/服务器之间连接，聚焦业务部署效率及网络自动化能力。智算中心是服于工能数计中，括人智、器习深学等求以GU等AI训芯为为AI计提更的算规和快计速提单时单位耗的算力质为心求。智中将力源面以求算存资极的性给利用以力资为池对网提供PUGU存之间总级高连如图21所示智算中网作连接PUPU内存等源重基设贯数计存全流算水作三综衡指网性成提智中算的键素智中网向大模超带，低延超可等向展。图21化线智中网络统端协体创是算心性网性提关键侧过能卡件卸载网络协议栈，提升网络规模及处理性能，网侧构建低时延、高吞吐的高速通道。如图22所智网与络备同作优拥控算网态感动路切、到带遥等力打极的络能运能。图22网同下代性络系新代算将数中的部体化新从往以云中，入以AI为心体架元宙生科等大力求现发增超算中异算协应而。新代算心络前面四关挑：1超规网络随着AI、5G、IoT等技术的爆炸式发展，海量数据流的产生和多元化的应用场景为智能计产业带发展机。在这一程中，于PU架构工艺提的创新益趋缓，已无法满足新场景下多样化算力快速增长的需求，算力提升的核心动力正从PU扩展到以NNeura-NeworkrocessngUn嵌入式神经网络处理VcorrocessngUnt，矢量处理器）、GU（Graphcsprocessngunt，图形处理器）等为代表的计算单元。XU直出以太等技术持续发展使得计算/存储资源实现解构。未来会出现融合以太、总线、信元技术的超融合网络，满足计算/存储/内存池化需求。智算中心内节点的数量将增长10倍，现的万服器长百台XU联。2超性网络当前AI应已采用GU甚专用AI芯计速度比统PU提升100100倍之同时AI应计量呈何数增算模向量发展人智模参数在过去十年增长了十万倍，2025年向百万亿参数模型演进，训练数据集规模百倍增长。同存介质SD访性能传统HDD已升100而用NVMe接协议的S简称NVM介），访性能比HDD甚可以提升1000倍在存储质大降低情况网时占从来于5上到65左这味存介有半上时间是闲信待何低算信延升络吐一智中心够分放力核问。3超可网络算力资源边缘部署逐渐成为产业趋势，自动驾驶、智能工厂、机器协作、远程医疗等2B行业勃发展，对务高速切数据不中断提出新的靠性要求。毫秒乃至级网络障集式分式据等务造影如OP在交类务网故障交都甚会响点态降系可性出分级业中业中会企及会来大失一智中高靠力可缺障敛能需升亚秒。4智化络nkedn最数显示网故持增人接变机与器间接网络不网计和储界糊定困数海网故难快定和。时于用略互关日复统网运和维段无适智中心网的需引新智引依大据对用量网状进关分及准地测发隔网故形网采分控三一的环系统同，托eetry以边智等技，络设数据可信的速集和预理主上智引，业网提自能，现一智中络能。网术超大规模网络关键技术新型拓扑5G、万物互联的智能时代产生海量数据，算力要求快速增长，算力扩容成本高昂，需要支持超大规模组网实现集群高速互联。当前智算中心网络通常采用OS网络架构，主关通性法足大模算景低延低本求界对问开了样架研和拓的计。如图31所直拓在大模网景因网直具低端到端信数少特64口式换机Draonfly最组规模2w节4于3级OS全组。构建10万节超规模群例传统的OS架需部署4级OS组端端信最需跨7跳换使用Draonfy直拓组端端换机转发跳数最少减少至3跳，交换机台数下降40%。同时，通过自适应路由技术实时感知网络量载动进路决，分用络路宽提网整吞和能。图31OS直拓组架图高效能Iv6演进随机学人智大型快发展AI训集内节数及需的P地址越来越多。同时业务应用逐步采用容器、erveress等署方式大大提升了智算中心内计算资源的拟化比例，导致智算中内需要的P地址数量指数级上升。但是全球供分配的Iv4协议地址已经枯竭，所有的运营商不能再申请到公网的Iv4地址池。这将促使为动端固终申请Pv6地以撑种务开实万互和能接。传数中通采用VAN技提多租户及跨OR的网内IP地互能力，若算中网采用Iv6OerIv6的VAN隧将会原始Pv6报基础加774字的双层Pv6报头致文封成上转能下假原始Pv6报文（包含Iv6基转能为1如图32所对于aload长小等于256字节报，Iv6VAN装的发效现显降。图3-2Iv6和Pv6VAN发效比图智算中心Iv6网络中，报文无需添加UnderayPv6头部封装，仅需增加一个Iv6扩展（12字）的装本，络转能效超Iv6VAN封、接原始Pv6报，图33示：图3-3能效Iv6发效比图智中网存业多及全要求不业不安级不租间的业根需进行/互控智中心Iv6网中通过Iv6扩头带户标、安全组标识及业务信息，可以支持智算中心内及跨智算中心的租户隔离互通、微分段及业链力。智算中心间网络连接随着国家东数西算战略的推进以及越来越多的分布式算力协同场景的出现，I算力已经再限单的算心更的型算务要“横互纵延多算心同成过智中网连在辑形算层的级拟智中。算心间长连成影业性的键了撑效数搬较于通域，联络出更的求：1超的宽用大道算时的配核算中间百G甚上T的路带超的本充利带，缓容奏将为长连的要标。2超的丢率极少包甚零丢将极减丢包传带的宽资消耗在带利率同，证效吐提数搬效。而现网技面多面挑，法足力络求：千里的距，来长的路传时，网状态馈后，有的输层协拥控算存不基丢的ubc算法在距输现低带利率同时丢包较多；PR（oeneckandwdhandoundrippropaatonme）算法虽然能得高带利率但包较。超距输接少，易失吐。超距纤输法免包。超大的带宽时延积DP（andwdhDeayroduct）容易发生拥塞丢包。要想实现无损流控，设备接收端缓存需要大于DP，这也对网络设备提出了更高要求。此外，接收的存会于包致收据不续无提给用而速耗进影响吐。了对长传的战足性算互要一智中心部络具备如下的典型能力：（1）传输层协议可硬件卸载，支持超长距的DMA。（2）吞吐能力近颈路宽（3持密输。时虑智中间络入大时大动算心的损络案法到时拥控和量整要的术案决算心间互网可看作智中内无网的伸DI网引了延和抖动仅智中内的络案法到时拥控和量整要载提长无或一的定性能目业的究向全网直连广确性载络智中与载智能协空光等引空光不可实容距积大提更大降约/3的输理延并高间定为建时时保光联络提基支撑力。超高性能网络关键技术自适应路由统据心络常用短径法导量发于匀机量吐和迟可到优遇持大流短径非重而最路处空状。图3-4适路转示图如图34所自应由目是升网有效吐及络性能快感知网络链路负载状态变化，识别出关键拥塞路径，快速调整网络转发路径，做到毫秒/亚毫秒别链快切，态择载路行发满超性网的靠要。静态转发时延优化应用时延=计算操作的步数*每步时延，过大的网络延时则直接影响系统性能，严重浪费统从起延性来网设转时主有部构静时动时。态延指络备件发有时前着发备硬能提升态延下到秒，般小于1us。态延指打流造网设的口列塞列度大来队时，包因列存出包导业报重带的迟。如图35所示转芯片要有下块构erdesHYMAC上包处P、缓存管理(M)、下行包处理（P）等，报文转发必须经过这些模块。各模块时延分布大致为：erdes30ns,HYMAG300ns(含E),P400ns,M100ns(直通转发)，各转发芯片块分实存差该延布供进步降报静转时可以对模进时设计化。图3-5据心换机发片块成HYMAC块高速接口物理链路误码率高，需要通过C（前向纠错）技术实现纠错。EC纠错技术需要收齐一定长度的bt流（码字）后才能开始纠错处理，这个会带来时延的增加，S(544,54)EC应用在50G单ane接口时的解码延时为14ns，时延相当大。为了降低EC纠时延业引入更短码如272-EC相对544-EC只要收一的bt流可开始错处解时可以低一S272EC相对S544EC纠能力下只在路码较的景用为支更泛场应在证口靠性同追更的延新接形和码法待一探。处（P模块不业23/VAN包理块内理流差较VAN出隧转发相对本23转会查些发如道结隧封这额的理带来文理块延增降包理块时需简业部署闭文发径上不需要的子模块，避免部署VAN业务，设备上未部署下行AL时，可以考虑关闭下行AL能。包理块内在多查AC表IB表过主表因为量大遍采用法查深也影转时为追更的需探更的行表计高的表法。端网协同端网协同流控于络流的机以路的样，塞出不避。络现塞后，会成队延排长丢高触发C网利率欠吐等导致用能现现有多塞制段通不调端发的率最达到入网的量量近络承量来决络的塞题当，要带宽、延收速、平等度价同法。统拥控以动塞制主收拥信后动测地整率型的如DQCN算法，发送端根据接收到的N标记报文，利用AID机制（adde-increaseutpcaie-decrease，线性增速乘性降速）调整发送速率。由于1个比特的N信无法定地表拥程，发端设只探式地调发送率导致收敛度性较目业典的化路为类一是加细的动，如HC（Hhrecsononesiononrol，高精度拥塞控制），利用相比N更精细的信息，提高调速的准确率，避免长时试探；第二类是提前预留/主动分配式的主动控制，如HOMA（一种接收端拥塞控制算法）等，主动为后面的包做资源预留以及分配，避免拥塞发。但是当前主流的优化思路仍然在端侧实现，仍然需要至少1个T的响应时长，同时对络存的拥点题然要个期能敛此要种型端协的塞制法网提的精信以更动控端更准调速，实现带低快收公性等标有提网的输保大模分式AI务高完。在200打1场下不网拥控算法应缓排队延如表31所可端协时塞制果好。时延s）端网协同CCHCCDCQCN50-e0.1553.023116.1290-e0.2386.66212.8299-e0.3218.20412.4899.9-e0.4019.094127.31表31网同塞制法业拥控算仿实数对比前界满不业场求开一定化拥控算法过数中交机同作足细流量塞制求就网的编能提新要DPU具灵网业配能和可程拥控算开能是端协，络量粒调管首选。oE协议改进o2协作业主流远直内存DMA协议存三限网传能比明的响：每接路的制ov2协每个C都射唯的对元组故情况会流跌多流中时长整负均性导网带利率；容产拥，能路造时性劣。硬件C连数限制ov2将议卸到卡中其也括用讯的连关数但限网芯内表空限芯内连数限当接超某数的况会生卡片主内的接交换而致络输能降。GoBackN重能的制ov2协为保可传输协栈现重传机目典的传制是GoBackN重即生包从一确接的位之后进全重而是针丢的报进有重传这是前ov2依开启FC压主原于包重的价大需依赖C压量绝络的包。大QP规格下流控机制限制。在QP数量较多的场景下，基于公平轮询原则，单个QP调时周期较长造成QP的N反、QP升和速不时，而成流量制精。ov2的些制经来广的业所知同业也针以限进行断改，上限相应oE议以方进优改：改进支每接路的力化所的连多径可基多五元组会进数包传连上数可分到个同五这的处首先是可靠性的提升，在智算中心fa-ree组网存在充分的等价路径的前下，任意一个单点故只影部路的但会致个接中从可性到升同网络均衡性会提高，可以使得网络的利用率得到改善和提高，从而提高oE传输的性能。S已将路技应到自的协议RD中并流收性上到显的优。改进2，从C模式往接数依赖更小的式演进。目前基于C的通讯为每一对需要讯的QP建维一连因导了接的模大限了网模影响了针这有种路思路1不供粗度传输这面S的RD是于思的试议不供向接保传可传能件议仅负责靠文保这复的务驱软完思路进连的次分，建接，现接动共，elanox的DC术是思的表。改进3，从GoBackN往择性重优化GoackN重是一种单的传方式所以在早期芯片资源受限的情况下硬件卸载的协议栈选择此方式来实现重传，加上有C加一来丢概非在C参配合的况一只在现路包，链故的况才会生芯实现GoBackN重不为种理的择但随着oE组网规模不断增加，引发对C风暴整网流量骤停的担忧，同时半导体工艺的提升助卡件片够实更复的议oE的传式会渐从GoackN的量传进选性传。改进，基大QP组拥控。两节点共同转路径QP资归一个QP组，如图36所示，可以通过五元组或引入带内遥测机制进行识别。一个大QP组内所有的信息可以实现共享，如NP反馈信息、速率信息、令牌信息等，在大QP组内，实现各个QP的速率快速精准控制。当网络出现拥塞或恢复时，QP组根据自身策略进行速率调，策包1每小QP单计自己速汇到大QP组QP组算个调整比例系数，告知各个小QP。（2）QP组计算出来组速率，分解到各个小QP，然后告知个小QP体速值。图-6QP与QP映关系当oE2议伸更杂超距联络题变更复杂单的技手无满需的候尝将I、P、、DM多技手进融将一必的择采智化维分调的段能到佳效。在网计算近随深学高能算一新应负的求大增长导分式系规越越例我的级算太之已到万级在算科领，有条名经法叫阿达定代了行算后率升能力根阿姆尔并系的速受于行（即法过行速部的系规增统各点间协开也之大剧无通并计加的串计部的比。算需求爆炸增长进了算产的繁，例，过去8年英伟达GU算增长了17倍持提与力数增不配决并计中行分网带宽增长却是线性的。数据中心网络带宽从过去的10Gbps25Gbps发展到现如今主流40bps100Gbp增速远落后算增因两之的距鸿需系级网-用同计能越。型网-用同计盖高能算深学领广使的合信作，括Aeduce规和roadcast播。高能计（Hherformanceompun,HC）指利聚合算力解决杂的、大模科计问如气数建物分其涉到个力点之间的小规模数据集通信操作（pincast现象）。对于小规数据来说，网络的转发时延是其合通信间的主要成部分，此网络信效率将影响HC应用完成时。但随聚算的模断长算杂的加合信数交的数会明显的增长，网络通信效率对HC应用完成时间的制约作用也越来越明显。如图3-7所示，以前较行的合通操作mpirnga-reduce为例需要2(N-1)次数据互才完成，其中N为与节数深学同需调用AReduce操进梯聚且个节点的输数据量是度学习模型寸的2(N-1)N倍，当N比较时，传输量近原始模型寸的2，当额增了络宽负。图37合信作Aleduce意图近随可程换的起部利在计压数流提计传输效成一有的提分式统方在合信语中educe和Aeduce含计的义因可使在计进加，少数交次和网据。组是布式算系中常使的信模之例如超系统ra中PI_cast原语的执行时间占PI通信总时间的14%，时间占比在PI集合通信原语中仅次于PI_Aleduc。前PI_Bcast普采用用层播的式实组播信即在用层多次用层将据复送次从使多目节都获源点数据由数被复送用组任完时大数量通带之靠播术利交机成播文复分网层播代用组播免相数的复发使组任完时逼理最即据与宽比相于用组播务成间约50减。U卸载DU作为一种新型可编程异构计算处理器，为高带宽、低延迟和数据密集型新型智算场景提供计算引擎，与U和GU一起成为智算中心的三大支柱。DU作为智算中心内部源联网端是连异算资加数在PU和储网之的动，现构力数高互互的键备了好支智中网合能算力，提供高性能弹性可伸缩的智能计算能力，DU在可以从以下几个方面提升端网协同的络速力。NVMe-oF载基于NVMe原生提出的NVe-oF（NVMeoerabrc）可以使NVMe从支持本地存DAS发为持络（NAS且需换他储协在络储延保持NVMe存储访问低时延、高吞吐的特点。随着存储介质从机械硬盘逐渐向固态硬盘转变，储质访延从秒级短几甚几秒得储能颈存介网传逐转到机对储络议的理。传方主侧PU至需运三协栈才将文从网转出通过DU对NVMe-oFInaor和NVMe-oFet端进行卸载加速，能够有效解决存储性能遇到瓶在于DU的储构主侧负发存储即需运一存储协议。其他协议将卸载到DU中执，降低主机端U的占率，是分布式高性存高发的势的然。根实方不NVMe-oF的速案分分为卸与卸两种半载指将原运行在主机端的存储协议栈卸载到DU中的PU核心中处理，结合DU的专用加速元如解密压解压实现储的速DU存全卸仍然运在主端的存储议转移到DU中行但DU中的PU核负配置储制的参，，IO队列数、队列深度、可并发命令数等。在DU存储全卸载的模式下，主机发起的存储命令将直接通过DU，经由网络卸载引擎直接转发出去。类似的，接收网络传来的数据直接过端DU的储速元入机存进步低储问时时高存访的行。NVMe-oF在DU上实现卸载加速的基础是实现NVe设备虚拟化和ov2的大规模接能考虑NVe-oF的能最大化需在NVMe-oFInaor和et同实现卸载同NVe-oF的储务力也必可的如储据缩解缩加密密、AID纠码（rasureodeC等。GUDrectDMA力在前GPU的力力下10Gbps或大数量才够分挥单个GPU的力。在样的发趋势下基于DMA协的GUDrectDMA技在DU与GU通的过程中，可绕过主机内存，直接实现对GU内存的读写能力，并且DU上全硬件实现的DMA能支单百G以的据发力进实了GU算聚并最化提升了GU集算力GUDrectDMA技已经当算力源总级联高能网的主技。智能EN智中网同承计存管等种务量不业追目不同对网的求传方的N门值通手配的存一的陷首静态的N取无兼网中时在时敏老流和吐感象流N门设置低时可尽快发N拥标记通源端务器速，而持较的缓深度（较低队时延，对延敏的鼠流益。是，低的N门会影吞敏的象，制大流流带，法足象的吞。结了AI算的损列能N功可根现流量型行AI训对络流的变进预测并且以根队长度流量征调整N门，进队的精确度保整的优能。如图3-8所支智能N的备对网流量征行集并送至AI业组AI业组将据加的量型文智的无队设最的N门保无队的时和吞，而不流场下无业性都达最。图3-8据心换发片块成Deice备的发片对前量特进采，如列存用、宽吐当的N限置，后过eery术网流实状信推给AI务件。AI务件到送流状信后将据加的量型件当的量行景别判当的络量态否已场。果已场，AI务件从累大的N限置忆本流模文中推出当网络态配的N限置如是知流场，AI务件结合AI法在障带、时的提，当的N限断行时正最计出最的N限置。后AI务件符安策的优N限发设中调无队列的N限。于得新流状，备重进上操，而障损务最性能。无损队列的智能N功能可以根据现网流量模型进行AI训练，对网络流量的变化进行测，且以根队列度等量征调整N门，进队的精调度保障无业的优能。基于信元交换的网络级负载均衡基于流的转发负载分担衍生出很多扩展的负载分担方法，比如MP（equalcostmupahUM（uneqalcostutpah前不同路径间在行负均衡选时全价者同路在行载衡会差化权于重设则可以由制逻计而但不是种生展他都在同限制网设在接收到一条流进行转发时，此流经过hash计算确定一个转发路径，若不发生网络路径的变，此所的文将续在定路上发由于Hash计本就一范收敛计导不的选的径有叠般说络流数要远于径的数通大流叠加一来可保网上个径用对衡但在络中流小其均流数有的况一流数规低路数103就为的数不路叠后流压就易生大差这是家常的载担均。对规、小均流负均问，直困网数面发难题。在AIML的用中GU或他类的AIML计单元间们有非常单的讯关流数非少并由他有极的算导一通单间数据吞极单流大所的络宽大这导在样应中在端负载分担不均衡，而且这种不均衡一旦引发网络丢包，就会对整体A/ML的任务完成时间带来著负影。图39元发载担意图如图3-9所，在信交的网级载衡机下接端备收报，将文分的干元信会于的发的度令择闲链进转发，到目信被新装报发设在样机下不于流转一固定的流仅能用单条路径，交机A和交换机C之间的所链路都可以利用，而是动态的于观载时整均利元换身不一崭的术目广应用框设中卡片网芯之的量换遍采了元换技术实现框无塞换过元换前要用框设系内往是个换机备商定的元式调机不备厂互的力项术以一扩，用整网上是决算心络载衡题方之。网络可靠性及智能运维关键技术数据面故障感知与恢复故收网保连性的要整流依为故感即络备测故是发故传递即络备互通故信息故恢复即络备新计流路并流新径。期络障敛程部赖制通过询中感物故过议保机感链层上障由制路协成障递处理有程要软件参与，典型场景收敛性能为秒级。后来为提升故障收敛性能，业界引入D（双向转发检测）等检测技术来提升故障感知性能，采用R（快速重路由）来提升故障处理性能，同征将分障敛程数面件载低络障景制参获得著收，型景故收性提至毫量。然随网基带的续升以及AI计算高能存业对靠的高要毫量的敛能无满业发的求进步低障敛制参与将故收流硬卸完由据感传处故提故收

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

新一代智算中心网络技术白皮书

文档简介

温馨提示

最新文档

评论

新一代智算中心网络技术白皮书

文档简介

温馨提示

最新文档

评论

相关文档