胖树(Fat Tree)路由协议技术要求_第1页
胖树(Fat Tree)路由协议技术要求_第2页
胖树(Fat Tree)路由协议技术要求_第3页
胖树(Fat Tree)路由协议技术要求_第4页
胖树(Fat Tree)路由协议技术要求_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1本文件规定了胖树(FatTree)路由协议技术要求,包括邻居发现、拓扑交换、可达性计算、协议操作配置等内容本文件适用于数通领域,用于指导数据交换设备(包括路由器、交换机等设备)的研2规范性引用文件3术语和定义若干节点按照Spine-and-Leaf结构组成的网络实体胖树网络的顶层top-of-fabric层级level代表胖树网络在相同高度的上的节点的集合,或代表节点RIFT协议中可选的一种机制,采用这种机制可以自动为每个节点选择某个层级,并将fabric变成一个稳定的胖树网络胖树网络中最末梢的节点,叶子节点没有南向的邻居。通常叶子节点的level值为0,但是叶子节点的level也可以配置成其它数值拓扑信元topologyinformationelement拓扑信元在RIFT节点之间交互,拓扑信元描述一个网络的链路和地址前缀。拓扑信元总是有方向和类型。比如当处理北向表征中的拓扑信元时使用北向拓扑信元(NorthTIEs:2N-TIEs)、当处理南向表征中的拓扑信元时使用南向拓扑信元(SouthTIEs:S-TIEs)下列缩略语适用于本文件:有限状态机键值对链路信元最大传输单元maximmtransnissionu交付点pointofdelivery胖树路由协议routinginfat最短路径转发shortestpathfor拓扑信息描述元素opologyinfornationdt拓扑信元topologyinfornationelem拓扑信息请求元素topologyinfornationre结构顶部的节点topoffabriePoD顶层节点topofpodzerotouchprovisioning5RIFT协议基本原理胖树路由协议可将链路状态协议和距离矢量协议的优点结合起来,以最大程度地实现网络路由配置自动化和故障管理自动化,并用于Spine-and-Leaf结构的大规模数据中心中胖树路由协议支持多线程,可匹配多核CPU的处理能力。因此,胖树路由协议可以极大地节省操作和运维成本,并减少人为错误。胖树路由协议具有方向特性,具体表现为:向北为链路状态协议,向南则为距离矢量协议。如图1所示,胖树结构(Spine-and-Leaf结构)天然分层:结构顶部的节点(TopofFabric简称ToF)保持在最高级别,而底部节点(leaf节点)保持在最低级别。胖树路由协议用方向性来描述拓扑中不同级别之间的关系,并利用拓扑的这种特性,通过零接触部署(ZTP)功能进行错误布线检测。另外,协议在设计时也考虑了容错性。能够应对胖树结构的变异,比如同一层节点之间的水平链路或跨层的垂直直连链路。4RIFTdestinationportLIE交换可以完成邻居自动发现,协商ZTP参数,并协助发现布线错误。LIE报文的UDP目的端口号为914(也可以配置或指定为其它值),LIE报文传输的公知IPv4组播地址为224.0.0.121,公知IPv6link-local组播地址为FF02::ALF7,当然也可以配置或指定为其它值。LIE的IPV4报文中的TTL值或LIE的IPv6报文中的HopLimit必须设置为1或者255。具体协议部署时,设备在端口上监听或发送IPv4和或Ipv6组播报文,节点发送LIE所基于的地址族必须与它能处理的接收LIE所基于的地址族相同。同一条链路上的LIE被认为是相同的LIEFSM的一部分,且独立于LIE所发送到的地址族。拓扑交换(TIE交换)。节点可以使用在特定的接口上的LIE中看到的邻居的源地址来发送TIE。也就是说,节点必须接收所有来自LIE源地址的TIE。表1为LIEHeader的主要字段,表2所列的是邻居建立的状态机,表3为邻居建立的约束条件表2邻居建立的状态机Localnode已经从远端节点收到了一个有Localnode从远端节点收到的LE中看到它自身的SystenIDt值两个节点的PoD值必须匹配或任意节点必须通告如果Localnode是leaf节点,则它一定不能与renotHAT(HighestAdjaceneyThreelay)节点如果localnode不是leaf节点,则rerotenode必然是如果两个节点都是leaf节点,他们必须支持leat-2-如果两个节点都不是leaf节点,两者的level直接可达的前缓Direetlyrea自己生成的缺省前级Originated他N-TIE当本节点是ToF节点洪泛TIE(S-注:反射(SouthReflection)只适用于NodeS1.所有的N-TIEs有S-TIEs(请求)1.请求所有的N-TIEs向洪泛规则(应答)7在这种情况下,本地节点应生成一个新的空TIE,为该TIE设置一个更大的sequencenumber来为fabric刷新信息。传统的IGP会做checksum检查来验证路由信息的唯一性,并利用sequencenunber来代替老的路由更新。Checksum计算比较消耗资源。在RIFT里,只采用9可达性计算9.1基本原理一个节点有三方面的信息可以用于可达性计算。一个节点知道其南向的完整拓扑、北向的拓扑、从相应的prefixTIE获得prefix集合及相关的距离和带宽。为了计算前缀可达性。最短路径计算(SPF)也是有方向性的。一个节点需运行一个北向SPF和一个南向SPF。为了计算可达性,RIFT协议认为两个节点之间的所有平行链路的cost相同,该cost通过“NodeNeighborsTIEElenent”中的“cost”元素进行通告。如果邻居的多个平行链路的cost值不同,则必须通告距离最大的那个。当计算一个本地节点的N-TIEs,北向SPF只用到北向和东西向邻接关系。为了确保正确的双向连接,会利用来自上一层的S-TIE中的SystenID和层级做验证。北向SPF只有一跳(因为节点S-TIE只在两层之间发送,不会被洪泛到更低层去)a)东西向链路需要考虑缺省路由的情况:节点本身没有任何北向邻居,且相邻节点有一个或多个北向邻居。这两点规则形成了“一跳缺省路由水平分割”,可以确保缺省路由上没有环,且为节点(除ToF节点)在与所有北向邻居都失联的情况提供冗余保护:b)东西向链路会采用其它南向前级进行N-SPF的情况:当且仅当:没有北邻居通告相同非默认前缀或取代非默认前缓,且该节点不产生非默认的取代前级本身。即东西向链路只能用作特定前级的最后选择网关。南向SPF必须使用南向邻居的信息(在节点S-TIEs中),即处理的时候是面向更底层的节点。在S-SPF的计算中,不会用到E-W链路,这可以强制让报文在往南向转发时不改变它的方向。S-SPF必须使用节点N-TIEs中的北向邻居的信息(SystemID和level)来校验存在双向链路连接。9.4南向反射与解聚合缺省情况下,上层节点只往下层节点通告缺省路由。解聚合(DIG)是指一个节点往南向通告更多的明细路由的操作。其目的是为了阻止流量黑洞及非最优路由的情况。如果一个节点检测到它的缺省IP前级覆盖了一个或多个前级,即这些前级可以通过该节点转发所述前级的报文,但该节点发现所述前级的报文无法通过同层的其它节点进行转发则该节点必须显式的将所述前缀通过一个SouthTIE公告出去。否则的话,去往这些前缓的部分北向流量可能会被丢弃。即便这些流量没被丢弃,这些流量可能会从更高层spine节点迁回,从而可能导致fabric拥塞。这种往南通告及处理额外的前级的机制叫积极解聚合。这种解聚合行为通常只会影响9图4通过解聚合解决非最优路由如图4所示,由于Spinel21-Leaf121-Spinel22之间的南向反射和Spinel21-Leaf122-Spinel22之间的南向反射,Spinel21和Spine122在第1层互相知道对方的信息。如果没有解聚合机制,当链路SL6发生故障时,来自leaf121到prefix122可能会基于纯默认路由通过链路SL5上升到链路TS3,然后通过链路TS4下行到链路SL8再到Leafl22或基于纯默认路由通过上行链路SL5到链路TS6然后向下通过链路TS8和链路SL8到Leaf122。这是次优路由的情况。基于解聚合机制,当链路SL6失效时,Spine122会根据来自Spinel21反射的节点S-TIE检测到SL6失效.Spine122将在解聚合前级S-TIE的PrefixesElement(prefix122,cost中显式通告prefix122。来自leaf121发往prefix122的数据包只会在最长前缀匹配之后发送到链路SL7,然后通过链路SL8向下转发到Leaf122。图5通过解聚合解决流量黑洞如图5所示,当链路TS3和链路TS1都失败时,基于纯默认路由,从leaf111发往prefix122的数据包将遭受50%的流量黑洞。数据包会通过链路SL1到链路TSI然后送到链路TS3或链路TS4后被丢弃。数据包通过链路SL3到达链路TS2然后送到链路TS3或链路TS4后也会被丢弃。这就是黑洞的情况Spinel11\Spinel12南向反射的节点S-TIE检测到ToF21上出现的链路故障。ToF22将显式的发出包含prefix121和prefix122的一个S-TIE并洪泛到SpineH,Spine112,Spinel21和Spine122。因此,从leafl11发往prefix122的数据包将不会被路由到链路TS1或链路TS2,而会根据最长匹配原则被路由到链路TS5或链路TS7.消极解聚合相对比较复杂。当节点不能到达某个前缀时,则通告消极路由。当fabric包含多个平面时,消极解聚合是必需的。当某个节点失去某前缀的可达性时,该平面中所有上一层的节点都会触发消极解聚合。与积极路由不同,消极路由是可传递的。消极路由可以一直向南广播,直到解除流量黑洞。10其它操作方面10.1与BFD的互操作RIFT可以包含BFD[RFC5881]以对链接故障做出快速反应。在这种情况下,引入以下程序:在RIFTThreeWayhello邻接关系收敛之后,可以在RIFT端点之间自动形成BFD会话,而无需使用交换的discriminators进行进一步配置。在LIE中的LinkCapabilities属性中携带远端支持BFD的能力。如果已建立的BFD会话在启动后doun掉,RIFT应该重新初始化邻接关系,然后在收到连续的BFDUp后初始化。在节点之间是并行链路的情况下,每个链路可以独立运行自己的的BFD会话或者这些并行链路可以共

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论