CloudFabric云数据中心网解决方案-运营维护设计指南_第1页
CloudFabric云数据中心网解决方案-运营维护设计指南_第2页
CloudFabric云数据中心网解决方案-运营维护设计指南_第3页
CloudFabric云数据中心网解决方案-运营维护设计指南_第4页
已阅读5页,还剩125页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name CloudFabric云数据中心网解决方案 DOCPROPERTY DocumentName 设计指南(运营维护)目 录 TOC h z t 标题 1,1,标题 2,2,标题 3,3, 标题 4,4, 标题 5,5, 标题 7,1, 标题 8,2, 标题 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,Appen

2、dix heading 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc54964942 1 数据中心网络运维概述 PAGEREF _Toc54964942 h 1 HYPERLINK l _Toc54964943 1.1 数据中心网络智能运维背景与挑战 PAGEREF _Toc54964943 h 1 HYPERLINK l _Toc54964944 1.2 数据中心SDN网络运维需求与目标 PAGER

3、EF _Toc54964944 h 3 HYPERLINK l _Toc54964945 1.2.1 SDN数据中心Underlay网络可靠性 PAGEREF _Toc54964945 h 4 HYPERLINK l _Toc54964946 1.2.2 服务器批量上线效率 PAGEREF _Toc54964946 h 5 HYPERLINK l _Toc54964947 1.2.3 业务变更网络布放效果预测 PAGEREF _Toc54964947 h 5 HYPERLINK l _Toc54964948 1.2.4 既有业务网络可达性校验 PAGEREF _Toc54964948 h 5

4、HYPERLINK l _Toc54964949 1.2.5 故障快速发现定位及恢复 PAGEREF _Toc54964949 h 5 HYPERLINK l _Toc54964950 1.3 数据中心网络运维设计原则 PAGEREF _Toc54964950 h 6 HYPERLINK l _Toc54964951 2 DAY-0 规格化设计 - SDN数据中心Underlay网络设计 PAGEREF _Toc54964951 h 7 HYPERLINK l _Toc54964952 2.1 整体拓扑设计 PAGEREF _Toc54964952 h 7 HYPERLINK l _Toc54

5、964953 2.2 路由协议设计 PAGEREF _Toc54964953 h 10 HYPERLINK l _Toc54964954 2.3 扩展性设计 PAGEREF _Toc54964954 h 14 HYPERLINK l _Toc54964955 2.4 可靠性设计 PAGEREF _Toc54964955 h 15 HYPERLINK l _Toc54964956 2.4.1 可靠性设计一般原则 PAGEREF _Toc54964956 h 15 HYPERLINK l _Toc54964957 2.4.2 Border Leaf节点可靠性 PAGEREF _Toc5496495

6、7 h 16 HYPERLINK l _Toc54964958 2.4.3 Spine节点可靠性 PAGEREF _Toc54964958 h 16 HYPERLINK l _Toc54964959 2.4.4 Leaf节点可靠性 PAGEREF _Toc54964959 h 18 HYPERLINK l _Toc54964960 2.4.5 NGFW节点可靠性 PAGEREF _Toc54964960 h 24 HYPERLINK l _Toc54964961 2.4.6 vSwitch节点可靠性(受限商用) PAGEREF _Toc54964961 h 28 HYPERLINK l _To

7、c54964962 3 DAY-0 网络初始化 - ZTP开局 PAGEREF _Toc54964962 h 31 HYPERLINK l _Toc54964963 4 DAY-0 意图验证 - Underlay网络校验 PAGEREF _Toc54964963 h 32 HYPERLINK l _Toc54964964 5 DAY-1 业务方案&变更 - SDN网络业务发放前校验方案 PAGEREF _Toc54964964 h 36 HYPERLINK l _Toc54964965 5.1 网络业务编排(设计态) PAGEREF _Toc54964965 h 37 HYPERLINK l

8、_Toc54964966 5.2 网络资源仿真校验 PAGEREF _Toc54964966 h 38 HYPERLINK l _Toc54964967 5.3 网络连通性校验 PAGEREF _Toc54964967 h 38 HYPERLINK l _Toc54964968 5.4 设备配置变更内容预览 PAGEREF _Toc54964968 h 39 HYPERLINK l _Toc54964969 6 DAY-2-例行维护 PAGEREF _Toc54964969 h 40 HYPERLINK l _Toc54964970 6.1 单路径探测 PAGEREF _Toc54964970

9、 h 40 HYPERLINK l _Toc54964971 6.2 多路径探测 PAGEREF _Toc54964971 h 51 HYPERLINK l _Toc54964972 7 DAY-2 CloudFabric智能运维 PAGEREF _Toc54964972 h 59 HYPERLINK l _Toc54964973 7.1 CloudFabric智能运维方案总体架构 PAGEREF _Toc54964973 h 59 HYPERLINK l _Toc54964974 7.1.1 iMaster NCE-Fabric控制器架构 PAGEREF _Toc54964974 h 60

10、HYPERLINK l _Toc54964975 7.1.2 iMaster NCE-FabricInsight架构 PAGEREF _Toc54964975 h 63 HYPERLINK l _Toc54964976 7.2 SDN数据中心网络故障智能运维方案及功能介绍 PAGEREF _Toc54964976 h 65 HYPERLINK l _Toc54964977 7.2.1 网络故障智能运维能力全景 PAGEREF _Toc54964977 h 65 HYPERLINK l _Toc54964978 7.2.2 网关故障智能运维处理流程介绍 PAGEREF _Toc54964978

11、h 74 HYPERLINK l _Toc54964979 7.2.3 网络故障智能运维之网络监控能力 PAGEREF _Toc54964979 h 80 HYPERLINK l _Toc54964980 7.2.4 网络故障智能运维之故障发现 PAGEREF _Toc54964980 h 82 HYPERLINK l _Toc54964981 7.2.5 网络故障智能运维之问题定位定界 PAGEREF _Toc54964981 h 83 HYPERLINK l _Toc54964982 7.2.6 网络故障智能运维之故障恢复/隔离 PAGEREF _Toc54964982 h 86 HYPE

12、RLINK l _Toc54964983 7.2.7 数据中心典型故障智能运维case示例 PAGEREF _Toc54964983 h 87 HYPERLINK l _Toc54964984 Case1:交换机FIB表项跳变导致会话异常 PAGEREF _Toc54964984 h 87 HYPERLINK l _Toc54964985 Case2:光模块故障导致链路频繁闪断 PAGEREF _Toc54964985 h 88 HYPERLINK l _Toc54964986 Case3:ARP攻击 PAGEREF _Toc54964986 h 89 HYPERLINK l _Toc5496

13、4987 7.3 使用FabricInsight进行网络例行巡检 PAGEREF _Toc54964987 h 89 HYPERLINK l _Toc54964988 7.4 数据中心iMaster NCE-FabricInsight智能运维网络部署 PAGEREF _Toc54964988 h 90 HYPERLINK l _Toc54964989 7.5 iMaster NCE-FabricInsight和控制器的资源要求 PAGEREF _Toc54964989 h 90 HYPERLINK l _Toc54964990 7.6 方案约束(本节对外发布时不展示) PAGEREF _Toc

14、54964990 h 91 HYPERLINK l _Toc54964991 7.6.1 设备的能力约束 PAGEREF _Toc54964991 h 92 HYPERLINK l _Toc54964992 8 DAY-2 配置回滚 PAGEREF _Toc54964992 h 93 HYPERLINK l _Toc54964993 8.1 全网回滚 PAGEREF _Toc54964993 h 93 HYPERLINK l _Toc54964994 8.2 租户回滚 PAGEREF _Toc54964994 h 95 HYPERLINK l _Toc54964995 9 DAY-N 网络扩容

15、 - SDN数据中心服务器自动化批量上线 PAGEREF _Toc54964995 h 98 HYPERLINK l _Toc54964996 10 DAY-N 网络扩容 - 交换机扩容 PAGEREF _Toc54964996 h 102 HYPERLINK l _Toc54964997 11 DAY-N 设备更换 - 替换交换机 PAGEREF _Toc54964997 h 106 HYPERLINK l _Toc54964998 11.1 替换设备(非ZTP设备) PAGEREF _Toc54964998 h 106 HYPERLINK l _Toc54964999 11.2 替换设备(

16、ZTP设备) PAGEREF _Toc54964999 h 117 HYPERLINK l _Toc54965000 12 DAY-N 设备更换 - 替换端口 PAGEREF _Toc54965000 h 125 HYPERLINK l _Toc54965001 A 参考图片 PAGEREF _Toc54965001 h 128数据中心网络运维概述数据中心作为信息与信息系统的物理载体,主要用于与IT相关的主机、网络、存储等设备和资源的存放、运营及管理,只有运维好一个数据中心,才能发挥数据中心的作用,使之能更好的为业务部门提供强大的支撑能力。本文档主要针对数据中心的网络运维进行了阐述,其出发点在

17、于使用户能对SDN时代的数据中心网络实现精确管控维护,使SDN网络的管理水平和服务质量得到持续提升,此外对传统数据中心网络的建设有具有参考价值。 HYPERLINK l _ZH-CN_TOPIC_0202316164 o 1.1 数据中心网络智能运维背景与挑战 HYPERLINK l _ZH-CN_TOPIC_0206439491 o 1.2 数据中心SDN网络运维需求与目标 HYPERLINK l _ZH-CN_TOPIC_0202316166 o 1.3 数据中心网络运维设计原则数据中心网络智能运维背景与挑战本节主要介绍数据中心业务连续性及容灾标准。近来年,无论是金融、电信、互联网等行业的

18、大型企业,还是全国各个科技园区、各级政府都在如火如荼地进行数据中心建立,数据中心的稳定运行关系着国家信息安全和社会稳定,为了防范灾难和风险,保障业务连续性,国内外监管部门颁布了一系列业务连续性及容灾的标准。国内外数据中心规范对业务连续性要求ANSI/TIA-942-B 2017 数据中心电信基础设施标准主要是根据数据中心基础设施的“可用性( Availability )”、“稳定性( Stability )”和“安全性( Security )”分为四个等级: Tier I, Tier II, Tier III, Tier IV 。该标准所说的数据中心可以是政府或企业自有产权的自有数据中心,也可

19、以是运营商用于租赁服务的公用数据中心。该标准描述了各类数据中心或计算机房中,对通信基础设施的起码的、最低的要求。ANSI/TIA-942-B标准定义可信要求可用性指标/每年允许宕机时间Tier IBasic 基本系统没有冗余的基本的数据中心可用性99.671%、年平均故障时间28.8小时Tier IIRedundant Component冗余系统组件级冗余基础设施可用性 99.741%、年平均故障时间22.7小时Tier IIIConcurrently Maintainable并行维护可并行维护级机房基础设施,电源等主用1+ 备用1,多上行可用性 99.982%、年平均故障时间1.6小时Tie

20、r IVFault Tolerant 容错系统容错级机房基础设施,所有设施支持容错(上行链路、存储、制冷、电源等1+1主用)可用性 99.995%、年平均故障时间0.4小时ANSI/TIA-942-B突出对数据中心可用性/故障中断时间提出了要求:其中,Tier III 可用性 99.982%、年平均故障时间1.6小时;Tier IV 可用性 99.995%、年平均故障时间0.4小时。国内标准数据中心设计规范( GB50174)在满足中国数据中心行业发展的前提下,吸取国外数据中心设计的优点,结合中国数据中心行业的具体情况,增加补充具有数据中心行业特点的相关条文规定。主要围绕数据中心的可靠性、可用

21、性、安全、节能环保等方面提出进一步明确要求。数据中心设计规范根据数据中心的使用性质、数据丢失或网络中断在经济或社会上造成的损失或影响程度确定所属级别,将数据中心划分为分为 A ( 容错型)、 B (冗余型 )、 C ( 基本型)三个级别。GB50174级别可信要求可用性行业遵从与TIA-942-B级别对应关系A级容错系统应在一次意外事故后或单系统设备维护或检修时仍能保证电子信息系统正常运行当两个或两个以上地处不同区域、同城或者异地同时数据中心建设,要求互为备份,主要适用于云计算数据中心、互联网数据中心等最高等级金融行业、军事部门、交通、电信、国家信息中心Tier IVTier IIIB级冗余系

22、统基础设施在冗余能力范围内,不应因设备故障而导致电子信息系统运行中断居中科研院所、高校、政府办公楼Tier IIC级基本系统在基础设施正常运行情况下,应保证电子信息系统运行最低-Tier I行业数据中心规范对业务连续性要求金融行业金融数据中心一般都有本地的数据冗余保护或容灾建设,最主流的灾备技术是两地三中心建设,确保业务可靠可用性高,遵从数据中心设计规范A级标准。中国银监会发布商业银行业务连续性监管指引【2011】(104号),标志着国家和行业监管部门对业务连续性的重视程度已经提升到了一 个新的高度。商业银行业务连续性监管指引对运营中断事件等级定义事故等级定级定级标准监管处置I级事故特别重大运

23、营中断事件单机构单省中断6小时单机构多省中断3小时多机构多省中断3小时上报国务院II级事故重大运营中断事件单机构单省中断3小时单机构多省中断半小时多机构多省中断半小时上报银监会III级事故较大运营中断事件单机构单省中断半小时上报银监会电信行业运营商遵从数据中心设计规范A级标准,业务可用性99.995%(年平均故障时间0.4小时),处于国际标准Tier4范围。互联网行业YD/T 2441-2013 互联网数据中心技术及分级分类标准规定了互联网数据中心IDC在可靠性、绿色节能和安全性等三个方面的分级分类的技术要求,明确定义了IDC可靠性方面的等级为R1R3,其中R1为最低等级,R3为最高等级:R3

24、业务可用性99.95%,R2业务可用性99.9%,R1业务可用性99.5%。OTT可用性要求:OTT业务可用性基本要求99.95%(年平均故障时间99.99%(年平均故障时间99.99%(年平均故障时间99.9%(年平均故障时间8.76小时),可靠性为R2级别,介于国际标准Tier2和Tier3之间。数据中心SDN网络运维需求与目标在数据中心云化背景下,为了提示数据中心业务上线效率,数据中心网络业务发放也趋于采用SDN解决方案,随之而来的对网络运维效率也要求向智能化、自动化方向转变,以适应数据中心业务高效、复杂多变的业务需求。在此背景及目标的驱动下,华为CloudFabric为数据中心SDN网

25、络提供了智能化的运维解决方案。华为CloudFabric运维解决方案的愿景:建设自动化、可视化、智能化的数据中心,并最终实现无人值守。CloudFabric运维解决方案的愿景根据国内外数据中心设计标准业务可用性要求,结合客户对业务SLA等级越来越高的要求,华为CloudFabric运维解决方案制定了SDN场景下的运维目标:1分钟故障发现,3分钟故障定位,5分钟故障恢复。版本如下:V100R019C10:支持75+故障场景,实现1分钟自动发现、3分钟故障定位、5分钟故障修复。V100R020C00:管控析融合统一3个入口:业务发放入口、统一监控入口、故障处理入口。业务发放入口:包括Underla

26、y/Overlay业务自动化部署、意图验证引擎实现配置变更无人值守。统一监控入口:包括物理网络、逻辑网络、应用网络资源分布情况、健康度状态。故障处理入口:以故障快速恢复为主线,对故障处理生命周期全过程实现连贯性处理。SDN数据中心Underlay网络可靠性随着数据中心业务云化的开展,用户对数据中心网络的可靠性等有了更高的要求,业务云化也带来了资源池化的需求,相应的要求网络能够满足在更大范围上的资源池化部署,同时,在互联网+的大形势下用户要求能够实现业务的快速部署,从传统的周、月部署周期,提升到天、小时级的部署周期,甚至让业务实现分钟级上线,但这些高效提升的前提是要求数据中心Underlay网络

27、能够适应SDN业务的发放特点,提供稳定可靠的网络保障性,因此在进行SDN网络设计时,针对Underlay网络的可靠性需要从网络的接入侧、网络侧、转发设备、VAS设备、网络出口等多个层面来综合考虑、全面设计,打造端到端的数据中心可靠网络。服务器批量上线效率在数据中心的日常维护中,服务器扩容是一个经常性且关键的工作,通常情况下管理员需要事先规划好服务器网卡与交换机的连接关系,包括管理网、存储网、业务网等多个网络平面。传统的运维模式下通过人工按规划设计对交换机进行配置,完成服务器的接入上线。但在云化数据中心场景下,对业务的上线效率要求越来越高,采用人工配置完成大批量服务器上线的速度越来越跟不上业务节

28、奏的要求。尤其是在SDN组网场景下,也需要考虑采用自动化、智能化的方案实现服务器的批量快速上线。业务变更网络布放效果预测在SDN组网场景下,业务的逻辑网络是由管理员在O层编排完成的,但下发到网络设备上的具体配置是由SDN控制器自动转换后下发的,相对于传统的网络配置方法,采用SDN后管理员对于SDN控制器下发的何种具体配置将无从知晓。但在某些场景下,如:管理员正在经历传统手工配置向SDN自动发放过度,或者某些重要业务管理员希望能在业务网络布放前校验SDN下发的配置是否正确,这就要求SDN方案能具备业务网络布放前提供预先校验的能力,包括配置校验、资源校验、业务可达性校验等多个方面效果预测。既有业务

29、网络可达性校验Underlay网络初始化部署完成后,为了能验证网络设备上线后的连通性及路由转发实现是否符合预期,用户一般会用ping,trace等常规测试方法进行验证,但这种验证手段效率较低,且验证效果并不全面,所以就需要一种更高效的方案来替代传统方式,SDN组网场景下用户也希望能采用一种自动化方式来达到此种目的。故障快速发现定位及恢复在数据中心网络的日常维护中,非常重要的一项工作就是网络中故障的快速发现定位并能及时排除,按照传统维护经验,网络中的故障发现主要通过两种途径:网管系统收集的告警、日志及设备上报的统计数据等通过网管系统告警进行故障发现有几个显而易见的问题:1是时效性比较差,网管收集

30、设备数据本身有一定的时延,管理员在网管系统上发现告警等故障数据又会有一定的周期,甚至有些故障初期显现的苗头数据不一定会得到管理员的关注和处理;2是复杂故障的发现需要依靠管理员的经验,通过对多种网管数据、指标的综合分析才能最终断定。3是由于设备算法或底层芯片故障导致的流转发类异常的,管理员目前并有效的发现和定位手段,往往需要厂商技术支持人员现场排查才能准确判断;业务报障有很多网络中产生的故障,通过网管系统收集的日志或统计数据是无法及时发现的,比如设备上的配置错误、转发表项异常抑或是业务遭受了攻击导致的异常等等,在传统数据中心网络运维模式下,这些网络问题往往业务上报故障时间会早于网络管理员主动发现

31、问题的时间。而且这类问题的排除定位通常也会费时费力。在SDN组网场景下,为了能跟上业务发放、变更的高效节奏,网络故障也需要具备快速发现、定位以及恢复的能力。这就需要网管运维系统除了收集传统的日志告警类信息外,还需要收集更多的指标类、资源类、表项类甚至是会话交互数据,同时还要具备海量数据的分析处理能力,并能从中找出故障间的关联线索实现快速准确的故障定位,对于其中可以通过配置实现故障恢复或隔离的,还要具备恢复预案的自动生成能力,必要时这些预案可实现一键式下发从而实现对故障的快速恢复或隔离。数据中心网络运维设计原则华为CloudFabric V1R19C10提供了数据中心SDN网络DAY0-DAYn

32、全生命周期的设计指导原则及方案实现指南,本篇文章针对数据中心网络在生命周期每个阶段的重点运维设计工作将进行展开介绍。DAY-0 规格化设计 - SDN数据中心Underlay网络设计在华为CloudFabric解决方案中,Underlay网络从Fabric骨干组网结构、Server Leaf接入、Border Leaf接入、网络出口以及Underlay网络路由等多个方面进行了全新的考量和设计,力求满足数据中心云化场景要求,提升SDN Overlay场景下的网络可靠性,灵活性及可弹性扩缩等方面的能力。 HYPERLINK l _ZH-CN_TOPIC_0219248319 o 2.1 整体拓扑设

33、计 HYPERLINK l _ZH-CN_TOPIC_0219248320 o 2.2 路由协议设计 HYPERLINK l _ZH-CN_TOPIC_0219248321 o 2.3 扩展性设计 HYPERLINK l _ZH-CN_TOPIC_0219248322 o 2.4 可靠性设计整体拓扑设计物理网络架构概览根据华为CloudFabric解决方案对数据中心组网的先进设计理念,一个典型的数据中心内部的物理组网架构,应遵循Spine-Leaf架构。华为推荐的物理组网如下图所示。推荐的物理组网方式其中对上图CloudFabric解决方案的物理组网中各类角色的定义参见下表。物理组网中各类角色

34、的功能说明物理组网角色含义和功能说明Fabric一个SDN控制器管理的网络故障域,可以包含一个或多个Spine-Leaf网络结构。Spine骨干节点,VXLAN Fabric网络核心节点,提供高速IP转发功能,通过高速接口连接各个功能Leaf节点。Leaf叶子节点,VXLAN Fabric网络功能接入节点,提供各种网络设备接入VXLAN网络功能。Service LeafLeaf功能节点,提供Firewall和LoadBalance等L4L7增值服务接入VXLAN Fabric网络的功能。Server LeafLeaf功能节点,提供虚拟化服务器、非虚拟化服务器等计算资源接入VXLAN Fabri

35、c网络的功能。Border LeafLeaf功能节点,提供数据中心外部流量接入数据中心VXLAN Fabric网络的功能,用于连接外部路由器或者传输设备。DCI Leaf(Fabric Gateway)Leaf功能节点,提供跨Fabric三段式转发时,VXLAN Mapping的网络功能,具体使用情况见MultiFabric设计指南。华为CloudFabric解决方案,要求一个典型的数据中心组网中Fabric网络结构具有以下几个特点:包含了一个或多个Spine-Leaf结构;具有高带宽、大容量能力;接入节点间无差异性;采用扁平结构,由于当前数据中心内部东西流量较大,因此采用扁平化设计可使流量路

36、径尽可能短,转发效率高;灵活组网、弹性扩缩:当服务器数量增加时,可相应增加Leaf数量;当Spine转发带宽不足时,可相应增加Spine节点个数,扩容灵活。对于Spine-Leaf架构的组网,推荐以下组网形态:推荐采用由CE大容量物理交换机组网;推荐采用L3网络、部署IGP路由协议:Leaf和Spine之间采用三层互联;推荐采用ECMP实现等价多路径负载均衡和链路备份:从Leaf通过多条等价路径转发数据流量到Spine,在保证可靠性的同时也能提升网络的带宽。Fabric提供的服务原则上要求网络接入节点间可提供无差异互访能力。物理网络设计基本原则一个数据中心网络内部推荐采用由CE系列交换机组成的

37、Spine-Leaf结构,并根据网络规模来灵活配置Spine和Leaf的节点数量。Fabric中ECMP示意图Spine设计在Spine-Leaf网络架构中,Spine的数量由Leaf到Spine的收敛比(Leaf的下行总带宽和Leaf的上行总带宽的比值,不同的行业及不同的客户有各自的要求)来决定。Spine节点与Leaf节点之间使用以太网口互联,并且配置成三层路由接口模式,从而构建全IP Fabric网络。Leaf设计Leaf可使用多种灵活组网方式,如M-LAG(推荐)和堆叠。每一个Leaf节点与所有Spine节点相连,构建全连接拓扑形态。Leaf节点的TOR设备数量较多,建议通过ZTP的方

38、式来部署TOR设备,降低部署复杂度。ZTP - Zero Touch Provisioning 是指新出厂或空配置设备上电启动时采用的一种自动加载版本文件,包括系统软件、配置文件、补丁文件的功能。转发设计Underlay路由建议选择OSPF动态路由协议,Spine-Leaf间可以形成IP ECMP等价路径。Leaf设备到Spine设备的流量形成ECMP负载分担,无阻塞转发,故障快速收敛。ECMP链路须选择基于L4 Port的负载分担算法,由于VXLAN使用的是UDP封装,因此VXLAN报文的目的端口号是4789不变,而VXLAN报文头部的源端口号可变,基于此来进行负载分担。路由协议设计Unde

39、rlay层面的路由协议,建议选用OSPF(推荐)或EBGP。Underlay路由选用OSPF当TOR规模小于100台时,推荐Underlay路由选用OSPF,此时路由规划如下:单Fabric内部,Spine和Leaf节点的物理交换机上全部部署OSPF,并都在Area 0中,使用三层路由口地址建立OSPF邻居,打通Underlay路由,network类型建议为P2P,如REF _fig11570115503310 r h图2-3所示。多Fabric之间互联设备部署在OSPF Area0,打通Underlay路由,如REF _fig14995181182015 r h图2-4所示。单Fabric内

40、部OSPF路由规划推荐单Fabric部署OSPF路由规划推荐多Fabric部署OSPF路由规划推荐当Underlay的路由选用OSPF时的优缺点对比参见下表。Underlay路由为OSPF时的优缺点对比说明项目说明优点OSPF路由协议部署简单OSPF路由收敛速度快Underlay中的OSPF路由协议报文与Overlay中的BGP协议报文不同队列,VRF和路由表项都相互隔离,从而实现underlay和overlay路由协议故障上互相隔离缺点OSPF路由域规模受限故障域较大Underlay路由选用EBGP当TOR规模大于200台时,推荐Underlay路由选用EBGP,该场景路由规划如下:单Fab

41、ric内部,Spine节点划分一个AS,每个Leaf节点分别划分一个AS,Leaf节点和所有Spine节点之间部署EBGP邻居(IPv4地址族),如REF _fig2034154819417 r h图2-5所示。多Fabric之间通过互联设备部署EBGP邻居,打通Underlay路由,如REF _fig6141155516286 r h图2-6所示。单Fabric内部EBGP路由规划推荐多Fabric之间EBGP路由规划推荐当Underlay的路由选用EBGP时的优缺点对比参见下表。Underlay路由为EBGP时的优缺点对比说明项目说明优点每个分区路由域独立,故障域可控路由控制灵活,可灵活扩

42、展规模适合大规模组网缺点配置复杂Underlay路由协议选择对比不同的Underlay路由协议之间的对比参见下表。不同的Underlay路由协议之间的对比说明项目优点缺点适用场景OSPFOSPF路由协议部署简单OSPF路由收敛快速Underlay中的OSPF路由协议报文与Overlay中的BGP协议报文不同队列,VRF和路由表项都相互隔离,实现故障的隔离OSPF路由域规模受限故障域较大中小型网络单Area,大型网络三层架构多Area;建议邻居数200建议多POD规划,避免单POD邻居数100,避免路由域过大影响网络性能EBGP每个分区路由域独立,故障域可控路由控制灵活,可灵活扩展规模适合大规模

43、组网配置复杂中大型网络建议邻居数500建议多POD规划,避免单POD邻居数 网络检测”。选择需要检测的Fabric,单击“开始检测”。用户也可进入物理拓扑图,右键单击需要检测的Fabric图标,选择“网络检测”,开始检测。页面左侧显示检测进展。当检测进度达到100%时,检测完成,显示检测结果,包括验证结果总数、正常路径数、不通路径数、网络环路数和路由黑洞数。在验证结果页面下方选择对应页签分别查看检测结果。连通性连通性显示的是设备分别作为源设备和目的设备与其他设备之间的链路的连通性检测结果。当“状态”为“故障”,则表示源设备与目的设备之间的某一条或多条链路断连。当“状态”为“正常”,则表示源设备

44、与目的设备之间的所有链路正常。单击查看源设备与目的设备之间所有路径信息与状态。单击某一条路径,页面上方拓展示该条链路的拓扑图。路由黑洞显示网络中所存在的路由黑洞。路由环路显示网络中所存在的路由环路。配置校验显示网络配置参数的校验结果。单击参数后面的数字,列表显示该参数校验详情,包括错误类型和错误码。单击错误信息前的,查看报错设备和参数值。结束DAY-1 业务方案&变更 - SDN网络业务发放前校验方案数据中心内的业务系统借助虚拟化、云计算、容器等技术极大的提高了业务部署的敏捷性及资源利用率,计算实例(裸金属/虚机/容器等)根据业务需求持续的在不同物理服务器上被创建、部署、变更和销毁;数据中心网

45、络也逐渐从相对稳定演进到了持续的动态变化,网络业务发放及变更等操作也变得更加频繁,以满足多变的业务诉求及计算实例部署形态的变化;虽然SDN技术通过采用图形化界面、拖拽式操作等在一定程度上提高了网络业务发放及变更效率,但是技术人员在运维数据中心网络时仍然存在以下几个问题:无法预判网络设备资源(例如BD/VNI、VRF、静态路由等)是否满足新业务发放需求;网络变更实施前难以评估网络变更对现有业务的运行是否会造成影响;网络变更完成后业务是否能正常运行难以评估,故障感知依赖被动值守等待业务上线运行异常;网络业务发放及变更引起的网络设备配置变化无法感知,依赖于事后逐设备人工比对。华为CloudFabri

46、c网络业务发放前校验(CPV)方案引入“设计态”概念,用户可以对需要进行业务变更/发放的租户开启“设计态”;开启“设计态”后用户进行网络业务及变更编排,编排完成后提交给iMaster NCE-Fabric对变更内容进行自动化仿真验证,并可针对用户网络资源、配置变更内容、连通性等进行自动化仿真校验,业务流程如下图所示。业务发放前校验流程 HYPERLINK l _ZH-CN_TOPIC_0214568978 o 5.1 网络业务编排(设计态) HYPERLINK l _ZH-CN_TOPIC_0214568979 o 5.2 网络资源仿真校验 HYPERLINK l _ZH-CN_TOPIC_0

47、214568980 o 5.3 网络连通性校验 HYPERLINK l _ZH-CN_TOPIC_0214568981 o 5.4 设备配置变更内容预览网络业务编排(设计态)用户针对需要进行网络业务编排的租户开启设计态,当前iMaster NCE-Fabric仅支持同时对一个租户开启设计态;用户可以对租户所属的VPC业务及跨VPC互通业务进行编排用户在设计进行的变更操作不会直接下发到设备。设计态编排界面和iMaster NCE-Fabric上普通业务发放界面一致,业务编排添加的元素(逻辑路由器/交换机等)在编排界面中的图标会添加+进行识别,如下图:用户完成业务编排后可将编排内容提交仿真,iMa

48、ster NCE-Fabric会对已存在业务及本次编排内容进行仿真模拟;用户提交仿真时配置内容并不会真实下发到CE交换机,而是通过仿真引擎对已有配置和新增配置进行叠加后进行建模:网络资源仿真校验数据中心内网络设备数量众多且配置复杂,云计算及容器技术给业务应用带来敏捷性的同时也增加了网络的复杂性及网络业务发放/变更的频率。发放新的业务或进行网络变更前运维人员需要评估设备上的资源是否可以满足新的业务需求,以避免由于设备资源不足导致业务下发失败或新业务下发导致已有业务故障;传统情况下依赖于运维人员人工登录设备查看当前资源使用率,之后根据个人经验对资源需求进行预估,这种操作方式不仅效率低下且准确度取决

49、于运维人员的技术水平。iMaster NCE-Fabric的网络资源仿真校验功能通过对设备资源持续监控获取实时设备资源利用率,并通过CPV仿真建模准确预估单次业务发放需要消耗的网络资源;从而可以辅助用户判断整网设备的空闲资源是否可以满足待下发业务的需求,以避免网络设备资源不足导致业务下发失败或其他故障。用户在设计态完成业务编排后提交仿真,iMaster NCE-Fabric建模仿真后直观呈现待发放业务的资源校验结果,如下图所示。如上图,用户在“资源占用及配置变更”界面可直接查看待部署业务即将下发到哪些设备上,iMaster NCE-Fabric直观的呈现每台设备上资源占用情况(已消耗/本次消耗

50、/资源总量)。网络连通性校验用户在设计态完成业务编排后,可以先提交业务连通性仿真校验,在配置下发到网络设备上之前,就通过仿真系统查看业务的连通情况是否符合预期,用户通过选取需要校验的源和目的对象提交连通性校验。源和目的对象可以是endport、logic switch及logic router,用户也可以指定业务会话的协议和端口,以便聚焦验证范围。如果用户提交的是IP地址,则控制器会验证所有65535个协议端口间的连通性情况。如果用户提交的是logic switch,则控制器会校验两组logic switch间IP+端口的所有组合。如果用户提交的是logic router,则控制器会校验两组l

51、ogic router间IP+端口的所有组合。设备配置变更内容预览用户通过设计态编排的业务,在网络配置下发到设备上之前可以预先将配置呈现出来,供用户查看配置详情。DAY-2-例行维护 HYPERLINK l _ZH-CN_TOPIC_0230831773 o 6.1 单路径探测 HYPERLINK l _ZH-CN_TOPIC_0230831774 o 6.2 多路径探测单路径探测单路径探测功能可以查看虚拟机、物理机、容器或设备之间具体业务流的实际物理路径,以及检测业务流是否有中断异常。业务能力支持查看业务流的实际物理路径或者检测业务流是否有中断异常。支持IPv4和IPv6类型的Overlay

52、网络路径探测。支持跨Fabric的单路径探测。支持容器网络的单路径探测。支持探测VM接入侧路径。支持指定端口的统计流量。实现原理使用单路径探测时,iMaster NCE-Fabric控制器向源CE设备发送openflow的packetout报文,该报文模拟业务流,报文中封装了正常业务流相关的五元组(源IP、目的IP、源Port、目的Port、Protocol)、Mac等信息。源设备将该packetout报文按照业务的转发路径进行转发,路径中所有接收到packetout报文的设备都会上报对应的packetin报文给iMaster NCE-Fabric控制器。iMaster NCE-Fabric控

53、制器通过解析packetin报文,并结合实际链路,计算出探测路径。不支持跨VPC互访流量绕行防火墙场景的路径探测,防火墙不支持路径探测。不支持泛洪场景的路径探测,当转发面出现VM流量泛洪时,会造成路径发散,iMaster NCE-Fabric无法计算探测路径,导致访问该VM的流量的路径探测失败。不支持BUM流量的路径探测。不支持探测NE路由器作为节点的路径。不支持CE1800V下挂VM场景的路径探测。操作步骤请确保待执行单路径探测的设备的ACL资源未被其他配置占用,若有路径探测以外的配置正在占用ACL资源,请关闭占用开关。开启全局使能开关。在执行所有路径探测前需在iMaster NCE-Fab

54、ric上开启全局使能开关,否则无法执行路径探测。在“运维监控”APP的菜单中选择“诊断 诊断设置”。在“路径探测使能开关”页签下,请根据Overlay网络类型开启路径探测开关。IPv4若组网中存在第三方设备,请设置DSCP值,取值范围为063,DSCP数值请根据自身网络规划进行设置。不填写则表示不使用DSCP方式探测。将开关设置为“ON”,页面提示“确定要继续吗?”,单击“是”。IPv6设置DSCP值,取值范围为0-63,DSCP数值请根据自身网络规划进行设置。仅特定类型设备支持非DSCP方式,请查询设备手册后进行配置。将开关设置为“ON”,页面提示“确定要继续吗?”,单击“是”。在“路径探测

55、使能设置”页签下,可查看所有设备上路径探测使能开关的配置情况。勾选设备,单击“应用”,对选中的设备应用当前路径探测使能开关配置。不带DSCP的IPv6探测只支持多路径探测,执行IPv6单路径探测前必须设置DSCP值。关闭南向OpenFlow的TLS开关。在“系统”APP的菜单中选择“系统设置 南向协议 OpenFlow OpenFlow配置”。将TLS开关设置为“OFF”状态。配置任务参数。在“运维监控”APP的菜单中选择“诊断 单路径探测”。分别选择源和目标类型并填写相应的任务配置参数,参数说明请参见REF _table4602813173014 r h表6-1。源和目标为设备的探测任务适用

56、于网络虚拟化-机架出租场景。当源和目标节点均为设备类型时,用户可以在设备图标上单击右键,单击快捷菜单中的“设为路径探测源”或“设为路径探测目标”将该节点设置为路径探测的源或目标交换机。周期性探测任务的间隔时长需至少设置为探测超时时间的12倍。添加或立即执行探测任务。若探测任务暂不执行,可先将任务添加至任务列表。单击“添加到任务”。单击,选择“任务配置信息”页签,查看任务配置信息。对创建的任务可进行开始、停止和删除等操作。若立即开始探测任务,单击“开始探测”。查看探测结果。结果为“完成”,表示探测成功且路径正常。单击任务前的,页面显示双向路径探测结果,单击“源目的”或“源目的”页签分别查看对应路

57、径信息。页面左侧的拓扑图中以动态光标标识探测报文转发的路径和方向。结果为“失败”,表示因源节点无法找到或其他原因,造成探测任务无法开始执行。结果为“超时”,表示探测任务已执行,但因路径不全或中断导致报文转发失败。单击任务前的,页面只显示能正常转发探测报文的路径,中断节点及后续路径不显示。双向探测的路径可能为两条不同的路径。当目标节点的IP不在iMaster NCE-Fabric纳管的Fabric范围内时,探测结果会显示超时,并且只显示单向探测结果即源节点到目标节点之间在Fabric范围内的路径。统计指定端口的流量。单击“指定流量统计端口”。在页面中勾选需要统计的端口,选择流量统计类型,若需要统

58、计所有端口,则开启“统计所有源协议端口”,单击“下发”。设置流量统计时请根据不同场景选择对应的流量统计类型:非Transit:转发过程中对报文进行VXLAN解封装处理。适用于独立的BorderLeaf、Spine与BorderLeaf合一、ServerLeaf连接Spine或其他交换机设备连接ServiceLeaf的场景。Transit:转发过程中仅对报文进行IP转发。适用于三层组网中的Spine设备。Access:非VXLAN报文接入VXLAN网络。适用于ServiceLeaf设备连接VAS端口的场景。单击“流量统计结果”,查看结果。丢弃的报文数和字节数:进入该端口时匹配流分类规则的报文中丢

59、弃的报文数和字节数。此处统计的丢弃数据为因过滤动作和CAR(Committed Access Rate)动作所造成丢弃的统计数据之和。通过的报文数和字节数:进入该端口时匹配流分类规则的报文中通过的报文数和字节数。结果中所显示的数据均为从最后一次清空流策略统计信息到当前的所有统计数据。结束后续处理用户可以根据任务名称,探测任务起始和结束时间、探测结果查询历史任务,并查看任务详情,历史任务包括已执行的和已创建但未执行的所有任务。最近24小时内的历史任务(以控制器当前时间为准)单击单路径探测页面任务列表下的。填写任务名称、探测起始时间、探测结束时间和探测结果,其中起始时间和结束时间必须在24小时内,

60、单击“搜索”。单击搜索结果前的查看任务执行详情。24小时之前的历史任务单击单路径探测页面任务列表下的“历史任务”。在弹出页面中单击“单次执行任务”或“周期执行任务”页签,分别搜索单次或周期历史任务。填写任务名称、探测起始时间、探测结束时间和探测结果,单击“搜索”。单击搜索结果前的查看任务执行详情。单击“清除”,页面清除搜索结果,显示所选页签类型的所有历史任务。参数说明单路径探测页面的参数说明参数名称说明源和目标为VM/BM/容器/DynamicIP版本Overlay网络类型:IPv4IPv6源IP源VM、BM、容器或者Dynamic类型Endport的IP地址。源协议端口号探测报文的源协议端口

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论