iMasterNCEFabricInsight智能运维系统解决方案课件_第1页
iMasterNCEFabricInsight智能运维系统解决方案课件_第2页
iMasterNCEFabricInsight智能运维系统解决方案课件_第3页
iMasterNCEFabricInsight智能运维系统解决方案课件_第4页
iMasterNCEFabricInsight智能运维系统解决方案课件_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、华为iMaster NCE-FabricInsight智能运维系统解决方案第1页,共55页。人工故障识别人工主导的传统运维亟待向AI使能的智能运维演进人工抓包定位人工逐步隔离2.02.86.481.61.10.630.09媒体医疗零售制造电信能源金融来源: Network Computing, the Meta Group and Contingency Planning Research30%传统运维 可以识别70%传统运维无法识别异常流 占全网流3.65%故障0容忍每小时停机损失百万美元故障发现难85%的网络故障业务投诉后才发现故障定位难一个故障定位平均耗时76min第2页,共55页。基于

2、AI的数据中心网络智能运维Telemetry秒级数据采集传统网管SNMP协议5分钟轮询周期智能化网络全场景数据可视7大维度指标分析+动态基线故障1-3-5处理AI算法+专家经验全面网络健康度评估五层评估模型+AI算法iMaster NCE-FabricInsight以设备为中心每天巡检2小时以业务为中心 分钟级识别风险被动响应依赖人工定位主动运维自动化排障第3页,共55页。iMaster NCE-FabricInsight,提供DCN的智能运维方案Telemetry多维数据采集Telemetry机制 更实时,更高效网络Metrics数据(CPU/MEM/Bandwidth/Buffer)网络转

3、发表信息(FIB/ARP)SYSLOG 数据(Level 0 4)网络资源数据(设备/单板/端口/协议/Overlay)网络配置数据(Running Config)网络拓扑数据(物理拓扑/协议链路/Overlay 隧道)AI智能数据分析AI引擎机器学习算法库机器学习框架ODAE 数据分析引擎数据处理框架智能分析框架Druid 引擎FusionInsight 大数据平台SparkKafkaHDFS网络健康度评估运维服务AppTelemetry 数据可视化异常检测流量预测VMTrackerChangeDiffLogInsight风险评估故障分析 + 闭环联动五层健康评估体系VIP业务保障业务意图验

4、证数据面建模业务意图管理运维服务APP第4页,共55页。数据分析5 /15 min分钟级轮询,无法满足业务实时诉求简单统计呈现,人工决策Near realtime准实时数据获取请求应答模式,采样间隔大一次订阅,持续数据推送非结构化数据,编解码效率低传输格式数据采集数据生成SNMPTelemetry方式数据智能分析,自动化排障GPB二进制编解码,传输高效准实时的数据获取能力,是分析器进行数据分析的关键依赖Telemetry监控基于Telemetry技术,满足实时分析诉求网络健康度运维服务APPVIP 业务保障第5页,共55页。基于机器学习算法的异常检测数据集&预处理构建动态基线异常检测采集频率自

5、动识别缺失值自动填充降噪数据: 对极端异常数据降噪特殊适配: 在节假日等额外处理数据输入: 功能:输出:指标时间序列数据 (val,time)数据特征(取值稳定或周期稳定)指标采集周期功能:周期稳定指标算法:时间序列分解取值稳定指标算法:Gaussian回归通过算法构建基线边界调整基线敏感度输出:预测下一采集间隔的基线边界异常数问题抑制与合并问题通知输出:功能:异常Telemetry监控网络健康度运维服务APPVIP 业务保障第6页,共55页。Telemetry 主动监控,网络实时可视八大维度关键指标实时监控,网络状态尽在掌控建立Benchmark,对比基线指标趋势,识别异常指标识别指标异常的

6、设备测量对象测量指标默认周期设备版本设备CPU 利用率/ 内存利用率1 minV200R005C00单板CPU 利用率/ 内存利用率 FIB / MAC 表项利用率1 minV200R005C10芯片TCAM 利用率1 minV200R005C10端口收/发包数/ 字节数 / 丢包数/ 错包数/ 广播包数/ 组播包数/ 单播包数1 minV200R005C00队列Buffer Size100 msV200R005C00光模块收/发光功率,电流, 电压, 温度30 minV200R005C00丢包行为拥塞丢包感知10 sV200R005C00表项FIB / ARP 表项详情动态订阅V200R01

7、9C10丢包行为CE6865-48S8CQ-EI/CE8850-64CQ-EI/CE6857/CE8861/CE8868/CE9860支持高效数据采集基于GRPC主动准实时订阅, 性能佳,效率高丰富数据类型八大维度数据采集, 常规指标主动管理直观状态呈现基于动态基线智能检测异常,历史趋势对比呈现,便于网络调优TelemetrySNMPTelemetry监控网络健康度运维服务APPVIP 业务保障第7页,共55页。智能无损DCN Telemetry指标监控基于Telemetry技术,监控AI ECN关键KPI指标, 覆盖ECN/PFC/Buffer/Headroom/Deadlock 多个维度智

8、能无损DCN Telemetry Metrics 集合测量对象测量指标默认周期设备版本设备CPU 利用率 / 内存利用率1 minV200R005C00单板CPU 利用率 / 内存利用率FIB / MAC 表项利用率1 minV200R005C10芯片TCAM 利用率1 minV200R005C10端口包数 / 字节数 / 丢包数 / 错包 数 / 广播包数 / 组播包数 / 单 播包数1 minV200R005C00队列Buffer Size100 msV200R005C00AI ECNGuaranteed Buffer / Headroom Buffer / PFC反压 帧数 / PFC死

9、锁监控次数 / PFC 死锁恢复次数 / ECN 报文数1 minV200R005C10光模块收/发光功率,电流, 电压, 温度30 minV200R005C00丢包行为拥塞丢包感知10 sV200R005C00Telemetry监控网络健康度运维服务APPVIP 业务保障第8页,共55页。Overlay网络协议设备硬件状态:单板/风扇/电源等CPU/内存负载容量:ARP/FIB/MACM-LAG 组状态OSPF/BGP Peer 连接BD、VNI、VRF资源及运行状态端口流量、错包队列深度网络互连端口状态光链路状态感知网络链路负载情况,是否有拥塞丢包物理器件是否有状 态异常、资源溢出承载网络

10、稳定的协议无异常承载业务的虚拟网络平面无异常业务基于网络流分析业务建连情况业务转发无异常分析解读20+类监控对象,70+项指标数据,直观呈现全网体验质量Telemetry监控五层健康度评估模型,直观感知网络质量网络健康度运维服务APPVIP 业务保障第9页,共55页。网络健康度“全身体检”, 系统评估DCN质量好不好事后人工巡检事前风险预防Step1健康概览基于五层模型全面评估分析,看看整网 的健康有没有问题?趋势如何?Step2多维度详细分析设备/网络/协议/业务/Overlay各 个单维度详细分析,健康状态趋 势是否劣化?Step3专业报告解读针对单个维度问题总结,报告定期推送邮箱, 查看

11、检测详情,识别问题异常点在哪里?Telemetry监控网络健康度运维服务APPVIP 业务保障第10页,共55页。指标详情基于网络健康度评估体系五大维度指标,识别网络质量问题。全网概况资源概况、运行负载概况、质量概况,全网信息一目了然。报告明细多维度报告详细呈现,识别状态异常的监控项,帮助快速修复与优化。Telemetry监控健康报告实时或定期推送,优化有据可依网络健康度运维服务APPVIP 业务保障第11页,共55页。2、“定时发送”:选择报告的“发送报告时间” 与“通知用户组” ,报告会按照设置的周期,定时发送到用户设置的邮箱中3、“立即发送”:选择报告的“起止时间” 与“接收方式” ,报

12、告立 即生成。(立即下载:浏览器直接提供下载;邮件发送:报告立即发送 到指定用户邮箱)案例:某局点运维人员设置FabricInsight每天早上8:00自动推送网络健康度评估报告,当天收到报告后发现对比前一天的数据,健康度打分下降,最终根据报告中的异常检测项和修复建议将问题解决。优化修复后,登陆FabricInsight页面查看健康度打分恢复正常,Open问题数为0。1、菜单选择 “健康度”,进入健康度评估体系页面,点击右上角“报告设置”Telemetry监控网络健康度Use Case1:评估报告每日推送,网络健康主动感知运维服务APPVIP 业务保障第12页,共55页。故障1-3-5:AI+

13、知识推理,实现故障根因快速定位CollectAnalysisDecision数据中心全息数据业务流数据/Telemetry数据.知识推理引擎智能分析引擎手动恢复华为30+年运维专家经验真实局点故障持续学习训练知识1知识2知识3知识4模型应用异常检测 根因分析风险预测基于意图闭环数据清洗BGP震荡OSPF震荡ISIS震荡接口 震荡BFD震荡Rout er-ID 冲突AI异常识别网络对象建模iMaster NCE-FabricInsightiMaster NCE-FabricTelemetry监控网络健康度运维服务APPVIP 业务保障第13页,共55页。设备维度 故障检测 范围监控对象13类36

14、个数据指标39种故障IssuesTelemetry | Syslog | ERSPAN设备网络协议VIP 业务保障Overlay业务Issues 列表交换机版本功能依赖控制器闭环处理交换机整机故障根据不同故障,闭环 动作有差异,包括: 1、预警通知2、给出闭环意见3、下发闭环预案交换机反复重启交换机设备离线交换机主控板异常交换机主控板反复异常交换机接口板异常交换机接口板反复异常交换机交换网板异常交换机交换网板反复异常交换机风扇异常交换机电源异常交换机CPU超阈值/异常增长交换机内存超阈值/异常增长交换机ACL资源超阈值V200R005C00及以上网络健康度增交换机FIB4表项超阈值/异常增长交

15、换机FIB6表项异常增长值包交换机ND表项异常增长交换机ARP表项超阈值/异常增长交换机MAC表项超阈值/异常增长交换机交换网板转发性能不足交换机存储空间超门限堆叠故障疑似二层环路异常日志数异常增长防火墙CPU或IPV4会话超阈值防火墙CPU异常增长防火墙内存异常增长License文件过期交换机FIB6表项超阈值V200R019C00及以上交换机ND表项超阈值V200R019C10及以上交换机路由表硬表丢失导致的流异常故障网络流分析增疑似交换机表项跳变导致的流异常故障V200R019C10及以上值包交换机芯片软失效导致的流异常故障交换机ARP表项缺失导致的流异常故障Telemetry监控网络健

16、康度运维服务APPV1R20C00版本增强第14页,共55页。网络维度 故障检测 范围6类18个监控对象数据指标16种故障IssuesTelemetry | Syslog网络Telemetry监控网络健康度设备运维服务APP协议VIP 业务保障Overlay业务Issues 列表交换机版本功能依赖控制器闭环STP阻塞接入侧端口V200R005C00及以上网络健康度增值包根据不同故障,闭环 动作有差异,包括: 1、预警通知2、给出闭环意见3、下发闭环预案疑似光链路亚健康交换机端口拥塞导致业务受损链路端口状态震荡交换机端口error-down交换机物理端口假死交换机网络侧互联链路单通主机IP地址冲

17、突网络侧IP地址冲突流量预测越限链路端口指标不一致整网存在路由环路整网存在路由黑洞光模块类型不匹配V200R019C10及以上以下V1R20C00版本增强:意图类Issues仅适用于硬件分布式组网链路端口指标不一致整网存在路由环路 整网存在路由黑洞ARP攻击ND攻击第15页,共55页。协议维度 故障检测 范围Issues 列表交换机版本功能依赖控制器闭环OSPF Router ID冲突V200R005C00及以上网络健康度增值包根据不同故障, 闭环动作有差 异,包括:1、预警通知2、给出闭环意 见3、下发闭环预 案OSPF邻居状态发生变化Designated Router IP地址冲突BGP邻

18、居状态发生变化BGP邻居状态震荡交换机M-LAG成双主状态从BGP邻居收到的路由数量超限3类监控对象8个数据指标7种故障IssuesConfig | SyslogTelemetry监控网络健康度设备网络运维服务APP协议OverlayVIP 业务保障业务V1R20C00版本增强第16页,共55页。Overlay维度 故障检测 范围Issues 列表交换机版本功能依赖控制器闭环VXLAN隧道中断网络健康度根据不同故障,闭环动 作有差异,包括:1、预警通知2、给出闭环意见3、下发闭环预案VXLAN网络接入侧ip地址冲突增值包BD被删除导致业务中断V200R005C00网络流分析增值包及以上子接口被

19、shutdown导致业务中断子接口被删除导致业务中断3类监控对象10个数据指标5种故障IssuesConfig | Syslog | ERSPAN网络Telemetry监控网络健康度设备运维服务APP协议VIP 业务保障Overlay业务第17页,共55页。健康度评估:业务维度 故障检测 范围Issues 列表交换机版本功能依赖控制器闭环TCP SYN Flood攻击网络流分析增值包根据不同故障,V200R005C00闭环动作有差异,包括:业务可达性意图验证不通过及以上网络健康度增值包1、预警通知2、给出闭环意见业务隔离性意图验证不通过3、下发闭环预案3类监控对象7个数据指标3种故障Issue

20、sSyslog | ERSPANVMVMVMVMVMVMVMVMVMVM VM VM设备网络Telemetry监控网络健康度运维服务APP协议VIP 业务保障Overlay业务V1R20C00版本增强: 其中意图类Issues仅适用 于硬件分布式组网第18页,共55页。SDN和非SDN组网支持规格健康维度Issues数量SDN网络非SDN网络设备39网络16以下Issues除外: 链路端口指标不一致 整网存在路由环路 整网存在路由黑洞协议7Overlay5业务3网络健康度Issues支持情况如下:其中意图类Issues仅适用于硬件分布式组网整体健康度方案不依赖SDN控制器,如涉及自动闭环恢复时

21、需要与SDN控制器联动Telemetry监控网络健康度运维服务APPVIP 业务保障第19页,共55页。20新增三大运维服务APPTelemetry监控网络健康度运维服务APPVIP 业务保障VMTrackerVM IP 地址管理全网 VM IP 地址接入位置&接入历史ChangeDiff网络变更基于配置/路由表/ARP表的变更分析LogInsight日志智能洞察SYSLOG 智能分析第20页,共55页。VMM(Virtual Machine Manager)网络定位和排查VM的挑战VMVMVM1VMVM VMVMVMVMVMVMVM1VM 迁移VMM 自动化部署VM,并且VM可动态迁 移;整

22、体过程对网络团队不透明:VM 1 从哪接入数据中心网络的?VM1 什么时间发生了迁移?VM 1 之前部署在哪里?Telemetry监控网络健康度VMTracker运维服务APPChangeDiffVIP 业务保障LogInsight第21页,共55页。VMVMVM1VMVMVMVMVM VMVMVMVM1VMM(Virtual Machine Manager)VM 迁移ARP update message(telemetry)VMTracker 基于Telemetry 机制,采集全网设备的 ARP update信息(增/删/改),并结合Fabric信息实 现VM IP地址的全生命周期管理:LE

23、AF-1LEAF-42020 07-26 16:41 192.5.5.2 上线:交换机: LEAF-1接入端口:10GE1/0/1网关:192.5.5.1VM 上线VM 迁移2020 07-27 14:31 192.5.5.2 迁移:交换机: LEAF-4接入端口:10GE1/0/1网关:192.5.5.1VM 下线2020 07-26 16:41 192.5.5.2 下线:交换机: LEAF-4接入端口:10GE1/0/1网关:192.5.5.1Telemetry监控VMTracker : 提供VM IP 全生命周期管理网络健康度VMTracker运维服务APPChangeDiffVIP 业

24、务保障LogInsight第22页,共55页。VM Tracker VM IP Address管理VM IP 分布统计TOP10接入VM交换机分布TOP10网关分布VM IP概览当前在线VM数量IPv4/IPv6 地址分布VM 接入位置详情整网VM详细信息列表Telemetry监控网络健康度VMTracker运维服务APPChangeDiffVIP 业务保障LogInsight第23页,共55页。VM Tracker VM IP 接入路径分析VM 迁移VM 下线VM 上线Telemetry监控网络健康度VMTracker运维服务APPChangeDiffVIP 业务保障LogInsight第2

25、4页,共55页。网络变更场景的运维挑战场景与挑战:DCN网络运行期间不可避免会涉及网络变更,如软件版本升级,补丁等, 当前网络变更采用人工比对,单台设备人工检测耗时2 小时设备配置是否发生变化,哪些配置更改了?上千条设备配置如何检测interface 25GE1/0/17shutdownstorm suppression broadcast packets 1000 device transceiver 1000BASE-Tport mode GE #interface 25GE1/0/17.1 mode l2 encapsulation dot1q vid 2504#interface 25

26、GE1/0/17.5039 mode l2 encapsulation dot1q vid 2702 bridge-domain 5039Destination/Mask Proto Pre Cost Flags NextHop Interface7.7.7.33/32 OSPF 10 1D 192.168.60.10 25GE1/0/17.7.7.34/32 OSPF 10 3D 192.168.60.10 25GE1/0/17.7.7.35/32 Direct 0 0D 127.0.0.1 LoopBack07.7.7.37/32 OSPF 10 2D 192.168.60.10 25GE

27、1/0/17.7.7.38/32 OSPF 10 2D 192.168.60.10 25GE1/0/110.0.0.0/8 Static 60 0RD 10.136.242.1 MEth0/0/010.136.242.0/24 Direct 0 0D 10.136.242.35 MEth0/0/010.136.242.35/32 Direct 0 0D 127.0.0.1 MEth0/0/010.136.242.255/32 Direct 0 0D 127.0.0.1 MEth0/0/077.77.77.33/32 OSPF 10 1D 192.168.60.10 25GE1/0/177.77

28、.77.34/32 OSPF 10 3D 192.168.60.10 25GE1/0/1RIB/ARP 表项是否能正常学习到?单台设备有十几万条Underlay+VRF路由 ,上万条ARP 表项传统运维命令行查询对比配置和表项Telemetry监控网络健康度VMTracker运维服务APPChangeDiffVIP 业务保障LogInsight第25页,共55页。ChangeDiff :自动检查变更前后的配置表项差异,生成检测结果DCN割接神器四步曲Step3:变更结果自动分析Step1:变更前信息采集Step2:变更后信息采集Telemetry监控网络健康度VMTracker运维服务APPC

29、hangeDiffVIP 业务保障LogInsight创建变更前快照任务,支持设备配置/ARP表/ND表/RIB表项快照变更后自动同步分析设备配置和表项快照,支持手动同步快照自动分析各类型变更分布及统计设备占比,每设备变更差异直观可视支持显示变更前后快照中的配置表项详细比较,识别变更点Step4:变更差异详情对比第26页,共55页。传统运维系统只针对特定的事件进行监控,可能存 在关键的日志被遗漏,导致故障无法快速识别定位 如何了解当前网络出现了新的变化?当前全网的日志数有没有发生突变?除了例行操作的日志外,是否有新出 现的日志?IP 地址冲突监控系统已经覆盖日志文件删除例行老化,无须处理Lic

30、ense即将过期之前从未出现过LogInsight:全网事件洞察难点Telemetry监控网络健康度VMTracker运维服务APPChangeDiffVIP 业务保障LogInsight第27页,共55页。基于AI智能识别日志突变异常,主动预警AI识别异常点基于机器学习检测全网日志数量发生突变,及时预警偶发/新出现日志分析统计突变/新出现日志类型、模块、级别及对应日志数量,快速识别关键排查点全网日志事件可视L0-L4多维度日志趋势、分布统计及详细信息呈现,整网事件可视Telemetry监控网络健康度VMTrackerLogInsight:日志突变&偶发性异常智能分析运维服务APPChange

31、DiffVIP 业务保障LogInsight第28页,共55页。面向业务提供保障能力的难点出口路由器Service LeafLBFWInternet/广域网Border LeafSpineLeafNVENVENVEVPC1 192.168.1.10/24VPC1192.168.1.20/24V192.16PC1V8.1.30/24192.168.PC210.10/24 NVENVE如左图所示,网络如何监控192.168.1.0/24 子网与外部网 络的连通性?传统运维验证手段:Ping 、Traceroute:结果不可预知:SDN 组网场景下,在Fabric 边界只能 ping 网关,而网关是

32、分布式的,无法预知报文ping的是 哪个LEAF上的网关;无法全覆盖:Ping 报文无法覆盖ECMP全路径,会出现 ping可达,但是业务报文不通的情况;报文镜像:部署成本高:全流镜像分析,需要在全网每个设备上均开启镜像Telemetry监控网络健康度运维服务APPVIP 业务保障第29页,共55页。报文头空间算法Underlay网络Overlay网络+网络数据面信息:路由、ARP、VXLAN.网络配置面信息:ACL、VLAN、VNI、BD、 VRF网络拓扑信息:underlay、overlay数据收集全网连通性租户间安全访问/隔离违规路由黑洞/环路配置一致性网络建模形式化验证建模iMaste

33、r NCE-FabricInsight基于Telemetry 高速收集当前数据中心网络拓扑、配置、转 发表项等数据信息网络建模根据采集到的现网信息进行Underlay、Overlay 网络建模,基于报文头空间算法进行建模,将网 络模型转换成转发函数,进行意图的数学求解意图验证将算法返回的求解模型转换呈现为可达性/一致性/隔离性/存在性意图的验证结果和问题根因,并与网络健康度集成,及时通知用户意图验证情况。DPV 技术方案:通过网络数据仿真,轻量化构筑VIP业务的网络保障能力算法求解外网访问内网未经过防火墙BDVRF BDTelemetry监控网络健康度运维服务APPVIP 业务保障第30页,共

34、55页。 业务意图定义 源业务的网段定义 目的业务的网段定义业务的L4 端口号范围 网络途径节点定义(如跨子网交互需要过FW) 选择多路径覆盖途径节点范围(所有指定节点全经过/经过一个节点即可)DPV-1 :VIP 业务保障意图录入Telemetry监控网络健康度运维服务APPVIP 业务保障FabricInsight系统预置了部分可达性、存在性等意图,同时也灵活支持用户自定义意图规则第31页,共55页。Telemetry监控网络健康度DPV -2:VIP 业务全报文空间E2E连通性验证运维服务APPVIP 业务保障路径叠加Overlay信息,包括转发经过的RF/VSYS/BD/NVE等信息,

35、完整展示E2E转发流程;可达、不可达路径的比对,支持路径检索;历史时间点回溯,事前事后路径比对;SPINESERVERLEAFSERVICELEAFSPINESERVERLEAFECMP全路径可视SERVICELEAFFW连通性历史回溯,事前事后对比多维路径检索第32页,共55页。运维服务APPVIP 业务保障Telemetry监控网络健康度DPV -3:VIP 业务保障的关联分析断点节点的配置、表项、根因分析可以快速定位不可达原因,提升连通性问题的排障效率转发表项信息(VPN路由表、ARP表)逐跳节点的运行时配置变化信息报文空间评估:被拦截的报文空间评估(如在FW上的安全策 略过滤)基于IP

36、地址的过滤(部分IP被拦截);基于协议类型的过滤(部分协议类型被拦截);基于L4 端口号的过滤(部分端口号被拦截);第33页,共55页。DPV 支持的业务功能范围意图大类意图子类来源使用限制可达性【Overlay】POD内东西向互访:同子网用户自定义仅支持硬件分布式VxLAN的IPV4 组网【Overlay】POD内东西向互访:同VPC跨子网用户自定义【Overlay】POD内跨VPC互访,未过FW未过LB用户自定义【Overlay】POD内跨VPC互访,经过华为FW,未过LB用户自定义【Overlay】单POD南北向互访用户自定义【Underlay】Underlay通过IP协议互访,如BGP

37、/VTEP用户自定义约束转发路径途经1N个设备节点用户自定义ECMP多路径可达性验证及呈现用户自定义整网BGP Peer可达性校验系统预置整网VxLAN隧道可达性校验系统预置整网Overlay子网间可达性校验系统预置隔离性验证两个子网(或IP)间是否隔离用户自定义存在性网络中是否存在路由环路系统预置网络中是否存在路由黑洞系统预置一致性链路两侧接口的一致性校验(MTU、速率、双工模式、自协商模式、工作模式、VLAN、IP子网)系统预置Telemetry监控网络健康度运维服务APPVIP 业务保障第34页,共55页。Huawei Confidential35SparkKafkaFusionInsi

38、ght大数据平台HDFSDruidRDBGaussDB告警资源Telemetry健康度API ManagementSNMP Agent第三方OSS系统Restful APISNMP北向Kafka北向iMaster NCE-FabricInsight数据开放性Kafka数据开放开放原始Telemetry数据,包括:设备、接 口、光模块、队列、表项等Restful数据开放设备、接口、链路和单板资源数据开放issues/健康度指标开放SNMP北向开放基于SNMP协议向第三方系统上报告警数据FabricFabricInsightApps第35页,共55页。硬件配置要求销售场景部署节点管理规模华为发货服

39、务器配置(2288X V5 )用户自备服务器配置标准方案方案1:单机版(1台)最大可管理100 CE256G 低 配 : CPU:2*16核, 内存:8*32G,硬盘:8*1.2T SAS-HDD,网口:2*4*GE+3*2*10GE256G 标 配 : CPU:2*20核, 内存:8*32G,硬盘:12*1.2T SAS-HDD,网口:2*4*GE+3*2*10GE不支持方案2:集群版(3台起,分析器,采集器同部署)256G低配:初始3节点管理200 CE,每增加1个分析服务器,增加 100CE设备256G标配:初始3节点管理400 CE,每增加1个分析服务器,增加 200CE设备CPU:总

40、核数不低于16核/2.2GHz; 内存:128G系统盘:900G;数据盘:7T; 网口:1*10GE高级方案Netstream网流分析场景(3台起,分析器与采集器 同部署)256G标配分析器:初始3分析器节点020000流/s ,每 增加1分析器节点,增加10000 流/s 的Netstream业务流CPU:2*20核,内存:8*32G,硬盘:12*1.2T SAS-HDD,网口:2*4*GE+3*2*10GE分析器:CPU:总核数不低于28核/2.2GHz内存:256G系统盘:900G, 数据盘:13T, 网口:1*10GEERSPAN流分析场景 (3+1起,分析器与采集 器分开部署)256

41、G标配分析器:初始3分析器节点支持08000TCP流/s (TCP+Telemerty);每增加1分析器节点,增加5000TCP流/s 管理分 析 器 : CPU:2*20核, 内存:8*32G,硬盘:12*1.2T SAS-HDD,网口:2*4*GE+3*2*10GE采 集 器 : CPU:2*16核, 内存:4*32G,硬盘:8*1.2T SAS-HDD,网口:2*4*GE+3*2*10GE采集器:CPU:总核数不低于28核/2.2GHz内存:64G硬盘:600G,网口:2*10GE网口, 需要使用intel82599 网卡第36页,共55页。Thank you.第37页,共55页。Use

42、 Case 2:主动识别表项资源异常,业务提前规划业务异常识别:基于SYSLOG + Telemetry 实时监控设备的 表项资源,主动识别异常业务影响分析:表项利用率的变化趋势,分析业务影响网络A网络B网络C人工登录设备查看资源占用分布,问题排查效率低;缺乏对表项资源变化趋势的识别,判断是否为异常行为表项支持FIB4,FIB6,ARP,ND多个资源表项资源不足、表项不够用, 发放业务才发现?表项资源趋势主动识别,业务部署有保障第38页,共55页。Use Case 2:问题及价值解析Use Case价值如果继续使用FIB6表项资源,可能能会导致硬件资源使用率达到100%,导致部分IPv6流量中

43、断。通此故障检测能实时感知表项资源变动情况,识别表项资源不足,提前对网络进行扩容。案例:某银行东莞数据中心,周末夜间云平台新业务部署上线,因BorderLeaf路由超规格上限,导致新业务上线后无法提供服务。FabricInsight能够实时监控路由FIB状态,超过阈值及时issues提醒,在业务上线或变更前提前识别问题,避免业务服务受到影响。1、健康度、设备类维度,进入表现异常issues 详情页面,查看FIB6表项超阈值问题,包括设备 名称、发现时间等2、FIB表利用率趋势呈现,异常上下文对比明显,近1天/3天/7天历史数据查看第39页,共55页。Use Case 3:二层环路及时发现,快速

44、闭环恢复网络管理员需要及时发现环路现象,识别环路的设备+端口,快速消除环路影响、进一步进行根因排查和修复问题SpineSpineLeafVMVMLeafLeafVM环路问题影响大,急需及时发现和恢复业务在Fabric网络中可能存在VXLAN的下游网络出现环路, 如下图所示,网络中一旦出现环路,会导致业务中断,带 来商业损失。环路故障及时预警,联动控制闭环恢复基于Telemetry+Syslog机制监控所有接口的KPI及异常日志, 识别疑似二层环路接口,快速定位故障呈现环路接口列表及位置联动控制器隔离环路接口进行闭环第40页,共55页。Use Case 3:二层环路问题及价值解析(1)1、通过健

45、康度首页、设备类问题分类,进入详情页面,直观疑似环路设备发现存在疑似二层环路问题,点击右侧按钮,查看具体问题;疑似环路BD2、在问题详情页面,确认疑似环路端口。查看疑似二层环路的设备及发生环路的BD在问题根因中,查看疑似环路的接口,确认环路接口时, 优先考虑存在广播报文异常增长的接口。广播发送/接收包数趋势案例:某保险公司数据中心,出现serverLeaf CPU突发冲高,端口负载快速上升,导致端口下业务中断,无法正常运行,需要尽快定位处理并恢复业务。 经过FabricInsight快速定位为该serverLeaf的其中一个端口外部网络二层环路导致,通过紧急隔离处理,业务恢复。第41页,共55

46、页。Use Case 3:二层环路问题及价值解析(2)3、联动控制器查看处理建议处理建议为通过shutdown来关闭端口,在结合收 发报文数和实际的物理拓扑确定环路接口后,将其 shutdown,从而切断环路。Use Case价值一旦出现环路,会导致业务中断,带来商业损失。通过此故障检测能及时发现环路现象,识别环路的设备+端口,进一步进行根因排查和问题修复,快速消除环路影响。闭环操作需要联动控制,请提前确认环境中已部署iMaster NCE-Fabric第42页,共55页。Use Case 4:亚健康光模块/光链路主动检测,业务受损前识别风险光模块长时间运行,光器件性能衰减,导致链路不稳定光模

47、块问题现象无规律,难于复现,且定位周期长,业 务稳定风险非常高光链路亚健康, 发现不了怎么办?温度电压检测算法偏置电流接收 光功率发射光功率CRC异常关键KPI指标数据基于Telemetry主动上报海量数据分析,创新相关性检测算法,亚健康光模块/ 光链路提前识别华为IT数据中心1万+光模块/光链路实际验证,主动更换率4/年第43页,共55页。Use Case 4:问题及价值解析(1)1、左侧菜单选择“健康度”3、在详情页面,发现存在疑似光链路故障,点击右侧按钮,查看问题案例:FabricInsight在华为IT运行检测300+设备、1万+光模块,主动更换率4/年,其中15%为线路故障,替换光模

48、块后业务均稳定运行, 在业务受损前主动识别和隔离了亚健康风险。2、发现存在网络类问题,点击查看详情第44页,共55页。Use Case 4:问题及价值解析(2)4、通过issues问题详细界面,可以全面查看异常光模块情况、关键KPI指标信息及关联分析查看异常光模块位置及异常指标,对端设备及端口情况提供专家修复建议,指导问题处理基本信息概览,全面了解异常光模块信息第45页,共55页。Use Case 4:问题及价值解析(3)Use Case价值通过相关性算法与大数据分析,准确及时发现亚健康的光模块,在业务受损前主动隔离。1)查看全网光模块异常指标分布情况,同类型光模块异常情况直观对比,问题显而易

49、见2)异常指标数据趋势图,故障后指标劣化趋势一目了然3)正常指标数据趋势图,未雨绸缪5、KPI指标各维度历史趋势数据查看,包括异常指标、正常指标第46页,共55页。Use Case 5:毫秒级队列检测,业务丢包主动识别传统的NMS每5分钟收集一次数据,无法识别微突发问题不规则出现,难以回溯和重现微突发丢包,业务受损,问题定位难大数据服务需要大量服务器才能形成集群并协同工作,一旦将多个节点的流量发送到同一计算节点,就可能在网 络上发生瞬时拥塞丢包,影响业务毫秒级检测,业务丢包及时呈现,快速锁定故障基于Telemetry 机制,100ms周期 端口Buffer Size检测;如端口拥塞导致报文丢弃

50、,则主动识别端口-队列-丢弃的报文五元 组详情(CE6865/CE6857/CE8850-64CQ-EI/CE8861/CE8868/CE9860支持)基于端口发现故障第47页,共55页。Use Case 5:问题及价值解析案例:某电商举办周年庆活动,期间收到用户报障,部分商品抢购页面加载缓慢。通过FabricInsight发现网络维度健康度趋势下降,存在交换机端口拥塞,进一步定位发现有队列丢包,并且有具体端口以及受影响业务,按照推荐的修复建议操作,业务恢复正常。1、进入健康度页面,查看网络类问题详情,发现存 在交换机端口拥塞导致业务受损问题,点击右侧按 钮,查看问题2、确认发生端口拥塞问题的设备、接口3、查看拥塞队列及大小趋势、丢包数量及五元组(仅支持(CE6865/CE6857/CE8850-64CQ-EI/CE8861/CE8868/CE9860款型),确认受影响的业务Use Case 价值交换机端口拥塞导致业务受损,一旦出现,会一定程度上出现网络延迟大、网络卡顿等问题,影响业务的体验。设备毫秒级队列检测,主动识别端口拥塞导致的报文丢弃,发现故障端口,并给出修复建议。第48页,共55页。Use Case 6:M-LAG双主状态主动检测,故障快速闭环Netw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论