2023超融合数据中心网络结构

上传人：1*** IP属地：北京上传时间：2023-10-17 格式：DOCX 页数：53 大小：747.24KB 积分：12 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

超融合数据中心网络PAGE\*romanPAGE\*romaniv目录目录第1章超融合数据中心网络简介 1智能时代促使数据中心向算力中心演进 1什么是超融合数据中心网络 2第2章超融合数据中心网络产生背景 5IT架构层面：从本地集中式走向云端分布式 6计算层面：CPU/GPU出太接口提升性能 6存储层面：升级为全闪存NVMe接口 9网络运维层面：部署与维护的全方位升级 10第3章华为超融合数据中心网络价值 11全以太HPC网络，充分放算力 11双活全以太存储网络，大幅提升存储性能 12网络全生命周期自动化，大幅降低上市时间 14全网智能运维，实现故障主动预测 16全场景服务化能力，网络即服务 17第4章华为超融合数据中心网络架构 18方案架构 18主要组件产品一览 21第5章超融合数据中心网络关键技术 24智能无损网络系列技术 24自动驾驶网络技术 30多云协同技术 35智能运维技术 37第6章超融合数据中心网络典型应用 43提升某银行交易系统性能 43提升某银行分布式存储性能 44加速某互联网企业无人驾驶技能训练 44实现某人工智能计算中心大规模RoCE组网 44实现某机场业务变更百分百符合预期 45实现某政务云端到端自动化业务高效发放 45PAGEPAGE4超融合数据中心网络简介第1章超融合数据中心网络简介摘要摘要现如今，数据中心正成为算力中心，为千行百业提供数字化底座，并基于海量数据挖掘其中的商业价值。超融合数据中心网络以全无损以太网来构建新型的数据中心网络，使通用计算、高性能计算、存储三大业务均能融合部署在同一张以太网上，同时实现全生命周期自动化和全网智能运维，可在服务器规模不变的情况下，显著提升数据中心的整体算力水平。进人类社会正迈入万物感知、万物互联、万物智能的智能时代，物联网、大数据、5G、AI等新技术和各类创新应用层出不穷。作为构建数字化社会的信息基石——数据中心，他承担着各类应用的数据存储、数据分析与数据计算的重任。从数据中挖掘商业价值已成为企业经营的核心任务之一图1-1数字化社会的信息基石——数据中心数据中心算力是服务器对数据进行处理后实现结果输出的能力，这是数据中心内计算、存储、网络三大资源协同能力的综合衡量指标。ODCC（OpenDataCenterCommittee，开放数据中心委员会）的定义，4力、网络能力。在服务器规模不变的情况下，提升网络能力可显著改善数据中心单位能耗下的算力水平。什么是超融合数据中心网络数据中心内存在三大资源区：通用计算区、高性能计算（HPC）区和存储区。图1-2数据中心内存在的三大资源区通用计算区的网络被称为应用网络、业务网络或前端网络，当前部署的是以太网。高性能计算区：配备了专用的高性能单元（CPU、GPU）的服务器，完成指定的高性能计算任务或AI训练。这个区域中的服务器一般很少使用虚拟技术。本区域中的网络被称为高性能计算互联网络，当前部署的是IB（InfiniBand）网络。存储区FC（FibreChannel）网络。算力持续稳定的输出，离不开三大资源区的相互配合。作为联接数据中心各类资源的大动脉，数据中心网络承载着保障数据高效流通的职责。图1-3三大区域之间的数据流当前，通用计算区部署的传统以太网、高性能计算区部署的IB网、存储区部署的FC网，是三张异构网络，他们协议各异、架构割裂，带来了运维困难、专网生态封闭、成本高、无法实现全生命周期管理等问题。数据中心里这三张网络的融合，成为算力提升的必然要求。华为超融合数据中心网络以全无损以太网来构建新型的数据中心网络，使通用计算、高性能计算、存储三大业务均能融合部署在同一张以太网上，同时实现全生命周期自动化和全网智能运维。PAGE10PAGE10超融合数据中心网络产生背景第2章超融合数据中心网络产生背景摘要摘要千行百业上云，多项变革推动数据中心网络向全以太化演进：IT架构从本地集中式走向云端分布式，多节点之间大规模互联使用的是以太网。计算单元去除PCIe的瓶颈限制，芯片直接出以太口来提供更高算力。存储层面升级为全闪存（VMe，用高带宽的以太网作为承载已成为业界共识。以太网在开放性、业务部署和运维效率方面均具有明显优势。IT分布式当前一些新兴的应用，如区块链、工业仿真、人工智能、大数据等，基本都建立在云计算的底座中。近些年，企业各类业务上云的步伐不断加速，云可以提供按需自助服务、快速弹性伸缩、多租户安全隔离、降低项目前期投资等价值优势。另外，在企业的数字化转型中，以金融和互联网企业为代表，大量的应用系统逐渐迁移到分布式系统上，也就是通过海量的PC平台来替代传统的小型机。这么做带来了高性价比、易扩展、自主可控等好处，但分布式系统架构同时也带来了服务器节点之间大量的网络互通需求。以太网已经成为云化分布式场景中的事实网络标准：以太网已具有很高的开放性，可以与各种云融合部署、可被云灵活调用管理。以太网具有很好的扩展性、互通性、弹性、敏捷性和多租户安全能力。以太网可以满足新业务超大带宽的需求。以太网从业人员多，用户基础好。IBFCIDCFCIB市场逐步萎缩，当前以及未来主要的数据中心内部网络互联技术。计算层面：CPU/GPU性能以人工智能为代表的一系列创新应用正在快速发展，而人工智能后台算法量的样本数据和高性能的计算能力。为了满足海量数据训练的大算力要求，一方面可CPU3nm面，可以叠加多核来提升算力，但随着核数的增加，单位算力功耗也会显著增长，且总算力并非线性增长。据测算，当128核增至256核时，总算力水平无法提升1.2倍。随着算力需求的不断增长，从P级（PFLOPS，一秒1015次浮点运算）向E级（EFLOPS，一秒1018次浮点运算）演进，计算集群的规模不断扩大，对集群之间互联的网络性能要求也越来越高，这使得计算和网络深度融合成为必然。PCIe的总线标准由于单通道传输带宽有限，且通道扩展数量也有限，已经无法满足目前大吞吐高性能计算场景的要求。当前业界的主流是在计算处理器内集成RoCE（RemoteDirectMemoryAccessoverConvergedEthernet，基于融合以太的远程内存直接访问协议）以太端口，从而让数据通过标准以太网在传输速度和可扩展性上获得了巨大的提升。RemoteDirectMemoryAccess（RDMA）TCP而言的，如下TCP协议栈在接收/处理时，会产生数十微秒的固定时延，这使得在AI数据运算这类微秒级系统中，TCP协议栈时延成为最明显的瓶颈。CPURDMA允许应用与网卡之间的直接数据读写，将服务器内的数据传输时延降低到接近1μs。同时，RDMA允许接收端直接从发送端的内存读取数据，极大地减少了CPU的负担。图2-1RDMA与TCP的对比在高性能计算场景中，当前有两种主流方案来承载RDMA：专用IB（InfiniBand）网络和以太网络。然而，IB网络采用私有协议，架构封闭，难以与现IPIB网络运维复杂，OPEX居高不下。RDMARoCE计算场景。存储层面：升级为全闪存NVMe接口新业务对海量数据的存储和读写需求，催生了存储介质的革新，由HDD（HardDiskDrive，机械硬盘）快速向SSD（Solid-StateDrive，固态硬盘）切换，这带来了存储性能近100倍的提升。在此过程中，出现了NVMe（Non-VolatileMemoryexpress，非易失性内存主机控制器接口规范）存储协议，NVMe极大提升了存储系统内部的存储吞吐性能，降低了传输时延。FC当前存储网络的瓶颈。完成革新后的全新存储系统，需要一个更快、更高质量的网络。为此，存储与网络从架构和协议层进行了深度重构，新一代存储网络技术overFabric（NVMe-oF）应运而生。NVMe-oFNVMe协议应用到服务器主SANSCSI（SmallComputerSystemInterface，小型计算机系统接口）协议。图2-2NVMe-oF的产生背景VMeerFbic中的“FabicVMe的承载网络，这个网络可以是FC、TCP或RDMA。对于FC，其技术封闭、产业生态不及以太网；产业规模有限，技术发展相对迟缓，带宽不及以太网；从业人员稀缺、运维成本高、故障排除效率低。TCPRDMATCP已成为大势所趋。RMARE（RMAerCeredternetVeoverRoCERDMANVMe。RoCE进一步分RoCEv1RoCEv2RoCEv1是一种链路层协议，允许在同一个广播域下的任意两台主机直接访问；RoCEv2InternetREFC性能更高（更高的带宽、更低的时延CP的优势（P化VMeerRE作为新一代存储网络NVMe-oF的主流技术。升级在数据中心网络，当前存在几个较为突出的问题与挑战：管控。计、调测，人工操作不仅效率低，而且容易出错。定位慢：如果发生异常，据统计，故障的定位平均时长达76务的连续性，给企业带来损失。这些都呼唤一个全新的数据中心网络的到来。华为超融合数据中心网络，在实现“三网合一”的基础上，在开放性、业务部署、维护层面进行变革，全方位应对上述挑战。PAGE14PAGE14华为超融合数据中心网络价值第3章华为超融合数据中心网络价值摘要摘要本章介绍了华为超融合数据中心网络在高性能计算、存储、业务自动化、智能运维、服务化能力这五个方面给客户带来的价值。HPC网络，充分释放算力HPC计算节点之间传输的数据量大，时延要求严格，当网络有丢包或时延较高时，就会导致网络拥堵，高性能计算集群的整体效率大幅降低，即便增加计算节点也无济于事。据统计，网络0.1%的丢包将造成算力下降50%。华为超融合数据中心网络，面向高性能计算场景提供全以太HPC网络。该方案CloudEngineiLossless-DCN，攻克40100%HPC需的极致网络性能，实现同等计算集群规模下，算力倍增。性能在分布式存储场景，基于华为CloudEngine数据中心交换机内置的iLossless-DCN智能无损算法，可感知流量的变化，并基于海量存储流量样本持续进行AI训练，智能动态地调整交换机的队列水线，实现亚秒级流量精准控制，确保100%吞吐下零丢包，IOPS（Input/outputOperationsPerSecond，每秒进行读写操作的次数）提升20%。在集中式存储场景，华为推出了NoF+方案，除了对交换机水线的智能动态调整外，还实现了即插即用的存储网络：相比传统以太网中逐节点、逐Zone手工配置方式，可以做到业务单点配置、全网同步，实现存储设备的即插即用。另外，NoF+方案实现了网络侧与存储侧的故障联动：交换机毫秒级检测并通告故障，协同业务侧完成亚秒级的网络平面切换，实现网络中单点故障存储业务无感知。图3-1网络侧与存储侧的故障联动对于存储网络，金融的双活数据中心场景性能要求最为严苛。同城数据中心之间3070公里不等，由于长距光纤数据传输存在静态时延（5μs/公里，距离越长时延越大，与短距场景相比时延增长了百倍，流控复杂度指数级增加。为此，华为推出长距无损iLossless-DCI算法，在短距无损的基础上增加了距离变量，基于大数据分析提前应对流量变化，可实现同城数据中心间的无损传输，跨数FC90%（10100G1008GFC链路。在数据中心内和跨数据中心的同等距离场景下，IOPSFC网络可提升87%42%。市时间使能数据中心网络自动驾驶传统的网络业务部署是一个半自动的过程，只有网络配置下发实现了自动化，而网络生命周期中的方案设计、方案评审、配置验证等都需要人工操作。这些环节不仅需要跨部门多人协同工作，而且容易引入人为错误，成为网络业务部署的瓶颈。华为超融合数据中心网络，在业界首个实现了L3自动驾驶网络能力，将数字孪生方法论引入网络管理领域，实现全生命周期的自动化。基于网络数字建模，可综合评估400+影响网络设计的因子，智能推荐最优的网络设计方案，并完成配置变更的自动校验。在单个数据中心内部，实现在方案设计、评估、配置下发、配置校验等关键操作的端到端全智能掌控，业务极速发放，变更0差错。根据网络全生命周期里规划设计、部署开通、业务发放、监控排障、网络变更及参数调优这六个阶段，华为数据中心自动驾驶网络的自动化与智能化价值总结参见下表。阶段现状华为自动驾驶网络的优势规划设计手工规划，无法提前大规模验证，大量依赖专家经验依靠大数据和人工智能，实现特定场景规划导入，提前全网仿真部署开通需要经验丰富的网络工程师使用命令行操作，逐台设备进行配置普通工程师可全网一次性部署，配置可依据策略预置业务发放大量应用逐项测试，待测试成功后再逐一部署打通网络和应用的界限，实现应用批量发放监控排障借助其他工具定期监测，收到故障报警后人工处理智能监测网络运行状态，故障前发出预警；故障后给出定位和解决建议，并回溯故障原因和过程网络变更手工调整设备的配置，每台设备逐一进行配置调整前提供变更后的仿真，仿真验证通过后自动批量完成；一旦发现问题快速回滚到不同快照节点阶段现状华为自动驾驶网络的优势参数调优根据网络工程师积累的经验，对不同参数逐一进行测试验证，寻找优化方案AI能分析后快速匹配各类业务，将优秀经验应多数据中心间业务灵活编排越强烈。华为超融合数据中心网络方案，可以在多个私有云数据中心之间，实现业务模型统一抽象、各类业务需求统一编排、网络资源统一管理和维护，满足各行各业高效部署跨数据中心业务的需求。私有云与公有云间业务互通与灵活编排现阶段，许多企业IT架构已经从过去的集中式大型机迁移到分布式x86虚拟化架构，并正在向多地多云架构演进。根据业务特点的不同，可将业务分为稳态业务和敏态业务两类，他们往往部署在不同的云上。稳态业务：要求高可靠、低时延等，通常部署在传统网络和硬件SDN通过物理机承载，需求。敏态业务：DevOps模式下的业务开发，需要持续集成和持续部署，署在软件SDN、公有云中，通过虚拟机承载，满足业务敏捷、弹性、反复重构的诉求。华为超融合数据中心网络可实现私有云与公有云之间的业务互通编排，将稳态业务部署在私有云中，将敏态业务部署在公有云上，从而使数据中心业务可以灵活跨数据中心、跨不同的云部署，他具有以下价值：便于理解。统一编排：提供统一的专用业务编排入口和界面，提升了业务编排的效率。统一运维：提供跨私有云和公有云的统一运维平台，简化维护。图3-2私有云与公有云间业务互通全网智能运维，实现故障主动预测随着数据中心从传统IT支撑系统变更为生产系统，数据中心网络重要性越来越高，故障零容忍。随着网络规模不断增大，节点关系错综复杂，网络状态瞬息万变，数据中心网络的复杂度已经超出了传统手段和个人经验所能覆盖的范畴。超融合数据中心网络可实现全网的智能运维。该方案将知识图谱引入到了网络运维中，大大减轻了故障处理阶段运维人员的压力，还可以提供90%故障的主动预测，实现了风险感知到修复的自动闭环，保证业务7x24小时在线。现状华为智能运维的优势采用SNMP协议，5分钟轮询周期采用Telemetry机制，秒级数据集采集，基于分析平台构建动态基线异常检测，多维度实现网络全场景数据可视与指标分析需每日按时巡检，面向单一的告警事件，缺乏完整的评估能力构建了全网的评估模型，基于AI算法构建了基于设备层、网络层、协议层、Overlay层、业务层的全网健康度评估模型，可预测容量/流量风险发生故障后被动响应，故障处理过程依赖人工经验和操作基于AI算法和专家经验库，实现对故障的1分钟感知，3分钟定位和5分钟故障隔离或修复全场景服务化能力，网络即服务多云场景下网络异构成为常态，多厂商设备往往配套多种控制器。一方面，当跨云业务变更时，需求要分解到多个控制器，如果控制器能力不满足，则需要依赖原厂商落入版本开发，周期在3~6个月不等。另一方面，企业云管平台需要同时对接多个控制器，适配工作量巨大。南向和北向的多接口模式造成跨云网络部署动辄耗时数月，成为算力跨域流通的瓶颈。可实现跨厂商设备驱动程序的动态加载和设备的统一管理，屏蔽了网络设备的差异。南向开放框架可以将多厂商设备抽象为统一的业务对象，减少人工投入，提供一致的业务体验，同时还提供不同厂商设备配置转移的能力，保障客户替换设备时不中断业务。API月缩短至数天。PAGE20PAGE20华为超融合数据中心网络架构第4章华为超融合数据中心网络架构摘要摘要本章介绍华为超融合数据中心网络的分层架构以及相关产品。方案架构华为超融合数据中心网络的架构如下图所示。图4-1华为超融合数据中心网络架构服务器层用于承载应用程序的服务器资源，需要接入网络层来实现与外部通信：按照工作职能，可划分为：通用计算服务器、存储服务器、高性能计算服务器等。通用计算服务器：用于部署常规应用的服务器，大量使用虚拟化、容器等技术，形成灵活的计算资源池。存储服务器：使用专用的存储服务器，对各类数据进行存储、读写和备份。高性能计算服务器：配备了专用的高性能单元（如CPU、GPU）的服务器，用于完成指定的高性计算任务或AI训练。物理机：传统的非虚拟化的服务器。虚拟机：通过计算虚拟化技术完成对物理服务器资源的抽象和虚拟管理，并通过虚拟机的形态对外提供业务承载。容器：容器是应用层的抽象，他将代码和依赖关系打包在一起。多个容器可以在同一台机器上运行，并与其他容器共享操作系统内核，每个容器在用户空间中作为独立进程运行。一般情况下，存储服务器、高性能计算服务器均为物理机。通用计算服务器采用上述形态的一种或多种。网络层由网络设备如交换机、防火墙、负载均衡器等组成，为服务器提供数据中心内部互联互通的网络服务、以及提供访问数据中心外部资源的网络服务。CloudEngine系列数据中心交换机承担，为服务器层提供高速互联通道。ACL安全防护、NAT等。个服务器的负担，提升业务体验和可靠性。控制与分析层对网络层进行资源管理、并根据业务需求完成网络配置的自动下发；对网络层进行健康度检查，对出现的故障进行智能分析和定位。iMasterNCE-Fabric：华为数据中心控制器，南向管理网络设备，北向与应用层的平台类系统对接，完成业务全生命周期的自动化部署和网络资源管理。其中华SecoManager管理，SecoManageriMasterNCE-Fabric上的一项服务。iMserCEFbicMC：简称为MC（ulCenerCrller，即多数据中心控制器，当客户拥有多个数据中心，每个数据中心作为一个资源域，iMasterNCE-FabricMDC来对多个数据中心的网络业务进行统一编排和管理。iMasterNCE-FabricInsight：华为数据中心网络智能分析平台，可实时感知Fabric查，分析网络故障的根因。iMserCEFbisitMAM（MulidinAnlyzer，即应用于企业内外部客户部署的分布式多云进行分析。HiSecInsightAPTHiSecInsight高级威胁分析系HiSec应用层面向各类ICT管理员、业务用户提供的具体业务界面和接口：StackOpenStack。计算虚拟化平台：对计算资源完成虚拟化和管理的平台。容器平台：对计算资源进行容器化管理的平台，如开源Kubernetes、开源Docker等。主要组件产品一览iMasterNCE-Fabric数据中心控制器iMasterNCE-Fabric控制器是华为超融合数据中心网络解决方案的核心组件，可实现对网络资源的统一控制和动态调度，快速部署云业务。iMasterNCE-Fabric采用开放架构，开放丰富的标准接口，北向支持与业界主流OpenStack云平台实现L2~L7层对接，南向支持管理物理交换机、虚拟交换机、防火墙等物理和虚拟网络设备。iMasterNCE-Fabric通过北向接口接收以用户为中心的业务诉求，并将其转换为网络配置、批量下发，实现网络自动化。在没有云平台的场景下，iMasterNCE-Fabric提供独立业务发放GUI。iMasterNCE-Fabric提供高可靠集群能力，系统采用负载分担方式对南北向业务进行处理，同时支持主备集群部署，实现异地容灾，满足数据中心业务的高可靠性要求。扫描下方二维码，获取更多iMasterNCE-Fabric数据中心控制器的信息：iMasterNCE-FabricInsight数据中心分析器华为iMasterNCE-FabricInsight是面向数据中心网络的智能分析平台，基于大数据分析技术，为用户提供无处不在的网络应用分析与可视化呈现，打通应用和网络的边界。iMasterNCE-FabricInsight通过Telemetry采集网络全场景数据，实时呈现网络质量，帮助客户实现快速识别故障，并在业务产生影响前主动识别风险。扫描下方二维码，获取更多iMasterNCE-FabricInsight数据中心分析器的信息：CloudEngine系列数据中心交换机CloudEngine16800iLossless智能无损交换算法，对全网流量进行实时的学习训练，E2E微级时延，达到最高吞吐量。CloudEngine6800系列交换机是华为公司面向数据中心推出的新一代高性能、高密度、低时延的以太网盒式交换机。扫描下方二维码，获取更多CloudEngine系列数据中心交换机的信息：PAGE29PAGE29超融合数据中心网络关键技术第5章超融合数据中心网络关键技术摘要摘要本节介绍了华为超融合数据中心网络里使用到的一些主要技术：智能无损网络系列技术、自动驾驶网络技术、多云协同技术、智能运维技术，方便您更好地理解超融合数据中心网络带来的价值。智能无损网络系列技术RoCEv2RDMAiLossless智能无损算法的一系列技术来构建智能无损以太网络，通过如图5-1所示的多个技术的组合，真正解决传统以太网络拥塞丢包的问题，为RoCEv2RoCEv2应用的高性能需求。图5-1华为智能无损网络系列技术分类总览流量控制类技术流量控制是端到端的，需要做的是抑制发送端的发送速率，以便接收端设备有足够资源来接收流量，防止设备端口在拥塞的情况下出现丢包。华为提供了PFC死锁检测和死锁预防，提前预防PFC死锁的发生。PFC（Priority-basedFlowControl，基于优先级的流量控制）是一种有效避免丢包的流量控制技术，是无损网络的基础。配置PFC功能的队列为无损队列，用于承载丢包敏感的业务流；没有配置PFC的队列被称为有损队列，用于承载可容忍一定丢包的业务流。然而，当多个设备之间因为环路、服务器网卡故障等原因同时出现拥塞，各自端PFCPFCPFCPFCPFCPFC死锁检测PFC死锁进行全程监控，当设备在死锁检测周期内持续PFC反压帧时，认为可能出现了PFC死锁现象，此时会让该端口不响应PFCPFC反压帧，则认为出现了PFC死锁，此时会关闭PFC功能，保护应用。PFC死锁预防PFCPFC反压的路径，让PFC反压帧不会形成环路，从而避免PFC死锁的发生。拥塞控制类技术拥塞控制是一个全局性的过程，目的是让网络能承受现有的网络负荷，往往需要转发设备、流量发送端、流量接收端协同作用，并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。在拥塞控制过程中，华为提供了AIECN（ArtificialIntelligenceExplicitCongestionNotification、ECNOverlay、iQCN（intelligentQuantizedCongestionNotificationNPCC，解决了传统DCQCN存在的问题。AIECN目前，RDMADCQCN（DataCenteredCesntiicn，CCNCN功能的网络设备，其他的协议功能在主机的网卡上实现。DCQCN可以在需要零丢包传输RDMADCQCNECN拥塞标ECNCNP但是，DCQCN使用的是静态ECN的方式，也就是说需要在转发设备上手工配置ECN的高低门限、ECN的标记概率等参数，对于需要无丢包传输的无损业务，ECN门限适应队列中不断变化的缓存空间，在兼顾时延敏感小流和吞吐PFC量的吞吐和时延造成影响。华为智能无损网络中的AIECN（ArtificialIntelligenceExplicitCongestionNotification）是一种根据现网流量模型智能地调整无损队列的ECN门限的功能。AIECN结合了智能算法，可以根据现网流量模型进行AI训练，对网络流量变化进行预测，及时推理最优ECN门限，并且支持根据现网流量变化实时调整ECNAIECNTCPRoCEv2RoCEv2流量的无损传输的同时实现低时延和高吞吐。ECNOverlayECNIPECNVXLAN络中对报文存在封装和解封装的过程，容易丢失拥塞状态信息。ECNOverlayECN在VXLAN网络中的应用。ECNOverlayVXLAN网络传递到流量接收端，可以及时VXLAN网络的拥塞，实现网络性能的最大利用。iQCNDCQCNECNECNCNP（CongestionNotificationPackets）拥塞通知报文，以通知发送端的网卡降低发包速率。当网络中出现拥塞时，可能让发送端不能及时接收到CNP报文，导致发送端认为网络中拥塞已经解除，从而对流量进行升速，这会造成转发设备进一步拥塞恶化，甚至引发整网因PFC流控而暂停流量的发送。iQCN（intelligentQuantizedCongestionNotification）CNP报文而提出的功能。iQCN让转发设备可以智CNPCNPCNP报文而升速，导致网络中出现拥塞加剧。NPCCiQCNCNP程中发送端往往已经升速。华为智能无损网络中的NPCC（Network-basedProactiveCongestionControl）RoCEv2CNP报文，准确控制发送端发送RoCEv2报文的速率。NPCC既可以确保拥塞时的及时降速，又可以避免拥塞缓解时的过度降速，最终实现数据中心长距互联场景中RoCEv2业务的低时延和高吞吐。网络与存储协同技术存储系统为了存储大量的数据，往往需要管理数量庞大的主机，并且存在新主机陆续接入网络设备的情况。为了让智能无损网络技术更好的服务于存储系统，华为提出了iNoF（IntelligentLosslessNVMeOverFabric，智能无损存储网络）技术，在网络设备上建立iNoF网络域后，域内所有网络设备都可以第一时间感知到接入主机的变化，从而可以将信息反馈给各个智能无损网络功能去智能调整相关配置，最终使网络达到低时延、无丢包和高吞吐的性能。同时，iNoF还可以将主机信息通告给存储系统，可以协助存储系统管理主机。NVMe-oF详情参见2.3；iNoF是华为CloudEngine交换机上智能无损特性集中的一个功能，属于网络与存储协同技术；NoF+是华为提出的集中式存储网络解决方案。NVMe-oF、iNoF和NoF+之间关系如下图所示。图5-2NVMe-oF、NoF+和iNoF之间的关系网络与计算协同技术网算一体功能是指在交换机可以支持的计算能力范围内，将集合通信的部分计算操作从服务器转移到网络侧设备交换机上，同时完成网络数据转发与高性能数据计算功能。网算一体功能避免了在服务器之间多次发送数据，减少了服务器集群间的通信量，从而降低了HPC小字节场景下的网络时延，提升了计算效率。图5-3网算一体示意图自动驾驶网络技术自动驾驶网络技术产生的背景当前，数据中心不再只是企业内的一种资源支撑系统，而是成为一种新的生产力，开始改变企业研发、生产和运营模式。但是，数据中心网络在运营的规划、建设、维护和优化各阶段严重依赖于人员经验和技能，受限于网络技术复杂、人员技能不足，制约了企业业务创新和产业转型。要消除数据中心网络全生命周期的人工瓶颈，原有网络技术已经无能为力。随着意图驱动、数字孪生、AI等重大创新技术的迅猛发展，网络高度自治成为可能，不仅可以代替人工处理大量重复性、复杂性的操作，还能够基于海量数据提升网络预测和预防能力。通过意图驱动、数字孪生等技术与AI结合，数据中心网络生命周期中的人工瓶颈可逐步消除，并基于数据驱动差异化的产品服务，使能高度自动化和智能化的网络。华为数据中心自动驾驶网络方案技术架构华为企业自动驾驶网络方案架构主要分为网络基础设施、管控系统、云端训练系统三层。图5-4华为自动驾驶网络方案架构网络基础设施CloudEngine交换机支持基于Telemetry的主动上报机制，同时具备NETCONFYANG高速配置能力。另外，设备内嵌AI芯片，具备边缘智能推理能力，可实现网络KPI及流量异常行为分析、网络KPI自优化能力。管控系统iMasterNCE智能引擎及网络数字孪生底座为核心，面向企业网络“规-建-维-优”全生命周期的自动化管理和智能运维全场景，提供意图管理、仿真校验、业务发放、健康度评估等独立、微服务化组件。云端训练系统集成海量AI算法库，提供高性能AI训练服务。基于云端AI模型训练引擎、管控系统智能训练&推理引擎、设备智能边缘推理引擎，华为数据中心自动驾驶网络方案可实现智能引擎间的模型与推理参数主动优化，持续向高级网络自动驾驶能力演进。技术创新驱动结构性问题解决下面简要介绍几项自动驾驶网络中使用到的新技术。意图驱动业务对网络的意图（简称意图）指以应用为中心，用业务语言描述对特定网络服务及操作的期望。意图引擎中使用的意图驱动技术，将业务对网络的意图转换为网络可理解、可配SLA及安全并提供网络持续保障优化能力。数字孪生Gartner将数字孪生（DigitalTwin）定义为物理对象的数字化表示，包括：物理对象的模型、来自物理对象或与其相关的数据、与物理对象唯一的映射、持续遥测感知物理对象的能力。化的实时表示，包括静态信息（设备类型、容量、拓扑、配置等、动态信息（流量、表项、性能、告警、事件等、关联关系（对象模型、属性关联等）等。他为网络实现设计推荐、故障处理、资源性能优化等智能决策提供了一张高精地图。网络数字孪生包含三大关键能力：高精地图HMp络多图层的统一拓扑，支持多图层间对象关联搜索能力。历史回放imelineimelie历史回放。数据超市（Mrket：提供统一的数据管理、查询服务，降低数据访问难度。人工智能意图驱动完成外部对网络的诉求输入，网络数字孪生完成对网络的全量实时感知。人工智能（ArtificialIntelligence，AI）技术的引入，进一步消除了人工瓶颈。目前，广泛使用的人工智能技术有如下几类：强化学习Reinfreeterning，R：是不断地重复、不断强化认知的学择，则可以实现网络的最佳部署。形式化验证FlVeriin：最早应用于软件验证领域，通过穷举程序的所有输入和所有执行路径来诊断代码的质量和功能。将形式化方法引入到网络配置中，可构建事前仿真、事后验证的能力。在网络变更前，进行配置面验证，保证变更零差错。在配置下发后，定时采集设备的表项进行数据面验证，对网络运行状态提供持续性可靠保障。知识图谱nlederph：主要包括知识表示与建模、知识获取、知识融KPIKPIMin-plusalgebraIP网络队列理论，用于计算机网络Cruz1990eerminisceorklulus，C、随机网络演算（sicNetworkCalculus，SNC）等。在机载/车载网络、工业自动化网络、IP网络等各行业的通信网络中均有成熟应用。多云协同技术多云协同是指在私有云与公有云保持内在自治的条件下，在私有云与不同的公有云之间实现业务层面的统一管理和运维，可实现跨云业务部署和流量互通。使用场景现代企业云化部署时，往往使用私有云与公有云联合部署的方式，应用场景有：力和计算处理能力。灾难恢复：用户可以将备用的业务数据放在公有云上，借助公有云提供商的技术在私有云数据中心发生重大灾难时，用户可以在公有云端利用云主机快速切换，RTO，实现业务高可用。公有云里，以达到数据安全的目的。前端服务靠近用，后端集中处理：对于拥有多个分支的企业，尤其是跨国企业来RegionCDN（ContentDeliveryNetwork，内容分发网络）的只需要少量的前后端交互访问即可完成整个业务处理。开发测试生产部署：对一个应用而言，其开发测试过程一般需要灵活快捷的环境搭建，而且期间经常重构，这时公有云是个不错选择。而一旦应用正式上线，则希望运行在安全稳定的环境中，那时就会考虑部署在私有云。在这种情况下，同一应用在不同阶段相互之间独立，没有直接联系。通过多云协同技术，利用DevOpsIPVPN专线访问公有云提供的服务，简化本地应用系统的开发与部署。方案架构华为超融合数据中心网络，提供了多云协同能力，实现了私有云和公有云之间的统一编排和统一运维。图5-5多云协同逻辑架构在多云协同的总体架构，从逻辑层面可分为业务编排层、控制层、基础设施层。业务编排层：进行跨公有云、私有云的业务互通网络编排。MDC：Multi-Datacenter-Controller，多数据中心控制器。MDC既可实现私有云跨Fabric业务互通编排，又可实现私有云与公有云之间的业务互通编排。此外，MDC还可完成自动化部署、支持灵活的安全策略控制。MDC仅负责业务互通编排，编排结果的下发，会分别调用私有云控制器NCE-Fabric和公有云控制器CloudManager实现下发。控制层：维。iMasterNCE-Fabric：私有云域控制器，南向负责管理私有云内单个或多个FabricFabricMDCMDCFabric或跨混合云互通的私有云部分的配置下发。CloudManagerAPI，完成对公有云网络的配置下发。CloudManagerMDC共部署，是MDC上的一项服务。CloudManageriMasterNCE-Fabric域控制MDCMDCAPI成下发。iMasterNCE-FabricInsight：对私有云数据中心网络进行基于五层评估模型的全面网络健康度评估、故障识别与分析、风险预警，同时提供对公有云的流量网络可视与分析能力。基础设施层：SDNVPN有云连接。智能运维技术方案介绍云计算和智能化技术蓬勃发展加速了商业创新，数据中心规模和组网复杂度不断增加，企业对业务的可用性要求却持续提高。根据调研，98%企业业务中断1小时将损失超过10万美金。如何更加智能化地实现数据中心网络运维势在必行。华为数据中心智能运维方案从“看病”和“体检”两个维度守护数据中心健康运行。看病：首先，对于已发生故障，能够快速识别并找出病因，及时避免业务损失。30+675+1分钟故障感知，35分钟故障恢复。体检：其次，针对未发生故障，华为提供健康管理、故障预测等智能化能力。综合设备、网络、协议、Overlay、业务五层进行评估，为客户提供全面的网络健康体检报告，实现基于异常检测和风险预测的主动性防护。方案架构华为数据中心智能运维方案架构如下图所示，逻辑上分为网络层、控制层和分析层：源。控制层：主要由iMasterNCE-Fabric控制器组成。iMasterNCE-Fabric与iMasterNCE-FabricInsight对接，完成运维过程中对配置的自动转换与下发。分析层：主要由iMasterNCE-FabricInsight分析平台承担。iMasterNCE-FabricInsightTelemetry方式的数据上报，运用智能算法对上报的数据进行分析、呈现。iMasterNCE-FabricInsight可辅助用户逐步实现故障主动感知、分钟级故障定位定界的主动智能运维目标。图5-6智能运维方案架构示意图下面将分别介绍智能运维的核心角色：iMasterNCE-Fabric控制器、iMasterNCE-FabricInsight分析平台。iMasterNCE-FabricInsight分析平台iMasterNCE-FabricInsight基于华为大数据平台构建，接收来自网络设备的Telemetry方式的数据上报，运用智能算法对网络数据进行分析、呈现。如5-7所示，iMasterNCE-FabricInsight整体架构分为三部分，网络设备、iMasterNCE-FabricInsightiMasterNCE-FabricInsight分析器。图5-7iMasterNCE-FabricInsight分析平台总体架构iMasterNCE-FabricInsight采用微服务架构，各个业务服务采用多实例部署，具备高可靠性和伸缩性。可通过扩充实例节点，实现服务容量的扩容。各个实例之间无状态，外部HTTP请求由消息总线进行分发到各个节点处理。分析器南向接入采集器，采用LVS提高系统可靠性。iMasterNCE-FabricInsight采集器ERSPANTCP报文、基gRPC协议上报的性能Metrics数据、FIB/ARPTCPiMasterNCE-FabricInsight分析器iMasterNCE-FabricInsightTCPMetricsMetrics数据建立动态基线并进行异常检测、预测光模块的故障概率等等，并进行统计分析、呈现

人人文库> 全部分类> 行业资料 > 机电工程

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023超融合数据中心网络结构

文档简介

温馨提示

最新文档

评论

2023超融合数据中心网络结构

文档简介

温馨提示

最新文档

评论

相关文档