版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
L4数据中心自动驾驶网络白皮书摘要/02数据中心网络发展与挑战/032.1数据中心网络发展面临新挑战 2.2技术创新驱动结构性问题解决 华为数据中心自动驾驶网络/133.1数据中心自动驾驶网络愿景 3.3数据中心自动驾驶网络关键能力特征 L4数据中心自动驾驶网络白皮书数据中心自动驾驶网络典型应用场景/22 数据中心自动驾驶网络最佳部署实践/34 6.4能源:高可用容灾架构,构筑OPALQHSSE数字化最佳实践坚实底座 编制说明本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家、参编单位顾问专家(排名不分先后):华为数据通信产品线数据中心网络领域总裁王武伟华为中东中亚企业业务副总裁刘贵参编单位(排名不分先后):参编人员(排名不分先后):任泽昂、张晶、张娇、罗兴张爱雪、许建、魏智杰、沈瑞摘要2020年9月,华为发布了《数据中心自动驾驶网络白皮书》,全面阐述数据中心自动驾驶网络的愿景、内涵、目标架构、分级标准和典型应用场景。华为数据中心自动驾驶网络将自动驾驶等级划分为L0~L5级,每个级别具备不同的关键能力特征,覆盖网络规划、建设、运维和优化等全生命周期过程,逐步向自服务、自维护、自优化的无人值守数据中心网络演进。自动驾驶网络从L0~L5是一个长期实践、发展演进的过程,除了标准和技术,华为致力于与业界共同探索,持续深化自动驾驶网络评估体系建设,以牵引网络自动化/智能化升级和代际演进。随着数字经济持续高速增长,特别是近年以来,数字经济已成为驱动全球经济增长的关键力量,新兴数字化产业和企业数字转型的深入对数据中心网络提出了更高要求,这包括以更敏捷的速度支撑业务创新、支撑数据中心网络急剧扩容等等。而通过与大中型企业持续的共同探索与实践,华为数据中心自动驾驶网络迫切要解决当前企业客户最关键的问题,才能更高效地满足企业发展的需求:1.企业数据中心分批分期建成,异构的多云、多个数据中心和多种网络架构/技术方案并存,七国八制、各自地盘割据式管理是常态。如何对多云网络、多数据中心网络、多厂商网络设备或方案统一管控和协同,消除复杂异构网络中的大量人工断裂点,实现多云多厂商网络高度自动化,对于企业客户有着至关重要的意义。2.不同企业业务不同,IT管理流程也不尽相同,华为自动驾驶网络如何能够无缝嵌入企业客户的运维系统,成为运维流程的一个关键环节,从而以最高效方式助力企业客户在数据中心全网实现自动化闭环,是华为数据中心自动驾驶网络要解决的另一个关键问题。3.智能算力高速发展,各企业都在加速智能算力网络构建。智能算力网络对网络的高带宽,无损,低时延等要求更高,针对智能算力网络如何实现一体化运维,如何保障算力效能最优是智算网络中心需要解决的一个关键问题。华为L3数据中心自动驾驶网络已在单一网络内实现高度自动化,现在,华为继续从L3向L4推进,致力于在多云多厂商网络中实现无差别管控、灵活编排协同、仿真等高度自动化能力,具备全网数字地图一张网监控,基于应用网络融合一体化故障运维能力,并与客户IT管理系统对接继承形成端到端自动化流程。全面和具体地阐述华为L4数据中心自动驾驶网络:●补充数据中心网络面临的新挑战和创新性技术·完善华为数据中心自动驾驶网络方案核心组件iMasterNCE架构·详述数据中心自动驾驶网络典型应用场景,以规一建-维-优-营阶段分别展开华为一直致力于与各方产业伙伴和客户一起,以网本白皮书从需求背景、方案架构、分级标准、探索实践等角度,介绍华为数据中心自动驾驶网络方案,希望数据中心网络发展与挑战□2.1数据中心网络发展面临新挑战自上世纪90年代至今,企业数据中心无论是在技术上还是部署规模上都极速发展,并先后历经数据大集中及资源池化、云计算两个跨越式发展阶段。第一个跨越式发展从上世纪90年代末至二十一世纪初期,随着互联网技术兴起,PC端对网络、数据的要求不断增长,信息化需求促动数据基础设施向集中化、资源池化发展。数据中心网络为响应大规模、高效的数据交换以及计算虚拟化的要求,无带宽收敛、大缓存的ClosFabric架构应运而生。同时,为满足VM跨主机迁移诉求,Trill、VxLan等大二层技术兴起。企业数据中心发展初具规模,成为与人力资源、自然资源一样重要的企业战略资源。云计算技术兴起将企业数据中心推向第二个高速发展阶段。云化数据中心为企业提供按需自助、泛在接入、资源池化、快速弹性以及可度量的标准服务能力。数据中心不再只是企业内的一种资源支撑系统,而是成为一种新的生产力,开始改变企业研发、生产和运营模式,并驱动企业业务模式创新,带动产业转型。此时,随着软件定义网络(Software-definedNetworking,SDN)技术兴起,企业数据中心云化改造快速落地,数据中心网络满足了计算、存储动态发放、弹性扩缩诉求。截至2018年底,大部分企业数据中心已完成虚拟化向云化改造,进入云数据中心时代。随着以ChatGPT为代表的AI训练大模型的兴起,企业数据中心迎来了第三个高速发展阶段。大规模AI训练计算过程中,集群计算设备间需进行海量数据传输,需要超宽无损的网络。AI模型的训练过程,涉及到庞大的数据集、复杂的模型结构和深层次的神经网络,需要网络可全面感知各节点算力供给能力、网络传输性能以及用户业务对算网资源的需求,并可通过感知、编排、调度等技术将用户业务请求调度到合适的算力节点,网络助力实现算力运算加速。在企业信息化进程快速推进的同时,企业数据中心OPEX随着网络规模扩大而逐年增加,网络运营在规划、建设、维护和优化各阶段仍严重依赖于人员经验和技能,结构化矛盾日益凸显。通过与TOP30金融客户的深入探讨,我们发现数据中心平均每千台设备的运营维护需要约30名工程师。另一方面,数据中心网络也存在业务体验难以管理的巨大挑战,网络部门收到的用户投诉一半以上与业务体验问题有关。与TOP30金融需要约30名华为与企业客户在数据中心网络领域深入合作,对数据中心网络全生命周期进行研究和分析,识别出如下重大问题:规划阶段建设阶段维护阶段优化阶段企业数据中心在未来3年仍处于高速建设期,服务器规模将翻倍增加。网络设计人员需要完成业务需求转化为网络设计、评估应用安全要求、规划网络资源使用等繁琐工作,这消耗了企业中约一半的网络人力,急需通过系统化、自动随着云化业务量大幅上升,业务上线周期由原来的周级提升至天级,压力日趋增大。另一方面,企业关键核心业务对可靠性要求极高。据Gartner统计,近40%网络事故由人为失误导致,如何保障配置发放的正确性至关重要。以某银行网络为例,2019年累计变更14500余次,而变更工作量巨大,已超出人工处理极限,应接不暇的变更评审使变更成功率不断下降,造成5起网络中断事故。当前企业数据中心大多采用4个9(99.995%)高可用标准,即数据中心全年中断时间应小于26分钟;部分核心业务应达到5个9(99.999%)标准,即全年中断时间应小于5分钟。为此,金融行业、运营商及一些大企业均提出5分钟故障快速修复的目标。然而,当前企业网络维护智能化改造进程明显慢于业务自动化进程。云化业务弹性发放及VM迁移带来网络访问与流量的动态变化,给网络运维增大了难度。传统网络运维依靠告警、事件和日志等信息,无论是状态信息丰富度,还是监测周期(10min)都无法满足云化数据中心的运维要求。网络故障在被动应对、依赖人工排查,定位时间不可控。云化数据中心业务变化加快,网络、安全资源使用易存在局部热点,如不及时布式存储等新兴业务规模上线,应用之间点到多点分发式通信模式增多,导致网络微突发情况加剧和亚健康状态频发,严重影响业务运行效率。当前网络状态评估、业务预测、补丁升级等工作仍严重依赖人工经验,存在滞后性,潜在运营阶段水电,但企业对当前基础设施的实际使用率不高,每年行内都有10%降本增效的KPI要求,业务部门每季度会例行提申请存储、计算、网络等资源,同更无手段分析业务部门已经申请的资源实际的详细使用情况,导致基础设施部门只能被动不停增加预算购买,资源花费越来越多,资源使用如何,业务使用如何无法精细化感知,无法为企业业务的运营提供有效的支撑。综上所述,数据中心网络全生命周期运营维护存在四大人工断裂点,一旦消除这些人工断裂点,数据中心网As-Is:人工断裂点以网络语言作为主要编排方式以业务意图驱动,网络智能推荐端到端自动化业务正确性人工校验,层层评审智能仿真校验、多级回滚保障、业务秒级就体验仿真0劣化故障被动响应,多工具辅助,人工恢复时间长故障主动发现,智能定位,自动闭环,应用网络融合一体化运维人工经验巡检,网络优化滞后华为数据中心自动驾驶网络方案成功解决了单厂商向多云多厂商全生命周期自动化断裂点问题。随着企业数据中心网络运维重点由通用计算网络向计算、存储、高性能及AI计算多元化算力网络的演进,数据中心网·随着AI大模型应用,单流带宽随每个节点的接入带宽升级400G/800G,集群规模扩展,网络资源负载不均问题越来越明显。如何提高网络的资源感知能力,实现计算、存储、网络资源的分配,实现网络级负载均衡,提高整个数据中心的计算训练效率。·资源云化带来便利的同时也带来支出的浪费,传统运维手段难以达到成本监控、报告、可见性、分配、预算和预测管理,如何实现云化资源的精细控制,减少资源浪费和成本。·网络规模越来越大,业务越来越多,如何实现云化的整体高精度监控,实现全网范围的可观测、可视化,进入数字化阶段。促使企业效率提升。这些问题必须要解决,企业客户数据中心网络才有可能从整体上走向高度自智。2.2技术创新驱动结构性问题解决事实上,想要消除数据中心网络全生命周期运维的人工断裂点,原有网络技术已经无能为力,而随着意图抽象、数字孪生、人工智能等重大创新技术的迅猛发展,数据中心网络高度自治才成为可能。同时随着大模型的蓬勃发展,新型AI数据中心也对网络提出了新挑战:网络促使算力高效训练,智能化运维运营等。意图网络、数字孪生,全栈可观测等技术与AI结合,可逐步消除数据中心网络运维的人工断裂点,不仅可以代替人工处理大量重复性、复杂性的操作,还可基于海量数据提升网络预测和预防能力,通过数据更懂客户,基于数据驱动差异化的产品服务,使能高度自动化和智能化的数据中心网络运维。2.2.1意图网络业务对网络的意图(简称意图)指以应用为中心,用业务语言描述对特定网络服务及操作的期望。它是意图网络最重要的外部输入。意图网络需将业务对网络意图转换为网络可理解、可配置、可度量、可优化的对象及属性。通过对现有网络资源规格、网络SLA及安全能力等方面的综合评估,实现可靠性最优、资源最优、安全最优的网络设计推荐,并提供持续业务网络保障优化能力。例如:某账单查询系统需要上线。它包含3个微服务,业务对网络的意图描述如下:L4数据中心自动驾驶网络白皮书服务类型实例数网段安全分区可靠性账单查询服务Web服务自动分配支付服务应用服务自动分配数据库服务关系数据库2DB区跨DC主备系统将业务对网络的意图转换为网络语言:1.创建一个LogicRouter与三个LogicSwitch的VPC网络。设置相应网络对象名称为“账单查询系统”2.分别为“账单查询服务”、“支付服务”分配一个24位网段子网。3.VPC对外提供一个Internet联接,并分配一个外网EIP地址。6.根据网络资源与计算业务分布,推荐实例上线位置;设置业务重点保障及监控等。依托意图网络可实现网络设计简化,降低管理复杂度;屏蔽异构网络设备及多云业务差异。使得管理员无需。网络对象的对应关系,知识图谱构建·孪生安全沙箱运行环境简单来说,网络数字孪生就是综合运用感知、计算、建模等信息技术,通过软件定义,对物理空间网络进行实时描述、诊断、预测、决策,进而实现物理空间与虚拟空间的相互映射。随着自动驾驶网络的发展,数字孪生俨然成为企业数字化转型的新抓手,它为网络实现设计推荐、故障智能处理、资源性能主动优化等方面提供了一张高精地图。提供统一的数据管理、查询服务,降低数据访问难度。包括:首先,通过开放的数据提供统一的数据管理、查询服务,降低数据访问难度。包括:首先,通过开放的数据框架,收集各领域的可观测数据,包括资产数据、配置数据、运行时表项数据、状态数据、日志数据、工单数据、告警数据、自动化数据以及用户体验数据;然后,进行数据处理、分析和加工,终将多源数据全面映射成唯一ID,挖掘出显式及隐式关系,形成网络数据资产,可快速查询、提供数据开放等服务。数据超市提供安全的孪生沙箱环境,容许数字孪生对应的设计、运算、分析等能力在安全沙箱提供安全的孪生沙箱环境,容许数字孪生对应的设计、运算、分析等能力在安全沙箱内模拟运行,隔离生产网络环境,避免对网络环境产生影响。客户不同部门可以并发使用孪生来达成预先设计、分析等网络目的。安全沙箱2.2.3人工智能意图网络完成外部对网络的诉求输入,网络数字孪生完成对网络的全量实时感知。人工智能(ArtificialIntelligence,Al)技术的引入,进一步实现人工断点的消除。目前,广泛使用的人工智能算法有如下几类:强化学习形式化验证强化学习(ReinforcementLearning,RL)是不断地重复、不断强化认知的学习过程。在数据中心,大量业务上线和变更导致网络频繁变更。如果通过人工方式变更网络,很难以最优方案部署或得到最佳体验。而通过引入强化学习,根据不同组网方式、不同业务场景和流量大小等多种因素,对变更的参数进行动态选择,则可以实现网络的最佳部署。形式化验证(Formalverification)最早应用于软件验证领域,通过穷举程序的所有输入和所有执行路径来诊断代码的质量和功能。将形式化方法引入到网络配置中,可构建事前仿真、事后验证的能力。在网络变更前,进行配置面验证,保证变更100%无错误。在配置下发后,定时采集设备的表项进行数据面验证,对网络运行状态提供持续性可靠保障。知识图谱网络大模型知识图谱(KnowledgeGraph)技术主要包括知识表示与建模、知识获取、网络大模型将AI能力整合在原有系统(如iMasterNCE)中,用户可通过自2.2.4Low-Code开放编程平台快速完成网络作业编排,实现灵活自定义意图的目的。Low-Code的特点是让客户不需要具备专业的代码Low-Code开放编程平台包括:可以通过集成的界面文本进行编程开发,也可通过界面化拖拽方式进行编程开发。可以通过集成的界面文本进行编程开发,也可通过界面化拖拽方式进行编程开发。独立的开发和运行环境,提供开发,调试,发布流程。同时,提供开发作业的安全运工程管理工程管理对开发文件、包的生命周期管理,维护和管理开发/运行环境。Low-Code开放编程平台包含如下几项关键技术:对象,关系,流程等语法元素,构建网络业务作业的DSL语言,实现用户无需掌握专业编程开发技术、仅通过界面化的拖拽式操作,即可完成业务流编程。同时,用户只需专注于正向业务的编程,异常作业系统通过自生机制实现,可极大简化客户设计编程语言技术针对海量网络样本,通过针对海量网络样本,通过AI算法和专家训练的方式对数据中心网络建模,提炼出网络原子化通用业务模型,用于表达包括接口、VLAN、路由等在内的L2~L7层网络全部能力,供上层网络服务使用。网络原子化通用业务模型屏蔽了各厂商网络设备的配置通用业务模型技术L4数据中心自动驾驶网络白皮书2.2.5全栈可观测数字化转型势在必行,通过对网络的数字化建模和数字化体现,能直观呈现出网络的各种维度的信息情况,构建一张网实现全栈可观测能力。全栈可观测的核心是一张图,即全部网络全栈信息可以集中到一张图上,按不同客户不同场景的诉求呈现对不同维度信息的数据和信息展示。帮助客户获取各种信息,上层应用基于数字化数据做更深层的能力迭代演进。支撑业界高性能采集协议,通过实时高性能采集信息,提供高精度数据支撑;同时low-code的低码化接入技术,能将各类采集的数据快速转换到数据中心,线下驱动快速开发,线上插件化方式加载的方式,能快速适配客户存量网络,进而接入客户全网各类数据,包括网络数据和业务数据。内置各种场景的拓扑还原算法,将网络拓扑100%还原出来,构建网络数字地图一张图能力,通过对LLDP,ARP,MAC,流量等多种信息多维度执行算法,将不同的存量网络场景下拓扑100%还原,还原准确率>95%。呈现全网物理拓扑,应用拓扑,对网络的数字化数据执行路径导航算路,给出用户输入的任意两点之间的网络路可视化呈现,同时基于一些流量检测和分析技术,实时分析监测路况信息,帮助客户精细化感知业务网络现状&历史。智能搜索数字化建模数据的图数据存储,让数据之间有了意的输入,给出对输入对应的各维护的数据信息,基于一张图快速定位,全方面信息历史回放数据携带时间和空间标签,支持快照留存,可基于Timeline历史回放,从而快速分析和对比网络现状和历史、直观呈现网络多维度的变化趋具备全流分析技术,智能分析流量,主动识别与故障定界定位,融合网络和应用快速自服务自优化进。3.2数据中心自动驾驶网络分级针对已知重复性任务,通过工具或脚本批量操作(如批处理工具),辅助核心理念是从网络视角转变为业务视角,通过业务意图驱动整个网络的运核心理念是从网络视角转变为业务视角,通过业务意图驱动整个网络的运行。此时,系统从被动执行转变为智能决策,比如推荐网络的最佳方案、提供事前评估、事后自动验收、发现问题后自动定位等。系统具备智能化L3实现数据中心单一网络内的限定条件自治,L3.5从单一网络走向多云多数据中心多厂商网络,以场景化、自服务的网络能力与企业IT管理系统对接,被业务灵活编排和调用,从而无缝嵌入各个企业的IT流程,形成业相相比L3、L3.5阶段,网络智能化程度更高。系统可以提前预测系统有主动纠偏的能力;以业务为中心融合应用数据提供更多智能化的能力,实现高度自智网络:网络智能算法加速AI训练网络训练加速;提供智能化分析运营能力,改变运营目标不明确,运营数据不全面不高度自治网络这是数据中心网络发展的终极目标,系统具备在任意场景中跨业务、跨领L5L5全自治网络3.3数据中心自动驾驶网络关键能力特征数据中心网络从业务全流程上划分为“规-建-维-优-营”五个阶段,同时包括“规划设计、部署开通、业务发放、网络变更、监控排障、调参优化,运营”七个子环节。每个环节在自动驾驶的每个等级上都应具备关键能力特征。企业客户可评估自身数据中心网络现状,并结合实际制定出相应的发展目标。规划规划设计●规划设计工具●识别规划意图,比如新建DC自动推荐建设方案●系统生成仿真网络,进行规划仿真评估●自感知自还原存量网络规划,包括协议部署、资源规划,自生成存量网络规划全景偏好自动给出新建方案,结合存量网络规划全景偏好,推荐新建区域的最匹配规划方案建设部署开通●批量下发工具●全自动下发,即插即用●自动验收:全网连通检查、拓扑检查等偏,灵活意图实现快速纠偏维护业务发放配置工具●人工设计方案,专家评审务上线、业务互访,并支持意图自定义给出仿真评估给出验收报告务的视图,自动创建监●未知意图识别,灵活意图定义实现自动化部署●自动学习更新,学习用户业务习惯,更好的推荐应用开通路径负载影响预测网络变更●配置工具或控制器下发置文件,变更失败后导入、恢复●基于网络意图,比如设备扩容、服务器扩容、VAS扩容、设备替换、端口替换于Fabric、租户、业务的快照,变更失败后快速回滚●自动生成健康度快照维护监控排障●系统基于人制定的巡检策略进行排查●人工识别隐患●人工修复故障异常,1分钟发现问题●自动分析故障根因●推荐最佳修复方案,客户确认后,自动修复●故障预测:光模块、硬件板卡、软件故障等●故障自愈:系统辅助业务为中心网络故障自修复●数字地图:一张图监测全网信息,结合应用端到端观测,具备应用画像能力析,结合应用信息自动给出异常原因,处置建议,应用一键报障处置优化调参优化●突发丢包:尽力而为checklist发现网络隐患●基于人工经验的优化●0丢包:依据流量模型,自动调整内部队列,保证0丢包。●业务劣化预测:建立业务质量的动态基线,可提前务劣化预测,提前优化调整,保证网络持续满足要求;网络安全策略压缩优化;●网络吞吐优化,网络增强负载能力,加速算力运行●网络大模型思维链辅助闭环,学习常见网络故障的排障方法,进行自动根因定位和诊断运营专项运营●数据采集,人为分析●KPI采集:高精度KPI采集,时效性佳●人工流程分析生成报表于业务推荐部署资源,部署位置,业务扩容建议,业务体验最佳,使用最优华为数据中心自动驾驶网络方案架构华为数据中心自动驾驶网络方案架构主要分为网络基础设施、管控系统、云端训练系统三层。云端人工智能单元云端人工智能单元网络知识库数据湖服务Al训练服务商业意图在线闭环网络自动化数字孪生网络AI推理单元转发芯片采集分析通信大模型离线闭环智能闭环依托CloudEngine交换机实现数据中心物理网络采集与配置系统重构,支持Telemetry主动上报,NetconfYang高速配置能力。同时网络设备内嵌AI芯片,具备智能边缘推理能力,可实现网络KPI及流量异常行为分析、网络KPI自优化能力。依托iMasterNCE自动驾驶网络管控与分析平台,以意图引擎、自动化引擎、分析引擎、智能引擎及网络数字孪生底座为核心,面向数据中心网络“规-建-维一优-营”全生命周期的自动化管理以及路径导航、应网融合智能故障分析、风险智能预测预防等组件。●云端训练系统:设备智能边缘推理引擎,华为数据中心自动驾驶网络方案可实现三层智能引擎间的模型与推理参数主动其中,iMasterNCE数据中心自动驾驶网络管理控制系统,是集管理、控制和分析一体化的自动化与智能化平台,是数据中心自动驾驶网络的大脑,以意图引擎、自动化引擎、分析引擎、智能引擎及网络数字孪生底座实现数据中心网络全生命周期高度自动化和智能运维。异常检测)根因分析配置管理数据采集VendorA硬件SDN软件SDN传统网络多云网络规划工具业务发放可编程平台训练)(推理AI网元管理L4数据中心自动驾驶网络白皮书1.意图引擎:iMasterNCE意图引擎是自动驾驶网络的中枢,是从L2自动化走向L3意图驱动的核心标志。基于业务意图,通过网络推荐算法,将业务意图自动转换为网络设计。提供IP地址推荐、网络资源位置推荐、安全方案推荐等智能推荐能力,实现一键式业务网络规划,并将业务意图转化为网络监控指标,持续保障网络连接或功意图引擎由意图管理、意图决策以及工作流三部分组成。意图管理以业务意图为核心,实现意图的全生命周期自动闭环管理。支撑异构网络下应意图管理以业务意图为核心,实现意图的全生命周期自动闭环管理。支撑异构网络下应用网络的意图管理。意图决策以业务应用为中心,对应用的不同场景将网络的诉求进行抽象,结合网络路径意图决策以业务应用为中心,对应用的不同场景将网络的诉求进行抽象,结合网络路径导航、用户习惯,通过智能推荐算法,实现最优网络设计推荐,并根据业务特点,为业务网络自动创建差异化、针对性的网络保障服务。意图编排平台Runbook意图编排平台Runbook意图编排平台是一个Low-Code工作流编排平台,可根据业务需求,通过拖拽式操作,实现业务工作流图的灵活定义,并发布成API快速实现网络与业务系统对接集成。2.自动化引擎:iMasterNCE自动化引擎负责整体数据中心网络的发放,由网络规划、业务发放、可编程平台和仿真校验四部分组成。网络规划通过编排网络模型构建业务逻辑网络,通过自动化编排消除手动配置,降低网络复杂性并提高自动化水平。网络规划通过编排网络模型构建业务逻辑网络,通过自动化编排消除手动配置,降低网络复杂性并提高自动化水平。业务发放基于网络模型,完成业务逻辑网络向网络配置的转换,实现网络业务统一发放。业务发放基于网络模型,完成业务逻辑网络向网络配置的转换,实现网络业务统一发放。支持业务高效调度和高并发,满足数据中心业务极速发放的要求。同时,还提供业务、租户和全网的多级回滚及对账能力。可编程平台AOC可编程平台AOC开放可编程平台是一个模型驱动的三方设备集成平台,通过编写设备驱动包并灵活加载,实现对三方厂商设备的统一管控。仿真验证包括在线配置仿真验证、离线配置仿真验证和事后验收。以现网配置、拓扑和资源信息作为输入,通过网络建模和形式化仿真验证包括在线配置仿真验证、离线配置仿真验证和事后验收。以现网配置、拓扑和资源信息作为输入,通过网络建模和形式化验证算法,基于现网仿真剩余网络资源是否足够、呈现详细的连通性互访关系、数字化模拟用户重大意图的执行、验证意图的预期效果、分析和评估变更对原有业务影响,并持续验证原始业务意图是否已经被满足,进而保障客户网络可靠性。同时通过对流量等建模,仿真流量的趋势等,分析和评估流量负载预测等,提前分析业务体验影响。3.分析引擎:iMasterNCE分析引擎建立了一整套故障发现、故障根因与影响智能推理、故障处理维护的统一框架,是数据中心网络运维监控的入口。通过大数据技术构建海量设备数据的采集与分析能力,实时感知设备KPI、状态以及表项变化,并支持全流采集分析。iMasterNCE分析引擎由健康评估、异常检测和根因分析,应网融合四部分组成。健康评估将网络KPI健康评估将网络KPI、流量及状态等指标进行抽象建模,建立面向设备、网络、协议、Overlay及业务的网络健康评估体系,并根据性能、容量、状态、安全攻击及连通性等多个维度,综合、实时评估网络健康状态。异常检测基于网络健康评估模型、知识图谱技术、大数据分析与AI异常检测基于网络健康评估模型、知识图谱技术、大数据分析与AI分析引擎综合分析,分钟级主动感知网络中已发生的故障并告警;同时基于可靠性、稳定性、负载性能、容量、配置一致性等维度,精准识别网络中潜在的风险隐患,防患于未然。根因分析基于知识图谱技术进行深度特征挖掘和学习,辅以故障排查和配置表项比对根因分析基于知识图谱技术进行深度特征挖掘和学习,辅以故障排查和配置表项比对等手段,实现网络故障根因快速定位。根因定位后,分析故障影响并推荐优选故障处理方案。同时,可以根据网络流量等数据,提前识别和分析出故障风险,进行主动优化,排除网络隐患。应网融合为了保障业务体验连续性,网络运维也需要主动监控应用的网络性能质量,例应网融合为了保障业务体验连续性,网络运维也需要主动监控应用的网络性能质量,例如跨行转账、信用卡消费等业务,及时检测业务体验指标劣化,快速定界是否网络问题,最小化业务中断的影响,保障网络服务的可靠性和可用性。因此网络分析引擎需要将应用数据和网络数据融合,构建完整的知识图谱,主动运维,实现应用级别的故障根因快速定位,风险预测和故障快速闭环处置。iMasterNCE智能引擎是整体方案架构中的AI平台化组件,它基于华为盘古大模型进行增量训练,提供自然语言交互、思维链推理等多个大模型原子能力。大模型思维链推理,可实现排障任务自主分解,并调用智能体(AIAgent)辅助决策和闭环。同时,智能引擎与设备EAI组件协同,将AI算法推送给设备EAI组件,从而实现设备本地推理和业务体验优化。5.网络数字孪生:iMasterNCE网络数字孪生通过数字化建模,对物理网络的状态在信息空间进行全要素重建及数字化映射,形成覆盖网络全生命周期的数字化数据池,进而实现对网络对象的全生命周期的洞察(Insight)、追溯通过网络数字孪生底座,构建基于网络管理、控制和分析三大能力,将上层业务意图的自动翻译为网络行为,并持续保障网络连接和功能的SLA承诺,实现网络的自动驾驶。基于应网融合、开放的可观测架构,NCE一张图全栈可观测构建以网络为中心的全栈信息数字化,可视化。数据中心自动驾驶网络典型应用场景华为数据中心自动驾驶网络解决方案致力于提供数据中心网络规划、建设、维护和优化、运营五个阶段全生命周期的高度自治体验,实现以意图为中心的端到端高度自动化能力。下面我们就基于规-划-维一优-营五个阶段,介绍华为数据中心自动驾驶网络典型应用场景和其带来的5.1规建阶段5.1.1智能设计和开局场景描述计符合预期。另外,设计阶段输出的LLD等交付解决方案阶段无人为差错,从而大幅降低用户建网时间和成本,实现规划-建网周期从1个月降低到1周之内,彻底例如,用户希望建设一个1000台服务器规模数据中心网络,要求高可靠性。iMasterNCE能够识别用户5.2运维开通阶段5.2.1为业务意图提供网络服务场景描述随着企业数字化转型进程提速,产品创新的频率越来越快,应用上线和投产、变更越来越频繁。应用上线,投产或变更的过程通常涉及网络基础设施的大量变更,如:需要申请域名,包括公网和内网域名、开通应用互访策略、开通服务器负载均衡策略、申请SSL证书、开通服务器接入网络等。目前,应用上线或变更流程由工单驱动:业务部门需要ITSM中分别提交各种类型的工单,这对业务人员提出了较高要求,需要其具备一定的网络认知,保障工单提交清晰、有效。网络部门接到工单后,要求在当日处理完毕,而平均单个应用上线需要50以上工单,网络工程师需要人工分解和执行,每天疲于奔命。解决方案华为iMasterNCE利用Runbook意图编排平台,提供一体化端到端的业务发放能力,可以通过灵活的页面拖拽方式进行应用上线流程端到端的定义,方便用户操作,零学习及编码成本。同时,业务流编排后可发布成服务,形成服务目录,并生成API,北向ITSM系统灵活、反复调用,即可无缝对接用户的工单系统,实现工单审批流程和自动化流程的打通。iMasterNCERunbook意图编排平台,是业界首个面向网络领域的Low-Code作业流编排平台,基于100+全量网络原子化能力模型,通过拖拽式、界面图形化操作,能够自定义将多个系统或设备的作业任务串联成一个自动化流程,轻松实现跨系统、跨设备的调度自动化。针对网络配置,支持事务一致性管理,通过内置的回滚机制保证配置变更的一致性。同时,支持多云、异构云的并发执行,具备海量且高效的运维内置操作iMasterNCE以业务为中心,对客户的业务网络行为建模,结合现网拓扑,配置和表项等众多网络信息构建网络业务知识图谱,针对客户业务动作,如应用投产,迁移等,提供规划推荐算法,输出跨区域,跨异常厂商的路径导航规划,自动推荐配置完成业务自动化端到端全开通。业务开通浓缩成一对应用的访问输入,极大方便了用户的理解和使用,作为功能节点融合Runbook平台实现更灵活、更简单易用的的流程化编排能力,应对客户任意的意图开通诉求。5.2.2为网络变更提供精准保障场景描述3000次以上,导致70%的网络团队每月投入一半以上精力用于网络设计,变更前评估和执行,以及变更2)随后需要检查这些定位的设备配置,判断当前的存量配置与需求的匹配度,是否有冲突、是否已3)再根据设备的当前配置编写变更脚本,包括NAT等。4)人工复核变更脚本,重点关注变更的准确性以及对生产环境的负面影响。5)最后再将经过复核后的变更脚本执行、校验、异常回退等。影响线上交易。据Gartner统计,数据中心网络约40%网络故障由人因差错导致。解决方案华为iMasterNCE通过设备全量配置,还原一个虚拟仿真网络,在该仿真网络环境里,具有跟生产环境事实上,iMasterNCE是以网络数字孪生模型为基础,通过优化后的形式化验证算法(Formal5.3运维排障阶段5.3.1智能故障修复与风险预测场景描述从数据中心网络运营维护环节看,由于业务发放速度变快以及引入了VM、容器等虚拟化技术,网络的流量存在不确定性。而当前运维手段有限,仍然依靠传统网管和命令行方式进行查看、监控,分钟级的网络监控已经无法满足业务秒级体验保障的要求,往往被动感知故障。故障发生后,定位仍主要依赖专家经验,利用多种辅助工具,逐段定界、逐流分析、抓包定位,效率十分低下。以华为金融客户为例,数据中心网络平均故障定位时间>76分钟,远远无法满足金融行业的要求。网络部门面临着加班加点、疲于奔命,但却屡遭投诉的窘境。解决方案针对数据中心网络运维窘境,华为数据中心自动驾驶网络方案从iMasterNCE基于Telemetry技术实时采集数据,实现对设备、网络、协议、Overlay、业务进行5层网络健康的全面评估并生成报告,帮助运维人员“看网识网”,直观地呈现全网整体体验质量,实现对80%的常见网络故障1分钟内主动感知。日常网络检查基于单设备单指标检测,无法主动识别网络潜在隐患和风险。iMasterNCE通过将网络风险图谱化建模,针对不同的组网场景、设备角色、风险类型形成统一的风险项表示框架,结合图谱导航矩阵算法及多模态特征预测模型,基于可靠性、稳定性、负载性能、容量、配置一致性等维度,精准识别40多种网络潜在风险,实现网络主动运维,降低故障发生率。●基于知识图谱建模与推理,实现对故障根因智能定位。网络故障具有传播性,例如,一方物理端口故障导致对端端多层面异常。iMasterNCE引入知识图谱技术并进行优化,从时间相关性、空间相关性两方面,对多维数据进行建模和关键分析,从而锁定故障根因、对网络行为进行预测。通过持续训练和学习,目前已实现对90多种故障3分钟故障根因定位。●基于分析与控制模块联动,实现故障感知一定位一修复极速闭环。iMasterNCE通过分析模块定位故障根因,并将故障根因上报控制模块。控制模块基于专家规则库和AI模块,推荐故障处理方案,并分析该方案是否能够消除故障影响。5.3.2应用与网络一体运维伴随着数据中心技术的发展以及业务的快速迭代创新,网络部门的运维压力越来越大。当应用出现访问质差问题时,往往需要应用和网络部门联合定位分析,由于应用部门运维系统看不到网络设备,而网管软件又无法看清业务,两套系统独立运行,数据孤立,造成应用的保障与监控缺乏全局视角,当应用体验出现劣化后,无法快速排查是否网络设备故障导致,常常问题定位需要耗费的时间比较久,对于间歇性出现的问题,难以取证,网络无法自证清白。应用与网络联合定位分析时,需要网络提供相关的数据服务,如通过查询应用IP在网络侧的路径和节点的质量数据信息,实现故障的快速定界定位。传统方式,采用硬编码开发集成,集成交付周期长。以网络路况数据为例,涉及网络拓扑、节点路径、SLA质差等数据信息,需要开发20+API,通过不同接口查询后拼接成统一场景化数据,往往耗时较长。应用手工定义,网络难以识别应用互访关系进行重点监控保障,无法快速分析处置应用故障。解决方案全流全包的应用流分析能力。XFlow方案聚焦应用网络性能监控、应用故障应急处置、关键业务重保等日常基于真实流的DC内全路径还原、应用故障智能定界、逐跳网络节点排障、应网融合根因溯源等6+项关键技术,实现业务报障一站式诊断、故障分钟级定位定界、重保应用质量实时感知。同时华为iMasterNCE将100+全量网络原子化能力模型开放,通过界面拖拽方式将原子服务编排成场景化的服务APP发布,快速实现应用和网络系统的一体化集成运维,实现业务体验实时保障。L4数据中心自动驾驶网络白皮书●应用体验一图保障iMaster-NCE可针对数据中心网络进行统一管理,并基于全流分析技术提供应用地图能力,实现应用与网络140多种性能指标的统一监控。用户可自定义关键应用节点,端到端分析用户终端、应用服务以及承载应用的网络质量,应用体验劣化及时预警,快速定界出是应用还是网络侧问题。当应用地图中感知到应用性能异常后,也可一键从应用跳转到对应网络,查看网络全路径拓扑进一步诊真实还原TCP业务流所经过的网络逐跳路径,并分析出业务流的连通性、质差类问题,同时关联网络中逐跳网络路况异常、性能、质量、变更等数据维度进行分析,自动诊断业务劣化时刻的异常所在位置和原因。同时可追踪到故障时刻的原始报文进行回溯取证,为故障诊断结果提供●基于数据虚拟化技术生成数据目录iMaster-NCE基于Telemetry技术实时采集100+数据,通过数据虚拟化技术,从业务角度组织好数据之间的关联关系,建立统一的数据服务目录,用户统一从服务目录调用数据,不用感知底层的数据Overlay、协议、网络、设备这五层数据目录,通过拖拽的方式,将原子数据编排组织好生成场景化的●基于大模型思维链与Agent,实现对故障处置知识库自学习/自处理网络运维中日志处理普遍通过黑名单机制。当网络中出现新故障时,因新日志/未知日志没有处理过,管理员缺乏处理预案,只能在故障处理后再通过复盘总结案例,缺乏技术手段保证故障合理处理。iMasterNCE引入NetMaster网络大模型,自学习复盘总结案例,并结合内置的故障处理知识,实现后期同类故障的自动处理。同时结合RAG检索知识,实现对未知故障的处置推荐。场景描述APP、DB、BigData、Storage等多种业务流量的性能,鱼与熊掌是否可以兼得?这个问题一直困根据Google、Facebook、HUAWEI等有丰富流量80%以上单流小于100KB,常见的数据库Key-Value读写和WebSearch应用流量模型几乎全为100KB以下的流量。网络设备对此解决方案规格。明确上述影响FCT的主要因素后,可以有针对性地做出优化方案。Dynamicpacketprioritization1)吞吐敏感型的大流,也叫做大象流(ele2)时延敏感型的小流,也叫做老鼠流(mice)。当数据中心流量存在大量的瞬时突发Brust或者多对一访问Incast等场景时,由于DPP算法中象流队列和鼠流队列的缓存Buffer分配机制使用相对公平算法,通常是各个队列均分所有缓存或者按照某种固定比1)象流所属队列缓存较大,鼠流所属队列缓存不足。此时可保证象流高性能大吞吐,但鼠流吸收Brust能力不足,丢包重传导致鼠流FCT裂化。2)象流所属队列缓存偏小,鼠流所属队列缓存较大。此时设备具备较强吸收鼠流Brust的能力其FCT较低,3)象流所属队列和鼠流所属队列公平分配缓存,这是一种相对均衡的分配算法,寄希望于在象鼠流间取的平衡。这种分配算法不会产生较大的负面影响,但也无法获综上,由于流量模型的不确定性,固化的设备内缓存分配机制无法适应多变的业务场景,数据中心网络迫切FlexBuffer机制就可以很好满足这一诉求。FlexBuffer通过计算满足象流吞吐,相对公平,一定丢包率下最低Buffer算法,将尽量多的buffer用于鼠流吸收Burst,优先保障鼠流队列不因缓存不足丢包,同时尽量确保大流有一定的缓存保证其吞吐性能。其当鼠流队列出现缓存不足丢包时,增大鼠流队列缓存容量,减少大流队列缓存;当象流队列丢包或欠吞吐而鼠流队列不丢包时,减少小流队列缓存,增大象流队列缓存。通过Al算法实时感知缓存使用状态,动态调整队列缓存容量,达到FCT最佳效果。5如图所示,以DataMining应用流量模型为例,象流数目约占5%,象流流量约占90%。使用FlexBuffer机制可以获得最大30%的收益。5.4.2吞吐调优加速算力场景描述速度。全局冲突:leaf设备无法预见下一跳冲突,spine设备下游链路拥塞。全局冲突本地冲突8解决方案有50%;每个周期内最慢的一条流到达后,才能进行下一轮通信,性能取决于最慢的流。L4数据中心自动驾驶网络白皮书5.4.3应用部署优化场景描述当前大部分企业的CI/CD(持续集成、持续开发)应用部署流程还停留在粗狂阶段。以申请一个应用VM1)计算:哪些服务器还有计算资源,CPU/RAM资源是否满足。2)存储:对应的存储容量是否满足VM申请诉求。但是这些评估在企业应用部署合理性角度,远远不够。举个例子,在有些客户案例中,由于缺乏对上线服务器上连交换机的容量、通信矩阵因素考虑,导致业务投产后,大量的多打一流量发生,交换机容量过载,导致设备重启。类似的问题屡见不鲜,其背后的原因是大部分企业当前缺乏应用上线前的laaS层灰度发布,运营,影响性评估能力。解决方案针对以上挑战,华为提供网络热力地图方案,将网络作为连接企业ICT基础设施的枢纽,打造一张包含ICT基础设施多因子的“热力地图”,并为企业CI/CD流程提供一个业务部署的辅助Copilot引擎,在用户业务部署时提供精细化的运营指导。排名网络热力1●23456781)ICT热力地图:华为以网络数字地图为底座,进一步融入网络容量热力,算力,存储,应用互访关系等数据,打造ICT热力地图,用于评估应用部署的laaS层合理性和健康状态。容时,提供网络容量/容灾/带宽线路/算力利用率/网络安全合规等多方面的综合分析能力,辅助系5.5运营阶段5.5.1网络资源热力运营分析场景描述资源云化为企业业务数字化提供了资源灵活调配的便利,企业每年都要花费上千万进行网络、专线等资源采购为特定业务提供高质量服务。但这些资源的详细使用情况在当前技术条件下很难进行业务成分及使用详细信息的感知。对于利用率低的资源,能否进行缩减或回收业务的空闲专线资源,需要投入大量繁琐的人工分析来评估各业务的分配资源的合理性,评估周期长且不能及时根据业务实际情况及时调整。随着企业业务的1)管理员需要了解资源真实利用率以及和业务的关联关系,及时分析利用率低的业务使用情况2)应用的异常突发流量缺失有效针对应用的监控预警,造成干扰,影响其他业务3)基于业务占用资源使用情况费用对所服务的业务部门进行资源成本使用分担,网络部门要有理有据解决方案针对数字化运营挑战,华为提供了网络资源热力运营分析能力,实时观测数据中心内网络资源使用情况,并通过热力图的形式展示网络资源的繁忙情况。当有业务上线或者业务变更涉及到网络资源申请时,能够快速根据热力地图调配网络资源,提升网络资源的使用效率。1)客户业务全视图,一张图全揽数据中心资源情况,通过热力情况反映网络资源的繁忙情况,呈现业务对应各项关键指标信息(数量,分类,应用成分情况等)2)业务资源数字化可视(流量,丢包,时延等),异常资源侦测结合资源使用情况预测分析,流量分析智能预测结合历史数据分析为用户提供预处理建议。OOAIdevelopmentSoftwaredevel其超级APP仅2023年一季度的MAU就达到1280万,其中830万人每天访问该应用服务,并已接入512K商家合作伙伴。为提升业务竞争力,银行聚焦超级APP,规划100多个创新业务,比如,为知名游乐场度假区提供智能金融服务等。然而,落后的数据中心网络运维模式带来巨大的阻力,业务上线周期长达3~6个月,业务创新速度严重滞后。为什么业务上线时间如此漫长?以超级APP中新上线一个零售业务为例,共涉及30多个工单端到端开通,仅其中一个微服务上线类工单,就涉及5家厂商、30个网络节点的配置,开通需要2天,因此,业务上线总计需要100多个工作日。2023年,银行启动数据中心基础设施改造和扩容项目。华为与银行反复交流方案、演示产品和组织测试,iMasterNCE全网统一管控和编排方案完美解决了客户心头之痛:实现对多家厂商设备统一管控。和下发。驱动果硬件SDN传统网络VendorAVendorBiMasterNCE全网统一管控和编排的方案iMasterNCE全网统一管控和编排方案实现业务开通从月缩短到分钟级,助力业务上线提效百倍,从根本6.2政府:Underlay&Overlay协同运维,支撑医疗业务7*24小时在线提供在线公共服务统一门户网站,为政府机构和组织发展数字经济和电子政务提供实际支持。随着政府信息化的开展,该国家已积累400多个信息系统、电子服务和其他软件产品。为了在最短的时间内将现有系统和软件连入门户网站,以云资源的形式向政府机构提供所有IT资源,政府决定建设电子政务系统的容器化数据中心。同时,越来越多的居民选择在线办理业务预约、医保报销、养老金等业务,这对数据中心的可靠性提出了更高要求,因为业务一旦故障会给政府机构带来很大负面舆论压力。ARPARP/MAC表Ping路由表ARP表③逐台设备排查网络管理员①业务上线位置②告知所需信息及互访关系?IT管理员医保报销医生预约社保账号业务故障定位流程示意目前,该管理中心的数据中心网络和IT设备由不同团队分别维护。当接到业务报障时,网络和IT管理员需要反复沟通,确认业务上线位置、业务IP地址、互访关系等信息,然后,网络管理员逐台登录设备检查业务IP地址间连通性、丢包率、转发时延等信息,有时甚至要在交换机上逐跳抓包分析业务交互报文,从故障发生到定位通常需要半个小时以上。建链异常详情建链异常详情路径逐跳可视社保账号网络管理员一键排查医生预约业务报障医保报销iMasterNCE一键呈现业务流转发路径华为Underlay和Overlay网络协同运维方案,当业务发生异常时,iMasterNCE能够一键呈现业务异常会话的逐跳转发路径及中断位置,10倍缩短故障定界/定位时间,从而大幅减少因故障持续带来的舆论压力。同时,iMasterNCE实时监控网络异常,主动识别网络风险,提前干预和消除网络隐患,例如,通过光块模故障预测功能提前识别异常光模块并及时更换,避免因网络故障导致医疗卫生、社会保障等业务出现异常,提升了数据中心整体可靠性。当前,其服务范围已扩展到超过35个教育机构和80个校园,其中包括阿联酋教育部和哈利法大学,在阿联酋排名第一,在中东和北非(MENA)地区排名第二
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年矿业权抵押融资合同示范3篇
- 二零二五年新型环保栏杆研发、生产安装合同3篇
- 二零二五版矿业权转让与安全生产监管服务合同集3篇
- 二零二五版建筑工程BIM模型优化与交付合同3篇
- 二零二五年混凝土施工安全生产责任书合同3篇
- 二零二五版挂靠出租车绿色出行奖励合同3篇
- 提前终止2025年度租赁合同2篇
- 商铺售后返租合同纠纷的司法解释与实践(2025年版)2篇
- 二零二五版畜禽养殖合作经营合同书3篇
- 二零二五年度废旧玻璃回收利用合同书3篇
- 专题6.8 一次函数章末测试卷(拔尖卷)(学生版)八年级数学上册举一反三系列(苏科版)
- GB/T 4167-2024砝码
- 老年人视觉障碍护理
- 《脑梗塞的健康教育》课件
- 《请柬及邀请函》课件
- 中小银行上云趋势研究分析报告
- 辽宁省普通高中2024-2025学年高一上学期12月联合考试语文试题(含答案)
- 青海原子城的课程设计
- 2023年年北京市各区初三语文一模分类试题汇编 - 作文
- 常州大学《新媒体文案创作与传播》2023-2024学年第一学期期末试卷
- 麻醉苏醒期躁动患者护理
评论
0/150
提交评论