2025年一云多芯算力调度研究报告-浪潮云海_第1页
2025年一云多芯算力调度研究报告-浪潮云海_第2页
2025年一云多芯算力调度研究报告-浪潮云海_第3页
2025年一云多芯算力调度研究报告-浪潮云海_第4页
2025年一云多芯算力调度研究报告-浪潮云海_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一一--·1··02··03·一云多芯算力调度实践探索案例实践·04·智慧时代,计算力就是生产力。计算场景多样化驱使算力体系架构向异计算产业的核心关注点。随着近年来信息技术产业发展迈入新阶段,业内对于一云多芯相关技术的研究及实践也在不断深入,用户对于一云多芯的要求也在不断提升。但是,由于异构芯片间指令集千差万别、性能差异显著,异一云多芯的最终目标是支撑业务应用在不同架构处理器之间低成本、自为实现一云多芯的最终目标,算力作为一项核心资源,其调度能力至关重要。一云多芯算力调度倡导构建分层解耦、开放标准的整体架构,从基础设施到应用层的各层级能够独立运行、独立演化,同时支持开放的协议、标准实现层间高效协同,兼容多样化的硬件平台,从而提升整体系统的灵活性与可扩展性。本报告针对算力调度架构中的各个层级的实践探索进行了分析最后,本报告对一云多芯的未来进行了展望。一云多芯势在必行、任重道远,不仅需要持续的原创性、引领性技术创新,也需要业内广泛联合和生·05··06·场景呈现多样化趋势,大数据、科学计算、人工智能训练、人工智能推理等新型计算模式不断涌现。数据精度横向扩展、数据量级纵向增长,对计算的实时性要求也不断提升,传统的速处理器、神经拟态芯片、可编程芯片、领域专用加速芯片等多种TB级X86大数据关键计算TB级X86大数据关键计算科学计算数据量级不断提升,类型复杂AI引入新计算类型,跨度更大·07·灵活可定制性受到关注。伴随计算场景的多样化,数据中心正从以CPU为中心,向GPU、在多元异构处理器功能、性能和可靠性存在差异的情况下,为满足高效稳定的技术需求、实高效适配、无损迁移与性能调优成为重要关注点。行业客户对于一云多芯的需求不再限定于基础的多芯资源的管理和调度,而是衍生了因不同架构之间差异导致的应用性能优化需求、向应用的资源供给分配标准以及不同技术路线之间的高可用迁移方法,从而降低应用适配改是保障应用的跨架构高效稳定运行,从而实现用户体验的一致性。功能的等价性主要面临的挑战是异构处理器之间指令集的差异,对于操作系统及应用程序的跨架构可运行性提出了更高的要求;性能的等价性主要面临的挑战是异构处理器之间性能的差异,通过建立科学、全面的算力量化评估模型,准确分析不同架构的处理能力、运算速度等方面的特性,为应用在·08·要推动CPU、GPU等异构算力提升,逐步提高自主研发算力的部署比例,推进新型数据中展行动计划》,提出要推动算力结构多元配置,推动不同计算架构的智能算力与通用算力协同发展,满足均衡型、计算和存储密集型等各类业务算力需求。中国人民银行印发的《金融科技发展规划(2022-2025)》中提出,要切实保障供应链稳定可靠,不一云多芯的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切·09·第二阶段第三阶段第二阶段第三阶段资源混部,即在同一个云平台中实现不同厂商、不同求,为客户提供更加灵活、高效的资源调度策略,实现业务的灵活部署和快速迭代,从而提升资源的整体利用率,降低运营成本,增强市场竞争力。对于一些对信息安全要求较高的行业(例如金融、政务等),多芯策略可以避免单一架构的依赖,多样化的技术路线有助于保在第一阶段,用户通过离线迁移、手动切换等方式实现应商、操作系统厂商、应用厂商、数据库/中间件厂商的广泛配合。用户通常难以预在第一阶段的基础上,为进一步满足应用的·10·源层面,通过跨平台的资源封装分发和迁移实现应用跨架构部署和迁移;在平台层面,实现有状态/无状态应用的跨架构混合部署;在应用层面,可通过服务网格等技术实现应用的跨在该阶段,通过建立面向动态异构特征的算力量化框架,支持规格层算力测算,解决跨架构算力表征及等价刻画问题;设计等价切换调度方法,基于同构节点优先及应用副本数/规格动态调整策略,保障算力一致;基于优雅退出、探针、重试、预热等操作系统、数据库、中间件和应用等产业链上下游的共同配合,实现应用与处理器架构的彻产业链上下游协同配合是第三阶段的核心驱动力。从上游的基础软件提供商,再到下游的各类应用企业及终端用户共同协同。芯片制造商及整机厂商供商整合硬件资源,优化平台架构,实现对多芯资源的高效管理与调度,支撑应用的跨架构等价运行;下游应用企业及终端用户则从业务需求与使用体验角度出发,作为业务话语权的在算力评估、标准和测评方面,研究多元异构算力量化评估方法产业链上下游,建立一云多芯行业标准。建立行业大生态,共同探索新的业务模式与应用场景,提升整个云计算产业链的活力。促进一云多芯的泛在落地,为数字经济的蓬勃发展提供不同芯片架构在指令集、寄存器、内存管理等以通过交叉编译等方式实现面向不同架构的二进制的构建,但程序本身源码中架构相关部分·11·并且不会产生编译时错误。使用了该数据类型的代码构建的面向X86平台的二进制程序在运行时,可能会与ARM平台产生截然不同的结果。程序排错依赖于专家经验,导致应用适迁移过程中,在新老副本切换流量过程中可能引发短暂的延迟、中断或错误,造成应用响应实现有状态任务在异构节点间高效一致性共识协商和数据同步,以及无状态任务的非侵入流生态建设、激发产业链协同创新活力,也能够实现应用在不同处理器架构间的低成本切换,·12·制约着架构的横向协同,应用同时适配多个指令集和操作系统的问题依然很普遍。因此,IT产业需要新的理念、新的路径、新的设计,即以CPU为核心的设计模式转变为以系统为核支撑用户业务在不同架构处理器之间的低成本切换或者自由切换,因此,基于以系统为核心图计算等面向不同场景的业务需求驱动软硬协同的系成接口标准、交互规范、算力规格、能效规范等标准或规范。其次,基于系统规格推导/定义芯片指令集标准和融合架构整机系统设计,实现资源融合池化、多元异构协同、绿色节能高效。在异构加速层面,结合智能网卡、加速卡深度学习流式计算深度学习流式计算场景驱动软硬协同设计场景驱动软硬协同设计·13·承担其相应的职责和功能。层与层之间通过标准协议实现协同和解耦。通过分层的层次实现了逻辑上的分离,每一层都可以独立于其他层进行开发、部署和扩展,消除单一口,实现不同技术、平台和应用之间的互操作性和可集成性,进而实现产业链整体的标准规范。例如,芯片/整机层与OS之间通过形成统一指令集/虚拟指令集标准支撑上层应用的);一云多芯的最终目标是支撑用户业务在不同架构处理器之间的低成本切换或者自由切持续演进。从混合部署、离线迁移和手动切换,到基·14·算力调度通过智能感知的分配策略实现算力的灵活调配,满足应用多样化的算力需求。一云多芯算力调度基于上述理念,倡导构建分层解耦、开放标准的整体架构,层的各层级能够独立运行、独立演化的同时,通过标准化、规范化的协议、标准实现层间协·跨架构可运行性·分布式系统数据状态同步·跨架构流量分发治理·运行时等价封装·架构感知的算力有向调度·层次化算力量化分析方法·跨架构可运行性·分布式系统数据状态同步·跨架构流量分发治理·运行时等价封装·架构感知的算力有向调度·层次化算力量化分析方法·应用跨架构等价调度·跨架构可运行性·算力测算方法·跨架构运行调优方法·性能及RAS设计·推动垂直生态繁荣·构建整机开放标准云操作系统层、基础应用层、业务应用层等,围绕多芯场景下的业务应用的运行提供基础运行环境,是承上接下的关键核心;云操作系统层本身作为分布式·15·跨架构主备跨架构混部一云多芯云操作系统芯片厂商甲芯片厂商乙???芯片厂商丙芯片厂商丁芯片架构A芯片架构B跨架构主备跨架构混部一云多芯云操作系统芯片厂商甲芯片厂商乙???芯片厂商丙芯片厂商丁芯片架构A芯片架构B计算芯片层面,各计算芯片厂商通过自主设计格提升、生产工艺提升等方式,不断提升性能规格及稳定性,并在实际落地应用过程中不断迭代优化。例如,龙芯研制了LoongArch指令系统,具备高度的自主性与安全性,采用了采用模式识别等智能化技术实现高精度检测,确保整机在生产过程中的质量控制。业内也倡·16·导制定标准规范为相关工作提供指导和依据,例如强制性国家标准《GB43630-2023塔式是推动与主流操作系统的编译适配和性能调优。很多厂商不仅提供原厂适配的基础版本操作核中合入。其次是推动主流编程语言和应用框架的适配,例如JDK等,以支持开发人员快速构建相应架构的应用,并提供应用跨架构迁移和调优的最佳实践及便捷工具。最后是工具基于GCC推出了PhyGCC高性能编译器,针对飞腾微架构进行了定向优化,内置了寄存器分配算法的优选器,引入了数组重新映射特性,支持对特定负优化组合的禁用,集成了优化的数学库和内存分配库,在典型基准测试程序上实现了进一步的性能提升。推出适用于飞腾开放化标准化逐渐成为整机厂商的共识。早在2011年,国际上就发起了开放计算项目网卡等成功案例。2023年,中国电子技术标准化研究院、浪潮电子信息产业股份有限公司以开放共建、协同创新为宗旨,构建全球领先的规范和标具备全球影响力的产业生态。同年,OCTC发布了首个面向通用市场建立的整机柜服务器的标准《T/CESA1293—2023整机柜服务器通用规范》,对推动实现标准化具于处理器的标准化算力模组单元,通过统一不同处理器算力单元对外高速互连、管理协议、·17·态挑战问题,方便客户根据人工智能、云计算、大数据等多样化应用场景,灵活、快速匹配服务器操作系统是硬件与软件之间的纽带,是承载境。多芯场景下,要求服务器操作系统广泛兼容不同的硬件平台,并为承载的上层系统提供微架构等方面存在天壤之别,如何在操作系统内核层面兼容多种架构,在保障内核高效稳定运行的同时能够在Shell层面提供一致性的应用程序运行环境成为挑战。此外,不同架构、不同厂商的处理器的核心数、工作频率、生产工艺、散热设计以及工况的差异导致处理器提供的计算能力存在巨大差异,如何针对算力进行客观准确的衡量、并提供应用调优的最佳实操作系统自身的跨架构可运行性由构建时指定的指令集与之匹配的镜像,实现操作系统本身在不同硬件平台上的可运行性,这涉及到操作系统内核战主要集中在多指令集支持上,不同指令集的差异导致内核、驱动也有第三方厂商硬件自身支持的架构有限,适配情况参差不齐,成为瓶颈。一些架构生态建调试的难度。为验证适配效果,主流操作系统提供了测试套件(例如LTP、KUnit等项目)构可运行性提出了要求。一般而言,使用更高层级语言(例如C语言、Java语言等)编写的程序往往具有更好的跨架构兼容性,可通过交叉编译等方式实现一套源代码面向不同架构的二进制文件的构建;而使用了低层级语言(也包括内联汇编等技术)编写的程序往往需要进行一定的适配工作。其次,需要操作系统提供跨架构等价一致的应用运行环境或运行时依·18·同架构的内核可能具有不同的系统调用约定,例如X86架构下,参数通过寄存器传递,而ARM架构下则结合堆栈实现;二是浮点计算与对齐问题,不同架构的浮点计算方式和数据对齐要求存在差异,导致同样的程序在不同架构上行为不一致甚至崩溃;三是运行时环境的兼容性,如动态链接器、C标准库和应用依赖的第三方库,需在跨架构场景下提供一致的行此外,操作系统也与处理器协同,提供二进制翻译方法跨架构运行。但是二进制翻译方法存在较高的性能损耗,也存在一些高级复杂指令无法直接翻译的问题。因此目前基于软件或软硬协同的指令集翻译技术更多的应用于终端应用,距离基于操作系统层的性能测试是对器部件或整机进行算以及一些更加综合的测试工具,例如sysbench、unixbench而面向于特定的场景,业内也有更加专业的测算方法或工具。例如SPECPower是由向人工智能计算场景的测算工具,以MLPerf为例,作为一款用于衡量机器学习硬件、软件和服务性能的基准测试平台,受到浪潮等业内头部厂商的关数据等场景,也有Linpack、HPCC等对应的工具套件。扩大到数据中心场景,不仅有对应基于服务器操作系统的算力测算工具能够直接反映各器部件或是面向复杂的分布式系统时,面临扩展能力差等问题,可通过云操作系运行的同时,也需要针对不同架构的差异进行定向优化,为应用提供最佳运行环境。在多芯场景下,由于异构芯片之间指令集及性能存在的差异,稳定性及性能的保障及调优成·19·为上层操作系统及应用提供一致抽象的接口,减少硬件架构变化对系统稳定性的影响;二是保障系统的可靠稳定运行。并通过在线升级的方式,为用户及时推送系统补丁。核热升级技术近年来成为研究的热点,能够实现业务无感知的操作系统内核升级,保障业务操作系统也提供对应的优化策略。例如针对ARM架构,可充分利用其核心数量多的特点,操作系统通过专业性能分析工具,提供多芯场景下的系统指标采集和智能分析能力,有效识别和解决性能瓶颈,提高性能优化的效率,例如浪潮信息云峦操作系统提供的全栈式智能调·20·跨架构的安全等效性也是需要操作系统厂商重点关注的可信执行环境的实现并没有统一的标准,因此操作系统层需要通序提供安全等价的运行环境。云峦操作系统在社区版基础上增强内生安全机制,通过eBPF安全技术、可信计算及机密计算方面技术创新,构建并升级了双保险、可信任、高隐根据相关标准定义,云操作系统用于将物理设备以共享、弹理,提供人机界面以按需自服务可计量的方式为用户提供计算、存储和网络等基础云服务资异构计算资源,北向提供高效灵活的混合任务调度能力,通过对算力任务的动态调整和资源跨平台语言解决了应用的跨架构问题,但依赖跨架构用跨架构的编译,但也存在运行时的动态库依赖问题。因此,程序在多芯系统中的运行不仅需要考虑自身的可运行性,对于现代化的复杂应用,还应综合考虑其依赖的运行时。基于云操作系统提供的调度能力,结合标准化的容器方式对应用程序及其运行时依赖进行封装,形成原子性的资源封装,成为实现应用跨架构部署及切换可行的路线。具体的,基于同一套应用程序源代码,针对不同的架构构建不同的容器镜像,如果程序是基于跨平台的语言构建,则将程序脚本或中间代码与运行时封装为容器;如果程序是基于非跨平台的语言构建的,则可以通过交叉编译,构建各种架构下的二进制文件,然后将其与依赖库等封装为容器。此流程可以通过一套流水线作业自动构建,并推送至镜像仓库。在应用编排时,云操作系统根据架构感知是一云多芯实现算力调度、界面功能自适应展·21·性、实现资源封装生命周期管理的基础,可通过收集器、调度器、拦截器实现。收集器采集并上报各节点的CPU架构、硬件特性等信息,建立包含架构特性的主机列表。调度器为各种粒度的资源封装选择匹配的主机节点,采用级联过滤器机制,加载多个独立的过滤器,依次对创建请求与主机进行匹配。在一云多芯场景下,通过级联架构感知过滤器,识别资源封装创建请求中的镜像架构标签,根据CPU架构特性匹配结果过滤出主机节点。拦截器用于拦截请求并将结果反馈展示,从而实现不同架构功能差异化的自动识别、动态扩展,屏蔽底测算对象量化方法测算工具规格算力从服务器系统资源层面测试评估计算能力磁盘和网络等系统整机规格性能基准测试SPECCPU,Stress有效算力从平台层面测试评估中间件的资源封装性能Kafka等中间件针对中间件的量等指标进行量化评估从应用层面使用真实业务负载测试评估资源封装计算能力客户关系管理AI推理/训练等业务应用针对业务事务处理能力指标进行量化评估Jmeter,·22·算力量化是实现应用等价迁移的基础,包括基于测评反馈基于测评反馈的算力量化方法分别针对不同层级的算力,定义其量化方法及工具,采用基于实际测量的方式对其算力进行量化。具体的,面向规格算力,采用基于SUnixBench等工具,对处理器等器部件的基础性能进行量化评估;面向有效算力,采用进行测算。云操作系统支持提供面向动态异构特征的算力量化框架,支持规格层、服务级、算力量化的另一种方式是基于性能模型的算力量化方法,建立性能模型的方式,避免在线测评的开销(包括硬件成本及性能开销),实现跨架构资源封装规格的快速推理。基于性能模型的方法对于算力建模要求较高,浪潮云海云操作系统通并使用智能化的计算工作流对影响整机性能的因子进行综合计算,定义了通用性能调度指数基于云操作系统提供的面向动态异构特征的算力量化框架,·23·容器化封装,解耦操作系统依赖。当节点发生故障或计划内维护时,针对应用迁移过程中可能面临服务性能基线降低的问题,实现了等算力调度器,支持应用优先调度至等算力节点,当等算力节点不满足要求时(例如无法发现等算力节点),则跨架构调度到异构节点,并基于节点算力动态调整目标架构上的资源封装规格或副本数,保持应用总算力不变,实数据库集群1数据库集群(数据库集群1数据库集群(节点n节点n数据库集群2节点n节点n数据库集群2节点n节点n数据库集群主数据库集群备节点n节点n数据库集群主数据库集群备节点n节点n·24·◆单架构集群模式距小、网络同域,部署形式不限于虚拟机、裸金属或者容器化等形式。其优点显而易见,即为便于部署,应用厂商可能提供二进制安装包、虚拟机镜像等不同的资源封装形式。随着云原生技术的不断成熟,越来越多的厂商也选择提供容器镜像以及对应的编排脚本的方式。基于Operator的编排方式则不仅能够提供应用的编排,也能够实现应用的高阶运维能力,也逐渐成为开发运维工程师的首选。目前越来越多的开源应用提供了官方或社区版本的◆跨架构主备部署模式在单架构集群模式的基础上,新建异构资源池作为备集群。典型的,主集群基于X86架构构建,而备集群基于ARM集群构建,集群之间通过架构无关的网络通讯协议进行指令协同及数据同步。其优点在于采用性能较优的集群以保障系统性能及稳定性,同时能够降低该模式不仅满足用户对技术多样性的期望,同时具备可靠客户对于芯片架构稳定性和可靠性顾虑的方案之一。应用提供商应当持续加强其在多架构上),◆跨架构混合部署模式即相同角色的节点分别分布在多种架构上。以一个三节点集群为例,其X86节点作为由于节点间在指令集、算力等方面存在的差异,面临非对等架构下的分布式应用状态一致性保证问题,给其稳定性及可维护性带来巨大挑战。在一云多芯的当前发展阶段,往往仅在小非对等架构下的分布式应用状态一致性保证问题可通过分布式一致性算法解决。ACM图灵奖获得者莱斯利·兰伯特(LeslieLamport)提出了基于消息传递且具有高容错性的·25·在此基础上,跨架构的数据状态同步需要进一步考虑节点的非对称特征。以Raft协议为例周期性发送心跳来保证主节点地位,当一个从节点在一个超时周期内没有收到心跳,则该节点转化为候选(Candidate)节点参与选举。多芯系统中各节点的处理能力、网络条件等不同导致超时影响差异化,可采用基于极大似然估计的适应性方法,避免心跳延迟大、处理能力弱的节点频繁触发选举,同时保证处理能力强的节点可快速发起选举。对于投票策略,采业务应用层承载具有实际业务价值的应用程基于分布式一致性协议的基础应用简化了业务应用的构建态的工作负载,与复杂分布式的基础应用层相结合,组成了完整的业务应用。如下是几种典模块B模块B模块B模块B模块B模块B模块B模块B模块B模块B模块B模块B·26·◆单架构模式◆跨架构远程调用下,不同模块分别运行在不同架构中,并通过架构无关的网络通讯协议或私有通讯协议进行互联互通互操作。典型的,高性能的X86架构被用于部署数据库集群,而拥有更多核心的ARM架构则被用于部署无状态的业务应用,构建整体的跨架构应用(集群成为目前主◆跨架构混合部署与基础应用的跨架构部署类似的,该模式下所有的模块均跨架构部署,是一种的部署模式。不仅面临非对等架构下的分布式应用状态一致性保证问题,也的流量治理问题,目前更多的处于探索和试验阶段。需要基于云原生技术,并借助云操作系并引流至对应节点的副本上。为保证服务质量不降级,根据有效算力、业务算力量化分析确可采用服务网格的思想实现。控制面感知副本变化生成流量切分策略,下发至网络代理关。对于东西向流量,网络代理劫持流量并根据切分策略按比例转发到不同的副本。对于南北向流量,网关在流量转发时根据切分策略转发到不同副本。在流量切分的瞬时过程中,受目标节点副本未启动、TCP连接延迟等·27·复杂且海量。如何管理利用好海量数字基础设施,通过新一代信息通信技术赋能千行百业,二、跨域一体化。通信云的鲜明特点是地域跨度极三、易管理易运维。地域跨度大也给管理运维增加了难度。基于统一云平速上线,并实现跨域多数据中心的统一监控、故障预持多元异构资源的混合部署、统一调度、统一分发,实现资源灵活调度及业务高效上云。其·28·安全保障体系安全保障体系跨域分布式云统一管理自用业务自用业务办公类运营类......办公类运营类......对外业务外网服务外网服务生态合作生态合作............数据库服务数据库服务服务容器服务行业生态资源数据库数据库服务服务容器容器服务运维运营体系运维运营体系存储资源池网络资源池计算资源池存储资源池网络资源池计算资源池异构处理器异构处理器租赁机房租赁机房该架构具有如下特点。首先,以一云多芯为理念,以云原生技术为底座,建设统统一监控、统一运维。最后,针对多元异构计算·29·农信是金融体系的重要组成部分,农信的改革与建设,是健全高质量农村金融供给的重要内容,对强化乡村振兴金融服务具有重要意义。农信网点分布广尽管云数据中心已具备基础的运维监控管理能力,但在多维度、高效、立体的自动化、智能化运维管理方面仍有待提升。因此,亟需优化资源类型及利用率,构建多元化的应用运行环一、一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论