工商银行云数智融合算力技术及应用白皮书 2024_第1页
工商银行云数智融合算力技术及应用白皮书 2024_第2页
工商银行云数智融合算力技术及应用白皮书 2024_第3页
工商银行云数智融合算力技术及应用白皮书 2024_第4页
工商银行云数智融合算力技术及应用白皮书 2024_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

工商银行云数智融合算力技术及应用中国⼯商银⾏软件开发中⼼摘编或利⽤其它⽅式使⽤本⽩⽪书⽂字或者观点的,应注明“来源:中国⼯商银⾏软件开发中⼼”。违反上述声明者,我们将追究其相关法律责任。第⼀章概述 第⼆章云算⼒体系建设情况 4第三章云数智融合情况介绍 第四章总结与展望 1算⼒竞争已经成为世界主要⼤国的战略选择。2022年8⽉,美国正式础设施⽔平和创新能⼒。欧盟也在《2023-2024年数字欧洲⼯作计划》中也强调了增强数据与计算能⼒的重要性。根据我国信通院发布的《中国算⼒⽩⽪书(2023)》,算⼒规模排名前五的分别为美国、中国、⽇本、德国和英国,全球算⼒的复合年增⻓率更是⾼达40%以上。我国在2024年两会政府⼯作报告中提出,适度超前建设数字基础设施,加快形成全国⼀体化算⼒体系。为此,⼯业和信息部、国家卫⽣健康委、中国⼈⺠银⾏、国务院国资委等6部⻔联合印发《算⼒基础设施⾼质量发展⾏动计划》,强调算⼒基础设施作为新型信息基础设对于助推产业转型升级、赋能科技创新进步、满⾜⼈⺠美好⽣活需要和实现2社会⾼效能治理具有⾄关重要的作⽤。中国⼈⺠银⾏也印发《⾦融科技发展安全泛在的⾦融⽹络,布局先进⾼效的算⼒体系,进⼀步夯实⾦融创新发展的数字底座”,作为规划重点任务。根据信通院《中国算⼒⽩⽪书》,截⾄2023年底,我国算⼒总规模达到230EFlops1,全国各地纷纷发布算⼒布局⽅案匹配⾏业发展需求,算⼒加速向各领域渗透。根据2023中国算⼒⼤会发布的《中国综合算⼒指数》,算⼒规模分布绝⼤部分位于“东数西算”的⼋⼤枢纽内,⼀线城市周边地区领规模位于全国前列,⼀线城市及周边省市具有国际竞争⼒的数字应⽤集群、⼴阔的应⽤空间和庞⼤的市场需求,算⼒发展具有明显优势,中西部地区在国家战略下正在加快追赶速度,不断提升算⼒规模。3⽬前云技术体系还在发展过程中,⼯商银⾏在实践过程中做了很多的尝试和探索,采⽤私有云模式进⾏算⼒供给,并将算⼒从应⽤场景视⻆进⼀步分为联机算⼒、⼤数据算⼒、⼈⼯智能算⼒,其中:弹性需求,包含个⼈、互联⽹⾦融、零售、对公、信贷等银⾏核⼼系统的实时业务处理场景。⼤数据算⼒对于时延容忍度相对较⾼,采持处理超⼤规模数据集,⽬前随着数字化转型的加速,数据资源池集中度的提升,资源池内不同租⼾间的弹性调配能⼒变得尤为重要,这不仅保证了算⼒资源的⾼效利⽤,⽽且确保了在⾯对多变的数据处理需求时,能够灵活响应,从⽽⽀撑起数字化转型的⼤潮。并⾏计算能⼒构成了⼈⼯智能模型训练的根本需求。这涉及到对多GPU卡的调度以及它们之间的协同⼯作,有时甚⾄需要扩展到多机集群的层⾯。为了实现这⼀⽬标,必须要有⾼速的卡间通信带宽,以及能够连接集群内各个AI服务器的快速⽹络。4前期⼯商银⾏的各类算⼒按独⽴资源池部署,各类型负载以烟囱式部署在各资源域,CPU联机算⼒和GPU智能算⼒整体使⽤率低,⽽⼤数据算⼒算⼒资源则出现明显缺⼝,难以满⾜⾼峰期业务分析时效性要求,算⼒资源分配极不均衡,综合资源利⽤率相对较低,⽆形中浪费了⼤量算⼒。为了进⼀步节约算⼒,提升算⼒资源使⽤率,⼯商银⾏积极探索,以云数智融合理念打破算⼒资源池边界,初步建设了云数智融合算⼒体系,通过资源混部、柔性调度,异构算⼒⼀体化调度等能⼒,有效实现存量算⼒潜能释放,提升算⼒资源使⽤效能。5⼯商银⾏在建设了联机、⼤数据、⼈⼯智能算⼒⽀撑基础上实现“云数智融合”,按照“资源池化、协同调度、精细运营、专项治理”的原则,围绕算⼒整体利⽤率提升⽬标,建设⾼效、灵活、精细异构算⼒融合调度体系,充分发挥联机、⼤数据、智能算⼒对各类负载的⽀撑作⽤算⼒运营机制,持续提升算⼒使⽤效能。为了提⾼服务器资源利⽤率,同时满⾜在线业务和离线业务的负载需求,混合部署已成为⼀种常⻅的策略。混合部署的关键在于平衡在线业务和离线业务的需求,以实现资源的最⼤化利⽤,在实现混合部署过程中同步强化了以下能⼒建设,确保资源使⽤效率提升的同时业务的稳定性运⾏。1.负载特性分析:⾸先需要对在线业务和离线业务的负载特性进⾏分析,了解它们的资源需求和⾼峰低⾕时段。这样可以确保在线业务和离线业务在混合部署时能够实现资源互补,避免资源争抢;源隔离技术将在线业务和离线业务部署进⾏资源使⽤优先级策略,实施底层的隔离控制;3.⼲扰检测与防护:在混合部署环境下,需要对离线业务产⽣的⼲扰进即采取资源调整、优先级调整等措施,保障在线业务的服务质量。4.动态调整策略:由于在线业务和离线业务的负载需求会随着时间和业务需求的变化⽽波动,因此需要制定动态调整策略,根据实际情况对在线业务和离线业务的资源分配进⾏调整。5.监控与优化:在混合部署环境下,需要加强对在线业务和离线业务的监控,实时了解它们的运⾏状态和资源使⽤情况。通过收集和分析监控数据,可以不断优化混合部署策略,提⾼服务器资源利⽤率和服务质量。实现智算资源池化调度提升,基于GPU共享、资源隔离调度技术,优化k8s实现GPU虚拟化,⽀持更细粒度的算⼒资源调度,并同步优化数据传输带来的瓶颈问题,缩短访问时间提升处理效率。1.智能计算资源池化调度:本研究针对原⽣Kubernetes(k8s)在GPU资源调度⽅⾯的局限性,提出了⼀种基于GPU共享与资源隔离调度技术的解决⽅案,保持了调度的⾼效性的同时确保了资源的合理分配与最⼤化利2.AI存储加速引擎研究:在云原⽣场景下,为提升智算应⽤在处理数据集、镜像、模型等⼤型数据⽂件时的访问速度,采⽤了基于Fluid数据编排、分布式缓存加速及点对点(p2p)技术,缩短了数据访问时间提升了处3.智算弹性资源池构建:通过资源动态调整与弹性伸缩技术,⽀持了资源的灵活配置,有效减少了资源配置不合理所导致的资源浪费,确保了资源的⾼效使⽤。4.智算资源可观测视图建设:构建了统⼀的监控视图,对GPU算⼒等异构资源进⾏综合监控,并提供资源冗余情况的统计分析。(三)融合调度⽬前已完善混部资源管理、混部调度框架、混部服务质量保障体系的常态化混部核⼼技术能⼒建设;构建针对⼈⼯智能算⼒核⼼资源GPU的智算基础设施集约管理能⼒,实现智算资源的快速弹性和⾼效使⽤;⼒⻔⼾涵盖CPU、GPU算⼒的统⼀管理能⼒。9⽬前,⼯商银⾏在云计算与⼤数据、智能融合的算⼒管理领域已取得初划并实施“集团⼀体化”的算⼒基础设施建设。升混部能⼒建设,逐步推进⼤规模常态化混部,提升服务器资源利⽤率并优化数字基础设施。⼤数据算⼒向存算分离技术架构演进,⽀持在维持数据全局共享的前新技术能⼒的灰度引⼊与快速迭代,化解超⼤规模单集群的⻛险,持续提升平台的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论