多租户下的算力分配和调度实践-贝壳找房+王天庆_第1页
多租户下的算力分配和调度实践-贝壳找房+王天庆_第2页
多租户下的算力分配和调度实践-贝壳找房+王天庆_第3页
多租户下的算力分配和调度实践-贝壳找房+王天庆_第4页
多租户下的算力分配和调度实践-贝壳找房+王天庆_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算存储/容器引擎技术负责人主要负责的技术方向:QAQA统一存储底座统一存储底座统一资源池调度资源出借流量调度组织壁垒混合多云跨地域成本意识资源出借流量调度组织壁垒混合多云跨地域成本意识原始文件原始文件训练数据集模型文件跨云访问数据慢-加数据缓存跨云访问数据慢-加数据缓存跨云复制数据慢-跨区增加数据副本整个数据流转涉及到跨地域整个数据流转涉及到跨地域、跨云怎么办??混合云架构多级缓存加速混合云架构多级缓存加速基础设施的变化满足数据多种接入协议,支持模型支持云原生、支持数据的动态编排底层文件系统要保证高性能、高容依赖便宜、高容量的对象存储作为低硬件成本低硬件成本镜像的能力。腾讯云-上海区腾讯云-上海区AI算力机房-北京AI算力机房-天津桶权限管理复制管理桶权限管理复制管理服务器服务器服务器服务器服务器该组件主要用于实现S3接口协议,该组件是完全无状态服务,元数据主要从KOS控制面中获取。JuicsFS卷KosCacheJuicsFS卷KosCache服务器服务器JuicsFS卷KosCache服务器JuicsFS卷KosCache服务器服务器JuicsFS卷KosCacheJuicsFS卷JuicsFS卷KosCacheKosCacheJuicsFS卷KosCacheJuicsFS卷KosCache服务器服务器JuicsFS卷KosCache服务器JuicsFS卷KosCache服务器服务器JuicsFS卷KosCacheJuicsFS卷JuicsFS卷KosCacheKosCacheJuicsFS卷KosCacheKos-syncerKOS-Cache数据缓存层该组件主要功能是从底层真实的对象存储中缓存数据到本地磁盘中,并且可以分布式部署形成缓存集群来提高对象存储的吞吐能力。KOS-MetaKOS-MetaCubeFS腾讯云KOS-MetaKOS-MetaCubeFS腾讯云COS腾讯云COS腾讯云COS该组件主要对对象存储服务提供元数据能力,以OceanBase为底层元数据引擎,提供就近获取到对象存储元数据信息的能力。统一存储底座-对象存储统一存储底座-对象存储(分布式哈希)复制因子=2分散在各个Zone桶+文件名生成唯一key KOS-Cache节点的token范围Ingrester筛选文件写入文件元数据对于文件的读取,会优先判断文件是否在启用了数据缓存,如果存在缓存的话就会优先从缓存节(分布式哈希)复制因子=2分散在各个Zone桶+文件名生成唯一key KOS-Cache节点的token范围Ingrester筛选文件写入文件元数据筛选文件数据KOS-Cache[北京一区]10.201.0.1KOS-Cache[北京一区]10.201.0.2Kos-proxy所有归属于同一组的缓存节点都会以哈希环的形式分布好筛选文件数据KOS-Cache[北京一区]10.201.0.1KOS-Cache[北京一区]10.201.0.2Kos-proxyKOS-Cache[上海一区KOS-Cache[上海一区]10.203.0.3KOS-Meta通过实现S3协议,在对象存储文件生命周期过程中,生成文件对应的元信息并写入到OceanBase中,同时OceanBase做好多AZ和多地域的同步支持,此时就可以通过OceanBase实现支持海量数据的对象存储服务。一处写入一处写入、处处读取无论GPU资源如何交付,借鉴的开源方案服务无论部署在任一联邦管理的集群服务无论部署在任一联邦管理的集群,总能被发现。借鉴了MCSAPI的定义。集群导入并被“发现”KCSAgentKCSAgent1资源申请对1资源申请对于公司专项项目,预算充足,算力申请可以按照场景可以按照卡型卡数申请,对SLA不高的场景可以直接使用共享队列,提供低优先级调度的算力资源。22资源出借对于一些租户是算力大户,当算力溢出存在空闲场景的时候,可以根据利用率、指定时段等策略来进33资源调度对于算力的调度策略,我们推荐采用常驻+弹性副本的方式,常驻尽量高优先级调度到独享资源上,保证流量最小副本承载量,对于突发流量以及潮汐场景采用共享队列来作为补充。地区亲和性等等。更多算力场景建立资源闲时复用能力更多算力场景寻找更多的算力场景:离线推理,结合Spark提升处理数据的效率。使用率。资源复用资源复用接入公有云的弹性资源,按需使用,及时释放空闲资源。节点每天22点到第二天8点把8C32G4张GPU卡借给队列queue节点每天22点到第二天8点把8C32G4张GPU卡借给队列queue-1,工作过程原理如下:资源调度-资源出借资源调度-资源出借节点资源出借节点资源出借预留资源:排除掉节点已属于指定的队列。时归属于指定的队列。资源调度-资源复用资源调度-资源复用大化利用。借的资源),但是共享队列的SLA共享队列。BB多集群联邦感知管理的集群内所有的资源状态以及支持基于租户多集群联邦感知管理的集群内所有的资源状态以及支持基于租户、队列维度的精细化调度能力。DA跨集群存储底座基于JuiceFS,支持数据编排、预热提高数据流转效率,提高算力的利用效率成本驱动要形成良好的技术运营的体系,成本驱动资源利成本驱动要形成良好的技术运营的体系,成本驱动资源利用率的提升,闲置资源产生效益打破组织边界。C超级节点将集群联邦中闲置的算力资源整合成虚拟节点,以简单易用的形式对用户提供算力资源流量调度-网关架构流量调度-网关架构多云架构多云架构AAI亲和的负载均衡算法流量调度-现状分析流量调度-现状分析大模型场景下,KVCache的缓存数据存在局部性,基于公平调度的负载策略无法最大命中KVCache。流量有明显的业务特征,基于公平调度的负载均衡策略存在算力饥饿的问题,算力被大流量业务抢占导致其他请求得流量调度-异构调度流量调度-异构调度算力瓶颈,限流1.GPU资源异构存在差异的情况下,传统的公平调度算法会导致实例负载不均衡。3.尽量保证各个实例之间的Prefill均衡。4.如果具备推理框架改造的能力,可以考虑基于推理框架的反馈来优化请求投递的策略。流量调度-缓存亲和性流量调度-缓存亲和性1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论