




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
使用虚拟化技术提升大模型推理性能实践第四范式(北京)技术有限公司Copyright©20214ParadigmAllRights
Reserved.CCooppyryigrihgth©t©202200243P4aPraadraigdmigmAllARlilgRhitgshRtessReervseedrv.
ed.背景2
–
国产异构算力发展迅猛3近几年国内不少企业在算力设备方面取得进展,包括海光信息、壁仞科技、燧原科技、摩尔线程等。海光DCU
8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64运算精度,支持4个HBM2内存通道,最高内存带宽为1TB/s、最大内存容量为32GB。海光DCU协处理器全面兼容ROCmGPU计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至ROCm平台。可以看到,海光DCU是国内唯一支持FP64双精度浮点运算的产品,英伟达的A100、H100都支持FP64,从这一点来看,海光DCU在这方面是比较领先的。天数智芯的BI芯片,集成240亿晶体管,采用7纳米先进制程,支持FP32、FP16、BF16、INT8等多精度数据混合训练,单芯算力每秒147T@FP16。寒武纪2021年11月发布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加强了FP16、BF16以及FP32的浮点算力,在全新MLUarch03架构和7nm先进工艺加持下,8位定点算力最高为256TOPS。从业人员割裂国内生态建设不足国产算力设备难以重复使用国产算力设备闲置状态严重模型迭代效率低设国备层产面的生从业人员态国产环算境力相对难以封重闭复存国产在算严力重的闲割置裂状况利用严CC重ooppyryigrihgth©t
©202200243P4aPraadraigdmigmAll
ARlilgRhitgshRtessReervseedrv.
ed.平台层面模型推理的效率标准低算子的开发和交付效率低,
缺乏统一的标准,
各个模块对接成本高缺模乏型统迭一代行业痛点4CCooppyryigrihgth©t©202200243P4aPraadraigdmigmAllARlilgRhitgshRtessReervseedrv.
ed.5行业痛点:
缺乏一站式的迁移服务Project-HAMi:基于k8s的算力开源复用平台易购算力虚拟化中间件(Heterogeneous
AI
Computing
Virtualization
Middleware,简称HAMi,中文名哈密瓜),是一个基于云原生的开源一站式解决不同易购算力复用功能的k8s中间件项目地址:/Project-HAMi/HAMiProject-HAMi:架构图Project-HAMi:架构图$cat<<EOF|kubectlapply-f
-apiVersion:
v1kind:Podmetadata:name:
gpu-pod12spec:containers:-name:
ubuntu-containerimage:ubuntu:18.04command:["bash","-c","sleep
86400"]resources:limits:/gpu:2#requesting1
vGPUs/gpumem:
10240/gpucores:
30参数描述:/gpu:
指定容器中可见的GPU个数./gpumem:
指定每个GPU的显存上限/gpucores:
指定每个GPU使用的算力比例GPU
NodeGPU032G
idleGPU132G
idleGPU
NodeGPU
022G
idleGPU
122G
idle10GUsed10GUsed使用案例——英伟达使用案例——寒武纪$cat<<EOF|kubectlapply-f
-spec:containers:-
…resources:limits:/vmlu:1#requesting1
vGPUs/mlu.smlu.vmemory:20#request20%device
memory/mlu.smlu.vcore:10#request10%
ofcompute
corese/vmlu:SpecifiesthenumberofvisibleMLUsinthe
container./mlu.smlu.vmemory:SpecifiesthememorysizetouseforeachMLU.Ifnotset,thdefaultistouseallavailableMLU
memory./gpucores:Specifythepercentageusedforeach
MLU.hostcontainer使用案例——天数智芯$cat<<EOF|kubectlapply-f
-spec:containers:-
…resources:limits:iluvatar.ai/gpu:1iluvatar.ai/vcuda-core:50iluvatar.ai/vcuda-memory:64#eachunitrepresents256Mdevice
memoryiluvatar.ai/gpu:SpecifiesthenumberofvisibleiluvatarGPUsinthe
container.iluvatar.ai/vcuda-memory:SpecifiesthememorysizetouseforeachiluvatarGPU.Ifnotset,thedefaultistouseallavailabledevice
memory.iluvatar.ai/vcuda-core:SpecifythepercentageusedforeachIluvatar
GPU.hostcontainer使用案例——华为升腾910B$cat<<EOF|kubectlapply-f
-spec:containers:-
…resources:limits:/Ascend910:
1/Ascend910-memory:
16384host/ascend910:SpecifiesthenumberofvisibleAscend910sinthe
container./ascend910-memory:SpecifiesthememorysizetouseforeachAscend910s.Ifnotset,thedefaultistouseallavailabledevice
memory.containerProject-HAMi:指定设备种类Project-HAMi
算力超售与抢占显存超售支持:通过配置
’deviceMemoryScaling>1’
即可激活虚拟显存,例如在部署时指定`deviceMemoryScaling=3`就会把每张卡的显存大小扩大到3倍Project-HAMi
显存超售可以通过指定/gpucores来达到算力隔离的效果kind:
Pod…spec:containers:-
…resources:limits:/gpu:1#requesting1
vGPUs/gpucores:100#request100%compute
coreskind:
Pod…spec:containers:-
…resources:limits:/gpu:1#requesting1
vGPUs/gpucores:60#request60%compute
coresProject-HAMi
算力隔离CCooppyyrriigghhtt©©2200220144PPaararaddigigmmAAlllRliRgihgthstRseRseesrevervde.d.17训练推理Test
Environment:GPUType:Tesla
V100GPUNum:1Kubernetes
Version:v1.12.9Docker
Version:v18.09.1Test
Instance:nvidia-device-plugin:基于Nvidia源生device
plugin在1块GPU上运行1个任务/服务vGPU-device-plugin:基于第四范式vGPU
device
plugin在1块vGPU上运行1个任务/服务vGPU-device-plugin(virtual
device
memory):基于第四范式vGPU
device
plugin在2块vGPU上运行2个任务/服务nvidia-device-pluginProject-HAMi
性能Copyright©20204ParadigmAllRights
Reserved.vGPUNodesvGPUmonitoringsystemVolumeProject-HAMi
监控接口Copyright©20204ParadigmAllRights
Reserved.实践案例:第四范式推理加速框架SLX
LLM第四范式发布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者联合优化下,在文本生成类场景中,大模型推理性能提升10倍。例如在使用4张80G
GPU对72B大模型进行推理测试中,相较于使用vLLM,第四范式使用SLXLLM+SLX的方案。可同时运行任务数量从4增至40。可兼容TGI、FastLLM、vLLM等主流大模型推理框架大模型推理性能提升约1-8倍。Copyright©20204ParadigmAllRights
Reserved.实践案例:第四范式推理加速框架SLX
LLM通常来说,一个完整的大模型商业产品并不仅仅包含一个生成器,而是由一个生成器和若干的小模型组成,以第四范式的模型产品【式说】为例,其中包含了3部分,一个负责前处理的embedding模型,一个生成器generator,一个负责输出的validator。考虑到原生k8s不支持设备复用的问题,最终的部署方案如图所示emb geneddi eratng orvalidatorCPUGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7Copyright©20204ParadigmAllRights
Reserved.GPU0实践案例:第四范式推理加速框架SLX
LLM使用哈密瓜可以将这3个组件部署在一张GPU上,因为其中只有一个大模型生成器,embedding和validator均为小模型,以如此部署并不会降低性能,不仅如此,这种部署方式可以在只使用一张GPU的场合部署成功emb geneddi eratngorGPU1GPU2GPU3emb geneddi eratenmgb goerneddi eratemb geneddi eratng orvalidatorvalidatorvalidatorvalidatorRoadmap2025.06Supportintel/AMDGPU
deviceSupport
NPU2024.
52025.1integrated
gpu-operatorRichobservability
support*DRA
Support2024.6SupportFlexiblescheduling
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网店股权转让及品牌使用权、运营权移交协议
- 妇产科介入治疗
- 护理个案模板
- 单位廉租房买卖协议书
- 高速劳务用工协议书
- 食品委托销售协议书
- 鱼塘修复改造协议书
- 酒吧演艺合同协议书
- 送戏下乡演出协议书
- 车辆共同运营协议书
- 联合利华POSM展策划案
- 13-3飞速发展的通信世界 教案
- 下第四单元 崇尚法治精神 复习学案
- 课件:第六章 社会工作项目评估(《社会工作项目策划与评估》课程)
- 最新超星尔雅《从爱因斯坦到霍金的宇宙》期末考试答案题库完整版
- 信息技术网络安全(教案)
- 小学语文近义词辨析的方法
- 河南省成人高等教育毕业生毕业资格审查表(新表)
- 长方体和正方体表面积的练习课课件
- 设计的开始:小型建筑设计课件
- 脑出血恢复期患者护理课件
评论
0/150
提交评论