




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
enant)10GPU
提交TF
20GPU
100GPU
提交MXNetGPU本地GPU本地pythontrain.py--batch_size=256--GPU"jobName":"dataDir":"/tmp/data",
"taskRoles":"taskNumber":"taskNumber":"cpuNumber":"memoryMB":"gpuNumber":
"pythontrain.py--batch_size=256
Docker
Docker
DockerunionARGRUNapt-getupdate&&apt-getinstall-y--no-install-recommendsRUNcurl-o/opt/conda/bin/condainstall-y-cpytorchmagma-cuda100&&WORKDIRCOPY.WORKDIR/workspaceRUNchmod-Ra+w.PyorchDockerImagefilefilefilefilefilefile filefile file file fileImagelayerImagelayerImagebaseAUFSDLDLDLDLDLDLDLDLLinuxcontainersofoperatingsystem-virtualizationfortheLinuxoperatingcgroup,
RootPIDPIDPIDNamespacepid2(pidpid4(pidpid5(pidpid3(pidpid1(pidblack:Realblue:getid()togetthis控制组(Control控制计数CGOUPCGOUPCGOUPCGOUPCGOUPCGOUPCGOUPblockConfineprocessestoprocessorandmemorynodeForshowingprivateview(namespace)ofsystemtoprocessesinShareCPUbandwidthbetweenTheCPUAccounting(cpuacct)subsystemgeneratesautomaticreportsonCPUresourcesThememorycontrollersupportsreportingandlimitingofmemory,kernelmemory,andswapusedbyThissupportscontrollingwhichprocessesmaycreate(mknod)devicesaswellasopenthemforreadingorwriting.TheRDMAcontrollerpermitslimitingtheuseofRDMA/IB-resourcesperTheblkiocgroupcontrolsandlimitsaccesstospecifiedblockdevicesbyapplyingIOcontrolGPUNvidiaGPUNvidiaMPSNvidiaDocker#Testnvidia-smiwiththelatestofficialCUDA$dockerrun--gpusallnvidia/cuda:9.0-basenvidia-#StartaGPUenabledcontainerontwo$dockerrun--gpus2nvidia/cuda:9.0-basenvidia-#StartingaGPUenabledcontaineronspecific$dockerrun--gpus'"device=1,2"'nvidia/cuda:9.0-basenvidia-(GangDRF(DominantResourceFairness(Capacity利用率(UtilizationJobA JobB 目标:HighThroughput,HighUtilizationandShortResponseTimes
Node Node 无法启动,无法启动,JobA(Gang
JobA JobB
JobCAschedulingalgorithmforparallelsystemsthatschedulesrelatedthreadsorprocessestorunsimultaneouslyondifferentprocessors.
Node NodeGPUClusterGPUClusterJobJob14GB14GBJob22GB32GBCPU,Hostmemoryetc.),并且需要调度GPU及GPUmemoryClusterResources:[10GPU,20GBRAMDominantResourceFairness(smallestdominant定主导资源(dominantresource)基于最大最小公平(max-minfairness)的针对多资源类型(e.gGPU,CPU)的调
JobQueueJob14GB1QueueJob14GB14GBJob22GB32GBTotalMemory4+4=8GBMemoryShare=8/20=0.4SHARE=0.4[DominantresourceisJobTotalGPU2+3=5GPUGPUShare=5/10=TotalMemory2+2=4GBMemoryShare=4/20=0.2SHARE=0.5[DominantresourceisClusterResources:[10GPU,20GBJob1hashigherprioritythanJob2asJob1share0.4islessthanJob2share设计目标:Utilization,Fairnessand
UsedCapacityFreeUsedCapacityFreeCapacityUsedCapacityNofreeresources,jobcannotbe(CapacityMinCapacityMaxUserUserLimitFactor=VirtualQueueUserQueueUserLimitFactor=MinCapacityMaxCapacityUserLimitFactor:控制单用户的可以消耗的QueueQueueUserLimitFactor=MinCapacityMaxCapacity虚拟集群(Virtual8-GPU8-GPU
8-GPU
App2时分复用(Timeslicing)与超额订阅迁移Gandiva(early(cluster(cluster-levelTwoReactiveReactive作业到达(arrivals(departures),NodeswithsameNodeswith“noNodeswith“differentOversubscription:suspend-onsame“affinity”JobIntrospective早反馈(EarlytimeGPU软件栈对GPU状态备份,资源隔离做的不够完善,无法很好的支持时分复用(timeslicing),装箱PAIPAIPAIPAIPAIBigPAIDL利用K8s可扩展DeepManagedbyManagedbyManagedby模块化高效:细粒度GPU调度,鲁棒性云原生
VS(Code),
KubernetesKubernetesClusterDocker/Ope
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水产品采购合同范本
- 融资租赁合同本模板
- 2025企业采购代理合同协议示范文本
- 2025年海口年货运从业资格证考试试题
- 主材大包合同标准文本
- 保底扣合同标准文本
- 写给妈妈的一封信(7篇)
- 乙方租房东合同标准文本
- 企业股权期权合同标准文本
- 企业废钢收购合同标准文本
- 堤防、淤地坝运行一般危险源风险评价方法-风险矩阵法(LS法)介绍
- 修理厂喷漆承包合同
- GB/T 42430-2023血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验
- 五年级奥数-《盈亏问题》课件
- 药店常见病联合用药-课件
- 软件安全之恶意代码机理与防护-武汉大学中国大学mooc课后章节答案期末考试题库2023年
- 中考英语试卷阅读理解答题技巧课件
- 基于ABB机器人对流水焊接作业的虚拟仿真工艺设计
- 电工基础知识(全面)
- 信息技术基础知到章节答案智慧树2023年海南师范大学
- 甘肃省专业标准化技术委员会考核评估细则
评论
0/150
提交评论