人工智能深度学习模式识别机器学习神经网络实验室建设方案_第1页
人工智能深度学习模式识别机器学习神经网络实验室建设方案_第2页
人工智能深度学习模式识别机器学习神经网络实验室建设方案_第3页
人工智能深度学习模式识别机器学习神经网络实验室建设方案_第4页
人工智能深度学习模式识别机器学习神经网络实验室建设方案_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人工智能深度学习模式识别机器学习神经网络实验室建设方案3版)目录前言1.1.建设背景41.2.建设目标4系统总体设计2.1.系统总体框架2.2.框架总体介绍3.系统功能设计3.1.GPU集群管理3.1.1.GPU集群管理功能3.1.2.GPU集群管理设计3.2.任务调度管理3.2.2.任务调度3.2.1.任务调度模块架构.线资源目录管理3.3.1.深度学习实验案例3.3.教学资源管理101011131313151734用户权限管理3.5.应用工具管理TOC o 1-5 h z数据爬取工具17数据模拟工具18数据可视化工具194.系统部署204.1.系统部署拓扑20 HYPERLINK l bo

2、okmark43 o Current Document 4.2.系统部署步骤215.硬件配置241.前言1.1.建设背景人工智能本轮崛起是以深层神经网络为核心的深度学习技术,在传统的人工智能应用领域的突破性进展为标志的。在机器视觉、自然语言处理、机器人控制等领域,使用深度学习技术进行分析和建模后,其准确率等性能指标相比传统机器学习技术,都获得了非常显著的提升。同时,伴随着云计算和大数据技术的发展,传统人工智能应用面临的数据量缺失和计算资源不足的困境,得到极大的缓解,深度学习技术正在不断渗透到传统的机器学习领域,并带来价值数以万亿计的产业机会。为了贯彻落实教育部高等学校人工智能创新行动计划的相关

3、要求,强化高校在人工智能基础研究、学科发展和人才培养方面的优势,进一步加强人工智能应用的基础研究和共性关键技术突破,使学生在学习实践过程中,掌握业界最新的深度学习技术,培养能够满足人工智能应用开发的人才,中智讯公司整合了最新的云计算、大数据和深度学习技术,研发了深度学习实验平台管理系统,提供与业界生产环境类似的深度学习集群环境,并集成了各种深度学习神经网络框架和训练数据集,以及各种常用的数据采集爬虫和数据可视化等工具,使学生可以在深度学习实验平台上开展各种深度学习相关的算法建模实验,学习到第一手的深度和建模技术,为学生将来在学术研究和深度学习实验平台建设的总体目标是基于深度学习平台硬件集群,整

4、合深度学习常用框架和算法模型,提供多租客模式的深度学习计算服务,提高科研资源使用效率,提升学校在深度学习技术和应用领域的科研能力,培养掌握人工智能核心技术研发技能的优秀人才。具体的建设目标包括以下几个方面:算法训练:提供分布式的深度学习算法训练任务运行环境,实现多用户深度学习算法训练任务的同步运行、失败自动重启和运行日志监控;集群管理:通过集群硬件的资源调配和使用监控,实现不同角色的用户资源份额管理,支持深度学习集群的多租客资源管理,支持硬件资源的动态扩展;资源管理:提供各种深度学习框架镜像和案例资源包管理功能,按照不同用户角色,提供资源控制管理权限,支持教学资源的共建共享;开发实战:提供深度

5、学习应用开发的各种开发工具,包括集成开发环境、数据爬取工具、数据模拟工具和数据可视化工具等,使学生掌握真实企业场景深度学习应用开发技能应用展现:提供各种深度学习应用案例包,包括实验指导书和项目源码,支持深度学习应用的功能演示2.系统总体设计2.1.系统总体框架中智讯深度学习实验平台以深度学习实验课程为指导,件集群,采用灵活高效的容器云调度技术,具有良好同时进行深度学习模型的训练,此外深度学习实取、数据预处理和数据可视化工具,模拟真实的数扌程实践能力深度学习实验平台整体框架如下图:U服务器硬訂性,可以支持多人平台还提供方便的数据爬析场景,提高学生的工琛歴宇习匝用肌自苗语用t理机帚人骨匪押讯医顒分

6、:諛、只卒甘黄、1A醪好崔、眉F引當,广舌更视、猜逝导航力IK卷姥、替館巨誉.机器顧说林检妙H间序列目祇口肢餌径更戈!畢于角色的E户糾朗相资康的粉殊浹R学対護稅彰迪网賂CNN筒环神鲤冈烙RNN主宅对抗圖弟GAM深总管恚网賂DBNJSlSSft学匀DQNPaddlePaddleQKeraspyt6rghCaffecnitcGPU服筈器氏拮需哝学封幵担工耳CPU/GPUtPUFGRJ使用深度学习实验平台,可以开展多种深度学习基础算法实验和模拟实际案例的综合实验,通常进行数据分析实验的流程如下图:确宦需求目标收采处理数据2.2.框架总体介绍深度学习实验平台各GPU服务器器、CPU、GPU和高性能网络

7、,构建性能强大且可扩展的GPU服务器集群。资源调行,深度已伸缩性,F下所述:用业界深度学习集群通用的硬件设备,包括服务层:为了提高资源使用效率,支持多个模型训练任务同时运乙台采用轻量级的容器云资源调度技术,提高平台整体的可用分布式任务调度服务,实现多任务容错并行处理,并支持多资源管理。.深度学习框架层:采用目前业界常用的各种深度学习框架,包括TensorFlow、Keras、PyTorch、Caffe、CNTK、PaddlePaddle等,各个框架都采用本地预装的容器镜像进行封装,可以快速构建运行环境,极大的减轻框架更新升级的工作量4.深度学习模型层:平台内置常用的各种深度神经网络模型,包括卷

8、积神经网络如AlexNet、VGGNet、ResNet、FastR-CNN、SSD等模型,循环神经网络如LSTM、GRU等模型,以及AE自编码器、GAN生成对抗网络和深度强化学习神经网络DQN等模型,便于学生学习这些模型的框架,并进行调整优化,训练自己的模型。深度学习应用层:平台提供目前深度学习的各种常见应用案例,包括机器视觉、自然语言处理、机器人智能控制,以及行业应用较多的基于深度学习的推荐引擎、广告预测、时间序列分析等案例,每个案例都包括数据集、源代码和实验指导,学生可以快速上手,模拟真实行业的深度学习项目开发。深度学习课程资源:包括深度学习实验课程相关实验指导,包括PPT讲义、实验视频等

9、,以及深度学习建模常用模型、训练数据集和案例代7.深度学习开发工具:提供数据分析项目开发常用的各种工具,管理工具、集成开发环境、数据网络爬虫、模拟数据生成工具,以及数扌化平台等。据可视3.系统功能设计深度学习实验平台的主要功能包括GPU集源管理、用户角色管理和应用工具管理图:管理任务调度管理、教学资M些模块的逻辑关系如下用户权限管理文档管理数据集管理镜像管理CLI界面RESTfulServer任务调度管理(YARN)应用工具管理GPU服务器集群管理(Kubernetes+NVIDIADocker)3.1.GPU集群管理深度学习实验平台的底层是GPU服务器集群,通常由高性能的服务器,搭配高性能的

10、GPU深度学习单元,按照一定的拓扑关系,由高速网络交换机进行组网,形成服务器集群。服务器集群主要提供CPU、GPU计算资源,以及存储资源和网络资源。3.1.1.GPU集群管理功能硬件资源运行管理按照分布式计算的要求,协同各个服务器的资源使用,提供统一的任务运行调度接口,提高硬件资源的使用效率。硬件资源容错管理针对硬件可能出现的异常,采用数据备份和容错监控机制,提供资源容错管理功能,使硬件异常不影响上层任务的运行硬件资源扩展管理支持硬件资源的动态扩展,不需要停止集群运行,即可对集群进行增减调整。硬件资源状态监控对硬件资源的运行状况进行实时监控,并提供可视过阈值的硬件资源使用“热点”,进行预警管理

11、3.1.2.GPU集群管理设计力能,对于超于最新的容器云编排和管理勺和可扩展的容器云管理平台,深度学习实验平台的GPU服务器集框架Kubernetes实现。Kubernetes是一个轻用于管理容器化应用和服务,通过Kubernetes能够进行应用的自动化部署和动态扩容缩容。在Kubernetes易管理和发现。以下是Kubernetes成应用的容器组合成一个逻辑单元以更IctiicatiDn.Kubernetes属于王从分布式架构,王节点和多个工作节点组成,库和控制管理器等服务所组成。务运行节点,运行业务应用的各种容器。工作节容器运行时服务。其中,kubectl用于通过命令行操作。附加项是对Ku

12、bernetes核心功能的扩展,包括增加网络和网络策以及包括客户端命令行工具kubectl和其它附加项。1)主管理节点作为控制节点,对集群进行调度管理,主管理节点由API服务器、调度器、分布式集群状2)工作节点作为真正点包含kubelet、kubep与API服务器进行交互,对Kubernetes平台进行操作,实现在集群中进行各种资源的增删改:3)略等能力以下是基于Kubernetes的深度学习平台GPU集群管理器界面:窃kuberrbeLtIfFO.51工柞E穀状冬wxitriH*IfzrrftitWAIS*守护逊崔集fflrt0rtwrliHJsipm-1/1咖中Ki/QEifnMLgtmr

13、i2.;可尸jSVE*3.2.任务调度管理深度学习平台需要运行各种深度学习算法训练任务,型构建,还包括大数据处理等任务类型。为了同时支持大数的运行,本平台的任务调度管理模块采用YARN框架来实现任务调度管理功3.2.1.任务调度模块架构YARN任务调度管理模块的架构如下图:Node.1ManagerConlain-erClientReEDurce尸MmagarNodeManaqerAppMslrCcntainejMapReduceStatusJobSubmission-iNodeSGslGus一ResourceRequesi亠亠Conlain-srClentYARN各服务的说明如下:资源管理器

14、(ResourceManager:RM):负责对各工作节点管理器(NodeManager)上的资源进行统一管理和调度,将应用管理器(ApplicationManager)分配空闲的容器(Container)运行并监控其运行状态。对应用管理器申请的资源请求分配相应的空闲容器。主要由两个组件构成:调度器(Scheduler)和应用管理器(ApplicationsManager)。调度器(Scheduler):调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位

15、是容器,从而限定每个任务使用的资源量。Scheduler不负责监控或者跟踪应用程序的状态,也不负责任务因为各种原因而需要的重启。总之,调度器根据应用程序的资源要求,以及集的资源情况,为用程序分配封装在Container中的资源。调度器是可插拔的,例如CapacityScheduler、FairScheduler。A应用程序管理器(ApplicationManager):应系统中所有应用程序,包括应用程序提交、与I主服务(AM)、监控应用主服务(AM)的等,跟踪分给的Container的进度、状节点管理器(NodeManager:NM和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个

16、Container的运行状态;同时会接处理来自应用管理器的Container启动/停止等请求。应用主服务个应用主服务,负责应主服务(AM)协同工作完成负责管理整个商资源以启动应用状态并在失败时重新启动g职责。管理器是每个节点上的资源licationMaster:AM):用户提交的应用程序均包含一跟踪应用执行状态,重启失败任务等。应用应用框架,它负责向资源管理器协调资源,并且与节点管理器执行和监控。Container):是YARN中的资源抽象,它封装了某个节点上的多内存、CPU、磁盘、网络等,当应用主服务(AM)向资源管理器申请资源时,资源管理器为应用主服务(AM)返回的资源便是用容器表示的ya

17、rn会为每个任务分配一个容器且该任务只能使用该容器中描述的资源。维度资源,申请资源曰3.2.2.任务调度交互设计YARN任务调度模块各服务的交互流程如下图:一般包括应用代任务调度过程:1、客户端提交任务给资源管理器ResourceMana码和应用需要的一切参数和环境信息;2、资源管理器收到请求之后,调用应管理器NodeManager发送请求,申请启动应用主服务ApplicationMaster;3、容器启动之后,首先注源,这个过程是轮训的,循环申青点管理器分配资源4、资源分配完毕之pplicationManager向节点ntainer资源,并且要求容器己到资源管理器,然后为任务申请容器资F源,

18、资源管理器收到请求之后,会要求节,述用主服务发送请求到节点管理器,启动任务;5、节点管理器设置容器的运行时环境,节点会通过脚本启动任务;6、启动容器启动扌7.1任务利用这2由节点管理器的容器启动程序ContainerLauncher负责的,艺成启动任务的工作;口应用主服务保持定期交互,报告任务状态和进度信息,应用主服些信息监控任务的整个执行过程;7.2节点管理器和资源管理器两者之间保持的心跳信息,更新节点管理器状态的变化;8、应用主服务在检测到作业运行完毕之后,通知资源管理器,并且停止自程己执行3.3.教学资源管理教学资源管理提供深度学习实验平台教学活动相关的资源管理功能,教学资源包括各种讲义

19、、视频、源码等文档,以及实施深度学习实验所需的各种镜像(Image)、数据集和预训练的算法模型等文件。主要功能包括在线资源目录管理和实验案例管理两部分:3.3.1.在线资源目录管理教学资源管理采用统一的Web访问方式,方便教师和学生通过浏览器管理自己的相关资源文件。以下是教学资源管理模块的界面:WrAafmktW*O血狂la.曲.JIA*倉iifi日杲SfrUl3.3.2.深度学习实验案3H!中智讯深度学习实验平支持的基础实验主要包括机器学习基础理论和算法模型,以及使用神经网络实现各种深度学习基础理论和算法模型相关的实验,具体实验实验1实验2实验3实验4实验5实验6学习基础实验一个简单的线性回

20、归预测实验机器学习数据准备-鹫尾花数据集数据探索-均值、中位数、众数和均值偏差计算数据探索-数据偏度计算数据探索-数据离散度(方差/标准差/Cohensd度量)数据探索-数据可视化(直方图/散点图/箱图)实验7:特征处理-皮尔逊相关系数计算实验8:特征处理-信息熵系数计算特征处理-条件熵系数计算特征处理-相对熵系数计算特征处理-交叉熵系数计算特征处理-Lasso正则化(L1)处理特征处理-Ridge正则化(L2)处理特征处理-主成分分析PCA基于最小均方误差MSE的误差分析机器学习模型度量指标-查全率、查准率和F1度量机器学习模型度量指标-ROC和AUC基于信息熵增益率的决策树算法基于Gini

21、系数的决策树算法基于Python实现的逻辑回归分类算法基于Python实现的K近邻分类算法基于Python实现的朴素贝叶斯分类算j基于Python实现的支持向量机SV基于Python实现的K均值聚类基于Python实现的riori频繁项集算法基于GridSearch的模型超参数优化基于Random的模型超参数优化实验9:实验10实验11实验12实验13实验14实验15实验16实验17实验18实验19实验20实验21实验22实验23实验23实验24实验25实验26神经网络基础3实验1实验2实验3实实验实验6实验7实验8算法基于Sigmoid激活函数的感知机基于Tanh激活函数的感知机u激活函数的

22、感知机于Python实现一个三层前馈神经网络多层前馈神经网络解决XOR问题基于Python实现的随机梯度下降算法基于Python实现的Back-Propagation神经网络神经网络实现手写字符识别深度学习基础实验实验1:TensorFlow环境安装实验2:第一个TensorFlow手写字识别算法实验3:TensorFlow图编程模型实验4:TensorFlow变量和作用域实验5:TensorFlow常用API实验6:TensorFlow批标准化方法实验7:TensorFlow神经元函数实验8:TensorFlow常用优化器算法实验9:TensorFlow随机梯度下降算法实验10实验11实验1

23、2实验13实验14实验15实验16实验17实验18实验19实验20实验21实验22实验23TensorFlow读取TRRecord文件数据TensorFlow训练模型保存和恢复使用TensorBoard可视化工具检查模型训练过程TensorFlow队歹寸TensorFlow线程和协调器TensorFlow分布式多节点部署实验TensorFlow实现卷积神经网络TensorFlow实现循环神经网络TensorFlow实现LSTM神经网络TensorFlow实现GRU神经网纟TensorFlow实现AutoEncoTensorFlow实现GATensorFlow实现时间序列预测基于TensorFl

24、ow的深器成对抗网络3.4.用户权限管理姜强化学习DeepQ-Learning算法为了满足不同用户之间操作权限控制和资源访问隔离的需求,深度学习实验平台提供员、教师、学生三类以根据需求乙下是的用户权限管理功能。平台预设的角色包括系统管理,各个类别的角色拥有不同的操作权限,系统管理员还可同,自定义新的角色,并配置给相应的操作权限。是基于角色的用户权限管理模块E-R图设计:深度学习实验平台预设的角色描述如下表:T_Bodnle_FM土:M空IA0FulIBEiurK.i/JfahlfJDE-HZ:35.l竽畐空袞FiizNax-v-irzl-ari50,iM*DtleltSCorI2T_Role_

25、Fuii1阁士玄咗工圭|.匕.=空;烂壬HolID*9:闵aFtiIDch-azC&c)-T_Bes到容1?-zSr=-包staBji-eID:h.ri:36)L丄I?.P-sXax-7az:haT(50)QB*sTibl*73*:har(ED)7jsTstieTar:h4T(SK)iJ亶耳即二iv1匚1m1V.ITs-tlDLs-srlsx!zhsrr35)7aT=hHri:5D:i7冃户活裁弓户宕Or1-rSoinz“TUserole7j逹耳之运兌三|.七:.=主|经主|-UE.rTDchIT(祐)丄EolelDrhsC56)VJT.RleEes脳一1略闵瞇釦吊港fi嚨AEn-zleli!

26、EntrfJB)R=aIZcHu-iE-:1=:V角色名称角色说明管理权限系统管理员负责整个平台的管理工、作,一般授予专门的平台二运维管理人员下吴有所有权限*教师从事教学活动的老师,授予此角色、任务管理:提交任务、取消任务、查询任务状态等资源管理:提交文档资料,设定文档访问部门或人员,提交镜像和数据集工具管理:使用相关工具学生4提交深度学习算法训练任&的学生,授予此角色任务管理:提交任务、取消任务、查询任务状态等资源管理:提交文档资料,设定文档访问部门或人员以下是卩台的用户权限配置管理界面:角色管理1倍帀览示20;ID名称柞人阳攝惟E期柞3dmin2D10-9-1G14:09:029并配权理2

27、ddmh14:12L54GT冷故XTlSS;%SJKfXJR1admn2D18-9-1614:16:32or懵改占角色歹.農IM3竇丘虑I幣戸担茹旳*3.5.应用工具管理深度学习实验是一项综合性的工程实践活动,具,才能熟练的完成深度学习相关的各种算法I具主要包括数据爬取工具、数据模拟工具际项目开发使用的版本管理工具、集成开发握各种辅助工本平台提供的应用工视化工具,还附带安装有实右(IDE)等。数据爬取工具基于业取,支持代理IP设置,置各种数据输出源设置件等。数据爬WebUI抓取器3.5.1.数据爬取工具据爬虫框架开发,提供定时多线程调度爬,而且提供扩展支持验证码识别等功能,内MongoDB、M

28、ySQL、SQLite和JSON或CSV文度器、抓取器、脚本执行器和输出模块组成,同时提供口监控工具,各部分组成如下:调度器脚本执行器懈析)输出适配器数据库WebUI界面数据爬取工具操作界面如下:3.5.2.数据模拟工具prcfKtilMIIMtunAi*crilAaJ习实生成功能,勺样例数据,而且支标准差,生成数值型多线程快速生成海量的为了解决深度学习课程教学过程中面临的数据量不足的问题,验平台提供了数据模拟工具,该工具提供千万级别以上的可以配置不同的数据序列和数据范围,按照配置生成持采取不同参数的概率分布,按照设定的概率分布均彳样例数据,还可以按不同的数据格式和生成顺模拟数据,供大数据处理

29、和深度学习分析如下:数据模拟工具界面如下:7tnllvl正t3.5.3.数据可视化工具KWMilM)3!IF&HI3OW-L2-D:Q7:3L2DL0-0233:14:03124J3D-I.-D-2455:57MLO-33-O709:41.LE純】OQFL8udi:3】f:2&卫1MJCHQ4-29】真関32DLQ-JJ-09】驶14:羽:M3&-I.CJLI14:39:202OLfl-M2L:54:LL2M1Q-Q3-22MDJL2DL0-M0-1:33:07JMID-CH-25&5.M空2DLil-ll-lOCG.D4-.451M1O05Lfl?C:-7:32OL0-MN:垃盟3MW-LJ

30、-25K:4335MLO-Jl-ffl】2;箱;说4JULttSAL9:23:5L帥LX】052:52:4S22310-ir-ffi器:吐3BML0-MBlL7:3fi2MlOOT-Ol03:2:172OLfi-lfl07:24:Lfi2W&-L3-LL前:bO:也20LO-11-040&:12:202:HHD-di-DI37:04-Ifl2Dia-ll-flfiffl.Dl.2H2M&-LO-L2f:44:4L却L0-H-0404:1:OS4?旄41.-旣W:37.342DLi-07j:33:402:HIJD-ga:r!Sl:Jj:DIDj.Q-11-WZ::I?I:|H3HlD-ai-2?

31、30:37:072OLQ-11-03OS:11油31nonn-23池!開叮兀w-ii-Qm4:in:ia4jxo-I:二閒:M:於iL4-4aM:艸:测国30013-31W:护凤LCMI-Q3CH:祐:羽IE;45:MEflLO-ll-O?32;37:335M1D-L0-2A8:42:4LSOLO-】卜(H】D:53:詞J闖】P-QA3I?GLO-flH4KI9:HID-ai-LdOS:25:4LML0-j-M3M10-07-2fi4-51两3CL0-J-0fld為142M0-a7-WJ:L:53ZDLa-07O9:D:3924:-31:920L0-JJ-(HM:33:03-tMJD-Q-M4

32、:5542ML0-1J-0Sffl;ET:LLS2CK0-LO-O7J2:59.4ti20L0-JJ-M&3:J8:572MIQ-Lfl-ffiS;L2493flLQ-M托聘H3SOZfi栩2iL0-0j03:12:LG:1買砂LLLS20LQ-M04:5?-38JM3D-O3-L3fi:04:Z!ZDL0-d2OL:33:043KHH-27们:別:聞2CL0-JJ-(H国:出:胡2囲KHI5HMU8:-H-323)L0-0T4:4D:3】做!21:52:M2DL0-JJ-MJ20:2筲:射】(I3CHH.1-K364?-L532OHi-L2-2:47:42DL0-MZ:54:2244:3fl

33、:22CL0-3J-O9ClF:L(l2ELO-(H$;H;30J仙&34:05:302DLil-J-(IJW:(Mj:iLJ2ntf1CameraMute5T471KC*0FooDMarl-HnntafiQ5Ppp#r:-EvwiBetterLarasCurdCottfloeChtEse:*1=Lhe-aunAifOwhimiw-M.M0-SCpMW-4.4.1.系统部署拓扑曲iMB深度学习实验平台系统主要由管理节点和GPU服务器集群构成,管理节点用于部署GPU集群管理平台的管理服务,包括集群资源管理、用户权限管理,以及各种应用工具管理等,GPU服务器集群节点作为计算节点,提供深度学习计算服

34、务,两者之间通过高速数据网络和管理网络相互连接。平台部署示意图如下:IntiniSand供校用户醉理界面/部署包括以下部分:4.2.系统部署步骤深度学习实验平台的第一部分:底层容器资源层安装,包括Docker安装、Kubernetes容器云管理平台安装;第二部分:任务调度层安装,采用容器方式安装YARN任务调度服务,如据任务的话,还可以安装Spark、Kafka等服务;第三部分:深度学习框架安装,同样采用容器方式按照常用的深度学习框架如TensorFlow、Caffe、Keras、PyTorch、MXNet等;第四部分:用户权限管理和应用工具安装,可以采用容器方式按照,也可以直接部署在管理节点

35、上以下是单节点的具体部署步骤:测试节点部署环境:OS:Ubuntu16.0464位LTSPython:3.5.2GPU:NvidiaGTX1080Ti(11G)。安装部署步骤:1)安装Docker:请参考相关指导2)安装必要的包:sudoapt-get-yinstallnanojoevimwgetcurljqgawkpsmiscpythonpython-yamlpython-jinja2python-paramikopython-urllib3python-tzpython-nosepythonprettytablepython-netifacespython-devpython-pippyt

36、hon-mysqldbopenjdk-8-jreopenjdk-8-jdkopenssh-serveropenssh-clientgitbash-completioninotify-toolsrsyncrealpathnet-toolspipinstallpython-etcddockerkubernetesGitPython5)准备Kubernetes集群配置:cd/paipythonpaictl.pyconfiggenerate-i/pai/deployment/quick-start/quick-start.yaml-o/pai-config-f6)部署Kubernetes集群:cdpa

37、ipythonpaictl.pyclusterk8s-bootup-p/pai-config确认Kubernetes集群已经安装OK: HYPERLINK 41:9090/ 41:9090/7)更新GPU集群管理服务配置:pythonpaictl.pyconfigpush-p/path/to/conf8)启动GPU集群管理服务:pythonpaictl.pyservicestartGPU集群管理服务包括:prometheus,hadoop-batch-jobexporter,hadoop-resource-mayarn-framewor_hadoop-node-manager,rest-server,webportal,end-to-end-test,alert-manager,hadoop-daode,cleaner动相关服务,如大数据服务,则启动hadoop-*相关服务,釆度学习服务,则启动hadoop-*以及drivers和yarn-*服务。集群管理服务已经启动:aunc-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论