




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2021/3/9浪潮天梭浪潮天梭TS10KTS10K集群培训集群培训22021/3/93/1/2022Inspur group第一章 集群介绍132021/3/9一、什么是集群?一、什么是集群?42021/3/9二、为什么用集群?二、为什么用集群?52021/3/9三、集群有哪些部分组成?三、集群有哪些部分组成?l 计算节点:计算节点:承载集群的计算任务l 管理节点:管理节点:用户登录、管理调度整个集群、任务提交等,提供对整个系统的监控管理l 存储节点:存储节点:存储大量的计算数据,高可用,高安全 62021/3/9硬件架构硬件架构72021/3/9网络架构网络架构82021/3/9网络规划网
2、络规划管理ip:11.11.11.100管理节点11.11.11.131计算节点11.11.11.3235 io节点计算 ip:10.10.10段,尾数同上IPMI网络:11.11.100.100管理节点 11.11.100.101104 io节点 11.11.101.100 第一个刀箱,对应101120,cu01cu20 11.11.102.100 第二个刀箱,对应101121,cu21cu3192021/3/93/1/2022Inspur group第二章 集群使用2102021/3/9需要的条件:需要的条件:1、客户端与集群连通2、客户端如果为linux可以直接ssh登录到管理节点;如果
3、为windows系统,需要安装相应软件3、一个合法账号!4、相应操作知识积累112021/3/9并行环境搭建并行环境搭建 Linux集群并行环境主要配置以下4个服务 1、rsh服务 通讯服务 2、ssh服务通讯服务 3、nfs服务 目录共享 4、nis服务 用户同步122021/3/9并行环境搭建并行环境搭建-rsh服务配置服务配置urshrsh服务配置开启root用户对所有节点的rsh权限 1、编辑/etc/hosts节点名称解析,加入所有(包括本机)节点的ip地址和对应的计算机名;此文件在一台机器上编辑完毕可以拷贝到别的节点上使用;注意127.0.0.1这一行不要动,否则会影响到服务器的正
4、常使用。例如: 11.11.11.100 mu01 11.11.11.1 cu01 11.11.11.10 cu10132021/3/9并行环境搭建并行环境搭建-rsh服务配置服务配置2、编辑/root/.rhosts和/etc/hosts.equiv,加入所有节点的计算机名例如:mu01cu01cu103、开启rsh服务:setupsystem services*rsh*rlogin*rexec142021/3/9并行环境搭建并行环境搭建-rsh服务配置服务配置 4、编辑/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以) 5、重起服务service x
5、inetd restart rsh的配置需要在所有节点上进行。152021/3/9并行环境搭建并行环境搭建-ssh服务配置服务配置 1、在mu01上以root登录,然后运行ssh-keygen t dsa,目的是简单的在 /root下创建目录.ssh,当提示输入passphase时打入两次回车。这将生成/root/.ssh/id_dsa和/root/.ssh/id_dsa.pub 2、在cu01上以root登录,运行ssh-keygen t dsa,然后在mu01上运行scp /root/.ssh/ id_dsa.pub gpu01:/root/.ssh/authorized_keys,在cu
6、01的/root/.ssh/目录下运行cat id_dsa.pub authorized_keys,再运行scp authorized_keys gpu02:/root/.ssh/162021/3/9并行环境搭建并行环境搭建-ssh服务配置服务配置 3、在cu02的/root/.ssh/目录下运行cat id_dsa.pub authorized_keys,再运行scp authorized_keys cu03:/root/.ssh/ 4、重复以上步骤在后面结点上,在最后的计算节点上将生成一个完整的authorized_keys文件,然后把authorized_keys文件用scp命令拷贝到其
7、余所有节点的/root/.ssh/目录下,ssh配置完成。172021/3/9并行环境搭建并行环境搭建-nfs服务配置服务配置 server端配置 1、建立文件/etc/exports(若已存在该文件,则先删除再重新建立) 2、vi /etc/exports/,在文件内添加上语句: /home *(rw,no_root_squash,sync) /opt*(rw,no_root_squash,sync) (目录为需要共享的目录,目录和星号之间有空格。) 3、激活nfs chkconfig nfs on service nfs restart此时可以到client上用showmount e IP
8、(或者server的主机名)来扫描server端共享的目录。若exports文件重新编辑了,可以运行exportfs rv来更新一下,这样client端就可以挂载修改后的目录了。182021/3/9并行环境搭建并行环境搭建-nfs服务配置服务配置 client端配置 1、扫描可以使用的server目录:showmount e mu01 2、使用mount将远程主机分享的目录挂载进来: mount t nfs vers=3 mu01:/opt /opt 此时可以通过df命令看挂载是否正常; 为了实现开机自动挂载还可将 mount t nfs vers=3 mu01:/opt /opt写入到/et
9、c/rc.local中以使节点启动后自动挂载目录。192021/3/9并行环境搭建并行环境搭建-nis服务配置服务配置 server端配置 1、配置NIS域名 nisdomainname TS10K 把NISDOMAIN=TS10K添加到network里 实现开机自动配置域名 2、开启两个服务: service yppasswdd start service ypserv start(需要先配置NIS域名才能启动成功)可以使用rpcinfo u 本机名 ypserv 察看ypserv是否启动,若成功启动会看到:program 100004 version 1 ready and waiting
10、program 100004 version 2 ready and waiting202021/3/9并行环境搭建并行环境搭建-nis服务配置服务配置若没看到,则把ypserv重新启动一下即可。回车后会显示类似内容:mu01 has been set up as a NIS server ,now you can run ypinit s mu01 on all slave server.在server端重新建立新用户后,需要到/var/yp 目录下make一下,这样client端才能使用新用户登录 3、数据初始化 cd /usr/lib64/yp ./ypinit m ctl+d来结束这个
11、命令再打入回车212021/3/9并行环境搭建并行环境搭建-nis服务配置服务配置 client端配置1、设定NIS clientsetupauthentication configuration*use NIS填写:Domain:TS10K (NIS的域名) Server: mu01 (server端的名称或者ip)2、开启服务setupsystem services*ypbindservice ypbind restart使用命令:ypcat passwd 可以发现在server端建立的帐户名称被列举了出来;若使用这些帐户的话需要在本地/home目录下建立其相对应的用户目录。222021/
12、3/9编译环境编译环境集群中现存的编译器gcc icc ifort mpicc mpiicc等调用集群内部高速的IB计算网络,通常使用mpirun -genv I_MPI_DEVICE rdssm np machinefile +执行文件rdssm即是mpirun编译器调用IB协议的参数。如果是ssm,则是使用以太网络。232021/3/9编译软件编译软件安装intel C编译器,fortran编译器,mkl数学库一体包。安装intel mpi编译器。安装目录:/opt/intel 计算节点挂载管理节点的nfs共享安装路径调用编译软件等。242021/3/9编译软件编译软件-Intel 并行环
13、境变量设置并行环境变量设置在/.bashrc里加入如下三行source /opt/intel/composer_xe_2015.1.133/bin/compilervars.sh intel64 #intel编译器source /opt/intel/mkl/bin/intel64/mklvars_intel64.sh #intel数学库 source /opt/intel/impi/5.0.2.044/bin64/mpivars.sh #intel mpi 执行source /.bashrc使编译器环境变量生效。 可将它写进/etc/bashrc里,新加用户将其作为默认编译器252021/3/
14、9MPI程序的并行编译程序的并行编译编译方法:mpicc -o hello hello.cmpiicc o hello hello.c执行方法:./hello 注:1,mpicc是调用gcc为底层 的编译,mpiicc是调用icc为底层的编译。2,源代码需支持并行编译。262021/3/9程序编译步骤简介下载源码包(不是版本越新越好)查看INSTALL文件或官方installation指导(查看依赖和参数)configure -prefix=path/to/your/soft (可选)makemake install依赖库1. 查看版本2. 指定安装路径 3. 设置环境变量 写到/.bash_
15、profile (普通用户)export PATH=$PATH:/path/to/your/binexport LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib软件编译软件编译272021/3/9TSExa并行文件系统并行文件系统底层为lustre并行系统,包含4台2U机架式5270M4,其中两台io01,io02做为mds双机互备节点,另外两台io节点作为oss节点,各自挂载一部分存储空间分别为ost0,ost1,且为双机互备。 Mdt包含两块硬盘做raid1;ost包含7块硬盘做raid5,剩下一块全局热备盘,共计17块硬盘。每个ost约
16、22T空间,共约44T空间。282021/3/9TSExa并行文件系统并行文件系统 Io01与io02存在心跳,io03与io04之间存在心跳,当一节点宕机时,另一互备节点会接替其挂载资源并提供服务。管理节点mu01,及31台计算刀片为lustre的客户端,挂载目录为/lustre即为存储空间,可用df h查看。挂载指令mount.lustre ibio01o2ib,ibio02o2ib:/lustre /lustre292021/3/9TSCE集群作业管理调度软件u TSCE集群作业管理调度软件常用作业指令 qnodes,pbsnodes用于查看当前可用节点与核心数。302021/3/9TS
17、CE集群作业管理调度软件集群作业管理调度软件qnodes与pbsnodes等效,通常可以qnodes l all查看节点是否就位312021/3/9qsub作业提交,用法:qsub test.pbsqstat查看作业状态。qstat an查看作业使用节点及核心情况TSCE集群作业管理调度软件322021/3/9 qdel删除作业,用法:qdel 作业号u几种作业的状态(S):l Q 作业排队l R 作业执行l C 作业清除l E 作业退出TSCE集群作业管理调度软件332021/3/9PBS相关指令相关指令管理节点服务:pbs_server,作业管理服务maui,作业调度器计算节点服务:pbs
18、_mom,作业调度子服务,与pbs_server相对应service pbs_server status查看服务状态。每次重启pbs_server服务时,需对应重启pbs_mom服务,最终保证qnodes下没有down的节点。342021/3/9所装软件版本所装软件版本intel parallel 2015.1.133 /opt/intel intel 编译器Intel mpi 5.0.2.044 /opt/intel/impi/intel并行mpiTSCE 3.3 /opt/tsce 浪潮作业调度软件,集成torqueansys 14.0/opt/soft/ansys应用软件pdsh 2.2
19、9/opt/pdsh-2.2.29 并行批处理软件mpich 3.0.4 /opt/soft/mpich3.0.4 编译器所有节点操作系统 RHEL 6.5352021/3/9Vasp脚本脚本 #PBS -N vasptest #PBS -l nodes=3:ppn=12 #PBS -l walltime=12:00:00 #PBS -q batch #PBS -V #PBS -S /bin/bash cd $PBS_O_WORKDIR EXEC=/opt/software/vasp5.3.5/vasp(具体目录视情况而定)362021/3/9 NP=cat $PBS_NODEFILE | w
20、c -l NN=cat $PBS_NODEFILE | sort | uniq | tee /tmp/nodes.$ | wc -l cat $PBS_NODEFILE /tmp/nodefile.$ mpirun -genv I_MPI_DEVICE rdssm -machinefile /tmp/nodefile.$ -n $NP $EXEC rm -f /tmp/nodefile.$372021/3/9TSCE网页管理界面网页管理界面远端输入登陆ip:8080/TSCE可调出TSCE的网页管理界面382021/3/9TSCE网页管理界面网页管理界面主界面392021/3/9TSCE网页管
21、理界面网页管理界面 TSCE网页最主要的功能集群监控402021/3/93/1/2022Inspur group第三章 集群维护管理3412021/3/9集群批处理软件使用集群批处理软件使用 pdsh是集群常用并行批处理软件 rootmu01 test# pdsh w cu01-31 uptime allc串行处理422021/3/9机器开机说明机器开机说明1 将所有PDU加电,等待1分钟,待设备完成加电自检。2 开启存储阵列,需要先开扩展柜,再开主柜,直接打开电源即可。(若如掉电,存储尽量保持开机状态)3 开启管理节点mu01,约两分钟进入系统。4 开启TSExa系统元数据节点,即 io01
22、与io02,约两分钟进入系统,进系统后,执行crm_mon检查互备是否正常,如果不正常需要重启pacemaker和corosync服务。5 开启oss节点,打开io03与io04,约两分钟进入系统,判断互备是否正常。6 待io节点都开机后正常后,依次打开31个刀片计算节点。7 mu01挂载并行文件系统。常规检查:rootmu01 #mount.lustre ibio01o2ib,ibio02o2ib:/lustre /lustrerootmu01 # allc uptimerootmu01 # allc “df h|grep /opt”rootmu01 #allc “df h|grep /ho
23、me”rootmu01 #allc “ypcat passwd”rootmu01 #qnodes -l all432021/3/9机器关机说明机器关机说明1先关闭cu计算节点可以在mu01上用allc poweroff命令把31个计算节点关闭2 再关闭管理节点mu01,直接在mu01上运行poweroff。3 如果必要,关闭并行文件系统,io01io04依次关闭(因为已经关闭管理节点,只能现场关闭)4 最后关闭存储510H及扩展柜,只能现场关闭。注:1,如果不能现场关闭存储io节点,可以在管理节点上先行卸载lustre挂载,然后关闭io节点,再关闭自身,但存储阵列510H不能命令行关闭。 2,
24、如果关机出现不能正常关机卡在某一步,需手动强制关机,及长按关机键数秒。442021/3/9节点节点IPMI管理界面管理界面此界面是集成在主板的硬件管理界面。管理界面节点需管理节点firefox,输入ip。管理节点和io节点用户名及密码见铭牌刀片的管理用户名与密码:root LC6s5d?FW?452021/3/9存储挂载情况存储挂载情况查看用户存储空间 df -h整个集群上存储挂载情况为计算节点 rootcu01 # df h除本地文件系统外,还包括nfs的mu01节点/opt与io01的/home管理节点(mount)rootmu01 opt# df -h462021/3/9新建一个用户并提
25、交作业流程解析新建一个用户并提交作业流程解析step1step1在集群中添加新用户,首先在管理节点mu01上添加新用户添加用户命令:rootmu01 # /opt/ssh/adduser新建用户的设置初始密码,用户在拿到帐号后,第一时间,使用该账号登录到mu01,然后ssh到cu01输入yppasswd来更改密码。新建地用户已配置好基本的并行环境。Intel 编译器环境变量写到/etc/bashrc里,这样,每个存在用户均调用该环境变量。472021/3/9新建一个用户并提交作业流程解析新建一个用户并提交作业流程解析stepstep2 2测试用户新用户添加后,尝试使用新用户test登录rootmu01 # su - testtestmu01 # ssh cu01su - test (切换到test用户)执行allc uptime482021/3/9S Steptep3 3提交作业打开ssh工具新建一个用户并提交作业流程解析新建一个用户并提交作业流程解析4920
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽车维修工与客户沟通技巧试题及答案
- 针对语文考试的短期复习方案设计试题及答案
- 汽车美容师考试复习重点试题及答案
- 2024-2025公司主要负责人安全培训考试试题突破训练
- 2025年企业安全培训考试试题带答案(培优B卷)
- 2025年管理人员安全培训考试试题考试直接用
- 25年企业级安全培训考试试题答案B卷
- 25年企业管理人员安全培训考试试题带答案(基础题)
- 2025年厂里职工安全培训考试试题及答案参考
- 2024-2025工厂职工安全培训考试试题及答案考点精练
- 季度物业工作总结
- 2024全球感染预防与控制报告
- 第二单元+新音乐启蒙+课件【高效课堂精研】高中音乐粤教花城版必修音乐鉴赏
- 2024年云南省昆明市五华区小升初数学试卷
- 2025年全球创新生态系统的未来展望
- 体育业务知识培训课件
- 《淞沪会战》课件
- 《社区共治共建共享研究的国内外文献综述》4300字
- 软件代码审计与测试作业指导书
- 上消化道出血护理疑难病例讨论记
- 城市轨道交通自动售票机
评论
0/150
提交评论