

下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、联想智能超算平台 V2.1 管理员手册 2015 年 9 月 联想企业级业务部门system解决方案研发中心 、/一 . 前言 . 4 1. 产品简介 . 5 1.1 运行环境 . 5 1.2 名词解释 . 5 2. 使用说明 . 7 2.1 登陆管理员界面 . 7 2.1.1 切换到用户态界面 . 8 2.1.2 查看集群基本状态 . 10 2.1.3 查看机群详细监控信息 . 11 2.1.4 查看机群报警信息 . 12 2.2 用户 /账户管理 . 13 2.2.1 创建用户组 . 15 2.2.2 修改用户组 . 19 2.2.3 删除用户组 . 21 2.2.4 创建计费账户 . 2
2、3 2.2.5 修改费率 . 25 2.2.6 充值 . 26 2.2.7 扣款 . 27 2.2.8 删除计费组 . 28 2.2.9 创建用户 . 30 2.2.10 修改用户 . 33 2.2.11 删除用户 . 36 2.2.12 查看更详细账户记录 . 38 2.2.13 问题分析及解决办法 . 41 2.3 HPC 集群管理 . 42 2.3.1 查看 HPC 集群详细信息 . 42 2.3.2 HPC 集群的硬件远程管理 . 43 2.4 作业调度管理 . 47 2.4.1 队列管理 . 47 2.4.2 作业管理 . 48 2.4.3 作业策略管理 . 48 3. 注意事项 .
3、 49 3.1 系统重启 . 49 3.1.1 IO 节点正常工作的时候,管理节点重启 . 50 3.1.2 IO 节点正常工作的时候,计算节点重启 . 51 3.1.3 IO 节点正常工作的时候,登录节点重启 . 52 3.1.4 IO 节点重启 . 53 3.1.5 整个集群重启 . 55 3.2 mpi 程序的安装位置 . 56 3.3 用户目录的绝对路径 . 56 3.4 管理员发布公告和修改管理员联系信息 . 56MU W 籍鬻需鷲穿业船性辟解服务器集群的基础叽同时对高性能1. 产品简介 联想智能超算平台是 HPC 基础管理软件, 其功能包括有计算机集群管理, 集群 监控,作业调度管
4、理,集群用户管理,账户管理,文件系统管理等。 本软件基于BS结构,用户可以通过浏览器轻松登陆到管理界面进行操作, 也可 以通过其他 Linux shell 工具登陆到集群登陆节点进行命令行操作。 1.1 运行环境 服务器: 联想 system x 服务器系列。 操作系统: CentOS 6.5 或 RedHat 6.5 客户端: 硬件:CPU主频2.0GHz以上,内存1GB以上。 浏览器:推荐 Firefox 或 Chrome 。 显示分辨率:推荐 1280*800 1.2 名词解释 计算机集群 : 包含管理节点、计算节点等在内的资源的统称。 作业 : 完成特定任务的命令序列。 作业状态 :是
5、指作业在调度系统中的状态标识,包括等待、排队、保留、运行、挂 起、结束。 节点状态 :是指节点的状态标识,包括空闲、已占用、繁忙、停机。 作业调度系统 : 负责接收、分发、执行、记账作业的分布式程序。 管理节点 : 运行作业调度,集群管理,用户计费等管理程序的节点 计算节点 : 执行作业的节点。 用户组 :定义了对资源的访问控制策略,属于同一个用户组的所有用户可以访问相 同的集群资源。 计费组 :也是计费账户,可以一个用户使用也可以几个用户共享使用。用来对集群 使用者进行计费,结算等操作。2.使用说明 2.1登陆管理员界面 打开浏览器输入集群管理节点的IP地址,端口为8080如:(客户端必须可
6、以 直接访问集群管理节点) 并看到如下示图: 图 1: 登陆界 用户名的类别分为两种:管理员和操作员。管理员可以看到整个计算机集群和 所有用户的信息,而操作员只能看到自己有权限访问的资源和自己的用户信息。 如果是管理员用户,输入用户名和密码后,用鼠标点击 登陆按钮可以看到管理 员界面下图: 图2 管理员主界 2.1.1切换到用户态界面 管理员可以任意切换到用户界面,并且像用户一样使用 HPC集群 用鼠标点击右上角 其他链接,继而点击切换到用户界面: F Q e C 二 H13WJ12 2BB旧.:恥尸斤 $昌昌 | Lenovo A m an 話用户 e Mwra 一 -亠 - 一 B3IU
7、TJ 壬一寸列T 工施* 样点占删 I呪 图 切换到用户界 C f D 102402112 时 DaOEdEin 3 G LencM/o A :f an ii用户 .E( 垃Q K6&* CPU g CMRCIKW 内存 EflFJ ZEt*l r 株点占腳板 殍誓 己 fp Q泗Ki afrf MB 柞业 书点 6 n Wti =tT 奸 fl *FL 4Mmii 内存 OM 己 Tp Ci 泗 Ki 接下来就可以看到用户界面: C Z 10Z*t?2LZ2ByJ: Lenovo el 11- zz WS.-WfTE bffkh P两存 0. 捉交悴业 占疔祁 ti WT 己ipftl血 柞
8、业删i lihi环im 和帧 ST 応 a HAiH mt ff*0 丘 Hta JHM Ji !t!* 0 &=:! El Qa4 ttaffl f-gg ra 图 4:用户界面 2.1.2查看集群基本状态 在管理员主页上,还可以看到整个集群的基本状态: Lertovo it ni an 話用户 0 I tan -fi-Atw 1 陆 K 临 聊空卷吐 CPU 主页:当前页,显示集群基本信息。 资源:显示HPC集群所有机器的详细信息页。详情见 2.3 用户:用户管理页,管理员可以对用户/组,账户/费率做一些基本操作。详情见 2.2 进入主页后,可以看到以下信息: 集群名字(注:集群名字可以在
9、/etc/cluster.conf中通过属 性DOMAIN 来配置,如 DOMAIN=,但是集群名字必须符合域名命名规则 )。 调度器:调度器服务的状态,绿色代表调度器工作正常,红色代表调度器没有正常 工作。 并行文件系统:并行文件系统的状态,绿色代表调并行文件系统工作正常,红色代 表并行文件系统没有正常工作。 网络吞吐:服务器集群网络的吞吐量,包括读速率和写速率。 集群CPU:服务器集群CPU的利用率,包括已经被占用的 CPU核数和集群总共具 有的CPU核数。 集群内存:服务器集群内存的利用率,包括已经被占用的内存大小和集群总共具有 的内存大小。砂afT ffEi *n 己憎笙泗曲 最顶上一
10、行的导航栏显示了三个按钮图标: 0 n 集群存储:服务器集群存储空间的利用率,包括已经被占用的存储空间大小和集群 总共具有的存储空间大小。 作业:显示作业的历史信息,包括运行中的作业数,等待中的作业数和结束的作业 数。管理员可以选择显示全部队列的作业数,也可以指定显示某个队列的作业数。 时间上可以选择分别显示:过去一小时,过去一天,过去七天,过去三十天的作业 数。类型上可以选择分别显示未完成和已完成的作业数。 节点占用情况:显示计算机集群中节点占用的情况: 包括忙碌,占用,空闲和关机 判断这些节点占用情况的主要依据是各个节点的平均每分钟的进程负载量。 2.1.3查看机群详细监控信息 4 U 3
11、 10.ZW2LZ 2B 的 m | Lenovo A m iflS tz用户 e 一 0, 用鼠标点击右上角其他链接,继而点击查看详细监控信息: 节力 CPU C n 1H.ZW2L2 卫阳 ganqha/ HP SMfCl- Hl CriC LijmwitHMti. EWIS 心“机己宜弭*|如 叶 EMitxeiM 04 apefihpc.Dom aurier Rep art 斗 Wed.却 Jul 2O13 C5rDl;4 *4MOO 佃 十世 L39C II的 扶r -4|v 咖 *4 辑時 YW lib E3 Q* 曲* 呛审理 urH pcrhK CMi p *K CC* Ull
12、; 叶1 JU K 1 - 图 5-2 :查看详细监控信息用户界面 2.1.4查看机群报警信息 制 MqdL Can Efiwn CFUKTIMJI: LEM Marla u|K 4- Harla d( (M: CLJTWII: Lnri AV? | S, 3. Lm;: VH. mt; W- Ai| Aknlwi ;taH har;: Vn 0Y“IPV of rwnhpc-CCim 4 2的印0产口曲5: 0*1 Ef w4pc. EM C luaHr iaat hcur IK-k ; uum冒 F+bF+b芒百 ;点 皿磊匕llaM llaM 耳*工FOK FOK 卜蟲y y 5 5诗=
13、 1 1冒 蛊芒: i 1:1:回Hi:Hi: 孟2 2器 B Ba a E-Sa nXJCAanXJCAa *ad_CTie 如果集群中部署了报警模块, 信息,查看Nagios报警信息 用鼠标点击右上角其他链接,继而点击查看报警 Nagios Swr*i HWTW RKS*MABW C WIMrfl Slflhrt 11-CKllCHIfWWV riHin Hnhrfc JiiMiq. L&l EH *4 m M U:TM*3 Located-MFi KlCHU LcmtHdll M -lQMOTii-l F. 翩片炖血冲*叶耐! 5 谒: Septet Fe AJ| H4*i* Hor r
14、GiMF inrrar Grri LiTWiAi 血- cDInAOl Sil-Li* Mikn, * LBilClw.b * Grid rwwm 04啊1 ( (1.1 l-kaix fUaiaaEtad hMm* Cnii-a Q#c .6wro CPU LEI JS 务* UBli| rH nr! TaqJPrMW K D&-CI-23 I! S231 &. | M H-M15 2*830 IZItnZAL JaMe-3!-|:K4r3 叭 Him CmanLod Qjii41LiMfk XP Z HTTP F R i pMtKTi 吕缶 SWUF !( ( rfeWMiMh TdalP
15、inaaia DMI-J319 33-iQ-M 时21T, UH944 WHB15SE-SS1 国弊MU錠他初 WlkMiSS? i - l-Jai9 SO-M 37SI M mX-ZIISZZSM I9-U-231!孟 3344 0H- 15 2 i3-9 Dur-rtvi * Hw叩 fi 1|11 Odlhllnli 1.Q K-laai: VH3G 3H 413 4M kn.iEi 知 US i-m Me-JU:DI iHi HB dlkflrBb 匚RTDC4L Hairn “nuN FilM+Fiiiii; PROC9也屬比网 1| Milt lira TEa 1M Df|:-li
16、3CMnfH ai ,a33 OH 閒TI4 3M畋 W USER 4 CikWVf 周脚 Vi 4 cnmcALH-s i;ipe| 帧伯泗饷 *flL g * HMH- ! II4 *!对吨=I )aiU如弟弘 UB HTTIPiill 4SF4fM mM44 LEW 叶 *1电 I*4C-DM.-ParmiB (%. iSff-s 呻 14 no tx -kn BFI 1 :?ie MB rmncM-ier 14 gpnkKEJ 3 Cf- adllilTraUa 闘侧P at- taHrHhM ;ma U&aJ Di tm MG; M TM沖岸XLL CHHICJJ. 艸山百01U I
17、 |iH C Hi I rMM Kv. I.* flr- I A :Hi 41 Hie 4J 5ME LwJ匸罰1伽 sJIabsJIab申驚 JSWRMT-WJB IM Mwf UiiiMIMMM I站f 亦血1W耳 ut wami vi4iM M HH MIMWI I4;31|l 伽Wltfltf D.中 ftUQCRH hfl- pHbTW llb 图 6:查看报警信息2.2 用户 /账户管理 用户管理中有三个概念:用户,用户组和计费组(也称计费账户)。 用户组: 一组 HPC 集群用户,他们具有相同的队列访问权限。 它的属性如下: 组名:用户组的名字。 用户组的状态:包括有“正常”、
18、“创建中”、“更新中”、“删除中”和“无 效”。 用户数:所包含的用户数目。 可用队列:可以访问的队列的名称(队列必须事先创建好,创建详情可以参照 章节 2.4.1 队列管理)。 最近更新:最近一次信息更新的时间以及相关的消息。 计费组(计费账户): 计费账号,可以被一个用户独自使用,也可以被多个用户共 享使用。当计费组成员在集群中运行应用程序时,所属计费组账户中的费用会根据 其运行的应用程序占用的 CPU 核数和时间进行扣除。 它的属性如下: 组名:计费组名字。 费率: 单位机时所用金额。 若费率为 1, 代表这个计费组的任何成员若占用 1 个CPU core,时间为1小时,那就要付1块钱。
19、 已用机时:成员的应用程序一共占用了多少: CPU (核数)*时间(秒)。 已用金额:该计费组的成员总共所花费的金额。由于费率可以根据需要调整变 化,当前已用金额可能不等于当前已用机时 *当前费率。 剩余金额:该计费组里还剩下的金额。 最近更新:最近一次更新的时间以及相关的消息。 用户: HPC 机群的个体用户。 它的属性如下: 角色:管理员或操作员。管理员可以看到整个集群的状况。操作员只能看到和 自己相关的队列,作业的状况。 用户名:用户名字。 用户组:所属用户组。 计费组:所属计费组。 密码:用户密码。 用户的状态:包括有“正常”、“创建中”、“更新中”、“删除中”和“无 效”。 电子邮箱
20、:用户电子邮箱。 最近登录时间:用户最近一次登录的时间。 最近更新:对该用户的最近一次信息更新的时间以及相关的消息。2.2.1创建用户组 管理员首先需要创建用户组,在系统初始化时,系统已经创建一个用户组(默认是 default_os_group。建议管理员创建新的用户组来使用。 mhit 正 Uns W IHS KinwmuMwawi 图 7:用户组管理界面 点击“添加”按钮,弹出如下对话框: Q WO P C 2l 10240.212 ii程畳 印冃田 /唱杠碎: 可 ffllxft: Lenovo ft 主页 用户 =耳 P1B 日倒户 用户组 图 7-1 :创建用户组界面 管理员可以输入
21、系统中还未使用的用户组名,并选择可用队列。 (队列必须事先 创建好,创建详情可以参照章节 241队列管理) 系统初始化配置完成以后,系统内部有一个默认队列: batch.它的 acl_group_enable被设为false.也就意味着它不可以被某一个用户组独占, 所有用户 组的用户都可以访问。因此这里是必选。 在本例中,图示里还有一个队列为管理员事先创建好的队列: queuetestl和 queuetest2 queuetestl的acl_group_enable属性为false,这也就意味着它也不可以 被某一个用户组独占,所有用户组的用户都可以访问。因此该队列是必选的。 queuetest
22、2的acl_group_enable属性为true,这也就意味着管理员可以将该队列分配 给某些特定的用户组使用,该队列并不是所有用户组的用户都可以访问。因此该队 列是可选的。 fr- -S C i ID UB:5CY*ddmin/iJWfgri ykTA8E 下 T 156:40 嗣I W5M7? M KhwiratoiavEi nwi 事弓 70 jjHJ.E 3*tS PffJH轉 | 豪十iim HVKCcrig rhdwnnr 图 7-5 :添加用户组界面期|HV KfrrwuTUbMw-am 砖 Jfl jlHH盼 UMS MWMI 計 rhdww 222修改用户组 管理员在创建完用
23、户组以后, 还可以对用户组进行修改:修改该用户组所能访问的队列的信息 选择该用户组记录前面的选择框,然后点击“编辑”按钮,弹出如下对话框。 VJBTSS W! idnwKaHMgewn ran 图 8-1 :编辑用户组界面 在对队列信息进行修改以后,点击确定按钮,系统开始更新该用户组的队列信息,如下图所示: Lenovo 命主页 工用户 im 1 h | dup 正 1 e derx_grui 童!2 0 图 8-2 :用户组更新界面 等待一段时间后,该用户组更新完成。 :.,*jdmin/Lu?r!grgLpflanagcman1 命1 St Lenovo ft 主页 Jl用户 令4) JX
24、.FSP 見户迴 曰护 3 n aitshB 力EE阵 MFHflKE .W= amui_gqoup 正 1 c defvjiup E Ci jLKweieyrl kncn VX? Jfl jJWWI IMS | Fhdwm- 图 8-3 :用户组更新完成界面 2.2.3删除用户组 管理员在创建用户组以后,还可以将该用户组删除。 选择该用户组记录前面的选择框,然后点击“删除”按钮,弹出如下对话框 图 9-1 :删除用户组界面 点击“确定”按钮,系统开始删除该用户组。 Lenovo A x H;资源 盘 用户 正 1 utuMA fall.Eden 0 h=p 0 queufHEii oaich
25、 HHE*TP5Ea TW闻 Eft FIRWSi 可用讪 H1FH iflOH ji冋网 日护 - C J 10 J44k 21ZJ fl:SOSC/tjdm i n/Istr if g roupt Muiag c rr c n! MSftOt -TA1MJ 用户過. 图 9-3 :用户组删除完成界面图 9-2 :用户组删除界面 等待一段时间后,该用户组删除完成。 - ;r Lenovo 舍主页 s & MHMt 用户過. IRX MPE 可癇 _w 正 L#HuiiKiiiii.hai n 2.2.4创建计费账户 管理员接下来需要创建计费账户,在系统初始化时,已经创建一个计费组 /账户 (
26、默认是default_bill_group )。建议管理员创建新的计费组来使用。 倍 C 2i iO24.2LZ2fl:KC/*.idniiiMwwr!i?di.c.4Junliiii?Mjn-jqwient Lenovo fl 主页 H: ;!用户 W H LtWfi 百 .劉辭Pwl的 巳饰 曰用卷.冠I 勵富.吊 J5 ni 死車事 ia imKdl Hriu wrm I ST a w 254*4 gnu 图 9-1 :添加计费组界面 点击“添加”按钮,可以看到如下对话框: 辛 V U 廿 lDJ40.2LZJfl:9DeCY*jdminAE#ruc:oun1inMjriAgHnont
27、畐 f| xl E9 E 图 9-2 :添加计费组界面 输入系统中还未使用的计费组的名称、费率和初始金额 费率为单位机时所用金额。 若费率为 1,代表这个计费组的任何成员若占用1 个CPU core,时间为1小时,那就要付1块钱。 点击“确定”按钮并等待一些时间,该计费组创建成功 结果如下图所示: JL7JB:!-L-4 ytodminiii.5/acauri1inMjra9HnBni: 图 9-3 :添加计费组界面 图 10-2 :修改费率界面 2.2.5修改费率 选中计费组,点击“修改费率”按钮,可以看到如下对话框: 十 匸 巧 j 10240.21? 28 b i 图 10-1 :修改费
28、率界面 点击“确定”后,如下图示 W0 C7 2) 1024J1212J*:禺朝#4dmiiiABe诃昶HuEiii卿drugem削it 计番组 -S- fi = Lenovo ft 主页 W 0 MleMai Q HP BP 底呷少n jp Lenovo A i im: MdJSU?Jr|H9: IE*9 U Mrl | 聲亍|DH nKtMDma 旳计BHH 图 11-2 :修改费率界面 卓事 Jfi iKRKdi J*iU HMm i ST i* B 54 讣士hchsc - TLTLUB LL 图 12-2 :修改费率界面 2.2.6充值 选中计费组,点击“充值”按钮,可以看到如下对话
29、框: 图 11-1 :充值界面 点击“确定”按钮并等待一段时间后,充值成功,如下图所示: * C 2i 1024.2122flII,1 Lfters?dtc.4Junlini?STUM i! 4-9 M 押 q WHKffl i JET II#VUM kMB| BCdDFT*t4 r 图 13-1 :删除计费组界面 点击“确认”按钮,系统开始删除该计费组,等待一段时间后,该计费组被成功删除。 Li LKQ f- C _h 1D24O.2L7.2B:!-zfi/oDDun1ingkl.ragcfncni: 鼻弓 J a j W.K 4 HiS ROHM | 需-t livn hl! CfrAig
30、 DidwmKr 2.2.9创建用户 管理员接下来可以创建用户了。在初始化时,已经创建一个管理员用户(用户 名默认是 hpcadmin)。 协 C h 10240.21? 2fl:S:W*odiiiii!/uwn?UMJiAirMqt-intJi 心i*员 E Lenovo fl 主页 H: fflp W & NRiKfi ISRK4 押 PMH i ST i* g u 图 14-1 :创建用户界面 点击“添加”按钮,可以看到如下图示: 2 UCO & 二 10 囚0.21?” iP/*.ddniiiiiwi/uM!nMjnjrin-erM demo*nipr tcni W z 夕 3 sie
31、 fl. irtfiF离开厨 正!W dw*mnr 图 14-2 :创建用户界面 输入系统中还未使用的用户名、密码、角色、所属用户组、计费组、电子邮箱 等信息。 点击“确定”按钮后,系统开始创建该用户,该过程需要等待一些时间。 wgrin-ert Lenovo ft 主页 ;1 fiv 益L用户 盅甩 Pffi 用户 H酣 1 4K | M 1 fai计昨 * mnifl ttRIH 近显 近 hPCKfnn 正車 師 如鼻 i_Mi_gnijp Hjiarr.RnB TTJ AflB HdrrfeigiHrbnm .gm *ma Alffl Secijiwjp 如网卯航pcrom anssp
32、內昭 TEFJ.2A5J UV W 砂号 M 砂 i JET i* HKiwaui 图 14-3 :创建用户界面 该用户创建成功后,该用户可以“正常”登录。结果如下图示: -Wi? | 1 th VJl Lenovo 僧主页 冷辺琼 盘用户 E 0 払 iHpffl mp 日曰 a 3 NIAB fflpm ZE* !:? dero imcjiDui defKntpr coo 4:I2:M 上更.T5 图 14-4 :创建用户界面 2.2.10修改用户 管理员可以对用户的各种信息:角色、密码、所属用户组、所属计费组、邮箱 等进行修改。 选择其中某个用户记录前面的单选框,然后点击“编辑”按钮,弹
33、出如下对话 框。 图 15-1 :修改用户界面 在对某些信息进行修改后, 图 15-2 :修改用户界面 点击“确定”按钮,系统开始更新该用户的信息(更新过程中,该用户将无法 登录该系统)。 |F Qi WO 整 ?二幼 240.212 血&朋#視讪|1心盘!1汕!小讥仲割生叶时 R = Lenovo ft : 盅.用户 w O 图 15-3 :用户修改界面 等待一段时间后,该用户状态恢复“正常”。 Q a mg m户馆 LtM 冊 Z 師 *M_OT_SPWP 曲 If uR_bfl_gnijfi Ki5*r.HnBTTJ3TflC KfninQBiTm i:qm * #II EM LtM 电
34、 hpCMlnn 正 ?gi5*T.HriBTTJ5Tn HfrrtigHtTwi mm H.V HrEM rLEjnwp dfftai#_S*_5Fwp WnJOm.tSC CM an 坯;冃阳下严胡理 deiai*_b*_SFWjp 用户 倍 C 2) i024O.21Z 曲鱼曲鼻 id%iii丿 gerMuMnWes 冲HEIF R = Lenovo fl主页 诈阴源 Ji用户 K 图 15-4 :修改用户成功界面 注意:修改用户所属的计费组的时候,需要手动重启调度服务:service maui.d restart 2.2.11删除用户 管理员可以将已有用户进行删除。 选择其中某个用户记
35、录前面的单选框,然后点击“删除”按钮,弹出如下对话 框。 图 16-1 :删除用户界面 点击“确定”按钮,系统将开始删除该用户(删除过程中,该用户将无法登录 该系统)。 JL?.2a:S0aQ/ ddmin/LrMfu5 nt/nagEmaf rt fi = Lenovo ft 主页 冷辺帝 用户 aniR e Q 日菲 回 E 1313 口 * O npdM 正 HI 0 na E 1洞 IP中断*iR开叽 2 !网泡庄槽 3L 81 艸帶 RE!用户flil . o r List Account,可以看到两个accounts,名字分别为 default_bill_group和demo_bi
36、ll_groupb它们正是我们初始创建和后来通过界面创 建的两个计费账户。 一 一GOW le亡I: art aptitiii rram the naylgati&ni m&HLi an the Iftft u Mm U Wir 叶r Hadirtn- ASDLBI. UllVJillMl Welcome to QiwUlkmF Join ChMnfRj!riM Tr.|rnJ List Project看到如下信息: - C is .viO-J-flO JLJ.ZBLcgi tin/gaktiinilcx o;i GOLb LHt AtCOiintS Mhiyv iFrD9 d* AcCMJM
37、S Create hw AKEUH |_怔 IVHMJTTB HJ*E Dwat Hi虹HtMiiwd Main Tranri wr FkiJlr Unddtis 如 Min rd HMIF- rhFwri|jil i UMiS 山 BWli* MI mi! hum* Minw 32 EM-MJ 1 _tal_3ap TiLia MGracn Tn* AM True 33WS1 n fnM iMEkE T | JUJT -iTi a iMHrhvifM. OrqMlzMtons 查看其详细内容, 可以看到每个project下面的用户也是我们初始创建和后来通过界 面创建的两个用户;下面的节点是机
38、群内的所有节点。 3. 从左边导航栏选择Transaction - List Transaction可以遍历所有的交易记录,包 括账户金额的充改退,作业运行的花费等。 更多详情可以参照以下链接 Note: 若在Gold工具上直接修改账户金额或费率相关参数, LiCO界面上不会反应出其变 化。 2.2.13 问题分析及解决办法 在下列情况下,相关用户操作可能失败: 1. 集群中各服务器节点之间出现网络故障 2. 集群中服务器节点的操作系统上已经有同名用户组、用户被创建 GCiL Prefilter Tran5actlon irr - 1FT llHrt Tin*- T Y- MM &01: En
39、d TbwCTYYT MM DDJ: Jot M: Anwial-1* PrHcd: Uwr: MQCNhfr: Lafccc FswdTLLtaE lEsnrK-t LDJ 3. 集群中各服务器节点的操作系统上的用户组、用户信息不一致。 4. Gold 、Torque 服务未运行 解决办法: 1 保证网络畅通,可以通过 root 账号在所有服务器节点之间实现无密码登录 2 将操作失败的用户组、计费组、用户删除然后重新创建新的用户组、计费组、 用户。 3 联系 Lenovo 售后服务提供技术支持。 2.3 HPC集群管理 HPC集群管理十分复杂,有一部分功能可以通过界面完成,还有很多复杂的操作
40、需 要通过命令行或其他工具完成。 2.3.1查看HPC集群详细信息 点击导航栏上的资源图标按钮,可以看到集群中每一台机器的具体状态,如下图示: 皿I血 刪 时更点 Kl212it mna IS 血 昭3*血 wll 拥 11第5* 13 in H 4 lj 39 IlkLl 丑曲32 lo 4T 壬问 fit” H7-H7I711 IT? 31 H BQ IKBIGn LiGEKaXM 呼 却 VT2SV11 Hffi 11 图 14 :查看机群详细信息界面 信息包括: 节点名:host name 节点状态:空闲,已占用,忙碌或关机。 类别:计算机点,管理节点,登录节点,I/O节点。 管理IP
41、:管理模块IMM的IP地址。 OS IP:节点的IP地址。 CPU核数:每个节点CPU Core的个数。 已用内存/总内存:每个节点已经使用的内存大小/总共拥有的内存大小。 已用存储/总存储: 每个节点已经使用的本地存储/总共拥有的本地存储, 这里指的 是本地存储,而不是并行文件系统存储。 2.3.2 HPC集群的硬件远程管理 1界面管理: 点击机器列表中管理IP链接 全am点 館罄!”占 *!#!叱 e flt聲生 FIX KE MP 03 F dWWQM QA !Q24 21?2M 17ZJ1Q fifH ttnd 初测壬位怪 172 21Q 14 M hj&lHOB 5H3&58MB S
42、A 血 4SC aB Mil M圖亍2 13 131.NA 12 sa 1曲仙 3UCHflJ l M 7-U 71? 11 IIH g BIBUGGfl HIVE 电HI5 EKLH i JC 曾 LMME- C 0JW. 图 15-1 :机群远程管理界面 可以进入Lenovo IMM管理模块界面,进行硬件远程管理,如远程开关机,远程 con sole,硬件配置等操作。 JMITB McucliY And sd lan corlctK,. 1 jrair nMonfl mnq 比.LDI adt cpJi=fhn 5UQ i 01J bWU- 沖 JjRui 祷击kti MH 百卅虹 Gi阳
43、血 Hlaii M frk 删 1. G*TI diriv: tucEifi D& ii n wmffHrtTd OS Srri Htnsai 巒 lamr Jtetna FWEIJ 血FE” . | Lri IS Laki* Sri A*J PTWffJM# 卫 hunU SriVT! QNHW 详情可以参照IMM用户手册 ndmplip lotegrated Management Module IH4T r#hi; FiHAcrd: Wlh4 diiDLf: Kotb: T: + ill* id fc* -P-*- i-SmiBariHi LZIld kBH4 2.命令行管理: 通过ssh
44、等方式登录管理节点的shell,直接通过xCAT工具命令远程管理 以下图示为一些例子: 2.1远程重启节点: 忑口otgmgt * t rQOtmgt -# rpower cOlnOOl boot cOlnOOl: reset *t | 2.2远程查看节点硬件设备asset信息: roatmgt bin # rinv ioOl ioOl icOl ioOl ioOl JLDOI IQQI J.O01 IQQI JLCOl i&Ol JLDOI LLlCC IDOI 101 ID01 tool ID01 ioOl icOl loOl icOl icOl icOl 1001 IQ01 JLOOI
45、1Q01 JLOOI i&Ql JLOOI 1C01 JLOOI iCQl JLOOI Syatem M&nutac匸 UXEE: IBM System Deaaription; IBM Flex System x410 Board DesaEipLlons System Board Mezz Mezz Hczz Mezz Mezz 目亡EW Mezz Mezz Mezz Ep 3 Exp 3 Exp 3 Exp M Ep吟 Board BQ a rd Board Exp 4 Beard Exp 4 Bc&td Exp 四 Board Exp 4 Exp 4 Board MAC Address
46、 3: HAG AddXSS 営: :IBU Icsigned DO : 10 : IBs e6 ; 9C ; 41D Device Hanutact口ire DEL 匸 E: Mon Apx 13:00:00 Parc 桃嘶立:95YS377 4anuf acturex: IBM Serial Fxmber Y150HY39101D FRU WWN WWN Baa rd Serial NoHLb&r !: Mezz Exp Mezz Exp SAS SA5 SAS SA5 SAS SA5 SAS SA5 BP 1 BP 1 BP 1 BP 1 BP 1 BP 1 BP 2 BP 2 Numb
47、ers 9SY2373 li 1口:00 m DO:日0:畳 m 0日: 臥2 :6 2; lO:OO:OO:9O3fa:&d:02sf7 Y013BG2AT028 弓 Bsard 3 IB Deaigned Eevice 勺 Beard Manuraeeure Dare: Board Board Board Board Bofltrd Board Board Board Mcrn Aug 13 13-2 00-Q0 2D12 Part Numbers M-ajiulaeture r t IBM Serial dumber: Y011BG29P0IW ETLD NuHLbers 8SY6246
48、 ;IBM Designied DeTice: Manuaci:ux-Ei Da匚巳:Mon 5ep 10 13:2012 Port Nwiber; 95163 ManuXac匸u工EE: IBM. Bon rd McKiel Nwrabcr; 95Y4553 SAJ SAS 珈 BP BP BP BP 2 Board 2 Board 2 Board 蛊 Bocrd Serial NLUQber: Y011BG29PD56 ERU KuiTibcr; 88Y6246 :IBM Desjigned Device Henufcctiure Hch Sep 1-0 1300:00 2012 DU 1
49、 DIMM 1 DIMM 1 DIMM 1 DIMM 1 PiBLnufacturer: Sautaung :&C-B PC 3-10=6a&e s Week 3S of 2012 Maufaeture SuBtiont D2 Model; M39-3B1KOCHO-YH9 2.3远程查看节点硬件设备log信息: rootiTTirgi: - t recent log cOlnuOl | more cOlnOOl: eOlnOOl: coin.0012 cOlnOOl: cOlnOOl: cOlnOOls cOln.001: aOlnOOl: cOlnOOl: cOlftOOl: cOlnOO
50、l: eOlnOOl: cOlnOOl: eOlnDOl: cOlnOOl: cOlnOOl: COIELOQIS cOlnOOl: cain.001; cOlnOOl: coinooi: cOlnOOl: cOlnOOl: cOlnOOl: cOlnOOl: eOln.001: cOlnOOl: cQinooi: cOlnOOl: cOlnOCH cOlnOOl: cOlnOOl: COlnOOl: cOlnOOls eOlnDOl: cOlnOOl: cOlnDOi: ? cOlnOOl: 07/25/2013 16: :5:34 07/35/SG13 17: !2应 07/25/2013
51、 IB :0tlOSSGIS IS :1 07/25/Z013 IB:3J107/26/2G13 05: :3 07/2C/2013 05 :07/26/2013 05: =007/Jfi/S013 OS! :3s407/26/2Q13 05: ;:207/26/2G13 05: =D07/26/2013 06:0:O07/26/2G13 06: :0:21 07/26/JdlS 068 :cn 07/26/2013 06: ;3油Q7/ie/SG13 X: : :07/26/2Q13 OS; ;3:14 QT/26/公 CUM M; :3:33 07/26/ZD13 05 :007/26/2
52、G13 6: :4:09 07/J6/J013 06 07/26/2013 06: ;4:3S07/26/2013 06:5 07/26/2013 06; :S50 3 0! !1! System Firware Progress, Unspecified (Progress) PowerPower Off /Pa- wex Dawn (Host Power Power Unitji PoweE1 Off / Power Down (Host Power Power (Tn.it, Power Off / Power Dawn (Most Power)!= System. Firmware P
53、iogreH3# Unspecified. (Progress) System Firmware Progress, Unspeelfled. (Progress) System. Firmware: Progieas, Unspecified. (Progress) Powr Unit, Power Oft / Power Down (Host Power System. Firmware: Pragieas, Unspecified (Progress) Power- ffn.it J, Pawej: Off / Power Down Power Pawer (Tn.it;.P Power
54、 Off / Power Dawn (Host Power= System. Firmware ProgizEimiSj. Unspecified (Progress) Recovered Reedvered System Firmware Procfreas, Unsp-e-cir丄m (Prc-aress) Power UnitP Power Off / Powei Dawn (Host Power Power Unit, Power Oil / Power Down (Host Power - Recovered Systeni Firmware Progiess, System. Fi
55、rmware Progress Unspecified nspeclfled Power ITnlc, Power Off / Power Dowi (Host Power Power Quit r Power Off / Pcwez Dawn 徂口 3:匸 Power ) Fewer Unit, Power orr / Power Down (Host Power) Power ETnit Power Off / Pcwex Dawn (Host Power Power power Off / Power Down (Host Power System Firmware Progreflr
56、System. Firmware PiogieBS, Unspecified Unspecified (Progress) (pragreas) (Progress) (Progress) Recovered System. Firmware Prdgreas, Unspecified (Progress) System Firmware ProgreHS Unspecified (Progress) Power Unit, Power Off / Power DOWL (Host Power Pawez Unitr Power Off / Pawei Dawn (Host Power 二 R
57、ecovered Syscem Flrware Progress, Unspeciried (Progress) Power ETn.itf Power Off / Pawex Dawn (區口耳七 Power Power tTnltji Pcwgr Off / Power Down (tiot Power - Recovered System Fixuiware Pragicss, Unpecifled (Progress) 更多命令用法可以参照以下链接: 2.4 作业调度管理 LiCO 用户界面提供了文件的上传,作业提交,取消,重新运行,删除等作业的生 命周期操作。更多详情可以参照 Lenovo Intelligent Computing Orchestration用户 手册。 若管理员需要更为复杂的调度管理操作,需要通过命令行的方式完成。 2.4.1 队列管理 队列管理包括查看队列、创建队列和修改队列。 LiCO 没有提供界面来对队列进行管理,用户需要登 录到管理节点,通过调度器 torque 的命令行对队列进行管理。 - 查看队列: 使用 torque 命令查看已有队列 rootmgt /# qmgr - c “ p s ” - 创建队列: 1. 使用 torque 命令创建了一个队列 test
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水电安装维修活动方案
- 桂平市广场五四活动方案
- 检察院整治活动方案
- 河北农大活动社团活动方案
- 气焊工比武活动方案
- 校长走进课堂活动方案
- 汉字拼凑游戏活动方案
- 汽车国庆活动策划方案
- 棋道育人活动方案
- 森林昆虫聚会活动方案
- 小组工作教案
- GB/T 21671-2018基于以太网技术的局域网(LAN)系统验收测试方法
- GB/T 11177-1989无机胶粘剂套接压缩剪切强度试验方法
- 钴领域:华友钴业企业组织结构及部门职责
- 内容参考zipc教程
- FZ/T 43022-2011莨绸工艺饰品
- 基金投资管理系统O32用户手册-股指期货套保系统
- 机械原理课程设计-自动打印机设计说明书
- 冰山模型提出者麦克利兰教授6族胜任力分析模型
- 建设工程消防设计审查申报表
- 江西省中考语文备考及答题技巧——语文考点及答题策略-人教版初中九年级全册语文素材
评论
0/150
提交评论