




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、联想智能超算平台V2.1管理员手手册20155年9月联想企业业级业务务部门ssysttem x解决决方案研研发中心心TOC o 1-2 u前言 PAGEREF _Toc2467 41. 产产品简介介 PAGEREF _Toc17146 51.1 运行环环境 PAGEREF _Toc31968 51.2 名词解解释 PAGEREF _Toc11745 52. 使使用说明明 PAGEREF _Toc3443 72.1 登陆管管理员界界面 PAGEREF _Toc10992 72.1.1 切切换到用用户态界界面 PAGEREF _Toc8718 82.1.2 查查看集群群基本状状态 PAGEREF
2、_Toc354 1002.1.3 查查看机群群详细监监控信息息 PAGEREF _Toc15118 112.1.4 查查看机群群报警信息息 PAGEREF _Toc22019 122.2 用户/账户管管理 PAGEREF _Toc100 1332.2.1 创创建用户户组 PAGEREF _Toc22005 1552.2.2 修修改用户户组 PAGEREF _Toc17368 1992.2.3 删删除用户户组 PAGEREF _Toc10333 2112.2.4 创创建计费费账户 PAGEREF _Toc17010 2232.2.5 修修改费率率 PAGEREF _Toc26297 252.2.
3、6 充充值 PAGEREF _Toc1540 2662.2.7 扣扣款 PAGEREF _Toc6322 2772.2.8 删删除计费费组 PAGEREF _Toc4140 2882.2.9 创创建用户户 PAGEREF _Toc22432 302.2.10 修改用用户 PAGEREF _Toc588 3332.2.11 删除用用户 PAGEREF _Toc7970 3662.2.12 查看更更详细账账户记录录 PAGEREF _Toc21056 382.2.13 问题分分析及解解决办法法 PAGEREF _Toc15219 412.3 HPCC集群管管理 PAGEREF _Toc23013
4、4222.3.1 查查看HPPC集群群详细信信息 PAGEREF _Toc2913 4222.3.2 HHPC集集群的硬硬件远程程管理 PAGEREF _Toc16295 4432.4 作业调调度管理理 PAGEREF _Toc15126 472.4.1 队队列管理理 PAGEREF _Toc26802 472.4.2 作作业管理理 PAGEREF _Toc1557 482.4.3 作作业策略略管理 PAGEREF _Toc27002 4483. 注注意事项项 PAGEREF _Toc16910 493.1 系统重重启 PAGEREF _Toc20408 4993.1.1 IIO节点点正常工工
5、作的时时候,管管理节点点重启 PAGEREF _Toc16767 5503.1.2 IIO节点点正常工工作的时时候,计计算节点点重启 PAGEREF _Toc14600 5513.1.3 IIO节点点正常工工作的时时候,登登录节点点重启 PAGEREF _Toc21568 5523.1.4 IIO节点点重启 PAGEREF _Toc978 5533.1.5 整整个集群群重启 PAGEREF _Toc7518 5543.2 mpii程序的的安装位位置 PAGEREF _Toc5157 5553.3 用户目目录的绝绝对路径径 PAGEREF _Toc28923 553.4 管理员员发布公公告和修修
6、改管理理员联系系信息 PAGEREF _Toc13477 555前言本文档的的读者需需要具备备一定的的高性能能计算,服务器器集群的的基础知知识,同同时对高高性能计计算中的的并行开开发,作作业调度度有一定定的了解解。产品简介介联想智能能超算平平台是HPCC基础管理理软件,其其功能包包括有计计算机集集群管理理,集群群监控,作业调调度管理理,集群群用户管管理,账账户管理理,文件件系统管管理等。本软件基基于BSS结构,用户可可以通过过浏览器器轻松登登陆到管管理界面面进行操操作,也也可以通通过其他他Linnux sheell工工具登陆陆到集群群登陆节节点进行行命令行行操作。运行环境境服务器:联想syys
7、teem xx服务器器系列。操作系统统:CenttOS 6.55 或RRedHHat 6.55客户端:硬件:CCPU主主频2.0GHHz以上上,内存存1GBB以上。浏览器:推荐Fiireffox 或 CChroome。显示分辨辨率:推推荐12280*8000名词解释释计算机集集群: 包含管理理节点、计算节节点等在在内的资资源的统统称。作业: 完成特特定任务务的命令令序列。作业状态态:是指指作业在在调度系系统中的的状态标标识,包包括等待待、排队队、保留留、运行行、挂起起、结束束。节点状态态:是指指节点的的状态标标识,包包括空闲闲、已占占用、繁繁忙、停停机。作业调度度系统: 负责责接收、分发、执行
8、、记账作作业的分分布式程程序。管理节点点: 运行行作业调调度,集集群管理理,用户户计费等等管理程程序的节节点。计算节点点:执行作业业的节点点。用户组:定义了了对资源源的访问问控制策策略,属属于同一一个用户户组的所所有用户户可以访访问相同同的集群群资源。计费组:也是计计费账户户,可以以一个用用户使用用也可以以几个用用户共享享使用。用来对对集群使使用者进进行计费费,结算算等操作作。.使用说明明登陆管理理员界面面打开浏览览器输入入集群管管理节点点的IPP地址,端口为为80880如: HYPERLINK 25:8080 htttp:/100.2440.2212.28:880800(客户户端必须须可以直
9、直接访问问集群管管理节点点)。并看到如如下示图图:图1: 登陆界界面用户名的的类别分分为两种种:管理理员和操操作员。管理员员可以看看到整个个计算机机集群和和所有用用户的信信息,而而操作员员只能看看到自己己有权限限访问的的资源和和自己的的用户信信息。如果是管管理员用用户,输输入用户户名和密密码后,用鼠标标点击登登陆按钮钮可以看看到管理理员界面面下图:图2: 管理员员主界面面切换到用用户态界界面管理员可可以任意意切换到到用户界界面,并并且像用用户一样样使用HHPC集集群。用鼠标点点击右上上角其他他链接,继而点点击切换换到用户户界面:图3: 切换到到用户界界面接下来就就可以看看到用户户界面:图4:用
10、用户界面面查看集群群基本状状态在管理员员主页上上,还可可以看到到整个集集群的基基本状态态:最顶上一一行的导导航栏显显示了三三个按钮钮图标:主页:当当前页,显示集集群基本本信息。资源:显显示HPPC集群群所有机机器的详详细信息息页。详详情见22.3用户: 用户管管理页,管理员员可以对对用户/组,账账户/费费率做一一些基本本操作。详情见见2.22进入主页页后,可可以看到到以下信信息:m:集群群名字 (注:集群名名字可以以在/ettc/cclussterr.coonf中中通过属属性DOOMAIIN来配配置,如如DOMMAINN=m,但但是集群群名字必必须符合合域名命命名规则则)。调度器:调度器器服务
11、的的状态,绿色代代表调度度器工作作正常,红色代代表调度度器没有有正常工工作。并行文件件系统:并行文文件系统统的状态态,绿色色代表调调并行文文件系统统工作正正常,红红色代表表并行文文件系统统没有正正常工作作。网络吞吐吐:服务务器集群群网络的的吞吐量量,包括括读速率率和写速速率。集群CPPU: 服务器器集群CCPU的的利用率率,包括括已经被被占用的的CPUU核数和和集群总总共具有有的CPPU核数数。集群内存存:服务务器集群群内存的的利用率率,包括括已经被被占用的的内存大大小和集集群总共共具有的的内存大大小。集群存储储:服务务器集群群存储空空间的利利用率,包括已已经被占占用的存存储空间间大小和和集群
12、总总共具有有的存储储空间大大小。作业:显显示作业业的历史史信息,包括运运行中的的作业数数,等待待中的作作业数和和结束的的作业数数。管理理员可以以选择显显示全部部队列的的作业数数,也可可以指定定显示某某个队列列的作业业数。时时间上可可以选择择分别显显示:过过去一小小时,过过去一天天,过去去七天,过去三三十天的的作业数数。类型型上可以以选择分分别显示示未完成成和已完完成的作作业数。节点占用用情况:显示计计算机集集群中节节点占用用的情况况:包括括忙碌,占用,空闲和和关机。 判断断这些节节点占用用情况的的主要依依据是各各个节点点的平均均每分钟钟的进程程负载量量。查看机群群详细监监控信息息用鼠标点点击右
13、上上角其他他链接,继而点点击查看看详细监监控信息息: 图5-11:查看看详细监监控信息息用户界界面图5-22:查看看详细监监控信息息用户界界面查看机群群报警信息息如果集群群中部署署了报警警模块,用鼠标标点击右右上角其其他链接接,继而而点击查查看报警警信息,查看NNagiios报报警信息息图6:查查看报警警信息用户/账账户管理理用户管理理中有三三个概念念:用户户,用户户组和计计费组(也称计计费账户户)。用户组:一组HHPC集集群用户户,他们们具有相相同的队队列访问问权限。它的属性性如下:组名:用用户组的的名字。用户组的的状态:包括有有“正常”、“创建中中”、“更新中中”、“删除中中”和“无效”。
14、用户数:所包含含的用户户数目。可用队列列:可以以访问的的队列的的名称(队列必必须事先先创建好好,创建建详情可可以参照照章节22.4.1 队队列管理理)。最近更新新:最近近一次信信息更新新的时间间以及相相关的消消息。计费组(计费账账户):计费账账号,可可以被一一个用户户独自使使用,也也可以被被多个用用户共享享使用。当计费费组成员员在集群群中运行行应用程程序时,所属计计费组账账户中的的费用会会根据其其运行的的应用程程序占用用的CPPU核数数和时间间进行扣扣除。它的属性性如下:组名:计计费组名名字。费率:单单位机时时所用金金额。若若费率为为1,代代表这个个计费组组的任何何成员若若占用11个CPPU
15、ccoree,时间间为1小小时,那那就要付付1块钱钱。已用机时时:成员员的应用用程序一一共占用用了多少少:CPPU(核核数) * 时时间(秒秒)。已用金额额:该计计费组的的成员总总共所花花费的金金额。由由于费率率可以根根据需要要调整变变化,当当前已用用金额可可能不等等于当前前已用机机时*当当前费率率。剩余金额额:该计计费组里里还剩下下的金额额。最近更新新:最近近一次更更新的时时间以及及相关的的消息。用户:HHPC机机群的个个体用户户。它的属性性如下:角色:管管理员或或操作员员。管理理员可以以看到整整个集群群的状况况。操作作员只能能看到和和自己相相关的队队列,作作业的状状况。用户名:用户名名字。
16、用户组:所属用用户组。计费组:所属计计费组。密码:用用户密码码。用户的状状态:包包括有“正常”、“创建中中”、“更新中中”、“删除中中”和“无效”。电子邮箱箱:用户户电子邮邮箱。最近登录录时间:用户最最近一次次登录的的时间。最近更新新:对该该用户的的最近一一次信息息更新的的时间以以及相关关的消息息。创建用户户组管理员首首先需要要创建用用户组,在系统统初始化化时,系系统已经经创建一一个用户户组(默默认是ddefaaultt_oss_grroupp)。建建议管理理员创建建新的用用户组来来使用。图7:用用户组管管理界面面点击“添添加”按钮,弹出如如下对话话框:图7-11:创建建用户组组界面管理员可可
17、以输入入系统中中还未使使用的用用户组名名,并选选择可用用队列。(队列列必须事事先创建建好,创创建详情情可以参参照章节节2.44.1 队列管管理)系统初始始化配置置完成以以后,系系统内部部有一个个默认队队列:bbatcch. 它的aacl_grooup_enaablee被设为为fallse. 也就就意味着着它不可可以被某某一个用用户组独独占,所所有用户户组的用用户都可可以访问问。因此此这里是是必选。在本例中中,图示示里还有有一个队队列为管管理员事事先创建建好的队队列:qqueuueteest11和quueueetesst2。queeuettestt1的aacl_grooup_enaablee属性
18、为为fallse,这也就就意味着着它也不不可以被被某一个个用户组组独占,所有用用户组的的用户都都可以访访问。因因此该队队列是必必选的。queeuettestt2的aacl_grooup_enaablee属性为为truue,这这也就意意味着管管理员可可以将该该队列分分配给某某些特定定的用户户组使用用,该队队列并不不是所有有用户组组的用户户都可以以访问。因此该该队列是是可选的的。图7-22:创建建用户组组界面图7-33:添加加用户组组界面点击“确确定”按钮后,系统开开始创建建该用户户组,结结果如下下图所示示:图7-44:添加加用户组组界面等待一段段时间后后,该用用户组创创建完成成。图7-55:添加
19、加用户组组界面修改用户户组管理员在在创建完完用户组组以后,还可以以对用户户组进行行修改:修改该该用户组组所能访访问的队队列的信信息。选择该用用户组记记录前面面的选择择框,然然后点击击“编辑”按钮,弹出如如下对话话框。图8-11:编辑辑用户组组界面在对队列列信息进进行修改改以后,点击确确定按钮钮,系统统开始更更新该用用户组的的队列信信息,如如下图所所示:图8-22:用户户组更新新界面等待一段段时间后后,该用用户组更更新完成成。图8-33:用户户组更新新完成界界面删除用户户组管理员在在创建用用户组以以后,还还可以将将该用户户组删除除。选择该用用户组记记录前面面的选择择框,然然后点击击“删除”按钮,
20、弹出如如下对话话框。图9-11:删除除用户组组界面点击“确确定”按钮,系统开开始删除除该用户户组。图9-22:用户户组删除除界面等待一段段时间后后,该用用户组删删除完成成。图9-33:用户户组删除除完成界界面创建计费费账户管理员接接下来需需要创建建计费账账户,在在系统初初始化时时,已经经创建一一个计费费组/账账户(默默认是ddefaaultt_biill_grooup)。建议议管理员员创建新新的计费费组来使使用。图9-11:添加加计费组组界面点击“添添加”按钮,可以看看到如下下对话框框:图9-22:添加加计费组组界面输入系统统中还未未使用的的计费组组的名称称、费率率和初始始金额。费率为单单位机
21、时时所用金金额。若若费率为为1,代代表这个个计费组组的任何何成员若若占用11个CPPU ccoree,时间间为1小小时,那那就要付付1块钱钱。点击“确确定”按钮并并等待一一些时间间,该计计费组创创建成功功。结果如下下图所示示:图9-33:添加加计费组组界面修改费率率选中计费费组,点点击“修改费费率”按钮,可以看看到如下下对话框框:图10-1:修修改费率率界面点击“确确定”后,如如下图示示图10-2:修修改费率率界面充值选中计费费组,点点击“充值”按钮,可以看看到如下下对话框框:图11-1:充充值界面面点击“确确定”按钮并并等待一一段时间间后,充充值成功功,如下下图所示示:图11-2:修修改费率
22、率界面扣款选中计费费组,点点击“扣款”按钮,可以看看到如下下对话框框:图12-1:扣扣款界面面点击“确确定”按钮并并等待一一段时间间后,扣扣款成功功,如下下图所示示:图12-2:扣扣款界面面删除计费费组管理员可可以将不不再使用用的计费费组进行行删除。选择该计计费组记记录前面面的选择择框,然然后点击击“删除”按钮,弹出如如下对话话框:图13-1:删删除计费费组界面面点击“确确认”按钮,系统开开始删除除该计费费组,等等待一段段时间后后,该计计费组被被成功删删除。图13-2:删删除计费费组界面面创建用户户管理员接接下来可可以创建建用户了了。在初初始化时时,已经经创建一一个管理理员用户户(用户户名默认
23、认是hppcaddminn)。图14-1:创创建用户户界面点击“添添加”按钮,可以看看到如下下图示:图14-2:创创建用户户界面输入系统统中还未未使用的的用户名名、密码码、角色色、所属属用户组组、计费费组、电电子邮箱箱等信息息。点击“确确定”按钮后,系统开开始创建建该用户户,该过过程需要要等待一一些时间间。图14-3:创创建用户户界面该用户创创建成功功后,该该用户可可以“正常”登录。结果如如下图示示:图14-4:创创建用户户界面修改用户户管理员可可以对用用户的各各种信息息:角色色、密码码、所属属用户组组、所属属计费组组、邮箱箱等进行行修改。选择其中中某个用用户记录录前面的的单选框框,然后后点击
24、“编辑”按钮,弹出如如下对话话框。图15-1:修修改用户户界面在对某些些信息进进行修改改后,图15-2:修修改用户户界面点击“确确定”按钮,系统开开始更新新该用户户的信息息(更新新过程中中,该用用户将无无法登录录该系统统)。图15-3:用用户修改改界面等待一段段时间后后,该用用户状态态恢复“正常”。图15-4:修修改用户户成功界界面注意:修修改用户户所属的的计费组组的时候候,需要要手动重重启调度度服务:serrvicce mmauii.d resstarrt。删除用户户管理员可可以将已已有用户户进行删删除。选择其中中某个用用户记录录前面的的单选框框,然后后点击“删除”按钮,弹出如如下对话话框。
25、图16-1:删删除用户户界面点击“确确定”按钮,系统将将开始删删除该用用户(删删除过程程中,该该用户将将无法登登录该系系统)。图16-2:删删除用户户界面稍等一段段时间,该用户户将从系系统中彻彻底删除除。图16-3:删删除用户户界面查看更详详细账户户记录打开浏览览器,输输入 “htttps:/管管理节点点IP” 后跟跟 “ccgi-binn/goold/inddex.cgii”, 例如 HYPERLINK 25/cgi-bin/gold/index.cgi hhttpps:/100.2440.2212.28/ccgi-binn/goold/inddex.cgii结果如下下图示:输入默认认用户名
26、名/密码码:rooot/Passsw00rd可以得到到下图:从左左边导航航栏选择择Acccounnt - LListt Acccouunt, 可以以看到两两个acccouuntss, 名名字分别别为 ddefaaultt_biill_grooup和和 deemo_billl_ggrouup。它它们正是是我们初初始创建建和后来来通过界界面创建建的两个个计费账账户。查看其详详细内容容,可以以看到它它们所属属的prrojeect也也和账户户重名。accoountt内的数数字相当当于 账账户金额额*36600从左左边导航航栏选择择Proojecct - LListt Prrojeect看看到如下下信息
27、:查看其详详细内容容,可以以看到每每个prrojeect下下面的用用户也是是我们初初始创建建和后来来通过界界面创建建的两个个用户;下面的的节点是是机群内内的所有有节点。3从左左边导航航栏选择择Traansaactiion - Lisst TTrannsacctioon 可可以遍历历所有的的交易记记录,包包括账户户金额的的充改退退,作业业运行的的花费等等。更多详情情可以参参照以下下链接 HYPERLINK /products/open-source/gold/ m/prroduuctss/oppen-souurcee/goold/Notee:若在Goold工工具上直直接修改改账户金金额或费费率相
28、关关参数,LiCCO界面面上不会会反应出出其变化化。问题分析析及解决决办法在下列情情况下,相关用用户操作作可能失失败:集群中各各服务器器节点之之间出现现网络故故障集群中服服务器节节点的操操作系统统上已经经有同名名用户组组、用户户被创建建集群中各各服务器器节点的的操作系系统上的的用户组组、用户户信息不不一致。Goldd、Toorquue 服服务未运运行解决办法法:1 保证证网络畅畅通,可可以通过过rooot账号号在所有有服务器器节点之之间实现现无密码码登录2 将操操作失败败的用户户组、计计费组、用户删删除然后后重新创创建新的的用户组组、计费费组、用用户。3 联系系Lennovoo售后服服务提供供
29、技术支支持。HPC集集群管理理HPC集集群管理理十分复复杂,有有一部分分功能可可以通过过界面完完成,还还有很多多复杂的的操作需需要通过过命令行行或其他他工具完完成。查看HPPC集群群详细信信息点击导航航栏上的的资源图标标按钮, 可以以看到集集群中每每一台机机器的具具体状态态,如下下图示:图14:查看机机群详细细信息界界面信息包括括:节点名:hosstnaame节点状态态:空闲闲,已占占用,忙忙碌或关关机。类别:计计算机点点,管理理节点,登录节节点,II/O节节点。管理IPP:管理理模块IIMM的的IP地地址。OS IIP:节节点的IIP地址址。CPU 核数:每个节节点CPPU CCoree的个
30、数数。已用内存存/总内内存:每每个节点点已经使使用的内内存大小小/总共共拥有的的内存大大小。已用存储储/总存存储:每每个节点点已经使使用的本本地存储储/总共共拥有的的本地存存储,这这里指的的是本地地存储,而不是是并行文文件系统统存储。HPC集集群的硬硬件远程程管理1界面面管理:点击机机器列表表中管理理IP链链接图15-1:机机群远程程管理界界面可以进入入Lennovoo IMMM 管管理模块块界面,进行硬硬件远程程管理,如远程程开关机机,远程程 coonsoole, 硬件件配置等等操作。图15-2:机机群远程程管理界界面输入用户户名/密密码后 (出厂厂设置为为:USSERIID/PPASSSW
31、0RRD), 进入入IMMM管理界界面。详情可以以参照IIMM用用户手册册 HYPERLINK /support/entry/portal/docdisplay?lndocid=MIGR-5079770 httpps:/wwww-9947.ibmm.coom/ssuppportt/enntryy/poortaal/ddocddispplayy?lnndoccid=MIGGR-55079977002命令令行管理理:通过过sshh等方式式登录管管理节点点的shhelll, 直直接通过过xCAAT工具具命令远远程管理理。以下图示示为一些些例子:2.1 远程重重启节点点:2.2 远程查查看节点点硬件设
32、设备asssett信息:2.3 远程查查看节点点硬件设设备loog信息息:更多命令令用法可可以参照照以下链链接: HYPERLINK /p/xcat/wiki/XCAT_Commands/ hhttpp:/t/p/xcaat/wwikii/XCCAT_Commmannds/作业调度度管理LiCOO用户界界面提供供了文件件的上传传,作业业提交,取消,重新运运行,删删除等作作业的生生命周期期操作。更多详详情可以以参照LLenoovo Inttellligeent Commputtingg Orrcheestrratiion用用户手册册。若管理员员需要更更为复杂杂的调度度管理操操作,需需要通过过命令
33、行行的方式式完成。队列管理理队列管理理包括查查看队列列、创建建队列和和修改队队列。LLiCOO没有提提供界面面来对队队列进行行管理,用户需需要登录录到管理理节点,通过调调度器ttorqque的的命令行行对队列列进行管管理。- 查查看队列列:使用toorquue命令令查看已已有队列列roootmmgt /# qmmgr -c “p s”- 创创建队列列:1. 使使用toorquue命令令创建了了一个队队列teest:roootmmgt /# qmmgr -c crreatte qqueuue ttesttroootmmgt /# qmmgr -c seet qqueuue ttestt quue
34、uee_tyype = EExeccutiionroootmmgt /# qmmgr -c seet qqueuue ttestt reesouurcees_ddefaaultt.noodess = 1roootmmgt /# qmmgr -c seet qqueuue ttestt reesouurcees_ddefaaultt.waallttimee = 01:00:00roootmmgt /# qmmgr -c seet qqueuue ttestt keeep_commpleetedd = 6000roootmmgt /# qmmgr -c seet qqueuue ttestt en
35、nablled = TTrueeroootmmgt /# qmmgr -c seet qqueuue ttestt sttartted = TTrueeNotee:创建建队列时时keeep_ccomppletted必必须设置置为大于于等于3300.2. 重重启toorquue相关关服务:roootmmgt /# seerviice trqqautthd resstarrtroootmmgt /# seerviice pbss_seerveer rresttarttroootmmgt /# seerviice mauui.dd reestaart3. 运运行下面面命令将将队列同同步到界界面:ro
36、ootmmgt homme# pyythoon /homme/llicoo_2.*/biin/ssyncc.pyy上面步骤骤完成后后,我们们在界面面上就可可以看到到新创建建的队列列了。- 修修改队列列:修改队列列用到的的命令和和创建队队列基本本相同,如下命命令设置置队列中中任务完完成后ttorqque保保留任务务多长时时间,单单位为秒秒。roootmmgt /# qmmgr -c seet qqueuue ttestt keeep_commpleetedd = 5000更多队列列管理相相关命令令请参考考: HYPERLINK /products/open-source/torque/ httt
37、p:/m/prroduuctss/oppen-souurcee/toorquue/作业管理理作业管理理完全可可以在LLiCOO界面完完成,当当然作为为管理员员也可以以登录到到管理节节点,通通过调度度器的命命令查看看和操作作作业:- 查查看作业业状态 roootmgtt /# qqstaat roootmmgt /# qsstattJob ID Naame Useer Tiime Usee S Queeue - 56.mmgt ttestt hppcaddminn 0 RR baatchh - 查查看某一一作业的的详细状状态 roootmmgt /# qsstatt -ff joobidd- 取
38、取消一个个正在排排队或运运行的任任务 roootmmgt /# caanceeljoob jjobiid更过作业业管理相相关命令令请参考考: HYPERLINK /products/open-source/torque/ htttp:/m/prroduuctss/oppen-souurcee/toorquue/注意:如如果用户户通过TTorqque的的命令行行提交了了任务,那么任任务不会会反应在在Licco的界界面上作业策略略管理作业调度度我们使使用的是是软件是是mauui, 默认认策略是是公平策策略,不不建议修修改调度度策略。更多关于于调度策策略的配配置请参参考maaui文文档: HYPER
39、LINK /products/open-source/maui/ hhttpp:/wwww.addapttiveecommputtingg.coom/pprodductts/oopenn-soourcce/mmauii/注意事项项系统重启启假设/hhomee/liico_2.xx/ettc/llusttre.connf的配配置文件件如下:inteerfaace是是ethh1, ssharrediir是/luustrre, fille-ssysttem的的名字是是useerfss,mdds中的的第一台台机器是是io001filee-syysteem uuserrfs innterrfacce e
40、eth11; shhareeddiir /lusstree;dataanett_tyypeEEtheerneetdataanett_hoostnnameemapp ioo01:io001-ddataa,ioo02:io002-ddataa mdds ioo01 devv/sddb ; osss iio022 deev/ssdb IO节点点正常工工作的时时候,管管理节点点重启1. 管管理节点点上ummounnt /lusstree2. 重重启管理理节点3. 管管理节点点重启后后,在管管理节点点上运行行如下命命令:rooot licco2.*/# ccd bbinroootbbin.*/# ./s
41、eerviice_mannageer.ppy reestaart torrqueeroootbbin.*/# ./seerviice_mannageer.ppy reestaart ganngliiaroootbbin.*/# ./seerviice_mannageer.ppy reestaart golld4. 查查看各个个非IOO节点的的lusstree是否已已经moountt,如果果没有,在各个个非IOO节点上上mouunt lusstree, 比比如:mounnt -t llusttre io001-ddataatccp0:/usserffs /lusstree 一个重要要的原则则,在
42、管管理节点点重启前前,一定定要dff -hh先查看看并记录录下机子子当前的的mouunt状状态,重重启后恢恢复到重重启前的的mouunt状状态。IO节点点正常工工作的时时候,计计算节点点重启1. 计计算节点点上ummounnt /lusstree2. 重重启计算算节点3. 计计算节点点重启后后:在计算节节点上用用df -h查看看lusstree文件系系统是否否已经mmounnt上,如果没没有,在在计算节节点运行行如下命命令来mmounnt llusttre 文件系系统:mounnt -t llusttre io001-ddataatccp0:/usserffs /lusstree 一个最重重要
43、的原原则,在在机子重重启前,一定要要df -h先查查看并记记录下机机子当前前的moountt状态,重启后后恢复到到重启前前的moountt状态。4. 在在管理节节点上运运行如下下命令:roootbbin.*/# ./seerviice_mannageer.ppy reestaart torrqueeroootbbin.*/# ./seerviice_mannageer.ppy reestaart ganngliiaIO节点点正常工工作的时时候,登登录节点点重启1. 登登录节点点上ummounnt /lusstree2. 重重启登录录节点3. 登登录节点点重启后后,在登登录节点点上用ddf -h
44、查看看lusstree文件系系统是否否已经mmounnt上,如果没没有,在在计算节节点运行行如下命命令来mmounnt llusttre 文件系系统:mounnt -t llusttre io001-ddataatccp0:/usserffs /lusstree 一个最重重要的原原则,在在机子重重启前,一定要要df -h先查查看并记记录下机机子当前前的moountt状态,重启后后恢复到到重启前前的moountt状态。IO节点点重启- 如如果需要要重启ooss节节点:1 所有有非ioo节点需需要先:umouunt /luustrreoss 节点重重启后:在osss节点用用df -h查查看osst
45、是否否已经mmounnt上,如果没没有,使使用如下下命令来来mouunt:mounnt-ttlusstree/deev/ssdb11 /oost11#sddb1和和ostt1是示示例,应应以实际际环境为为准所有非iio节点点:mounnt -t llusttre io001-ddataatccp0:/usserffs /lusstree- 如如果要重重启mdds节点点所有非iio节点点需要先先:umouunt /luustrre所有osss节点点需要先先:umouunt /osst1mds节节点重启启后:在mdss节点用用df -h查查看mddt是否否已经mmounnt上,如果没没有,使使用如
46、下下命令来来mouunt:mounnt-tlusstree-oacll/deev/ssdb11/mddt1 #sddb1和和mdtt1 是是示例,应以实实际环境境为准所有 ooss节节点:mounnt-ttlusstree/deev/ssdb11 /oost11#sddb1和和ostt1 是示示例,应应以实际际环境为为准所有非iio节点点:mounnt -t llusttre io001-ddataatccp0:/usserffs /lusstree一个最重重要的原原则,在在机子重重启前,一定要要df -h先查查看并记记录下机机子当前前的moountt状态,重启后后恢复到到重启前前的mooun
47、tt状态。如果想要要了解更更过luustrre文件件系统的的相关内内容,请请参考: HYPERLINK /display/PUB/Lustre+2.6 httpps:/wiiki.hpddd.iinteel.ccom/dissplaay/PPUB/Lusstree+2.6 HYPERLINK /display/PUB/Lustre+Development httpps:/wiiki.hpddd.iinteel.ccom/dissplaay/PPUB/Lusstree+Deevellopmmentt整个集群群重启整个集群群重启的的的步骤骤:1重启头头节点1.1 头节点点上ummounnt /lu
48、sstree,1.2 重启头头节点2 重启启IO节节点2.1所所有非IIO节点点上ummounnt /lusstree2.2 IO节节点中的的osss节点上上 ummounnt /ostt*: 先用ddf -h查看看有哪些些ostt是moountt的,然然后ummounnt掉这这些osst2.3 IO 节点中中的mdds节点点上 uumouunt /mddt*:先用ddf -h查看看有哪些些mdtt是moountt的,然然后ummounnt掉这这些mddt2.4 重启 mdss节点2.5 检查 mdss上的mmdt*是否已已经moountt上,如如果没有有手动mmounnt,例例如:mounnt-tlusstree-oacll/deev/ssdb11/mddt1 2.5 重启 osss节点2.6 检查 osss上的oost*是否已已经moountt上,如如果没有有手动mmounnt,例例如:mounnt-tt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业集群托管合同范例
- 2025年中国燃气容积式热水器市场调查研究报告
- 2025年中国涡轮传动角式节流阀市场调查研究报告
- 养老驿站入住合同范例
- 2025年中国树脂缠绕片市场调查研究报告
- 个人代理现货销售合同范例
- 2025年中国塑料门窗三位焊机市场调查研究报告
- 2025年中国可渗透液体碳氮共渗剂市场调查研究报告
- 全款买安置房合同范例
- 兼职会计外聘合同范本
- 2024-2025学年山东省济南市九年级(上)期末语文试卷(含答案)
- 邓宗良《煤油灯》阅读答案
- 2025年皖北卫生职业学院单招职业技能测试题库参考答案
- 2024年广州市公安局招聘交通辅警考试真题
- 随机交易策略(TB版)
- 1.1 锐角三角函数(第1课时) 课件 2024-2025学年北师大版九年级数学下册
- 2025年全国高考体育单招政治时事填空练习50题(含答案)
- 中华人民共和国学前教育法-知识培训
- 2024年计算机二级WPS考试题库380题(含答案)
- T∕CSWSL 002-2018 发酵饲料技术通则
- 《立体构成-线材构成》PPT课件
评论
0/150
提交评论