Linux系统管理和作业提交_第1页
Linux系统管理和作业提交_第2页
Linux系统管理和作业提交_第3页
Linux系统管理和作业提交_第4页
Linux系统管理和作业提交_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计算决定未来Linux基础培训巩固作业提交2014年12月14日计算决定未来1.对本文档的任何使用都被视为完全理解并接受本文档列举的所有法律条款。2.本文档的所有权利归作者所有,作者保留所有权利。3.未经作者书面同意,禁止任何形式的商业使用。商业使用形式包括但不限于出版、复制、传播、展示、引用、编辑。4.本文档允许以学术研究、技术交流为目的使用。复制、传播过程中不得对本文档作任何增减编辑,引用时需注明出处。5.实施任何侵权行为的法人或自然人都必须向作者支付赔偿金,赔偿金计算方法为: 赔偿金 = 涉案人次涉案时长(天)涉案文档份数受众人次100元人民币,涉案人次、涉案时长、涉案文档份数、受众人次

2、小于1时,按1计算。6.对举报侵权行为、提供有价值证据的自然人或法人,作者承诺奖励案件实际赔偿金的50%.7.涉及本文档的法律纠纷由作者所在地法院裁决。8.本文档所列举法律条款的最终解释权归作者所有。法律条款计算决定未来培训目的n 巩固Linux操作系统基本使用n 了解Linux系统常用管理n 掌握作业提交技能计算决定未来培训结构第一部分 Linux基础巩固第二部 Linux常用管理第三部分 作业提交计算决定未来Linux基础回顾计算决定未来磁盘分区/根目录 /root 超级用户主目录 /bin基本命令/bootkernel 和boot配置文件 /etc各种配置文件/usr用户程序 /opt-

3、 附加的应用软件包/home用户目录 /mnt- 设备/文件系统挂载点/tmp临时文件/var可变信息区(file spool,logs,requests,mail,etc.)/proc进程信息 /dev设备 /sbin系统管理员执行程序 /lib- 基本的共享库和核心模块计算决定未来Linux常用管理第一章 Linux系统的用户权限管理第二章 Linux系统的进程管理第三章 Linux系统的网络配置2022-3-199/101Linux操作系统管理n 用户(user)的概念 Linux 是真正意义上的多用户操作系统,Linux系统中可建若干用户(user),在Linux系统中的一些用户是用来

4、完成特定任务的。n 用户组(group)的概念用户组(group)就是具有相同特征的用户(user)的集合体;比如有时要让多个用户具有相同的权限,比如查看、修改某一文件或执行某个命令,这时需要用户组,把用户都定义到同一用户组,通过修改文件或目录的权限,让用户组具有一定的操作权限,这样用户组下的用户对该文件或目录都具有相同的权限,这是通过定义组和修改文件的权限来实现的;n 用户和用户组的对应关系是:一对一、多对一、一对多或多对多 一对一:某个用户可以是某个组的唯一成员;多对一:多个用户可以是某个唯一的组的成员,不归属其它用户组; 一对多:某个用户可以是多个用户组的成员; 多对多:多个用户对应多个

5、用户组,并且几个用户可以是归属相同的组;其实多对多的关系是前面三条的扩展;理解了上面的三条,这条也能理解Linux系统用户和组的概念2022-3-1910/101Linux操作系统管理n管理用户(user)的工具或命令useradd :添加用户adduser :添加用户userdel :删除用户passwd :为用户设置密码usermod :修改用户命令,可以通过usermod 来修改登录名、用户的家目录等pwconv :同步用户信息,从/etc/passwd 到/etc/shadowpwck :校验用户配置文件/etc/passwd 和/etc/shadow 是否合法或完整;pwunconv

6、 :pwcov 的立逆向操作,从/etc/shadow和 /etc/passwd 创建/etc/passwd ;finger :查看用户信息工具id :查看用户的UID、GID及所归属的用户组chfn :更改用户信息工具su :用户切换工具sudo :通过另一个用户来执行命令;但需通过visudo 编辑/etc/sudoers来实现;visudo :编辑 /etc/sudoers 的命令sudoedit :和visudo 功能差不多Linux系统用户管理的命令2022-3-1911/101Linux操作系统管理n 管理用户组(group)的工具或命令groupadd :添加用户组;groupd

7、el :删除用户组;groupmod :修改用户组信息;groups :显示用户所属的用户组;grpck/grpconv :通过/etc/group和/etc/gshadow 的文件内容来同步或创建/etc/gshadow ,如果/etc/gshadow 不存在则创建;grpunconv :通过/etc/group 和/etc/gshadow 文件内容来同步或创建/etc/group,然后删除gshadow文件。Linux系统用户组管理的命令2022-3-1912/101Linux操作系统管理n 添加test用户,该用户属于workgroup组添加组:#groupadd u 1000 work

8、group添加用户:#useradd u 1000 g 1000 d /home/test s /bin/bash test若系统为suse,则要在添加用户时生成用户目录,需要加-m参数#useradd u 1000 g 1000 m /home/test s /bin/bash testn 删除test用户 #userdel test #rm rf /home/testLinux系统用户管理举例2022-3-1913/101Linux操作系统管理Linux进程管理 对于Linux进程的管理,是通过进程管理工具实现的,比如:ps、topkill、killallpgrep2022-3-1914/

9、101Linux操作系统管理2.2.1 ps aux 或lax输出的解释 USER 进程的属主; PID 进程的ID; PPID 父进程的ID;%CPU 进程占用的CPU百分比;%MEM 占用内存的百分比; NI 进程的NICE值,数值大,表示较少占用CPU时间; VSZ 进程虚拟大小; RSS 驻留中页的数量; TTY 终端IDWCHAN 正在等待的进程资源;START 启动进程的时间; TIME 进程消耗CPU的时间;COMMAND 命令的名称和参数; 2022-3-1915/101Linux操作系统管理2.2.1 ps aux显示的进程状态STAT 进程状态 D Uninterrupti

10、ble sleep (usually IO) R 正在运行可中在队列中可过行的; S 处于休眠状态;T 停止或被追踪; W 进入内存交换(从内核2.6开始无效); X 死掉的进程(从来没见过); Z 僵尸进程; 优先级高的进程 N 优先级较低的进程L 有些页被锁进内存; s 进程的领导者(在它之下有子进程);l is multi-threaded (using CLONE_THREAD, like NPTL pthreads do) + 位于后台的进程组; WCHAN 正在等待的进程资源; START 启动进程的时间; TIME 进程消耗CPU的时间; COMMAND 命令的名称和参数。202

11、2-3-1916/101Linux操作系统管理3.1 Linux网络配置的相关文件/etc/modprobe.conf 该文件定义了网卡的型号,如: alias eth1 forcedeth alias eth0 forcedeth /etc/sysconfig/networking-scripts/ifcfg-ethX 该文件设置网络的IP地址、DNS及网关 DEVICE=eth0 #设备名字 ONBOOT=yes #系统启动过程中,网络是否启动 BOOTPROTO=static #网络启动是以静态的获得IP还是动态(DHCP)获得IP IPADDR=11.11.11.49 #IP地址 NE

12、TMASK=255.0.0.0 #子网掩码 NAMESERVER=IP #设置DNS对应的IP GATEWAY=IP #设置网关对应的IP/etc/sysconfig/network 该文件设置系统名字/etc/sysconfig/static-routes 该文件设置系统的静态路由 any net 192.168.0.0/24 gw 192.168.1.62022-3-1917/101Linux操作系统管理3.2 网络启动命令 配置好网络的相关文件后,进行网络启动: /etc/init.d/network restart ifconfig eth0 down = ifdown eth0 if

13、config eth0 up = ifup eth0 ifconfig eth0:0 192.168.0.1 netmask 255.0.0.0 网卡绑定第二个IP,临时生效2022-3-1918/101Linux操作系统管理计算决定未来作业提交第一章 PBS作业提交第二章 Gridview作业提交2022-3-1919/101Linux操作系统管理1.准备:编写描述改作业的脚本,包括作业名,需要的资源等。2.提交:使用qsub命令将该作业提交给PBS服务器3.排队:服务器将该任务排入适当的队列4.调度:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。5.执行:当条件满足时,作业被

14、发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。6.查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。7.查看结果:使用文本编辑软件vi或者系统命令cat, less等查看输出及错误信息显示。PBS作业提交步骤p 在PBS系统中,用户使用 qsub 命令提交用户程序。用户运行程序的命令及PBS环境变量设置组成PBS作业脚本,作业脚本使用如下格式提交到PBS系统运行:qsub qsub -N test.vasp -l nodes=4:ppn=2 -q de

15、faults PBS作业提交基本命令p 本质是一个SHELL脚本p 注释以“#”开头p PBS运行参数,以“#PBS”开头p 可以直接调用SHELL命令和系统命令#PBS -N vasp#PBS -l nodes=1:ppn=1#PBS -l walltime=12:00:00#PBS -q highcd /home/test/work./test.exePBS作业脚本运运 行行 参参 数数说说 明明-a 向PBS系统指定作业运行的开始时间。作业运行时间格式为: CCYYMMDDhhmm.SS-A 使用不同的用户来提交作业,缺省使用当前用户名-o -e 该参数指定标准错误输出的位置,缺省的情况

16、下,PBS系统把标准输出和标准错误输出放在用户qsub命令提交作业的目录下。标准错误输出:.o标准错误输出:.e路径使用如下格式标准: :-N 指定提交的作业名-q 指定作业提交的目标队列,其中目标队列可以是目标队列、目标节点名或者是目标节点上的队列。如果目标队列是一个路由队列,那么服务器可能把作业路由到新的队列中。如果该参数没有指定,命令qsub会把作业脚本提交到缺省的队列中。-l 该参数指定作业脚本申请的PBS系统资源列表。申请资源列表使用如下格式: =,资源名=, .例如作业希望申请在双路节点上申请5个CPU资源的情况,则可以在脚本中如下:#PBS l nodes=2:ppn=2+1:p

17、pn=1PBS运行参数在 PBS 脚本和 qsub 命令行中均有效,qsub命令行参数的优先级更高变变 量量 名名说说 明明登陆登陆SHELL继承来的变量继承来的变量包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。$PBS_O_HOSTqsub提交的节点名称$PBS_O_QUEUEqsub提交的作业的最初队列名称$PBS_O_WORKDIRqsub提交的作业的绝对路径$PBS_JOBID作业被PBS系统指定的作业号$PBS_JOBNAME用户指定的作业名,可以在作业提交的时候用qsub N 指定,或者在PBS脚本中加入#PBS N 。$PBS_NOD

18、EFILEPBS系统指定的作业运行的节点名。该变量在并行机和机群中使用。当在PBS脚本中用#PBS l nodes=2:ppn=2指定程序运行的节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS系统指定的作业运行的节点名。比如:#PBS l nodes=2:ppn=2mpirun np 4 machinefile $PBS_NODEFILE $PBS_QUEUEPBS脚本在执行时的队列名PBS的环境变量# 这是一个串行作业脚本的例子#PBS -N test#PBS -l nodes=1:ppn=1cd $HOME/test/./a.out $HOME/result/a.result

19、# 这是一个并行作业脚本的例子#PBS -N vasp_job#PBS -l nodes=2:ppn=8#PBS -q lowecho This jobs is $PBS_JOBID$PBS_QUEUE cd $PBS_O_WORKDIRmpirun -np 16 -machinefile $PBS_NODEFILE ./vaspPBS脚本举例PBS脚本举例(续1)p 有时在PBS脚本中,需要对PBS环境变量的内容进行改造p 比如,$PBS_NODEFILE,该文件内容格式为:node1node1node2node2p 对于一般MPI程序,可直接将 $PBS_NODEFILE 作为 MPI 的

20、”-machinefile”参数,如上例所示p 而一些软件有特殊的节点指定格式,比如ANSYS的命令行参数格式为: ansys121 -dis -machines node1:2:node2:2 -i test.inp -o test.logp 这时我们可以对 $PBS_NODEFILE 进行字符处理,得到需要的格式# 这是一个ANSYS并行作业的例子#PBS -N ansys_job#PBS -l nodes=2:ppn=8#PBS -q lowINPUTFILE=test.inpOUTPUTFILE=test.loghosts=cat $PBS_NODEFILE | uniq -c | a

21、wk print $2:$1 | tr n : | sed s/:$/cd $PBS_O_WORKDIRansys121 -dis -machines $hosts -i $INPUTFILE -o $OUTPUTFILEPBS脚本举例(续2)2022-3-1927/101Linux操作系统管理#!/bin/bash#PBS -N jobname#PBS -l nodes=2:ppn=8cat echo $PBS_NODEFILE $HOME/$PBS_JOBID.nodesfor node in cat $HOME/$PBS_JOBID.nodes do ssh $node mkdir /t

22、mp/$PBS_JOBID ssh $node cp -rf $PBS_O_WORKDIR/* /tmp/$PBS_JOBID/ donecd /tmp/$PBS_JOBIDmpirun -np 16 -machinefile $PBS_NODEFILE $HOME/bin/vaspcp -rf /tmp/$PBS_JOBID/* $PBS_O_WORKDIR/for node in cat $HOME/$PBS_JOBID.nodes do ssh $node rm -rf /tmp/$PBS_JOBID donerm $HOME/$PBS_JOBID.nodes一个复杂的PBS脚本# 这是

23、一个并行作业脚本的例子#PBS -N vasp.Hg#PBS -j oe#PBS -l nodes=2:ppn=12:amd#PBS -q lowecho This jobs is $PBS_JOBID$PBS_QUEUE NP=cat $PBS_NODEFILE | wc -lcd $PBS_O_WORKDIRmpirun -np $NP -machinefile $PBS_NODEFILE ./vasp#PBS -l nodes=2:ppn=4:amd:chem#PBS -l nodes=1:ppn=8:chem+1:ppn=8:bio#PBS -l nodes=node1:ppn=8+n

24、ode2:ppn=8指定节点特性2022-3-1929/101Linux操作系统管理作业提交后,会生成一个作业号,如:dawningnode1 $ qsub test.pbs93.node1查看集群作业运行状态:dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs test 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default作业状态说明:E:退出Q:排队H :挂起R :运行

25、C:结束查询作业状态2022-3-1930/101Linux操作系统管理dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default查询某个作业运行状态:qstat 93.node1 (或者 qstat 93)显示作业运行在哪些节点上:qstat -n 93.node1 显示作业运行详细信息:qstat -f 93.

26、node1 查询作业状态(续)2022-3-1931/101Linux操作系统管理dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q defaultqdel 93.node1取消删除作业注:用户只能删除自己的作业,管理员可以删除所有用户作业2022-3-1932/101Linux操作系统管理dawningnode1 $ q

27、stat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default挂起作业:qhold 111.node1取消作业挂起qrls 111.node1作业挂起及取消2022-3-1933/101Linux操作系统管理dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node

28、1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default更改作业运行队列:qmove high 111.node1更改作业资源属性:qalter -l walltime=10:00:00 111.node1更改作业2022-3-1934/101Linux操作系统管理dawningnode1 $ qstat Job id Name User Time Use S Queue- - - - - -93.node1 test.pbs zhaocs 0 R default95.node1 vasp.Hg vasp 0 E default111.node1 structure amber 0 Q default112.node1 gaussian gauss 0 Q default交换两个作业的排队顺序:qorder 111.node1 112.node1daw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论