pbs作业管理系统--曙光
- 格式:ppt
- 大小:572.50 KB
- 文档页数:74
Torque + Maui配置手册之抛砖引玉篇本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。
本文中的涉及的软件版本Torque 版本:2.1.7 maui版本:3.2.6p17。
1. 集群资源管理器Torque1.1.从源代码安装Torque其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。
机群的NFS共享存储位置为/home,所有用户目录都在该目录下。
1.1.1.解压源文件包在共享目录下解压缩torque# tar -zxf torque-2.1.17.tar.gz假设解压的文件夹名字为: /home/dawning/torque-2.1.71.1.2.编译设置#./configure --enable-docs --with-scp --enable-syslog其中,默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。
其余的配置文件将安装在/var/spool/torque下默认情况下,TORQUE不安装管理员手册,这里指定要安装。
默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp.默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。
云南大学高性能计算中心曙光集群系统使用指南1、使用SSH客户端软件用在高性能计算中心申请的用户名和密码登录到集群系统(Windows系统可使用SSHSecureShellClient-3.2.9软件包,下载地址/structure/download Linux系统可直接使用ssh命令登录)。
登录成功后你所在的节点是登录节点,系统会有一些通知信息显示,操作提示符是[username@node34 ~]$。
这个节点是作用户帐号管理,不要在上面运行程序。
2、编译与调试程序请用rsh转到相关作业区节点。
本集群系统共有32个计算节点(每个节点有4个CPU 8G 内存),分为4个作业区。
小作业区small包含4个节点(node1..node4),中型作业区medium包含8个节点(node5..node13),专用作业区long包含8个节点(node13..node20),大作业区large包含12个节点(node21..node32)。
每一个作业区的第一个节点该作业区的服务节点,small为node1,medium为node5,long为node13,large为node21。
例如从登录节点转到一号节点:[hbli@node34 ~]$rsh node1Last login: Mon Aug 28 15:33:16 from node34[hbli@node1 ~]$3、编译链接、运行用户程序串行程序可使用GCC或PGI编译器,并行程序可使用mpicc, mpiCC, mpif77,mpif90进行编译。
以下是一个c使用mpi的例子:/* hello.c *//* MPI sample c program *//* compile "with mpicc -o hello hello" *//* run with "mpirun -np 8 hello" *//* or submit with pbs script "qsub hello.pbs" *//* you can use "qstat" to dislay your job statusa */#include <stdio.h>#include "mpi.h"int main( argc, argv )int argc;char **argv;{int rank, size;MPI_Init( &argc, &argv );MPI_Comm_size( MPI_COMM_WORLD, &size );MPI_Comm_rank( MPI_COMM_WORLD, &rank );printf( "Hello world from process %d of %d\n", rank, size );MPI_Finalize();return 0;}可以用如下命令对上面的程序进行编译:$ [hbli@node1 sample]mpicc –o hello hello.c生成可运行的文件hello,用ls –l 命令可以看到生成的可执行文件:$ [hbli@node1 sample]ls –l-rwxrwxr-x 1 hbli hbli 507375 Oct 10 10:39 hello-rw-r--r-- 1 hbli hbli 532 Jun 20 08:01 hello.c这样就可运行hello 这个程序了。
pbs使用手册PBS(Portable Batch System)是一种用于管理和调度作业的软件系统,广泛应用于高性能计算和云计算环境。
以下是PBS使用手册的简要介绍:1. 作业提交:用户可以使用PBS命令行工具或脚本提交作业。
提交作业时,需要指定作业的名称、脚本文件、执行所需的资源等信息。
作业提交后,PBS会将作业放入队列中等待调度。
2. 作业调度:PBS使用作业调度器来决定作业的执行顺序。
调度器会根据作业的优先级、资源需求和可用资源的情况来选择合适的作业执行。
3. 作业执行:一旦作业被调度器选中,PBS会将作业分配到指定的计算节点上执行。
在作业执行期间,PBS会监控作业的运行状态,确保资源的正确使用和管理。
4. 作业管理:用户可以通过PBS命令行工具或Web界面查看作业的状态、资源使用情况、执行日志等信息。
用户还可以对作业进行控制,如暂停、恢复、杀死等操作。
5. 资源管理:PBS提供了一套完整的资源管理机制,包括对计算节点、存储设备和网络资源的管理。
用户可以通过PBS来申请和释放资源,以满足作业的资源需求。
6. 用户认证和权限管理:PBS支持用户认证和权限管理功能,以确保只有授权用户才能提交和管理作业。
用户需要使用有效的用户名和密码登录系统,并具有相应的权限来执行特定的操作。
7. 日志和监控:PBS提供了详细的日志记录和监控功能,以便用户了解作业的执行情况和系统的运行状态。
用户可以通过查看日志文件来获取作业的执行日志、系统事件等信息。
以上是PBS使用手册的简要介绍,具体的操作细节和配置选项可能因版本和实际应用而有所不同。
建议查阅具体版本的PBS文档或向专业人员咨询以获得更详细的信息和使用指导。
pbs作业管理命令PBS 提供4 条命令⽤于作业管理。
(1) qsub 命令—⽤于提交作业脚本命令格式:qsub [-a date_time] [-c interval] [-C directive_prefix][-e path] [-I] [-j join] [-k keep] [-l resource_list] [-m mail_options][-M user_list][-N name] [-o path] [-p priority] [-q destination] [-r c][-S path_list] [-u user_list][-v variable_list] [-V][-W additional_attributes] [-z][script]参数说明:因为所采⽤的选项⼀般放在pbs 脚本中提交,所以具体见PBS 脚本选项。
例:# qsub aaa.pbs 提交某作业,系统将产⽣⼀个作业号(2) qstat 命令—⽤于查询作业状态信息命令格式:qatat [-f][-a][-i] [-n][-s] [-R] [-Q][-q][-B][-u]参数说明:-f jobid 列出指定作业的信息-a 列出系统所有作业-i 列出不在运⾏的作业-n 列出分配给此作业的结点-s 列出队列管理员与scheduler 所提供的建议-R 列出磁盘预留信息-Q 操作符是destination id,指明请求的是队列状态-q 列出队列状态,并以alternative 形式显⽰-au userid 列出指定⽤户的所有作业-B 列出PBS Server 信息-r 列出所有正在运⾏的作业-Qf queue 列出指定队列的信息-u 若操作符为作业号,则列出其状态。
若操作符为destination id,则列出运⾏在其上的属于user_list 中⽤户的作业状态。
例:# qstat -f 211 查询作业号为211 的作业的具体信息。
多媒体技术数码世界 P.40超级计算机作业管理系统概述张健 国家超级计算天津中心摘要:超级计算机的资源调度、作业管理、记账数据统计是通过作业管理系统实现的,目前比较流行的作业管理系统有Slurm、PBS和LSF,未来为了应对云计算、大数据和人工智能的挑战,作业管理系统需要加强对云计算技术、大数据技术和人工智能技术的支持。
关键词:作业管理系统 Slurm PBS LSF1.引言超级计算机是通过高速互联网络连接并由多个独立计算节点组成的超大型计算机。
高速互联网络是计算节点之间发送和接收数据的通道。
每个计算节点包含独立的CPU、内存和操作系统,所有计算节点通过挂载分布式共享存储的方式使用同一套存储。
超级计算机的这种结构,使得既可以满足单机用户的小规模串行任务需求,也可以满足科研、企业用户的大规模并行任务需求。
在超级计算机上给用户提供资源调度、作业管理、记账分析等功能的软件,就是作业管理系统。
2.作业管理系统超级计算机上有成百上千的用户,假设每个用户提交十个作业,那么作业的规模就会成千上万,这些作业有串行的、有并行的,有交互式的、有批处理的,有计算密集型的、有I/O密集型的,这些作业都会对超级计算机的资源造成争抢。
所以,超级计算机需要一种管理软件,用于对用户的作业进行实时响应、调度以及管理,同时,为了保障超级计算机的资源得到充分利用,还应该具有作业监控、作业记账、作业统计和历史作业查询的功能,这个软件就是作业管理系统。
一个好的作业管理系统不仅要求保证计算集群有高的吞吐率、高的响应速度,还应提供调优过的作业调度策略来提高用户作业响应速度和执行时间。
目前在超级计算机上使用较多的作业管理系统有Slurm、PBS和LSF。
3. SlurmSlurm是LLNL等开发的一种开源作业管理系统,主要功能包括支持细粒度资源选择的资源分配、基于综合优先级的作业调度、提供快速加载大规模并行任务的加载命令、基于检查点的自动作业容错、节点空闲后自动降低功耗等。
1. 登录和文件传输登录方式为ssh,与telnet功能类似,推荐的登录工具为putty或者Secure Shell (,绿色版无需安装)在地址栏输入本集群的登录地址(node1对应的局域网IP),点击“打开”,就会出现登录窗口,输入用户名、密码即可。
文件传输为sftp,与传统ftp类似,但其协议更安全可靠,推荐工具为。
(,绿色版无需安装)输入登录地址222.222.21.29,输入用户名和密码,端口填22(本软件支持ftp,端口为21),点击快速连接,即可使用,操作办法与常用ftp工具类似。
2. 图形窗口支持Linux推荐使用vnc。
vnc可以将用户的操作状态保持在服务器端,即使断开连接也不会影响到正在进行的操作、计算等。
登录到linux服务器中,在命令行运行vncserver。
第一次运行时需要输入VNC登陆用的密码:根据提示输入新的vnc密码。
此密码与用户登录密码无关,将在登录vnc时需要。
此处提示的node1:2即为vnc成功打开的端口。
运行vncclient,输入登录服务器地址和端口号,点确定,输入前面设置的密码,即进入了图形窗口。
注意:1、在第一次启动了vncserver之后,vnc的连接一直可用,全部图形窗口保持在Linux 服务器上。
因此,只在每次服务器重新启动后运行一次vncserver即可,由于用户较多,请勿启动多个。
2、如果需要使用node2的图形界面,可执行ssh -X node2。
3. 作业提交3.1. Fluent3.1.1. 图形方式运行首先通过VNC登陆到图形界面,如果没有Terminal的话在桌面点击左键选择Xterm,输入以下命令即可运行:此处myhosts为用户指定的host文件,内容如下所示:node1node1node1node1node2node2node2node2-t8即指定8个核心参与计算,分别为node1上的4个核心和node2上的4个核心。
在图形界面下导入cas和data文件,修改和设置边界条件等并计算(和在windows下操作单机版Fluent相同,略):注:通过VNC使用图形界面方式运行fluent时,无需保持PC机与服务器的连接,只要vncserver没有重新启动,即可随时连接到原有的窗口。
曙光IPMI系统管理平台用户使用指南目录概述 (3)⏹智能平台管理接口(IPMI) (3)⏹基板管理控制器(BMC) (3)IPMI的相关配置 (4)⏹获取/配置IP地址等信息 (4)1.在BIOS下进行配置 (4)2.用DOS工具进行获取/配置 (5)3.在windows操作系统下配置 (6)4.在linux操作系统下配置 (7)⏹IPMI LAN Dedicate(专用)模式修改 (8)1.DOS模式下通过IPMICFG工具修改 (8)2.Windows或linux系统下通过web方式进行修改 (8)使用web浏览器进行远程登录 (10)⏹Web浏览器远程登录管理平台 (10)1.首页 (10)2.主菜单 (10)3.系统信息(System) (11)4.服务器状态(Server Health) (11)5.配置(Configuration) (12)6.远程控制(Remote Control) (21)7.虚拟介质(Virtual Media) (24)8.维护(Maintenance) (25)9.杂项(Miscellaneous) (29)⏹Java iKVM控制台 (29)1.virtual media菜单 (30)2.Record菜单 (31)3.键盘宏(Macro)菜单 (31)4.选项(Options)菜单 (32)5.用户(User)菜单 (36)6.屏幕抓图(Capture)菜单 (36)7.Exit退出iKVM (36)通过IPMI安装操作系统 (37)⏹安装前的准备 (37)1.网络结构 (37)2.虚拟介质 (37)3.介质共享 (37)⏹系统安装过程 (38)1.登录web管理平台 (38)2.进入iKVM远程控制台 (38)3.设置虚拟介质 (38)4.从虚拟光驱引导系统安装过程 (41)概述IPMI是智能型平台管理接口(Intelligent Platform Management Interface)的缩写,它是管理企业级服务器系统中所使用的外围设备采用的一种工业标准。
linux screen 的基本使用Screen,一个可以在多个进程之间多路复用一个物理终端的窗口管理器,作者(jawidx)根据自己使用过程中的常用操作及常见问题进行总结。
基本使用1创建,1. screen命令,创建一个执行shell的全屏窗口。
键入exit退出自动切换到前一个窗口。
2. screen命令后跟你要执行的程序,如screen vi test.c,退出vi将退出该窗口/会话。
3. 在screen会话中创建新的窗口。
在当前screen窗口中键入C-a c(Ctrl+a,之后再按c键)。
2选项,-r 连接会话-d 断开会话-t 会话title-S 命名会话(screen -ls会看到)-wipe 清除该死掉会话更多选项请看screen --help3实例,可以不中断screen窗口中程序的运行而暂时断开(detach)screen会话,并在随后时间重新连接(attach)该会话,重新控制各窗口中运行的程序。
[jawidx@fedev n-5]$ screen -S screenname //指定窗口名称[jawidx@fedev ~]$ 在screen窗口键入C-a d中断(C-a k会杀掉screen会话)[jawidx@fedev n-5]$ screen -lsThere are screens on:16234.pts-112.fedev (Attached)4031.pts-455.fedev (Detached)26764.pts-455.fedev (Detached)6331.pts-455.fedev (Detached)26679.pts-345.fedev (Detached)8987.screenname (Attached)6 Sockets in /tmp/uscreens/S-jawidx.[jawidx@fedev n-5]$ screen -r screenname //可用8987代替会话名,对于Attached的会话,需要先screen -d之后才能screen -r。
曙光IPMI系统管理平台用户使用指南目录概述 (3)⏹智能平台管理接口(IPMI) (3)⏹基板管理控制器(BMC) (3)IPMI的相关配置 (4)⏹获取/配置IP地址等信息 (4)1.在BIOS下进行配置 (4)2.用DOS工具进行获取/配置 (5)3.在windows操作系统下配置 (6)4.在linux操作系统下配置 (7)⏹IPMI LAN Dedicate(专用)模式修改 (8)1.DOS模式下通过IPMICFG工具修改 (8)2.Windows或linux系统下通过web方式进行修改 (8)使用web浏览器进行远程登录 (10)⏹Web浏览器远程登录管理平台 (10)1.首页 (10)2.主菜单 (10)3.系统信息(System) (11)4.服务器状态(Server Health) (11)5.配置(Configuration) (12)6.远程控制(Remote Control) (21)7.虚拟介质(Virtual Media) (23)8.维护(Maintenance) (25)9.杂项(Miscellaneous) (28)⏹Java iKVM控制台 (28)1.virtual media菜单 (29)2.Record菜单 (30)3.键盘宏(Macro)菜单 (30)4.选项(Options)菜单 (31)5.用户(User)菜单 (35)6.屏幕抓图(Capture)菜单 (35)7.Exit退出iKVM (35)通过IPMI安装操作系统 (36)⏹安装前的准备 (36)1.网络结构 (36)2.虚拟介质 (36)3.介质共享 (36)⏹系统安装过程 (37)1.登录web管理平台 (37)2.进入iKVM远程控制台 (37)3.设置虚拟介质 (37)4.从虚拟光驱引导系统安装过程 (40)概述IPMI是智能型平台管理接口(Intelligent Platform Management Interface)的缩写,它是管理企业级服务器系统中所使用的外围设备采用的一种工业标准。
PBS作业系统的应用原理什么是PBS作业系统?PBS(Portable Batch System)作业系统是一种用于管理和调度大规模计算集群上任务的软件系统。
它允许用户向集群提交作业,并负责分配集群资源、调度任务和监控作业执行情况。
PBS作业系统的应用原理PBS作业系统的应用原理可以概括为以下几个步骤:1.作业定义和提交:–用户使用PBS命令行工具或PBS作业管理界面定义作业的资源需求、执行命令、作业优先级等参数。
–用户将作业提交给PBS作业队列。
2.资源请求和分配:–PBS作业队列接收到用户提交的作业后,根据作业的资源需求、当前集群的资源状况和调度策略,决定将作业放入哪个作业队列。
–当作业队列中有可用资源时,PBS作业调度器将根据作业的优先级和其他调度策略,为作业分配资源。
–资源可以包括CPU核心、内存、GPU等。
3.作业执行:–一旦作业被分配到资源,PBS作业系统将启动相应的进程来执行该作业。
–PBS作业系统会为每个作业分配一个专门的执行环境,以避免作业之间的干扰。
–作业执行过程中,PBS作业系统会监控作业的状态,并记录相关日志。
4.作业调度和控制:–在作业执行过程中,PBS作业系统会根据资源的可用情况和调度策略,以及作业的优先级,动态调整作业队列中的作业顺序。
–如果作业的资源需求无法满足,作业将被暂时挂起,直到有足够的资源可用时再继续执行。
–PBS作业系统还支持作业的暂停、恢复、终止等控制操作。
5.作业完成和输出:–一旦作业完成,PBS作业系统会将作业的输出文件复制到指定的目录。
–用户可以通过PBS作业系统提供的命令行工具或界面查看作业的状态和输出结果。
PBS作业系统的优点•资源利用率高:PBS作业系统能够根据资源的可用情况和作业的优先级,动态调整作业队列中的作业顺序,从而最大化资源的利用率。
•作业调度灵活:PBS作业系统支持多种调度策略,用户可以根据实际需求选择最合适的调度策略。
同时,PBS作业系统还允许用户自定义调度策略。
曙光集群系统(Pluto)简明用户手册(第2版)1.系统介绍曙光集群系统(命名为Pluto)共有172个计算节点(140个刀片节点,16个MIC节点,16个GPU节点),5个登录节点。
集群系统所有登录节点和计算节点的操作系统均为64位Redhat7.2。
系统采用Intel Omni-Path高速计算网络,曙光Parastor200全局并行存储系统。
全系统峰值性能为211.2Tflop/s。
计算节点的硬件配置如下:●所有刀片计算节点、MIC计算节点、GPU计算节点均配置2颗Intel E5-2680 v3处理器,每个处理器12核,每节点共24核;64 GB DDR4 ECC 2133MHz内存。
●每台MIC计算节点配置1块Intel Xeon Phi 5110P加速卡(1.011TFlops)。
●每台GPU计算节点配置1块NVIDIA TESLA K80 GPGPU加速卡(2.911TFlops)。
2.系统登录及文件传输2.1.系统登录首先使用Xshell、SecureCRT等软件登录到前端机(IP:218.249.35.43)。
登陆进前端机后,再用命令ssh 帐号@pluto登录到新曙光(pluto)系统。
2.2.文件拷贝用scp命令在前端机与新曙光(pluto)之间完成文件拷贝,新老曙光系统间的文件拷贝同样用scp命令。
3.程序编译运行环境集群系统部署的编译器既包含Linux操作系统自带的GNU c/c++/fortran(版本4.8.5)编译器,也提供了Intel/MPI多个版本的c/c++/fortran的编译器,以及支持NVIDIA GPU 程序编译的CUDA toolkit。
此外,集群系统还部署了Mvapich2/OpenMPI/IntelMPI等多个版本的MPI 库,可以支持OpenMP和MPI两种并行方式。
3.1.环境变量设置方法用户可以采用下面的方法来快速设置环境变量:方法一、运行脚本文件加载环境变量。
PBS管理系统(一)作业提交系统Torque个人安装总结(PBS)PBS是功能最为齐全,历史最悠久,支持最广泛的本地集群调度器之一。
PBS 的目前包括openPBS,PBS Pro和Torque三个主要分支。
其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。
Torque是Clustering公司接过了OpenPBS,并给与后续支持的一个开源版本。
下面是本人安装torque的过程。
一、Torque安装在master(管理结点上)1、解压安装包[root@master tmp]#tar zxvf torque-2.3.0.tar.gz2、进入到解压后的文件夹./configure--with-default-server=mastermakemake install3、(1)[root@master torque-2.3.0]#./torque.setup<user><user>必须是个普通用户(2)[root@master torque-2.3.0]#make packages把产生的tpackages,torque-package-clients-linux-x86-64.sh,torque-package-mom-linux-x86-64.sh拷贝到所有节点。
(3)[root@mastertorque-2.3.0]#./torque-package-clients-linux-x86_64.sh--install[root@master torque-2.3.0]#./torque-package-mom-linux-x86_64.sh --install(4)编辑/var/spool/torque/server_priv/nodes(需要自己建立)加入如下内容master np=4node01np=4........node09np=4(5)启动pbs_server,pbs_sched,pbs_mom,并把其写到/etc/rc.local里使其能开机自启动。