当前位置:文档之家› hpc 管理集群

hpc 管理集群

hpc 管理集群
hpc 管理集群

<版本 4.2>

中科院计算机网络信息中心超级计算中心SCE Client 用户手册版权所有2009-2013年:中国科学院计算机网络信息中心超级计算中心

SCE Client 用户手册

1 简介

SCE Client是科学计算网格的命令行客户端软件,通过客户端软件可以访问网格环境内的计算资源,完成提交作业、下载结果文件等工作。

2 SCE命令

SCE命令参数中,[ ]包含的参数是可选参数,|代表从多个参数中选出一个。类似ujid[,ujid]格式的参数,“ujid1 ujid2”代表ujid1和ujid2号作业,“ujid1,ujid2”代表ujid1至ujid2号作业。

sce命令后加 --help 可以显示命令帮助信息。

2.1 作业号

作业号分为两种:gid(Global Job ID)和ujid(User Job ID)。其中gid是网格系统为用户提交的作业分配的全局作业号,它是唯一的,每个gid都是19位。ujid则是为了方便用户使用而设置的简单的短作业号,用户直接使用ujid即可对相应作业进行操作。简单起见,以下命令在用到作业号时均使用ujid.

2.2 H OST和DIR

在sce中,可以通过环境变量HOST来设置默认的远程主机的名字。用户可以将使用频率最多的主机设置成为默认远程主机。实现命令如下:set HOST=hpcname。

在设置之前,用户可以运行set HOST查看是否已经设置了默认远程主机,也可以运行unset HOST来撤销远程主机的设置。

用户可以通过--dir来指定远程目录,当用户没有指定时,缺省的远程目录为远程的${HOME}目录加上当前目录去除${HOME}之后的目录。

2.3 L inux常用命令

在sce环境中,在sce环境中按Tab键可以自动列出当前支持的所有命令列表,支持常用的Linux命令,用法不变,主要包括:cat, cd, chmod, clear, cp,dos2unix,date, df,du,echo,grep,head,id,ls,less,ln, mkdir, man,more,mv,passwd,pwd,rm, sleep,tail,tar,top,touch,unzip,vi, vim。其中诸如vi,cat等文件编辑类命令,只可以对本地文件进行编辑。

2.4 作业管理命令

bsub命令提交作业

格式: bsub [--host hpcname] [--dir workingdir]

[-g gridnode] [-h hpcname] [-q queuename] [-W walltime] [-n cpucores]

[-d dirname] [-o outfile] [-e errfile]

[--si stageInFile] [--so stageOutFile][--jn jobname]

[“other_options_for_LSF/PBS”]

app_name [argment]...

bsub [-f multipleSubfile]

参数:

[--host hpcname] 指定HPC机器,如不指定则按2.2选取hpcname

[--dir workingdir] 指定工作目录,如不指定则按2.2选取workingdir

[-g gridnode] 指定网格节点

[-h hpcname] 指定HPC机器

[-q queuename] 指定队列名

[-W walltime] 指定作业完成需要的大概时间,单位为分钟,注意W为大写[-n cpucores] 指定需要的CPU核数

[-d dirname] 指定作业运行时的工作目录(在HPC上的目录)

[-o outfile] 指定作业的标准输出文件名

[-e errfile] 指定作业的标准错误输出文件名

[--si stageInFile] 提交作业所需要的输入文件(有多个文件用”,”隔开)

[--so stageOutFile] 提交作业的输出文件名(有多个文件用”,”隔开)

[--jn jobname] 指定作业名

[ “other_options_for_LSF/PBS”] 指定其他LSF/PBS接受的相关命令

app_name 指定网格应用名称

[argment]... 指定应用本身所需的参数

[-f multipleSubfile] 用于批量提交作业,将作业提交命令写入multipleSubfile

选择机器和队列有四种方式:

●-q queuename 指定默认HPC的队列,或使用-q hpcname@queuename指定任一

HPC的队列

●-h hpcname 指定某个HPC,系统自动选取队列;可以跟“any”作参数,系统

自动选取HPC和队列

●-g gridnode 指定某个分中心,由分中心网格来自动分配机器和队列

●如果什么都不指定,系统将去读取环境变量里的HOST参数作为默认的远程主机,将

作业提交到该主机上,如果该环境变量没有被设置,命令将不被执行。

用户可以使-d参数来指定远程工作目录,如果没有指定,缺省情况下使用${CURRENT_DIR} - ${HOME}得到用户当前的相对路径,作为远程的相对路径来使用。

bkill命令终止作业

格式: bkill all|ujid[,ujid]...

参数:

all 用户所有未完成的作业

ujid 作业的ujid号,可以指定多个ujid

bjobs命令查询历史作业

格式: bjobs [-g gridnode] [-h hpcname] [-q queuename]

[-p] [-r] [-c] [-l] [-J jobname]

[-d YYYYMMDD,[YYYYMMDD]] [ujid[,ujid]]...

参数:

[-g gridnode] 显示在指定网格节点提交的作业信息

[-h hpcname] 显示在指定HPC机器提交的作业信息

[-q queuename] 显示在指定队列提交的作业信息

[-p] 显示正在排队的作业信息

[-r] 显示正在运行的作业信息

[-c] 显示已经完成的作业信息

[-l] 显示作业的所有相关信息细节

[-J] 显示指定的作业名的作业信息

[-d YYYYMMDD,[YYYYMMDD]] 显示在指定日期范围提交的作业信息,日期格式如20120201 [ujid[,ujid]] 显示作业号为ujid的作业信息,可以指定多个ujid

不加任何参数则显示作业比较关键的相关信息,每次显示20个,按任意键继续,按q退出,最多显示最近的200个作业。

scesh命令查询作业中间结果

格式:scesh [ -l | -c | -h | -t | -m ] ujid [ filename [ num1[ ,num2 ]]]

参数:

[-l] 显示ujid作业在HPC端工作目录的文件信息

[-c] 显示ujid作业可以下载的文件信息

[-h] 显示ujid作业HPC端工作目录中名为filename的文件最前

num1行,不指定num1则默认为10行,

scesh -h ujid filename [num1]

[-t] 显示ujid作业HPC端工作目录中名为filename的文件最后

num1行,不指定num1则默认为10行,

scesh -t ujid filename [num1]

[-m] 显示ujid作业HPC端工作目录中名为filename的文件中的

num1至num2行,scesh -m ujid filename [num1,num2]

2.5 资源管理命令

listnodes命令查询节点列表

格式:listnodes

查看所有的节点,包括总中心,分中心和所级中心。

bqueues命令查询队列信息

格式: bqueues [-g gridnode] [-h hpcname] [-u] [-a]

参数:

[-g gridnode] 查询指定网格节点上所有队列

[-h hpcname] 查询指定HPC机器上所有队列

[-u] 查询本用户可以使用的队列

[-a] 查询所有的队列

如果不加任何参数,系统将去读取环境变量里面的HOST参数作为默认的远程主机,显示该主机上的队列,如果该环境变量没有被设置,命令将不能执行。

listres命令查询资源列表

格式: listres [-g gridnode][-h hpcname] [--host hpcname] [-a]

[appname [-W walltime] [-n cpucores] [-u]]

参数:

[-g gridnode] 查询指定网格节点上的应用

[-h hpcname] 查询指定HPC上的应用

[--host hpcname] 查询指定HPC上的应用

[-a] 查询所有应用

appname 需要查询的应用名

[-W walltime] 根据指定walltime查询带有某应用的队列

[-n cpucores] 根据指定核数查询带有某应用的队列

[-u] 查询用户可以使用的带有某应用的队列

如果不加任何参数,系统将去读取环境变量里面的HOST参数作为默认的远程主机,显示该主机上的应用,如果该环境变量没有被设置,命令将不能执行。

listapps命令查询所有资源列表

格式:listapps

查看所有应用,相当于listres –a。

sceapp命令查询应用相关信息

格式: sceapp [--host hpcname] [--dir workingdir]

appname command|-d|-v|-q|-e [command_args]

参数:

[--host hpcname] 指定HPC机器

[--dir workingdir] 指定HPC端的工作目录

appname 指定应用名

command 应用自带的命令

-d 显示应用的描述信息

-v 显示应用的版本信息

-q 显示应用相关的队列信息

-e 显示应用相关的环境变量

[command_args] 应用相关的命令参数

2.6 文件传输命令

sceput命令上传文件或目录到远程目录

格式:sceput filename ... [--host hpcname] [--dir workingdir]

参数:

filename 指定需要上传的目录或文件名

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

filename 指定需要上传的目录或文件名

sceput可以上传文件或者目录到远程指定目录,缺省的远程目录为远程的${HOME}目录加上当前目录去除${HOME}之后的目录。如果进到一个目录里面,想要上传当前目录所有文件到远程目录的话,请使用“sceput --host hpcname .”, “.”意味着上传当前目录下所有文件,也可用*来代表所有文件(在家目录下使用sceput * 或者sceput .会覆盖远程HPC的用户设置,请尽量避免在家目录下使用sceput *)。同名的文件和目录不能相互覆盖,建议在上传之前先用scels查看远程是否已经存在同名的文件或目录,如果存在请使用scerm命令先删除再上传。

sceget命令下载远程文件或目录到当前目录

格式:sceget filename ... [--host hpcname] [--dir workingdir]

参数:

filename 指定需要下载的文件名或目录名

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

sceget可以下载远程指定文件或者目录到当前目录,缺省的远程目录为远程的${HOME}目录加上当前目录去除${HOME}之后的目录。如果想下载远程目录下所有文件到当前目录的话,请使用“sceget --host hpcname --dir workingdir .”,“.”意味着下载远程目录下所有文件(也可用*来代表所有文件)。同名的文件和目录不能相互覆盖,建议在下载之前先查看本地是否已经存在同名的文件或目录,如果存在请先删除再下载。

2.7 远程文件管理命令

远程文件管理命令与本地文件管理命令相对应,在本地文件命令前面加上sce即为远程文件命令,主要支持的命令有scels, scerm, scemkdir, scecat,sceln,scevi,scetar,scetail。与在本地执行linux命令相比,远程执行需要增加--host参数,使用方式请参照scels命令。如果用户没有指定--host参数,将去读取环境变量里面的HOST参数作为默认的远程主机,如果该环境变量没有被设置,命令将不能执行。

scels命令列出远程目录

格式: scels [linux_ls_options_or_args]... [--host hpcname] [--dir workingdir]

参数:

[linux_ls_options_or_args] 对应ls的各项参数

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

scels命令对应于传统linux命令ls,其作用相同,只是在前面加上sce。

scerm命令删除远程目录或文件

格式:scerm [linux_rm_options_or_args]... [--host hpcname] [--dir workingdir]

参数:

[linux_rm_options_or_args] 对应rm的各项参数

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

scerm命令对应于传统linux命令rm,其作用相同,只是在前面加上sce。

scemkdir命令创建远程目录

格式:scemkdir [linux_mkdir_options_or_args]... [--host hpcname] [--dir workingdir] 参数:

[linux_mkdir_options_or_args] 对应mkdir的各项参数

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

scemkdir命令对应于传统linux命令mkdir,其作用相同,只是在前面加上sce。

scecat命令查看远程文件内容

格式: scecat [linux_cat_options_or_args]... [--host hpcname] [--dir workingdir]

scecat ujid filename

参数:

[linux_cat_options_or_args] 对应cat的各项参数

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

ujid 指定作业ujid号

filename 指定要查看的文件名

scecat命令对应于传统linux中cat命令,其作用相同,只是在前面加上sce。

scecat ujid filename可以查看scesh –c ujid列出的文件。

scetail命令查看远程文件的后若干行

格式:scetail [linux_tail_options_or_args]... [--host hpcname] [--dir workingdir] 参数:

[linux_tail_options_or_args] 对应tail的各项参数

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

scetail命令对应于传统linux中tail命令,其作用相同,只是在前面加上sce。

scetar命令对远程文件或目录进行打包

格式:scetar [linux_tar_options_or_args]... [--host hpcname] [--dir workingdir] 参数:

[linux_tar_options_or_args] 对应tar的各项参数

[-- host hpcname] 指定要操作的远程主机的名字

[--dir workingdir] 指定要操作的远程主机上的目录

scetar命令对应于传统linux中tar命令,其作用相同,只是在前面加上sce。

2.8 编译命令

SCE客户端中的编译命令由软件包GCAide(Grid Compiler Aide)提供。GCAide旨在提供网格编译环境的说明和配置,辅助用户完成程序编译。GCAide提供了两个命令,scelib和scemake。scelib命令可以查看到当前网格环境中各节点的编译环境安装情况,包括编译器和程序库的软件包名称、版本、安装路径以及编译命令/链接选项说明。scemake命令实现程序的编译过程,可以保持程序原有的编译方式,包括make方式、configure+make方式、shell 脚本方式,以及直接的编译命令方式。通过这两个命令,GCAide可以从三个不同层次辅助用户完成程序编译,从而满足不同层次用户的需求:

1、手工设置编译环境。

高级用户可以通过scelib命令查看所需的编译器和程序库等的在目标编译节点的安装路径,然后根据这些路径自行设置编译环境,或者相应的修改编译脚本文件,最后运行scemake 命令启动编译。这种方式的优点是可控性强,编译脚本的编写方式保持不变,只是执行编译的命令略有不同;缺点是对用户要求比较高,要求用户对编译环境的设置和调试比较有经验。

2、自动设置编译环境。

普通用户可以通过scelib命令查看目标编译节点上是否安装了自己需要的编译器和程序库,在执行scemake命令的时候提供一个网格编译描述文件(gcd文件,具体说明在后面),其中定义了程序编译所需的软件包列表,系统会根据用户指定的软件包列表为用户设置编译环境,然后再执行编译脚本。这种方式的优点是操作简单,用户不需要根据目标节点单独设置环境,也不需要修改编译脚本文件;但是要求用户对程序编译所需的特定软件包版本比较明确,比如只能用GNU的C编译器,另外同样要求用户需要自己处理编译的各种选项,包括程序库的链接选项。

3、自动选择并设置编译环境。

对于初级用户,GCAide提供了网格编译宏,使用网格编译宏编写编译脚本文件,用户可以不关心编译器的选择,头文件库文件路径的设置,以及程序库链接选项的编写,这些都由系统自动替换完成。这种方式的优点是对用户要求比较低,用户只需要知道程序编译需要使用了C编译器还是Fortran编译器,是否使用了MPI,是否用到了BLAS等等类似的接口;缺点是目前替换规则还不够完善,有些情况会处理不了。

在SCE网格环境中,编译程序的步骤:

第一步,选择目标编译节点;

第二步,修改相关的环境设置脚本或者编译脚本文件;

第三步,上传所有程序文件,如果已经上传过,只需要上传本地有更新的文件即可;

第四步,运行scemake命令启动编译,如果程序使用make方式编译,直接带make原本的参数即可,如果是其他方式,可通过-e指定需要执行的脚本;如果编译出错,查错,转第二步。

第五步,执行bsub提交作业试运行,如果作业执行出错,查错,如果是编译问题,转第二步。

当然,整个过程中,用户随时可以运行scelib命令查看当前编译环境信息。

下面介绍scemake和scelib两个命令的使用格式。

scelib 查看网格环境中编译器和程序库信息

格式: scelib [-h hpcname] [-n softname] [-k keyword] [-L] [-l]

参数:

[-h hpcname] 指定查询的网格节点名字,ALL为全部。

[-n softname] 指定查询的软件名字。

[-k keyword] 指定查询的网格编译宏,比如BLAS,CC。

[-L] 查看软件的安装路径,包括命令路径、头文件路径和库文件路径。[-l] 查看软件的使用帮助,可用的编译命令/可用的链接选项。

如果不使用-L或者-l选项,则只显示软件的基本信息,包括所在网格节点、软件名字、软件版本和软件支持的网格编译宏。

使用scelib -h ALL可以查看当前网格环境中所有的软件信息。

scemake 编译程序

格式: scemake [make_opt_arg | -E gcexecfile] [-F gscriptFile] [-c GCDFile] [-h hpcname] [--host hpcname] [--dir workingdir]

参数:

[make_opt_arg|-E gcexecfile]make_opt_arg是Linux C编译环境中常用的make命令可处

理的任意参数;如果程序编译不是使用make的方式,可以通

过-E定义执行的编译命令。

[-F gscriptFile] 网格编译脚本文件,以.t为文件后缀,是使用网格编译宏编

写的编译脚本文件;不设置该选项表示无网格编译脚本需要

处理。

[-c GCDFile] 网格编译描述文件,以.gcd为文件后缀,定义了编译所需的

特定软件项;如果对使用的编译器或者软件库没有特殊需求,

该选项可省略。

[--h hpcname] 指定的节点完成编译,如果不指定,则为当前工作节点。[--host hpcname] 指定的节点完成编译,如果不指定,则为当前工作节点。[--dir workingdir] 指定目标机的工作目录,如果不指定,则为当前工作目录。

该命令的使用可以认为是扩展make命令,如果程序不是使用make方式编译,可以通过-e选项指定启动编译过程的脚本。

网格编译脚本

程序编译脚本定义了程序编译执行过程,并且是在软件移植过程中需要根据新的编译环境修改的文件,常见的包括shell脚本,Makefile,Makefile.INC,Makefile.in,Configure.in。

网格编译脚本是使用网格编译变量替代了程序编译脚本中的编译命令、路径定义以及链接选项,从而产生的新的文件,并且文件名变更为在原有名字基础上增加.t后缀。

网格编译变量用@@符号括起来,比如@CC@,@BLAS_DIR@,它由最多三部分字符串组成,以下划线符号“_”作为分割,所有构成字符串均为大写字母和数字。第一块字符串称为“网格编译宏”,比如CC,BLAS,即scelib命令查看到的keyword。最后一块字符串可以为DIR,INC,或者LIB,分别代表软件包的根路径、头文件路径和链接库使用选项(包括-L指定的库文件路径和-l指定的链接库名称的一个完整的库使用选项)。中间部分用来表示接口支持的语言类型,目前有两个值,C和F,比如BLAS_F_LIB,表示使用fortran接口的blas库所需要的编译选项。举例如下:

原有网格变量字符串不变(这样可以保证不破坏Makefile.in文件的变量替换机制)

网格编译描述文件

网格编译描述文件用来定义程序编译所需的特定的软件包,网格编译描述文件的格式定

其中软件定义项中方括号之间的软件包部分根据顺序存在使用优先级,并且使用优先级逐渐降低。比如HPL程序如果对C编译器和BLAS库的选择有特殊需求,可以形成网格编译描述文件hpl.gcd,其内容如下:

CC[intel]

MPI[openmpi,mpich2]

BLAS[mkl(10.0.1)]

2.9 s ce shell命令

alias命令设定别名

格式: alias [aliasname[=“aliasvalue”]]

参数:

aliasname 变量名

aliasvalue 变量值

例如:alias list=“bjobs -l”

执行list可以实现bjobs -l的功能。

如果不跟任何参数,alias将会显示全部已经设置的别名。

unalias命令取消设定的别名

格式: unalias [name] ...

参数:

name 变量名

set命令设定系统变量

格式: set [name[=value]]

参数:

name 变量名(一般全都大写)

value 变量值

例如:set FS_HOME=/usr/local/sce/fs

可以通过${FS_HOME}来引用代表/usr/local/sce/fs。

如果不跟任何参数,set将会显示全部已经设置的系统变量。unset命令取消设定的系统变量

格式: unset name

参数:

name 变量名

version 命令查询当前SCE的版本

格式:version [cs|fs]

查询当前cs或者fs的版本信息。

history命令查看历史命令

exit , quit,bye命令退出SCE客户端

? , help命令SCE使用帮助

3 SCE操作演示

3.1 输入用户名和密码登录SCE

deepcomp7000代表登录到的HPC的名称,sce代表sce环境。

3.2 查看可用的机器信息

[deepcomp7000@sce ~]$ listnodes

3.3 查看可用的应用信息

[deepcomp7000@sce ~]$ listres

3.4 查看含有hostname应用的机器及其队列名

[deepcomp7000@sce ~]$ listres –a hostname

APPNAME代表具体的应用,GRID代表网格节点,HPC代表某一台具体的机器,QUEUE代表该机器的队列,WALLTIME代表作业在该队列内允许运行的最长时间(以分钟为单位),MAXCPUS 代表队列中可以使用的最大CPU核数,MINCPUS代表队列中可以使用的最小CPU核数,NJOBS 代表队列中所有的作业数,PEND代表正在等待的作业数,RUN代表正在运行的作业数。

3.5 利用bqueues查询可用的队列信息

[deepcomp7000@sce ~]$ bqueues -a

参数含义同3.4。

3.6 提交一个作业到chemistry机器上。(通过bqueues查看到chemistry机

器上default队列,一次最多可以使用的CPU核数为24个)

[deepcomp7000@sce ~]$set HOST=chemistry

[chemistry@sce ~]$ bsub -q default -n 2 hostname

gid is: 1331151056789391961, ujid is :603

Success!

提交成功之后,会返回一个具体的gid号和ujid号,并显示“Success!”。

3.7 设置一个alias别名来查看603号作业的信息。

[chemistry@sce ~]$ alias list="bjobs 603"

[chemistry@sce ~]$list

[chemistry@sce ~]$ alias

list=bjobs 603

设置此别名之后,可以利用list来查询603号作业的信息。如果想删除此别名,可以利用unalias list来完成。

3.8 利用scesh 查看第603号作业的文件信息

[chemistry@sce ~]$ scesh -l 603

查看603号作业HPC端的文件, 603.out文件包含运行作业之后的输出结果,603.err文件包含运行作业之后的出错信息。如果提交的作业有上传其它文件,其它文件也会保存在这层目录内。

[chemistry@sce ~]$ scesh -c 603

查看603号作业CS端的文件,*.xml是提交作业之后自动生成的系统文件。job.sub包含了作业提交的信息,如果作业状态为“SUB_ERR”,可以使用scecat ujid job.sub查看出错信息。

3.9 利用scecat 查看文件信息

[chemistry@sce~]$ scels

Connecting, please wait......(Press Ctrl+C to abort)

[chemistry@sce~]$ scecat 603.out

使用scels列出远程HPC目录下的文件,用scecat 603.out查看远程603.out文件的内容。

3.10 编译一个cparam.c的作业(路径为~/testgcc)到watermelon

其中gcc为sceapp gnu_compiler gcc的别名。

cparam.c的源码如下:

#include "stdio.h"

main(int argc, char* argv[])

{

if(argc>0){

printf("%s:%s\n",argv[0],argv[1]);

}else{

printf("no paragram");

}

首先进入cparam.c所在的文件夹

[deepcomp7000@sce ~]$cd ~/testgcc

[deepcomp7000@sce testgcc]$ vi cparam.c

[deepcomp7000@sce testgcc]$ ls

cparam.c

[deepcomp7000@sce testgcc]$ set HOST=watermelon

[watermelon@sce testgcc]$listres

[watermelon@sce testgcc]$ scels

[watermelon@sce testgcc]$ sceput cparam.c

cparam.c 100% 195 0.2KB/s 00:00

File uploading, please wait......

File transfer finished

[watermelon@sce testgcc]$ gcc -o cparam cparam.c

Compile on https://www.doczj.com/doc/7015763041.html, begin!

cparam.c: In function 'main':

cparam.c:8: error: expected expression before '.' token

cparam.c:9: error: expected declaration or statement at end of input

Compile finished!

[watermelon@sce testgcc]$ scels

cparam.c

[watermelon@sce testgcc]$ vi cparam.c

[watermelon@sce testgcc]$ scerm cparam.c

Your working directory testcc, do you want to continue deleting files on watermelon: cparam.c? y

Connecting, please wait......(Press Ctrl+C to abort)

[watermelon@sce testgcc]$ scels

[watermelon@sce testgcc]$ sceput cparam.c

cparam.c 100% 180 0.2KB/s 00:00

File uploading, please wait......

File transfer finished

[watermelon@sce testgcc]$ gcc -o cparam cparam.c

Compile on https://www.doczj.com/doc/7015763041.html, begin!

Compile finished!

[watermelon @sce testgcc]$ scels

cparam

cparam.c

3.11 使用generic应用提交一个使用3.10编译结果的作业,并利用sceget获

取结果

[watermelon@sce testgcc]$ bsub -q workq generic "./cparam helloworld"

gid is: 1330808065161283239, ujid is :604

Success!

[watermelon@sce testgcc]$ bjobs

[watermelon@sce testgcc]$ scels

cparam

cparam.c

604.err

604.out

[watermelon@sce testgcc]$ sceget 604.out

[watermelon@sce ~]$ ls

cparam.c 604.out

[watermelon@sce ~]$ cat 604.out

./cparam:helloworld

最后一行的./cparam:hello为是604号作业604.out文件显示的结果。

高性能计算集群(HPC CLUSTER)

高性能计算集群(HPC CLUSTER) 1.1什么是高性能计算集群? 简单的说,高性能计算(High-Performance Computing)是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。 高性能集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。 高性能集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和,但这种集群一般没有高可用性。 1.2 高性能计算分类 高性能计算的分类方法很多。这里从并行任务间的关系角度来对高性能计算分类。 1.2.1 高吞吐计算(High-throughput Computing) 有一类高性能计算,可以把它分成若干可以并行的子任务,而且各个子任务彼此间没有什么关联。因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式,所以把这类计算称为高吞吐计算。所谓的Internet计算都属于这一类。按照Flynn的分类,高吞吐计算属于SIMD(Single Instruction/Multiple Data,单指令流-多数据流)的范畴。 1.2.2 分布计算(Distributed Computing) 另一类计算刚好和高吞吐计算相反,它们虽然可以给分成若干并行的子任务,但是子任务间联系很紧密,需要大量的数据交换。按照Flynn的分类,分布式的高性能计算属于MIMD (Multiple Instruction/Multiple Data,多指令流-多数据流)的范畴。 1.3高性能计算集群系统的特点 可以采用现成的通用硬件设备或特殊应用的硬件设备,研制周期短; 可实现单一系统映像,即操作控制、IP登录点、文件结构、存储空间、I/O空间、作业管理系统等等的单一化; 高性能(因为CPU处理能力与磁盘均衡分布,用高速网络连接后具有并行吞吐能力); 高可用性,本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务; 高可扩展性,在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地扩展系统以满足不断增长的应用的需要; 安全性,天然的防火墙; 资源可充分利用,集群系统的每个结点都是相对独立的机器,当这些机器不提供服务或者不需要使用的时候,仍然能够被充分利用。而大型主机上更新下来的配件就难以被重新利用了。 具有极高的性能价格比,和传统的大型主机相比,具有很大的价格优势; 1.4 Linux高性能集群系统 当论及Linux高性能集群时,许多人的第一反映就是Beowulf。起初,Beowulf只是一个著名的科学计算集群系统。以后的很多集群都采用Beowulf类似的架构,所以,实际上,现在Beowulf已经成为一类广为接受的高性能集群的类型。尽管名称各异,很多集群系统都是Beowulf集群的衍生物。当然也存在有别于Beowulf的集群系统,COW和Mosix就是另两类著名的集群系统。 1.4.1 Beowulf集群 简单的说,Beowulf是一种能够将多台计算机用于并行计算的体系结构。通常Beowulf系统由通过以太网或其他网络连接的多个计算节点和管理节点构成。管理节点控制整个集群系统,同时为计算节点提供文件服务和对外的网络连接。它使用的是常见的硬件设备,象普通PC、以太网卡和集线器。它很少使用特别定制的硬件和特殊的设备。Beowulf集群的软件也是随处可见的,象Linux、PVM和MPI。 1.4.2 COW集群 象Beowulf一样,COW(Cluster Of Workstation)也是由最常见的硬件设备和软件系统搭建而成。通常也是由一个控制节点和多个计算节点构成。

高性能计算集群项目采购需求

高性能计算集群项目采购需求 以下所有指标均为本项目所需设备的最小要求指标,供应商提供的产品应至少大于或等于所提出的指标。系统整体为“交钥匙”工程,厂商需确保应标方案的完备性。 投标商在投标方案中须明确项目总价和设备分项报价。数量大于“1”的同类设备,如刀片计算节点,须明确每节点单价。 硬件集成度本项目是我校校级高算平台的组成部分,供应商提供的硬件及配件要求必须与现有相关硬件设备配套。相关系统集成工作由供应商负责完成。 刀片机箱供应商根据系统结构和刀片节点数量配置,要求电源模块满配,并提供足够的冗余。配置管理模块,支持基于网络的远程管理。配置交换模块,对外提供4个千兆以太网接口,2个外部万兆上行端口,配置相应数量的56Gb InfiniBand接口 刀片计算节点双路通用刀片计算节点60个,单节点配置2个CPU,Intel Xeon E5-2690v4(2.6GHz/14c);不少于8个内存插槽,内存64GB,主频≥2400;硬盘裸容量不小于200GB,提供企业级SAS或SSD 硬盘;每节点配置≥2个千兆以太网接口,1个56Gb InfiniBand 接口;满配冗余电源及风扇。 刀片计算节点(大内存)双路通用刀片计算节点5个,单节点配置2个CPU,Intel Xeon E5-2690v4;不少于8个内存插槽,内存128GB,主频≥2400;硬盘裸容量不小于200GB,提供企业级SAS或SSD硬盘;每节点配置≥2个千兆以太网接口,1个56Gb InfiniBand接口;满配冗余电源及风扇。 GPU节点2个双路机架GPU节点;每个节点2个Intel Xeon E5-2667 v4每节点2块NVIDIA Tesla K80GPU加速卡;采用DDR4 2400MHz ECC内存,每节点内存16GB*8=128GB;每节点SSD 或SAS硬盘≥300GB;每节点配置≥2个千兆以太网接口,1个56Gb/s InfiniBand接口;满配冗余电源及风扇。 数据存储节点机架式服务器2台,单台配置2颗Intel Xeon E5-2600v4系列CPU;配置32GB内存,最大支持192GB;配置300GB 2.5" 10Krpm

高性能计算集群(PC Cluster)用户指南

高性能计算集群(PC Cluster)用户指南 大气科学系应越 第二版2008-12 目录 -认识cluster -使用cluster -linux常用命令 -软件 -文件传输 第一章:认识cluster 1.什么是cluster系统 cluster一般由一台主机(master)和多台节点机(node)构成,是一种松散耦合的计算节点集合。为用户提供网络服务或应用程序的单一客户视图,同时提供接近容错机的故障恢复能力。通常cluster的每台机器通过相应的硬件及软件互连,每个群集节点都是运行其自己进程的独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据。cluster概念的提出在70年代主要是为了进行一些大运算量的科学计算。随着网络的发展,之后的cluster系统还被用作网络服务器,发挥其故障恢复和均衡负载的能力。 使用PC机构建cluster的好处在于开发成本低,而且由于每台节点机都是普通的PC机,在某一台机器发生故障的时候,可以方便的进行维护,而不影响整个系统的运行。 大气科学系的cluster系统,由16台64位的PC机组成。其中一台主机(master),15台节点机(node01~node15)。这16台机器每台有两个4核的CPU,也就是说每个节点上可以同时提供8个CPU。操作系统使用的是CentOS的Linux发行版。图1为大气科学系cluster目前的结构。其中console 和c0101~c0107是大气系早期的cluster系统,节点安装的是RedHat的Linux发行版,precluster曾经作为门户机,目前已经更新为CentOS的操作系统。 登录master的IP地址为162.105.245.3,这个地址由于物理大楼的IP变动比较频繁,所以可能会时不时改变,而precluster的IP地址162.105.245.238则比较稳定。这两个地址目前都可以从校外访问。 cluster的应用主要集中在并行计算上。虽然单个节点的单CPU运算效率比普通的笔记本或是台式机都高很多,但是cluster当初被设计出来就是为了进行多CPU协同运算的,而不是仅仅为了提高单CPU的运算效率。所以我们鼓励用户在cluster上进行并行计算,而把一些单CPU也能解决的工作

高性能计算(HPC)数据中心解决方案

解决方案简介 面临的挑战 随着当前信息的爆炸式增长,以及在使用基于x86微芯片的通用硬件方面的不断创新,通常是由多台机器来提供计算以共同执行非常复杂的任务。这使得网络成为一个至关重要的HPC 组件。解决方案 瞻博网络提供一种高速的HPC 数据中心网络解决方案。此HPC 基础架构非常适合于那些希望近距离互连多台10GbE 服务器,而且延迟时间不能超过亚微秒的客户。优势 ? 基于10GbE 接入的模块化网络设计? 支持极大规模的低延迟连接? 提供多种功能来满足端到端的应用需求 高性能计算(HPC )数据中心解决方案 瞻博网络HPC 解决方案能够帮助客户执行密集的计算任务,并提供最大的网络效率和可靠性 面临的挑战 随着高性能集群解决方案和超级计算的日渐增加,越来越多的行业开始转向多节点集群应用。采用HPC 技术背后的主要驱动因素是越来越多的用户可以访问不断增加的数据量,这就需要进行计算以处理这些数据。由于基于以太网的集群解决方案的普及,以及在高性能业务中进行密集型计算和建模所带来的价值,很多企业开始重新审视计算集群为他们带来的经济效益。下面是多个行业从HPC 技术获得明显收益的实例: ? 设计工作室依靠计算集群来进行动画和视觉效果的渲染和建模。? 工程和建筑公司使用HPC 进行建模和3D 成像。? 石油和能源公司使用HPC 进行建模和地震研究。? 生物技术公司利用HPC 进行建模和预测性模型分析。? 投资公司和银行利用HPC 进行算法交易建模和快速市场分析。? 零售公司利用HPC 获得市场情报和进行基于视频的业务分析。? 学术界始终在挑战可以实现的最大计算能力。 一般说来,这些计算挑战对于网络提出了一系列极为苛刻的要求。局域网的最初设计目的是将相对较近的最终用户工作站连接在一起,并支持这些工作站与远程网络进行通信。HPC 网络对于网络的要求主要是服务器与服务器的连接性,局域网应用与现代数据中心在通信流量模式上有很大差距,与HPC 数据中心的差距就更大了。由于这些因素,我们看到以太网大约只服务于一半的HPC 市场,In? niband 还占有显著的市场份额。一直以来,Infiniband 都被视作服务于那些低延迟和极高性能的HPC 集群应用的传统技术。 不单单是现有的局域网架构不能很好地支持HPC 基础架构(瞻博网络基于1GbE 的集群交换fabric 技术可以解决这一问题),而且,长期以来以太网技术(实际上是局域网的基础)也缺乏某些HPC 集群所需的高性能特征。随着10GbE 的商业化,基于以太网的HPC 解决方案开始具有技术可行性和出色的经济性。

高性能集群计算解决方案

https://www.doczj.com/doc/7015763041.html,/sige_online/blog/item/d6aa74a9106a10ff1f17a224.html 和卫星遥测,遥感等探矿技术的发展,促使油气勘探的数据量爆炸性地增长, 要求信息系统能够获取,存储和处理TB级的巨量数据; 使用更精确的模型:为了提高探矿水平,必须使用规模更大,更精确数值模型来模拟地下矿藏的分布.5年前,模型的节点数一般不超过10万个;现在,经常需要使用节点数超过百万的3维模型来进行数值模拟; 提供更强的计算和数据管理能力:模型规模的扩大要求使用处理能力指数增长的计算机系统和更复杂的算法快速和精确地求解,同时也要求更强的数据管理能力来建立历史数据库,并把当前数据与长期积累的历史数据相比较,得到精确的综合预测结果; 支持功能丰富的应用软件:现代的油气探测应用软件必须具有直观的3维图象显示和输出,人机交互功能, 以提高工作效率; 降低成本:经济效益和市场竞争压力还迫使油气行业的信息系统在严格控制开支,降低总拥有成本条件下满足上述要求当前,传统的巨型机已经很难全面满足上述要求.油气行业要求使用更经济实惠的新解决方案来全面满足应用需求.Schluberger信息系统公司(SIS)是油气勘探信息处理领域中领先的厂商,也是HP在高性能技术计算领域重要的合作伙伴.该公司在使用基于安腾2的HP Integrity 服务器为计算节点的Linux集群上开发的面向油气矿藏模拟的ECLIPSE Parallel解决方案,能够全面满足油气矿藏勘探信息系统在性能和成本两方面的需求,提供解决人类社会现代化进程中能源问题的利器. 目标市场 ECLIPSE Parallel解决方案使用数值模拟方法满足油气行业探测石油和天然气地下分布状况和预测储量的需要, 油气公司从低级经理到高级主管各种类型的人员都可以得益于这一解决方案,包括:负责提供优化的矿藏分布和产量预测评估人员和经济分析师,负责作出开采决策的经理,信息系统管理人员;需要得到直观和实时矿藏信息的首席信息官(CIO)和首席执行官(CEO),负责监管的政府机构等等. 这一解决方案特别适合于要求打破油气行业使用巨型机传统,采用性能更高,价格/性能最佳的新颖解决方案的油气公司. 解决方案概貌 SIS ECLIPSE Parallel是一个基于英特尔和HP工业标准技术的成套解决方案,便于实施和灵活配置,提供先进的油气矿藏模拟功能.这一解决方案由系统平台和模拟软件两大部分组成(见下图). HP Linux ClusterBlocks集群系统是第一个经过认证的系统平台.这一Linux集群包括如下的层次: 计算节点:采用基于安腾2的HP Integrity rx2600服务器,使用新一代安腾2提供强大的64位处理能力; 互联设备:采用工业标准的高速Myrinet把计算节点联成一体,以太网联接管理节点; 操作环境:采用应用最广泛的RedHat Linux Advanced Server操作系统建立集群运行的操作环境; 集群管理和作业调度:采用Scali, Scyld或ClusterWare 公司著名的Linux工具软件管理集群系统;采用业界领先的Platform Computing的LSF 5.0软件来实现负载平衡,提高集群的工作效率上层的ECLIPSE Parallel模拟软件负责完成矿藏模拟的数值计算,它把整个数值求解问题分解成一系列较小的子问题,送到各个计算节点上并行地求解,然后再合成完整的结果. ECLIPSE Parallel解决方案这一基于Linux集群并行计算的设计思想,在性能,性价比,可伸缩性和可用性等方面都超过基于巨型机的传统解决方案,具有广阔的发展前途. 组成部件 SIS ECLIPSE Parallel软件与HP ClusterBlocks 集群结合在一起形成了一个把最先进硬件和软件完美地结合在一起的油气储藏模拟解决方案,它的主要组成部件有: 基于安腾2处理器的HP Integrity rx2600服务器; 工厂组装的基于Myrinet高速互联网络的16-128节点 Linux集群系统; RedHat Linux Advanced Server 2.1操作系统; Platform Computing的负载调度软件(LSF) 5.0:用于平衡集群内各节点的工作负载,提供运行效率; 消息传递接口(MPICH/GM):用于支持基于集群架构系统内的并行计算; 集群管理软件:允许采用Scali, Scyld, ClusterWareLinux 等公司的软件管理集群系统运行和资源共享; SIS ECLIPSE Parallel 油气储藏模拟软件 SIS ECLIPSE Parallel解决方案的硬件系统使用HP Integrity rx2600服务器作为计算节点,高速的Myrinet作为互联设备组成Linux集群,为油气储藏模拟软件提供高性能运行平台. ECLIPSE Parallel软件把整个模拟模型分解成若干个子区域.

高性能计算集群的cae软件应用

随着计算机应用的广泛深入,不同领域处理问题的规模也越来越大,对计算速度的追求也在不断增长。例如,在气象预报、流体力学、能源工程、生物制药、图像处理等领域的问题都涉及到海量的计算数据,并且计算必须在能接收的时间内完成。所以,如何在短时间内完成计算任务,提高并行计算的效率已经成为这些领域要解决的问题。 商用CAE软件现在发展的非常之迅速,而且都致力于软件的并行化开发。目前,市场上的通用CAE软件都实现了集群中的并行运行,而且效果都非常良好。以ANSYS为例,作为目前最常用的有限元求解软件之一,它的求解模块种类多,多物理场实现耦合求解以及实现协同仿真技术等优点受到广大用户的欢迎。因此,通用CAE已经成为今后工程计算领域的重要工具。 1 CAE通用软件的发展 20世纪在50年代末、60年代初就投入大量的人力和物理开发具有强大功能的有限元分析程序。其中最为著名的是由美国国家宇航局在1965年委托美国计算科学公司和贝尔航空系统公司开发的NASTRAN有限元分析系统。此后有德国的ASKA、英国的PAFEC等公司的产品。 CAE在工程上初步开始使用一直到今天,已经经历了50多年的发展历史,其理论和算法都经历了从蓬勃发展到日趋成熟的过程。在航天、航空、机械、土木机构等领域的工程和产品结构分析中已经成为必不可少的数值计算工具,同时也是分析连续力学各类问题的一种重要手段。随着计算机技术的普及和不断提高,CAE系统的功能和计算精度都有很大提高,

各种基于产品数字建模的CAE系统应运而生,并已成为结构分析和结构优化的重要工具,同时也是计算机辅助4C系统(CAD/CAE/CAPP/CAM)的重要环节。CAE系统的核心思想是结构的离散化,即将实际结构离散为有限数目的规则单元组合体,实际结构的物理性能可以通过对离散体进行分析,得出满足工程精度的近似结果来替代对实际结构的分析,这样可以解决很多实际工程需要解决而理论分析又无法解决的复杂问题。 正因为CAE在制造企业中承担着关键的工具的作用,所以其高性能平台的选择也非常的重要,这个平台直接影响CAE的运行性能表现、整体成本和系统等方面的问题。所以,高性能计算平台与CAE软件的如何更好的配合要进行一个全面的权衡。 2 CAE模拟的步骤 2.1 建立物理模型 在研究一项具体的问题的时候,首先必须要明确研究对象及其物理特性。确定出一个具有特定便捷的研究区域,分析的特征与特性。其次根据研究内容的特征,做出简化假定和近似,忽略非本质的物理过程来简化整个物理模型。从而得出一个经过简化,比较有研究特点的物理模型。 2.2 建立数学模型 物理模型确定以后就要建立相应的数学模型,也就是用数学模型来反映问题各量之间的

高性能计算集群收费管理办法

中国矿业大学现代分析与计算中心 高性能计算集群收费管理办法(试行) 为进一步规范我校高性能计算集群的使用,合理、高效地利用计算资源为学校的教学科研和学科建设服务,确保学校承担的具有国际前沿水平及国家级重大科研项目的计算需求,依照学校有关仪器设备管理使用的规定,特制定我中心高性能计算集群的收费管理办法(以下简称本办法)。 第一条.本办法适用于中国矿业大学教职员工和在籍学生。缴费用户分为团队用户和个人用户,团队用户名下可以拥有多个注册账号用于登录团队独享的计算资源;个人用户对应一个注册账号,用于登录个人用户共享的计算资源,提交的计算作业须参与集体排队。 第二条.本收费管理办法将根据学校的规定和学校教学科研、学科建设的需要以及高性能计算发展的实际情况适时调整。 第三条.收费方式和收费标准 中心提供二种计费方式,用户可以根据自己实际使用的情况选择其一: 1. 团队方式:用户可根据需要申请多个计算节点资源,申请的计算资源为用户及用户允许的集群登陆账号专用,每计算节点¥500元/月,¥1200元/季度,¥1800元/半年,¥3000元/年。 2. 计时方式:依据集群记账管理中用户作业WallTime值,按每核每小时0.1元收取。 第四条.收费办法 1、采取用户预付费,中心定期结算的方式收取计算费用。 2、收费及结算办理: (1)矿业科学中心A308室:负责办理用户预付费手续; (2)矿业科学中心B501室:负责用户费用定期结算,并电子邮件通知用户。 第五条.注意事项

1、中心人员在收到用户的预付费和用户信息相关表格后,将在三个工作日内开通登录账号并通知用户。 2、定期结算时,如果用户预付费为0或欠费,将短信和电子邮件通知用户,七个工作日后,如不再预付费,中心将终止该用户登陆。十五个工作日后,注销该用户。 3、免收共享存储空间使用费,且不限制大小,但用户需按规定及时删除完成作业的数据,当所有用户使用的共享存储空间达到总存储空间的70%时,将通知用户强制清理过往作业占用的存储空间。 4、利用我中心高性能计算平台计算资源取得国内外有重要影响重大科研成果或发表SCI 论文的用户,我中心将根据具体情况给予一定的费用减免。 第六条. 本办法自2013年9月1日起执行。 中国矿业大学 现代分析与计算中心 2013年7月1日

什么是高性能计算,涉及哪些技术和知

什么是高性能计算,涉及哪些技术和知识 高性能计算(HPC)指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。 高性能集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和,但这种集群一般没有高可用性。高性能计算的分类方法很多。这里从并行任务间的关系角度来对高性能计算分类。 一、高吞吐计算(High-throughput Computing) 有一类高性能计算,可以把它分成若干可以并行的子任务,而且各个子任务彼此间没有什么关联。因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式,所以把这类计算称为高吞吐计算,而且算力也比较大。所谓的Internet计算都属于这一类。按照Flynn的分类,高吞吐计算属于SIMDSingleInstruction/Multiple Data,单指令流-多数据流)的范畴。 二、分布计算(Distributed Computing) 另一类计算刚好和高吞吐计算相反,它们虽然可以给分成若干并行的子任务,但是子任务间联系很紧密,需要大量的数据交换。按照Flynn的分类,分布式的高性能计算属于MIMD(Multiple Instruction/MultipleData,多指令流-多数据流)的范畴。 有许多类型的HPC系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,基本的网络拓扑和组织可以使用一个简单的总线拓扑。HPC系统由计算、存储、网络、集群软件四部分组成。

分享高性能计算集群网络连接管理方案

高性能计算集群(HPC) 网络连接方案 概述 本方案基于用户(东方地球物理公司物探研究院)的应用需求,针对计算机高性能计算集群(HPC)系统,为各种不同的服务器配置选项提出了适合于HPC应用的网络连接模式。 目前高性能计算集群系统可选配的服务器分为两大类: ·刀片机箱式服务器 ·机架式服务器 在将这两类服务器用于HPC应用时,为了最大限度地发挥服务器的高性能、不使运算节点之间的网络互连成为瓶颈,必须针对它们的硬件设计特性分别为它们配置专门的网络交换机并使用特定的网络连接拓扑。BNT公司的刀片交换机和机架式交换机就是这两类服务器集群网络连接的最佳选择。 注:BNT公司(Blade Network Technologies Ltd.)是各刀片服务器厂商(如IBM、HP、NEC、Fujitsi等)最紧密的合作伙伴之一,长期为它们供应刀片服务器的高性能交换机模块,是业界最大的刀片交换机厂商;同时也是最早开发并向市场供应刀片式和机架式万兆以太网(10 GbE)交换机的厂商。 高性能计算集群是否能发挥出所有计算节点真正的性能,其中一个非常关键的因素就是对于节点之间的互连网络的设计:使用什么样的交换机以及用怎样的拓扑,把各个节点连接在一起。 本方案中提供了两种网络连接的模式,分别对应刀片式服务器集群的网络连接和机架式服务器集群的网络连接。这两种方案的设计原则是: ·全线速、低延迟、无阻塞的网络架构——实现HPC的基本保证 ·低功耗、节能——符合新一代数据中心的发展要求 ·易于部署、易于管理、易于维护 BNT公司提供的这两种方案在处理节点间的网络互连时,充分发挥了BNT的刀片式和机架式交换机与各厂商的刀片机箱和机架天然配套的优势(BNT是它们的配套供应商),避免了采用昂贵的机柜式核心交换机来做节点之间的网络户连,这样就做到了在保证网络连接性能不低于甚至还高于核心交换机的前提下,大大降低了集群的网络连接成本。 一.刀片服务器集群的网络连接

高性能计算服务器集群BNT网络连接方案

IBM服务器 高性能计算集群(HPC) 网络连接方案 概述 本方案基于用户(东方地球物理公司物探研究院)的应用需求,针对计算机高性能计算集群(HPC)系统,为各种不同的服务器配置选项提出了适合于HPC应用的网络连接模式。 目前高性能计算集群系统可选配的服务器分为两大类: ·刀片机箱式服务器 ·机架式服务器 在将这两类服务器用于HPC应用时,为了最大限度地发挥服务器的高性能、不使运算节点之间的网络互连成为瓶颈,必须针对它们的硬件设计特性分别为它们配置专门的网络交换机并使用特定的网络连接拓扑。BNT公司的刀片交换机和机架式交换机就是这两类服务器集群网络连接的最佳选择。 注:BNT公司(Blade Network Technologies Ltd.)是各刀片服务器厂商(如IBM、HP、NEC、Fujitsi等)最紧密的合作伙伴之一,长期为它们供应刀片服务器的高性能交换机模块,是业界最大的刀片交换机厂商;同时也是最早开发并向市场供应刀片式和机架式万兆以太网(10 GbE)交换机的厂商。 高性能计算集群是否能发挥出所有计算节点真正的性能,其中一个非常关键的因素就是对于节点之间的互连网络的设计:使用什么样的交换机以及用怎样的拓扑,把各个节点连接在一起。 本方案中提供了两种网络连接的模式,分别对应刀片式服务器集群的网络连接和机架式服务器集群的网络连接。这两种方案的设计原则是: ·全线速、低延迟、无阻塞的网络架构——实现HPC的基本保证 ·低功耗、节能——符合新一代数据中心的发展要求 ·易于部署、易于管理、易于维护 BNT公司提供的这两种方案在处理节点间的网络互连时,充分发挥了BNT的刀片式和机架式交换机与各厂商的刀片机箱和机架天然配套的优势(BNT是它们的配套供应商),避免了采用昂贵的机柜式核心交换机来做节点之间的网络户连,这

高性能计算集群云化部署

龙源期刊网 https://www.doczj.com/doc/7015763041.html, 高性能计算集群云化部署 作者:张琦 来源:《中国管理信息化》2019年第03期 [摘; ; 要] 随着云计算与虚拟化技术的不断发展,虚拟化层对资源的耗用越来越低,而云化资源池对各种软硬件资源利用率的提升优势越来越明显。在云计算环境下进行高性能计算已成为可能。文章重点介绍如何在集群系统快速搭建高性能计算私有云环境。 [关键词] 高性能计算;云计算;虚拟化;集群系统;地震资料处理 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 03. 058 [中图分类号] TP311; ; [文献标识码]; A; ; ; [文章编号]; 1673 - 0194(2019)03- 0144- 03 1; ; ; 引; ; 言 多年来,地震资料处理在高性能计算领域一直是典型应用之一,生产应用过程中的不同时期,对各种地震处理软件的使用需求量不同,经常需要在高性能计算集群系统的节点上对不同软件进行切换。然而由于几大软件寡头垄断厂商的竖井式全系列开发模式,导致不同地震处理高性能计算软件对操作系统版本及软件运行环境要求各异,难以在一台高性能计算节点同时安装多套不同厂商的地震处理软件,这就需要通过以重新安装操作系统和处理软件的方式进行软件切换。由于高性能计算系统节点众多,这个过程如果人工操作,必然耗时巨大。而云计算技术恰恰提供了将集群系统资源池化,并根据应用需求进行动态调整部署的方法。随着近些年云计算与虚拟化技术的不断发展,虚拟化层对资源的耗用越来越低,而云化资源池对各种软硬件资源利用率的提升优势越来越明显,在云计算环境下进行高性能计算已成为可能。 2; ; ; 高性能计算集群云化部署的三层架构 高性能计算集群云化部署的层次有三个,最下面的是虚拟化平台层,可以部署CentOS、ESXi等。中间层是云服务层,可以使用Opennebula、OpenStack等。最上层是虚拟机层,可以部署KVM、Vmware等。 3; ; ; 高性能计算集群云化部署方式 整个高性能计算集群云化部署以DHCP+TFTP+PXE+Kickstart方式为主,中间配置使用开源易用的Ansible软件,也可以使用更简便的pdsh并发软件。虚拟化平台层使用CentOS(部署ESXi方法与CentOS相同)。中间层因为私有云环境虚拟机数量在2 000台以下,所以选用轻量级的开源云服务软件Opennebula。虚拟机层使用的是开源的KVM虚拟机,虚拟机操作系统使用的是RHEL,安装的软件是斯伦贝谢公司的Omega地震处理系统。

安装Linux高性能计算集群

安装Linux高性能计算集群 By Christopher Stanton, Rizwan Ali, Yung-Chin Fang, and Munira A. Hussain (Issue 4 2001) 将一个新实施集群框架迁移到可用的高性能计算集群的第一个挑战就是像第三方软件包一样安装操作系统。在4到8个点的集群中,可以手动的安装每一个节点。但是,较大规模的,工业化的集群要求更有效的方法。本文描述了不同类型的集群配置,高效的Linux安装方法。和每一种方法的好处。 -------------------------------------------------------------------------------- 高性能计算集群的主节点和计算节点的配置使用三种主要的类型:松散结合型、适度结合型、和紧密结合型。每一个配置描述计算节点与主节点的依存关系(参见图一)。尽管所有三种类型都要求主节点的可用性来保证任务的运行,但是主节点状态对计算节点的可用性并不是必须的。 图一:主集群的计算节点配置 从操作系统的视点来看,在松散结合型集群中计算节点是完全自主的机器。每节点都有一份操作系统(OS)的拷贝,这个操作系统允许任何人引导系统并登录节点而不需要与与主节点联系――除非网络使用动态Internet协议(IP)地址。获得动态IP地址失败不会抑制一个节点的成功启动,但是它会只能通过本地控制台访问。 集群适度的结合将计算节点跟紧密的与主节点结合。在这配置,计算节点的引导过程中需要主节点的介入,在最简模式,程序和信息需要在引导过程中定位主节点。一旦计算节点已经从主节点接收到所有需要的文件系统,他就会作为独立的机器运转并可以通过所有被定位的文件系统登录。 紧密结合型系统对主节点的依靠更深入一步。计算节点必须通过网络从主节点上加载操作系统。在紧密结合型集群中的计算节点不在本地存储文件系统,除此以外可能会有交换(swap)或临时(tmp)文件系统。从操作系统的视点出发,在计算节点和柱节点之间没有太大的差别。确实不存在独立登陆计算节点的能力。处理空间是平衡的所以集群看起来更像一个大的单片机而不像一个有小型的计算机组成的基群。 以下的章节解释了建设和安装理想类型集群的可以使用应用和方法。每一种配置都具有独特的优势和缺陷,并且讨论和研究了哪一种配置最能适用于特别的需要。 安装松散结合型集群 在松散结合型集群中,每一个计算节点都有一份操作系统的本地拷贝。最单调和令人厌烦的工作就是每次都使用CD进行安装。自动安装松散型集群的方法包括:

华师大高性能计算集群作业调度系统简明手册 华师大高性能计算集群

华师大高性能计算集群作业调度系统简明手册 华师大高性能计算集群采用曙光的Gridview作业管理系统,其中集成了torque+Maui,是十分强大的作业调度器。下面将依次介绍华师大的的作业调度系统的设定,使用,以及相关作业调度命令 一:华师大作业调度系统队列策略设定 由于华师大的超级计算中心共分三期建设,其作业调度设定较为复杂: CPU 节点名 (pestat 可查看) 节点Core 个数 队列备注 第一期E5450 b110-b149 b210-b229 8(2*4) mid1,huge 第二期E5640 b310-b339 b410-b439 8(2*4) mid2, hugeA(需申请) 其中hugeA队列提交后 需经批准 第三期X5675 ,GPU(c2050 ) a110-a149 a210-a249 a310-a339 a410-a447 12(2*6) mid3,small,ser ial,gpu hugeB(需申请), shu(私有队列) itcs(私有队列) 其中hugeB队列提交后 需经批准 shu和itcs为私有队列, 不向公共用户开放 在命令行输入cchelp 可以查看详细的华师大的作业调度系统策略,如下 二:作业调度系统的使用

华师大计算中心共有两个登陆节点login(59.78.189.188)和login1(59.78.189.187),供用户登陆提交相关作业。一般来说,可直接使用命令行提交作业。不过为了规范和易于管理,建议使用PBS脚本进行作业提交,提交命令为qsub **.pbs(pbs脚本文件)。 下面将简要的分别给出串行作业和并行作业的PBS样本(已放至/home/目录下),仅供参考,更多高级功能,请自行查阅相应手册。 1.串行作业pbs脚本样本 #PBS -N test \\表示该作业名称为test。 #PBS -l nodes=1:ppn=1 \\表示申请1 个节点上的1 颗CPU。 #PBS -j oe \\表示系统输出,如果是oe,则标准错误输出(stderr)和 标准输出(stdout)合并为stdout #PBS –q serial \\表示提交到集群上的serial 队列。 . /job>job.log 为提交的作业。 2.并行作业PBS脚本样本

相关主题
文本预览
相关文档 最新文档