曙光作业管理-调度系统安装配置手册
- 格式:docx
- 大小:116.70 KB
- 文档页数:9
银河麒麟服务器操作系统Hadoop 软件适配手册目录目录 (I)1概述 (2)1.1系统概述 (2)1.2环境概述 (2)1.3HADOOP 软件简介 (2)1.4HDFS 架构原理 (2)1.5MAPREDUCE 介绍 (3)1.6YARN 介绍 (4)2HADOOP 软件适配 (4)2.1解压HADOOP 软件 (4)2.2配置文件修改 (4)2.2.1配置HADOOP-ENV.SH (4)2.2.2配置YARN-ENV.SH (5)2.2.3配置CORE-SITE.XML (5)2.2.4配置HDFS-SIZE.XML (5)2.2.5配置MAPRED-SITE.XML (6)2.2.6配置YARN-SITE.XML (6)2.2.7配置SLAVES (7)3格式化并启动集群 (7)3.1格式化NAMENODE (7)3.2启动NAMENODE 和DATANODE 守护进程 (7)3.3启动RESOURCEMANAGER 和NODEMANAGER 守护进程 (7)4执行WORDCOUNT 测试用例 (7)1概述1.1系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域,突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势,针对关键业务构建的丰富高效、安全可靠的功能特性,兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产品,以及达梦、金仓、神通等主要国产数据库和中创、金蝶、东方通等国产中间件,满足虚拟化、云计算和大数据时代,服务器业务对操作系统在性能、安全性及可扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。
1.2环境概述1.3Hadoop 软件简介Hadoop 是一个由Apache 基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。
充分利用集群的威力进行高速运算和存储。
超算中心服务门户系统的设计与实现作者:王秀梅张运动来源:《电脑知识与技术》2020年第28期摘要:随着超级计算中心系统计算性能不断提高,对校级超算中心的运行管理和服务能力提出了考验,文章以某大学超级计算中心为例,从该中心提供服务的对象和内容实际出发,探讨了校级超算中心服务门户的设计与实现。
关键词:超算中心;门户系统;计算系统中图分类号:TP311.52 ; ; ;文献标识码:A文章编号:1009-3044(2020)28-0096-031 背景中国科学技术大学超算中心目前有瀚海20超级计算系统和曙光TC4600超级计算系统,计算能力高达3.168千万亿次/秒,计算能力位居国内高校前列。
中心不仅面向校内外有高性能计算需求的科研院系师生和用户提供高性能计算服务,此外还向需求用户提供高发热密度的计算服务器及配套设备托管服务、计算软件合作研发服务、用户培训服务等等。
为提高本中心的管理服务水平,针对这种向特定科研群体提供服务的特性,需要开发一套平台进行管理运维,从而设计了具有用户管理、计费管理、系统运行分析及性能监控、成果统计等功能的超算中心创新型服务门户系统。
2 总体框架设计首先,本服务门户系统根据用户使用方式设计一套包括资源申请和审批功能的工作流程。
另外该系统是在原有LSF作业调度系统的基础上开发的,故可通过操作系统接口以及作业调度系统接口获取系统信息和作业调度系统的作业信息,通过作业调度系统的接口实现提交和管理作业,以及对作业调度系统的配置进行修改。
设计该门户系统应具备以下几层:1)被管理对象层:主要包括系统管理的软硬件设备;2)交换层:包括门户系统与操作系统与作业调度系统的接口;3)数据存储层:使用Mysql作为系统的核心数据库;4)业务逻辑层:所有的业务逻辑,如:工作流程、作业管理、系统管理、用户管理等功能都在该层实现;5)系统展示层:通过Web实现用户交互,包括标准展示和自定义展示。
3 门户系统主要功能模块设计3.1 在线注册和用户登录此功能提供包含校内外用户可访问的在线注册功能,对校内用户支持是否为在校师生等身份认证,支持本校的现有统一身份认证系统。
山西曙光船窝煤业有限公司“12·24”一般机电事故调查报告2018年12月24日12:40分,山西曙光船窝煤业有限公司(简称船窝煤业)井下20105综采工作面切眼发生一起机电事故,造成1人死亡,直接经济损失225万元。
事故发生后,该公司按规定向上级有关部门进行了上报。
根据《中华人民共和国安全生产法》、《煤矿安全监察条例》、《生产安全事故报告和调查处理条例》、《煤矿生产安全事故报告和调查处理规定》等法律法规,2018年12月28日,山西煤矿安全监察局临汾监察分局组织运城市公安局、总工会、安监局并邀请运城市监委成立了事故调查组,对事故展开调查。
事故调查组按照“科学严谨、依法依规、实事求是、注重实效”的基本要求,通过现场勘察、调查取证、技术认定及综合分析,查清了事故经过和原因,认定了事故性质和责任,提出了对事故责任人和责任单位的处理建议,制定了防范和整改措施,现报告如下:一、事故单位概况(一)山西曙光煤焦集团有限公司山西曙光煤焦集团有限公司组建于2002年6月,是一家集采煤、洗煤、炼焦、发电、建材、公路运输、铁路发运为一体的煤炭综合利用民营企业。
集团注册资本2.18亿元,资产总额22亿元。
集团公司下设四个子公司:山西曙光船窝煤业有限公司、山西曙光电力有限公司、山西曙光建材有限公司、山西曙光运输有限公司。
集团公司设置股东会、党委、董事会、监事会、经理层,总部设5个职能部室。
现有职工1800人,其中党员58人。
集团公司不设生产管理机构,仅对各子公司行政人事、产量、质量、工艺、消耗等指标进行考核,各子公司安全生产管理工作由各子公司负责。
(二)山西曙光船窝煤业有限公司山西曙光船窝煤业有限公司是山西曙光煤焦集团有限公司的全资子公司。
2009年9月28日,经晋煤重组办发[2009]46号文件批复为兼并重组整合矿井,批准开采2#、10#煤层,井田面积12.8439km2。
矿井核定生产能力120万吨/年,设计可采储量3869万吨,服务年限23年,其中2#煤层服务年限5年、10#煤层服务年限18年。
银河麒麟服务器操作系统KVM 虚拟化软件适配手册目录1概述 (2)1.1系统概述 (2)1.2环境概述 (2)1.3VIRT-MANAGER 及相关软件简介 (2)1.4VIRT-MANGER 架构及原理 (2)1.4.1KVM (3)1.4.2QEMU (3)1.4.3LIBVIRT (3)2VIRT-MANAGER 使用方法 (4)1)安装VIRT-MANAGER 及相关软件 (4)2)配置LIBVIRT (4)3)启动LIBVIRT 服务 (4)4)启动VIRT-MANAGER (4)5)创建存储池 (4)6)创建虚拟机 (6)7)启动虚拟机 (14)8)关闭虚拟机 (14)9)添加虚拟设备 (14)1概述1.1系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域,突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势,针对关键业务构建的丰富高效、安全可靠的功能特性,兼容适配长城联想、浪潮、华为、曙光等国内主流厂商的服务器整机产品,以及达梦、金仓、神通、南大通用等主要国产数据库和中创、金蝶、东方通等国产中间件,满足虚拟化、云计算和大数据时代,服务器业务对操作系统在性能、安全性及可扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。
1.2环境概述1.3virt-manager 及相关软件简介virt-manager 是虚拟机管理器(Virtual Machine Manager)应用程序的缩写,也是管理工具的软件包名称。
是用于管理虚拟机的图形化的桌面用户接口。
其工作流程依赖libvirt 的API 实现,能够提供诸如虚拟机生命周期管理,虚拟机CPU,内存,磁盘,网卡,显卡,终端等虚拟资源的管理功能。
virsh 是用于管理虚拟化环境中的客户机和Hypervisor 的命令行工具,与virt-manager 等工具类似,它也是通过libvirt API 来实现虚拟化的管理。
4610、4620天傲平台软件快速安装指南4610或4620视频服务器的安装天傲平台服务器软件安装一、操作系统的安装1、要求安装在专用服务器上,如:HP、IBM、浪潮、曙光、联想等品牌服务器。
服务器推荐配置:XEON2.8G CPU(建议双CPU)/1G内存/ SCSI 73G*2硬盘/1000M网卡;如果有磁盘阵列,建议做RAID0或RAID5,给C盘系统分区10-20G左右,备份分区E盘10G左右,剩余磁盘空间全部用于存储课件;2、安装服务器版操作系统Windows 2000 Server(普通版或高级版);3、安装常见Windows系统补丁:SP4、冲击波、震荡波等;4、安装服务器版杀毒软件,能自动在线升级;5、安装DirectX 9.0C、MDAC_2.8简体中文版、NET Framework1.1.exe(windows 2003系统不需安装“NET Framework”程序、安装补丁NDP1.1sp1-KB867460-X86)。
6、天傲8000/2930TD软件安装完成后,服务器的IP地址就不要更改,否则部分软件需要重新设置才能正常使用。
二、SQL Server 2000数据库的安装安装SQL2000 Server和SP3,安装过程和注意事项同2930软件一样,如熟悉可略过本部分。
1、安装SQL Server 2000a)服务帐户:服务设置—“使用本地系统帐户”,不要用“使用域用户帐户”。
b)身份验证模式:使用“混合模式(Windows身份验证和SQL Server身份验证),密码输入123”。
c)选择许可模式:每客户—根据实际需要输入数量。
(建议20-200)2、安装SQL SP3补丁:输入sa密码123,再选“升级Microsoft Search并应用SQL Server 2000 SP3”。
3、建立新数据库“dplan”(第一次使用先运行服务管理器)开始→程序→Microsoft SQL Server→企业管理器→打开目录树点中“数据库”右键→新建数据库→名称“dplan”→确定。
Torque + Maui配置手册之抛砖引玉篇 本文将以应用于实际案例(南航理学院、复旦大学物理系、宁波气象局)中的作业调度系统为例,简单介绍一下免费开源又好用的Torque+Maui如何在曙光服务器上进行安装和配置,以及针对用户特定需求的常用调度策略的设定情况,以便可以起到抛砖引玉的作用,使更多的人关注MAUI这个功能强大的集群调度器(后期将推出SGE+MAUI版本)。本文中的涉及的软件版本Torque 版本: 2.1.7 maui版本:3.2.6p17。
1. 集群资源管理器Torque
1.1. 从源代码安装Torque 其中pbs_server安装在node33上,TORQUE有两个主要的可执行文件,一个是主节点上的pbs_server,一个是计算节点上的pbs_mom,机群中每一个计算节点(node1~node16)都有一个pbs_mom负责与pbs_server通信,告诉pbs_server该节点上的可用资源数以及作业的状态。机群的NFS共享存储位置为/home,所有用户目录都在该目录下。
1.1.1. 解压源文件包 在共享目录下解压缩torque # tar -zxf torque-2.1.17.tar.gz 假设解压的文件夹名字为: /home/dawning/torque-2.1.7
1.1.2. 编译设置 #./configure --enable-docs --with-scp --enable-syslog 其中, 默认情况下,TORQUE将可执行文件安装在/usr/local/bin和/usr/local/sbin下。其余的配置文件将安装在/var/spool/torque下 默认情况下,TORQUE不安装管理员手册,这里指定要安装。 默认情况下,TORQUE使用rcp来copy数据文件,官方强烈推荐使用scp,所以这里设定--with-scp. 默认情况下,TORQUE不允许使用syslog,我们这里使用syslog。
1.1.3. 编译安装 # make # make install
Server端安装设置: 在torque的安装源文件根目录中,执行 #./torque.setup root 以root作为torque的管理员账号创建作业队列。
计算节点(Client端)的安装: 由于计算节点节点系统相同,因而可以用如下SHELL script (脚本名字为torque.install.sh)在 其余计算节点上安装: 创建torque.install.sh脚本 #vi torque.install.sh #!/bin/sh cd /home/dawning/torque-2.1.7 make install 使用如下命令:npssh -on node1..32 sh /home/dawning/torque.install.sh 将在每个节点上安装TORQUE。
1.1.4. TORQUE配置 1.1.4.1 在计算节点上配置TORQUE: 在每个计算节点,必须配置MOM daemon信任pbs_server daemon,可以通过编辑/var/spool/torque/server_name来实现,把node33写入该文件即可。 #cat /var/spool/torque/server_name node33 其余的配置参数写入/var/spool/torque/mom_priv/config 文件。
配置计算节点的数据管理,数据管理允许作业的数据在计算节点和PBS_Server之间传递。对于共享文件系统,如NFS,可以通过在mom_priv/config 中用$usecp参数来指定如何映射用户的根目录。 $usecp *:/home /home
这里集群的mom_priv/config内容如下: # MOM server configuration file # if more than one value, separate ## rule is defined by the name
## host allowed to connect to mom server on privileged port # note: IP address of host running pbs_server it by comma. $pbsserver 10.0.68.33 $clienthost node33 #ideal processor load and max processor load $ideal_load 7 $max_load 8 ## host allowed to connect to Mom server on unprivileged port #Specifies hosts which can be trusted to access mom services as non-root. #By default, no hosts are trusted to access mom services as non-root. $restricted *.node33 ## Log event : # 0x1ff : log all events + debug events # 0x0ff : just all events $logevent 0x0ff ## alarm if the script hang or take very long time to execute $prologalarm 30 ## Specifies which directories should be staged $usecp *:/home /home
Server端资源管理配置 指定计算节点 为了让pbs_server与每个计算节点进行通信,它需要知道要和那些机器联络,集群中的每个计算节点都必须在nodes文件中指定,一个1行。 #rsh node33 #cd /var/spool/torque/server_priv #for i in `seq 1 32`;do echo node$i np=2;done > nodes #cat nodes node1 np=8 node2 np=8 node3 np=8 node4 np=8 node5 np=8 node6 np=8 node7 np=8 node8 np=8 node9 np=8 node10 np=8 node11 np=8 node12 np=8 node13 np=8 node14 np=8 node15 np=8 node16 np=8 node17 np=8 node18 np=8 node19 np=8 node20 np=8 node21 np=8 node22 np=8 node23 np=8 node24 np=8 node25 np=8 node26 np=8 node27 np=8 node28 np=8 node29 np=8 node30 np=8 node31 np=8 node32 np=8 np=8是说每个节点有8个CPU(其余的以线程来跑)。
指定作业的提交节点为node33,node34,node35: [root@node33 ~]# qmgr -c 'set server submit_hosts = node33' [root@node33 ~]# qmgr -c 'set server submit_hosts += node34' [root@node33 ~]# qmgr -c 'set server submit_hosts += node35' 1.1.5. 系统自动启动脚本 1. Server的系统启动脚本/etc/init.d/pbs_server 该脚本单独启动/重新启动/暂停/查看状态TORQUE中Server的守护进程 #cp contrib/init.d/pbs_server /etc/init.d/ 编辑pbs_server: #vi /etc/init.d/pbs_server PBS_DAEMON=/usr/local/sbin/pbs_server PBS_HOME=/var/spool/torque 要确保这两个变量设定正确。
2. Mom系统启动脚本/etc/init.d/pbs_mom,在计算节点执行。 该脚本单独启动/重新启动/暂停/查看状态TORQUE中Mom的守护进程。 #cp contrib/init.d/pbs_mom /etc/init.d/ #vi /etc/init.d/pbs_mom PBS_DAEMON=/usr/local/sbin/pbs_mom PBS_HOME=/var/spool/torque
PBS_SERVER端测试: 重启pbs_server,使刚才的配置生效。 >/etc/init.d/pbs_server restart # verify all queues are properly configured > qstat -q # view additional server configuration > qmgr -c 'p s' # verify all nodes are correctly reporting >pbsnodes -a # submit a basic job - DO NOT RUN AS ROOT > su - testuser >qstat
2. 调度器系统MAUI的安装配置 2.1.1. 在共享目录下解压缩MAUI # tar -zxf maui-3.2.6p17.tar.gz 假设解压的文件夹名字为: /home/dawning/maui-3.2.6p17
2.1.2. 编译 要是MAUI和TORQUE无缝的结合在一起,确保管理节点(PBS SERVER)上TORQUE