当前位置:文档之家› 多集群系统中作业管理的研究与实现

多集群系统中作业管理的研究与实现

单位代号:11903

学日:02720579、上海大学@硕士学位论文

SHANGHAlUNIVERSITYMASTER’STHESIS

题多集群系统中作业管理

目的研究与实现

作者吐壹

学科专业迁簋扭廑旦

导师_筮缱匿

完成日期三矍雯五生=旦

的一个很火的缺陷正在于,每个集群的节点都是一个独立的实体,这就需要中间件“1的支持。L|J间件能让整个集群节点成为荦~系统,成为一个真正的可以共同运算的集群,涮时它还要管理整个集群系统并向用户提供一个统。+的可操作的环境。

并frltl]PTJl(JI%.c、用户接口;伽匝、hkskl商f.用作复■疰藁蜿最者m艘喀其FortrnmIPI、PⅡ每)千羹用私髓翻他千蕞境

单一系统暖象蓑确设培

掣掣mlmwlDilplnm。峄

千菇位:l;l上两叠他夏■舞俘

—囊的骨希斌

鼬嘲斛曹龋—络—硼Vo其饱囊■内爱件瓷潭

内存访阿

图2-1集群系统体系结构‘71

从上图我们可以看出,在集群节点硬件平台上有一组与工作平台相独立的软件子系统,称为集群节点操作系统,提供操作系统最基本的核心功能。操作系统之上便是特殊的扩展或者中间件层,它致力于对用户和上层应用提供一个单一的、独占的、一致的系统视图。它通过软件和硬件来屏蔽集群系统的具体物理结构,实现一定程度的透明性,同时也为高可用性HAiti单一系统映像SSI提供必要的支持。集群中间件可以说是整个集群的核心,通过集群中间件可以对集群方便、高效的进行管理。

最上层便是集群系统的管理、控制和应用扩展实现层,用户的入口、管理员的控制,作业的调度都在这一层具体实现。从中可以看到,作业管理系统软件如LsF、PBS在集群中处于十分重要的位置。用户可以通过透明的作业提交机制在任意一个节点提交作业,作业可以以批处理、交互或者并行模式被调度执行。

为解决集群计算平台异构性问题,目前的趋势是把分布技术和中间件技术相结合。中间件提供的异构环境下通信和互操作功能,为解决多集群系统中的负载平衡问题提供了有力的工具。

2.3多集群系统中作业管理的特点

科学工程计算的迅速发展,使得人们对高性能计算能力的需求不断增长。除了不

f:J_人学坝i学位论文

3.2.2体系结构

作业管理是保证用户合理有序地使用多集群计算资源的基础。在多集群作业管理系统中关键是如何对作业进行调度,找到作业和资源之间的最佳映射。我们针对上海大学多集群环境提出了一个模块化的、可扩展的作业管理体系结构,并在其E展开了系统的实现工作,它的体系结构可以由下图表示:

图3-2多集群作业管理系统体系结构

我们采用层次式体系结构实现多集群作业管理系统,每层功能相互独立,保证层与层接口相对稳定,可以做到较大的灵活性和扩展性。从软件开发的观点来看,采用巾问件技术可以集成、连接不同结构的应用和系统,可以为分布应用提供跨网络、跨平台(硬件和操作系统)的透明性和互操作功能。这里作业管理中间件层次的引入使用户获得了一致的使用界面,屏蔽了各种高性能集群系统底层软硬件的异构性,便于合理分配计算资源,有效提高资源的利用率,充分发挥多集群系统的计算能力。

根据提交作业的帐户权限用户通过访问门户提交作业,如MPI作业。用户一旦向系统提交作业,将产生以XML语言描述的作业提交文本,文本中可以指定作业运行所需的各种资源,输A./输出文件,指定作业的运行环境等,该文本交由作业控制模块解释处理,同时防问资源信息库,利用节点接口模块将请求转换成本地作业管理系统的请求格式,由本地作业管理系统加载作业并执行,执行完毕后将作业结果返回给用户。多集群作业管理中间件的实现使多个具有不同硬件体系结构、不同操作系统,乃

相关主题
文本预览
相关文档 最新文档