当前位置:文档之家› 利用DRBD和OpenSSI构建高可用集群系统

利用DRBD和OpenSSI构建高可用集群系统

利用DRBD和OpenSSI构建高可用集群系统
利用DRBD和OpenSSI构建高可用集群系统

利用DRBD和OpenSSI构建高可用集群系统*

龚念袁由光

(武汉数字工程研究所武汉430074)

摘要为提高集群系统的可靠性和计算性能并降低成本,提出将单一系统映像的集群系统(S i ng l e Syste m I m age)和分布式复制块设备技术(DRBD)结合起来构建一种高可用集群(SSI-DRBD集群)。这种利用单一系统映像和DRBD技术所构建的集群具有高性能、高可靠、实时性强、易管理和低成本等特点,可作为周期性、高强度和多元信息处理的平台。

关键词DR BD O penSSI LV S SSI root fa il ove r

中图分类号TP391

1引言

集群是利用现有的工作站或高档微机资源,通过高速网络连接构成的并行系统,由于具有用户投资风险小、结构可扩展性好、用户可继承原有的软件资源、编程方便并且构造简单等特点,目前已成为并行处理发展的主流。现在常用的集群大致分为科学集群、负载均衡集群和高可用性集群三种。

在军用指控系统中,必须采用高可用集群以满足作战要求。在高可用集群中,为了保证数据的高可靠性,数据的保存大多依赖SAN,NAS等共享存储设备。一旦采用SAN,NAS,就意味着整个集群成本的提高。为了满足指控系统的要求并降低成本,本文提出一种利用DRBD技术和两台普通商用PC来构建高可靠的存储设备的方法,以满足我们对数据的高可靠性要求。

除了数据的高可靠性之外,集群的可管理性和易用性对于集群的管理员和用户来说也是一个非常重要的问题,利用分布式系统中的单一系统映像技术,使得管理员和用户像使用一台虚拟的大型计算机一样来管理整个集群,从而具有很好的可管理性和易用性。

2SSI系统设计

单一系统影响SSI是由中间件层实现的,处于操作系统和用户层环境中间。集群中间件负责为独立但互连的计算机对外提供统一的系统映像(单一系统映像)。整个系统分为三部分,具体个部分的功能如下:

第一层:前端机和备份机,运行LVS来进行调度,两者互为备份以提高系统的可用性,是整个系统的信息入口,负责接收客户端请求,并将这些请求按照一定的策略(8种调度算法)分配到集群内部的各处理节点。

第二层:集群内部处理节点的本地操作系统内核和本地进程。集群内部处理节点的本地操作系统内核以及本地进程负责各个节点的系统自举,提供基本的OS底层调用以及基本的应用软件支持,逻辑上位于集群系统SSI的边界之外。

第三层:SSI(S i n gle Syste m I m age)层,集群系统中间件层,包括全局I PC,全局工作进程S I O S,逻辑上位于集群系统SSI的边界之内。SSI实现在操作系统内核层,通过修改与I PC对象,进程信号相关的系统调用,集群内部节点相互协作,统一调度,透明的对用户层应用程序提供SSI服务。

3关键技术

3.1单一系统映像(OpenSSI)

OpenSS I的目标是建立一个可扩展、可用性高、可管理的集群环境。其核心技术体如下:

(一)全局进程I D号:运行在集群环境中的每个进程在整个集群范围内都有自己唯一的PI D。特别是对于用户、管理人员或某个进程,集群中所有节点上的所有进程都可见、可访问的(/proc目录展示所有进程),就像运行在一台机器上,因此用户可以启动远程节点上的进程,甚至可以将某个节点上正在运行的进程迁移到其它节点上。

(二)文件系统的单一映像:整个集群只有一

45

第35卷(2007)第8期计算机与数字工程

*收到本文时间:2006年10月20日

作者简介:龚念,男,硕士研究生,研究方向:并行计算与系统结构。袁由光,男,研究员,研究方向:计算机系统结构。

个根文件系统(root filesyste m ),该文件系统的目标是让所有节点上的进程看到相同的文件树(fil e sys -te m tree),并且根文件系统在集群范围内都是可见的。其中/etc /fstab 文件用于记录所有节点上的文件系统,这样可以明确每个节点上有哪些文件系统,还可以记录文件系统在节点间的转移情况,除此之外,系统用/ect/m tab 文件来记录每个文件系统挂接的位置。

(三)全局进程间通讯对象:OpenSSI 集群上所有进程间通讯对象(I PC)在整个集群范围内部都是可共享、可命名的。这意味着对于信号量、消息队列、共享内存等,它们都在一个名字空间(na m espace)中,并且所有节点都可以使用这些对象。虽然SSI 集群支持远程设备访问,但每个节点仍然有自己的一组设备(通过dev fs 管理)、设备目录和自己的交换空间(s w ap space)。

(四)虚拟I P 技术:首先,每个节点有多个地址,其中一个地址是用于内核通讯(kerne l-to -kerne l co mm un i c ation)。这个地址还可以用于MPI 或不同节点上应用程序之间的通讯。其次,当某个节点发生故障或是从集群中离开时,集群将该节点机网卡的工作转移到其它节点的网卡上,这样集群就能对外提供不间断的服务。3.2 分布式复制块设备

分布式复制块设备技术(DRBD )是由内核模块和相关脚本构成,它可用于构建高可用性集群。其实现方式是通过网络镜像整个设备,以达到提供高可靠数据服务的目的。DRBD 和OpenSSI 的搭配使用能够为各种机构和组织提供一个经济有效的高可靠集群服务平台,并且增强应用程序、数据传输和网络服务的可靠性。

DRBD 的工作模式如下:每个设备(drbd 提供了不止一个设备)都有一个状态,可能是/主0状态或/辅助0状态。在具有主状态设备的节点上,应用程序应能运行和访问设备/dev /nbX (dr bd 的低级别设备)。每次写入都会发往本地低级别块设备和带有/辅助0状态设备的节点中。辅助设备只能简单地把数据写入它的低级别块设备上。读取数据通常在本地进行。如果主要节点发生故障,利用心跳机制把辅助设备转换到主状态,并启动其上的应用程序。如果你将它和无日志FS 一起使用,则需要运行文件系统检查程序(fsck)。如果发生故障的节点恢复工作,它就会成为新的辅助节点,而且必须使自己的内容与主节点的内容保持同步。

当然,这些操作不会干扰到后台的服务。

目前大部分主流高可用性集群(如:惠普、康柏等等)使用的都是共享存储器,存储器连接集群多个节点(用共享的SCSI 总线或光纤通道就可以做到)。DRB D 也可以作为一个共享设备,但它并不需要任何不常见的硬件。它在I P 网络中运行,而且在价格上I P 网络比专用存储网络经济的多。

下面我们将利用OpenSSI 和DRBD 这两种技术来搭建一个高可用的SSI-DRBD 集群,并从系统的拓扑结构和配置与测试对整个集群系统作一个详细的介绍。

4 SSI-DRBD 集群拓扑结构与实验结果

图1 SSI-DRBD 集群体系结构

我们构建的SSI-DRBD 集群的拓扑结构如图1所示。该集群由n 个计算节点组成,分别是ROOT 1,ROOT 2,NODE 3,NODE 4,,NODE n-1和NODE n 。其中ROOT 1和ROOT 2是OpenSSI 的监控节点(M on ito r),也是根文件系统(Root F ilesyste m )的挂接点。在图1中:n 个节点通过交换机连接构成集群,其中配备了DRBD 软件的ROOT 1和ROOT 2成为集群的根文件系统,同时也负责管理、控制整个集群。它们当中一个作为主控节点(Pr-i m ary node ),另一个作为从控节点(Secondar y node),这两个节点同时可充当计算节点。

实际试验过程当中,我们利用七台普通商用PC 机按照如图一中的拓扑结构构建了一个SSI-DRBD 的集群系统,其中两台计算机作为客户机(CLI E NT )、两台计算机作为主控节点和从控节点,其他三台计算机作为集群的计算节点。

在正常情况下,只有主控节点对外提供集群服务,而从控节点处于热备状态(S tandby),主/从节点上分别配有两块网卡,其中一个作为集群内部联接,另一个对外提供集群服务。两块对外提供集群服务的网卡应用集群虚拟I P 技术与外网连接,为

46

龚 念等:利用DRBD 和OpenSSI 构建高可用集群系统 第35卷

用户提供单一的虚拟I P地址。如果正在对外提供服务的主控结点宕机,那么从控节点将立刻接替它的工作,继续对外提供服务,从而提高了整个系统的可靠性和可用性。

4.1系统配置

硬件需求:7台普通商用PC机(其中两台需配有双网卡并作为互备根节点)

软件需求:DRBD软件、基于OpenSSI的内核源码包、OpenSSI软件和刻有etherboot可光盘引导的光盘(所有软件包拷贝到/usr/src目录下)

(1)安装操作系统

选取其中一台拥有双网卡的计算机作为节点1,安装RedhatH at Fedora Core2,安装过程中硬盘分区时请注意,/boot区和根目录区必需分开,并且在扩展分区中建立一个drbd的次级设备分区。最后为两块网卡配置I P地址并修改host n a m e。

(2)安装OpenSS I

解压缩OpenSSI软件,进入其目录执行安装命令,安装过程中有两点要注意:首先安装过程中选择的网卡是内联的网卡,用于连到N ode2,其次,一定要选择启用根文件系统失效转移(roo t fa ilover)的功能。

(3)安装DRBD

解压缩drbd软件,进入其目录执行m ake in-stall命令安装。最后创建initrd文件,并修改GRUB启动目录使其能够以新的L i n ux内核启动。

(4)配置节点2

将另外一台拥有双网卡的计算机用e t h er boo t 启动,这台计算机作为节点1的备份节点,在N ode1上利用ssi-addnode命令添加第二个节点,注意在配置过程中选择roo t fa ilover。在N ode2上对其硬盘进行分区使其与节点1的硬盘分区相一致,最后进入Node2的GRUB编辑器修改Node2从本地硬盘启动。

在配置完节点1和节点2后,在节点1上利用ssi-addnode命令集群添加其他三台计算机作为集群系统的计算节点,剩下的两台计算机负责从外网访问整个集群系统,最后启动整个集群系统(ROOT1和ROOT2都从本地磁盘启动)。至此,整个集群系统配置完毕。

配置过程中需要注意的问题:

(1)对于异构的集群系统,根文件系统节点ROOT1和ROOT2非常重要,请选择同为超线程和非超线程的机器,目前为止,DRBD对于超线程和非超线程的机器做DRB D还存在bug,配置将失败。

(2)特别注意在对ROOT1和ROOT2进行硬盘分区时,/boot分区和根目录分区必须划分为两个独立的分区,并且ROOT1和ROOT2的硬盘分区顺序要匹配,容量最好也相当,否则数据镜像将失败。

(3)在完成ROOT1和ROOT2的配置后,进入系统后的第一次同步非常重要,这将是整个系统配置完成后数据的第一次完全同步,如果这个同步没有完成,两台系统的文件系统表/etc/fstab将被破坏,整个系统将崩溃,配置需要从头再来。

请注意配置过程中的上面3个比较重要的问题。

4.2系统测试

接下来我们对这个SSI-DRBD集群做了三个方面的实验:分别是测量集群的负载平衡、集群的故障模拟和根文件系统节点间的数据同步。

(1)在测量集群的负载平衡实验当中,我们利用OpenSSI提供的一个de mo程序,调用fork()函数创建了50个进程,然后利用监视程序观察这50个程序在SS I-DRBD集群中节点间的分布情况,截图效果如下:

N ode1:l oad avg11.327.213.60N ode2:load avg13. 106.222.77

132306132310132311132313132315132307132308 132309132312132314

132328132329132332132333132334132324132325 132330132331

132352

N ode3:l oad avg10.246.214.60N ode4:load avg14. 107.223.77

132319132321132322132326132327132316132317 132318132320132323

132335132337132338132341132345132339132340 132342132343132344

132336

N ode5:l oad avg11.105.221.77

132347132348132349132350132351

132353132354132355132346

在图中我们可以看到每个集群节点上运行的进程号以及各个节点机的负载。创建的50个进程几乎平均分配到了各个计算节点上,实际效果较好的满足了我们的需求。

(2)在集群故障模拟的实验当中,我们人为模拟根文件系统的宕机故障(拔掉主控节点的电源),在进行切换的过程中,服务进程能够在15秒之内在从控节点上启动,对外提供不间断的服务,对于普通应用来说,这已能达到需求。

(下转第116页)

47

第35卷(2007)第8期计算机与数字工程

的优势,被认为是目前不确定知识表达和推理领域最有效的理论模型。我们可以基于BBNs 改进前面采用的线性模型,综合利用软件开发过程信息预

测软件故障数。

图3 贝叶斯信念网络故障预测原型模型

一个BB N s 是一个有向无环图,由代表变量的节点及连接这些节点的有向边构成。节点代表随

机变量,可以是任何问题的抽象,如问题复杂度、观测现象、意见征询等。节点间的有向边代表了节点间的相互关联关系。将BB N s 应用于软件故障预测的步骤是:(1)确定变量及其顺序;(2)建立BBN s 结构;(3)确定BBN s 的参数)CPT 。本文采用如图3所示的BBNs 故障预测原型模型。这个模型可以解释为两个阶段:第一个阶段覆盖了软件生命周期的规约、设计和编码,第二个阶段覆盖了测试。设计规模和故障数节点为整数或者一个限定的范围,故障密度为实数,其它节点有下面的状态:很高,高,中等,低,很低。已有的研究表明该模型在故障预测方面更符合实际情况

[5]

7 结论

在纠正性软件维护中,关注所有模块是不现实的,本文采用基于软件模块排序模型来选取候选模块。本文给出了该模型评估和使用的方法,案例研究说明了该模型的可用性。基本定量模型计算方便,数据易获取,但是却过于简单,我们提出基于BBNs 的方法改进基本定量模型。很明显,基于BBNs 的模块故障预测需要较大的数据信息和计算量,如何优化数据和计算是一个需要继续探讨的问题。将来的工作还包括:BB N s 建模方法及结构优化,基于BB Ns 模型与简单线性模型易用性的比较。

参考文献

[1]M yers ,R.H.C lassical and M ode rn R egression w ith A p -p licati ons[M ].Duxbury Ser i es ,PW S -K ent Pub lish i ng ,Boston ,1990

[2]K hoshgoftaar ,T.M,Eward B .A llen .O rdering F au lt-Prone So ft w are M odu l es[J].Soft w are Q uality ,2003,11:19~37

[3]D illon ,W.R.and G o ldste i n ,M.M ultivariate Ana l ys i s :M et hods and A pplicati ons[M ].John W iley &Sons ,N e w Y o rk ,1984

[4]K hoshgo ftaar ,T.M,Y i L i u ,Se li ya ,N.A m ultiob jecti ve

m odule -orde r mode l for so ft wa re qua lity enhance m ent [J].IEEE T ransacti ons on Evo l utionary Co m puta ti on ,2004,8(6):593~608

[5]罗云锋,贲可荣.基于BBN s 的软件故障预测方法[C].第五届全国应用与软件学术会议论文(NA S A C2006)

(上接第47页)

(3)在数据同步的实验当中,主从节点机之间的百兆网卡能够提供高达12M B /s 数据同步能力,每次开机主从节点的同步仅需要10秒左右就能完成,也能较好的满足需求。

5 结论

由以上的系统测试结果来看,我们所构建的SSI-DRBD 在易用性、可管理性、高性能、成本方面

都较好的满足我们的需求。单一系统映像系统的全局资源管理和分布式复制块设备中的实时、大吞吐量的数据同步技术对分布式系统的系统结构具有比较好的借鉴意义和应用价值。

参考文献

[1]袁由光.实时系统中的可靠性技术[M ].清华大学出版社,1995

[2]L i nux C l uste r project .h ttp ://www.openss.i org [3]L i nux DRBD project .http ://www.drbd .o rg

[4]白欣,宋博,左继章,向建军.单一系统印象集群管理系统的研究与实现[D ].空军工程大学工程学院

[5]K a iHwang ,H a i Ji n ,Ed w ard Chow,Cho-L iW ang ,Zh-i

w ei X u ,D esi gn i ng SSI C l uste rs w ith H i erarch ica l Check -po inti ng and Si ng l e I /O Space [J].IEEE Concurrency ,

1999

[6]G eoffroy V all ee ,Stephen .Scott ,Chr i sti neM o ri n ,Jean-Y ves Berthou ,H ugues P risker .SSI -O SCAR:a C luster D istri buti on for H i gh Performance Computi ng U si ng a S i n -g le Syste m I mage[J].IEEE ,2005

116

罗云锋等:基于软件模块排序模型的纠正性软件维护 第35卷

Com puter and D ig ita l Eng ineer i n g I ndex(Vo.l35No.8)

in Ad hoc ne t wo rks.

K ey word s Ad hoc netwo rks,sing le-pa th routing, co m parison(Page:23)

App lication of Three-d i m en si onal Emu lati ng M ode l to the D a maged O bjects by T an g Q i Abstrac t Dumm y battle fie l d is the v isua l p l a t for m o f ap-p lying o f m ilitary em u l a t i o n.T h is article ana lyses the key techn ique o f app ly i n g common dumm y techn ique to spe-c ific dumm y ba ttle fi e ld.It d iscusses the way o fm ode ling o f th ree-dm i ensiona l ob jects.It a lso theo ret ically ana ly-se s the a lte rnat i v e ope r a tion be t ween ob j e ct m ode ling and em u l a ting node in em u l a t i o n.And fina lly,it resea r-ches the m i p le m en t a tion p rocedu re o f D I S com b in i n g dy-na m ic g rap hic d isp l a ying.

K ey word s D I S,ob ject m ode ling,visua l mode ling,sm i u-lation m ode,l evaluating(Page:26)

P i geonh ole Princ i p le and App licati on by H e Chun Abstrac t The p igeonho le p rincip le is a m i po rtant p rinc-i p le in com b ina tor i c s.Th is article in troduces its app li c a-tions and sum s up som e o f them and ana lyses how to instruct d rawer acco r d i n g to the question.

K ey words p igeonho le p rincip le,d rawe r,drawe r confo r-m ation,e lem ent(Page:28)

Face R ecogn ition B ased on I mp roved LDA A l gor ithm

by Q i X ing m i n Abstrac t Th is artic l e g ives a new a l g o rith m o f face rec-ogn it i o n based on LDA fo r face recogn ition.It ove r-com es the w eakness o f the tr ad iti o na l LDA a l g o rithm by rede fi n ing the m atrix be t ween s am p l e s and the F isher ru les.Thus the m ost m i portant info r ma tion is rese rved and the recogn it i o n rate is m i proved.The test resu lt also show s th i s a l g o rithm is feasi b le and it has a higher recog-n iti o n rate com pa red to trad it i o na l way o f PCA+LDA.

K ey word s LDA,PCA,recogn it i o n rate,ma trix be-t ween samp l e s,m atrix w ithin s am p l e s(Page:31)

A l gor ithm s of R etrieval Syste m by R en Zhen Abstrac t The search f o r m u l a is a k ind o f add ress w hich is specially des i g ned fo r vis iting search eng i n e database. Fu ll text search ing eng i n e p l a ys an m i po rtant ro le in sc-i en tifi c and techn ical docu m en t re tri e va l because it p ro-v i d es the m ost extens i v e w ide of i n fo r ma tion and enab l e fu lly to response key wo rds en te red by u sers.T h is tech-no logy is a m i ed at ana lyz ing and sea rch ing o f eve ry word in the fu ll text and ob ta i n ing fu ll conten ts o f an a rticle. The re f o re,it prov i d es the g reat conven ience to R&D.

K ey word s fuzzy search,search f o r m u l a te,que ry func-tion(Page:33)

R esearch on Service-O r i en ted A rch itecture of W eb H et-erogeneous D ata Integrati on by W u D andan Abstrac t Research on he te rogeneous data in tegra tion us i n g trad itional m i d d leware techno logy has got g reat a-ch i e ve m en t,how ever,there are st ill som e p rob lem s: (1)requ irem ent fo r sm i ilar syste m s,(2)unab le to go through firewa ll we l,l(3)inte raction be t ween d iffe rent component m ode ls.W e introduce web se rvice techno l o-gy in th is pape r,p rom o te a m ethod for hete rogeneous date integ ration using web se rv i c e,then g ive a se rv i c e-o rien ted arch itecture for web he te rogeneous da ta inte-g rat i o n.It can so lve the above three p rob l e m s be tte r than trad it i o nal m idd le wa re techno logy doe s.

K ey w ords hete rogeneous da ta source,data integ ra-tion,web se rvice,web data,XML(Page:35)

Stru ts Fra m ework and the R esearch of its App li cation

by Shen Zhi w ei Abstract Designing m ode l is m ore and m ore w ide ly used in pro ject and MVC is an m i po rtant des i g n ing m ode l i n so ft wa re deve l o pm ent.Stru ts is an m i p le m en t o f MVC design ing mode.l Now it is a popu l a r fram e w ork to deve l o p web app lication.Th is paper br i e fly p resents MVC designing m ode l and introduces t wo JSP m ode ls ever appea red,then d iscusses the co m pos i n g and basic p rincip le o f Stru ts fra m ewo rk and p resen ts an app li c a tion exam p l e.

K ey word s MVC design i n g m ode,l S truts,fr am ewo rk, W eb app licat i o n(Page:38)

Para llel R eal-ti m e V ideo Processi ng B ased on M u lti-DSP s Syste m by Zhu M ei neng Abstract The fea tu re o f video p rocess i n g dom ain is the l a r ge num ber o f da ta and rea l-tm i e requ ire m en t.I n or-de r to m eet the dem ands o f d i g ital v i d eo si g na l process-ing,th is pape r proposed a pa r a lle l processing system based on m u lt i-DSP and FPGA.The system can be rea l -tm i e,h i g h-speed and flexib le hand ling var i o us for-m ats o f video and m i age data.

K ey words para ll e l processing,video p rocessing,m u lti -DSP syste m,L inkPo rt(Page:41)

Design a H igh-avail able C l u ster Syste m w ith O penSSI and DRBD by Gong N i an Abstract W ith the sca l e o f h i g h pe rfor m ance pa ralle l compu ting system s becom ing l a rger,the f au lt p robab ility o f hardwa re in these system s is i n creased.As a result, issues o f f au lt to le r ance and re li a b ility are becom ing lm i it-ing facto rs on system sca l a b ility.Th is pape r app roaches a new me thod fo r design ing a h i g h-availab le cluste r sys-tem w ith O penSSI and DRBD.The c l u ste r system e ffec-tive ly h i d es the a rch itectu re of c l u ster,conven iences to use and m anage m en t,and m i p roves its pe rfo r mance, re liab ility and ava ilab ility.

K ey words DRBD,OpenSS,I LVS,SS,I root f a ilover

(Page:45)

Research on M u ltil evel D istribu ting Con trolli ng Syste m in CI M S by Zhou Zhaohui

2

Linux高可用集群系统的结构和原理分析

收稿日期:2007-09-15 第一作者简介:左 婷(1979-),女,吉林省四平市人,现为吉林师范大学信息网络中心研究实习员. 2007年11月 吉林师范大学学报(自然科学版) .4第4期Journal of Jilin Normal University(Natural Science Edition)Nov.2007 Linux 高可用集群系统的结构和原理分析 左 婷1,吴会军2 (1.吉林师范大学信息网络中心,吉林四平136000;2.吉林省水文水资源局,吉林长春130000) 摘 要:通过对目前常用Linux 平台上高可用集群系统的软、 硬件基本结构和工作原理的分析与研究,构建容易扩展、高可用、易维护和管理、高性价比的计算机系统. 关键词:L inux;高可用集群系统;结构;原理 中图分类号:T P393 文献标识码:A 文章编号:1000-1840-(2007)04-0115-02 目前,很多国际知名软件公司和计算机厂商都推出了 自己的集群产品,其中值得一提的是T he H igh A vailability L inux Project 的开放源代码Heartbeat,已经同商业集群软件 一样成熟,而且较后者应用更为灵活.本文将着重介绍SuSE L inux Enterpr i se Server 10平台上Heartbeat2.0.8组成结构 和工作原理.1 Linux 高可用集群系统的基本概念伴随着集群技术的发展,出现了一些关于集群系统的概念和术语.(1)集群资源和集群资源代理.在集群系统中,所有由集 群控制和管理,并将其以单一和统一的形式提供给客户端用 户使用的计算机资源称为集群资源,例如:一种服务、一个 IP 地址、一个磁盘驱动,甚至可以说:除了节点,其它任何软 硬件资源都可以成为集群资源.而集群资源代理是为了控制 和管理某一集群资源而编写的代理程序脚本,集群软件通过 特定集群资源代理来操控某一集群资源,Heartbeat 套件本 身已经包含了一些常用资源代理,开发人员也可以自己按照 一定的规范编写;(2)指定协调者(也称主节点).主节点除了 具有其它一般节点具有的集群节点基本功能外,还负责对整 个集群系统的状态进行监控、分析和转换,对集群系统下达 集群指令,协调各节点的操作等,实际上是整个集群系统的 大脑!,显然一般情况下,整个集群系统只有一个主节点,但 当某些特殊情况发生时,例如主节点不再是集群中的节点, 主节点将发生迁移,即位置发生了变化,另一个节点将代替 它成为主节点;(3)ST ON IT H.英文 Shoot T he Other Node In T he Head !的缩写,代表一种将错误操作的节点进行隔离 的技术,为了防止错误操作的节点对集群资源进行破坏性控 制和操作,使其不断重新启动或关机,从而使其无法取得对 集群资源的控制权;(4)裂脑和仲裁.在某种情况下,由于软 硬件失败导致各节点无法相互确定彼此的状态时,整个集群将被分裂为几个部分,每个部分都想取得对集群资源的控制权,以保证集群的高可用,这种对集群资源的竞争将严重破坏集群资源的完整性和一致性,甚至导致整个集群瘫痪、硬件被损坏的严重后果,这种情况称为裂脑.为了防止裂脑的发生,由仲裁协议决定哪个部分来取得对集群资源的控制 权,为了继续保证系统的高可用,一般将控制权交给节点数 超过原集群节点数一半的部分,同时将其它节点进行隔离; (5)单点故障(失败).单点故障是指由于系统中某一组件的 故障或运行失败从而导致整个集群系统瘫痪和应用服务完 全停止,因此,在高可用集群的构建中应尽量避免单点故障.2 Heartbeat 的主要进程Heartbeat 的所有集群功能都是由它的进程和它们之间相互通信来具体实现的.(1)集群资源管理器(CRM ,Cluster Resource M anager).CRM 是集群系统中最主要的管理进程,它负责对整个集群资源的管理和约束,包括资源的配置及相互间依赖关系,并决定资源运行的状态、位置和时间等.另外它还负责监控本地资源管理器完成这些工作,CRM 通过与系统的每一个组件通信来相互作用和协调操作,CRM 通过heartbeat 通讯模块进行节点间通讯,从CCM 接受当前集群的成员信息,指令ST O NI TH Daremon 如何工作,负责记录系统日志等;(2)策略引擎(PE,CR M Policy Eng ine).PE 是CRM 的一个组件,只能在主节点上运行.PE 的功能是根据当前集群的状态及集群资源的约束配置计算出集群的下一个状态,即为T E 生成将要执行的计划和策略;(3)执行引擎(T E,CRM T ransi tion Engine).T E 也是CRM 的一个组件,只能在主节点上运行.T E 的功能是按照P E 生成的集群状态变化计划和策略,指令集群节点上的LRM 对具体的集群资源进行操作;(4)?115?

高性能计算集群(HPC CLUSTER)

高性能计算集群(HPC CLUSTER) 1.1什么是高性能计算集群? 简单的说,高性能计算(High-Performance Computing)是计算机科学的一个分支,它致力于开发超级计算机,研究并行算法和开发相关软件。 高性能集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。高性能集群上运行的应用程序一般使用并行算法,把一个大的普通问题根据一定的规则分为许多小的子问题,在集群内的不同节点上进行计算,而这些小问题的处理结果,经过处理可合并为原问题的最终结果。由于这些小问题的计算一般是可以并行完成的,从而可以缩短问题的处理时间。 高性能集群在计算过程中,各节点是协同工作的,它们分别处理大问题的一部分,并在处理中根据需要进行数据交换,各节点的处理结果都是最终结果的一部分。高性能集群的处理能力与集群的规模成正比,是集群内各节点处理能力之和,但这种集群一般没有高可用性。 1.2 高性能计算分类 高性能计算的分类方法很多。这里从并行任务间的关系角度来对高性能计算分类。 1.2.1 高吞吐计算(High-throughput Computing) 有一类高性能计算,可以把它分成若干可以并行的子任务,而且各个子任务彼此间没有什么关联。因为这种类型应用的一个共同特征是在海量数据上搜索某些特定模式,所以把这类计算称为高吞吐计算。所谓的Internet计算都属于这一类。按照Flynn的分类,高吞吐计算属于SIMD(Single Instruction/Multiple Data,单指令流-多数据流)的范畴。 1.2.2 分布计算(Distributed Computing) 另一类计算刚好和高吞吐计算相反,它们虽然可以给分成若干并行的子任务,但是子任务间联系很紧密,需要大量的数据交换。按照Flynn的分类,分布式的高性能计算属于MIMD (Multiple Instruction/Multiple Data,多指令流-多数据流)的范畴。 1.3高性能计算集群系统的特点 可以采用现成的通用硬件设备或特殊应用的硬件设备,研制周期短; 可实现单一系统映像,即操作控制、IP登录点、文件结构、存储空间、I/O空间、作业管理系统等等的单一化; 高性能(因为CPU处理能力与磁盘均衡分布,用高速网络连接后具有并行吞吐能力); 高可用性,本身互为冗余节点,能够为用户提供不间断的服务,由于系统中包括了多个结点,当一个结点出现故障的时候,整个系统仍然能够继续为用户提供服务; 高可扩展性,在集群系统中可以动态地加入新的服务器和删除需要淘汰的服务器,从而能够最大限度地扩展系统以满足不断增长的应用的需要; 安全性,天然的防火墙; 资源可充分利用,集群系统的每个结点都是相对独立的机器,当这些机器不提供服务或者不需要使用的时候,仍然能够被充分利用。而大型主机上更新下来的配件就难以被重新利用了。 具有极高的性能价格比,和传统的大型主机相比,具有很大的价格优势; 1.4 Linux高性能集群系统 当论及Linux高性能集群时,许多人的第一反映就是Beowulf。起初,Beowulf只是一个著名的科学计算集群系统。以后的很多集群都采用Beowulf类似的架构,所以,实际上,现在Beowulf已经成为一类广为接受的高性能集群的类型。尽管名称各异,很多集群系统都是Beowulf集群的衍生物。当然也存在有别于Beowulf的集群系统,COW和Mosix就是另两类著名的集群系统。 1.4.1 Beowulf集群 简单的说,Beowulf是一种能够将多台计算机用于并行计算的体系结构。通常Beowulf系统由通过以太网或其他网络连接的多个计算节点和管理节点构成。管理节点控制整个集群系统,同时为计算节点提供文件服务和对外的网络连接。它使用的是常见的硬件设备,象普通PC、以太网卡和集线器。它很少使用特别定制的硬件和特殊的设备。Beowulf集群的软件也是随处可见的,象Linux、PVM和MPI。 1.4.2 COW集群 象Beowulf一样,COW(Cluster Of Workstation)也是由最常见的硬件设备和软件系统搭建而成。通常也是由一个控制节点和多个计算节点构成。

高可用性集群系统的实现

高可用性集群系统的实现 《Linux企业应用案例精解》第8章主要介绍一下虚拟化技术应用。本节为大家介绍高可用性集群系统的实现。 8.3.5 高可用性集群系统的实现(1) VMware Infrastructure 的体系结构和典型配置 资源动态分配和高可用性的实现为构建高可用性集群系统提供了有力的保障,采用VMwae构建铁路企业高可用性集群,不需要为系统中的每台服务器分别添置备用服务器,就可以有效地降低系统成本,在基于VMware的我企业高可用性集群中,备用服务器安装了VMware ESX Server,与数据库服务器、Web服务器、OA服务器和文件服务器等构成高可用性集群,同时采用数据库备份服务器实现差额计划备份。 使用VMware提供的虚拟基础架构解决方案,服务器不再需要随着业务增加而添加,整个IT基础架构能得到有效控制并可充分发挥效能。只有当整体资源出现不足的时候,才需要增加服务器。而且对系统资源的

添加也非常简单,不再需要做繁琐的硬件维护以及业务迁移,只需要简单地将新服务器安装VMWARE? INFRASTRUCTURE 3软件,并添加到已有的VMWARE? INFRASTRUCTURE 3架构中即可,新增资源将自动分配到各个最需要的业务环境中。 在HA和DRS功能的共同支撑下,虚拟机的稳定、不间断运行得到了保证,而且,在没有搭建Cluster环境的情况下,迁移、升级依旧能不中断服务。哪怕是硬件升级、添加,正常停机维护等情况,也能够保证所有的业务正常运行,客户端访问服务器不产生业务中断现象。新的服务器虚拟化架构中另一个重点是VMware HA 的部署,它是整个服务器系统安全、可靠运行的一道防线。传统的热备机方式最大的问题就是容易造成资源的大量闲置;在正常运行状态下,所有备机服务器都处于闲置状态,不仅造成计算资源的空耗,而且还浪费大量的电力和散热资源,投资回报率非常低。 如何应对Linux系统软件包的依赖性问题 不管是初步跨入Linux殿堂的新手还是,具有多年经验的专家,在安装或编译软件包的过程中或多或少的都会遇到包的依赖问题从而导致安装过程无法继续,比如管理员在安装php软件包需要libgd.so文件,而这个文件属于gb软件包。但是在安装gb软件包时,可能这个软件包跟其他软件包又具有依赖关系,又需要安装其他软件包才行。这时有的管理员便失去耐心。在遇到这种Linux软件包依赖关系问题,该如何解决呢?在谈这个具体的措施之前,先跟大家聊聊Linux系统里的软件爱你依赖性问题。 我们把处理rpm依赖性故障的策略可以分成两类解决依赖性故障的自动方法和手工方法。但当安装不属于发行一部分的软件包时自动方法是不可用的。在描述如何手工解决依赖性故障后,将简要描述如何使用自动方法之一(YUM),但首先需要了解它们是什么及rpm如何强制实施它们。 一、什么是依赖性 程序依赖于程序代码的共享库,以便它们可以发出系统调用将输出发送到设备或打开文件等(共享库存在于许多方面,而不只局限于系统调用)。没有共享库,每次程序员开发一个新的程序,每个程序员都需要从头开始重写这些基本的系统操作。当编译程序时,程序员将他的代码链接到这些库。如果链接是静态的,编译后的共享库对象代码就添加到程序执行文件中;如果是动态的,编译后的共享库对象代码只在运行时需要它时由程序员加载。动态可执行文件依赖于正确的共享库或共享对象来进行操作。RPM依赖性尝试在安装时强制实施动态可执行文件的共享对象需求,以便在以后--当程序运行时--不会有与动态链接过程有关的任何问题。

浪潮WIN2K 集群服务解决方案

浪潮WIN2K 集群服务解决方案 集群服务的需求分析 随着Internet服务和电子商务的迅速发展,计算机系统的重要性也日益上升,对服务器可伸缩性和高可用性的要求也变得越来越高。集群技术的出现和发展则很好地解决了这两个问题。群集是由一组独立的计算机组成,这些计算机一起工作以运行一系列共同的应用程序,同时,为用户和应用程序提供单一的系统映射。群集内的计算机物理上通过电缆连接,程序上则通过群集软件连接。这些连接允许计算机使用故障应急与负载平衡功能,而故障应急与负载平衡功能在单机上是不可能实现的。 有网络负载平衡功能的Windows 2000为在分布和负载平衡的方式下建立关键且合乎要求的网站的工作提供了完整的基础结构。与组件服务的分布式应用程序特性和Internet 信息服务的增强可伸缩性相结合,网络负载平衡有助于确保服务能够灵活处理最重的通信负荷,同时,保持对服务器状态的监控,确保系统不停机。 Win2000群集技术具有以下特点: ·可伸缩性:加入更多的处理器或计算机可提高群集的计算能力,一般的桌面机每秒能够处理几千个请求,而传统的IA服务器每秒能够处理几万个请求。那么对于需要每秒处理几十万个请求的企业来说,如果不采用集群技术,唯一的选择就是购买更加高档的中、小型计算机。如果这样做,虽然系统性能提高了十倍,但其购买价格和维护费用就会上升几十倍甚至更多。 ·高度的可用性:群集具有避免单点故障发生的能力。应用程序能够跨计算机进行分配,以实现并行运算与故障恢复,并提供更高的可用性。即便某一台服务器停止运行,一个由进程调用的故障应急程序会自动将该服务器的工作负荷转移至另一台服务器,以保证提供持续不断的服务。 ·易管理性:群集以单一系统映射的形式来面向最终用户、应用程序及网络,同时,也为管理员提供单一的控制点,而这种单一控制点则可能是远程的。 随着计算机应用地位的逐渐提升,系统安全和重要性的日益增加,基于Win2000的负载均衡必将会有着极为广阔的应用前景。 Win2K集群技术 一、集群

高性能计算集群项目采购需求

高性能计算集群项目采购需求 以下所有指标均为本项目所需设备的最小要求指标,供应商提供的产品应至少大于或等于所提出的指标。系统整体为“交钥匙”工程,厂商需确保应标方案的完备性。 投标商在投标方案中须明确项目总价和设备分项报价。数量大于“1”的同类设备,如刀片计算节点,须明确每节点单价。 硬件集成度本项目是我校校级高算平台的组成部分,供应商提供的硬件及配件要求必须与现有相关硬件设备配套。相关系统集成工作由供应商负责完成。 刀片机箱供应商根据系统结构和刀片节点数量配置,要求电源模块满配,并提供足够的冗余。配置管理模块,支持基于网络的远程管理。配置交换模块,对外提供4个千兆以太网接口,2个外部万兆上行端口,配置相应数量的56Gb InfiniBand接口 刀片计算节点双路通用刀片计算节点60个,单节点配置2个CPU,Intel Xeon E5-2690v4(2.6GHz/14c);不少于8个内存插槽,内存64GB,主频≥2400;硬盘裸容量不小于200GB,提供企业级SAS或SSD 硬盘;每节点配置≥2个千兆以太网接口,1个56Gb InfiniBand 接口;满配冗余电源及风扇。 刀片计算节点(大内存)双路通用刀片计算节点5个,单节点配置2个CPU,Intel Xeon E5-2690v4;不少于8个内存插槽,内存128GB,主频≥2400;硬盘裸容量不小于200GB,提供企业级SAS或SSD硬盘;每节点配置≥2个千兆以太网接口,1个56Gb InfiniBand接口;满配冗余电源及风扇。 GPU节点2个双路机架GPU节点;每个节点2个Intel Xeon E5-2667 v4每节点2块NVIDIA Tesla K80GPU加速卡;采用DDR4 2400MHz ECC内存,每节点内存16GB*8=128GB;每节点SSD 或SAS硬盘≥300GB;每节点配置≥2个千兆以太网接口,1个56Gb/s InfiniBand接口;满配冗余电源及风扇。 数据存储节点机架式服务器2台,单台配置2颗Intel Xeon E5-2600v4系列CPU;配置32GB内存,最大支持192GB;配置300GB 2.5" 10Krpm

高可用性集群解决方案设计HA

1.业务连续 1.1.共享存储集群 业务系统运营时,服务器、网络、应用等故障将导致业务系统无常对外提供业务,造成业务中断,将会给企业带来无法估量的损失。针对业务系统面临的运营风险,Rose提供了基于共享存储的高可用解决方案,当服务器、网络、应用发生故障时,Rose可以自动快速将业务系统切换到集群备机运行,保证整个业务系统的对外正常服务,为业务系统提供7x24连续运营的强大保障。 1.1.1.适用场景 基于共享磁盘阵列的高可用集群,以保障业务系统连续运营 硬件结构:2台主机、1台磁盘阵列

主机 备机心跳 磁盘阵列 局域网 1.1. 2.案例分析 某证券公司案例 客户需求分析 某证券公司在全国100多个城市和地区共设有40多个分公司、100多个营业部。经营围涵盖:证券经纪,证券投资咨询,与证券交易、证券投资活动有关的财务顾问,证券承销与保荐,证券自营,证券资产管理,融资融券,证券投资基金代销,金融产品代销,为期货公司提供中间介绍业务,证券投资基金托管,股票期权做市。 该证券公司的系统承担着企业的部沟通、关键信息的传达等重要角色,随着企业的业务发展,系统的压力越来越重。由于服务器为单机运行,如果发生意外宕机,将会给企业的日常工作带来不便,甚至

给企业带来重大损失。因此,急需对服务器实现高可用保护,保障服务器的7×24小时连续运营。 解决方案 经过实际的需求调研,结合客户实际应用环境,推荐采用共享存储的热备集群方案。部署热备集群前的单机环境:业务系统,后台数据库为MySQL,操作系统为RedHat6,数据存储于磁盘阵列。 在单机单柜的基础上,增加1台备用主机,即可构建基于共享存储的热备集群。增加1台物理服务器作为服务器的备机,并在备机部署系统,通过Rose共享存储热备集群产品,实现对应用的高可用保护。如主机上运行的系统出现异常故障导致宕机,比如应用服务异常、硬件设备故障,Rose将实时监测该故障,并自动将系统切换至备用主机,以保障系统的连续运营。

双机热备、集群及高可用性入门

双机热备、集群及高可用性入门

什么是双机热备? 双机热备这一概念包括了广义与狭义两种意义。 从广义上讲,就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。(相关文章:为什么需要双机热备?) 双机热备由备用的服务器解决了在主服务器故障时服务不中断的问题。但在实际应用中,可能会出现多台服务器的情况,即服务器集群。(相关文章:双机软件与集群软件的异同) 双机热备一般情况下需要有共享的存储设备。但某些情况下也可以使用两台独立的服务器。(相关文章:双机热备的实现模式) 实现双机热备,需要通过专业的集群软件或双机软件。(相关文章:双机与集群软件的选择) 从狭义上讲,双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用。(相关文章:双机热备、双机互备与双机双工的区别) 为什么要做双机热备? 双机热备针对的是服务器的故障。 服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。 而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。因此,就需要通过双机热备,来避免长时间的服务中断,保证系统长期、可靠的服务。 决定是否使用双机热备,正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即,你的用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。 在考虑双机热备时,需要注意,一般意义上的双机热备都会有一个切换过程,这个切换过程可能是一分钟左右。在切换过程中,服务是有可能短时间中断的。

浪潮报表使用规范概述

浪潮报表使用规范 一、 报表使用操作流程 二、操作讲明 系统治理接收报表格式 报表格式、公 进行报表数据 定制、维护报 报表数据计算 报表数据审核 帐表数据核对 一般操作集团报表 报表格式定制 发送报表格式

A 集团报表 集团报表统一由集团系统治理员定制(定制报表方法与GS3.5软件系统相同),定制完成后转出报表格式,发送下级单位接收即可。 B 系统治理员 B-1 转入报表格式: 将集团下发的报表格式公式执行“转入”操作。内容包括格式、计算公式、校验公式、报表类不、标准编码信息。 功能位置 进入报表模块,选择【报表操作】菜单下的【报表转入】功能。 操作步骤 进入该功能后,显示窗口如图所示。

选择【选择文件】按钮,系统弹出如下图所示对话框。 选择差不多存在的转出文件即可。现在,系统显示如图所示。

选择要转入的报表名称,也能够选择【全选】,转入内容,点击【转入】完成对报表的更新操作。 B-2 报表格式、公式爱护: 【报表启封封存功能】提供了对报表格式和公式的爱护。通常情况,多个操作员对相同的报表会有各种操作权限,可能刚刚定义好的报表会被其他不了解情况的操作员改变。报表封存功能确实是针对那个问题提出来的,它能在灵活使用报表定义功能的同时,有效保证报表格式和公式的安全性和正确性。 功能位置 进入报表模块,选择【报表操作】菜单下的【报表启封封存】功能。 操作步骤 进入该功能后,系统显示界面如图所示。

项目讲明: 【格式封存】:有不爱护、低级爱护、中级爱护、高级爱护四个选项。 其含义如下: ①不爱护:没有限制; ②低级爱护:禁止用户修改格式区、数据区、行数、列数、标题行数、表头行数、表体行数,插入行列、删除行列; ③中级爱护:除差不多爱护信息不同意修改外,另:标题的内容、副标题的内容、表头内容、格式的内容、合并单元格、小数位数、数据类不、是否爱护,单元格对应的指标代码、设置行对应标准类不、列对应标准类不不同意修改; ④高级爱护:除中级爱护的内容不同意修改之外,另:行高、列

曙光Gridview2.0安装维护手册2.0

Gridview2.0 安装维护手册

Gridview2.0安装维护手册 目录 1、系统安装 0 1-1、安装条件 0 1-2、 GRIDVIEW2.0安装前设置 0 1-3、 GRIDVIEW2.0安装 (5) 1-3- -1、管理节点安装 (5) 1-3- -2、计算节点安装 (7) 1-4、安装后的验证 (8) 1-4- -1、管理节点验证 (8) 1-4- -2、计算节点验证 (9) 2、系统卸载 (10) 2-1、管理节点卸载 (10) 2-1- -1、卸载步骤—计算中心版 (10) 2-1- -2、卸载步骤—数据中心版............................ 错误!未定义书签。 2-2、计算节点卸载 (10) 2-2- -1、批量卸载—计算中心版............................ 错误!未定义书签。 2-2- -2、手动卸载—计算中心版............................ 错误!未定义书签。 2-2- -3、批量卸载—数据中心版............................ 错误!未定义书签。 2-2- -4、手动卸载—数据中心版............................ 错误!未定义书签。 3、系统维护 (11) 3-1、配置文件 (11) 3-1- -1、安装配置文件 (11) 3-1- -2、 PORTAL相关配置文件 (12) 3-1- -3、告警预处理相关配置文件 (12) 3-1- -4、 LOG配置文件 (13) 3-1- -5、采集相关配置文件 (13) 3-1- -6、 HIBERNATE配置文件 (16) 3-1- -7、作业调度管理进程配置文件 (18) 3-2、设备信息导入及参数设置 (19) 3-2- -1、设备信息导入 (20) 3-2- -2、采集参数设置 (22) 3-2- -3、告警参数设置 (22) 3-2- -4、设备使用配置 (23) 3-3、运行状态检查 (24) 3-3- -1、采集器运行状态检查 (24) 3-3- -2、告警预处理服务运行状态检查 (25) 3-3- -3、 TOMCAT服务运行状态检查 (25) 3-3- -4、作业调度管理进程状态检查 (25) 3-4、故障处理 (25) 3-4- -1、网络故障 (25) 3-4- -2、应用程序故障 (25) 3-5、系统日志 (26) 3-5- -1、采集系统日志 (27) 3-5- -2、告警预处理系统日志 (28)

计算机集群技术的解释

【赛迪网独家特稿】集群技术是使用特定的连接方式,将相对于超级计算机便宜许多的计算机设备结合起来,提供与超级计算机性能相当的并行处理技术。早在七十年代就有人提出可以使用这种集群技术完成并行处理,但是由于受到当时网络交换技术的限制,集群系统在性能上与其他并行处理系统相距甚远,直到网络技术逐渐成熟的今天,它才具备了与超级计算机相匹敌的能力。 什么是集群 集群(Cluster)技术是指一组相互独立的计算机,利用高速通信网络组成一个计算机系统,每个群集节点(即集群中的每台计算机)都是运行其自己进程的一个独立服务器。这些进程可以彼此通信,对网络客户机来说就像是形成了一个单一系统,协同起来向用户提供应用程序、系统资源和数据,并以单一系统的模式加以管理。一个客户端(Client)与集群相互作用时,集群像是一个独立的服务器。 计算机集群技术的出发点是为了提供更高的可用性、可管理性、可伸缩性的计算机系统。一个集群包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一个节点发生故障时,它所运行的应用程序将由其他节点自动接管。在大多数模式下,集群中所有的节点拥有一个共同的名称,集群内的任一节点上运行的服务都可被所有的网络客户所使用。 集群的特点 1.提供强大处理能力的高性能计算机系统:计算机集群可以通过负载均衡、并行处理、时间片处理等多种形式,将多台计算机形成高性能计算机集群。对用户端(Client)而言,计算机集群则是一个单一的系统,可以为用户提供高性能的计算机系统,而用户不用关心有多少计算机承担了系统实现的任务,而只需要关注系统的整体处理能力。因此,计算机集群可以用多台普通性能的计算机组成具有高性能的计算机系统,承担只有超级计算机才能胜任的工作。 2.提供高可用性的计算机系统:通过计算机集群技术组成的系统,可以确保数据和应用程序对最终用户的高可用性,而不管故障属于什么类型。即当计算机集群中的节点计算机出现软硬件故障的时候,高可用性集群提供了对软件和硬件失败后的接替。它将服务器镜像到备用系统或节点中,当主节点上的系统崩溃时,冗余节点就从替补角色转换到正式角色,并自动投入应用,从而保证了系统运行的不间断。

XXX公司网站集群系统架构及建设思路

XXX公司网站集群系统架构及建设思路 拟稿人:水滴 日期:2011年X月XX日

XXX公司网站集群系统架构及建设思路 企业网站建设作为企业建设的一部分,必将受企业文化、发展理念、企业定位等诸多因素制约和影响,并时时体现和折射出上述因素。随着企业发展的不断壮大,电子商务应用的日趋成熟,企业网站建设在企业整体建设中的地位,也将更加突出,因为网络平台所能带给企业的高效收益,是传统业务平台所无法实现和相比的。 XXX公司是专业的体育产业整合、策划、推广、商业运作公司。以XX为核心项目;以打造产业链为目标;以树立标准、引领行业发展为己任。XXX,不仅是一家体育品牌运营机构,同时也是健康生活方式的传播者和推动者,更是民族精神和文化精粹的承载者和发扬者。 公司的发展、业务的拓展离不开资源整合,网络平台是资源整合的有力工具,可以高效的整合各类资源。而资源整合过程中需要考虑各种相关要素,即要突显企业商业品牌,又要承载民族文化;即有商业的,又有民间的;同时企业线下业务的拓展,也要求公司线上网络平台给予强有力的辅助和支持。以上种种,都意味着,公司原一站式的传统网络布局很难满足企业未来发展不断增长的需求,新的系统的企业网络平台的构架及建设正当其时,网站集群技术与相关系统的应用提上日程中来。 一、技术分析 1.网站集群技术的产生 网站集群,简单的说就是一群能够进行数据共享与呈送的相互关联的网站集合。 当今,很多网站在建立时,相互独立,采用的是各自不同的技术构架体系,在建立门户网站消除信息孤岛的同时,我们也在不断建立着新的信息孤岛。实现部署在不同服务器上的,相互独立的网站间互联互通,是目前网站集群建设的难

华师大高性能计算集群作业调度系统简明手册

华师大高性能计算集群作业调度系统简明手册 华师大高性能计算集群采用曙光的Gridview作业管理系统,其中集成了torque+Maui,是十分强大的作业调度器。下面将依次介绍华师大的的作业调度系统的设定,使用,以及相关作业调度命令 一:华师大作业调度系统队列策略设定 由于华师大的超级计算中心共分三期建设,其作业调度设定较为复杂: CPU 节点名 (pestat 可查看) 节点Core 个数 队列备注 第一期E5450 b110-b149 b210-b229 8(2*4) mid1,huge 第二期E5640 b310-b339 b410-b439 8(2*4) mid2, hugeA(需申请) 其中hugeA队列提交后 需经批准 第三期X5675 ,GPU(c2050 ) a110-a149 a210-a249 a310-a339 a410-a447 12(2*6) mid3,small,ser ial,gpu hugeB(需申请), shu(私有队列) itcs(私有队列) 其中hugeB队列提交后 需经批准 shu和itcs为私有队列, 不向公共用户开放 在命令行输入cchelp 可以查看详细的华师大的作业调度系统策略,如下 二:作业调度系统的使用

华师大计算中心共有两个登陆节点login(59.78.189.188)和login1(59.78.189.187),供用户登陆提交相关作业。一般来说,可直接使用命令行提交作业。不过为了规范和易于管理,建议使用PBS脚本进行作业提交,提交命令为qsub **.pbs(pbs脚本文件)。 下面将简要的分别给出串行作业和并行作业的PBS样本(已放至/home/目录下),仅供参考,更多高级功能,请自行查阅相应手册。 1.串行作业pbs脚本样本 #PBS -N test \\表示该作业名称为test。 #PBS -l nodes=1:ppn=1 \\表示申请1 个节点上的1 颗CPU。 #PBS -j oe \\表示系统输出,如果是oe,则标准错误输出(stderr)和 标准输出(stdout)合并为stdout #PBS –q serial \\表示提交到集群上的serial 队列。 . /job>job.log 为提交的作业。 2.并行作业PBS脚本样本

4、浪潮gs管理软件日常操作手册

浪潮管理信息系统培训 学 习 资 料 中铁二十局集团有限公司2011年4月四川·乐山

目录 1 系统管理、基础设置 (6) 1.1 客户端配置要求: (6) 1.1.1 采用何种操作系统 (6) 1.1.2 IE浏览器 (6) 1.1.3 ACTIVEX控件的下载 (11) 1.2 软件登录前注意事项 (12) 2 初始化步骤、要点说明 (15) 2.1 用户与职责定义 (15) 2.1.1 系统登录 (15) 2.1.2 职责的定义 (16) 2.1.3 用户的定义 (16) 2.2 基础设置 (16) 2.2.1 部门定义 (16) 2.2.2 员工定义 (17) 2.2.3 往来单位定义 (17) 2.2.4 核算项目定义 (17) 2.2.5 科目定义 (17) 2.2.6 科目核算关系定义 (18) 2.2.7 余额初始 (18) 2.2.8 实时余额同步 (19)

2.2.10输出格式定义(凭证打印格式) 19 2.2.11系统设置 19 2.2.12会计期间维护 20 2.3 报表管理 (20) 2.3.1 新建报表 (20) 2.3.2 新建数据单元 (20) 2.3.3 报表与数据单元关联 (21) 2.3.4 报表格式升级 (22) 2.3.5 报表另存为excel格式 (22) 2.4 固定资产 (23) 2.4.1 卡片初始 (23) 2.4.2 资产增加 (23) 2.4.3 资产减少 (24) 2.4.4 资产变更 (24) 2.4.5 大修理记录 (25) 2.4.6 固定资产计提折旧 (25) 2.4.7 固定资产模块月结 (25) 2.5 工资 (26)

高可用多机集群数据备份双机热备方案

PLUSWELL多机集群、数据备份解决方案 北京蓝科泰达科技有限公司 2008年7月

一:概述 企业和事业单位的运转越来越依赖于计算机系统,如果一旦这个数据处理中心无法正常运转,就会造成业务停顿,导致不可挽回的损失。 而现有的双机热备份设备存在价格高昂,成本较高的情况,往往使用户望而却步。而用户寻求底成本的纯软件方案又往往因产品不容易维护,纯软件双机方案不稳定等因素,往往给用户造成不必要的使用麻烦。有时因护理不当造成数据损坏,发生更大的事故。 蓝科泰达凭借其丰富的研发经验,为您提供高可用性系列产品和优质的服务,推出了蓝科泰达双机容错打包解决方案,目的在于保证数据永不丢失和系统永不停顿,同时为用户节省大量的开支。蓝科泰达容错系统结合了蓝科泰达磁盘阵列产品的安全可靠性与双机容错技术高可用性的优点,相互配合二者的优势。蓝科泰达磁盘阵列针对双机容错技术做了许多优化和改进,满足了双机硬件的连接要求,根据应用环境的实际情况,适用于Windows2000平台以上,开放源代码Linux 平台,SCO UNIX平台上的多种双机热备软件。 二、需求分析 企业关键业务一旦中断,企业的日常运作将受到致命的影响,那么就要求我们的系统在最短的时间内将系统恢复到正常状态。 所以我们要求双机软件能够实现以下几点: 1、异常终端检测 2、网络故障,系统故障,应用程序故障等全系统检测 3、当高可用系统中的某个节点故障,无须人工干预自动切换,保障系统运行 4、速度快(快速恢复) 贵单位业务平台,是以Windwos 2003 Server系统平台为基础,以SQL Server核心的数据 库应用系统,该系统对稳定性要求很高、系统实时性和可用性提出要有连续运行的能力,系统一旦出现故障,其损失是惨重的。 因此,建议用户采用高可用技术,高可用系统在各个节点间保持的间歇的通讯,使系统中的独立节点组合成整体的一套系统,并使用PlusWell 软件可以保障该系统中的某一节点故障都可 被PlusWell 软件所监控,如主服务器应用程序、网卡、操作系统,均纳入公共的安全体系,确 保7*24的不停机。 比较典型的危及系统安全应用和系统错误主要有: (1)进程错误,比如用户应用与文件数据库的连接异常中断或用户进程发生错误。 (2)文件系统故障,由于异常操作或其它原因造成文件系统内部部分信息丢失或不一致。 (3)操作系统故障,操作系统本身的系统调用问题及底层的应用驱动在安装或更新出现冲突; (4)网络线缆故障。 (5)介质问题,网络连接或物理硬盘也可能会出现问题。 方案拓扑:

高可用集群模块

https://www.doczj.com/doc/705171120.html,nderSoft Normal 联鼎软件 高可用集群模块介绍 作者:市场部 上海联鼎软件股份有限公司 https://www.doczj.com/doc/705171120.html, 版权所有

目录 第一节概述 (2) 第二节产品优势 (2) 2.1全新体系架构 (2) 2.2智慧系统健康与可用性评价体系 (2) 2.3深度应用侦测代理 (3) 2.4强大的故障分级处理 (4) 2.5增强的跨平台集群系统集中管理 (4) 2.6支持虚拟化环境 (5) 2.7集群按业务分组,单组集群支持多达64个节点及64个任务 (5) 2.8首创智能预警体系 (6) 2.9丰富的集群备援模式 (6) 2.10更高级别的监测准确度,更快速的切换速度 (6) 第三节产品关键功能 (6)

第一节概述 全新的高可用集群模块是landerVault体系中负责保护关键业务应用免遭软、硬件故障影响的应用软件。应用创造性的“故障分级”概念,融入“智能感知”系统,彻底颠覆传统高可用集群系统简单的二元化故障判断方式,将传统高可用系统仅对“故障”所引起的结果(如宕机)做出反应提升为对“故障”的成因(系统健康指标)进行监控与分析,配合独特的“故障预警”机制,在核心系统即将发生严重影响业务持续运作情况前及时发出“预警”,并在必要的情况下自动执行精确而迅速的故障隔离及应用转移,将故障事后处理提升为故障事前预知,充分保障用户核心应用7×24小时持续可靠运作,可支持多达64个节点的应用,并为局域网(LAN)或广域网(WAN)上的客户机提供高可用性的服务。 第二节产品优势 2.1全新体系架构 创新的LanderCluster的体系结构,以面向“对象”为核心,对象包括:IPAddress,Alias,Volume,Process,Service,CPU,Memory,Network等,每个对象都有自己的属性、方法、事件。集群容器(Container)是一个大的接口池,集群负责管理这些对象的生命周期,为每一个对象提供接口服务。 2.2智慧系统健康与可用性评价体系 高可用集群模块在业界首次提出了创造性的“系统健康评价体系”并加以应用,我们认为对系统的可用性判断必须是持续的,大量的情况证明系统从“可用”转向“不可用”并非是瞬

浪潮集群服务解决方案(2)

浪潮集群服务解决 方案(2)

浪潮WIN2K 集群服务解决方案 集群服务的需求分析 随着Internet服务和电子商务的迅速发展,计算机系统的重要性也日益上升,对服务器可伸缩性和高可用性的要求也变得越来越高。集群技术的出现和发展则很好地解决了这两个问题。群集是由一组独立的计算机组成,这些计算机一起工作以运行一系列共同的应用程序,同时,为用户和应用程序提供单一的系统映射。群集内的计算机物理上经过电缆连接,程序上则经过群集软件连接。这些连接允许计算机使用故障应急与负载平衡功能,而故障应急与负载平衡功能在单机上是不可能实现的。 有网络负载平衡功能的Windows 为在分布和负载平衡的方式下建立关键且合乎要求的网站的工作提供了完整的基础结构。

与组件服务的分布式应用程序特性和Internet 信息服务的增强可伸缩性相结合,网络负载平衡有助于确保服务能够灵活处理最重的通信负荷,同时,保持对服务器状态的监控,确保系统不停机。 Win 群集技术具有以下特点: ·可伸缩性:加入更多的处理器或计算机可提高群集的计算能力,一般的桌面机每秒能够处理几千个请求,而传统的IA服务器每秒能够处理几万个请求。那么对于需要每秒处理几十万个请求的企业来说,如果不采用集群技术,唯一的选择就是购买更加高档的中、小型计算机。如果这样做,虽然系统性能提高了十倍,但其购买价格和维护费用就会上升几十倍甚至更多。 ·高度的可用性:群集具有避免单点故障发生的能力。应用程序能够跨计算机进行分配,以实现并行运算与故障恢复,并提供更高的可用性。即便某一台服务器停止运行,一个由进程调用的故障应急程序会自动将该服务器的工作负荷转移至另一台服务器,以保证提供持续不断的服务。 ·易管理性:群集以单一系统映射的形式来面向最终用户、应用程序及网络,同时,也为管理员提供单一的控制点,而这种单一控制点则可能是远程的。 随着计算机应用地位的逐渐提升,系统安全和重要性的日益增加,基于Win 的负载均衡必将会有着极为广阔的应用前景。 Win2K集群技术

高性能计算集群的cae软件应用

随着计算机应用的广泛深入,不同领域处理问题的规模也越来越大,对计算速度的追求也在不断增长。例如,在气象预报、流体力学、能源工程、生物制药、图像处理等领域的问题都涉及到海量的计算数据,并且计算必须在能接收的时间内完成。所以,如何在短时间内完成计算任务,提高并行计算的效率已经成为这些领域要解决的问题。 商用CAE软件现在发展的非常之迅速,而且都致力于软件的并行化开发。目前,市场上的通用CAE软件都实现了集群中的并行运行,而且效果都非常良好。以ANSYS为例,作为目前最常用的有限元求解软件之一,它的求解模块种类多,多物理场实现耦合求解以及实现协同仿真技术等优点受到广大用户的欢迎。因此,通用CAE已经成为今后工程计算领域的重要工具。 1 CAE通用软件的发展 20世纪在50年代末、60年代初就投入大量的人力和物理开发具有强大功能的有限元分析程序。其中最为著名的是由美国国家宇航局在1965年委托美国计算科学公司和贝尔航空系统公司开发的NASTRAN有限元分析系统。此后有德国的ASKA、英国的PAFEC等公司的产品。 CAE在工程上初步开始使用一直到今天,已经经历了50多年的发展历史,其理论和算法都经历了从蓬勃发展到日趋成熟的过程。在航天、航空、机械、土木机构等领域的工程和产品结构分析中已经成为必不可少的数值计算工具,同时也是分析连续力学各类问题的一种重要手段。随着计算机技术的普及和不断提高,CAE系统的功能和计算精度都有很大提高,

各种基于产品数字建模的CAE系统应运而生,并已成为结构分析和结构优化的重要工具,同时也是计算机辅助4C系统(CAD/CAE/CAPP/CAM)的重要环节。CAE系统的核心思想是结构的离散化,即将实际结构离散为有限数目的规则单元组合体,实际结构的物理性能可以通过对离散体进行分析,得出满足工程精度的近似结果来替代对实际结构的分析,这样可以解决很多实际工程需要解决而理论分析又无法解决的复杂问题。 正因为CAE在制造企业中承担着关键的工具的作用,所以其高性能平台的选择也非常的重要,这个平台直接影响CAE的运行性能表现、整体成本和系统等方面的问题。所以,高性能计算平台与CAE软件的如何更好的配合要进行一个全面的权衡。 2 CAE模拟的步骤 2.1 建立物理模型 在研究一项具体的问题的时候,首先必须要明确研究对象及其物理特性。确定出一个具有特定便捷的研究区域,分析的特征与特性。其次根据研究内容的特征,做出简化假定和近似,忽略非本质的物理过程来简化整个物理模型。从而得出一个经过简化,比较有研究特点的物理模型。 2.2 建立数学模型 物理模型确定以后就要建立相应的数学模型,也就是用数学模型来反映问题各量之间的

相关主题
文本预览
相关文档 最新文档