当前位置:文档之家› Rose原理

Rose原理

RoseHA 技术白皮书 2011-2012

第一章 1.1 1.22.1

2.2

2.3

2.4

2.5

3.1 硬件组成----------------------------------------------------- 3.2 RoseHA 软件组成--------------------------------------------- 3.3 RoseHA 高可用配置方式--------------------------------------- 第二章 RoseHA 的设计目标------------------------------------------- 第三章 RoseHA 简介-------------------------------------------------- 第四章

333444444556 9

11信息高可用性------------------------------------------------- 系统可用性基本类型---------------------------------------- 高可用性系统的功能-------------------------------------------结论---------------------------------------------------------兼容性-------------------------------------------------------灵活性-------------------------------------------------------直观的管理--------------------------------------------------自动性-------------------------------------------------------可靠性-------------------------------------------------------

3信息高可用性

当前,企业的信息化已经非常普遍,众多的企业都建立了计算机网络系统,支持企业的生产、运营和管理工作。企业最关心的问题之一是如何建立并维持网络的稳定性和运行的持续性,于是,高可用性对于网络显得越来越重要。事实上,如果一些关键应用一旦停止下来,所造成的损失是难以估计的。由于网络瘫痪而影响了企业的信誉,致使客户对企业失去信任,所造成的危害是致命的。另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止,网络的瘫痪。可见,对一些特别的企业或公司,系统的高可用性显得更为重要。因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。

信息系统的可用性通常在两种情况下会受到影响,一种是系统宕机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而正常关机。高可靠性软件必须为这两种情况提供不间断的系统服务。

1.1 系统可用性基本类型

通常可用性系统

通常可用性系统没有容错功能,也没有特殊的软件来做错误处理,系统的错误检查和恢复完全依靠系统管理员来完成。

高可用性系统

高可用性系统是在冗余的通常可用性系统基础之上,运行高可靠性软件而构成。高可靠性软件用于自动检测系统的运行状态,在一台服务器出现故障的情况下,自动地设定的服务转到另一台服务器上。

容错系统

容错系统是由专用昂贵的多机系统组成,错误处理能力是计算机硬件和操作系统本身提供。一般的应用软件也需要修改后方能在上面运行。1.2 高可用性系统的功能

软件故障监测与排除

管理站能够监视各站点的运行情况,能随时或定时报告系统运行状况,故障能及时报告和告警,并有必要的控制手段

实现错误隔离以及主、备份服务器间的服务切换

的设计目标

4RoseHA

2.1 可靠性

RoseHA是一可靠而又高效的系统。它可以减少系统运行过程中的宕机时间,提高数据和服务的可靠性,并防止虚假报警。

一般来说,恢复一个故障服务,RoseHA最多只需要几分钟的时间,因为在接管该服务时,备份服务器本身不需要去重新启动,它需要做的仅仅是启动该项服务。

2.2 自动性

RoseHA的运行不会改变正常的工作流程,服务的恢复是自动进行的。系统管理员不用干预,故障便会自动恢复。

2.3 直观的管理

采用直观而又方便的JAVA Applet对系统进行配置及实时管理。

2.4 灵活性

RoseHA提供了完全可以由用户自己来配置的故障恢复步骤,这样,用户可以根据不同的应用环境对自己的系统进行配置。

2.5 兼容性

R(可靠的)O(开放的)S(可扩展的)E(企业级)H(高)A(可用)软件是基于操作系统下的一个应用级的高可用性软件,它可以很好地兼容多种软件和硬件环境,使用RoseHA软件时,用户不需要再去重建系统内核部分,或是对软件及硬件进行修改。

RoseHA 将冗余的硬件资源配置成一个高可用性系统。

3.1

A 、服务器:运行同一版本操作系统的计算机系统。

主服务器:提供主服务的计算机系统。但相对于其它主服务来说,主服务器也可

以是备份服务器。

备份服务器:装配某些用以恢复故障服务的硬件设备的计算机系统。

一台备份服务器可以装备多个硬件设备,用以恢复多个故障服务;另一方面,对

一些重要的服务,也可采用多个备份服务器,这样可以进一步提高冗余度,增加系统

可靠性。

私有网:用以交换服务器心跳的网络。它可通过一条独立的网线来传送心跳,也可采用RS -232以点对点的通信方式来传送心跳。

公有网:供客户端访问服务的网络。最好的办法是用独立的网线连接公有网,这样客户端首先可以通过备份网络访问服务,从而提高系统的可靠性;其次,服务负载也可以由各个独立分离的网络共同承担。

主网络接口: 此接口是客户端访问服务的入口,客户通过一个特定的网络IP 地址来识别服务。

备份网络接口: (服务器间的服务恢复:)此接口是安装在备份服务器上用来提供访问主服务的备份的网络IP 地址。如果主服务器出现故障,则备份服务器会服务接管过来,且备份网络接口也会将原在主网络接口的IP 地址接管过来。

本地的服务恢复:在主服务器上另外安装了一个备份网络接口,用来做备份访问接口。如果主网络接口出现故障,此备份接口将接管主IP 地址。

D 、在线存储:

SCSI/FC 磁盘设备

私有磁盘:主要是用于存储操作系统及那些在服务被接管时不被访问的数据。 共享磁盘:两台主机通过独立的访问路径访问共享磁盘。在每个服务器中都有各自独立的供主服务使用的分区,这样可保证在备份服务器接管时服务及数据的可靠性 另外,在磁盘发生故障时,还可以采取如下能保证数据可靠性的冗余及容错的磁盘介质:SUN 在线磁盘介质; RDBMS 镜像; RAID 1磁盘阵列; RAID 3或5磁盘阵列C 、通信连接

RoseHA 支持运行TCP/IP 协议的ATM·Ethernet·10M/100M 以太网、光纤网

B 、Clients (客户端): 是指访问应用服务的计算机系统。

3.2 RoseHA 软件组成

1.主服务

主服务(用户的应用服务): 此服务是在指定的主服务器上运行,Client 可通过附加在主NIC 上的指定的主IP 地址来访问,用户的应用服务由HA 软件来管理,当主服务器出现故障时,在很短的宕机时间内,备份服务器会将应用服务接管过去。 应用服务也可以分布在多个主服务器上,这样做可以提高系统的可靠性,此时当一台机器出现故障时不会影响到其它服务器。

2. Agents

Agents 用来监测一些重要的硬件和软件资源的可靠性。这些资源包括如下内容: 服务器

网络接口通信连接(通信服务)

在线存储系统(文件服务,磁盘服务) 重要的系统及应用程序

在Agents 执行过程中,要考虑两个因素:首先,对系统资源的要求要小,对系统性能的影响要小,对错误信息要能实时反映。其次,是可靠性,不要产生重大错误,发生虚假报警。

Agents 开发工具:

Agents 实际上是一些C(C ++)程序和shell scripts 。RoseHA 为那些要求开发新的Agents 的用户提供了API 及模板文件。要检验服务的可靠性,用户必须写出精确的源代码或shell 脚本。在RoseHA 软件中,HA 管理器与Agents 间的通讯是通过API 来完成的,对此,用户不需再做其他的编程工作。 3. HA 服务

HA 服务(HA Daemon )是RoseHA 的核心部分。它主要完成以下工作: 监测服务器,看是否所有用来执行主服务的资源都是可靠的 根据HA 的配置文件对服务器进行配置 执行指定的主服务 执行主服务的Agents

通过Agents 来监测服务器及服务的所有进程 管理用来恢复故障服务的冗余硬件资源

根据接收到的服务器心跳及Agents 心跳,处理相应的事件日志、错误处理及在线恢复工作

4. 心跳

Agents 心跳:

通过周期性的Agents 心跳,Agents 会将服务的可靠性通知HA Daemon 。Agents 心跳是通过共享内存来实现的,如果服务的可用性出现问题,Agents 会停止向HA 管理器发送心跳。Agents 心跳在预定时间内的丢失预示着它所监测的服务出现了故障,此时,RoseHA 会执行服务的切换进程。

S e r v i ce

O p e

r a t i n g S y s t

e m R o s e

H A D a e m o n

A d m i n is t ra

ti o n T o o l

A g e n t

S c r i p t s

R o s e H

A

M o n it o r D a e m o n

服务器心跳:

通过周期性的服务器心跳,服务器会将自身的可靠性通知对方服务器。服务器心跳是通过基于TCP/IP 的Socket或RS-232线来传送的,如果服务器出现故障,HA管理器将向对方发送死的心跳,或停止发送心跳。此心跳在一定时间内的丢失预示着此服务器已出现故障,此时,RoseHA将开始执行服务的切换过程。

5 HA配置文件

在每台装有RoseHA系统的服务器中,都会产生一个配置文件,此文件就是一个根据由用户定义要求恢复的服务所定的工作表。此文件可以根据不同应用环境的要求加以修改,该配置文件主要包含以下内容:

已获得的软件许可,可以运行RoseHA软件的所有License信息

定义主服务:

* 服务的启动与停止的shell程序

* 服务的Agents

* 所要求的硬件资源(如服务器,网卡及共享磁盘分区等等)和其各自的标识 (IP地址,安装点等等)

* 指定的冗余硬件设备

私有网的配置信息

6 Shell 程序

用户可以针对以下内容写自己的Shell程序:

启动和停止服务

执行故障服务的切换

执行事件通知:向系统控制台发送信息,通过E-mail将信息通知对方,向用 户发出广播信息,初始化进程等 7 错误检测

Agents检测与所有与服务相关的进程。HA Daemon会根据接受到的Agents心跳来确定Agents所检测的服务是否正常。

服务可以由其Agents来检测,Agents会检测服务的不同内容,如果Agents在指定的事件内向HA Daemon发出心跳,就可认为此服务是正常的。

如心跳消失,就表示没有Agents在检测服务的运行。只要服务正常运行,就可认为此服务是正常的。只有当运行服务的主服务器出现故障时,才会执行服务的恢复切换过程。

在指定的时间内,当所有由HA管理的服务运行正常时,主服务器会向备份服务器发出心跳。但如果在指定时间内,主服务器心跳丢失,则表示该服务器可能出现了故障。

8 故障隔离与在线恢复

在主服务器出现故障而要将服务切换到备份服务器之前,HA会按在Services配置时设定的重启次数重新启动服务。

每个主服务都有自己的备份服务器。服务的恢复过程包括将共享磁盘、服务的网络识别标识及执行优先级切换到相应的备份服务器的过程。

一些与状态无关的应用程序(如NFS,UDP)的中断与恢复对用户来说是一透明的过程,客户只要在等待很短的服务响应时间后,便可自动与服务重新连接上。

另一方面,其他一些应用(如Clint/Server RDBMS,Telent 服务及基于TCP的服务等)的中断也会导致客户端应用的中断,并将其与服务的连接断开,此时,用户必须手动重新起动客户端应用,并与服务重新连接,当然也可以通过修改客户端的应用程序以使其不被中断,而且能自动重新建立与服务的连接。

当服务器出现故障时,终端用户会自动被注销,在这些用户重新注册进入之前,备份服务器必须将对方服务器的服务接管过来,此时,注册请求会自动转到备份服务

器上,这一过程对用户来说是完全透明的。

 当主服务器出现故障后又重新恢复正常时,有两种可选择的操作模式。第一:已被切换到相应的备份服务器上的原来的服务可以自动切换回已经恢复正常的主服务器上去。第二:恢复后的主服务器作为原来主服务的备份服务器,此时服务可以切换到备份服务器上。

9 服务的切换

 不管什么时候执行服务的切换过程,主服务器都要进行三步操作。一:执行正常的服务关闭程序,这样可以保证服务的完整性及数据的安全,而且也不会再有其他服务器执行此项服务。二:释放共享磁盘,以便备份服务器能够访问共享磁盘。三:修改主网络接口的标识,这样便可保证不会再有其他服务器使用此IP地址。

接下来,备份服务器在不重启的情况下将执行以下四步操作:一:获取存有服务的共享磁盘分区,二:进行系统检测与恢复,此过程可进一步保证在服务异常中断时共享磁盘的完整性。三:备份服务器网络接口使用主服务的IP地址,客户端会重新连接到原来的IP地址。这样,用户再去访问服务时,就没有必要再去重新配置或做修改四:重新启动服务.

服务的切换时间主要决定于两个因素:①服务本身的复杂性(如重启服务的所需时间);②执行文件系统检测与切换的时间。

造成文件系统检测时间长的原因基本上有两个:①在文件系统中有许多小文件;②文件系统本身非常大。

对文件系统进行记录会大大缩短文件系统的检测与恢复时间。文件系统的所有变化都会存放一个记录文件中。文件系统的恢复是通过修正记录文件中所记录的非法操作来完成的,文件系统的恢复时间并不完全取决于文件系统的大小。

切换:(Failover)

是由指定服务的主服务器启动的一个服务的切换过程。通常来说,有两种可能会触发此项操作,一:因为某种错误导致服务的中断或主服务器重启失败。二:主服务器需要离线转去执行系统维护工作。

本地切换:(Local Failover)

在主服务器上,可以加上另外一个NIC作为主服务器的备份NIC。当主NIC 出现故障时,RoseHA将会执行此项操作,可切换的IP地址也将会由本地的备份 NIC 接管,也就是说,这个IP地址将成为备份NIC的一个新的IP地址。

接管:(Takeover)

是指由备份服务器启动的一个服务的切换过程。通常来说,有两种可能会触发此动作:一:因为某种错误,而导致在预定时间内,主服务器心跳丢失;二:主服务器必须离线去执行系统维护工作。

Switch Back

是指由主服务器启动的一个服务的切换过程。当主服务器解除故障,正常运行后,它便会要求备份服务器将服务切换回来运行。此操作的主要用途在于:对客户端来说,可以继续使用原来由主服务器提供的服务响应级别,而备份服务器在切换过程中不象主服务器那样快地作出响应,这可能有两个原因:1、两台服务器的资源不同;2、备份服务器的所有资源还不能执行主服务。

10Administration Tool (管理工具)

RoseHA管理工具为系统管理员管理与监测RoseHA的运行提供了菜单驱动及点击操作的JAVA界面。利用此工具,系统管理员可以做以下操作:

通过表格形式和菜单驱动的GUI界面对HA进行配置

启动和停止RoseHA

输入License信息

建立或删除私有网

建立或删除服务

光标监测窗口

对操作过程进行实时记录及跟踪

调整错误监测的时间周期

强制将服务切换至另一台服务器上

·如果服务正在主服务器上运行,而要求进行服务切换的又是主服务器本身时,此服务会被切换到备份服务器上去。

·如果服务正在主服务器上运行,而此时备份服务器要求进行服务切换,这时,Backup服务器会接管此项服务。

·如服务当前正在备份服务器上运行,而此时要求进行切换的是原来的主服务器,这时服务会切换回主服务器上。

·当服务正在备份服务器上运行,要求进行切换的是备份服务器本身时,服务也会切换回主服务器上去。

启动和停止指定的服务及其相应的Agents 3.3RoseHA高可用配置方式

基本上来说,RoseHA支持两种类型的配置。

 

所有主服务在主服务器上运行,如果主服务器出现故障,则备份服务器会接管所有的主服务,备份服务器也因此成为新的主服务器。此类型的配置包括以下内容:*主服务器:一个网卡接公有网,一块网卡接私有网,一个SCSI或光纤 口连到共享磁盘,还有一个SCSI或光纤口连到本地硬盘。

*备份服务器:同上

*公有网:备份网卡会接管主网卡

*共享磁盘:由两根连接线通过独立的SCSI口分别接至主服务器与备份服务器的多机共享磁盘。

FC/SCSI

Client

Shared RAID(FC or SCSI)

Public LAN

心跳 LAN

File Server 数据

等待中!

如上所述:

两台主服务器运行各自的主服务,而不存在备份服务器。如果一台主服务器出现故障,另外一台主服务器将接管故障服务器上的所有服务。此类型配置主要由以下内容组成:

主服务器1:一个网卡(主网卡)连至公有网1,一网卡(备份网卡)连至公有网2,另有一网卡连至私有网,两个SCSI 口分别与共享磁盘及本地磁盘相连接。

主服务器2:一个网卡(主网卡)连至公有网2, 一网卡(备份网卡)连至公有网 另有一网卡连至私有网,两个SCSI 口分别与共享磁盘及本地磁盘相连接。 公有网1:备份网卡1接管主网卡1 公有网2:备份网卡2接管主网卡2

共享磁盘:通过两个独立的SCSI 口与两台主服务器连接的多机共享磁盘。

Client FC/SCSI

Public LAN Shared RAID (FC or SCSI)

心跳 LAN

File Server 数据

11 结论

RoseHA是构筑高可用性信息系统的一种值得信赖的应用级的解决方案,不管从经济还是技术的角度来说,此方案都是非常可行的,所有与操作系统兼容的软硬件均不用RoseHA作任何修改,便可正常运行。

北京敦阳泰克科技有限公司

地址:北京市朝阳区安定路39号长新大厦5F 邮编:100029

电话:010-********-8007 010-******** 010-********传真:010-********

敦阳泰克科技(成都)有限公司华南办事处

地址:广州市天河区天河北路898号信源大厦30F 邮编:510898

电话:020-******** 020-********传真:020-********

敦阳泰克科技(成都)有限公司华东办事处

地址:上海市长宁区天山路600弄1号同达创业大厦28F 邮编:200051

电话:021-********传真:021-********

销售: sales@https://www.doczj.com/doc/b08045026.html, 技术支持:support@https://www.doczj.com/doc/b08045026.html, 合作: partner@https://www.doczj.com/doc/b08045026.html, 官方网站:https://www.doczj.com/doc/b08045026.html,

官方微博:@RoseData 中国官方微博

敦阳泰克科技(成都)有限公司

地址:成都市高新西区天辰路88号 电子科大(西区)科技园邮编:611731

电话:028-******** 028-******** 028-******** 028-********传真:028-********

联系我们

相关主题
文本预览
相关文档 最新文档