当前位置:文档之家› 存储、集群双机热备方案

存储、集群双机热备方案

存储、集群双机热备方案
存储、集群双机热备方案

存储集群双机热备方案

目录

一、前言 (3)

1、公司简介 (3)

2、企业构想 (3)

3、背景资料 (4)

二、需求分析 (4)

三、方案设计 (5)

1.双机容错基本架构 (5)

2、软件容错原理 (6)

3、设计原则 (7)

4、拓扑结构图 (7)

四、方案介绍 (10)

方案一1对1数据库服务器应用 (10)

方案二CLUSTER数据库服务器应用 (11)

五、设备选型 (12)

方案1:双机热备+冷机备份 (12)

方案2:群集+负载均衡+冷机备份 (13)

六、售后服务 (15)

1、技术支持与服务 (15)

2、用户培训 (15)

一、前言

1.1、公司简介

《公司名称》成立于2000年,专业从事网络安全设备营销。随着业务的迅速发展,经历了从计算机营销到综合系统集成的飞跃发展。从成立至今已完成数百个网络工程,为政府、银行、公安、交通、电信、电力等行业提供了IT相关系统集成项目项目和硬件安全产品,并取得销售思科、华为、安达通、IBM、HP、Microsoft等产品上海地区市场名列前茅的骄人业绩。

《公司名称》致力于实现网络商务模式的转型。作为国内领先的联网和安全性解决方案供应商,《公司名称》对依赖网络获得战略性收益的客户一直给予密切关注。公司的客户来自全国各行各业,包括主要的网络运营商、企业、政府机构以及研究和教育机构等。

《公司名称》推出的一系列互联网解决方案,提供所需的安全性和性能来支持国内大型、复杂、要求严格的关键网络,其中包括国内的20余家企事业和政府机关.

《公司名称》成立的唯一宗旨是--企业以诚信为本安全以创新为魂。今天,《公司名称》通过以下努力,帮助国内客户转变他们的网络经济模式,从而建立强大的竞争优势:(1)提出合理的解决方案,以抵御日益频繁复杂的攻击

(2)利用网络应用和服务来取得市场竞争优势。

(3)为客户和业务合作伙伴提供安全的定制方式来接入远程资源

1.2、企业构想

《公司名称》的构想是建立一个新型公共安全网络,将互联网广泛的连接性和专用网络有保障的性能和安全性完美地结合起来。《公司名称》正与业界顶尖的合作伙伴协作,通过先进的技术和高科产品来实施这个构想。使我们和国内各大企业可通过一个新型公共网络来获得有保障的安全性能来支持高级应用。

《公司名称》正在帮助客户改进关键网络的经济模式、安全性以及性能。凭借国际上要求最严格的网络所开发安全产品,《公司名称》正致力于使联网超越低价商品化连接性的境界。《公司名称》正推动国内各行业的网络转型,将今天的"尽力而为"网络改造成可靠、安全的高速网络,以满足今天和未来应用的需要。

1.3、背景资料

随着计算机系统的日益庞大,应用的增多,客户要求计算机网络系统具有高可靠,高

可用性,而网络系统是否能够可靠、高速、稳定的运行取决于网络的心脏——服务器是否有最佳的容错,备份手段,已经成为一个日渐突出的问题。

根据相关机构的调查表明,在服务器的硬件中,最容易发生故障的仍然是可动的机械部分即硬盘(故障发生率为52%),其次是内存(占23%)和电源(占6%),三者之和约占硬件故障的80%以上。但是,在目前的服务器中,对硬盘,内存,电源所实行的基本可靠性措施可以说已经相当完备。中档以上服务器可以利用标准件或可选件来配置磁盘控制器和冗余电源。所用的机器中都配置了高可靠性的ECC内存,基本上消除了由典型故障所造成的停机事故。在软件故障中,WINDOWS NT 的事故约占60%,由应用引起的故障约占40%。群集备份技术是解决由软件(或硬件)引起可靠性降低的有效措施。群集技术是用网络将两个以上的服务器连接起来,当一台服务器停机时,集群中的其他服务器在保证自身业务的基础上,将停机服务器的业务接管。

二、需求分析

贵单位现有1台IBM235(志强3.0/1G内存/73G*3/RAID5/冗余电源/Windows2003标准版),作为全厂的主域控制器,控制局域网内部(不能上Internet)300用户和300台计算机,07年预计增加到400用户和400台计算机;安装有网络版卡巴斯基主控台和杀毒软件;提供网络版绘图软件的解密服务,约50用户;最主要的工作是提供SQL Server数据服务,装有SQL 2000 OEM版,目前只提供数据服务供50左右使用,即将增加110用户,同时提供数据和图片服务(每日数据量约为条写入;将生产用图纸存入数据库,供用户浏览,日增加量约为200张30K左右的jpg图片)估计每用户同时开启最大进程为20条(20*160=320条)。

1台IBM236(志强3.2/2G内存/146G*3/RAID5/冗余电源/Windows2003标准版),作为全厂的备份域控制器,最主要的工作是提供SQL Server数据服务,装有SQL 2000 标准版,为全厂考勤系统提供数据服务,约50用户使用。

1台IBM235(志强3.0/1G内存/73G*2/ Windows2003标准版)提供Internet网络的简单代理和域服务。

机房目前使用山特C6KW/2H供电系统;核心交换机尚有4个1000M电口、4个单模光口和4个多模光口可用。

总厂约300台计算机没有存储和备份系统。

根据现有网络环境中服务器使用现状,将现有服务器之间连接到AbeStore2615磁盘阵列,磁盘阵列系统做为数据库服务器的存储。主机服务器和备机服务器与AbeStore双机软件配套使用。双机服务器是一组独立的服务器,运行UPM 双机软件服务,并象单个系统一样进做。通过运行着UPM应用服务的服务器编组,可组成一级服务器双机热备.从而对资源和应用程序提供高可用的、可扩展的、可管理性的。

双机的目的是,在出现故障或断电的情况下,保证客户对资源和应用程序的访问.如果群集里的服务器由于故障或维护的缘故,不可用,资源和应用程序将移到其它可用群集节点上.保证服务的不间断工作

三、方案设计

3.1、双机容错基本架构

双机容错的目的在于保证数据永不丢失和系统永不停机,采用智能型磁盘阵列柜可保证数据永不丢失,采用双机容错软件可保证系统永不停机。它的基本架构共分两种模式:双机互备援(Dual Active)模式和双机热备份(Hot Standby)模式。

1)双机互备援(Dual Active)基本简介

所谓双机热备援就是两台主机均为工作机,在正常情况下,两台工作机均为信息系统提供支持,并互相监视对方的运行情况。当一台主机出现异常时,不能支持信息系统正常运营,另一主机则主动接管(Take Over)异常机的工作,继续主持信息的运营,从而保证信息系统能够不间断的运行,而达到不停机的功能(Non-Stop),但正常运行主机的负载(Loading)会有所增加。此时必须尽快将异常机修复以缩短正常机所接管的工作切换回忆备修复的异常机。

切换时机(Take Over)

●系统软件或应用软件造成服务器宕机

●服务器没有宕机,但系统软件或应用软件工作不正常

●SCSI卡损坏,造成服务器与磁盘阵列无法存取数据

●服务器内硬件损坏,造成服务器宕机

●服务器不正常关机

2)双机热备份(Hot Standby)基本简介

所谓双机热备份就是一台主机为工作机(Primary Server),另一台主机为备份机(Standy Server),在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况(工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机科尽早通知系统管理员解决,确保下一次切换的可靠性)。当工作机出现异常,不能支持信息系统运营时,备份机主动接管(Take Over)工作机的工作,继续支持信息的运营,从而保证信息系统能够不间断的运行(Non-Stop)。工作机经过修复正常后,系统管理员通过管理命令或经由以人工或自动的方式将备份机的工作切换回工作机;也可以激活监视

程序,监视备份机的运行情况,此时,原来的备份机就成了工作机,而原来的工作机就成了备份机。

切换时机(Take Over)

●系统软件或应用软件造成服务器宕机

●服务器没有宕机,但系统软件或应用软件工作不正常

●SCSI卡损坏,造成服务器与磁盘阵列无法存取数据

●服务器内硬件损坏,造成服务器宕机

●服务器不正常关机

3.2、软件容错原理

UPM容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。UPM容错软件不需要任何特别的容错硬件,并访问特定节点的配置数据。UPM容错软件会自动地提供错误检测和现场恢复。

在出现故障的情况下,UPM容错软件会将保护资源自动转换到一个根据预先设定好优先权的系统。在实际进行切换用户时,会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,UPM容错软件会在所选择的节点上自动地恢复操作。

1、心跳故障检测Heartbeat

UPM容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,UPM 容错软件就把这条路径标示为失效(红色)。

如果你只定义了一条通信路径,当UPM 容错软件把这唯一的一条通信路径标为失效时, UPM容错软件便立即开始恢复过程。然而,如果你有冗余路径, UPM容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果UPM 容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始切换动作,而只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复有故障的路径。

一般情况下UPM容错软件只在下列事件发生时,启动系统恢复功能:

所有的通信路径故障。如果所有节点都没能收到心跳信号,把所有通信路径都标为失效,UPM 容错软件开始安全检查。

安全检查失败。当所有通信路径故障时,UPM容错软件向整个网络发出安全检查信号。

如果信号指出配对系统还“活”着的时候,UPM容错软件不启动切换机制。如果安全检查没从配对节点返回信号,UPM容错软件就开始切换动作。

因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用多条通信路径。

2、通信路径

UPM容错软件支持在节点之间和心跳通讯中,使用如下通讯路径:

(1) Heartbest,心跳。你可以使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。一般是一组服务器上直联的两块网卡,这样的硬件包括:以太网、快速以网。

(2) TCP/IP,既公网。当Heartbeat心跳出现故障的时候,UPM容错软件会启动TCP/IP 的检测。这样的硬件包括:以太网、快速以网。

UPM 容错软件假定当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。

例如,如果两个服务器被一个心跳连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:

服务器的全部网卡或端口失败

电缆失效

主服务器暂时挂起

主服务器失败

失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。

3.3、设计原则

针对现有的情况,主机系统是由3台高端服务器组成的服务器群组,功能是对用户数据进行存储,对进入系统的信息进行处理。要求此系统必须具有稳定性、可靠性、安全性、数据处理能力强、响应迅速的特点。系统要保证有强大的处理能力,保证具有联机事务处理(OLTP)及联机分析(OLAP)能力:支持多处理器的SMP结构,可平滑长级;调整系统总线,为处理器、内存、I/O通道之间提供调整互联,提供调整的数据吞吐率,可以在超负荷负载下获得持续稳定的高性能。服务器系统要求支持足够的内存,满足用户对数据库

大量数据、信息调用的需求;大容量的磁盘存储能力和高性能的磁盘I/O性能,可以在海量存储的技术上,快速响应来自其化信息终端、局端的服务请求。目前主流的DDR、交叉存取技术等可以在系统上面实现平滑升级和过渡,以满足系统工作需求.

系统要求易于扩展,具备灵活的升级空间:包括CPU数、I/O接口卡、内存、硬盘和多个系统扩展槽,为些后的系统扩充下良好的扩展基础。在性能提升和扩展上,一方面系统支持后来更好的计算机技术,可以在单机上进行计算性能的升级,另一方面,系统支持集群计算技术,可以方便、灵活的进行系统性能的横向扩展,实现多台服务器的集群。后台的存储系统,采用的技术、产品先进,给予目前主流的标准、开放体系基础上,要有海量升级空间,能够满足当时和后来几年内的业务需求。

整个系统要求具备高可靠性、可用性、可维护性和良好的兼容性,支持冗余、容错、热插拔等先进的服务器存储技术,在系统方便扩展的基础上,可以有效的避免网卡、电源、硬盘、风扇等的单点故障,更好的保证系统7*24永不停顿的工作.

3.4、拓扑结构图

主机服务器和备机服务器及AbeStore磁盘阵列,构企事业拓扑图

四、方案介绍

SERVER1为用户的主域服务器,同时也是双机中的主机。主机上安装SQL 数据库,并将原额外域服务上的SQL考勤数据库移到主机SERVER1上。当SERVER1出现故障时,SERVER2接管SQL服务,并提供额外域的功能,

相关应用如下拓朴图:

根据贵公司实际情况,设计如下二套方案:

方案1:1对1数据库服务器应用

说明:

1、在1号Server系统中安装UPM数据库保镖,设置成主站。

2、在2号Server上安装UPM数据库保镖,设置成从站

3、UPM数据库保镖正常运行后,2号Server能够实时备份1号Serve中的数据库数据

4、在1号Server宕机的情况下,2号Serve能接管对外提供服务,保证客户端的正常运行;

5、当1号Server修复后,能快速将2号Server上数据恢复到1号Server中。

方案2:CLUSTER数据库服务器应用

说明:

1、在1、2号server组成的集群系统中安装UPM数据库保镖for cluster版设置成主站。

2、在3号服务器上安装UPM数据库保镖for cluster版设置成从站

3、UPM数据库保镖正常运行后,3号Server能够实时备份集群磁盘柜中的数据库数据

4、在集群中的1、2号机器同时宕机或磁盘柜损坏的情况下,3号Server能接管集群对外提供服务,保证客户端的正常运行;

5、当主机房损坏设备完全修复后,能快速将3号Server上数据恢复到集群存储中。

五、设备选型

在此设备选项型,依循保证性能稳定质量可靠可扩展性,并结合实际合理利用现有资源节省企业成本的原则。特选如下集群软件和硬件存储设备

硬件:IBM服务器三台,其中1台IBM235作为全厂的主域控制器,1台IBM236作为全厂的额外域控制器,1台IBM235提供Internet网络的简单代理和域服务。

如果做主域和额外域的双机,SQL就必须整合在一起,由于用户实际数据量比较大,且以上机型的配置均已经不能满足100用户以上的访问,所以我们给用户建议使用志强3.0以上CPU,2-4颗,4GB以上内存,这样可以进行整合改造。

磁盘阵列:数据总量估计在1T所有,日增长量估计在100M左右。我们采用15盘位320M SCSI主机接口,SCSI硬盘的阵列,单柜可提供4.5TB的容量。

我们对此有二种选购方案供贵公司参考:

方案1:双机热备+冷机备份

说明:支持数据库系统:Orcale、Sybase、MS SQL Server等常见数据库;

可以提供制造业所有信息系统的数据保护,覆盖大部分WINDOWS服务器中的数据库。和力记易的数据库保镖可以提供数据库双机热备+接管和本异地实时灾难备份等多种备份方式。。

方案2:群集+负载均衡+冷机备份

产品版本数量备注

SQL Svr Standard Edtn 2005 Win32 ChnSimp OLP NL 1 Proc 中文

标准

11个CPU授权许可,连接客户端不受限制

Windows Svr Ent 2003 R2 ChnSimp OLP NL 中文

企业

1支持集群,支持负载均衡。

AbeStdore2615磁盘阵列柜双主机通道 /15盘位磁盘阵列/自带RAID控制器,支持RAID0.1.3.5等,支持RAID在线扩展/单柜最大存储容量4.5TB

硬盘73/146/300G,80针,热插拔

IBM服务器 SYSTEM X3800 处理器英特尔? 至强? 处理器 MP

最大处理器数目 4

最大内存 64GB PC2-3200 DDR II

最大硬盘数目 12

RAID 支持可选的 RAID-0、RAID-1、RAID-5 (ServeRAID-8i)

处理器(最大) Intel Xeon 处理器 MP,

高达 3.66 GHz(单核)和 3.30 GHz(双核)/667MHz 的前端总线

网络接口集成双千兆以太网

电源(标配/最大) 775W 2 或 3/3 热插拔(N+1)

融合了 64 位突破性技术、四处理器性能与高达 3.6TB 的高速内部存储量

支持高性能双核 Intel Xeon 处理器 MP,能够同时运行 32 位和 64 位应用程序,从而提供了升级空间和潜在投资保护

三级内存保护和可选高级系统管理等高可用性特性有助于提高可靠性

支持新型 PCI-Express I/O 技术,以及旧的PCI-X 2.0

Backup Exec,Windows,System Recovery Server Edition,v6.5,License BESR备份主模块,可备份到不同系统平台,可备份到不同介质。

IBM 3580 磁带机盒式磁带的容量

(原始的/压缩的1) Ultrium 3:400/800GB Ultrium 2:200/400GB

Ultrium 1:100/200GB

最大数据传输率

(原始的/压缩的1) Ultrium 3:80MB/秒Ultrium 2:35/70MB/秒

Ultrium 1:15/30MB/秒

接口 L33、L23、L13、L11-LVD

H23、H13、H11-HVD

说明:无缝支持windows所有组件;更方便的管理、兼容性、稳定性。集网络负载平衡(NLB)、群集和冷备的三重功能的实现方式。群集节点不间断接管和恢复实时数据备份

六、售后服务及培训

《公司名称》将提供优质服务以保证客户公司整个网络改造系统顺利完成,并保证网络运行的稳定、高效和安全。

6.1 技术支持与服务

6.1.1 安装服务

《公司名称》负责客户公司网络设备的安装调试、调优工作。建立合理的项目建设机制,保证工程的改造服务质量。

安装完毕后提供完整的技术文档,内容包括:系统的信息记录、操作维护、调试的方法以及常见故障处理等等。

6.1.2 备件服务

提供备件服务,使故障设备得到维护。对一些维修周期长的设备,提供相似性能的设备,保证运行系统稳定。

6.1.3 保修维护服务

对在保修期内的软硬件产品设备提供保修服务(火灾、地震等人力不可抗拒的因素造成的设备损坏除外):

提供7*24维修服务,提供7*24小时响应的联系电话及联系人。提供远程访问维护功能,随时受理电话咨询,一旦有故障能随时联系到人。系统发生故障通过远程拔号接入或者24小时派工程师到现场维护。

6.1.4 后期维护服务

系统错误有可能在长时间的运行之后才能暴露出来,才能更容易的对问题进行孤立和查找。当系统投入使用后,测试工作要不断进行,只有这样才能发现新错误,以便及时解决。因此定期派系统工程师上门或者远程拔号接入对整个系统的资源进行测试、维护和优化(包括对系统软硬件设备的清理、网络性能的维护、优化、性能调试等等维护服务,以使系统能够长久、可靠安全的运行。在维护服务保修期内,免费提供一些优惠服务措施,包括提供软件差补通知,安装最新的补丁程序等等,对于提供的应用软件包,如有新版本推出,应建议用户使用,并为用户提供升级安装服务),实施跟踪服务。

6.1.5 标准支持服务

从系统开始正式运行,《公司名称》公司将提供标准支持服务。

标准支持服务内容如下:

?系统启动服务

?每年有限次现场服务

?远程诊断服务

?电话咨询服务

?(面对面或书面的)产品咨询服务

?当年增强版本更换

?产品信息服务

?电子邮件及在线服务

6.2 用户培训

《公司名称》将负责对用户进行网络系统的技术培训。通过对本网络各种设备的性能、结构、原理、维护管理技术和实际操作的讲解,能使用户掌握设备配置、日常维护的方法和技巧,使用户独立进行操作、纠错处理和设备测试,以保证网络开通后的正常安全运行。系统管理和技术人员的培训由《公司名称》负责组织,根据人员的知识结构情况制定具体的培训计划。

对系统管理员进行培训,使其熟悉系统的使用和维护,以利于以后的系统管理工作。我们提供的培训服务分现场培训和专业培训,先进行专业培训,提供系统的理论知识、再进行现场培训,以利于系统的掌握和今后系统的开发升级。

6.2.1、安装培训

安装培训在安装的过程中进行,最后安装调试完毕后,做总结培训。

安装培训目的是让经过专业培训的人员学以致用,理论结合实际,尽快掌握实际使用中产品设备的特性,以利于系统的使用和维护。

具体内容:

a.对产品设备的安装、使用、维护、常见故障处理以及产品设备的特性,通过实际安装中的培训,增强系统管理的实际操作水平。

b.安装完毕后,各个管理人员对操作流程进行实际演练,以确保安装过程中的知识学以致用。

c.在系统软硬件安装完成后,《公司名称》将派项目开发人员对贵单位技术人员和操作人员进行现场实际操作培训。

6.2.2、专业培训:

对相关技术人员,我们提供现场培训和专业培训,先进行专业培训,提供系统的理论知识、再进行现场培训,以利于系统的掌握和今后系统的开维护升级。

相关主题
文本预览
相关文档 最新文档