双机容错软件设置及检测
- 格式:doc
- 大小:1.96 MB
- 文档页数:13
服务器双机(或多机)高可用性解决方案服务器高可用性解决方案简介一.服务器高可用性解决方案背景由于计算机技术的不断发展,硬件服务器平台已经具有了相当好的可用性。
据统计,一般计算机系统配用RAID以及一些好的系统管理工具,其可用性可达到99%。
即使这样,一年365天仍然有44~87小时的停机时间,这对于企业用户意味着什么?客户、财产还是名誉?为了解决高可用性问题,人们提出了各种解决方案:完全硬件冗余,其可用性达99.9999%,但价格昂贵,且造成资源浪费;硬件与软件配合解决,其可用性达99.99%,但适用范围窄……今天,联想电脑公司服务器网络事业部应用NCR LifeKeeper for Windows NT纯软件解决方案,使系统可用性达到99.99%,适用范围广,性价比高,提供抗错甚至是容错功能。
联想电脑公司是亚太地区知名的整机及系统供应商,NCR公司是美国大型计算机公司,两公司于今年携手推出了基于联想万全服务器的高可用性解决方案。
该方案基于Windows NT平台,可提供2~16节点的服务器集群管理。
其卓越的性能与合理的性价比必将为大中型企业用户带来集群计算机系统的高可用性、高扩展性以及物超所值的满意价格。
二.联想万全高可用性解决方案的关键特点1.不用增加任何额外硬件投资,纯软件方式实现双机容错,且对备份机无硬件配置要求。
2.可支持Notes、Exchange、SQL Server、Sybase、Informix、0racle、SAP等多种系统的应用层叠恢复。
3.采用全球第一套基于NT操作系统的容错软件,并同时支持UNIX平台。
支持远程灾难备份。
4.支持共享磁盘阵列柜和扩展镜像两种方式,给用户提供了选择上的灵活性,同时也能适应各种机型、网络结构、软件平台及应用系统。
5.在扩展镜像或共享磁盘阵列任意方式下,均能实现两台NT服务器各自运行不同应用且相互热备份,即实现双机Active运转模式。
6.使用共享磁盘阵列柜方式时,最多可以支持16个节点,远远大于其它类似系统所支持的2个节点数。
软件测试中的容错性与恢复性测试在软件开发过程中,软件测试是确保软件质量的重要环节之一。
而软件测试中的容错性与恢复性测试则是其中的两种关键测试方法。
本文将介绍容错性与恢复性测试的概念、目的和常用的测试技术,以及它们在软件开发中的重要性和应用。
一、容错性测试容错性测试是测试软件系统在面对异常情况时的反应和处理能力。
其主要目的是验证软件在错误或异常情况下是否能够正确地处理,并保证不中断或崩溃。
容错性测试可以帮助开发人员发现和解决潜在的错误,增强软件的可靠性和稳定性。
在容错性测试中,可以采用以下几种常见的测试技术:1. 错误注入技术:通过有目的地引入各种错误和异常情况,例如输入错误的数据、非法的操作和网络中断等,以测试软件的容错能力。
2. 异常处理测试:测试软件对各类异常情况的响应和处理能力,例如输入超出范围的数值、文件读写错误等。
3. 状态恢复测试:测试软件在崩溃后是否能够正确地从错误状态中恢复并继续正常运行。
容错性测试在软件开发过程中起着重要的作用。
一个具有良好容错性测试的软件能够在面对异常情况时保持稳定运行,避免用户数据的丢失和系统崩溃,提升用户体验。
二、恢复性测试恢复性测试是测试软件系统在发生错误或异常后是否能够快速地回复正常运行状态的能力。
其主要目的是验证软件对错误的识别和修复能力,以及用户数据的保护和恢复。
在恢复性测试中,可以采用以下几种常用的测试技术:1. 恢复机制测试:测试软件对各种错误的识别和处理能力,例如内存溢出、数据丢失等,以确定软件能够及时修复错误并恢复正常运行。
2. 数据保护测试:测试软件在崩溃或异常情况下能否有效地保护用户数据的安全,并能够在恢复后正确地读取和还原数据。
恢复性测试在软件开发过程中同样具有重要意义。
一个具备良好恢复性测试的软件能够通过快速修复错误和数据恢复,减少系统中断时间,提高软件的可靠性和用户满意度。
三、容错性与恢复性测试的重要性与应用容错性与恢复性测试在软件开发中的重要性不言而喻。
双机热备/双机容错/高可用集群软件NEC-EXPRESSCLUSTER随着信息化建设的不断推进,各个企事业单位的活动越来越多的依赖于其关键的业务信息系统,这些业务信息系统对整个机构的运营和发展起着至关重要的作用,一旦发生宕机故障或应用停机,将给机构带来巨大的经济损失。
可见,对那些需要保障信息安全和提供不间断的信息服务的机构来说,业务系统的容错性和不间断性显得尤为重要。
如何保障各种关键应用持续运营,达到永续经营的良性循环,已成为当今企事业单位和IT领域急需解决的关键问题。
荟萃NEC技术精华的EXPRESSCLUSTER是一款专业的高可用集群软件产品(而不仅仅是一款双机热备软件),它可为您提供Windows和Linux平台上完整的高可用性解决方案。
当集群中的某个节点由于软件或硬件原因发生故障时,集群系统可以把IP、客户业务等资源切换到其他健康的节点上,使整个系统能连续不间断的对外提供服务,从而为机构24x365的关键业务提供了可靠的保障,达到了系统99.999%的高可用性和可靠性。
高可靠性.高可用性在要求持续运行的关键业务系统中,由于服务器宕机等故障所造成的业务停止将带来无法估量的损失。
在由NEC的容错软件EXPRESSCLUSTER构建的集群系统中,即使某台服务器发生故障,用户业务和数据也可迅速切换到健康的服务器上,从而保证了整个系统对外服务的正常,为企业24小时x365天的关键业务应用提供了强大的保障。
多种心跳监测方式支持网卡(私网/公网)、COM口、磁盘心跳等多种心跳方式,多重保障心跳检测途径,进一步提高了系统的可靠性。
EXPRESSCLUSTER独特的利用内核空间进行心跳探测的技术,可以保证心跳探测不受系统负荷影响,从而避免在高负荷状态下心跳超时所导致的误切换。
支持共享、镜像、混合等多种集群构成方式无磁盘型+适用于无后台数据的业务系统;+可构筑HW、OS、AP组成的简单集群共享磁盘型+数据通过外挂的磁盘阵列柜共享在服务器之间继承+适用于大规模的集群系统(2~32节点)+支持SAN,iSCSI等多种存储架构磁盘镜像型+通过本地磁盘的镜像方式实现数据继承+适用于小规模、低成本的集群系统+支持3节点以上的多点镜像共享和镜像共存型+实现共享和镜像共存于一个集群的应用场景+部分重要的数据可存放于镜像盘中以保证数据物理上存在冗余备份,避免了单点崩溃风险NAS连接的共享型+基于NAS接续的共享型集群+无需外挂共享磁盘阵列混合型(共享磁盘镜像型)+ 支持盘柜和盘柜之间的镜像+ 有助于实现远程异地灾备方案支持差分镜像在镜像型方案中,我们使用的差分备份和差分恢复技术,可直接对2台服务器的镜像盘中的差分数据进行同步和恢复,而不必通过全盘Copy,大幅缩短了镜像同步及恢复所需的时间,提高了镜像集群的性能。
一、Steeleye LifeKeeper技术简介及其应用(共享磁盘阵列柜方式)(一)Steeleye LifeKeeper原理1、Steeleye LifeKeeper定义、特性、资源保护LifeKeeper For Windows NT 提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。
LifeKeeper 不需要任何特别的容错硬件。
你可以集合使用二到十六个NT结点。
并访问特定地点的配置数据。
然后,LifeKeeper 会自动地提供错误检测和多层现场恢复。
在出现故障的情况下,LifeKeeper会将保护资源自动转换到一个根据优先权而设定的系统。
在实际进行切换用户时,会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,LifeKeeper会在所选择的系统上自动地恢复操作。
可以被LifeKeeper2.04保护起来的资源是:Ø卷(Volume)ØIP 地址Ø共享文件ØLAN(局域网)管理器服务器名称Ø应用程序Ø定义的用户ØMSCS应用程序2、心跳故障检测HeartbeatLifeKeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。
即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,LifeKeeper 就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当LifeKeeper 把这唯一的一条通信路径标为失效时, LifeKeeper 便立即开始恢复过程。
然而,如果你有冗余路径,LifeKeeper 能够通过第二条路径确定是系统故障还是只是通信路径有问题。
如果LifeKeeper 开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一下有故障的路径。
容错方案与双机热备方案比较一、引言容错方案和双机热备方案是常见的系统高可用性解决方案,它们都旨在提供系统的可靠性和可用性。
本文将对容错方案和双机热备方案进行比较,分析它们的优缺点,以及适用场景。
二、容错方案容错方案是通过在系统设计和实现中引入冗余来提高系统的可靠性。
容错方案主要包括硬件容错和软件容错。
1. 硬件容错硬件容错是通过在系统硬件层面引入冗余来实现的。
常见的硬件容错技术包括冗余电源、冗余网络、冗余存储和冗余处理器等。
当一个硬件组件发生故障时,系统可以自动切换到备用组件,保证系统的连续性和可用性。
2. 软件容错软件容错是通过在系统软件层面引入冗余来实现的。
常见的软件容错技术包括备份和恢复、数据镜像、数据冗余和错误检测与纠正等。
软件容错技术可以在系统发生故障时自动恢复系统的正常运行。
三、双机热备方案双机热备方案是一种常见的系统高可用性解决方案,通过在两台服务器上部署相同的系统和应用,实现系统的冗余和自动切换。
双机热备方案主要包括主备模式和双活模式。
1. 主备模式主备模式是双机热备方案中最常见的一种模式。
在主备模式下,一台服务器作为主服务器,负责处理用户的请求和数据的处理。
另一台服务器作为备份服务器,实时复制主服务器上的数据,并在主服务器发生故障时自动接管服务。
主备模式可以提供快速的故障切换和数据恢复能力,但在正常运行时备份服务器处于空闲状态。
2. 双活模式双活模式是双机热备方案中的另一种模式。
在双活模式下,两台服务器都处于活动状态,都可以处理用户的请求和数据的处理。
双活模式可以提供更高的系统容量和负载均衡能力,但需要解决数据一致性和冲突问题。
四、比较分析容错方案和双机热备方案都可以提高系统的可靠性和可用性,但在不同的场景下有不同的适用性。
1. 适用场景容错方案适用于对系统连续性要求较高的场景,如金融交易系统、电信系统等。
容错方案可以通过硬件和软件的冗余来保证系统的连续性和可用性,但成本较高。
1. 简介Rose HA(High Availability)双机方案是一种通过使用两台服务器实现高可用性和容错能力的架构设计。
该方案可以有效地提高系统的稳定性和可靠性,确保系统在某一台服务器出现故障时仍能正常运行。
2. 方案原理Rose HA双机方案采用主备模式实现。
其中一台服务器作为主服务器(Master),负责正常的业务处理;另一台服务器作为备份服务器(Backup),处于待命状态,当主服务器发生故障时会接管业务的运行。
方案的实现主要涉及以下关键技术:2.1 心跳监测为了实现主备服务器之间的实时通信和故障切换,需要通过心跳监测来检测服务器的正常运行状态。
常见的心跳监测方案包括使用UDP包、ARP请求、Ping等方式。
2.2 数据同步为了确保主备服务器之间的数据一致性,需要在主服务器更新数据后及时将数据同步到备份服务器上。
常用的数据同步方案包括基于文件的同步、数据库复制、日志复制等。
2.3 故障切换当主服务器发生故障时,备份服务器会接管业务运行并成为新的主服务器。
在故障切换过程中,需要保证数据的完整性和业务的连续性。
常见的故障切换方案包括VIP漂移、DNS解析等。
3. 部署步骤下面是部署Rose HA双机方案的步骤:1.选择合适的硬件:根据系统的性能要求和负载情况,选择适合的服务器硬件,并确保两台服务器具有相同的配置。
2.安装操作系统:在两台服务器上安装相同的操作系统,并确保操作系统的版本和补丁保持一致。
3.配置网络环境:为主备服务器配置静态IP,并确保主备服务器之间可以相互通信。
4.安装和配置Rose HA软件:根据厂商提供的指南,安装并配置Rose HA软件,包括心跳监测、数据同步和故障切换等功能。
5.测试方案的可用性:对部署好的Rose HA双机方案进行测试,验证主备服务器之间的心跳通信、数据同步和故障切换是否正常。
6.指定监控和报警策略:为Rose HA双机方案设置监控和报警策略,及时发现并解决潜在的故障。
软件测试中的容错性测试在软件开发过程中,容错性测试被广泛应用于确保软件在面对异常情况时能够正确处理并维持其正常功能。
容错性测试旨在评估软件在出现错误或异常情况时的行为表现,以及它在恢复正常运行后是否能继续提供正确的功能。
本文将介绍容错性测试的定义、目的、常用方法以及一些实践经验。
一、定义容错性测试,顾名思义,是在软件测试过程中一种评估软件容错性的测试方法。
其主要目的是检验软件在面对异常条件时是否能正确处理,并能够自动或手动进行恢复,从而确保软件不会因错误而导致系统崩溃或不可用。
二、目的容错性测试的主要目标是确保软件在发生错误或异常情况时具备以下特点:1.正确处理错误:软件应能够捕获和识别错误,并以适当的方式通知用户和/或系统管理员。
2.恢复能力:软件应具备恢复错误后继续执行的能力,尽可能保持正常运行。
3.可维护性:软件应提供适当的错误日志和诊断信息,以帮助开发人员或维护人员追踪和修复错误。
三、常用方法以下是常用的容错性测试方法:1.异常输入测试:通过输入非法、无效或异常数据来测试软件的响应能力。
2.资源耗尽测试:模拟资源(如磁盘空间、内存等)耗尽的情况,评估软件在资源紧缺情况下的表现。
3.系统故障模拟:模拟系统故障(如断电、网络中断等)来测试软件在这些情况下的反应和恢复能力。
4.压力测试:通过超出软件正常负载的测试来评估软件在负载过重或并发用户访问时的容错性能。
四、实践经验1.准备充分的测试数据:设计合理且充分的测试数据,包括正常数据和异常数据。
确保测试数据能够覆盖软件中的各个关键方面。
2.详细记录错误信息:在测试过程中详细记录每个错误的描述、重现步骤以及修复或处理措施。
3.与开发团队合作:与开发团队密切合作,及时交流错误和异常情况,确保问题得到及时解决。
4.持续测试与改进:容错性测试应该是一个持续的过程,随着软件的更新和迭代,需要不断进行测试和改进。
结论容错性测试在软件开发过程中具有重要的地位,它能够帮助我们检验和提高软件的可靠性和鲁棒性。
(第一部分)ROSE双机热备解决方案前言数字化建设是一个庞大而复杂的系统工程,其整体系统由上百个业务子系统组建而成,而这些系统间又有频繁的数据交换和业务联动,数据/信息中心系统的建设和部署是整个数字化系统建设的核心和基础,其架构设计是一项复杂的工作。
本方案提出双机热备硬件平台基础架构的概述。
本方案针对数字化基础架构,帮助各个层次上保持正常、健康的运行。
具体方案如下:一、高可用性评估:对IT 可用性计划、流程、过程、角色、职责、报告、控制和服务水平实现情况进行分析;通过事后分析、故障成本或组件故障影响分析技术,对可能发生的故障进行分析;二、高可用性规划与设计对高可用性进行规划,包括计划、计划管理、报告和服务水平管理、高可用性流程和过程设计,包括角色和职责。
三、高可用性实施各种服务器优化与整合服务规划、设计和实施。
四、容灾规划与实施服务数据中心和灾备中心连续性接管服务,灾难恢复演练计划制定与实施。
一.系统环境1。
1 方案业务简述本方案的核心是统一的高性能的NAS架构,大部分数据都存储在NAS 的环境中,通过交换机连接不同的数据库服务和应用服务器进行各种业务处理.为支持越来越高的业务连续性要求。
二.关健业务连续性系统设计2。
1 基础架构2.2 系统设计说明1。
服务器、存储和软件系统本方案的核心是统一的高性能的NAS架构,大部分数据都存储在NAS的环境中,通过交换机连接不同的数据库服务和应用服务器进行各种业务处理.根据我们对业务系统的分析,充分满足对系统数据容量的规划,建议配置如下:✓2两台服务器建议选择IBM X3650 M4,每台建议配置如下:✓磁盘阵列建议选择IBM DS3512,建议配置如下:✓双机软件选择RoseHA 一套,配置如下:操作系统要求选择支持大内存和硬盘RAID功能.两台IBM X3650M4双机系统为数据库服务器,两台互为备份,这大大提高了系统的可靠性,在任意一台服务器发生故障时整个系统能够继续安全良好的运行。
GDS双子星容错系统解决方案目录UNIX系统技术有限公司简介 (3)第一章双机容错技术简析 (4)第二章GDS双子星容错系统 (6)主要特点: (6)GDS运行环境 (7)GDS性能指标 (8)第三章系统典型方案 (9)方案一:SC0 UNIX +GDS+磁盘阵列柜 (9)方案二:SC0 UNIX +GDS+RAID控制卡+磁盘阵列柜 (9)方案三:SC0 UNIX VDM+GDS+磁盘阵列柜 (10)第四章成功案例 (11)基于UNIX平台的双机容错系统的需求分析 (11)典型应用一农业银行河北省各地市支行通存通兑系统......... 错误!未定义书签。
典型应用二投资银行杭州市分行清算系统............................. 错误!未定义书签。
第五章公司的技术支持和培训计划......... 错误!未定义书签。
附录一GDS 部分问问客户名单. (12)附录二ESCORT DA 系列磁盘阵列主要特点 (13)UNIX系统技术有限公司简介UNIX系统技术有限公司成立于1992年11月(简称UNIX中国公司),是中国唯一获准使用“UNIX”作为公司名称的企业。
作为美国SCO公司在中国的唯一合资公司和最重要的合作伙伴,UNIX中国公司拥有从UNIX SVR4.2到UnixWare 2到UnixWare 7主流UNIX的全部源代码。
多年来在UNIX业界的辛勤耕耘,公司已完成了从技术引进、推广应用、消化吸收到自主开发的过程,拥有一批经验丰富的UNIX工业工程师,并始终处于UNIX技术和产品的最前沿,成为广大UNIX客户的坚强后盾。
SCO UNIX操作系统以其稳定、可靠和开放的特性,使其成为企业关键性业务的主要系统平台,我们的客户遍布银行、保险、邮电、税务、铁道、海关、水利、教育、政府、零售业、制造等各个行业。
为了更好地服务于广大用户,力求为用户提供全方位的技术服务,UNIX 中国公司充分发挥自身的技术优势,推出了包括中文系统、容错系统、安全操作系统及网络信息保密机等一系列基于UNIX的增值产品。
•双机容错软件安装及调试
•本节操作说明适用于双服务器连接IBM DS3200及DELL 200S等磁盘阵列应用。
•安装光盘编号:S0005 文件位置:DAWAER\daware.exe
•在做下文的操作之前,请确认服务器与磁盘阵列已正常连接,服务器已完整的安装了Windows server 2003且双机连接磁盘阵列的基本软件环境设置完毕。
•下文为本公司应用标准设置说明,更多内容请参阅附件文档(proware官方文档):《dataware双机软件维护手册.doc》此文档位于附件光盘S0005的DAWAER文
件夹内。
安装及设定DAWARE软件:
1.双击daware安装程序,按默认安装即可。
安装完成后重启系统。
2修改daware服务的登录密码:
打开,控制面板---管理工具---服务,然后在dataware服务的属性里修改登录密码。
然后
启动这个服务。
3修改IIS:
(注:如果系统没有添加ASP组件,那么须要在添加/删除里添加。
打IIS管理器,在网站里可以看到一个DataWare网站,进入网站属性,修改其端口,选择
主目录,修改如图:
然后点击配置,选择“选项”,将“启用父目录”打上勾。
选择文档标签,将Default.asp 上移到顶部。
4在IE地址输入IP:端口打开软件的管理介面。
5设置主机:
6读取对等主机NIC
7设置私有网络:
先把当前设置网页关闭,然后再打开,进入私有网络进行如下设置:
8添加COM+组件:
(注:如果操作系统为win2000或win2003没有打sp1以上补丁,此步可以不用,不然DATAWARE总是提示“系统核心服务尚未启动”。
)
打开,控制面板---管理工具---组件服务,在COM+应用程序中建立一个名为“dataware”的空的应用程序,选择服务器应用程序--网络服务,其它默认.建立成功后在里面添加新的组件--导入已注册的组件--“Dealini.admin.1”,然后选择建好的dataware属性,把安全中的“对应用程序强制进行访问检查”的勾给去掉,然后先关闭再启动,然后重新启动两台虚拟机就OK了。
9启动双机容错系统:
(以上操作须在两台机子上都做)
10添加IP资源:
选择“资源物件”,增加资源物件中选择“IP地址”,点击添加。
11添加磁盘资源:
选择“资源物件”,增加资源物件中选择“磁盘”,点击添加。
12导入资源:
进入刚才建立好的相应资源,选择导入。
DataWare 自我检测
当安装及设定完 DataWare 软件之后,必须先进行自我检测DataWare 软件是否正常运行,以下提供几个检测步骤作为参考之依据。
1 检测主机名称:
环境假设:
Host1 主机名称:NT1
IP:192.168.10.55
Private Net IP:192.168.0.1
Host2 主机名称:NT2
IP:192.168.10.56
Private Net IP:192.168.0.2
当安装完DataWare 双机容错软件之后,请在本地端/对等端主机的系统设定字段输入对方主机的名称,接下来按下「变更」以储存设定,如图所示。
2 检测NIC 设定:
透过服务器标签内的 NIC 字段,按下「读取对等主机NIC」,可以观看自身以及对等主机之Mac Address、IP Address 以及Subnet Mask 设定,在DataWare双机容错软件启动之前,请确认此标签内参数为正确值,如图所示。
3 检测私用网络设定:
在私用网络卷标设定,当第一次使用时,使用者必须要让三者私用网络(网络型、串行端口、共享磁盘)之一勾选「启动双机容错系统时,自动开启」,之后按下「更新」,以便储存其设定,本地端/对等端主机都必须做此动作,如下图示范开启私用网络之网络型联机,并选取本地端/远程IP 地址。
4 检测启动双机容错系统是否正常:
接下来再回到服务器标签内,选取「启动双机容错系统」来启动DataWare双机容错软件,而本地端/对等端主机皆需要选取此按钮以启动。
5 检测基本资源物件是否正常:
使用者可将基本之资源物件(IP 地址资源、主机别名资源、磁盘资源)导入来测试DataWare 双机容错软件是否正常运行,若可正常导入并可自由切换,则代表已经成功将DataWare 双
机容错软件安装完成并设定成功。