HACMP 解决方案
- 格式:doc
- 大小:93.00 KB
- 文档页数:8
第1章IBM服务器解决方案介绍2.1 基于PowerVM 的服务器虚拟化方案介绍IBM提供的服务器虚拟化解决方案基于PowerVM技术,极大地提高IT集成的效率,大幅度简化了IT管理的复杂性,提高了整体系统的可用性。
同时还明显的减少了投资成本,具有很好的技术领先性和性价比。
服务器虚拟化允许将一个物理服务器分成多个安全的虚拟服务器,从而为合并物理服务器创造了机会,可帮助降低硬件购买成本和管理成本。
IBM 的服务器虚拟化历史可追溯到40 年前的主机时代。
我们现在为UNIX® 及Linux® 集成提供大量解决方案。
1.1.1.1PowerVM介绍PowerVM是在基于IBM Power处理器的硬件平台上提供的具有行业领先水平的虚拟化技术家族。
它是IBM Power System虚拟化技术全新和统一的品牌(逻辑分区,微分区,Hypervisor,虚拟I/O服务器,APV,PowerVM Lx86,Live Partition Mobility)。
PowerVM是专为支持客户更好地管理其IT成本、最大化能源效率及提高资源利用率而设计的平台。
PowerVM提供的虚拟化解决方案可运行在业界最为广泛的操作系统上,包括AIX、Linux和System i客户使用的i5/OS系统。
PowerVM主要功能1)Micro-partition(微分区):芯片级虚拟化技术,实现1/10个CPU为单位划分CPU资源,以1/100单位调整资源。
IBMPOWER5、POWER5+支持完全意义上的虚拟化技术,并引入了微分区技术。
由于动态逻辑分区的资源调整功能让系统管理员可以自由添加、删除或在分区之间移动系统资源,例如CPU、内存、I/O适配器的分配,而不需要像原来修改之后重新启动分区。
这样,微分区技术的引入,更使得动态逻辑分区的资源调整功能不但可以移动物理资源,还可移动、增减虚拟资源,具有广阔的应用场景。
这样系统管理员就可以根据分区系统负荷和分区业务运行特点,随时将资源动态分配到需要的地方,从而大大提供资源的利用效率和灵活性。
PowerHA完全手册(一)前言自2008 年4 月02 日笔者在IBM DevelopWork网站首次发表《HACMP 5.X 完全手册》以来,加上各网站的转载,应该已过了10万的阅读量,在此非常感谢大家的认可和支持。
转眼已经5年过去了,期间非常感谢不少同仁指出了该文的各种不足,并且HACMP已经改名为HACMP了,由于软件版本的更新和本人当时的技术水准有限,同时也存储不少同仁的希望,在原文基础上进行了补充和修订完善,也就有了本文。
正是由于AIX专家俱乐部的兴起,对AIX和HACMP的技术感兴趣的技术人员又更多了。
因此选择本杂志作为原创发表,就是希望能对更多的同仁日常工作有所帮助。
此外,虽然本文号称“完全手册”,一是为了吸引眼球,二也只是相对于其他只谈安装配置的文档而言。
由于HACMP现在已相当复杂,本文范围也主要关注于最常用的双节点,还望大家谅解。
即便如此,本文篇幅可能仍然较长,虽然也建议大家先通读一下,但实际使用使用时可根据具体目的按章节直接查阅操作。
这是因为一方面本文所述操作笔者都加以验证过;一方面也是全中文,省得大家去查一大堆原版资料。
希望能帮助大家在集成和运维HACMP的过程中节省精力、降低实施风险,这也是本文编写的初衷。
同时还望那些被部分摘抄文章的同仁也能理解,你们都是笔者的老师,这里也一一谢过。
虽笔者端正态度,尽力认真编写,但由于能力有限,恐仍有错漏之处,还望众多同仁多多指正海涵,在此先行谢过。
1. 为什么需要PowerHA/HACMP随着业务需求日益增加,IT的系统架构中核心应用必须一直可用,系统必须对故障必须有容忍能力,已经是现代IT高可用系统架构的基本要求。
10 年前各厂商现有的UNIX服务器就已拥有很高的可靠性,在这一点上IBM的Power系列服务器表现尤为突出。
但所有UNIX服务器均无法达到如原来IBM大型主机S/390那样的可靠性级别,这是开放平台服务器的体系结构和应用环境所决定的,这一点,即使科技发展到云计算的今天仍然如此。
一、功能原理1.HACMP的概念HACMP(High Availability Cluster Multi-Processing)是IBM基于Unix平台开发的一套高可用性集群软件,这个软件是为了确保关键资源或应用可以获得处理。
在hacmp集群环境中,应用必须在hacmp的管理之下,这样才可以确保应用的高可用性,当集群中的一个节点或组件出现问题,集群会将这个节点或组件所需的资源转移至其他节点上。
建立集群的目的✓减少计划或非计划的宕机时间✓避免单点故障✓快速故障恢复,但不能实现容错2.节点,网络,心跳2.1节点节点是安装并运行AIX操作系统和hacmp软件的一台独立系统,节点之间可以共享一系列资源:磁盘,卷组,文件系统,网络,网络IP地址和应用程序。
2.2网络集群各个节点之间通过网络进行相互通讯,当一个节点的某个网卡出现故障后,网络连接会自动切换到这个节点的其他网卡上,如果这个节点的所有网络连接都不可用的时候,集群会把应用极其所使用资源切换到其他节点上,并进行IP 地址接管操作IPAT(IP Address Takeover)。
集群的网络IP接管方式有2种:IP别名和IP替换IP别名:当集群把资源组以及IP地址从主节点切换目标节点时,在目标节点上并不会用主节点的服务地址去替代目标节点的网卡地址,而是在目标节点的网卡上建立IP别名(IP Alias),这样允许一个网卡绑定多个服务地址,因此同一节点可以装载更多的资源组。
IP替换:当集群把资源组以及IP地址从主节点切换目标节点时,目标节点的初始化启动IP将被主节点的服务IP所替换,这样只有使用同一服务地址的资源组可以装载到目标节点。
如果使用IP替换的接管方式还可以配置网络硬件地址HWAT(Hardware Address Takeover)即MAC地址切换,以确保ARP cache对网络地址的影响。
注:在HACMP4.5版本以前网络接管方式只能配置为IP替换方式。
在数据容灾中最常采用,也是最有效的方案是异地容灾。
这种容灾方案最有保障,因为它是把数据备份保存在另一地方,甚至另一个国家,这样数据就会更安全。
试想一下在伊拉克这样连成战争不断的国家,即使把数据保存在了本国其它地方也是不安全的,所以有许多数据存储厂商提出了全球容灾的方案。
从本篇起要向大家介绍几个典型的数据存储厂商的异地容灾方案,本篇所介绍的是全球最为著名的数据存储厂商--IBM的几种异地容灾方案。
针对不同的用户需求,IBM公司的异地容灾方案产品线非常丰富,各种数据备份技术和应用方案层出不穷,处于全球领先地位。
它的这些容灾方案不可能全在本文中介绍清楚,所以只选三个常见的方案类型向大家介绍。
一、数据级灾备--PPRCIBM的PPRC(Peer to Peer Remote Copy,点对占点远程复制)复制技术是基于ESS企业级数据存储服务器,通过ESCON(Enterprise Systems Connection,企业管理系统连接,是一种光纤通道)通道建立配对的逻辑卷容灾技术。
这是IBM的最高级别容灾方案,主要适用于大、中型和电信企业选用。
它的网络结构(如图1所示)。
在图中数据中心A和数据中心B可以是两相隔上百公里的网络系统,既可以单独把某个数据中心的数据备份到另一个远程数据中心中,也可以实现相互远程备份。
在标准的实时备份方案中,服务器主机通过SAN与IBM企业存储服务器ESS相连接,两台ESS之间通过ESCON通道实现同步远程拷贝。
受ESCON传输距离的限制,当主、备机房的距离超过2公里时,需要加光纤延伸器。
光纤延伸器可以从多个不同的厂商购得,比如IBM 2029 Fibre Saver、INRANGE的9801等。
在光纤延伸器的帮助下,PPRC数据备份可达到100公里以上。
在这种容灾方案中,核心设备就是IBM的ESS的企业级存储服务器,目前最新的型号主要有IBM TotalStorage Enterprise Storage Server (ESS) Model 750/800这两种,(如图2所示)。
第一章介绍本章内容包括对IBM针对AIX产品线的高可用性集群多处理系统的介绍以及IBM高可用产品的概念本章将讨论以下主题:●什么是HACMP?●历史与发展●高可用性的概念●高可用性Vs容错1.1.什么是HACMP?在我们解释什么是HACMP以前,我们先来定义一下高可用性的概念。
High availability在当今复杂的环境下,成功实现IT应用的一个关键要素就是提供不间断的应用服务。
HA就是这样一个可以通过消除计划内/计划外宕机事件从而向客户应用提供不间断服务的部件,它能达到消除从硬件到软件的单点故障(SPOFs)。
一个高可用性解决方案可以保证方案中任何组件的失效(包括硬件、软件或系统管理)都不会造成客户无法访问应用和应用数据。
高可用性解决方案可以通过恰当的设计、计划、硬件选择、软件配置以及细心控制改变管理方法来消除单点故障。
Downtime停机时间是指应用程序不能为客户端提供服务的时间。
停机时间分为:➢计划内:-硬件升级-维修-软件更新/升级-备份(离线备份)-测试(对群集确认必须进行周期性测试)-发展➢计划外:-管理员过失-应用失效-硬件失效-其他不可抗力(天灾)IBM针对AIX的高可用性解决方案——HACMP给予饱经考验的IBM群集技术,它包括以下两个组件:➢高可用性:该进程保证应用在用户复制和/或共享资源时是可用的。
➢群集多处理:该进程提供在同一节点上多个应用共享或并发访问数据。
基于HACMP的高可用性解决方案提供自动失效检测、诊断、应用恢复和节点重新控制。
在恰当的应用中,HACMP还可以在并行应用处理中提供对数据的并发访问,从而提供更高的可扩展性。
标准的HACMP环境如图1-1。
1.1.1.历史与发展IBMHACMP最早可追溯至90年代。
HACMP在1990年开始为RS/6000机器上的应用提供高可用性解决方案。
我们不会提供关于更早版本的信息,原因在于这些版本要么已经不被支持或者已经不再使用,我们只提供近期一些版本的相关信息。
本操作流程文档,针对客户的主服务器z***2主机的/u03的 JFS2文件系统扩容;涉及前期的存储划分映射,在此文省略;如有其他相关纰漏,请指出。
1、客户现场环境:了一个120GB的LUN,并映射至上述的主备服务器。
映射工作完成后,请一次在主备服务器上执行 cfgmgr –v 指令,做系统硬件设备的扫描。
服务器将识别到共享的LUN ,并分派标示符,如下: z***1: z***2:注:由于服务器原来环境的设备标示不同,所以是识别的EMC 路径盘符也不尽一致。
执行HACMP 集群节点发现指令smitty hacmpExtended ConfigurationDiscover HACMP-related Information from Configured Nodes执行HACMP 集群LVM 指令smitty hacmpHACMP Logical Volume ManagementShared Volume GroupsSet Characteristics of a Shared Volume GroupAdd a Volume to a Shared Volume Group选择需要操作的共享卷组,本案为new1vg检查两个节点的卷组状态:主服务器z***2:hdisk14 none Nonehdisk13 none Nonehdiskpower4得以加入,但考虑new1vg中有其他较小的卷组,担心影响卷组的稳定性,遂没有采用。
解决方法2,修改lun的大小为120G,恰好接近卷组属性值。
2、/u03文件系统对应逻辑卷u031_lv的最大lps值限制,以至于文件系统不能扩容,使用chlv指令将为u031_lv的MAX lps值修改为2048。
PowerHA软件与HACMP for Linux的区别是什么?PowerHA软件包中的PowerHA/XD(Extended Distance) 与Smart Assist的功能是什么?1) PowerHA(以前的HACMP)是Power服务器上的双机软件。
在e-config工具中,PowerHA是针对Aix 操作系统的双机软件。
针对Linux的双机软件是HACMP for Linux。
HACMP for Linux只支持在AIX 上可用的一部分特性。
目前HACMP on Linux不支持以下特性:WPARGLVMMulti-Node Disk heartbeat (MNDHB)Shared storage (must use GPFS or NFS)Tape DevicesVirtual Ethernet (translation is no VIO support)IPAT via replacement (IPAT via Aliasing only)DLPAR /CoDWorkload ManagerHACMP/XDGeographical Logical Volume manager (GLVM)Dynamic Node Priority (DNP)Event EmulationSmart AssistAuto Cluster DiscoveryConfiguration AssistantsError NotificationASCII SMIT (WEBSMIT only)Online Planning WorksheetsConcurrent Resource GroupsNetwork types (limitation is Ethernet and RS232 only)ATMfddihpsibtoken ringdiskhbtmscsitmssa2) PowerHA/XD(Extended Distance)和Smart Assist是PowerHA for AIX 的两个可选特性。
HACMP操作手册强制方式停掉HACMP:HACMP 的停止分为3 种,graceful(正常),takeover(手工切换),force(强制)。
下面的维护工作,很多时候需要强制停掉HACMP 来进行,此时资源组不会释放,这样做的好处是,由于IP 地址、文件系统等等没有任何影响,只是停掉HACMP 本身,所以应用服务可以继续提供,实现了在线检查和变更HACMP 的目的。
一般所有节点都要进行这样操作。
强制停掉后的HACMP 启动:在修改HACMP 的配置后,大多数情况下需要重新申请资源启动,这样才能使HACMP 的配置重新生效.日常检查及处理为了更好地维护HACMP,平时的检查和处理是必不可少的.下面提供的检查和处理方法除非特别说明,均是不用停机,而只需停止应用即可进行,不影响用户使用。
不过具体实施前需要仔细检查状态,再予以实施。
clverify 检查这个检查可以对包括LVM 的绝大多数HACMP 的配置同步状态,是HACMP 检查是否同步的主要方式。
smitty clverify—〉Verify HACMP Configuration回车即可经过检查,结果应是OK。
如果发现不一致,需要区别对待。
对于非LVM 的报错,大多数情况下不用停止应用,可以用以下步骤解决:1.先利用强制方式停止HACMP 服务。
同样停止host2 的HACMP 服务.1.只检查出的问题进行修正和同步:smitty hacmp —〉Extended Configuration—>Extended Verification and Synchronization这时由于已停止HACMP 服务,可以包括"自动修正和强制同步“。
对于LVM 的报错,一般是由于未使用HACMP 的C-SPOC 功能,单边修改文件系统、lv、VG 造成的,会造成VG 的timestamp 不一致.这种情况即使手工在另一边修正(通常由于应用在使用,也不能这样做),如何选取自动修正的同步,也仍然会报failed。
X HACMP双机切换资源包操作说明1、操作背景1.1 系统环境在此处详细描述双机切换操作所涉及的X HACMP系统环境。
1.2 双机切换目的在此处详细说明进行双机切换的原因和目的,例如故障处理、系统维护等。
2、准备工作2.1 数据备份在此处详细说明进行双机切换前的数据备份工作,包括备份的数据类型、备份的目录、备份的方式等。
2.2 网络准备在此处详细说明进行双机切换前的网络准备工作,包括IP地质划分、网络连接测试等。
2.3 资源包准备在此处详细说明进行双机切换前的资源包准备工作,包括资源包的创建、配置文件的修改等。
3、双机切换操作步骤3.1 停止资源包在此处详细说明停止资源包的操作步骤,包括停止资源管理器、停止应用程序等。
3.2 确认切换条件在此处详细说明进行双机切换前需要确认的条件,例如切换的时间窗口、双机状态检查等。
3.3 切换资源包在此处详细说明切换资源包的操作步骤,包括切换资源管理器、启动资源管理器等。
3.4 检查切换结果在此处详细说明进行双机切换后需要进行的检查工作,例如检查应用程序状态、检查网络连接等。
4、恢复操作4.1 恢复资源包在此处详细说明如何恢复原来的资源包,包括关闭新的资源包、启动原来的资源包等。
4.2 检查恢复结果在此处详细说明进行资源包恢复后需要进行的检查工作,例如检查应用程序状态、检查网络连接等。
5、注意事项在此处双机切换操作中需要注意的事项,例如操作顺序、资源包的配置细节等。
6、附件本文档涉及的附件列表,包括配置文件样例、操作脚本等。
7、法律名词及注释在此处文档中涉及的法律名词及其注释,以确保读者能够正确理解文档内容。
HACMP工作原理介绍HACMP(High Availability Cluster Multiprocessing)是一种高可用性的集群解决方案,旨在提供在系统或硬件失败发生时,保证应用程序持续可用的能力。
它通过在多个计算节点上部署应用程序和数据,并实时监控系统健康状况,来实现高可用性。
1.集群:HACMP通过将多个计算节点连接在一起形成一个集群。
每个节点都是一台具备计算和存储能力的服务器,运行着相同的操作系统和应用程序。
集群中的节点通过专用网络互相通信,实现对整个集群的协调和控制。
2.资源:在HACMP中,应用程序和其相关的数据被称为资源。
资源可以是单个的进程、服务、文件系统等。
HACMP对资源的管理包括资源的分配、启动、停止和迁移等操作。
3.心跳检测:为了实时监控系统的健康状况,HACMP引入了心跳检测机制。
每个节点通过定期发送心跳信号来表示自己的正常运行,其他节点接收到心跳信号后确认,如果长时间未收到心跳信号则判断该节点可能出现故障。
4.预定义和自动化的故障切换:当一些节点出现故障时,HACMP会自动将该节点上的资源切换到其他节点上,以保证应用程序的持续可用性。
切换的过程中,HACMP会确保数据的一致性,并在尽可能短的时间内完成切换操作。
如果故障节点恢复正常,HACMP会自动将资源切换回原节点。
5.监控和故障恢复:HACMP提供了一套完善的监控和故障恢复机制。
它实时监控系统中的节点状态、资源状态和网络连接等信息,并根据预定义的策略执行相应的故障恢复动作。
当故障发生时,HACMP会立即做出响应,启动资源切换和恢复节点操作。
通过上述工作原理,HACMP能够实现高可用性的应用程序部署和运行。
它具有以下优点:1.高可用性:HACMP提供实时监控和故障恢复机制,能够及时检测和处理系统和软件故障,保证应用程序持续可用。
2.负载均衡:HACMP能够根据系统负载情况,将资源合理地分配到不同的节点上,实现负载均衡和性能优化。
第三章安装与配置在这一章我们将介绍一些基本HACMP的安装和各种不同的安装过程。
本章中覆盖以下主题:HACMP软件安装网络配置存储配置HACMP群集配置-拓扑配置-资源配置(标准的)-自定义资源配置注意:规划是实现成功的一半,但在开始实施时,不能再强调需要适当的计划。
如果没有进行正确的规划,你会在最后深陷泥潭,要找出解决方法是令人痛苦的一件事情。
因此,在使用HACMP规划工作表时多花些时间,对于在解决问题、迁移、或文档编制都是很有价值的。
3.1.HACMP软件安装HACMP提供了一系列有用的功能,你可以用它们来使您的应用高可用。
牢记:并非所有的系统或应用组件都能被HACMP保护。
例如:重要应用的所有数据存储在单一的一块磁盘上,而该磁盘失效,那么这个磁盘就是整个群集的SPOF,并且它不被HACMP所保护,在这种情况下,应该使用AIX的逻辑卷管理器或者存储子系统来保护数据。
HACMP只提供在备机上对该磁盘的接管以确保数据的可用性。
这就是为什么规划重要的原因:因为你的主要目标是消除SPOF。
存在SPOF的群集相当于处于临界状态,如果该SPOF设备失效,群集不在起作用以来该组件的应用或服务将不再可用。
同样谨记:规划良好的群集是易于安装的、提供更高的可用性、按预期目标执行并且只需要较少的维护工作。
3.1.1.检查需求完成规划工作表之后,首先检查系统是否满足HACMP的需求,在这里特别的努力可以消除一些系统潜在的错误。
HACMP V5.1需要以下操作系统组件:AIX 5L V5.1 ML5和RSCT V2.2.1.30或更高AIX 5L V5.2 ML2和RSCT V2.3.1.0或更高(推荐2.3.1.1)C-SPOC vpath支持的话需要SDD 1.3.1.3或者更高3.1.2.新安装在HACMP交替磁盘迁移选项中支持网络安装管理(NIM)程序。
你必须在每个节点上安装HACMP文件集(通过NIM或本地软件库)。
第一章HACMP的概念和原理关键业务的连续性可以通过以下三个层次的方法实现:磁带备份磁带备份是实现基本的业务连续的通用方法。
信息先备份到磁带上,然后送到另外的地点保存。
这种方法的问题在于磁带备份往往需要较长的时间来记录数据。
另外,在数据备份过程中或者做数据备份前的系统或环境故障很可能造成数据丢失。
而且,从备份磁带上恢复数据也需要很长的时间,数据存储得越多,恢复的时间越长。
高可用系统高可用系统一般是在一个地点,通过高可用软件将一组服务器连接在一起,组成一个群集。
IBM的HACMP for AIX和HP的MC/ServiceGuard就是这样的群集产品,通过快速地将用户、应用和数据从发生硬件或软件故障的机器切换至其它机器来提供高可用计算环境。
容错系统容错系统依赖于冗余的硬件设备和软件来实现关键业务的连续性。
虽然容错系统是避免宕机和数据丢失的有效方法,但是购买、操作和维护容错系统都是非常昂贵的。
另外,系统的升级也需要很大的代价。
用户可以根据自己的应用情况选择适合自己的方法实现关键业务的连续性。
HACMP简介IBM公司的HACMP for AIX软件是基于AIX平台的,在高可用系统层次实现关键性任务计算环境的工具软件。
HACMP应用于RS/6000系列的单处理器机型、对称多处理器机型或SP的节点,可以检测系统故障并快速恢复服务,使最终用户只感受到很小的中断时间。
HACMP(High Availability Cluster Multi-Processing)有两个主要的组成部分:高可用技术(HA)和群集多处理技术(CMP)。
高可用技术(HA)在HA产品出现之前,在UNIX领域实现高可用性的最有效途径是通过容错技术。
容错技术依靠专门的硬件设备检测到硬件的故障,然后立即切换至冗余的硬件设备上,不管故障设备是处理器、内存板、电源、I/O子系统还是存储子系统。
尽管这种切换能够无缝地提供不间断的服务,但却在硬件费用和性能上付出了很高的代价,因为冗余的设备不能处理事务。
高可用集群多处理(HACMP)HACMP 提供两个主要的部件:✧高可用子系统:为集群中的每一成员提供服务,系统管理,配置的完整性及控制,以及故障接管和恢复。
✧共享资源管理器:在一个集群中,管理多台机器的同时存取数据。
HACMP 的特点:* HACMP 是一个软件产品,用于监测硬盘、硬盘适配卡、网络、网卡和处理器(服务器),以及这些部件的故障恢复。
一个松散耦合的处理器或节点集群,在HACMP 软件的配合下,可以通过将控制从一个已发生故障的处理器(服务器)转移到具有冗余能力的备份处理器上,来保持应用的可用性。
* HACMP产品在支持广泛的集群配置和处理不同的出错类型方面具有极大的灵活性:* HACMP可以支持多至16个节点(即:16台服务器)的集群,允许同时存取或非同时存取的配置。
* HACMP可以支持整个RS/6000服务器产品系列。
这样,集群系统就无须限定在对称式配置上。
* HACMP支持较低成本的备份机配置,其性能未必要匹配生产机,以便节省投资。
*对有些部件的故障,如ATM网卡,则根本无需由另一节点进行出错接管。
HACMP 能够监测和恢复在一个主机内部的错误。
由于部件的切换时间比处理器的切换时间更短,因此,停机的时间进一步缩短。
* HACMP提供一系列安装和配置工具,使用户可以从一个节点上对整个RS/6000处理器集群进行配置,比逐一配置更为简单。
此外,HACMP还提供一组综合的,数据驱动的出错接管文本程序(script),使得集群的管理和配置工作更容易。
* HACMP的集群管理员(ClusterManager)通过一个“心跳”协议来监控处理器(节点)和网络界面。
当可设置的一组“生存数据包”(keepalivepackage)全尽失败时,集群管理员则假设有故障并采取相应的行动。
只有当所有激活的集群管理员都认为有故障发生,此故障才被最后确认。
这就是为什么IBM的HACMP不靠单一的途径在集群系统的各节点间传递“心跳”。
IBM认证HACMP概述IBM认证HACMP概述High Availability Cluster Multi-Processing for AIX (HACMP) 基本软件产品处理部分连续操作问题。
它处理单个站点的计算联合体中的计算机、适配器或局域网的故障恢复。
HACMP/XD:HAGEO 组件该软件具有三个重要功能:GeoMirror:包括一个逻辑设备和在第二个站点上执行镜像的伪设备驱动程序;数据在一个站点输入。
TCP/IP 用作镜像数据的传输协议。
GeoMirror 可以在异步或同步模式下使用,具体取决于站点之间的通信带宽,以及应用程序事务量(将决定更改的数据量)。
GeoMessage:在两个站点的 GeoMirror 设备之间提供可靠的数据和消息传输。
地理拓扑:提供用于将地理镜像功能与HACMP 功能集成的逻辑,以提供自动的故障检测和从影响整个站点的事件中恢复。
从灾难中恢复当灾难导致站点故障时,幸存站点的节点上的集群管理器将快速检测情况,并采取操作以保持地理镜像的应用程序可用。
同样,如果集群由于全局地理网络故障而被分割,则配置为非主控(non-dominant) 的站点上的集群管理器将关闭自身,以便避免数据偏差。
HACMP/XD:HAGEO 基本配置可以按照HACMP 基本软件所支持的任何一种配置来配置HAGEO 集群。
这些配置包括备用(standby)、单边接管(one-sided takeover)、相互接管(mutualtakeover)和并发访问(concurrent access)配置。
备用配置备用配置是一种传统冗余硬件配置,其中集群中的一个或多个节点保持空闲,直到某个服务器节点发生故障。
在HAGEO 中,这转变为使用一个空闲站点。
该站点并非完全空闲,因为它还参与了地理镜像过程。
但是该站点的节点不执行应用程序工作。
接管配置在接管配置中,所有节点都在执行处理;不存在空闲节点。
配置包括:站点内(本地)接管远程单边接管远程相互接管并发配置在并发访问配置中,一个站点的所有节点可以同时访问并发卷组,并拥有相同的磁盘资源。
HACMP双机配置指导书本文介绍HA CMP双机的配置。
1.1 概述在启动短消息系统之前,需要对双机系统进行配置,IBM-pSeries的双机控制软件称之为HACMP。
HACMP双机软件的配置过程分为两部分,分别为HA CMP基本配置(Cluster配置)和HACMP应用定制配置。
配置过程如下:在启动双机系统HA CMP之前,需要对两个独立的主机进行配置,以构成一个完整的双机系统,这些配置工作都将通过IBM的HACMP双机软件工具来完成,称为Cluster配置。
在Cluster配置正确完成之后,就可以结合具体的短消息系统对HACMP进行定制配置,也就是进行应用的监管配置,将短消息系统置于HACMP双机系统的监控管理之下。
说明:以下配置操作以root用户进行,每个步骤完成,可使用Esc+3 / F3 回退到上一步,使用Esc+4/F4进行配置项值列表选择,使用Esc+0/F10退出smitty 配置环境,Enter确认配置参数。
1.2 双机规划方案1.2.1以下为中山短消息系统的双机规划实例,供参考!表1-1Network Adapter Worksheet表1-2Share IP Address用户/组规划1.2.2 修改配置文件根据以上网络规划,修改相应的配置文件:1、以root用户修改主备小型机上/etc/security/limits文件:# cd /etc/security;切换到目录:/etc/security.# vi limits ;修改配置文件limits。
在文件中增加或修改root用户的参数如下:smc:fsize = -1core = 409600cpu = -1data = -1rss = -1stack =-1nofiles = 20002、修改hosts文件127.0.0.1 loopback localhost # loopback (lo0) name/address# zs_smc_smc1172.10.14.31 zs_smc_smc1_boot zs_smc_smc1192.168.14.31 zs_smc_smc1_stb zs_smc_smc1# zs_smc_smc2172.10.14.33 zs_smc_smc2_boot zs_smc_smc2192.168.14.33 zs_smc_smc2_stb zs_smc_smc2# service_ip172.10.14.30 service_ip#fix ip172.10.114.31 zs_smc_smc1172.10.114.33 zs_smc_smc2.rhosts文件zs_smc_smc1zs_smc_smc1_bootzs_smc_smc1_stbzs_smc_smc2zs_smc_smc2_bootzs_smc_smc2_stbservice_ip1.3 配置前提1.3.1 检查双机上正确安装了HACMP软件检查双机两台机器上是否都安装了HA CMP软件,详细安装步骤见附录二。
某地应用级容灾方案(初步解决方案)一、容灾备份中心建设模式分析客户现已在中心机房对现有重要业务及应用部署了HACMP集群,确保不会出现因本地软硬件或系统管理维护导致的失效而引起应用和数据对用户的不可用。
但本地容灾方案无法解决因火灾、自然灾害(如洪水、地震)造成对系统及应用数据的破坏。
对于客户的信息系统建设,光有本地的设备冗余和数据备份是远远不够的,如果数据中心出现非计划停机(如停电、自然灾害等),那么其下辖的网点将无法正常开展工作,必须要防范区域性灾难对系统造成的重大影响。
因此应该采用本地备份和异地应用容灾相结合的保护措施,确保数据中心即使遭遇整体性故障,应用容灾中心能在很短的时间内接管所有下辖网点和相关部门的业务,确保业务的整体高可用性。
1.需考虑的因素容灾中心建设模式的确定主要考虑以下三方面因素:(1)灾难承受程度:明确数据中心需要承受的灾难类型,系统故障,通信故障,长时间断电甚至火灾等意外情况所采取的方案不尽相同;(2)业务影响程度:明确当数据中心发生意外无法工作时,导致业务停顿所造成的损失程度,即对于IT环境发生故障的最大容忍时间,它是容灾中心系统建设的重要指标;(3)数据保护程度:是否要求数据库可以恢复所提交的交易并且要求实时同步数据,即数据的连续性和一致性,决定了灾难恢复方案规模和复杂程度的重要数据。
从上述分析可以看出,在对业务影响程度和数据的保护程度要求较高的前提下,如果距离不是很远(在几十公里之内),那么采用“同步”的方式最为理想。
因为业界现有的技术已经可以在这样的距离之内将线路铺设成本降至最低,同时提供最大的带宽;容灾技术对于业务性能的影响也可以降低到最低(5%之内)。
客户的容灾备份系统采用应用级的同城异地容灾系统,由于生产中心与容灾中心同在某市内,数据复制的距离不是很远(在十公里到三十公里之内),因此建议采用同步数据复制方式。
只有这样才能够保证数据的零丢失。
同时为了保证主要核心业务系统能最快的得到接管,在主数据中心,灾备中心和下辖网点之间采用高带宽TCP/IP网络连接方式。
IBM HACMP 系列-- 安装和配置一规划是成功的实现的一半,就 HACMP 而言,如何强调正确规划的重要性都不过分。
如果规划做得不正确,您可能会在以后某个时候发现自己陷入种种限制之中,而要摆脱这些限制可能是非常痛苦的经历。
因此,请保持镇定从容,并使用产品附带的规划工作表;这些工作表对于任何迁移或问题确定情形或者对于为规划做文档记录都是非常有价值的。
一. HACMP 软件安装HACMP 软件提供了一系列可用于使应用程序高度可用的功能。
务必记住,并非所有的系统或应用程序组件都受到 HACMP 的保护。
例如,如果某个关键应用程序的所有数据都驻留在单个磁盘上,并且该磁盘发生了故障,则该磁盘就成了整个集群的单点故障,并且未受到 HACMP 的保护。
在此情况下,必须使用 AIX 逻辑卷管理器或存储子系统保护功能。
HACMP 仅在备份节点上提供磁盘接管,以使数据可继续使用。
这就是 HACMP 规划是如此重要的原因,因为整个规划过程中的主要目标是消除单点故障。
当关键集群功能由单个组件提供时,就存在单点故障。
如果该组件发生故障,集群没有提供该功能的其他途径,依赖该组件的应用程序或服务就会变得不可用。
还要记住,规划良好的集群非常容易安装,可提供更高的应用程序可用性,能够按预期执行,并且比规划不当的集群需要更少的维护。
1.1 检查先决条件在完成规划工作表以后,请验证您的系统是否满足 HACMP 所必需的要求;执行这项额外的工作可以消除许多潜在的错误。
HACMP V5.1 需要下列操作系统组件之一:(1)带 RSCT V2.2.1.30 或更高版本的 AIX 5L V5.1 ML5。
(2)带 RSCT V2.3.1.0 或更高版本(建议使用 2.3.1.1)的 AIX 5L V5.2 ML2。
(3)C-SPOC vpath 支持(需要 SDD 1.3.1.3 或更高版本)。
有关先决条件和 APAR 的最新信息,请参考产品附带的自述文件和以下 IBM 网站:/server/cluster/1.2 全新安装HACMP 支持网络安装管理(Network Installation Management,NIM)程序,包括“备选磁盘迁移”(Alternate Disk Migration) 选项。
HACMP 解决方案
为什么需要HACMP
各厂商现有的UNIX 服务器一般都拥有很高的可靠性,在这一点上IBM 的P 系列服务器表现尤为突出。
但所有UNIX 服务器均无法达到如IBM 大型主机S/390 那样的可靠性级别,这是开放平台服务器的体系结构和应用环境所决定的。
使用IBM 高可用性集群软件-- HACMP ,可以更好的保护关键业务应用不受故障影响。
HACMP 工作原理
HACMP 是High Availability Cluster Multi-Processing 的缩写。
HACMP 是IBM 公司在P 系列AIX 操作系统上的高可靠集群软件,配置冗余,消除单点故障,保证整个系统连续可用性和安全可靠性。
HACMP是利用网络来侦测主机及网卡的状况,搭配AIX所提供的硬盘镜像等功能,在主机、网卡、硬盘控制卡、硬盘或网络发生故障时,自动切换到另一套备用元件上重新工作; 若是主机故障还切换至备份机上继续应用系统的运行。
作为双机系统的两台服务器同时运行HACMP 软件;
两台服务器的备份方式有三种:
1. 一台服务器运行应用,另外一台服务器做为备份
2. 两台服务器除正常运行本机的应用外,同时又作为对方的备份主机;
3. 两台服务器同时运行相同的应用,需要数据库的支持。
两台主机系统在整个运行过程中,通过“心跳线”相互监测对方的运行情况(包括系统的软硬件运行、网络通讯和应用运行情况等);
一旦发现对方主机的运行不正常(出故障)时,故障机上的应用就会立即停止运行,本机(故障机的备份机)就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源(包括用到的IP地址和磁盘空间等)接管过来,使故障机上的应用在本机继续运
行;
应用和资源的接管过程由HACMP 软件自动完成,无需人工干预;
当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机(备份机)上运行。
p5 520 HACMP 全冗余建议方案:
采用 2 台IBM p5 520 服务器运行应用,分别运行HACMP 软件,保证系统的高可靠性。
采用2 台2005-H08 光纤交换机建立存储局域网环境,分别连接两台p5 520 服务器和磁盘阵列。
2 台光纤交换机可以避免单点故障。
采用IBM DS4300 保证数据存储的可靠性和读取效率。
2 台p5 520 分别通过2 根光纤连接到2 台存储光纤交换机,DS4300 通过4 根光纤连接到 2 台存储光纤交换机,如此连接即保证了可靠性,又提高了数据访问的效率。
建议配置:
结构示意图:
服务器:IBM p5 520 2 台
2 颗1.5GHz/1.65GHz 的power5 处理器,4GB 内存
2 块73GB 内置硬盘: 用于安装操作系统
2 块以太网卡
典型的,一个服务器应至少提供两块网卡( 一个服务网卡和一个备份网卡) 。
服务网卡是服务器和网络之间的主连接。
备份网卡用于备份服务网卡,当本地的服务网卡失效时,HACMP 软件将就备份用网络地址和服务用网络地址进行交换。
如果另一个服务器失效时,备份用网卡将恢复失效节点的服务网络适配器的IP 地址。
2 块光纤卡
分别与两台光纤交换机相连,提高可靠性,避免单点故障。
1 块
2 口异步卡
提供串口,连接心跳线。
提供在两个节点间的点到点的连接,用于在TCP/IP 子网失效事件发生时控制信息和心跳信息的传递。
HACMP 软件
AIX 操作系统
光纤交换机IBM Total Storage SAN Switch 2005-H08
2 台8 口光纤交换机,用于连接服务器和磁盘阵列。
2 台光纤交换机提高整个系统的可靠性,避免单点故障。
磁盘阵列IBM Total Storage DS4300
用于存储用户数据。
磁盘阵列分别与两台光纤交换机相连,提高可靠性和访问效率
p5 520 HACMP 经济型建议方案:
采用 2 台IBM p5 520 服务器运行应用,分别运行HACMP 软件,保证系统的高可靠性。
采用1 台2005-H08 ,用于连接两台p5 520 服务器和磁盘阵列。
采用IBM DS4300 保证数据存储的可靠性和读取效率。
2 台p5 520 分别通过光纤连接到存储光纤交换机,DS4300 通过2 根光纤连接到存储光纤交换机。
结构示意图:
建议配置:
服务器: IBM p5 520
2 颗1.5GHz/1.65GHz 的power5 处理器,4GB 内存
2 块73GB 内置硬盘: 用于安装操作系统
1 块以太网卡
典型的,一个服务器应至少提供两块网卡,(一个服务网卡和一个备份网卡)。
配置一块以太网卡。
另外一块网卡利用内置的以太网卡。
1 块光纤卡
与光纤交换机相连。
1 块
2 口异步卡
提供串口,连接心跳线。
提供在两个节点间的点到点的连接,用于在TCP/IP 子网失效事件发生时控制信息和心跳信息的传递。
HACMP 软件
AIX 操作系统
光纤交换机IBM Total Storage SAN Switch 2005-H08: 8 口光纤交换机,用于连接服务器和磁盘阵列。
磁盘阵列IBM Total Storage DS4300: 用于存储用户数据
IBM eServer p5-520 服务器
创新的、功能强大的和适应性极强的UNIX 和Linux POWER5 系统
动态逻辑分区和微分区功能(选件) 有助于高效地利用资源
秉承主机技术的可靠性、可用性和可维护性(RAS) 能力
IBM eServer p5 520 系统是AIX 5L™(IBM 企业级的UNIX ®),或Linux ® 新一代入门级服务器,适用于中小型企业和大型企业的分布式系统。
它不仅运行快速且价格合理,而且还融入了许多可从IBM 最复杂的系统中找到的特性和功能。
eServer p5 520 很适合于充当新一代应用程序的低成本开发和部署平台。
它的多功能性、出众的性能和易管理性,使得p5 520 可以作为各种规模企业的分支机构服务器、小型数据库服务器或电子商务平台。
p5 520 可以处理任务关键型电子商务应用程序、安全的Web 事务和用于商业智能的小型数据集市。
它也可以集群到强大的高性能计算(HPC )集群中。
和较大型的eServer p5 型号一样,eServer p5 520 系统的特点在于它秉承了许多主机的可靠性、可用性和可维护性功能,这有助于使系统能昼夜不停地运行。
p5 520 将p 系列的世界一流RAS 传统特性扩展到入门级系统中--这些特性包括并发固件更新,对于大多数操作来说,可以在进行IBM 系统固件升级的同时,保持应用的运行、热拔插I/O 扩展抽屉,可以在正在运行的应用不中断运行的情况下添加I/O 容量、更为细致的L2 高速缓存分解、增强的L3 高速缓存列删除和能够提供更好自恢复功能的ECC 高速缓存。
eServer p5 520 服务器可作为具有1.65GHz POWER5™ 处理器的2 路对称多处理(SMP )系统使用。
对客户来说,该服务器具有巨大的扩展潜力,如果选择机柜式或桌面式安装,最多可达到32GB 内存、多达 4 个可选的I/O 扩展抽屉(最多可达8.2TB 的磁盘存储器)以及最多34 个热插拔PCI-X 插槽。
p5 p520 提供73.4GB 、146.6GB 、300GB 三种内置硬盘。
另外,在单个HPC 集群中可以包含多达64 个p5 520 系统。
为了使IBM 服务器的可用性达到极致,可以使用旨在提供近乎不间断可用性的HACMP™ 软件将p5 520 群集化。