浅谈 HACMP 心跳
- 格式:doc
- 大小:96.50 KB
- 文档页数:6
在hacmp中配置用网线做心跳的时候用两种方法!hacmp, 网线1.就用四个boot地址去做心跳,不需要去增加其他的基如ip的网络去做心跳。
只需要在hacmp配置完成后,最后添加ip心跳的时候,进入到Extended Configuration > Extended Topology Configuration >Configure HACMP Networks> change a Network to the HACMP Cluster下的IP Address Offset for Heartbeating over IP Aliase一项中填入一个ip地址要求这个地址和其他ip地址都不在同一个网端内,当你输入hacmp会自动在四个bootip 上生成四个private的ip地址,做心跳用。
规则如下:当你输入10。
0。
0。
1,和其他的ip都不在同一个网段内。
机器会启动在a主机上 boot1生成10。
0。
0。
1,boot2上生成10。
0。
1。
1,备机上boot1生成10。
0。
0。
2,boot2生成10。
0。
1。
2。
这四个ip就是做心跳用的。
其他所有的选项都不动。
2.单独用其他的网卡做心跳。
如果要是两台机器的话,用一跟网线把两个端口直接连接起来,这样就和其他的四个boot ip都在不同的vlan内。
要是两个以上的话,就要用的交换机,但要将做心跳的所有主机的网口和boot ip放在不同的vlan内。
在第一步配ha的过程中,会自动探测到两个网络,一个网络里有四个bootip,一个网络里面是做心跳的端口,做心跳的端口不用去配置ip。
只需要去Extended Configuration > Extended Topology Configuration >Configure HACMP Networks> change a Network to the HACMP Cluste,在最后的一个选项中有一个网络的属性,默认的是public,选择做心跳的网络将其改为private即可,其他选项不变以上是在5。
浅谈HACMP 心跳王荣, 技术支持工程师, IBM 科技产品(深圳)有限公司2008 年11 月13 日任何一种HA 软件都有一套自己的心跳机制来监控集群中节点的状态。
心跳在高可用软件中担负着节点间信息通信,故障判断,事件触发等等重要作用,是HA 软件最核心的组件。
HA 集群就好比人一样,心跳正常就没有大碍,心跳不正常那就出问题了。
初识HACMP 心跳HACMP 软件主要监控4 种故障:节点,网卡,网络,应用。
其中前三种都是通过心跳来监控并产生事件响应的,我们可以看出使用HACMP 集群,可谓玩的就是心跳。
如果不了解心跳的过程和基本原理,使用HACMP 搭建起来的高可用的平台就可能是高不可用。
其实HACMP 的心跳并不复杂高深,像所有的HA 软件一样,心跳包是用来传递节点的状态信息,HACMP 的心跳包从最高的IP 地址依次单向流动到最低IP 地址,然后再返回到IP 地址最高的节点形成一个单向循环的环路。
每一个物理子网都会有一个心跳环路,包括串口心跳和磁盘心跳这些点对点的心跳,在广义上也是各自独立的心跳环路。
每个环路我们称之为一个心跳网络。
其心跳过程我们可以参看下图,Node3 有最高的IP 地址192.168.1.3,它是该心跳环路的Group Leader。
Node3 产生的心跳包发送给Node2,Node2 产生的心跳包发送给Node1,Node1 则发送给Node3 形成一个环路。
对于HACMP 集群来说,至少需要 2 个心跳网络来保证心跳网络的冗余,而且更进一步,至少需要 2 种不同类型的心跳网络保证更高的可靠性,比如,一个IP 网络心跳,一个磁盘心跳。
之所以对心跳网络可靠性有如此高的要求,除了我们之前描述的心跳网络的重要作用以外,还有更重要的原因:如果 2 个节点间心跳通信完全中断后,他们都会认为对方已经宕机,然后都在本地启动应用,并同时去争抢磁盘资源,有可能导致数据出现风险,即所谓的split-brain 事件。
一、功能原理1.HACMP的概念HACMP(High Availability Cluster Multi-Processing)是IBM基于Unix平台开发的一套高可用性集群软件,这个软件是为了确保关键资源或应用可以获得处理。
在hacmp集群环境中,应用必须在hacmp的管理之下,这样才可以确保应用的高可用性,当集群中的一个节点或组件出现问题,集群会将这个节点或组件所需的资源转移至其他节点上。
建立集群的目的✓减少计划或非计划的宕机时间✓避免单点故障✓快速故障恢复,但不能实现容错2.节点,网络,心跳2.1节点节点是安装并运行AIX操作系统和hacmp软件的一台独立系统,节点之间可以共享一系列资源:磁盘,卷组,文件系统,网络,网络IP地址和应用程序。
2.2网络集群各个节点之间通过网络进行相互通讯,当一个节点的某个网卡出现故障后,网络连接会自动切换到这个节点的其他网卡上,如果这个节点的所有网络连接都不可用的时候,集群会把应用极其所使用资源切换到其他节点上,并进行IP 地址接管操作IPAT(IP Address Takeover)。
集群的网络IP接管方式有2种:IP别名和IP替换IP别名:当集群把资源组以及IP地址从主节点切换目标节点时,在目标节点上并不会用主节点的服务地址去替代目标节点的网卡地址,而是在目标节点的网卡上建立IP别名(IP Alias),这样允许一个网卡绑定多个服务地址,因此同一节点可以装载更多的资源组。
IP替换:当集群把资源组以及IP地址从主节点切换目标节点时,目标节点的初始化启动IP将被主节点的服务IP所替换,这样只有使用同一服务地址的资源组可以装载到目标节点。
如果使用IP替换的接管方式还可以配置网络硬件地址HWAT(Hardware Address Takeover)即MAC地址切换,以确保ARP cache对网络地址的影响。
注:在HACMP4.5版本以前网络接管方式只能配置为IP替换方式。
POWERHA 常用心跳网络特点和配置最近系统的复习了一下PowerHA,做了一些相关的试验,今天时间充裕,在博客里把有关于心跳方面的知识总结一下。
谈到PowerHA,不得不谈心跳。
记得拜读IBM官方网站上《浅谈HACMP 心跳》一文中,作者王荣说了一句颇幽默的话:“我们可以看出使用HACMP 集群,可谓玩的就是心跳。
”的确如此,在个人的学习和实施的过程中,发现心跳的确是要玩的,而且要玩好。
一、心跳作用及分类PowerHA通过以下三种手段,来监控节点是否运行正常:1、RSCT 监控网络接口和设备。
.2、AIX LVM 监控硬盘、逻辑卷、卷组状态。
3、PowerHA 应用监控应用状态。
PowerHA使用心跳keep alive (KA)包来监控网络接口、通信设备、和ip地址标签有效性。
在PowerHA中用基于IP网络和non-IP网络来交换心跳包。
其中基于IP网络包括:Ethernet (ether)、Token-ring (token)、Fiber Distributed Data Interface - FDDI (fddi)、 Asynchronous Transfer Mode- ATM and ATM LAN Emulation) (atm)、 EtherChannel (ether)、 IP Version 6 (IPV6)、InfiniBand,其中enther网络心跳比较常用。
基于设备的主要包括:目标模式SCSI (tmscsi) 、目标模式SSA (tmssa) 、磁盘心跳信号(diskhb)、串行RS232 。
磁盘心跳信号(diskhb)和串行RS232在实际环境中用到比较多(个人根据实施经验判断,不一定准确)。
二、常用心跳网络配置1、RS232串口心跳配置硬件配置建议配置专门用作心跳网络的异步卡。
异步卡及串口线的选择配置可以参考:PowerHA中异步卡和串口线的选择。
配置方法:添加tty设备:smitty device 中找到tty.测试tty通信是否正常:在连接串口线后,在一台设备上输入:cat /etc/hosts>/dev/tty0 另外一台输入:cat</dev/tty0。
HACMP的基本概念IBM的高可靠性群集系统软件HACMP-- High Availability Cluster Multi-Processing提供了RS/6000平台上关键应用的高可靠性解决方案,该软件能使一个群集内的所有的RS/6000系统不存在单点失效( 在群集中单独某一部分出现故障而引起对用户端的服务失效) 。
HACMP系统能自动地检测系统硬件失效,重新配置群集系统,使得所有的资源完全不受系统硬件失效的影响,从而提供了可靠的应用平台。
HACMP可用来最多将32部RS/6000服务器或SP的节点连结成高可用性的群集结构。
对于企业关键性的应用程序而言,群集式的服务器或节点提供代理式的数据访问,具备复制性(redundancy),使得系统应用程序具有灵活的容错能力。
HACMP所具有灵活的结构和简单的使用。
从单一处理机(SMP)主机到SP节点皆可结构成高可用性之群集,您可混用,且跨越系统大小及性能等级,将各种网络适配卡和磁盘子系统融合在一起确,来满足您的应用程序、网络等方面的需求。
HACMP的群集因不同的处理需求可以结构成几种不同的模式。
同时访问模式(Concurrent access mode)适用在所有处理机必须在相同的工作负载及在相同的时间共享相同的数据之环境。
相互备援模式(mutual takeover mode)则是群集中的各个节点分别承担有应用和任务,并且各节点间相互备援。
而热待机模式则为一节点备援任何群集上的另一节点。
无论您选择哪一种备援模式,HACMP所提供的数据访问及备援方案都将应用程序的执行及增长性在避免不正常死机状况下做了最佳化处理。
HACMP用户界面相当简易,AIX的系统管理界面工具(SMIT)及视觉化系统管理(VSM)图形使用界面两者皆提供非常简易的方式,给予您在高可用性的集群中针对服务器处理机执行安装、结构及系统管理工作。
对于一般的群集管理工作【例如HACMP启动/停止、用户及群集管理、卷组、逻辑卷(Logic Volume)及文件系统】,您可以使用群集单点控制(CSPOC)工具来执行这些工作,即使是二个节点之群集,您完全无需考虑群集资源的所有权。
HACMP工作原理介绍HACMP(High Availability Cluster Multiprocessing)是一种高可用性的集群解决方案,旨在提供在系统或硬件失败发生时,保证应用程序持续可用的能力。
它通过在多个计算节点上部署应用程序和数据,并实时监控系统健康状况,来实现高可用性。
1.集群:HACMP通过将多个计算节点连接在一起形成一个集群。
每个节点都是一台具备计算和存储能力的服务器,运行着相同的操作系统和应用程序。
集群中的节点通过专用网络互相通信,实现对整个集群的协调和控制。
2.资源:在HACMP中,应用程序和其相关的数据被称为资源。
资源可以是单个的进程、服务、文件系统等。
HACMP对资源的管理包括资源的分配、启动、停止和迁移等操作。
3.心跳检测:为了实时监控系统的健康状况,HACMP引入了心跳检测机制。
每个节点通过定期发送心跳信号来表示自己的正常运行,其他节点接收到心跳信号后确认,如果长时间未收到心跳信号则判断该节点可能出现故障。
4.预定义和自动化的故障切换:当一些节点出现故障时,HACMP会自动将该节点上的资源切换到其他节点上,以保证应用程序的持续可用性。
切换的过程中,HACMP会确保数据的一致性,并在尽可能短的时间内完成切换操作。
如果故障节点恢复正常,HACMP会自动将资源切换回原节点。
5.监控和故障恢复:HACMP提供了一套完善的监控和故障恢复机制。
它实时监控系统中的节点状态、资源状态和网络连接等信息,并根据预定义的策略执行相应的故障恢复动作。
当故障发生时,HACMP会立即做出响应,启动资源切换和恢复节点操作。
通过上述工作原理,HACMP能够实现高可用性的应用程序部署和运行。
它具有以下优点:1.高可用性:HACMP提供实时监控和故障恢复机制,能够及时检测和处理系统和软件故障,保证应用程序持续可用。
2.负载均衡:HACMP能够根据系统负载情况,将资源合理地分配到不同的节点上,实现负载均衡和性能优化。
AIX5.3 HACMP和oracle双机安装过程1引言1.1HACMP 工作原理HACMP 是High Availability Cluster Multi-Processing 的缩写。
HACMP 是IBM 公司在P 系列AIX 操作系统上的高可靠集群软件,配置冗余,消除单点故障,保证整个系统连续可用性和安全可靠性。
HACMP 是利用网络来侦测主机及网卡的状况,搭配AIX 所提供的硬盘镜像等功能,在主机、网卡、硬盘控制卡、硬盘或网络发生故障时,自动切换到另一套备用元件上重新工作; 若是主机故障还切换至备份机上继续应用系统的运行。
作为双机系统的两台服务器同时运行HACMP 软件。
两台服务器的备份方式有二种:●一台服务器运行应用,另外一台服务器做为备份●两台服务器除正常运行本机的应用外,同时又作为对方的备份主机;●两台主机系统在整个运行过程中,通过" 心跳线" 相互监测对方的运行情况( 包括系统的软硬件运行、网络通讯和应用运行情况等);●一旦发现对方主机的运行不正常( 出故障) 时,故障机上的应用就会立即停止运行,本机( 故障机的备份机) 就会立即在自己的机器上启动故障机上的应用,把故障机的应用及其资源( 包括用到的IP 地址和磁盘空间等) 接管过来,使故障机上的应用在本机继续运行;●应用和资源的接管过程由HACMP 软件自动完成,无需人工干预;●当两台主机正常工作时,也可以根据需要将其中一台机上的应用人为切换到另一台机( 备份机) 上运行。
1.2心跳设计配置HACMP 的过程中,除了TCP/IP 网络之外,您也可以在其它形式的网络上,如串行网络和磁盘总线上配置心跳网络。
●TCP/IP 网络优点:要求低,不需要任何额外硬件或软件,即可实现。
缺点:占用IP 地址,不能避免由于TCP/IP 的软件问题导致HACMP 崩溃,系统不可用。
●串口网络优点:真正实现高可用性,不占用IP 地址。
1、选择题1、下列哪个文件是NFS服务器的配置文件(B)A. /etc/inittabB./etc/exportsC./etc/filesystemsD./etc/passwd2.查看系统错误报告的命令是(A)A.errptB.dfC.sarD.svmon3.系统错误报告中,值得关注的是T列的()类和C列的()类(B)A.T OB.P HC.I SD.P O4.sar命令查看系统CPU性能,以下哪一列代表等待IO进程占据CPU比例?(C)A.%sysB.%usrC.%wioD.%idle5.AIX中,假设要运行test.sh脚本,如果想退出用户终端后,脚本任然在系统中运行,则需要使用哪个命令运行脚本(C)A.ksh test.shB../test.shC.nohup test.sh &D../test.sh &6.假设有CPU巡检脚本CPUmonitor.sh,需要让该脚本20分钟检查一次CPU,则以下计划任务设定正确的是?(A)A.00,20,40 * * * * CPUmonitor.shB.00 * * * * CPUmonitor.shC.00 1 * * * CPUmonitorD.00-40 * * * * CPUmonitor.sh7.AIX中查看本机网卡属性的命令是?(AB)lscfg -vl ent0或lsattr -El en0stat -inB.ifconfigstat -r -nD.ipconfig8.以下关于AIX操作系统说法错误的是?(C)A.AIX操作系统是unix系统的一个分支B.AIX操作系统只能安装在IBM小型机上C.AIX操作系统只能安装到VIOS划分的DLPAR上D.AIX小型机的配置需要使用HMC远程连接后安装AIX操作系统9.AIX中如果要更改telnet服务的端口,则需要配置一下哪个配置文件?(C)A./etc/inetd.confB./etc/hostsC./etc/servicesD./etc/passwd10.关于AIX中设备的状态,以下不存在的是?(D)A.availableB.definedC.undefinedD.down11.LVM存储中FS备份做恢复的命令是:(D)A.restoreB.backupC.savavgD.restorevgfile12.LVM给VG做mirror时,可以选择的同步菜单,以下不存在的是:(D)A.foregroundB.backgroupC.no syncD.console13.如果把标准VG的fecoter的值调整为15,则标准VG中最大PV数是?(A)A.2B.4C.6D.814.lsvg rootvg命令中stale显示的信息的意义是:(A)A.VG中未作同步的数据信息B.VG中不可用的PV信息C.VG中可用PV信息D.VG中的quorum数15.如果一个VG中存在4块PV,则它的quorum值是(C)A.1B.2C.3D.416.升级软件到applied状态后,使用以下哪个命令可以实现软件回撤(B)A.remakeB.rejectC.remokeD.restore17.HA软件哪个版本以后把模块组合起来的(B)A.v5.4B.v5C.v5.2D.v5.518.A customer has completed installing PowerHA 7 filesets.Which task, or tasks,should be completed next?(A)A.Configure cluster topologyB.Configure cluster resourcesC.Reboot each PowerHA cluster nodeD.Verify and synchronize the cluster19.An administrator is using PowerHA 7 to define a new c luster using SMIT option “Setuo a Cluster,Nodes and Networks” and encountered the following what is the root cause of the problem? (B)A.the nodes were not defined in the DNSB.the /etc/cluster/rhosts are not populated correctlyC.the CAA repository disk is not accessible on all nodesD.the CAA cluster was not defined before defining the PowerHA Cluster20.HACMP中,shared和concurrent的区别是什么?(B)A.并发和共享B.共享和高并发C.不可以同时存在D.share可以使用,concurrent不可以使用21.管理员希望而PowerHA的5集群正在运行改变一个节点的节点名称,哪些行为会实现这一目标?BA.更改节点名称,验证和同步集群B.停止节点上的集群服务,改的节点的名称,验证和同步集群。
浅谈HACMP 心跳王荣, 技术支持工程师, IBM 科技产品(深圳)有限公司2008 年11 月13 日任何一种HA 软件都有一套自己的心跳机制来监控集群中节点的状态。
心跳在高可用软件中担负着节点间信息通信,故障判断,事件触发等等重要作用,是HA 软件最核心的组件。
HA 集群就好比人一样,心跳正常就没有大碍,心跳不正常那就出问题了。
初识HACMP 心跳HACMP 软件主要监控4 种故障:节点,网卡,网络,应用。
其中前三种都是通过心跳来监控并产生事件响应的,我们可以看出使用HACMP 集群,可谓玩的就是心跳。
如果不了解心跳的过程和基本原理,使用HACMP 搭建起来的高可用的平台就可能是高不可用。
其实HACMP 的心跳并不复杂高深,像所有的HA 软件一样,心跳包是用来传递节点的状态信息,HACMP 的心跳包从最高的IP 地址依次单向流动到最低IP 地址,然后再返回到IP 地址最高的节点形成一个单向循环的环路。
每一个物理子网都会有一个心跳环路,包括串口心跳和磁盘心跳这些点对点的心跳,在广义上也是各自独立的心跳环路。
每个环路我们称之为一个心跳网络。
其心跳过程我们可以参看下图,Node3 有最高的IP 地址192.168.1.3,它是该心跳环路的Group Leader。
Node3 产生的心跳包发送给Node2,Node2 产生的心跳包发送给Node1,Node1 则发送给Node3 形成一个环路。
对于HACMP 集群来说,至少需要 2 个心跳网络来保证心跳网络的冗余,而且更进一步,至少需要 2 种不同类型的心跳网络保证更高的可靠性,比如,一个IP 网络心跳,一个磁盘心跳。
之所以对心跳网络可靠性有如此高的要求,除了我们之前描述的心跳网络的重要作用以外,还有更重要的原因:如果 2 个节点间心跳通信完全中断后,他们都会认为对方已经宕机,然后都在本地启动应用,并同时去争抢磁盘资源,有可能导致数据出现风险,即所谓的split-brain 事件。
所以HACMP 包括其他的HA 的集群应用都有一个很重要的前提,就是要求在任何时刻至少存在一个可用的心跳网络在节点间传递信息。
回页首再看HACMP 心跳从HACMP5.1 版本以后,HACMP 的心跳已经交由RSCT(Reliable Scalable Cluster Technology)这一套中间层软件来实现。
RSCT 相当于是一个集群应用与集群管理的中间通讯平台,它提供了丰富的集群功能简化了集群应用开发的复杂性。
在其他的一些软件,比如IBM CSM 集群管理软件和HMC 上的部分管理功能都是通过RSCT 的组件来实现的。
再细分来看,负责心跳的是RSCT 中的Topology Services 模块。
我们下面先了解一下Topology Services 的初始化过程。
Topology Services 的核心进程是/usr/sbin/rsct/bin/hatsd 。
hatsd 启动后就开始广播本节点信息同时侦听其他节点的信息,经过自举、推举、还有一段时间等待(其过程有点类似于以太网交换机通过spanning-tree 协议选举root 节点),最后在该子网中找出所有节点里一个IP 地址最高的,将它定义为group leader。
Group leader 作为一个权威节点负责该子网中节点状态信息的收集,管理,更新和发布。
至此,心跳网络就完成了其初始化过程开始正常心跳。
另外,为防止Group Leader 宕机,还定义了IP 地址第二高的节点作为Group Leader 的监控节点称之为Group Leader Successor,它负责监控Group Leader 状态,在必要时可以弹劾并成为Group Leader。
在心跳网络建立以后,网络状态的监控被分为两部分,一是网卡物理状态的监控;一是逻辑上的网络链路状态监控。
网卡物理状态的监控是通过为每一块网块创建一个监控进程(NIM)来实现的,当网卡状态改变会立刻通知RSCT,比如网卡Link down 的信息就会被NIM 立刻发现并产生Network adaptor failure 的事件。
另一方面,hacmp 心跳故障判断还能从逻辑上分析判断网络状态。
我们以下图为例。
假设在运行过程中,Node3 到Node2 之间的网络发生意外中断,但是Node3 网卡的链路状态仍然为UP,此时物理的网卡监控不会做出反应。
然而心跳包会开始丢包,Node2 会发现无法收到Node3 的心跳包,但此时并不能确定到底是Node2 还是Node3 网络出现故障。
为了进一步确定故障,Node3 会通过RSCT 走别的心跳网络发命令给第三个节点(node1),让第三个节点(Node1)分别去ping Node2 和Node3。
如果故障点在Node3 上面,那么显然ping Node3 会失败,于是确定故障位置在Node3 上面,最后产生一个的Network adaptor failure 的事件通知给HACMP。
回页首2 个节点的HACMP 集群我们从上文可以发现,准确判断网络故障点的位置需要“第三个节点”做仲裁。
只有 2 个节点的HA 集群如何实现正确判断?从一般的逻辑判断上来说,2 个节点之间出问题一定是公说公有理,婆说婆有理,必须要有第三方来做仲裁。
在只有 2 个节点的HA 集群中,为了解决这个问题,HACMP 需要配置一个文件来设置一些第三方的一个仲裁IP 地址。
当心跳故障发生时,2 个节点都会去试图从本机去ping 这些仲裁IP 地址。
能正确的ping 通则表明本节点的网络正常,从而判断出故障点需要注意的是,仅仅是在网络心跳发生问题时,RSCT 才会调用网络诊断的进程去使用这些仲裁IP,在正常状态下,这些仲裁IP 不会参与到心跳过程。
这些仲裁IP 的选择可以是子网的网关,也可以是子网中其他的某一节点IP 地址。
如果有多个子网,需要为每个子网挑选一个仲裁IP 地址,把他们写成一个list 保存到一个配置文件(netmon.cf)中。
该配置文件的存放位置在/usr/es/sbin/cluster/netmon.cf。
在两个节点的HA 群里同步配置的过程中,如果没有配置netmon.cf 可能会弹出一个warning 的信息提示该文件需要配置。
在配置netmon.cf 后,RSCT 的进程启动后,会逐条把其中的IP 读取进来,作为仲裁IP 使用。
我们可以在nmDiag.nim.topsvcs.xxx 这个日志文件中看到这样的信息。
adapter en0 06/18 19:01:55.387: read_ping_configuration:File/usr/es/sbin/cluster/netmon.cf opened06/18 19:01:55.387:read_ping_configuration:Read[192.168.21.130 ] from file.06/18 19:01:55.387:read_ping_configuration:gethostbyname(192.168.21.130) was successful.06/18 19:01:55.387:read_ping_configuration:Read[172.32.16.3] from file.06/18 19:01:55.387:read_ping_configuration:gethostbyname(172.32.16.3) was successful.06/18 19:01:55.387:read_ping_configuration:Read 2 pingaddresses.其他一些细节RSCT/HACMP 日志文件关于 HACMP 心跳的日志存放在 /var/ha/log 目录下。
其主要可供分析的有:∙nim.topsvcs.en X (en X 为网络端口名 ) 该文件对应的记录了网卡 en X 的网络监控进程的启动,心跳和退出的详细日志。
∙nmDiag.nim.topsvcs.en X 该文件记录了在心跳出现丢失后,RSCT 对网络拓扑的逻辑分析判断的过程。
∙ Topsvcs.<pid 进程号>.<cluster name> 该文件是 topsvcs 的主进程日志文件,记录 topsvcs 进程的启动过程,以及心跳网络拓扑改变等重要的事件信息。
心跳网络状态查询命令我们一般都知道 hacmp 的状态可以通过 /usr/sbin/cluster/clstat 来查看,还有一个命令可以更详细的查看当前集群心跳状态。
lssrc –ls topsvcs 如下图:回页首Subsystem Group PID Statustopsvcs topsvcs 315610 activeNetwork Name Indx Defd Mbrs St Adapter IDGroup IDnet_ether_01_0 [ 0] 2 1 S 192.168.21.150192.168.21.150net_ether_01_0 [ 0] en0 0x808820f20x808820fcHB Interval = 1.000 secs. Sensitivity = 10missed beatsMissed HBs: Total: 0 Current group: 0Packets sent : 1078 ICMP 0 Errors: 0 Nombuf: 0Packets received: 866 ICMP 0 Dropped: 0NIM's PID: 307250net_ether_01_1 [ 1] 2 1 S 172.16.21.1172.16.21.1net_ether_01_1 [ 1] en1 0x808820f30x808820fcHB Interval = 1.000 secs. Sensitivity = 10missed beatsMissed HBs: Total: 0 Current group: 0Packets sent : 1078 ICMP 0 Errors: 0 Nombuf: 0Packets received: 434 ICMP 0 Dropped: 0通过分析心跳包的丢包数量和频率可以判断网络的可靠性和负载情况,一方面可以用来分析和解释异常的HA 备机切换动作,另一方面可以用来分析系统问题并通过调整系统参数来均衡负载。
建议在设计HA 集群的时候不要使用负载过大的TCP/IP 网络或者IO 负载很大的磁盘来做心跳。
回页首小结HACMP 集群的各种网络故障的分析和判断都是由RSCT 心跳来实现的,网络故障的判断正确与否也直接影响了HACMP 对应用的切换和还原,所以了解心跳的过程与原理对于设计与配置HACMP 高可用集群具有重要的意义。