当前位置：文档之家› 启停AIX HACMP,切换资源

启停AIX HACMP,切换资源

AIX HACMP，全称是IBM High Availability Cluster Multiprocessing ，IBM高可用-多处理器-系统集群。HACMP差不多就是一种共享存储的冷备方案，前提在存储不挂、应用且能够忍受10分钟的切换时间下，如果一台机器挂了，另外一台机器会接管应用。如果业务应用不能容忍中断，则Oracle 的RAC是更好的方案。
HACMP不难，但是由于平时很少机会接触（既然做了集群，当然是昂贵的系统；既然是昂贵的系统，自然不能让你随便启停），因此也一直没机会尝试。正好有一个机会尝试，就把操作过程笔记下来，留做今后的参考（截图都是AIX6.1）。
第一部分：停止hacmp。
1、启动smitty管理器（在root用户下执行）
#smitty hacmp

[如何启停AIX wbr] HACMP" alt="如何启停AIX HACMP" src="https://www.doczj.com/doc/6317325803.html,/orignal/592060b5g7687d66f2fc0" />

2、选择Manage HACMP Services界面进去

[如何启停AIX wbr] HACMP" alt="如何启停AIX HACMP" src="https://www.doczj.com/doc/6317325803.html,/orignal/592060b5ga14e60a7074a" />

3、选择Stop Cluster Services on these nodes,敲回车就可以停止hacmp了。

[如何启停AIX wbr] HACMP" alt="如何启停AIX HACMP" src="https://www.doczj.com/doc/6317325803.html,/orignal/592060b5ga14e60c34f88" />

上述步骤可以用#smitty clstop直接进入后面的操作界面。

第二部分：切换资源组

如果需要用hacmp中B机器替换原来的A机器，就需要进行资源组的切换，否则盘阵、以及服务IP都不能正常使用。
依然执行 #smitty hacmp，选择HACMP Resource Group and Application Management选项。

[如何启停AIX wbr] HACMP" alt="如何启停AIX HACMP" src="https://www.doczj.com/doc/6317325803.html,/orignal/592060b5ga14e60dd0e1f" />

选择Bring a Resource Group Online选项,选择相应的“节点”（根据你打算启动机器A，还是机器B）

[如何启停AIX wbr] HACMP" alt="如何启停AIX HACMP" src="https://www.doczj.com/doc/6317325803.html,/orignal/592060b5g7687d6804773" />

然后在，选择哪个资源组将被切换，一般就是你盘阵的卷组了。

[如何启停AIX wbr] HACMP" alt="如何启停AIX HACMP" src="https://www.doczj.com/doc/6317325803.html,/orignal/592060b5ga14e611b0366" />

敲回车，看到下面界面就表示切换成功了。

[如何启停AIX wbr] HACMP" alt="如何启停AIX HACMP" src="https://www.doczj.com/doc/6317325803.html,/orignal/592060b5ga14e614aeb0a" />

第三部分：启动hacmp 启动hacmp和停止hacmp类似。使用命令
#smitty clstart 进行操作就可以。

第四部分：手动挂盘阵，启动应用
在停止hacmp后想把两台机器分开使用（不管啥原因）的时候，因为挂载盘阵这些工作是做在hacmp中的，如果不启动hacmp则盘阵也无法挂载，这时需要手动挂载盘阵。执行下面两条命令
#varyonvg rmvg ----你的vg名
#mount /home/oracle ----你的挂载点

同理，原有应用是作为启动脚本放置在hacmp中的，因此不启动hacmp自然也不能自动启动应用。如AIX

上跑着Oracle，则启动Oracle，启动监听器即可（需要提醒一下，监听器原来是监听hacmp的服务IP，停止hacmp可能需要修改监听器的监听IP）。

HACMP工作原理 [转帖]
HACMP工作原理
HACMP的工作原理是利用LAN来监控主机及网络、网卡的状态。在一个HACMP环境中有TCP/IP网络和非TCP/IP网络。TCP/IP网络即应用客户端访问的公共网，该网可以是大多数AIX所支持的网络，如Ethernet，T.R.，FDDI，ATM，SOCC，SLIP，等等。非TCP/IP网络用来为HACMP对HA环境（Cluster）中的各节点进行监控而提供的一个替代TCP/IP的通讯路径，它可以是用RS232串口线将各节点连接起来，也可以是将各节点的SCSI卡或SSA卡设置成Target Mode方式。

HACMP将诊测并响应于三种类型的故障：1网卡故障，2网络工作，3节点故障。下面就这三种故障分别进行介绍。

1、网卡故障

前面讲到，HACMP的群集结构中，除了TCP/IP网络以外，还有一个非TCP/IP网络，它实际上是一根“心跳”线，专门用来诊测是节点死机还是仅仅网络发生故障。如下图所示，一旦节点加入了 Cluster(即该节点上的HACMP已正常启动)，该节点的各个网卡、非TCP/IP网络就会不断地接收并送Keep-Alive信号，K-A的参数是可调的，HA在连续发送一定数量个包都丢失后就可确认对方网卡，或网络，或节点发生故障。因此，有了K-A后，HACMP可以很轻易地发现网卡故障，因为一旦某块网卡发生故障发往该块网卡的K-A就会丢失。此时node 1上的cluster manager( HACMP的“大脑”)会产生一个swap-adapter的事件，并执行该事件的script(HACMP中提供了大部分通用环境下的事件scripts,它们是用标准AIX命令和HACMP工具来写的)。每个节点上都有至少两块网卡，一块是service adapter,提供对外服务，另一块是standby adapter，它的存在只有cluster manager知道，应用和client并不知道。一旦发生swap-adapter事件后，cluster manager将原来service adapter的 IP地址转移到standby adapter上，而standby地址转移到故障网卡上，同时网络上其他节点进行ARP的刷新。网卡互换(swap-adapter)在几秒内就可完成，以太网为3秒，并且这种转换对应用和client来说是透明的，只发生延迟但连接并不中断。

2、网络故障

如果发往node1上的service和standby网卡上的K-A包全都丢失，而非TCP/IP网络上的K-A仍然存在，那么HACMP判断node1仍然正常而网络发生故障。此时HACMP执行一个

3 、节点故障

如果不仅TCP/IP网络上的K-A全部丢失，而且非TCP/IP网络上的K-A也丢失，那么HACMP断定该节点发生故障，并产生node-down事件。此时将有资源接管，即放在共享磁盘陈列上的资源将由备份节点接管，接管包括一

系列操作：Acquire disks，Varyon VG, Mount file systems，Export NFS file systems, Assume IP network Address, Restart highly available applications,其中IP地址接管和重新启动应用由HACMP来实现，而其他是由AIX来完成。

当整个节点发生故障时，HACMP将故障节点的service IP address转移到备份节点上，使网络上的client仍然使用这个IP地址，这个过程称为IP地址接管(IPAT)，如图所示。

当一个节点down掉后，如果设置了IP地址接管，网络上的clients会自动连接到接管节点上；同样，如果设置了应用接管，该应用会在接管节点上自动重启，从而使系统能继续对外服务。对于要实现接管的应用，只需在HACMP中把它们设置成application server,并告诉HACMP启动这个应用的start script的全路径名和停止该应用的stop script的全路径名。由此可见，应用接管的配置在HACMP中十分简单，重要的是start script和stop script的写作，这需要用户对自己应用的了解。

4、其他故障

HACMP只去检测网卡、网络和节点是否发生故障，并作出相应的转移、接管行为。对于其他故障，那么HACMP缺省不作任何动作。

a.硬盘故障

一般我们都将硬盘设置成RAID-5方式或mirror方式，从而提供硬盘的高可用性。RAID-5将奇偶较验位分散在硬盘组中，因此当一组内的一个硬盘坏掉，组内的其他硬盘可以通过奇偶较验位将该硬盘上的数据恢复出来。RAID-5方式一般是由硬件实现的，如下7133的SSA适配器,而且如果同一组内的两个硬盘坏掉，该组硬盘的数据很可能就会全部丢失。mirror方式是将同一个数据写到至少两个物理外置上，因此它的效率没有RAID-5好，而且用盘量大，但安全性比RAID-5高，而且它易于实现，通过AIX中的(Logic Volume Management)可以很方便地设置。

b.硬盘控制卡

存储设备连接到主机上都必须通过一块控制卡，SCSI设备是SCSI Adapter, SSA设备是SSA Adapter,如果这块卡坏掉，与之连接的外设就无法利用。有几种办法可以解决这个问题。

一种办法是用多个adapter。每个主机上都有两块或两块以上adapter,分别连接mirror的数据，因此无论是硬盘坏掉，还是Adapter坏掉，所有好数据还是可以被主机利用，不会出现单点故障。这种方法实现起来并不难，但必须配置多块adapter,而且必须采用数据mirror方式。这种方法也不用通过HACMP来实现。

另一种方法仍只用一块adapter,利用HACMP中的Error Notification Facility( 错误通告机制)来解决。

Error Notification Facility是HACMP提供的对其他设备的监控工具，任何报告给AIX的错误(error)都能被捕获被采取相应措施。HACMP提供了smit界面，使配置简单化。

我们已知道，用LVM可实现硬盘镜像，当一个

盘坏掉，仍有一份数据在镜像盘里，数据仍可进行读写，但此时数据不再有可用性，若镜像盘也坏掉则数据全部丢失。所以在此例中，PV丢失(LVM_PVMISS)的信息会大幅显示在控制台面上，从而提醒用户去仔细查看error log找出故障并修复它。同样，此例中HACMP提供了界面，结合AIX的功能，从而监控故障的发生。

c.应用故障

如果用户的应用有kernel call调用，或以root身份来启动等，一旦应用发生故障，很容易导致操作系统down掉，发生死机，这时实际上等于节点故障，HACMP会采取相应接管措施。如果只是应用自身死掉，AIX仍正常运行，HACMP最多利用Error Notification Facility来提供监控功能，对应用本身不采取任何动作。但如果应用中调用了AIX的SRC (System Resource Controller)机制所提供的API接口，就可以使应用在down掉后自动重新启动。除了SRC提供API接口外，HACMP中的clinfo也提供这样的API。

clinfo是cluster Information daemon,它负责维护整个cluster的状态的信息，clinfo API允许应用程序利用这些状态信息来采取相应行动。

d. HACMP故障

如果cluster中节点的HACMP进程down掉，HACMP将其升级为节点故障，从而发生资源接管。

如上所述，HACMP只全权负责诊断网卡故障、网络故障和节点故障这三类故障，并负责实现IP地址转换或接管，以及整个系统资源( 硬件、文件、系统、应用程序，等等)的接管。对于这三类故障外的其他故障，可以结合AIX基本功能和HACMP提供的一些机制，如Error Notification Facility, clinfo API 等，同样可以实现对故障的监控并采取相应措施。
转自：https://www.doczj.com/doc/6317325803.html,/zxjx/zxjx09.htm。 8)

IBM P570 小型机AIX5.3系统安装ORACLE9i

(图略)

概叙

本文写在Oracle安装完后，根据实际安装情况写的操作小节。详细叙述了安装过程中的每一个步骤。

硬件系统为 IBM P570 小型机，配两块硬盘；

阵列为IBM DS4300 2T 7块硬盘，每块146G，

其中6块做raid5，另一块待机；

操作系统为AIX5.3；

数据库为 Oracle9201；

一、查看现有物理卷，显示与存储磁盘的对应关系

#lspv

注：这里列举的是已经安装好了的数据库机器中的信息，其中小型机上有两块硬盘，为hdisk0和hdisk1，而hdisk2为阵列。

二、查看卷组，显示该卷组的空间

#lsvg

#lsvg rootvg

说明：这里，TOTAL PPs表示总共容量为1092G，其中已经分配的空间USED PPs为364G，尚未分配的空间FREE PPs为728G。

三、使用smit jfs2从尚未分配的空间中分配20G空间安装oracle（oracle实际安装只需4.6G空间，但oracle的系统日志也会存放以与此，预留空间可以大一点，因此分配了20G的空间）

1，进入smit jfs2环境（在X Windows

下，会显示图形化界面）

2，选择Add an Enhanced Journaled File System

3，选择在哪个卷组中创建分区，这里选择rootvg

4，设置分区参数

说明：

Unit Size Gigabytes

Number of units 20

MOUNT POINT /oracle

Mount AUTOMATICALLY at system restart? yes

ENABLE Quota Management Version 2

其它参数默认。

选择框，可以通过 “Esc+4”打开列表进行选择。

5，设置完毕后按“Enter”进行创建分区。

四、使用smit创建oracle用户，创建dba，oinstall组，并对oracle用户设置/oracle目录写入权限

1，使用smit进入创建用户组dba界面

2，选择Security & Users

3，选择Groups

4，选择Add a Group

5，填写组名信息

说明：填写Group NAME为dba，其他默认。

6，按“Enter”创建

7，安装上面的步骤创建用户组oinstall

8，创建oracle用户，在第二步选择Users

9，选择Add a User

10，填写用户信息

说明：填写User NAME为oracle，Primary Group为dba，Group SET为dba,oinstall，其他参数默认。

11，设置用户oracle密码，在第九步中选择Change a User’s Password进行密码修改

12，设置用户写文件夹属性

#chown –R oracle.oinstall /oracle

#chown oracle.dba /oracle

#chmod 755 /oracle

13，打开 /home/oracle/.profile配置oracle参数。在X Windows下可以用自带的文本编辑器打开进行编辑。

14，加入以下参数后保存

export ORACLE_BASE=/oracle

export ORACLE_HOME=$ORACLE_BASE/ora92

export ORACLE_SID=smsdb

export NLS_LANG=american_america.zhs16gbk

export LD_LIBRARY_PATH=$ORACLE_HOME/lib

export PATH=$PATH:$ORACLE_HOME/bin

umask=022

15，创建一装载cdrom的文件夹

#cd /mnt

#mkdir cdrom

16，插入oracle安装光盘到光驱，装载cdrom

#mount –V cdrfs –o ro /dev/cd0 /mnt/cdrom

五、使用oracle用户登录X安装数据库系统

$./mnt/cdrom/./runInstaller

说明：如果在X下图形界面出不来的话，可能要运行命令xhost + 或者把export Display=192.168.18.65:0.0写入/home/oracle/.profile文件中。

六、在安装数据库的过程中，会询问是否已经运行了aix rootpre.sh，如果没有运行，请以root用户登录，运行这个脚本。运行完后，输入 y 继续进行数据库的安装。

说明：输入y后，shell提示符会退出，这个是正常现象，请等待15秒左右后，会再次有命令出现，然后图像化安装界面也会出来。

本人在执行的时候，不知道什么原因，发生以下错误。不过oracle系统还是成功安装上：

Configuring Asynchronous I/O...
Asynchronous I/O is already defined
/var/ha/soc/hagsdsocket../rootpre.sh[338]: /usr/lpp/ssp/bin/spget_syspar: not f
ound: No such file or directory.
Please make sure that the group services subsystem is active.
Aborting pre-installation procedure. Installations of Oracle may fail.

七、安装过程中，还会询问输入jdk1.3.1 home路径，请选择aix系统自带的jdk：/usr/jdk14继续安装。

八、第一张光盘安装完毕后，卸载光驱，然后插入第二张光盘后装载光驱后，继续安装。

$su root

#unmount /mnt/cdrom

#mount –V cdrfs –o ro /dev/cd0 /mnt/cdrom

说明，如果不能卸载光驱，会报资源忙。请查看是否用用户在光驱的目录下，特别是看一下root用户是否在光驱的路径下。

九、安装完毕后提示以root用户登录执行一个脚本，执行完后，安装完毕。

十、接下去就可以用dbca命令创建数据库。

注意：在创建数据库过程中，可能会出现某几个sql脚本不能执行的情况，请记录这些脚本的路径后，点击“忽略”继续安装。安装完后，分别在执行这些在安装过程中不能顺利执行的脚本。如果还是不能执行，请查看这些脚本不能执行的原因，排除问题后在执行。

概述

本系统采用每天晚上定时用exp命令导出数据到指定的路径下进行备份。

一、创建备份文件夹

使用命令smit jfs2创建备份文件夹。根据实际情况，计算1个月每天导出备份大概需要的容量后，创建一个/orabak的目录。根据广西的数据，大概需要创建60G的空间。

二、修改该文件夹的写入用户以及属性

#chown –R oracle.oinstall /orabak

#chown –R oracle.dba /orabak

#chown 755 /orabak

三、准备一个执行的脚本

进入/var/spool/cron/crontabs后，创建一文件，该文件的名字要与调度该文件的用户名一致。这里，我们采用用户oracle来定时执行脚本，因此取文件名为oracle。

命令“0 22 * * * /oracle/orabak.sh”表示每天22点执行orabak.sh脚本。具体定义可以参考联机帮助。

ORACLE_HOME=/oracle/ora92

export ORACLE_HOME

ORACLE_SID=smsdb

export ORACLE_SID

export NLS_LANG=american_america.zhs16gbk

rq=smsdb`date +%d`

echo "++++++++++++++++++" >> /tmp/oracle.log

/oracle/ora92/bin/exp sms/sms@smsdb owner=sms file=/orabak/"${rq}".dmp log=/orab

ak/"${rq}".log direct=y feedback=0

smsdb`date +%d` 表示导出文件会以 smsdb01.dmp ~ smsdb31.dmp对应于每个月的日期生成一个文件。后一个月会覆盖前一个月同一天的文件。

下面是实际中导出的数据库备份文件：

四、让Oracle用户自动每天定时执行这个脚本

如果用户要执行/var/spool/cron/crontabs中相同名称的文件，则需要在/var/adm/cron/cron.allow中添加。

系统安装后，默认是没有cron.allow和cron.deny文件，此时，只有root用户才能执行各种命令。

创建文件cron.allow和cron.deny。在文件cron.allow中添加两个用户root和oracle；保持cron.deny文件内容为空。

启动:

ORACLE_HOME=/oracle/ora92

su - oracle << EOF

export ORACLE_SID=smsdb

${ORACLE_HOME}/bin/lsnrctl start

${ORACLE_HOME}/bin/sqlplus /nolog

connect / as SYSDBA

startup

exit;

EOF

停止:

ORACLE_HOME=/oracle/ora92

su - oracle << EOF

ORACLE_SID=smsdb;

export ORACLE_SID;

${ORACLE_HOME}/bin/lsnrctl stop

${ORACLE_HOME}/bin/sqlplus /nolog

connect / as SYSDBA

shutdown immediate

exit;

EOF

AIX5.3中，为了HA须要安装的的体系包：
https://www.doczj.com/doc/6317325803.html,pat.basic.hacmp
https://www.doczj.com/doc/6317325803.html,pat.client.hacmp
rsct.core.sec
rsct.core.rmc
bos.adt.lib
bos.adt.libm
bos.adt.syscalls
https://www.doczj.com/doc/6317325803.html,.tcp.client
https://www.doczj.com/doc/6317325803.html,.tcp.server
bos.rte.libc
bos.rte.libcfg
bos.rte.libcur
bos.rte.libpthreads
bos.rte.odm
bos.rte.lvm.rte
bos.clvm.enh
bos.rte.SRC

须要安装的Hacmp5.4的软件包：
cluster.adt.es
cluster.doc.en_US.es
cluster.es
cluster.es.cfs
cluster.es.cspoc
cluster.es.plugins
cluster.license
cluster.man.en_US.es

******************************
然后两边机器上配置/etc/hosts
#55A1
127.0.0.1 loopback localhost # loopback (lo0) name/address
192.168.10.1 boot_ip1 ha_55A
192.168.20.1 standby_ip1
192.168.30.1 service_ip1

#55A2
192.168.10.2 boot_ip2 ha_55B
192.168.20.2 standby_ip2
192.168.30.2 service_ip2

并编纂两边的/usr/es/sbin/cluster/etc/rhosts
boot_ip1
boot_ip2
standby_ip1
standby_ip2
service_ip1
service_ip2
ha_55A
ha_55B

在两边上的/usr/app下，创立start1.sh、start2.sh、start3.sh、stop1.sh、stop2.sh、stop3.sh
#vi start1.sh
banner " start app1 " >> /tmp/hacmp.out
#vi stop1.sh
banner " stop app1 " >> /tmp/hacmp.out
... ...

并更改读写权限
-rwxr-xr-x 1 root system 40 Sep 20 21:36 start1.sh
-rwxr-xr-x 1 root system 40 Sep 20 21:36 start2.sh
-rwxr-xr-x 1 root system 40 Sep 21 04:19 start3.sh
-rwxr-xr-x 1 root system 39 Sep 20 21:36 stop1.sh
-rwxr-xr-x 1 root system 39 Sep 20 21:37 stop2.sh
-rwxr-xr-x 1 root system 40 Sep 21 04:19 stop3.sh

*****************************************

注意，HA5.4可能有BUG，假如用standard模式配置会出错，甚至不能进行

******************************************

Extended Configuration
Move cursor to desired item and press Enter.
Discover HACMP-related Information from Configured Nodes
Extended Topology Configuration * 需要注意,不开心时来看看，往集群中加节点的时候,五千魔域私服，须要注意主机名不能以数字开头
Extended Resource Configuration
Extended Cluster Service Settings
Extended Event Configuration
Extended Performance Tuning Parameters Configuration
Security and Users Configuration
Snapshot Configuration
Export Definition File for Online Planning Worksheets
Extended Verification and Synchronization
HACMP Cluster Test Tool

************************************
Extended Topology Configuration
Move cursor to desired item and press Enter.
Confi

gure an HACMP Cluster
Configure HACMP Nodes
Configure HACMP Sites
Configure HACMP Networks * 在添加网络之前，
建议，先做一下上面的"Discover HACMP-related Information from Configured Nodes"
Configure HACMP Communication Interfaces/Devices * 在添加网络接口的时候，尽量自己添加，否则找到的网络不会有子网掩码
Configure HACMP Persistent Node IP Label/Addresses * 没懂得是什么,qq魔域，没有配
Configure HACMP Global Networks
Configure HACMP Network Modules
Configure Topology Services and Group Services
Show HACMP Topology
***********************************************
Extended Resource Configuration
Move cursor to desired item and press Enter.
HACMP Extended Resources Configuration
Configure Resource Group Run-Time Policies
HACMP Extended Resource Group Configuration

HACMP Extended Resources Configuration
Move cursor to desired item and press Enter.
Configure HACMP Application Servers
Configure HACMP Service IP Labels/Addresses
Configure HACMP Tape Resources
Configure HACMP Communication Adapters and Links
Configure Custom Disk Methods
Configure Custom Volume Group Methods
Configure Custom Filesystem Methods
Customize Resource Group and Resource Recovery
Configure Resource Distribution Preferences

Configure HACMP Application Servers*
Add Application Server
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
* Server Name []
* Start Script []
* Stop Script []
Application Monitor Name(s)

Configure HACMP Service IP Labels/Addresses*
Configure HACMP Service IP Labels/Addresses
Move cursor to desired item and press Enter.
Add a Service IP Label/Address
Change/Show a Service IP Label/Address
Remove Service IP Label(s)/Address(es)
Select a Service IP Label/Address type
Move cursor to desired item and press Enter.
Configurable on Multiple Nodes *共享的IP标识选这个
Bound to a Single Node

net_ether_01 (192.168.30.0/24 192.168.10.0/24 192.168.20.0/24)注意这个括号,刚刚开通了空间，来转转吧！，很主要的喔！！

Add a Service IP Label/Address configurable on Multiple Nodes (extended)
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
* IP Label/Address +
* Network Name net_ether_01
Alternate HW Address to accompany IP Label/Address []
这个步骤，重要是要把服务地址参加到HA已经找到的网络中

*

*********************************************************
HACMP Extended Resource Group Configuration
Move cursor to desired item and press Enter.
Add a Resource Group
Change/Show a Resource Group
Change/Show Resources and Attributes for a Resource Group
Remove a Resource Group
Show All Resources by Node or Resource Group

Add a Resource Group (extended)
Type or select values in entry fields.
Press Enter AFTER making all desired changes.
[Entry Fields]
* Resource Group Name []
* Participating Nodes (Default Node Priority) [] +
Startup Policy Online On Home Node Only +
Fallover Policy Fallover To Next Priority Node > +
Fallback Policy Fallback To Higher Priority Nod> +

并行要设置成“Online On All Available Nodes”
“Bring Offline (On Error Node Only)”
“Never Fallback”
的策略

专用双机检查
1，主机名配置smit hostname

2,网卡配置smit mktcpip
3,/etc/hosts配置

#For HACMP
172.11.1.72 GDGZ-SMC-SV06B_boot
172.11.8.72 GDGZ-SMC-SV06B_fix GDGZ-SMC-MS-SV06B-IBM-SMSVR
192.11.1.72 GDGZ-SMC-SV06B_stb
172.11.1.71 GDGZ-SMC-SV06A_boot
172.11.8.71 GDGZ-SMC-SV06A_fix GDGZ-SMC-MS-SV06A-IBM-SMSVR
192.11.1.71 GDGZ-SMC-SV06A_stb
172.11.1.70 service_ip

4，配置/usr/es/sbin/cluster/etc/clhosts文件（需要看现网是否配置，专用目前未配置）
编辑此文件，两个节点所示应如下：
smcsrv01
smcsrv02
5，配置/etc/snmpdv3.conf文件（已修改）
6，配置tty检查
[root@GDGZ-SMC-MS-SV06B-IBM-SMSVR:/dev]#lsdev -Cc tty
tty0 Available 02-08-01-00 Asynchronous Terminal
vty0 Available Asynchronous Terminal
vty1 Available Asynchronous Terminal
[root@GDGZ-SMC-MS-SV06A-IBM-SMSVR:/dev]#lsdev -Cc tty
tty0 Available 02-08-01-00 Asynchronous Terminal
vty0 Available Asynchronous Terminal
vty1 Available Asynchronous Terminal
上面显示结果中含tty（一般为tty0）标识的为Available，则表示串口已经配置
检查tty连通性（检查OK）
在smcsrv01上执行如下命令：#cat 在smcsrv02上执行如下命令：#cat /etc/hosts >/dev/tty0
观察smcsrv01上显示的数据是否正确，并确保没有乱码。

7，配置双机拓扑结构
AIX下双机分为HAMCP和HACMPES增强版本，短消息系统使用的是增强版本。体现在配置上则为进入HACMP配置菜单后，分为Initialization and Standard Configuration和Extended Configuration，则短消息系统统一进入Extended Configuration进行相关配置

a,增加cluster
#smitty cm_add_change_show_an_hacmp_cluster.dialog
目前配置为SMC_SV06

b,增加双机节点（利

旧IBM配置）
smit cm_add_a_node_to_the_hacmp_cluster_dialog 指定
* Node Name [GDGZ-SMC-MS-SV06B-IBM-SMSVR]
Communication Path to Node [GDGZ-SMC-SV06B_fix]
这里的Communication Path to Node需要填写映射到主机名的网卡的地址。一般是fix网卡。

c,增加网络

网络名net_ether_01

smit cm_add_a_network_to_the_hacmp_cluster_select

按照指导书将Enable IP Address Takeover via IP Aliases 改成NO

网络名net_rs232_01

smit cm_add_a_network_to_the_hacmp_cluster_select
+

d,增加网络接口

应该配置boot/stb网卡,顺序为配置net/rs232/

8,增加service_ip
smitty cm_add_a_service_ip_label_address.select

9，检查Cluster Topology
#smitty cm_show_menu

10，同步Cluster Topology
#smitty cm_ver_and_sync.select

11，配置双机资源
a,增加资源组
#smitty cm_add_a_resource_group_dialog.custom

b,增加应用
smitty claddserv.extended.dialog
Configurable on Multiple Nodes

[Entry Fields]
Server Name smc_sv06_app
New Server Name [smc_sv06_app]
Start Script [/usr/sbin/cluster/smc/start.sh]
Stop Script [/usr/sbin/cluster/smc/stop.sh]
Application Monitor Name(s) +
上面的监控没有配置，

c，增加应用监控（未配置，已整改）
#smitty cladd_custom_appmon.dialog

[Entry Fields]
* Monitor Name [smc_sv06_app_mnt]
* Application Server(s) to Monitor smc_sv06_app +
* Monitor Mode [Long-running monitoring] +
* Monitor Method [/usr/sbin/cluster/smc/monitor.sh]
Monitor Interval [30] #
Hung Monitor Signal [9] #
* Stabilization Interval [180] #
* Restart Count [0] #
Restart Interval [0]

#
* Action on Application Failure [fallover] +
Notify Method []
Cleanup Method [/usr/sbin/cluster/smc/stop.sh]
Restart Method [/usr/sbin/cluster/smc/start.sh]

配置应用监控后，双机稳定运行一段时间（时间的大小为Stabilization Interval配置项的取值）之后，将每隔Monitor Interval时间执行一次脚本。如果脚本检测到故障，HA将fallover直接进行资源组切换。所以，Restart Count、Restart Interval务必配置为零，否则HA将尝试执行stop.sh，而不是切换资源组。

回过来修改前面的应用（因为应用没有配置监控），实际上此时应用已经同步加入了监控！

d，增加资源组中资源（原来没有加入service_ip，已整改!）
#smitty cm_change_resources_for_a_rg_select

[TOP] [Entry Fields]
Resource Group Name smc_sv06_reg
Participating Nodes (Default Node Priority) SMC_SV06_1 SMC_SV06_2

Startup Policy Online Using Distribution Policy
Fallover Policy Fallover To Next Priority Node In The List
Fallback Policy Never Fallback

Service IP Labels/Addresses [] +
Application Servers [smc_sv06_app] +

Volume Groups [datavg billvg ] +
Use forced varyon of volume groups, if necessary false +
Automatically Import Volume Groups false +

Filesystems (empty is ALL for VGs specified) [ ] +
Filesystems Consistency Check fsck +
Filesystems Recovery Method sequential +
Filesystems mounted before IP configured false +
Filesystems/Directories to Export (NFSv2/3) [] +
+
Filesystems/Directories to Export (NFSv4) []

+
Stable Storage Path (NFSv4) [] +
Filesystems/Directories to NFS Mount []

目前可以先不增加 smc_sv06_app资源做测试！

而且Volume Groups信息读不到时（按Esc+4）,可以先执行
Extended Configuration->
Discover HACMP-related Information from Configured Nodes

或者直接输入vg信息！
12，同步资源
#smitty cm_ver_and_sync.select

13，HA启动设置（需要主备机都操作一遍）
#smitty cl_startup_options需要将“Start HACMP at system restart?”和“Startup Cluster Information Daemon?”设置为true。
已经整改！