1、查看小型机前面板上的警告灯,如果有黄色显示,表示该系统出现问题,继续检查
2、检查硬件,外观观看硬件,是否出现问题(查看两台服务器的灯是否一致)。
3、检查文件系统
df –g
Filesystem GB blocks Free %Used Iused %Iused Mounted on
/dev/hd4 1% 2479 1% /
/dev/hd2 11% 49315 2% /usr
/dev/hd9var 2% 722 1% /var
/dev/hd3 1% 165 1% /tmp
/dev/fwdump 1% 4 1% /var/adm/ras/platform
/dev/hd1 1% 7 1% /home
/proc - - - - - /proc
/dev/hd10opt 2% 1706 1% /opt
/dev/fslv00 35% 16600 1% /oracle
/dev/sg186lv 1% 16 1% /sg186
查看%Used的使用率有无大于85%的,如果有大于85%的,则相应的进行增大空间。
以上面得/home为例增大空间:
chfs -a size='10G' /home 将/home增大到10G
chfs -a size=+ 10G /home 将/home增大10G
4、检查系统出错日志
使用errpt|more命令检查
IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。
TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年
T:为Type,它记录的是错误类型
P:为永久错误,需引起注意
T:为临时错误。
C:为Class,它记录的是错误种类,如
H:Hardware
S:Software
O:Errloger command messages
U:undetermined
其中引起关注的主要有P和H的错误
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
51E537B5 00 P H sysplanar0 platform_dump saved to file
291D64C3 00 I H sysplanar0 Platform dump data
BFE4C025 00 P H sysplanar0 UNDETERMINED ERROR
51E537B5 00 P H sysplanar0 platform_dump saved to file
291D64C3 00 I H sysplanar0 Platform dump data
BFE4C025 00 P H sysplanar0 UNDETERMINED ERROR
38A8D4BB 00 I H ent3 HEA PORT DOWN
AFA89905 00 I O grpsvcs Group Services daemon started
97419D60 00 I O topsvcs Topology Services daemon started
6D19271E 00 I O topsvcs Topology Services daemon stopped
28854E81 00 I O grpsvcs Group Services daemon stopped
使用errpt -aj
# errpt -aj BFE4C025
主要看一下
Description 查看一下描述,了解是哪出了问题
例如:
Description: Power/Cooling subsystem Unrecovered Error, bypassed
with loss of redundancy. Refer to the system service
documentation for more information.
这就是电源故障,或该电源掉电了。
清日志
#errclear 0
5、检查双机状态
每台主机共享的卷组是否活动 #lsvg –o或#lspv
每台主机的IP地址: #netstat –in或#ifconfig –a
/ usr/es/sbin/cluster/clstat 查看cluster状态