IBM 主机系统维护内容及操作指导要点
- 格式:doc
- 大小:400.50 KB
- 文档页数:12
IBM P750小型机日常维护手册一、服务器硬件运行状态检查1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)应显示为绿色。
2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。
如果有硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。
3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。
如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。
二、HMC(硬件管理平台)管理与操作HMC的两种访问途径:1、在机房直接通过显示器和键盘进行管理维护等相关操作2、通过web远程访问,登录HMC web管理界面,访问地址为:1、登录HMC1.1 浏览器访问连接HMC后,首页界面如下图所示。
1.2 点击下图所示链接,进入HMC验证登录界面。
1.3 输入用户名与口令,登录HMC。
用户名:hscroot口令:1.4 成功登录到HMC管理界面如下图所示。
2、注销HMC在HMC console右上角有(hscroot | help | log off)链接,单击log off,会出现如下图所示注销界面:选择Log off,系统返回到HMC初始登录界面状态。
3、重启HMC左边导航栏中选择→ HMC Management → shut down or Restart,如下图所示,对HMC进行正常重启及关机操作。
请谨慎对HMC进行关机和重启操作!4、状态栏功能状态栏位于HMC左下角位置,如下图所示,负责监控并反映管理系统资源状态和HMC状态。
单击每个图标状态可以列出详细状态,你可以查到更详细的帮助信息::非法操作,如果任何被管理的主机执行了非法操作,这个图标将会变亮。
IBM P系列小型机日常维护/故障定位/故障排除培训手册/操作指南目录目录 (1)第一章、机房环境及物理检查 (2)一、机房内环境要求 (2)二、电源要求 (2)三、硬件检查 (2)第二章、系统日常维护流程 (4)2.1系统启动 (4)2.2系统关闭 (4)2.3查看系统的错误记录 (4)2.4系统与数据备份 (5)2.5系统恢复 (8)2.6DUMP (8)2.7日常检查服务器状态的项目及其相关命令 (8)2.8性能监控与调优 (10)2.9安全工作守则 (11)2.10维护电话 (11)第三章、故障定位、故障排除 (12)3.1硬件故障 (12)3.2磁阵故障 (12)3.3网络故障 (17)3.4OS故障 (18)3.2HA故障 (19)3.2其他故障 (21)第一章、机房环境及物理检查一、机房内环境要求1.温度与湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度湿度: 8-80%(在23摄氏度条件下)如果不是工作在最佳温度,请注意改善机房环境2.同时机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。
二、电源要求电压: 要求电压稳定, 尖峰电压会损坏设备电压范围: 220V +/- 10%, 即200-240V, 50-60Hz电源功率: 视机器类型和系统配置而定电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.三、硬件检查检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。
服务器状态检查:1.当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。
2.当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。
日常维护手册一.AIX操作系统常用命令1系统开关机AIX引导分为多用户(NORMAL)和单用户(SERVICE)引导两种。
多用户(NORMAL)引导:在主机液晶面板显示“OK”情况下,按下主机前面板的白色电源按钮;单用户(SERVICE)引导:将AIX第一张系统光盘放入CDROM,按下主机前面板的白色电源按钮,在屏幕出现显示后,第二声喇叭声响起之前,按下“5”键。
系统关机命令及顺序:1.将应用顺序及数据库系统停止;2.利用#shutdown指令;2设备查看命令a)lsdev命令该命令用来查看系统设备信息。
#lsdev –Cc 设备类型常用的设备类型有:processor, disk, adapter, tape,memory, tty等。
b)lspv命令用来查看系统硬盘信息。
#lspv 硬盘名用来查看具体硬盘的信息,#lspv -l 硬盘名用来查看硬盘上逻辑卷信息,#lspv –p 硬盘名查看该硬盘物理分区的信息。
c)lscfg命令该命令用来查看设备配置信息。
#lscfg –vl 设备名d)lsattr命令该命令用来查看设备的属性信息。
#lsattr -El设备名3逻辑卷操作命令a)lsvg该命令用来查看系统定义的VG(卷组)。
#lsvg -o查看系统当前激活的VG (卷组)。
#lsvg VG名查看该VG(卷组)的信息,包括PP大小、多少,已使用(分配)的空间,自由空间大小等信息。
#lsvg -l VG名查看该VG(卷组)已经定义的逻辑卷。
#lsvg -o |lsvg -il列出所有系统mount上的逻辑卷。
4文件系统操作命令a)lslv该命令用来列出该逻辑卷所有属性。
b)smitty crjfs该命令用来创建一个文件系统。
c)mount该命令用来查看已安装的文件系统。
#mount 文件系统名用来安装一个文件系统。
#mount -a用来安装所有定义的文件系统#unmount 文件系统名用来卸载一个文件系统。
AIX简单故障维护手册由于IBM RS6000机器机型多,出现故障的情况有很多种类。
为了规范故障维护步骤,简化维护过程,编写本手册以供参考。
由于AIX故障种类多,不能一一列举,这里简单介绍部分故障判断,定位,解决方法。
一.故障的定义.弄清楚系统发生了什么问题?.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
检查机器是否存在故障一般情况下,可以通过以下几种方法来收集错误信息1、查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。
当指示灯的状态不正常时,需要引起注意。
比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。
2、查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。
也可以使用errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久;T 临时; U 未知(永久性的错误应引起重视)P:Permanent;T:Temporary;U:Unknow。
IBM操作系统常见维护案例IBM 小型机作为联通现在主要使用的服务器,下面浅谈一下在维护中所遇到的几则典型案例。
(一)HBA卡故障及更换一、系统环境操作系统:IBM Aix 5.2存储:Emc Dmx 1000存储交换机:EMC 32口二、故障:主机无法看到连接到存储的逻辑硬盘设备,看到的逻辑硬盘设备为defined三、解决方法:1、查看系统日志:#Errpt –dH3074FEB7 1125202009 T H fscsi1 ADAPTER ERROR# errpt -aj 3074FEB7 |more---------------------------------------------------------------------------LABEL: FSCSI_ERR4IDENTIFIER: 3074FEB7Date/Time: Thu Nov 25 20:20:09 BEISSequence Number: 607732Machine Id: 0052901A4C00Node Id: JNHXDBAClass: HType: TEMPResource Name: fscsi1Resource Class: driverResource Type: efscsiLocation: 14-08-01DescriptionADAPTER ERRORProbable CausesADAPTER HARDW ARE OR CABLEADAPTER MICROCODEFIBRE CHANNEL SWITCH OR FC-AL HUBFailure CausesADAPTERCABLES AND CONNECTIONSDEVICERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLES AND THEIR CONNECTIONSVERIFY DEVICE CONFIGURATION查看emc powerpath路径:# powermt displaySymmetrix logical device count=22CLARiiON logical device count=0================================================================= ----- Host Bus Adapters --------- ------ I/O Paths ----- ------ Stats ------### HW Path Summary Total Dead IO/Sec Q-IOs Errors=================================================================0 fscsi0 optimal 22 0 - 0 01 fscsi1 failed 21 21 -0 21 通过日志查看,确定为连接光纤或fscsi1卡问题2、通过光纤及存储交换机(端口查看、并更换端口方式)检查后,确定hba卡故障3、定位设备槽位及设备wwn号# lscfg -vpl fcs1DEVICE LOCATION DESCRIPTIONfcs1 14-08 FC AdapterPart Number.................00P4494EC Level....................ASerial Number...............1D3150C2D8Manufacturer................001DFRU Number.................. 00P4495Network Address.............10000000C933579FROS Level and ID............02C03951……………………………….Device Specific.(YL)........U0.1-P2-I2/Q1PLATFORM SPECIFICName: fibre-channelModel: LP9002Node: fibre-channel@1Device Type: fcpPhysical Location: U0.1-P2-I2/Q14、查看该hba卡连接的设备:hdisk2 Defined 14-08-01 EMC Symmetrix FCP Raid1hdisk3 Defined 14-08-01 EMC Symmetrix FCP RaidS……………………………………………………………………..hdisk24 Defined 14-08-01 EMC Symmetrix FCP RaidS5、删除坏hba识别的磁盘#rmdev -Rdl hdisk*6、删除hba卡#rmdev -Rdl fcs17、停机后更换hba卡8、运行cfgmgr检测新的hba卡设备9、查看新设备的wwn号,并将emc存储绑定新hba卡wwn#symmask -wwn 10000000C933579F replace 10000000C930D1EF10、运行emc powerpath软件,识别emc逻辑硬盘#emc_cfgmgr#powermt config11、查看硬盘设备,如果存在,连接正常。
主机系统维护作业指导书一、主机系统日常维护内容1.检查硬盘指示灯,若亮绿灯为正常,亮黄灯或红灯则为异常。
2.检查电源指示灯,若亮绿灯为正常,亮黄灯或红灯则为异常。
检查各电源线是否有松动,是否发热。
3.检查各主机外观,查看前面板是否完整良好。
4.检查主机散热风扇运转情况,用手感觉出风口,有风则正常;检查风扇是否无杂音。
5.检查磁盘阵列:查看阵列硬盘指示灯,亮绿灯为正常,若亮黄灯或红灯则为异常;查看散热风扇是否正常,用手感觉出风口,有风则正常;查看电源指示灯是否为绿,为绿正常,为红则异常。
6.检查网卡指示灯,亮绿灯为正常,若亮黄灯、红灯或不亮则为异常。
7.检查网线是否有松动,断线的情况。
8.运行系统程序检查。
二、维护操作指南1)日常硬件巡检2)日常软件巡检●查看操作系统的版本●查看系统资源●查看磁盘空间●查看系统配置文件●增加文件系统的空间大小●查看内存的大小●查看物理硬盘●补丁程序是否满足稳定运行的需要三、故障处理流程和指南一、现象:系统无法正常开机,加电后无任何反应。
处理流程:1、检查机器的插座部分是否有电,确认有电后,检查主机的电源线,电线接口部分是否正常;2、如果正常,将主机的电源插头拔下,过几分钟后插上开机;3、如仍无法正常开机,则检查机器最近是否更换及改动过某些部件,例如增加或者减少内存,更改了内存在插槽上的位置,如果内存或内存插槽损坏,也会导致机器无法加电;4、查看机器面板LCD,根据LCD的报错数字信息进行相应处理;如不能处理,把报错数字信息通知厂家维护工程师,进行检修。
5、排除以上因素后故障依然存在,则可能是机内电源或者主板故障,应通知厂家维护工程师进行检修。
二、现象:显示器无显示处理流程:1、首先检查计算机与显示器的连线是否接好,确认显示器电源插头通电,检查显卡有无松动或插头是否插紧;2、如果故障依然存在,更换显示器或显卡试试,同时,内存松动或损坏也会导致显示器无显示。
3、查看机器面板LCD,根据LCD的报错数字信息进行相应处理;如不能处理,刚把报错数字信息通知厂家维护工程师,进行检修。
建行IBM小型机日常维护第一篇:日常维护部分第二篇:故障处理部分第三篇:安图特公司技术支持第一篇日常维护部分目录第1章AIX系统管理日常工作(检查篇) (1)1.1 常用的命令 (1)1.2 语法介绍 (1)1.2.1 vmstat:检查存、CPU、进程状态 (1)1.2.2 sar:检查CPU、IO (2)1.2.3 PS:检查进程状态命令 (3)1.2.4 svmon:显示进程占用存 (3)1.2.5 iostat:显示磁盘IO (4)1.2.6 netstat, entstat:显示网卡信息 (4)1.2.7 no:显示tcpip参数设置 (5)1.2.8 其它命令 (5)第2章AIX系统管理日常工作(LV篇) (6)2.1 IBM AIX系统管理的日常工作 (6)2.1.1 开关机步骤 (6)2.1.2 用户组及用户管理 (6)2.1.3 文件系统维护 (6)2.1.4 系统日常管理 (7)2.1.5 系统备份 (7)2.1.6 定时清洗磁带机 (7)2.1.7 定时检查设备指示灯状态 (7)2.1.8 简单故障的判断 (7)2.1.9 熟悉ibm aix操作系统 (7)2.2 关于IBM AIX的逻辑卷管理 (7)2.3 LVM命令 (8)第3章AIX系统管理日常工作(关键参数检查篇) (10)3.1 AIO参数检查 (10)3.2 磁盘阵列QUEUE_DEPTH参数检查 (11)3.3 用户参数检查 (11)3.4 激活SSA F AST-W RITE C ACHE (12)3.5 IO参数设置 (12)3.6 SYNCD DAEMON的数据刷新频率 (12)3.7 检查系统硬盘的镜像 (12)第4章AIX系统管理日常工作(性能分析篇) (13)4.1 性能瓶颈定义 (13)4.2 性能围 (14)第5章AIX系统管理日常工作(SHUTDOWN篇) (14)5.1 概念 (14)5.2 关机命令 (14)第6章AIX系统管理日常工作(备份与恢复篇) (15)6.1 用SMIT备份 (15)6.2 手工备份 (15)6.3 恢复系统 (15)第7章HACMP的双机系统的管理和维护 (15)7.1 HACMP双机系统的启动 (15)7.2 HACMP双机系统的关闭 (16)7.3 察看双机系统的当前状态 (16)7.4 HACMP环境下的排错 (17)7.4.1 了解问题的存在 (17)7.4.2 判断问题的出处 (18)第1章AIX系统管理日常工作(检查篇)1.1常用的命令1.2语法介绍1.2.1vmstat:检查存、CPU、进程状态# vmstat 1 15kthr memory page faultscpu----- ----------- ------------------------------------ -----------r b avm fre re pi po fr sr cy in sy csus sy id wa1 0 28132 81277 0 0 0 0 0 0 132 375 67 65 1 342 0 28132 81277 0 0 0 0 0 0 127 338 131 99 0 02 0 28132 81277 0 0 0 0 0 0 132 316 131 99 0 02 0 28132 81277 0 0 0 0 0 0 120 317 99 0 0 02 0 28132 81277 0 0 0 0 0 0 146 316 127 99 0 02 0 28132 81277 0 0 0 0 0 0 130 317 125 99 0 02 0 28132 81277 0 0 0 0 0 0 316 127 99 0 0 02 0 28132 81277 0 0 0 0 0 0 129 317 124 99 0 02 0 28132 81277 0 0 0 0 0 0 304 127 99 0 0 0r:正在运行的进程b:被阻挡的进程avm:活动的虚存,单位4kbfre:自由列表,位4kbpo:页换出pi:页换入sy:系统占用CPUid:空闲CPUwa:等待的CPU1.2.2sar:检查CPU、IO例如:sar -u 1 30sar -P ALL 1 10语法:sar -[abckmqruvwyA] inteval repetition-b buffer 活动-c 系统调用-k 核进程统计.-m 消息及信号量活动-q 正在运行的队列数及等待队列数-r 页交换统计-u CPU利用-P CPU负载.1.2.3 PS:检查进程状态命令ps:显示当前SHELL重所有进程ps -ef :显示系统中所有进程,-f显示更详细信息ps -u oracle:显示oracle用户进程ps –emo THREAD:显示线程信息ps au;ps vg:按使用时间显示进程(最近一次调用)ps aux:按使用时间显示进程(进程启动)1.2.4 svmon:显示进程占用存svmon –G:显示系统占用存svmon -C command_name:显示某个用户进程占用存svmon -P pid显示某个进程占用存svmon –S:显示段占用存1.2.5iostat:显示磁盘IOtty: tin tout avg-cpu: % user % sys % idle %iowait0.0 4.0 0.9 1.3 95.4 2.5Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 58.4 218.3 41.2 172 920hdisk1 16.8 85.6 21.4 428 0hdisk2 50.6 223.9 55.6 1100 20hdisk3 16.8 85.6 21.4 428 0hdisk4 0.0 0.0 0.0 0 0hdisk5 43.4 279.1 69.8 1396 0hdisk6 0.0 0.0 0.0 0 0hdisk7 16.4 27.2 20.2 0 136hdisk8 0.0 0.0 0.0 0 0hdisk9 9.4 156.0 11.4 0 780hdisk10 16.4 27.2 20.2 0 136cd0 0.0 0.0 0.0 0 01.2.6n etstat, entstat:显示网卡信息netstat en0:显示en0信息netstat –s:显示网络信息netstat -m显示网络 buffers.netstat -i显示网卡状态netstat -I en0 1显示eno网卡塞(1秒间隔)1.2.7n o:显示tcpip参数设置no –a:显示tcpip所有参数当前设置no -o tcp_keepalivetime=7200000设置tcp_keepalivetime等于3600000秒no -d 恢复默认值注:该方法在重启后失效1.2.8其它命令第2章AIX系统管理日常工作(LV篇)2.1IBM AIX系统管理的日常工作系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:2.1.1开关机步骤在系统管理员控制下进行正确的操作。
IBM P750小型机日常维护手册之五兆芳芳创作一、办事器硬件运行状态查抄1.当办事器处于启动和正常任务状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)应显示为绿色.2.当办事器的状态灯出现橙黄色时,说明有硬件告警,此时要查抄办事器的电源、接线、硬盘等.如果有硬件毛病则需要立即进行改换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断.3.当硬盘任务正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操纵,则绿灯会不法则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或呈闪烁状态:以1~3秒的频率有纪律地、不断地闪烁.如果发明有办事器硬件状态灯不正常的情况,请实时联系我公司工程师,以便实时进行诊断并解决毛病.二、HMC(硬件办理平台)办理与操纵HMC的两种拜访途径:1、在机房直接通过显示器和键盘进行办理维护等相关操纵2、通过web远程拜访,登录HMCweb办理界面,拜访地址为:https://1、登录HMC1.1 浏览器拜访连接HMC后,首页界面如下图所示.1.2 点击下图所示链接,进入HMC验证登录界面.1.3 输入用户名与口令,登录HMC.用户名:hscroot口令:1.4 成功登录到HMC办理界面如下图所示.2、注销HMC在HMC console右上角有(hscroot|help|log off)链接,单击log off,会出现如下图所示注销界面:选择Log off,系统前往到HMC初始登录界面状态.3、重启HMC左边导航栏中选择HMC Management shut down or Restart,如下图所示,对HMC进行正常重启及关机操纵.请谨慎对HMC进行关机和重启操纵!4、状态栏功效状态栏位于HMC左下角位置,如下图所示,担任监控并反应办理系统资源状态和HMC状态.单击每个图标状态可以列出详细状态,你可以查到更详细的帮忙信息::不法操纵,如果任何被办理的主机执行了不法操纵,这个图标将会变亮.:黄灯警告,如果任何被办理的主机有错误并有黄灯被点亮,这个图标也将会变亮:报错日志:日志中有报错信息,这个图标将会变亮,此项与:摘要,摘要中会将有用信息做统计并显示在任务栏中.5、Service Management导航栏中Service Management强大的办理功效给用户日常维护提供了更复杂直不雅的界面,如下图所示,但日平时最经常使用的子项是Manage Serviceable Events,如下图步调可以对HMC所办理的设备进行日常错误实时直不雅的不雅察,以确保IBM小型性能正常任务,下图就是根本的操纵办法图示:Service Management Manage Serviceable Events6、Service Plans分区办理与操纵????如何查抄小型机资源配置:如上图白色标注所示,选中所需查抄主机(备注:请不要同时选中多台主机及多个分区)在下拉菜单中选中“Properties”,打开参数窗口,通过“Properties”可以查抄主机运行状态,CPU内存,I 等重要硬件系统参数,如下图所示.同理,在分区区域中先中每分区后的Properties选项,便可以直不雅便利的掌握分区状态和资源配置信息.????如何开关机及激活分区:关机.开机.Operation项中主要包含小型机及分区开关机,及消除报警灯这两项功效,如虽要对小型机下电操纵,请先将图??中的分区Deactivate(建议:最好在操纵系统中依照正常流程将操纵系统shutdown),最后再将主机power??off.注意:非特殊情况,无专业人员指导,严禁进行开关机操纵!6.3 手动消除黄灯警告如下两图所示, Operations中LED status,及Deactivate Attention LED 两项中所指,针对不合分区或主机所报出的警告黄灯,进行特定的消除黄灯操纵.6.4 如何打开控制终端(Terminal Window)在HMC上对分区操纵系统进行操纵,可以通过度区下拉菜单Console Window Open Terminal Window对选中分区进行操纵,如图所示,操纵界面如同telnet界面.在HMC中同一分区只允许打开一个Terminal Window,如试图打开第二个窗口,系统提示如图17所示界面.三、AIX系统日常维护1、查抄系统的错误记实很重要,应该定期查抄,如发明有硬件(H)类型的报错,应该实时存眷.在系统运行时,一些系统错误会记实在errlog 中,其中有些错误还会在终端上显示.查抄错误日志可用以下命令:#errpt|more 查抄系统所有的记实IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTIONE85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION其中IDENTIFIER 为错误编号,当需要查抄详细信息时常会用到.TIME STAMP 为时间标签,它记实的是出错时间,其格局:月月日日时时分分年年T 为Type , 它记实的是错误类型P :为永久错误,需引起注意T :为临时错误.C 为Class, 它记实的是错误种类,如H : HardwareS : SoftwareO : Errloger command messagesU : undeterminedRESOURCE_NAME 为错误来源DESCRIPTION 为错误描述#errpt aj <IDENTIFIER> 查抄系统详细记实内容其中IDENTIFIER为错误编号,如 #errpt aj 0426104399#errpt dH 查抄系统所有的硬件出错记实2、日常查抄办事器状态的项目及其相关命令2.1 运行lsdev 命令配以各类参数,所列各类设备状态都应为Available.#lsdev –C –H –S a 列出系统中可用设备.#lsdev –Cc processor 列出系统中的所有CPU.#lsdev –Cc memory 列出系统中的所有内存.#lsdev –Cc disk 列出系统中的所有硬盘.#lsdev Cc adapter | grep ent 列出系统中的所有网卡#lsdev Cc adapter | grep scsi 列出系统中的所有SCSI卡.#lsdev Cc adapter | grep ssa 列出系统中的所有SSA卡.2.2 lspv命令#lspv 显示系统中可用的PV.#lspv hdiskn 显示hdiskn的具体信息.#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息.2.3 lsattr命令# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB.2.4 lsvg命令#lsvg 列出系统中所有的vg.#lsvg rootvg 列出rootvg的详细信息.#lsvg –o 列出激活的vg2.5 oslevel命令#oslevel 显示操纵系统版本信息.2.6 netstat命令#netstat –in 显示系统中各网卡的配置.可查抄网卡的IP配置好了没有.2.7 diag命令通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为“No trouble found ”显示各部分任务正常.lsps –a 查抄PAGING SPACE的使用情况,如果使用率超出70%,就需要采纳措施.2.9查抄LV(卷)状态lsvg –o | lsvg –il | grep –i stale查抄有无stale的lv,如果输入该命令之后有输出结果,就需要采纳措施#mail,查抄有否发给root用户的错误陈述(mail).3、查抄文件系统查抄有没有“满”的文件系统.文件系统满可导致系统不克不及正常任务,尤其是AIX的根本文件系统.如/ (根文件系统)满则会导致用户不克不及登录.# df k (查抄AIX的根本文件系统)Filesystem 1024blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不该太满,一般不超出80%.4、性能监控与调优4.1 通过topas来不雅察topas能够将系统的全局信息,包含CPU、内存、磁盘、网络、文件系统、事件队列、文件等信息,排列在一个统一的界面上进行展示. bash4.3# topasTopas Monitor for host:localhost EVENTS/QUEUES FILE/TTYWed Feb 22 10:42:00 Interval:2 Cswitch ReadchSyscall WritechCPU User% Kern% Wait% Idle% Reads RawinWrites TtyoutForks IgetsNetwork BPS IPkts OPkts BIn BOut Execs NameiRunqueue DirblkWaitqueueDisk Busy% BPS TPS BRead BWrit MEMORYPAGING Real,MBFaults % CompFileSystem BPS TPS BRead BWrit Steals % NoncompPgspIn % ClientPgspOutName PID CPU% PgSp Owner PageIn PAGING SPACEPageOut Size,MBSios % Used% FreeNFS (calls/sec)SerV2 WPAR ActivCliV2 WPAR TotalSerV3 Press: "h"helpCliV3 "q"quitSerV44.2 通过命令vmstat 1 来不雅察.kthr memory page faults cpur b avm fre re pi po fr sr cy in sy cs us sy id wa命令解析:vmstat 命令的输出可以反应系统整体运行状况,包含cpu、内存、虚拟页面、系统进程和系统调用情况.查抄CPU是否为瓶颈,辨别查抄CPU的四项数值和kthr的两项数值.查抄MEM是否为瓶颈,辨别查抄Memory的两项数值和Page 的六项数值.4.3 通过命令 sar –mu –P ALL 来不雅察.命令解析:sar可以用来收集反应系统运行状况,在这里主要是查抄CPU的运行状况,CPU是否负载均衡,是否存在分派不均的情况.4.4 通过命令ps gv | more来不雅察.PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND0 A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper1 A 1:33 103 78952 79044 32768 25 36 0.0 29.0 /etc/init命令解析:ps可以用来查抄进程的当前状态.在这里通过参数的配搭,可以不雅察目前正在运行的进程所耗的时间,CPU和memory 量.其中,%CPU暗示进程所占用的CPU资源情况,%MEM暗示进程所占用的内存情况.主要查抄是否有标示为<defunc>的僵尸进程耗用系统资源,以及informix 数据库的oninit进程的系统消耗情况.4.5 通过命令iostat 1 –d hdiskX不雅察磁盘在机械上用dd命令进行磁盘阵列的写操纵校验,与此同时用iostat 1 –d hdiskX不雅察磁盘.Disks: % tm_act Kbps tps Kb_read Kb_wrtn命令解析: iostat可以用来查抄系统的I/O的输入输出情况,在这里主要查抄阵列上的硬盘的每秒读写量,同时预算磁盘阵列读写速度.4.6 通过命令netstat –a 进行查抄.Active Internet connections (including servers)Proto RecvQ SendQ Local Address Foreign Address (state)命令解析: netstat可以用来查抄系统的网络情况,在这里主要是查抄网络客户端连接的情况和开销,查抄参数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降组成瓶颈.以上所有命令及参数的相关寄义和详细信息,请参考AIX命令大全.。
HUAWO江西建行IBM小型机日常维护第一篇:日常维护部分第二篇:故障处理部分第三篇:安图特公司技术支持电话HUAWEI第一篇日常维护部分目录第1章AIX系统管理日常工作(检查篇) (1)1.1 常用的命令 (1)1.2 语法介绍 (1)1.2.1 vmstat :检查内存、CPU、进程状态 (1)1.2.2 sar :检查CPU、IO (2)1.2.3 PS :检查进程状态命令 (3)1.2.4 svmon :显示进程占用内存 (3)1.2.5 iostat :显示磁盘IO (4)1.2.6 netstat, entstat : 显示网卡信息 (4)1.2.7 no:显示tcpip参数设置 (5)1.2.8 其它命令 (5)第2章AIX系统管理日常工作(LV篇) (6)2.1 IBM AIX系统管理的日常工作 (6)2.1.1 开关机步骤 (6)2.1.2 用户组及用户管理 (6)2.1.3 文件系统维护 (6)2.1.4 系统日常管理 (7)2.1.5 系统备份 (7)2.1.6 定时清洗磁带机 (7)2.1.7 定时检查设备指示灯状态 (7)2.1.8 简单故障的判断 (7)2.1.9 熟悉ibm aix 操作系统 (7)2.2 关于IBM AIX的逻辑卷管理 (7)2.3 LVM 命令 (8)第3章AIX系统管理日常工作(关键参数检查篇) (10)3.1 AIO参数检查 (10)3.2 磁盘阵列QUEUE _DEPTH参数检查 (11)3.3 用户参数检查 (11)HUAWEI3.4 激活SSA F AST -W RITE C ACHE (12)3.5 IO参数设置 (12)3.6 SYNCD DAEMON 的数据刷新频率 (12)3.7 检查系统硬盘的镜像 (12)第4章AIX系统管理日常工作(性能分析篇) (13)4.1 性能瓶颈定义 (13)4.2 性能范围 (14)第5章AIX系统管理日常工作(SHUTDOWN篇) (14)5.1 概念 (14)5.2 关机命令 (14)第6章AIX系统管理日常工作(备份与恢复篇) (15)6.1 用SMIT 备份 (15)6.2 手工备份 (15)6.3 恢复系统 (15)第7章HACMP的双机系统的管理和维护 (15)7.1 HACMP双机系统的启动 (15)7.2 HACMP双机系统的关闭 (16)7.3 察看双机系统的当前状态 (16)7.4 HACMP环境下的排错 (17)7.4.1 了解问题的存在 (17)7.4.2 判断问题的出处 (18)错误!文档中没有指定样式的文字。
IBM小型机维护手册一、AIX操作系统简介AIX操作系统是有IBM公司研发的Unix操作系统,在技术、功能上又有许多增强:模块化的内核;动态调整内核;多线索内核;高效率的输入/输出;实时处理;安全性能;日志文件系统;存储管理(包括镜像技术和条块化技术);系统管理;在线帮助查询。
二、设备管理2.1块设备(Block Device):采用结构化的随机访问方式的具有缓冲的设备。
块设备通常为磁盘文件系统(Disk File System)。
2.2字符设备(Character Device):裸设备(Raw Device),是无缓冲的连续、定向流设备。
字符设备通常为系统周边设备,如终端、打印机等。
2.3主设备号(Major Number):标识系统内核中的设备驱动号。
2.4次设备号(Minor Number):标识特殊的设备类型。
ODM数据库由预定义数据库(Predefined Database)和定制数据库(Customized Database)组成。
用于存储系统中所有逻辑设备的信息及其属性。
其中:预定义数据库:包含所有基于系统配置的系统可支持的设备(Supported Devices)的配置数据。
定制数据库:包含当前系统中所有定义的(Defined Devices)和可用的(Available Devices)设备配置数据。
设备的类(Class):标识设备设备的子类(Subclass):标识设备如何连接至系统设备的类型(Type):标识设备的类型设备的名字(Name):标识逻辑设备名# lsdev 设备列表# lsattr 设备属性列表# chdev 更改设备属性# lscfg 显示当前系统中设备的配置信息2.5设备的配置:# mkdev –c Class –s Subclass –t Type –p Parent_Adapter –w Connection_Location–a Attribute=value-c Class:指定设备所属的类(如:tape)-s Subclass:指定设备所属的子类(如:scsi)-t Type:指定设备所属的类型(如:150mb)-p Parent_Adapter:指定设备的父卡号(如:scsi0)-w Connection_Location:指定设备连接在父卡上的位置或地址(如:5,0)-a Attribute=value:指定设备的属性(如:ret=no)2.6设备的状态:Undefined:系统中没有此设备的存在记录(设备信息存储于预定义数据库中)(Supported)Defined:系统已为此设备分配了逻辑设备名和端口,但系统当前不能访问此设备(设备信息存储于定制数据库中)(Defined)Available:设备在系统中已经定义了并且可以使用(设备信息存储于定制数据库中)(Available)# cfgmgr自动配置系统中的自适应设备(Self-Configuring Devices)三、存储管理3.1AIX中逻辑存储的限制卷组(VG) 255个/每个系统物理卷(PV)32个/每个卷组物理分区(PP)1016个/每个物理卷逻辑卷(LV)256个/每个卷组逻辑分区(LP)32512个/每个逻辑卷AIX系统逻辑卷:Paging Space:/dev/hd6,用于存储虚拟内存中信息的固定的磁盘空间Journal Log:/dev/hd8,用于记录系统中文件系统结构的改变Boot LV:/dev/hd5,用于系统启动映象的物理上连续的磁盘空间AIX系统文件系统:/(root):系统启动进程所需的重要的系统设备信息及应用程序的存储空间/usr:/dev/hd2,系统命令、信息库以及应用程序的存储空间/var:/dev/hd9var,系统的日志文件和打印数据文件的存储空间/home:/dev/hd1,系统中用户数据的存储空间/tmp:/dev/hd3,系统临时文件和用户工作的存储空间3.2LVM操作命令:# lsvg 查看系统中属于活动VG的LV的信息# lslv 查看属于指定LV的信息时,系统将给出指定LV的LP数及其拷贝数。
IBM 主机系统维护内容及操作指导
1.IBM RS6000小型机机房要求:
1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2.温度(摄氏℃)
10 ℃-40℃
湿度(%)
8% -80%
2.设备故障灯分类:•
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
7133磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户
4.有否发给root用户的错误报告(mail):
#mail
1.观察所有未读消息,注意有关diagela的消息。
2.常用命令:
h [<num>] Display headings of group containing message <num>
t [<msg_list>] Display messages in <msg_list> or current message.
n Display next message.
q Quit
3.对发现的问题详细分析,结果报告给客户
5.件系统的检查:
命令:
# df –k
%Used为文件系统的使用率。
所有文件系统的使用率不能大于80%
6.磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
6.信系统的检测:
1.网卡的状态
命令:
#ifconfig –a
输出判断:
en0:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT>
inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255
en1:
flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT>
inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255
主备网卡的flag为UP属正常。
同时检查ip地址和netmask是否正确。
2.路由的检测
命令:
#lsattr –El inet0
authm 65536 Authentication Methods True hostname h24 Host Name True gateway Gateway True route net,,0,172.16.23.81 Route True
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
3.络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
RAID 的Hotspare 属性是否打开
#smitty ssaraid Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
8.系统DUMP设置的检查
命令:
#sysdumdev –l
输出判断:
结果应为
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
若不正确请用下列命令修改:
#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull
10.系统硬件诊断:
命令顺序为:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
11.补丁程序(PTF)的检查
1.系统维护补丁版本为ML09,检查命令为:#instfix –i |grep ML
12. HACMP的启动和停止切换
1.HACMP的正常启动和停止
#smitty clstart
#smitty clstop
2.HACMP的手工切换测试
在进行手工切换测试时候,必须保证两台主机的Cluster 服务都正常启动
#smittty clstop
将“* Select an Action on Resource Groups“的值按TAB功能键修改为“* Move Resource Groups”,按回车键确定。
3.HACMP的状态检测
#tail –f /tmp/hacmp.out 检查HACMP的启动过程和状态
#lsvg –o 检查共享的卷组状态
#df –g 检查文件系统的状态
#ifconfig –a 检查网络状态
13.检查DS4700存储阵列的状态
(1)首先设置管理客户端的IP地址在192.168.128.0的网段内,DS4700存储阵列两个控制器的默认IP地址:
控制器A: 192.168.128.101
控制器B:192.168.128.102
(2)启动运行Storage Manager 9 Client软件,进入到如下界面,检查存储阵列的工作状态。
(3)检查存储阵列部件的工作状态,可以检查控制器阵列电源、风扇、电池、GBIC 模块等的工作状态。
(3)查看存储系统的日志文件系统信息
从菜单“Advanced”>>”Troubleshooting”>>”View Event Log”;。