IBM-x 系列服务器报修及日常维护指南
- 格式:pdf
- 大小:227.63 KB
- 文档页数:17
附件六IBM小型机日常操作维护手册目录一、报修 (3)二、开关机 (3)1 开机 (3)A 无分区: (3)B 有分区: (3)2 关机 (4)A 无分区 (4)B有分区 (4)三、日常维护 (4)四、系统备份(仅rootvg备份) (6)一、报修如果碰到硬件或者软件故障,请打IBM 800免费报修电话IBM硬件报修电话8008106677IBM软件报修电话8008101818-5004报修前需要准备:1)机器序列号(如9117-570 06348DA)2)客户单位3)客户联系人及电话4)机器所在城市5)问题描述6)相关日志二、开关机1 开机A 无分区:1)检查电源是否插好2)液晶面板出现“OK”字样,指示灯2秒钟闪烁一次,表示机器此时处在关机状态。
3)按下前面板上白色按钮后,主机会进入硬件自检和引导阶段;液晶面板会显示开机过程码,每一代码表示自检或引导的不同阶段,引导结束时,液晶面板代码消失,终端上有显示,进入AIX操作系统初始化,最后会出现登录提示。
4)如果主机长时间停留在某一代码上(大于20分钟),说明主机或操作系统有故障,请打IBM硬件保修电话8008106677,并提供相关代码。
B 有分区:5)检查电源是否插好6)在HMC中看Service Management里面对应服务器的状态,应为Power off状态7)选中对应的服务器,选中Power On, 选项为Partition to Standby,点击OK8)主机开始硬件自检,启动结束后,在HMC中看到对应的服务器为Standby状态9)选中该主机的对应分区,点击“Active”,启动分区2 关机A 无分区1)停应用2)shutdown -F停操作系统,如果机器全分区,液晶面板会显示停机过程码,最后出现“OK”字样,指示灯2秒钟闪烁一次。
表示停机过程结束。
如果只是需要重新启动,用“shutdown -Fr”命令。
B有分区1)停相关分区应用2)shutdown -F停相关分区3)在HMC中选中对应的服务器,选中Power Off,点击OK4)对应服务器的状态最终应为Power off状态三、日常维护首先对于机器的日常维护来说,要先观察机器的黄色报警灯是否亮起,如果报警灯亮起则登入操作系统使用以下的步骤进行查看:1)#errpt –dH(查看硬件错误日志,一般关心P、H类型的错误)ERROR_IDENTIFIER TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION0E017ED1 0405131090 P H mem2 Memory failure其中,TIMESTAMP代表日期,以MMDDhhmmYY格式;如0319131008表示2008年3月19日13时10分T(Type)一栏中,P表示永久性错误,T 表示零时性错误,U 表示不能决定是什么错误,I 表示信息而非错误。
日常维护手册一.AIX操作系统常用命令1系统开关机AIX引导分为多用户(NORMAL)和单用户(SERVICE)引导两种。
多用户(NORMAL)引导:在主机液晶面板显示“OK”情况下,按下主机前面板的白色电源按钮;单用户(SERVICE)引导:将AIX第一张系统光盘放入CDROM,按下主机前面板的白色电源按钮,在屏幕出现显示后,第二声喇叭声响起之前,按下“5”键。
系统关机命令及顺序:1.将应用顺序及数据库系统停止;2.利用#shutdown指令;2设备查看命令a)lsdev命令该命令用来查看系统设备信息。
#lsdev –Cc 设备类型常用的设备类型有:processor, disk, adapter, tape,memory, tty等。
b)lspv命令用来查看系统硬盘信息。
#lspv 硬盘名用来查看具体硬盘的信息,#lspv -l 硬盘名用来查看硬盘上逻辑卷信息,#lspv –p 硬盘名查看该硬盘物理分区的信息。
c)lscfg命令该命令用来查看设备配置信息。
#lscfg –vl 设备名d)lsattr命令该命令用来查看设备的属性信息。
#lsattr -El设备名3逻辑卷操作命令a)lsvg该命令用来查看系统定义的VG(卷组)。
#lsvg -o查看系统当前激活的VG (卷组)。
#lsvg VG名查看该VG(卷组)的信息,包括PP大小、多少,已使用(分配)的空间,自由空间大小等信息。
#lsvg -l VG名查看该VG(卷组)已经定义的逻辑卷。
#lsvg -o |lsvg -il列出所有系统mount上的逻辑卷。
4文件系统操作命令a)lslv该命令用来列出该逻辑卷所有属性。
b)smitty crjfs该命令用来创建一个文件系统。
c)mount该命令用来查看已安装的文件系统。
#mount 文件系统名用来安装一个文件系统。
#mount -a用来安装所有定义的文件系统#unmount 文件系统名用来卸载一个文件系统。
AIX简单故障维护手册由于IBM RS6000机器机型多,出现故障的情况有很多种类。
为了规范故障维护步骤,简化维护过程,编写本手册以供参考。
由于AIX故障种类多,不能一一列举,这里简单介绍部分故障判断,定位,解决方法。
一.故障的定义.弄清楚系统发生了什么问题?.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。
检查机器是否存在故障一般情况下,可以通过以下几种方法来收集错误信息1、查看机器各种指示灯状态机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。
当指示灯的状态不正常时,需要引起注意。
比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。
2、查看系统故障记录收集信息errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。
故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。
也可以使用errpt 命令来查看(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久;T 临时; U 未知(永久性的错误应引起重视)P:Permanent;T:Temporary;U:Unknow。
关于IBMX3650M2日常维护注意事项对于一个初次接触IBM X3650M2服务器的用户来说,可能会比较迷茫,怎么来维护这台服务器。
其实维护IBM服务器很简单,只需注意下面一些事项就可以。
1、机房环境机房的环境,对于服务器来讲是一个不小的影响环境。
灰尘,温度,湿度,电压对服务器的性能和稳定性都是比较大的影响。
所以机房最好是干净,灰尘少,温度在20左右,电压要稳,还要防静电,防火,防潮。
2、散热方面很多用户都以为服务器是上下散热。
X3650M2服务器是采用从前面吸冷风进,经服务器从后面出热风,所以最好不要挡住服务器的前面和后面,确保服务器散热流畅。
3、定期巡检很多用户觉得把机放在机房里,装好了用应就OK了,就再不去过问这台机器了。
只有等机器宕机了,或出现严重的故障是才去机房。
其实IBM服务哪个部件有问题,会通过前面板光通路诊断的告警灯来提醒你,告警灯的颜色为桔黄色。
如下图的为前面的面板。
提前发现问题,提前处理,能减少我们很大影响。
所以定期巡检机房是很有必要的。
4、故障分析如果发现机器故障灯,也不用慌。
首先把前面的光通路诊断的面板拉出来,看面板上是哪个部分亮的告警灯。
如上图,面板上有一排一排的文字,在机器的上面盖板上有对应的解释,解释每个告警是哪个部件出了故障,利于快速定位故障。
当你还不知道怎么处理的时候,也不用着急,可以拔打我们的技术热线:83697192,或打IBM800热线:8008101818,但你没有把握处理故障,请不要随便拆机处理。
5、软件环境保证帐户安全,网络上的安全不受攻击,及时给系统打全补丁。
目录IBM System x3650 M2 7947 型 (1)3650M2前视图 (1)X3650M2操作员信息面板 (3)光通路诊断面板 (4)后视图 (5)IBM System x3650 M3 7945 型 (7)x3650m3正视图 (7)X3560m3操作员信息面板 (8)光通路诊断面板 (9)电源部分&指示灯 (15)IBM System x3650 M4 7915 型 (18)IBM System x3650M4正视图 (18)操作员信息面板 (19)X3650M4光通路诊断面板 (20)服务器电源功能 (27)IBM System x3500 M4 7383 型服务器 (29)X3500M4正视图 (31)X3500M4光通路诊断 (33)3500M4光通路诊断指示灯 (35)3500M4 后视图 (40)IBM System x3650 M2 7947 型3650M2前视图下图显示了服务器前部的控件、接口和硬盘驱动器托架。
硬盘驱动器活动指示灯:每个热插拔硬盘驱动器都具有一个活动指示灯。
当该指示灯闪烁时,表示该驱动器正在使用中。
硬盘驱动器状态指示灯:每个热插拔硬盘驱动器都具有一个状态指示灯。
当该指示灯点亮时,表示该驱动器发生了故障。
如果该指示灯缓慢闪烁(每秒闪烁一次),表示正在将该驱动器重新构建为RAID 配置的一部分。
当该指示灯快速闪烁(每秒闪烁三次)时,表示控制器正在识别该驱动器。
视频接口:将显示器连接到该接口。
可同时使用服务器前部和后部的视频接口。
USB 接口:这两个USB 接口可以连接USB 设备,如USB 鼠标、键盘或其他USB设备。
操作员信息面板:该面板包含控件、指示灯和接口。
有关操作员信息面板上的控件和指示灯的信息,请参阅第10 页的『操作员信息面板』。
机架释放滑锁:按下这些滑锁可以从机架上卸下服务器。
CD/DVD 弹出按钮:按该按钮可从CD-RW/DVD 驱动器中取出CD 或DVD。
IBM X系列服务器操作手册Ver.目录规范及流程篇错误!未定义书签。
服务器技术篇错误!未定义书签。
一、X系列服务器简介错误!未定义书签。
二、IBM阵列卡错误!未定义书签。
1、分类错误!未定义书签。
2、配置RAID(以ServeRAID 8i为例)错误!未定义书签。
三、收集日志错误!未定义书签。
1、DSA日志错误!未定义书签。
日志错误!未定义书签。
3、BMC日志错误!未定义书签。
四、故障排除错误!未定义书签。
1.故障排除步骤及技巧错误!未定义书签。
2、DASD故障错误!未定义书签。
五、必备工具错误!未定义书签。
规范及流程篇服务器技术篇一、X系列服务器简介众所周知,IBM的服务器产品线非常丰富齐全,从入门级到大型机,一应俱全。
打开IBM的官方网站,IBM给我们带来的第一印象就是——拥有如此多的专业产品可供选择。
总体来看,IBM 服务器家族目前共有4条产品线:基于 Intel 架构的服务器 x系列(xSeries,近日IBM已经升级推出基于AMD皓龙处理器的5款新品)、中型企业级服务器i系列(iSeries)、UNIX 服务器p 系列 (pSeries)和大型主机z系列(zSeries)。
这四大系列基本都包括了从入门级到企业级的各种档次的服务器产品,在结构上也全面包括了塔式、机架式、刀片和机柜式。
IBM eServer xSeries系列服务器是IBM服务器品牌之一。
eServer xSeries服务器得名于IBM工业标准服务器经典的“X-架构”,是eServer家族中支持开放工业标准的代表,它是由原来的Netfinity 系列发展而来的。
下面我们将用一组数据为标题,来简要描述IBM x系列的发展历程:1)9年历史IBM在1998年提出X系列服务器设想,到现在已经有9年历史。
而使x系列真正意义上进入到应用领域,还是到了2001年之后。
相比较IBM大型机的诞生时间,x系列所关注的目标是面向中小企业,因此要比面向金融行业的大型机稍晚一些。
IBM 主机系统维护内容及操作指导1.IBM RS6000小型机机房要求:1.机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2.温度(摄氏℃)10 ℃-40℃湿度(%)8% -80%2.设备故障灯分类:•主机故障灯面板上不能有数字显示,如果有的话,说明系统有故障。
7133磁盘阵列故障灯告警灯为黄色表示有故障磁带机故障灯告警灯为黄色说明有故障或磁带机太脏,须清洗。
3.系统错误报告(Error Log)的检查:硬件故障检测命令:# errpt -d H -T PERM若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户软件故障检测命令:# errpt -d S -T PERM若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户4.有否发给root用户的错误报告(mail):#mail1.观察所有未读消息,注意有关diagela的消息。
2.常用命令:h [<num>] Display headings of group containing message <num>t [<msg_list>] Display messages in <msg_list> or current message.n Display next message.q Quit3.对发现的问题详细分析,结果报告给客户5.件系统的检查:命令:# df –k%Used为文件系统的使用率。
所有文件系统的使用率不能大于80%6.磁带机清洁的检查:命令:#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
6.信系统的检测:1.网卡的状态命令:#ifconfig –a输出判断:en0:flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT>inet 192.9.200.2 netmask 0xffffff00 broadcast 192.9.200.255en1:flags=e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,G ROUPRT,64BIT>inet 192.9.201.1 netmask 0xffffff00 broadcast 192.9.200.255主备网卡的flag为UP属正常。
建行IBM小型机日常维护第一篇:日常维护部分第二篇:故障处理部分第三篇:安图特公司技术支持第一篇日常维护部分目录第1章AIX系统管理日常工作(检查篇) (1)1.1 常用的命令 (1)1.2 语法介绍 (1)1.2.1 vmstat:检查存、CPU、进程状态 (1)1.2.2 sar:检查CPU、IO (2)1.2.3 PS:检查进程状态命令 (3)1.2.4 svmon:显示进程占用存 (3)1.2.5 iostat:显示磁盘IO (4)1.2.6 netstat, entstat:显示网卡信息 (4)1.2.7 no:显示tcpip参数设置 (5)1.2.8 其它命令 (5)第2章AIX系统管理日常工作(LV篇) (6)2.1 IBM AIX系统管理的日常工作 (6)2.1.1 开关机步骤 (6)2.1.2 用户组及用户管理 (6)2.1.3 文件系统维护 (6)2.1.4 系统日常管理 (7)2.1.5 系统备份 (7)2.1.6 定时清洗磁带机 (7)2.1.7 定时检查设备指示灯状态 (7)2.1.8 简单故障的判断 (7)2.1.9 熟悉ibm aix操作系统 (7)2.2 关于IBM AIX的逻辑卷管理 (7)2.3 LVM命令 (8)第3章AIX系统管理日常工作(关键参数检查篇) (10)3.1 AIO参数检查 (10)3.2 磁盘阵列QUEUE_DEPTH参数检查 (11)3.3 用户参数检查 (11)3.4 激活SSA F AST-W RITE C ACHE (12)3.5 IO参数设置 (12)3.6 SYNCD DAEMON的数据刷新频率 (12)3.7 检查系统硬盘的镜像 (12)第4章AIX系统管理日常工作(性能分析篇) (13)4.1 性能瓶颈定义 (13)4.2 性能围 (14)第5章AIX系统管理日常工作(SHUTDOWN篇) (14)5.1 概念 (14)5.2 关机命令 (14)第6章AIX系统管理日常工作(备份与恢复篇) (15)6.1 用SMIT备份 (15)6.2 手工备份 (15)6.3 恢复系统 (15)第7章HACMP的双机系统的管理和维护 (15)7.1 HACMP双机系统的启动 (15)7.2 HACMP双机系统的关闭 (16)7.3 察看双机系统的当前状态 (16)7.4 HACMP环境下的排错 (17)7.4.1 了解问题的存在 (17)7.4.2 判断问题的出处 (18)第1章AIX系统管理日常工作(检查篇)1.1常用的命令1.2语法介绍1.2.1vmstat:检查存、CPU、进程状态# vmstat 1 15kthr memory page faultscpu----- ----------- ------------------------------------ -----------r b avm fre re pi po fr sr cy in sy csus sy id wa1 0 28132 81277 0 0 0 0 0 0 132 375 67 65 1 342 0 28132 81277 0 0 0 0 0 0 127 338 131 99 0 02 0 28132 81277 0 0 0 0 0 0 132 316 131 99 0 02 0 28132 81277 0 0 0 0 0 0 120 317 99 0 0 02 0 28132 81277 0 0 0 0 0 0 146 316 127 99 0 02 0 28132 81277 0 0 0 0 0 0 130 317 125 99 0 02 0 28132 81277 0 0 0 0 0 0 316 127 99 0 0 02 0 28132 81277 0 0 0 0 0 0 129 317 124 99 0 02 0 28132 81277 0 0 0 0 0 0 304 127 99 0 0 0r:正在运行的进程b:被阻挡的进程avm:活动的虚存,单位4kbfre:自由列表,位4kbpo:页换出pi:页换入sy:系统占用CPUid:空闲CPUwa:等待的CPU1.2.2sar:检查CPU、IO例如:sar -u 1 30sar -P ALL 1 10语法:sar -[abckmqruvwyA] inteval repetition-b buffer 活动-c 系统调用-k 核进程统计.-m 消息及信号量活动-q 正在运行的队列数及等待队列数-r 页交换统计-u CPU利用-P CPU负载.1.2.3 PS:检查进程状态命令ps:显示当前SHELL重所有进程ps -ef :显示系统中所有进程,-f显示更详细信息ps -u oracle:显示oracle用户进程ps –emo THREAD:显示线程信息ps au;ps vg:按使用时间显示进程(最近一次调用)ps aux:按使用时间显示进程(进程启动)1.2.4 svmon:显示进程占用存svmon –G:显示系统占用存svmon -C command_name:显示某个用户进程占用存svmon -P pid显示某个进程占用存svmon –S:显示段占用存1.2.5iostat:显示磁盘IOtty: tin tout avg-cpu: % user % sys % idle %iowait0.0 4.0 0.9 1.3 95.4 2.5Disks: % tm_act Kbps tps Kb_read Kb_wrtnhdisk0 58.4 218.3 41.2 172 920hdisk1 16.8 85.6 21.4 428 0hdisk2 50.6 223.9 55.6 1100 20hdisk3 16.8 85.6 21.4 428 0hdisk4 0.0 0.0 0.0 0 0hdisk5 43.4 279.1 69.8 1396 0hdisk6 0.0 0.0 0.0 0 0hdisk7 16.4 27.2 20.2 0 136hdisk8 0.0 0.0 0.0 0 0hdisk9 9.4 156.0 11.4 0 780hdisk10 16.4 27.2 20.2 0 136cd0 0.0 0.0 0.0 0 01.2.6n etstat, entstat:显示网卡信息netstat en0:显示en0信息netstat –s:显示网络信息netstat -m显示网络 buffers.netstat -i显示网卡状态netstat -I en0 1显示eno网卡塞(1秒间隔)1.2.7n o:显示tcpip参数设置no –a:显示tcpip所有参数当前设置no -o tcp_keepalivetime=7200000设置tcp_keepalivetime等于3600000秒no -d 恢复默认值注:该方法在重启后失效1.2.8其它命令第2章AIX系统管理日常工作(LV篇)2.1IBM AIX系统管理的日常工作系统管理员对小型机系统的正确管理是系统稳定运行的保障,作为系统管理员应注意以下几个方面:2.1.1开关机步骤在系统管理员控制下进行正确的操作。