AIX故障排除--LED解释
- 格式:doc
- 大小:293.00 KB
- 文档页数:10
RS/6000小型机故障的基本定位方法一故障的定义.弄清楚系统发生了什么问题.系统现在能做什么?不能做什么?.故障什么时候发生的?.有没有做平时不同的操作?.故障有没有规律?定时还是不定时?发生的频率有多高?.是一台机器出现故障还是多台机器故障?故障现象是否相同?.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设臵。
二故障信息的收集1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。
2)系统故障记录(errorlog)errdemon进程在系统启动时自动运行记录包括硬件、软件及其他操作信息故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年)T(类型): P 永久; T 临时; U 未知(永久性的错误应引起重视)C(分类): H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)控制面板上的LED 代码.8 位代码,通常系统故障灯会同时亮起。
启动故障诊断本文包括下面的内容:引导过程概述;MCA和PCI两种总线结构类型主机引导过程的区别;AIX引导过程的第一阶段——配置基本设备;AIX引导过程的第二阶段——激活rootvg;AIX引导过程的第三阶段——配置其余的设备;常见主机引导故障及解决方法。
主机引导问题是最常见的故障,本文首先概括引导过程的各个阶段,之后针对每个阶段及该阶段出现的led代码展开详细的说明和讨论。
(现在所有的RS/6000主机都配置有一块PANEL,并在启动过程的每个步骤显示相应的3位LED代码)1. 引导过程概述 (1)2. BIST-POST (2)2.1 MCA系统 (2)2.2 PCI系统 (4)3. 引导第一阶段 (6)4. 引导第二阶段 (6)4.1 LED代码551、555、557 (8)4.2 LED代码552、554、556 (8)4.3 LED代码518 (9)4.4 alog命令 (9)5. 引导第三阶段 (10)5.1 /etc/inittab文件 (11)5.2 LED代码553 (11)5.3 LED代码C31 (12)5.4 LED代码581 (12)6. 错误日志中与引导有关的错误 (13)7. 总结 (14)7.1 启动阶段总结 (14)7.2 LED代码综述 (14)1. 引导过程概述引导的过程与主机的硬件平台有关,尤其在初始阶段,PCI和MCA两种总线类型的主机有比较大的区别,这种不同影响到对不同硬件架构造成的引导故障要采取相应不同的解决方法。
正常的引导流程如图1:传统的MCA的RS/6000与现在的PCI系统在引导过程中存在差别。
首先介绍MCA系统。
2.1 MCA系统在MCA系统引导过程中,首先执行的是BIST,这些测试程序储存在EPROM芯片中,并仅对主板上的部件进行测试,BIST过程中显示的LED代码范围是100~195,之后执行POST。
POST的任务是找到一个保存完好BLV的硬件设备,bootlist中所有的设备都会被测试,该过程中显示的LED代码范围是200~2E7,如果期间出现软件或硬件故障都将导致引导过程中断。
LED显示屏常见故障及其排除方法在使用LED显示屏的过程中,常会遭遇一些故障。
以下将列举一些常见的故障,并提供相应的排除方法。
这些故障包括:1.显示屏无法启动:在启动时,显示屏没有反应或者只有一部分屏幕亮起。
-检查电源:确保电源连接正确并且没有松动。
检查电源线是否损坏,如果需要,请更换电源线。
-检查控制卡:检查控制卡是否连接正确。
确认电源开关是否打开。
尝试重新插拔控制卡。
-检查信号线:确保信号线连接正确并且没有松动。
尝试更换信号线。
2.显示屏中出现黑点或亮点。
-清洁屏幕:使用专门的屏幕清洁剂和柔软的布清洁屏幕表面。
避免使用化学溶剂或者硬物品清洁屏幕。
-更换模块:如果清洁无效,可能是像素点出现故障。
尝试更换故障模块。
3.显示内容杂乱或模糊。
-调整分辨率:确认计算机或播放设备的输出分辨率与显示屏的分辨率匹配。
尝试调整码率和刷新率。
-更换信号线:可能是信号线出现问题。
尝试使用新的高质量信号线。
4.显示屏颜色不均匀或出现色差。
-检查光源:确认光源是否正常工作。
尝试更换光源。
-调整颜色设置:有些LED显示屏可以手动调整颜色设置。
尝试调整颜色平衡和对比度。
5.显示内容闪烁。
-调整刷新率:尝试调整刷新率以适应显示屏的要求。
-检查电源:检查电源供应是否稳定。
尝试使用稳定的电源。
6.部分显示区域无法正常显示。
-检查模块连接:检查模块之间的连接是否正确。
尝试重新插拔模块。
-重启显示屏:尝试重启显示屏以重新加载显示内容。
7.显示屏出现闪屏、重影或者卡顿。
-检查信号线:检查信号线是否连接稳定。
尝试更换信号线。
-更新驱动程序:确保计算机或者播放设备的相关驱动程序是最新的版本。
总结起来,对于大多数LED显示屏故障,我们应该首先检查电源、控制卡和信号线是否正常连接,然后尝试调整相关设置。
如果问题仍然存在,我们可以考虑更换故障的模块或者更换相关设备。
最重要的是定期维护和保养LED显示屏,避免灰尘、水分或者其他物质进入显示屏内部,严格控制使用环境的温度和湿度。
LABLE:事件名称IDENTIFIER:事件IDDate/Time:发生的时间Sequence Number:事件序列号Machine ID:机器标识Node ID:节点标识Class:事件来源S-软件H-硬件I-信息U-未定的Type:事件类型PEND-设备或组件的可用性损失是急迫的。
PERF-设备或组件的性能已下降到可接受的级别以下。
PERM-出现了不可恢复的情况。
如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。
如果错误类型为PERM 之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。
TEMP—在出现多次不成功的尝试之后,所恢复到的状态。
这种错误类型也可以用于记录信息性条目,如 DASD 设备的数据传输统计信息。
UNKN—无法确定错误的严重程度。
INFO—错误日志条目是信息性的,并且不是某个错误所产生的结果。
Resource Name:检测到错误的资源的名称。
对于软件错误,这是某个软件组件或可执行程序的名称。
对于硬件错误,这是某个设备或系统组件的名称。
它并不表示该组件出现故障或者需要更换。
相反,它用于确定合适的诊断模块以用于对错误进行分析。
Resource Class:检测到故障的资源的一般类别(例如,磁盘的设备类别)。
Resource Type:检测到故障的资源的类型。
Location Code:设备的路径。
最多可能有四个字段,分别是抽屉、插槽、连接器和端口。
VPD:关键的产品数据。
这个字段的内容(如果存在)可能各不相同。
设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。
Description:错误的汇总信息。
Probable Cause:一些可能的错误原因的列表。
User Causes:由用户错误所导致错误的可能原因的列表。
用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。
如何解决AIX的文件系统故障网络服务器-电脑资料在进行文件系统维护和管理过程中,会碰到这样一些问题,例如无法安装文件系统或者无法拆卸文件系统,当文件系统的超级块被破坏,而无法正常使用文件系统,如何修复rootvg中的主要文件系统,下面就讨论如何解决一些常见的文件系统问题,。
一、恢复超级块错误在进行文件系统维护和管理过程中,会碰到这样一些问题,例如无法安装文件系统或者无法拆卸文件系统,当文件系统的超级块被破坏,而无法正常使用文件系统,如何修复rootvg中的主要文件系统,下面就讨论如何解决一些常见的文件系统问题。
一、恢复超级块错误有些用户在使用fsck或mount命令时,当见到下面的提示信息时,可能是文件系统的超级块出了问题:<PRE>fsck: Not an AIX3 file systemfsck: Not an AIXV3 file systemfsck: Not an AIX4 file systemfsck: Not an AIXV4 file systemfsck: Not a recognized file system typemount: invalid argument</PRE>例如,当用户安装一个/allenfs文件系统时,出现下面的错误提示:<PRE>#mount /allenfs</PRE>mount: 0506-324 Cannot mount /dev/lv1 on /allenfs: A system call received a parameter that is not valid.修复该文件系统时,出现下面错误提示,并异常终止:<PRE>#fsck /dev/lv1Not a recognized filesystem type. (TER<strong>MI</STRONG>NATED)</p><p> </PRE>要解决这个问题,只能用备份的超级块来恢复主超级块,我们都知道,在文件系统中,1号逻辑块是主超级块,31号逻辑块是备份超级块,因此就把31号逻辑块上的内容写到1号逻辑块上去。
AIX操作系统错误日志及日常维护一、系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192ACror logging turned off038FTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 <--- ERROR_ID用大小写均可,例:LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <--- Virtal Product DataDevice Driver Level (00)Diagnostic Level (00)Displayable Message.........SCSIEC Level....................C25928FRU Number..................30F8834 Manufacturer................IBM97FPart Number.................59F4566Serial Number (00002849)ROS Level and ID (24)Read/Write Register Ptr (0120)DescriptionADAPTER ERRORProbable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICEFailure CausesADAPTERCABLE LOOSE OR DEFECTIVERecommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK CABLE AND ITS CONNECTIONSDetail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000二、控制面板上的LED 代码.8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代码.4 位代码通常是Exxx.3 位代码通常为0yyy 只看后3位.8 位和4位代码可查看系统服务手册 (Service Guide)3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System).闪动的 888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容888-102 一般为软件故障888-102-207 例外系统会产生一个dump888-102-xxx-0C9 系统正在做dump, 请等待888-102-xxx-0C0 系统dump完成可关电重启888-103 或 105硬件故障一般有 SRN 代码及位置代码三、其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A...lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020....100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERNET address Trueip_gap 96 Inter-Packet Gap Truelscfg 查看VPD信息Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTIONssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500)Part Number.................097H0645FRU Number..................097H0645 <-- 备件号Serial Number...............C8217227EC Level....................0000F20825 Manufacturer................IBM053ROS Level and ID............7201 <-- 微码版本Loadable Microcode Level (04)Device Driver Level (00)Displayable Message.........SSA-ADAPTERDevice Specific.(Z0)........DRAM=032Device Specific.(Z1)........CACHE=0Device Specific.(Z2)........000000062955dab2Device Specific.(YL)........P2-I7 <-- 槽号不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号。
RS/6000液晶显示屏上显示代码(LED)的含义本文介绍RS/6000启动过程中机器上的液晶显示屏代码的含义。
本文代码不针对具体机型。
IPL ROM CRC comparison error (irrecoverable).RAM POST memory configuration error or no memory found (irrecoverable).RAM POST failure (irrecoverable).Power status register failed (irrecoverable).A low voltage condition is present (irrecoverable).IPL ROM code being uncompressed into memory.End of bootlist encountered.RAM POST is looking for 1M bytes of good memory.RAM POST bit map is being generated.L2 cache is not detected. (The display shows a solid 21c for 5 sec)IPL control block is being initialized.NVRAM CRC comparison error during AIX.IPL(Key Mode Switch in Normal mode).Reset NVRAM by reaccomplishing IPL in Service mode. For systems with an internal, direct-bus-attached(DBA)disk,IPLROM attempted to perform an IPL from that disk before halting with this three-digit display value. Attempting a Normal mode IPL from Standard I/O planar attached devices specified in NVRAM IPL Devices List.Attempting a Normal mode IPL from SCSI attached devices specified in NVRAM IPL Devices List.Note: May be caused by incorrect jumper setting for external SCSI devices or by incorrect SCSI terminator.REFER FFC B88Attempting a Normal mode restart from 9333 subsystem device specified in NVRAM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in NVRAM IPL Devices List.Attempting a Normal mode restart from Ethernet specified in NVRAM device list.Attempting a Normal mode restart from Token Ring specified in NVRAM device list. Attempting a Normal mode IPL from NVRAM expansion code.Attempting a Normal mode IPL from NVRAM IPL Devices List; cannot IPL from any of the listed devices, or there areno valid entry in the Devices List.Attempting a normal mode IPL from FDDI specified in NVRAM IPL device list.Attempting a Normal mode restart from adapter feature ROM specified in IPL ROM devices list. Attempting a Normal mode restart from Ethernet specified in IPL ROM devices list.Attempting a Normal mode IPL from Standard I/O planar attached devices specified in Rom Default Device List.Attempting a Normal mode IPL from SCSI attached devices specified in IPL ROM Default Device List.Attempting a Normal mode restart from 9333 subsystem device specified in IPL ROM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in IPL ROM Default Device List.Attempting a Normal mode restart from Ethernet specified in IPL ROM default devices list. Attempting a Normal mode restart from Token Ring specified in IPL ROM default device list. Attempting a Normal mode restart from Token Ring specified by the operator.System failed to restart from the device chosen by the operator.Attempting a normal mode IPL from FDDI specified in IPL ROM device list.Attempting a Service mode restart from adapter feature ROM.Attempting a Normal mode IPL from devices specified in the NVRAM IPL Devices List.Unknown tape drive being identified or configured. Unknown display being identified or configured. Unknown input device being idenor configuredUnknown adync device being idenor configured。
AIX和ASMI中消除報警燈a重置告警灯状态1、使用root用户登陆系统,执行“diag”命令,回车继续;2、看到“Press the F3 key to exit or press Enter to continue.”时,回车继续3、选择“Task Selection”,回车继续;4、选择“Log Repair Action”,回车继续;5、选择“sysplanar0”,回车;6、此时“sysplanar0”前面会出现一个“+”号;7、按“F7”或者“ESC+7”提交;8、看到“Use Enter to continue.”时,回车继续;9、此时“sysplanar0”前面的“+”号会变成“*”号;10、按“F10”离开“diag”。
黄色警示灯应该熄灭。
如果没有,请联系IBM支持。
/usr/lpp/diagnostics/bin/usysfault -s normal您好,通过HMC熄灭p5叹号灯:1. 首先登录进入到HMC的管理界面,将左边主菜单的Service Applications选项的“ + ”展开,然后点击Service Focal Point选项,再点击右图的Service Utilities选项。
2. 选中Service Utilities对话框中相应的服务器。
3. 点击Selected,然后再点击Launch ASM Menu选项。
4. 点击“ OK ”选项。
5. 点击Accept选项。
6. 在弹出的对话框中填入User ID :admin,Password :admin,然后点击Log in,进入服务器的ASMI菜单。
7. 点击System Configuration ->System Indicator ->SystemAttention Indicator8. 点击Turn off the system attention indicator若没有HMC,可以将PC或笔记本连接至机器后面的HMC1或HMC2,打开PC上的浏览器,输入地址:。
1.LED类1.1.LED:0C31开机时一直停在这个画面-------------------------------------------------------------------------------Welcome to AIX.boot image timestamp: 23:24 05/30The current time and date: 01:00:21 01/01/1970number of processors: 1 size of memory: 1024MBboot device: /pci@fef00000/scsi@c/sd@1,0:\ppc\chrp\bootfile.exekernel size: 12101874; 32 bit kernelkernel debugger setting: enabled-------------------------------------------------------------------------------串口线有问题。
或者没有插紧1.2.L ED:20EE000BRS6000上LED显示20EE000B的解决办法Unable to load PReP boot imageLED显示20EE000B错误原因:操作系统停止运行或者无法正常启动,主机的液晶代码显示停止在20ee000b。
这个代码表明问题可能出现在错误的引导映像文件(bootimage),系统的引导列表不正确,或者是NVRAM有问题。
具体恢复步骤:1、启动操作系统进入维护模式Start Maintenance Mode for System Recover--------------------------------- Access a Root Volume Group---------------------------------0 (继续)---------------------------------根据对应的数字从中选择出root(根)卷组---------------------------------Access this volume group and start a shell2、#lslv -m hd53、#bosboot -ad hdisk00301-153 bosboot unix not found4、#ln -sf usrlibbootunix_64unix#ln -sf usrlibbootunix_64usrlibbootunix5、#bosboot -ad devipldevice6、重启机器执行1到3步骤,然后执行7、8步7、bootlist -m normal hdisk08、shutdown -Fr光盘引导。
第一类、机房环境及物理检查一、机房内环境要求1. 温度与湿度:最佳工作温度:20-25摄氏度极限工作温度:10-40摄氏度湿度: 8-80%(在23摄氏度条件下)如果不是工作在最佳温度,请注意改善机房环境2. 同时机房要保证清洁.机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。
二、电源要求电压: 要求电压稳定, 尖峰电压会损坏设备电压范围: 220V +/- 10%, 即200-240V, 50-60Hz电源功率: 视机器类型和系统配置而定电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.三、硬件检查]检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。
服务器状态检查:1. 当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。
2. 当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。
可以通过查询相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。
7133状态检查:磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)。
1. 当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。
如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。
2. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或SSA环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁第二类、系统日常维护流程2.1系统启动系统启动正常顺序如下:首先对外设(磁盘阵列、磁带库等)加电。
本文介绍一些可以在IBM AIX® 上使用的命令,其中许多命令也可以在其他风格的UNIX® 上使用。
当您的主机与另一个主机的通信发生问题时,这些命令有助于尽可能详细地了解实际情况。
也详细讨论符合逻辑的常见问题诊断方法。
常用缩写词∙ACL: Access control list∙DNS: Domain Name System∙I/O: Input/output∙MAC: Media Access Control∙TCP/IP: Transmission Control Protocol/Internet Protocol对于本文,所有样例命令和输出中使用的目标主机系统都称为testhost。
获得更多信息根据要诊断的网络问题的性质,有时候有必要了解失败的应用程序或命令是否有详细输出、跟踪或调试选项。
例如,ssh (Secure Shell) 和 scp (Secure Copy) 命令有详细输出开关(-v),这可以提供关于客户机和服务器之间的通信、密钥交换和身份验证的大量跟踪信息(见清单 1)。
清单 1. 用提供详细输出的 ssh 会话连接远程主机# ssh —v testhostOpenSSH_4.2p1, OpenSSL 0.9.7d 17 Mar 2004debug1: Reading configuration data /opt/freeware/etc/ssh_config debug1: Connecting to testhost [10.217.1.206] port 22.debug1: Connection established.debug1: permanently_set_uid: 0/0debug1: identity file /root/.ssh/identity type -1debug1: identity file /root/.ssh/id_rsa type 1debug1: identity file /root/.ssh/id_dsa type -1debug1: Remote protocol version 1.99, remote software version OpenSSH_4.1 debug1: match: OpenSSH_4.1 pat OpenSSH*debug1: Enabling compatibility mode for protocol 2.0debug1: Local version string SSH-2.0-OpenSSH_4.2debug1: SSH2_MSG_KEXINIT sentdebug1: SSH2_MSG_KEXINIT receiveddebug1: kex: server->client aes128-cbc hmac-md5 nonedebug1: kex: client->server aes128-cbc hmac-md5 nonedebug1: SSH2_MSG_KEX_DH_GEX_REQUEST(1024<1024<8192) sentdebug1: expecting SSH2_MSG_KEX_DH_GEX_GROUPdebug1: SSH2_MSG_KEX_DH_GEX_INIT sentdebug1: expecting SSH2_MSG_KEX_DH_GEX_REPLYdebug1: Host 'testhost' is known and matches the RSA host key.debug1: Found key in /root/.ssh/known_hosts:14debug1: ssh_rsa_verify: signature correctdebug1: SSH2_MSG_NEWKEYS sentdebug1: expecting SSH2_MSG_NEWKEYSdebug1: SSH2_MSG_NEWKEYS receiveddebug1: SSH2_MSG_SERVICE_REQUEST sentdebug1: SSH2_MSG_SERVICE_ACCEPT receiveddebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Next authentication method: publickeydebug1: Trying private key: /root/.ssh/identitydebug1: Offering public key: /root/.ssh/id_rsadebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Trying private key: /root/.ssh/id_dsadebug1: Next authentication method: keyboard-interactivedebug1: Authentications that can continue:publickey,password,keyboard-interactivedebug1: Next authentication method: passwordroot@testhost's password:debug1: Authentication succeeded (password).debug1: channel 0: new [client-session]debug1: Entering interactive session.Last unsuccessful login: Wed 27 Jan 13:30:23 2010 on ssh from10.216.163.37Last login: Wed 10 Feb 16:05:48 2010 on /dev/pts/0 from 10.216.163.37 ******************************************************************************* ** ** Welcome to AIX Version 5.3! ** ** ** Please see the README file in /usr/lpp/bos for information pertinent to ** this release of the AIX Operating System. ** ** *******************************************************************************#如果可以登录进入有问题的主机(理论上,服务器无法向特定端口发送服务网络请求,但是有时候也可以在发出请求的客户机上报告错误),那么您应该在系统日志中检查相关的消息。
AIX 常见故障报错及解决方案大多数情况下,顺着报错顺藤摸瓜很快就能找出原因,但总有例外,有些报错信息或者日志恰恰让我们南辕北辙。
让我们看看这些案例最终是如何处理的……案例1:图省事,搞出来个大麻烦生产中心有几套VIOS环境,正常运行了1-2年,今日发现有2套进行健康性检查,发现执行命令就hang在哪里不动了,又是内存不够用了。
"0403-031 The forkfunction failed. There is not enough memory available."好奇怪,到底内存被谁用了,vios好端端的就这样了。
都这个样子,重启vios分区吧。
重启完,vios顺利登陆,执行健康性检查没啥问题,可是用nmon看了一下内存使用分配了4个G,使用1个多G,慢慢慢慢的就看到内存使用越来越大,不一会4个G就用完了,重启其他vios分区一个样子,连换页空间都用了。
顿时一头雾水。
到底发生了什么呢?生产中心有几套VIOS环境,正常运行了1-2年.突然出现这种问题,首先想到的是变更。
梳理了近期变更操作,近期新部署了PowerVC,VIOS进行了补丁升级。
VIOS2.1升级到VIOS2.2.3.首先,重启vios分区,在内存没有用完前赶紧检查那个进程使用的内存.排名第一的是vio_daemon,观察了一会发现内存一会就被他占用完了第二,元凶找到了,vio_daemon到底是干啥的,问问IBM800吧,IBM回复问我收集一下系统信息。
1.ioslevel2./etc/security/limits的输出反馈后,IBM告诉我,我遇到了bugvios版本和 /etc/security/limits stack = -1完全符合这个bug特征。
其实这个bug是可以避免的,我们大多数实施AIX的时候,很容易顺手把/etc/security/limits.都改成-1,在大多数情况下,没啥问题,但是就是在这个版本下就容易遇到这个问题。
aix_日常管理以及故障处理故障的处理RS6000 Admin & PD内容提要"日常管理"故障的处理"系统健康检查"查看硬件情况"检查设备故障灯,一般为橙色并有"有没有异常声响,如硬盘、风扇等。
"有没有破损的电缆等"查看系统故障信息"用errpt命令查看系统出错信息。
"用mail命令查看有否发给root用户的错误报告。
"查看其他的记录文件,如/tmp/hacmp.out。
"检查文件系统"查看有没有“满”的文件系统。
文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。
如/ (根文件系统)满则会导致用户不能登录。
"系统健康检查# df -k (查看AIX的基本文件系统)Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95%2599 22% //dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系统,其他文件系统都不应太满,一般不超过80%。
处理方法1:删除垃圾文件# du -sk * |sort -rn |head查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。
(要区分哪些目录是文件系统的mount point,哪些是文件系统的子目录)删除文件,释放空间。
有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。
只有当这个程序停止后空间才释放,有时甚至需要重起系统。
RS/6000液晶显示屏上显示代码(LED)的含义本文介绍RS/6000启动过程中机器上的液晶显示屏代码的含义。
本文代码不针对具体机型。
IPL ROM CRC comparison error (irrecoverable).RAM POST memory configuration error or no memory found (irrecoverable).RAM POST failure (irrecoverable).Power status register failed (irrecoverable).A low voltage condition is present (irrecoverable).IPL ROM code being uncompressed into memory.End of bootlist encountered.RAM POST is looking for 1M bytes of good memory.RAM POST bit map is being generated.L2 cache is not detected. (The display shows a solid 21c for 5 sec)IPL control block is being initialized.NVRAM CRC comparison error during AIX.IPL(Key Mode Switch in Normal mode).Reset NVRAM by reaccomplishing IPL in Service mode. For systems with an internal, direct-bus-attached(DBA)disk,IPLROM attempted to perform an IPL from that disk before halting with this three-digit display value. Attempting a Normal mode IPL from Standard I/O planar attached devices specified in NVRAM IPL Devices List.Attempting a Normal mode IPL from SCSI attached devices specified in NVRAM IPL Devices List.Note: May be caused by incorrect jumper setting for external SCSI devices or by incorrect SCSI terminator.REFER FFC B88Attempting a Normal mode restart from 9333 subsystem device specified in NVRAM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in NVRAM IPL Devices List.Attempting a Normal mode restart from Ethernet specified in NVRAM device list.Attempting a Normal mode restart from Token Ring specified in NVRAM device list. Attempting a Normal mode IPL from NVRAM expansion code.Attempting a Normal mode IPL from NVRAM IPL Devices List; cannot IPL from any of the listed devices, or there areno valid entry in the Devices List.Attempting a normal mode IPL from FDDI specified in NVRAM IPL device list.Attempting a Normal mode restart from adapter feature ROM specified in IPL ROM devices list. Attempting a Normal mode restart from Ethernet specified in IPL ROM devices list.Attempting a Normal mode IPL from Standard I/O planar attached devices specified in Rom Default Device List.Attempting a Normal mode IPL from SCSI attached devices specified in IPL ROM Default Device List.Attempting a Normal mode restart from 9333 subsystem device specified in IPL ROM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in IPL ROM Default Device List.Attempting a Normal mode restart from Ethernet specified in IPL ROM default devices list. Attempting a Normal mode restart from Token Ring specified in IPL ROM default device list. Attempting a Normal mode restart from Token Ring specified by the operator.System failed to restart from the device chosen by the operator.Attempting a normal mode IPL from FDDI specified in IPL ROM device list.Attempting a Service mode restart from adapter feature ROM.Attempting a Normal mode IPL from devices specified in the NVRAM IPL Devices List.Unknown tape drive being identified or configured. Unknown display being identified or configured. Unknown input device being idenor configuredUnknown adync device being idenor configured。
各系统单板指示灯含义及故障显示概述在电子设备的单板上,通常会配备一系列指示灯来显示系统运行状况和故障信息。
这些指示灯的状态和闪烁模式可以帮助用户快速判断系统的正常工作与否,以及定位可能存在的故障。
本文将介绍不同系统单板上常见的指示灯含义及故障显示方法。
1. 电源指示灯电源指示灯通常用于显示系统的电源状态。
其含义及故障显示如下:•亮(常亮):表示系统电源正常,并处于工作状态。
•熄灭:表示系统电源未接通,或者电源故障。
•闪烁:表示系统电源过载或存在其它问题,需要进一步排查。
2. CPU指示灯CPU指示灯通常用于显示系统的处理器状态。
其含义及故障显示如下:•亮(常亮):表示CPU正常工作,并处于正常负载状态。
•熄灭:表示CPU未被启动,或者存在CPU故障。
•闪烁:表示CPU工作异常,可能是由于过热或其他原因,需要检查CPU散热器或者其他硬件问题。
3. 存储指示灯存储指示灯通常用于显示系统的存储设备状态,例如硬盘或者固态硬盘(SSD)。
其含义及故障显示如下:•亮(常亮):表示存储设备正常工作,并处于读写状态。
•熄灭:表示存储设备未被识别,或者存储设备故障。
•闪烁:表示存储设备读写异常,或者存在数据传输问题,需要检查存储设备的连接或者磁盘空间是否足够。
4. 网络指示灯网络指示灯通常用于显示系统的网络连接状态,例如以太网口或者Wi-Fi连接状态。
其含义及故障显示如下:•亮(常亮):表示网络连接正常,并处于活动状态。
•熄灭:表示网络连接未启动,或者网络故障。
•闪烁:表示网络连接异常,可能是由于网络故障、数据传输问题或者接入点连接问题。
5. 故障指示灯故障指示灯通常用于显示系统的故障信息,例如系统过热、内存错误等。
其含义及故障显示如下:•亮(常亮):表示系统存在故障,并需要进行故障排查。
•熄灭:表示系统未检测到故障。
•闪烁:表示系统正在进行自检或者诊断,也可能表示存在严重的硬件或软件故障。
6. 其他指示灯除了以上常见的指示灯外,不同系统单板上还可能配备其他指示灯,用于显示特定的系统状态,例如电池电量指示灯、系统运行状态指示灯、通信指示灯等。
作为IBM AIX® 系统管理员,有时候会遇到与 LAN 或 WAN 中的问题相关或由其直接导致的问题,这是不可避免的。
在这些情况下,在求助于网络管理员之前,最好对问题进行初步诊断,这有助于识别问题的根源,至少可以给出进一步研究的大方向。
常用缩写词∙BIND:伯克利因特网名称域∙DNS:域名系统∙LAN:局域网∙RFC:请求评注∙TCP/IP:传输控制协议/互联网协议∙WAN:广域网向网络管理员求助之后,他可能要求您帮助进行分析,所以您一定要掌握相关的诊断工具。
本文介绍一些可以在 AIX 上使用的命令,其中许多命令也可以在其他风格的UNIX® 上使用,它们可以帮助解决与 TCP/IP 网络相关的问题。
对于本文,所有示例命令和输出中使用的目标主机系统都称为testhost。
有人在吗?诊断任何网络相关问题的第一步都是检查目标主机是否正在运行。
可以使用ping 检查是否可以通过网络访问某一主机(见清单 1)。
这个命令向主机发送一个 Internet Control Message Protocol (ICMP) 回显请求数据包,然后等待回显回复。
成功的 ping 意味着:∙您的主机有一个活跃的网络适配器,可以使用它发送请求。
∙目标主机正在运行,而且在您使用的 IP 地址上配置了活跃的网络适配器。
∙如果使用主机名而不是 IP 地址,就说明名称解析对于这个主机是有效的。
∙在您的主机和目标主机之间有双向路由。
∙在两个主机之间的路由上或在这两个主机上运行的防火墙不会阻挡 ICMP 通信流。
成功的 ping 的输出还有助于判断网络延迟,因为它会报告收到回显回复花费的时间。
响应时间长很可能意味着与目标主机交换数据的应用程序的性能会比较差。
清单 1. ping 一个有响应的主机# ping testhostPING testhost: (10.217.1.206): 56 data bytes64 bytes from 10.217.1.206: icmp_seq=0 ttl=253 time=0 ms64 bytes from 10.217.1.206: icmp_seq=1 ttl=253 time=0 ms64 bytes from 10.217.1.206: icmp_seq=2 ttl=253 time=0 ms64 bytes from 10.217.1.206: icmp_seq=3 ttl=253 time=0 ms----testhost PING Statistics----4 packets transmitted, 4 packets received, 0% packet lossround-trip min/avg/max = 0/0/0 ms#如果没有收到回显回复,就说明不满足上述一个或多个条件,ping 失败了(见清单 2)。
IBM 主机上清除告警黄灯方法总结机器亮黄灯告警一般是有硬件问题(单电源等可能有安全隐患的硬件配置也可能造成黄灯亮起),见到后首先进行下硬件诊断,方法如下:诊断系统,判断是否硬件故障:1、Root 用户执行 diag ;2、回车后,进第 2 项, advanced diagnostics routines;3、选 system verification ;4、选 all resources ,回车;5、按 F7(或 esc+7 )进行执行检测;6、看返回结果,是否存在故障。
如存在故障,记录故障及errpt–a,再做处理。
如无故障,或故障解决后黄灯依然不熄灭,清除警告灯。
方法一:1 、Root 用户执行 diag ;2 、回车后,进第3 项, Task Selection (Diagnostics, Advanced Diagnostics, Service Aids, etc.) ;3 、选 Identify and Attention Indicators ;(很奇怪有些机器没有这个选项,比如H50 )4 、Set System Attention Indicator to Normal 或 Set ALL Identify Indicators to NORMAL ,回车;5、按 F7(或 esc+7 )进行执行。
这招对大多数情况都有效。
方法二必杀技:执行命令# /usr/lpp/diagnostics/bin/usysfault -s normal有 HMC 控制台的,在 HMC 控制台上(连接了 HMC 控制台的貌似只能用这种办法) :选择左列的“Serivce Applications”->Serivce Focal Point右侧的 LED Management 中您可以看到 LED State ,右键可以把它从 On 状态变到 Off 状态。
RS/6000液晶显示屏上显示代码(LED)的含义
本文介绍RS/6000启动过程中机器上的液晶显示屏代码的含义。
本文代码不针对具体机型。
IPL ROM CRC comparison error (irrecoverable).
RAM POST memory configuration error or no memory found (irrecoverable).
RAM POST failure (irrecoverable).
Power status register failed (irrecoverable).
A low voltage condition is present (irrecoverable).
IPL ROM code being uncompressed into memory.
End of bootlist encountered.
RAM POST is looking for 1M bytes of good memory.
RAM POST bit map is being generated.
L2 cache is not detected. (The display shows a solid 21c for 5 sec)
IPL control block is being initialized.
NVRAM CRC comparison error during AIX.
IPL(Key Mode Switch in Normal mode).
Reset NVRAM by reaccomplishing IPL in Service mode. For systems with an internal, direct-bus-attached(DBA)disk,IPL
ROM attempted to perform an IPL from that disk before halting with this three-digit display value. Attempting a Normal mode IPL from Standard I/O planar attached devices specified in NVRAM IPL Devices List.
Attempting a Normal mode IPL from SCSI attached devices specified in NVRAM IPL Devices List.
Note: May be caused by incorrect jumper setting for external SCSI devices or by incorrect SCSI terminator.
REFER FFC B88
Attempting a Normal mode restart from 9333 subsystem device specified in NVRAM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in NVRAM IPL Devices List.
Attempting a Normal mode restart from Ethernet specified in NVRAM device list.
Attempting a Normal mode restart from Token Ring specified in NVRAM device list. Attempting a Normal mode IPL from NVRAM expansion code.
Attempting a Normal mode IPL from NVRAM IPL Devices List; cannot IPL from any of the listed devices, or there are
no valid entry in the Devices List.
Attempting a normal mode IPL from FDDI specified in NVRAM IPL device list.
Attempting a Normal mode restart from adapter feature ROM specified in IPL ROM devices list. Attempting a Normal mode restart from Ethernet specified in IPL ROM devices list.
Attempting a Normal mode IPL from Standard I/O planar attached devices specified in Rom Default Device List.
Attempting a Normal mode IPL from SCSI attached devices specified in IPL ROM Default Device List.
Attempting a Normal mode restart from 9333 subsystem device specified in IPL ROM device list. Attempting a Normal mode IPL from IBM 7012 DBA disk attached devices specified in IPL ROM Default Device List.
Attempting a Normal mode restart from Ethernet specified in IPL ROM default devices list. Attempting a Normal mode restart from Token Ring specified in IPL ROM default device list. Attempting a Normal mode restart from Token Ring specified by the operator.
System failed to restart from the device chosen by the operator.
Attempting a normal mode IPL from FDDI specified in IPL ROM device list.
Attempting a Service mode restart from adapter feature ROM.
Attempting a Normal mode IPL from devices specified in the NVRAM IPL Devices List.
Unknown tape drive being identified or configured. Unknown display being identified or configured. Unknown input device being idenor configured
Unknown adync device being idenor configured。