服务器维修基本技术手册
第一章服务器维修的基本原则和注意事项
§1.1基本原则:
1、先想后做。
先想好怎么做,再实际动手。先分析判断,再进行维修。
2、不懂要问。
不确定的情况,要查资料,咨询同事,TS L2,TAM后,才动手。
3、先外后内。
先观察使用周围环境。设备位置、电源、连接、其它设备、温度与湿度是否正常。
之后看设备故障的现象。显示的内容,及它们与正常情况下的异同。
再看设备内部情况。灰尘、是否腐蚀、连接、器件的颜色、部件的形状、指示灯的状态等。
最后看设备的软硬件配置安装了何种硬件,资源的使用情况;使用的是使种操作系统,其上又安装了何种应用软件;硬件的设置驱动程序版本等。
4、先软后硬。
先检查软件问题,当可判软件环境是正常时,如果故障不能消失,再从硬件方面着手检查。
5、分清主次。
在复现故障现象时,有时可能会看到一台故障机不止有一个故障现象,而是有两个或两个以上的故障现象(如:启动过程中无显,但机器也在启动,同时启动完后,有死机的现象等),为时,应该先判断、维修主要的故障现象,当修复后,再维修次要故障现象,有时可能次要故障现象已不需要维修了。
§1.2 注意事项
一、需要提醒客户备份数据
二、准备充足的服务器拆装工具和防止静电设备.
三、维修前充分观察客户使用环境和相关的软件状况
四、对于复杂的客户应用环境,需要客户配合做相关操作,例如服务器的开关操作及应用关闭
五、拆装部件时的观察:要有记录部件原始安装状态的好习惯
六、加电过程中的观察:元器件的温度、异味、是否冒烟等;
六、请求技术支持之前需要提供详细的硬件软件状态及已经完成详细操作过程和相关日志
第二章常见故障判断和维护方法
一、服务器加电类故障 No Power
1、检测服务器面板指示灯和电源指示灯,及服务器开关指示灯;
2、查看电源所连接的电源线;
3、针对服务器电源冗余配置,尝试做交换检测
4、服务器最小化操作及服务器Nvram清除
5、观察服务器电源及内部备件是否有冒烟等现象发生
6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新
二、服务器自检类故障 No Post
1、检测服务器是否有得到电源供应
2、查看服务器前面板的具体报错信息,并且针对错误信息做相关操作
3、针对服务器外部连接设备做移除操作
4、服务器最小化操作及服务器Nvram清除
5、针对服务器启动的主要备件做插拔及最小化操作
6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新
三、服务器内存故障
1、检测服务器前面板是否有内存错误,并且收集DSET和SA日志
2、服务器Nvram清除
3、针对服务器故障内存做重新插拔操作
4、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新
四、服务器死机及不稳定故障
1、收集服务器DSET和SA及操作系统的日志
2、查看服务器安装的应用软件
3、尽量在客户同意下升级Bios/BMC FW/Driver到最新
4、移除服务器上第三方硬件并且最小化及服务器Nvram清除
5、针对服务器启动的主要备件做插拔及最小化操作
6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新
五、服务器阵列卡和硬盘故障
1、收集服务器当前的阵列信息和硬盘配置及槽位,并且收集服务器DSET和TTY日志
2、在操作系统能够正常启动的时候,确保服务器的数据备份
3、尽量在条件允许和客户的同意下检测HD及SCSI/SAS/SATA等数据线和链路状况
4、更换故障备件,如果更换硬盘要确保有处在重建状态,并且要和客户沟通了解重建结果
5、如果服务单有针对硬盘的FW操作,需要做相关操作
6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新
六、服务器阵网络故障
1、检测服务器网卡的安装情况,是否有松动及网卡指示灯,并且做网线的检测
2、在操作系统下做网络Ping操作,并且检测IP配置,网卡Duplex 和Speed配置情况
3、尽量在条件允许下检测服务器BIOS里面的网卡配置,及网卡诊断
4、更换网卡所连接的外部HUB和交换机的端口,网线更换.直连服务器网卡
5、尝试直连服务器网卡, 排除网络设备引起的问题
6、尝试操作系统下更新网卡驱动和FW
7、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新
七、服务器及磁带机故障
1、检测服务器1启动过程和操作系统下正确识别到磁带机设备
2、在操作系统下尝试更新磁带机的驱动,有条件可以清洁磁带机
3、如果是使用第三备件软件,收集备份软件的日志
4、针对磁带机经常卡带,保证磁带机的FW是最新
5、针对带库磁带设备, 收集日志和相关的错误信息
6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新
八、服务器及磁盘存储故障
1、针对服务器和所连接的磁盘存储,掌握基本的关开系统的操作
2、基本掌握磁盘存储的管理配置和使用,及相关日志的收集方法
2、针对磁盘的维护,参考服务器阵列卡和硬盘故障
3、对于服务器和磁盘存储的复杂问题, 及时了解故障情况,多收集信息
4、强调备份数据的重要性
5、针对复杂问题及不能修复的问题,及时和技术支持联系
6、更换故障备件做检测,并且升级Bios/BMC FW/Driver到最新