十大X86服务器常见故障——硬件篇
- 格式:doc
- 大小:465.50 KB
- 文档页数:9
服务器硬件故障排除的常见方法和技巧服务器作为承载网站、应用程序等重要业务的关键设备,一旦发生硬件故障,就会导致服务中断或运行异常,给用户和业务带来严重影响。
本文将介绍一些常见的服务器硬件故障排除方法和技巧,帮助管理员及时解决问题,确保服务器的稳定运行。
一、电源故障排除在服务器硬件故障排除的过程中,电源故障是最常见的问题之一。
以下是一些常见的电源故障排除技巧:1. 检查电源插头和电源线是否松动或损坏,确保良好的电源接触。
2. 使用电源测试仪检测电源输出电压是否稳定,是否满足服务器要求。
3. 若服务器有冗余电源,尝试更换备用电源槽,检查是否解决问题。
4. 检查服务器主板上的电源插口和连接线路,确保连接正常可靠。
二、硬盘故障排除硬盘是服务器的核心组件之一,也是故障率较高的部件。
以下是一些常见的硬盘故障排除方法:1. 使用硬盘检测工具(如硬盘检测工具箱)扫描硬盘,检测并修复坏道、坏扇区等问题。
2. 检查硬盘连接线路是否松动或损坏,确保连接正常。
3. 若硬盘有异常噪音或震动,可能是硬盘硬件故障,应及时更换硬盘。
4. 注意定期备份数据,以防硬盘故障导致数据丢失。
三、内存故障排除内存故障可能导致服务器崩溃、运行缓慢等问题。
以下是一些常见的内存故障排除方法:1. 使用内存测试工具(如MemTest86+)对服务器进行内存测试,检测是否存在故障。
2. 检查内存条是否插紧,接触良好。
3. 若出现频繁的蓝屏或主动重启,可能是内存故障,可以尝试更换内存条。
4. 避免过度分配内存资源,确保服务器内存使用在合理范围内。
四、CPU故障排除CPU是服务器的主要计算核心,一旦出现故障会直接影响服务器的正常运行。
以下是一些常见的CPU故障排除方法:1. 使用CPU温度监测工具(如Core Temp)检测CPU温度是否过高,若温度超过安全范围,需及时清理散热器,并更换散热硅脂。
2. 检查CPU风扇是否运转正常,确保散热效果良好。
3. 检查CPU插座和连接线路是否松动或损坏,确保连接正常可靠。
了解常见的服务器故障及解决方法服务器是现代网络世界中不可或缺的重要设备,它承担着存储数据、提供服务、传输信息等重要功能。
然而,由于各种原因,服务器在运行过程中可能会出现各种故障,给网络运行和数据安全带来风险。
因此,了解常见的服务器故障及解决方法对于保障网络稳定运行至关重要。
一、硬件故障硬件故障是服务器故障中比较常见的一种情况。
硬件故障可能包括主板故障、硬盘故障、电源故障等。
当服务器出现硬件故障时,首先需要进行硬件检测,确定具体故障原因,然后采取相应的解决方法。
1. 主板故障主板是服务器的核心组件之一,一旦主板出现故障,服务器将无法正常运行。
主板故障可能导致服务器无法启动、无法识别硬件等问题。
解决主板故障的方法一般是更换主板,确保新主板与服务器兼容,并进行相应的配置。
2. 硬盘故障硬盘是服务器存储数据的关键部件,硬盘故障可能导致数据丢失、系统崩溃等严重后果。
在硬盘故障时,可以尝试使用数据恢复工具进行数据恢复,如果无法修复,需要更换新的硬盘,并进行数据备份和恢复操作。
3. 电源故障电源故障可能导致服务器无法正常供电,造成服务器无法启动或突然关机等问题。
解决电源故障的方法是更换故障电源,确保新电源符合服务器的电源需求,保证服务器正常供电。
二、软件故障除了硬件故障外,服务器还可能出现各种软件故障,如操作系统崩溃、应用程序错误等。
软件故障可能导致服务器无法正常运行、服务中断等问题。
以下是一些常见的软件故障及解决方法:1. 操作系统崩溃操作系统是服务器的核心软件,一旦操作系统崩溃,服务器将无法正常运行。
在操作系统崩溃时,可以尝试使用系统恢复工具进行修复,如果无法修复,需要重新安装操作系统,并进行数据备份和恢复操作。
2. 应用程序错误应用程序错误可能导致服务器上的某些服务无法正常运行,影响用户体验。
在应用程序错误时,可以尝试重新启动应用程序或重启服务器,如果问题仍然存在,需要检查应用程序配置和日志,找出问题原因并进行修复。
服务器硬件故障排除指南解决常见硬件问题在处理服务器硬件故障时,准确的故障排除和解决方法是至关重要的。
本文将为您提供一份服务器硬件故障排除指南,帮助您解决常见的硬件问题。
一、引言服务器硬件故障可能会给系统稳定性和运行效率带来重大影响。
及时识别和解决这些问题对确保服务器正常运行至关重要。
下面将介绍几个常见的服务器硬件问题和解决方法。
二、电源问题电源问题是服务器硬件故障中最常见的一个。
当服务器无法启动或突然断电时,首先要检查电源连接是否正常。
确保电源线连接牢固且插头没有松动。
如果电源连接正常,还可以尝试更换电源线和插座进行排除。
当电源连接完好无误时,也有可能是服务器电源本身出现故障。
此时建议联系技术支持或维修人员进行更深入的排查和修复。
三、硬盘故障硬盘故障可能导致数据丢失和系统崩溃。
在排除硬盘故障时,可以进行以下步骤:1. 确认硬盘的连接和电源是否正常。
检查SATA或SCSI线缆是否插紧,排除连接问题。
2. 如果硬盘被识别但无法正常工作,尝试重新格式化硬盘。
在这之前,确保备份了重要数据,以免数据丢失。
3. 如果硬盘无法被识别,可以试着更换数据线或尝试将硬盘连接到其他可用的接口上。
4. 如果上述步骤无效,有可能是硬盘本身故障。
此时,建议联系厂商或专业技术人员进行进一步诊断和修复。
四、内存问题内存故障可能导致服务器运行缓慢或出现系统错误。
以下是解决内存问题的一些建议:1. 检查内存条是否正确插入到插槽中,并确保插槽固定良好。
2. 如果服务器启动时会发出蜂鸣声,那么可能是内存条损坏。
尝试更换内存条并重新测试。
3. 可以使用内存测试工具来检测内存是否存在问题。
这些工具可以帮助您发现损坏的内存模块。
4. 如果仍然存在问题,可能需要将故障内存模块替换为新的。
五、处理器问题处理器故障可能导致服务器运行缓慢或出现系统崩溃。
以下是解决处理器问题的一些建议:1. 检查处理器是否被正确插入到插槽中,并确保散热器安装牢固。
2. 确保处理器风扇正常工作,维持处理器的温度在可接受范围内。
服务器硬件故障排除的常见问题和解决方法近年来,随着互联网的快速发展和技术的推进,服务器成为了现代企业不可或缺的一部分。
然而,服务器硬件故障时有发生,这给企业的正常运营带来了很大的困扰。
本文将为您介绍一些常见的服务器硬件故障问题,并提供相应的解决方法,帮助您更好地排除这些问题。
一、电源故障电源故障是服务器硬件故障中最常见的问题之一,可能导致服务器无法正常启动。
解决电源故障的方法如下:1. 检查电源连接:确保服务器的电源线正确连接,插头没有松动或损坏。
尝试使用其他电源线或插头来排除故障可能性。
2. 替换电源:如果电源线没有问题,可能是电源本身出现故障。
可以尝试替换故障电源,使用备用电源来启动服务器。
3. 检查UPS电源:如果服务器连接了UPS备用电源,检查UPS电源的工作状态,确保其能够正常提供电能。
如果UPS电源故障,尝试将服务器直接连接到市电,并联系服务商进行维修。
二、硬盘故障硬盘故障是另一个常见的服务器硬件问题,可能导致数据丢失或无法读取。
下面是解决硬盘故障的一些方法:1. 检查连接:检查硬盘的数据和电源连接是否牢固。
如果连接松动,重新连接并确保牢固。
2. 数据恢复:如果硬盘故障导致数据丢失,您可以尝试使用数据恢复软件来恢复丢失的数据。
但请注意,如果硬盘受到物理损坏,最好将其交给专业的数据恢复服务提供商进行处理。
3. 替换硬盘:如果硬盘严重损坏,无法修复或数据恢复失败,考虑替换故障硬盘。
在替换前,备份服务器上的数据是非常重要的。
三、内存故障内存故障可能导致服务器变慢甚至崩溃。
以下是解决内存故障的几种方法:1. 重新插拔内存:先尝试重新插拔内存条,确保它们正确连接。
有时候,只是松动的内存条会造成故障。
2. 更换内存槽:如果重新插拔内存无效,尝试将内存条与其他可用的内存槽进行互换。
这可以帮助您确定是否是内存槽本身出现了问题。
3. 替换故障内存:如果确认是内存条本身出现故障,考虑替换故障的内存条。
确保选择与服务器兼容的内存并按照正确的安装步骤进行安装。
服务器硬件故障诊断服务器是现代网络世界中不可或缺的重要设备之一。
它的稳定运行对于企业、组织以及个人用户都至关重要。
然而,由于各种原因,服务器可能会遇到硬件故障。
本文将介绍服务器硬件故障的常见问题和诊断方法,以帮助管理员和技术人员快速准确地解决这些问题。
一、电源问题服务器的电源问题是导致硬件故障的常见原因之一。
电源故障可能导致服务器无法启动或者突然关机。
要解决这个问题,首先需要检查电源插头是否连接稳固,以及电源线是否受损。
如果问题仍然存在,可以尝试更换电源线或电源适配器。
二、硬盘故障硬盘故障是另一个常见的服务器硬件故障。
硬盘故障可能导致数据丢失或无法访问服务器。
要诊断硬盘故障,可以先检查硬盘是否被正确连接。
如果连接正常,可以使用硬盘健康检测工具来检测硬盘的状态。
如果硬盘被检测出有问题,需要及时备份数据并更换硬盘。
三、内存问题内存故障也是导致服务器运行异常的常见原因。
当内存故障发生时,服务器可能会变得缓慢或者频繁重启。
要诊断内存故障,可以使用内存测试工具来检测内存的状态。
如果有错误被检测出来,需要更换故障的内存条。
四、散热问题散热问题是导致服务器硬件故障的潜在原因。
当服务器散热不畅时,硬件可能会受到过热的影响而损坏。
为了解决散热问题,需要确保服务器周围有足够的空间和通风。
此外,可以清洁服务器内部的风扇和散热片,以保持良好的散热效果。
五、其他故障除了以上提到的硬件故障外,服务器还可能面临其他各种问题,比如主板故障、网卡故障等。
对于这些故障,可以根据具体情况进行诊断和处理。
对于复杂的故障,建议寻求专业的技术支持。
总结服务器硬件故障是服务器运行过程中不可避免的一部分。
通过正确的诊断方法,管理员和技术人员可以快速准确地解决这些问题,确保服务器的稳定运行。
在处理硬件故障时,需要保持耐心和细心,遵循正确的操作步骤,并及时备份重要数据。
最重要的是,定期维护服务器硬件,以减少故障的发生。
服务器硬件故障排除指南在现代信息技术领域中,服务器硬件故障是一种非常常见的问题。
当服务器出现硬件故障时,会导致系统崩溃、数据丢失甚至服务中断。
为了帮助用户正确、迅速地排除服务器硬件故障,本指南提供了一系列可操作的解决方案。
以下是一些常见的硬件故障及其排除方法:1. 电源问题:- 现象:服务器无法启动或意外断电。
- 解决方法:首先确保电源线连接牢固,并确认电源插座正常。
如果问题仍然存在,可能是由于电源供应单元故障。
此时,您可以尝试更换电源供应单元或联系厂商进行维修。
2. 硬盘故障:- 现象:服务器无法读取或写入数据,出现噪音或其他异常声音。
- 解决方法:首先检查硬盘电缆是否连接正确,确保其与主板和电源连接牢固。
如果问题仍然存在,您可以尝试重新插拔硬盘连接器,并使用其他电缆进行测试。
如果硬盘严重受损,您可能需要更换硬盘或者联系专业人员进行数据恢复。
3. 内存问题:- 现象:服务器频繁死机、运行缓慢或出现蓝屏。
- 解决方法:首先确认内存条是否正确插入插槽中,并确保它们没有松动。
您可以尝试将内存条一个个地移动到另一个插槽中,以排除插槽问题。
如果问题仍然存在,可能是由于内存损坏。
您可以尝试更换内存条,或者使用内存测试工具进行检测。
4. CPU故障:- 现象:服务器频繁重启或无法启动,CPU温度异常高。
- 解决方法:首先检查CPU散热器是否正常工作,清理灰尘或更换故障散热器。
如果问题仍然存在,可能是由于CPU故障。
此时,您可以尝试更换CPU或者联系厂商进行检修。
5. 网络适配器问题:- 现象:服务器无法连接到网络,无法进行数据传输。
- 解决方法:首先检查网络适配器电缆是否连接牢固,并确保网络设备工作正常。
您可以尝试重新插拔电缆,或者更换另外一个端口进行测试。
如果问题仍然存在,可能是由于网络适配器故障。
此时,您可以尝试更换网卡或者联系厂商进行修复。
请注意,以上列举的只是一些常见的服务器硬件故障及其排除方法,如果问题无法通过上述方法解决,建议您寻求专业的技术支持或联系服务器供应商进行进一步的故障排除与修复。
服务器硬件故障排除服务器是现代企业中不可或缺的一部分,它负责存储和处理大量的数据,并提供给用户访问服务。
然而,由于各种原因,服务器硬件故障可能会发生,这将对企业的运营和用户体验产生严重的影响。
因此,及时且准确地排除服务器硬件故障至关重要。
本文将介绍一些建议和技巧,帮助您识别和解决服务器硬件故障。
1. 了解常见的服务器硬件故障在排除服务器硬件故障之前,了解一些常见的故障类型是很重要的。
常见的服务器硬件故障包括:1.1 电源故障:服务器无法启动或突然关机。
1.2 硬盘故障:硬盘损坏导致数据丢失或无法读取。
1.3 内存故障:系统崩溃或运行缓慢。
1.4 CPU故障:服务器性能下降或无法启动。
1.5 网络卡故障:无法连接到网络或网络速度慢。
2. 观察服务器指示灯和日志服务器通常配备了指示灯,用于标识硬件运行状态。
观察这些指示灯是否正常可以给我们一些线索。
例如,电源灯熄灭可能表示电源故障,硬盘灯闪烁可能表示硬盘故障。
此外,查看服务器日志也有助于了解故障发生的原因和时间。
通过分析日志,您可以确定是否有硬件故障的痕迹。
3. 执行自检程序大多数服务器都内置了自检程序,可以帮助检测和修复硬件故障。
在服务器启动过程中,按照屏幕上的提示进入自检程序。
自检程序会自动检测硬件并报告任何问题。
如果有任何问题被发现,自检程序会尝试修复它们,或者提供相应的建议。
4. 检查电源供应电源故障是服务器硬件故障中最常见的问题之一。
排除电源故障的第一步是检查电源供应是否正常连接,并且没有明显的物理损坏。
您可以尝试使用不同的电源线或插头来排除供电问题。
此外,使用电压表测量电源输出的电压是否符合规范。
如果有电源问题,您可能需要更换电源或者联系供应商进行维修。
5. 检查硬盘和内存硬盘故障和内存故障可能会导致服务器性能下降或崩溃。
为了检查硬盘和内存的状态,您可以使用硬件诊断工具或者操作系统自带的工具。
这些工具可以帮助您检测并修复硬盘和内存故障。
如果检测到硬盘故障,及时备份数据是非常重要的。
服务器故障及解决方案服务器故障是网络运营中常见的问题,它可能会导致网站或应用程序的不可用性,影响整个系统的稳定性和可靠性,因此服务器故障处理至关重要。
服务器故障通常分为硬件故障和软件故障两类,下面我们详细介绍一些常见的服务器故障和解决方案。
一、硬件故障1. 电源故障电源故障是服务器硬件故障中最常见的一种,常见的问题包括电源线损坏、电源开关损坏、电源自身损坏等。
如果服务器不能开机或停电,首先需要检查电源是否正常。
如果是电源线的问题,可以更换电源线;如果是电源开关的问题,可以更换电源开关;如果是电源自身问题,则需要更换故障电源。
2. 硬盘故障硬盘故障是服务器故障中较为严重的一种,因为它很容易导致数据丢失。
如果硬盘发出不正常的声响或突然停止工作,需要立即重启服务器并进行诊断。
如果硬盘在监视程序中显示错误,可以使用特殊程序来修复或重建硬盘分区表。
如果硬盘已经停止工作,需要更换故障的硬盘,并在操作系统控制台中重新安装并配置重要的数据。
3. CPU故障CPU 故障的表现有很多种,例如服务器不能启动、系统运行缓慢、计算异常等。
如果 CPU 温度过高或风扇故障可能会导致 CPU 故障,可以检查风扇是否工作正常,如果不正常则可以更换风扇。
如果 CPU 故障严重,需要更换故障的 CPU。
二、软件故障1. 操作系统崩溃操作系统崩溃可能会导致服务器崩溃。
可以尝试使用操作系统修复工具手动修复文件系统损坏。
如果损坏过于严重,可能需要重新安装操作系统。
2. 数据库故障数据库故障可能会导致数据丢失和数据不一致。
可以使用数据库管理软件重启数据库,如果重新启动后仍然出现问题,可以使用备份和还原数据库的方法来修复故障。
3. 网络故障网络故障可能导致浏览器无法访问网站,可以首先检查网络连接是否正常,检查域名服务器是否正确配置。
如果问题仍然存在,则可能需要重启服务器或路由器。
结论服务器故障是企业运营中普遍的问题,它可能会导致严重的业务中断和数据丢失,因此及时处理服务器故障至关重要。
服务器硬件故障排除与维修在如今的数字化时代,服务器扮演着连接互联网与用户之间的桥梁的重要角色。
然而,出现硬件故障是常见的情况。
本文将讨论服务器硬件故障的排除与维修方法,帮助读者解决这些问题。
一、服务器硬件故障的种类服务器硬件故障的种类繁多,其中包括但不限于以下几个方面:1. 电源故障:电源问题是服务器硬件故障的常见原因之一。
电源故障可能导致服务器无法正常开机,或者在运行时突然死机。
2. 硬盘故障:硬盘是服务器存储数据的关键部件。
硬盘故障可能导致数据丢失、读写失败或无法访问。
3. 内存故障:服务器的内存承载着临时存储和运行程序所需的数据。
内存故障可能导致运行速度缓慢、蓝屏或系统崩溃。
4. CPU故障:CPU是服务器的大脑,处理数据和指令。
CPU故障会导致服务器性能下降、程序错误或无法启动。
5. 电源供应问题:服务器需要稳定可靠的电源供应。
供电不稳定或不足可能导致服务器工作异常。
二、服务器硬件故障排除步骤当服务器遇到硬件故障时,我们可以采取以下步骤进行排除。
1. 确认故障现象:首先,我们需要仔细观察服务器的表现,如是否频繁死机、发出异常声音或报错信息。
了解故障现象有助于判断问题所在。
2. 检查电源连接:确认服务器与电源插座连接稳固,排除电源线路问题。
3. 确认硬件连接:检查硬盘、内存、CPU等组件是否正确安装,是否有松动或损坏。
4. 进行诊断测试:借助系统管理软件或服务器自带的诊断工具,进行硬件测试,识别故障的具体位置。
5. 换位测试:如果系统管理软件未能明确指出问题,可以尝试将组件相互交换位置,如更换内存插槽,以验证是否是特定部件故障。
6. 更新驱动程序和固件:及时更新服务器的驱动程序和固件有助于提高系统的稳定性和兼容性,解决一些已知的硬件故障问题。
7. 寻求专业故障诊断:如果以上步骤无法解决故障,建议联系厂家的技术支持或专业服务人员进行故障排查,以获得更专业的帮助。
三、服务器硬件故障维修方法当确定服务器出现硬件故障后,我们可以考虑以下方法进行维修。
服务器硬件故障排除实战技巧常见问题与解决方法在计算机网络中,服务器硬件故障是一种经常遇到的问题。
当服务器遇到硬件故障时,会导致系统崩溃、服务中断等严重后果。
因此,了解服务器硬件故障的常见问题以及相应的解决方法,对于网络管理员和系统维护人员来说是非常重要的。
本文将介绍一些常见的服务器硬件故障,并提供实战技巧与解决方法。
一、电源问题电源问题是服务器硬件故障中最常见的问题之一。
服务器可能会出现电源无法启动、电源丢失电压、电源不稳定等问题。
当遇到这些问题时,我们可以尝试以下解决方法:1.检查电源插头是否松动或断裂,确保电源线缆连接良好。
2.确认服务器的电源开关是否开启并验证电源插座是否正常供电。
3.使用电源测试仪来检测电源的输出电压,确保电源工作正常。
4.如果发现电源故障,及时更换或修复。
二、硬盘故障硬盘是服务器中存储数据的重要组件,一旦硬盘出现故障,可能会导致数据丢失或系统崩溃。
以下是一些常见的硬盘故障及其解决方法:1.硬盘被物理损坏:当硬盘遭到撞击或移动时,可能会导致物理损坏。
此时,建议先停止使用该硬盘,并寻求专业人员的帮助来修复硬盘。
2.硬盘坏道:使用磁盘检测工具来扫描硬盘,并修复或替换有坏道的扇区。
3.硬盘读写速度慢:可以尝试使用硬盘碎片整理工具来清理硬盘碎片,同时检查是否有恶意软件占用硬盘资源。
三、内存故障内存是服务器中用于存储和运行程序的关键组件。
当内存出现问题时,可能会导致系统崩溃或程序运行异常。
以下是一些常见的内存故障及其解决方法:1.内存不兼容:在服务器升级或更换内存时,要确保新的内存兼容原有的硬件配置。
如果发现内存不兼容,应及时更换合适的内存条。
2.内存过热:内存长时间高负载工作可能会导致过热。
可以尝试安装散热器或风扇来降低内存温度。
3.内存条脱落或松动:检查内存条是否牢固连接在插槽上。
如果有松动或脱落的情况,可以重新插上内存条并确保插槽锁紧。
四、电路板故障电路板是服务器中连接各个硬件组件的重要部分,而电路板故障可能是由于长时间使用、灰尘积累或不当使用导致。
十大X86服务器常见故障——硬件篇∙摘要:由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。
用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过……∙标签:X86服务器常见故障说起X86平台的CPU,我们可能会如数家珍的报出N多种,Inter的至强5600、至强7500,AMD强劲的12核心x86处理器--“Magny-Cours”(马尼库尔)等等。
在它的基础上,辅以带ECC、ChipKill、热插拔技术的内存;防止数据异常丢失的RAID硬盘;提供不中断电力供应的冗余电源等等共同构建出一个完整的X86服务器。
由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。
因此,X86应该算是我们广为熟知的架构了。
用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过……硬件故障篇Top10 网卡服务器网卡故障回放:近几日,内网用户通过代理服务器进行连接时不太稳定,ping的速度有时低于1ms,有时高达500多ms,数值相差之大也说明了网络时好时坏。
起先判断是蠕虫病毒作祟,但经过详细筛查,确定非病毒引发的故障;再对网线进行测试,衰减、串扰、回波损耗等各项技术指标都在正常指标之内,最后更换网卡故障才得以解决。
解决方案:我们知道一款优秀的网卡除了拥有高速率外,还需要关注2个技术指标,TOE(TCPOffloadEngine,TCP减负引擎)技术和RSS(Receive-sideScaling接收端调节)技术,它们能大幅减轻CPU的资源,解决了输入/输出流(I/O)的瓶颈,使网络吞吐大幅提升,这两项技术可以使系统的响应指标的TPS值能提升2.1到2.5倍,所以一块好的网卡是保证服务器快速、稳定连接的保障。
一般来说,网卡出现故障的状况较低,即便是损坏也可以使用独立网卡代替,它的危害程度也不是很高。
危害程度:★★控制难度:★综合评定:★☆Top 9 风扇服务器风扇组故障回放:某服务器经常死机或者自行重启,在排除了软件隐患后,把目光转向了硬件平台。
检测CPU、硬盘的温度,全部超出标准,旋即拆开服务器,热气涌出,原是机箱内的风扇坏掉了,温度升高导致系统不稳定。
解决方案:降低机箱内的温度主要是改变热传导率系数,塔式服务器通过增加风扇物理数量和加快风扇转速来引动气流的循环,排除热量。
效果非常好,噪音非常大;机架式和刀片式服务器由于空间有限则利用新型的“智能风扇”系统来控制空气的流动。
这种风扇以“组”的方式出现,每个“组”包括两个串联而成的冗余风扇,它们通过智能IC芯片来实时监控风扇的转速和服务器内部的温度,温度过高时,智能芯片调高风扇的转速以抑制热量升高;低功耗运行时智能风扇系统将会自动降低风扇的转速,减轻能耗的排放;而如果其中一个冗余风扇损坏,另外一个风扇会将其自身转速提高一倍,完全弥补风扇停转引起的风速不足情况,大大提高了服务器的稳定性和可靠性。
危害程度:★★控制难度:★★综合评定:★★Top 8 电源模块服务器电源模块故障回放:某日清晨,刚刚走进机房就感觉一股热浪迎面扑来,查看温湿度表,显示室内温度已经超过了35℃,原因是空调系统短路,上一层的空气开关跳闸,导致机房温度急剧上升。
立即检查所有服务器,基本上都正常工作,只有一台代理服务器出现了蓝屏,重启服务器,更换内存都无法恢复,并且重装系统过程中也同样蓝屏。
解决方案:对CPU、主板、内存、硬盘进行详细诊断,全部正常,对电源进行测试,发现电压输出非常不稳定,将其拆开,一颗滤波电容已经漏液,想必是机房温度升高,电源负载过重,高频整流滤波电路内的二极管被击穿所致,尽管尚能供电,却是非常的不稳定。
立即寻找同型号的电源予以置换,服务器得以恢复正常。
为了保证今后此类故障不在出现,所有服务器全部配备了冗余电源,一旦出现电源模块损坏的故障可以立即恢复,大大降低了危害程度。
危害程度:★★★控制难度:★★☆综合评定:★★☆Top 7 CPU服务器处理器故障回放:笔者曾经有一台基于Intel双核至强3040核心的服务器,开机无显示,系统指示灯疯狂的闪烁,怀疑是CPU与主板的接触不良,将其更换到多路服务器主板的另外一个CPU插槽之上,依旧没有反应。
解决方案:经测量,CPU电压居然降至1付以下,原来是CPU的VRM(VoltageRegulatorModule,电压调节模块)出现了故障,不能执行主板上DC电路转换,无法为CPU提供稳定的工作电压,只能更换CPU。
这个故障是比较致命,CPU的损坏将直接导致整个服务器的不可用,但是CPU本身的安全性是非常高的,故障率极低。
所以在日常维护任务中,由于CPU的损坏导致的服务中断较为少见,它的危害程度不算太高,如果是多路服务器更是不用担心CPU损坏而带来的服务器宕机了。
危害程度:★★★☆控制难度:★★☆综合评定:★★★Top 6 内存mini服务器内存故障回放:一台2GB*2内存的服务器,由于自身承载的服务过多,服务器的处理数据的速度越来越慢,于是,另购2条同型号的内存条来升级服务器。
将这些内存全部插入主板后,系统检测只有6GB,另外2GB内存神秘消失,反复的插拔新的内存依旧无法正常检测。
解决方案:带着疑问查阅服务器的官方网站,终于得出结论,该服务器的内存插槽是配对使用,1-4、2-5、3-6、7-10、8-11、9-12,新内存插在了2、3槽,无法形成配对,自然只能检测出一条内存,将内存插到5槽,8GB内存顺利被检测。
服务器内存的优势不仅仅体现在性能上,她在容错能力同样投入很多精力,目的是为整个平台提供高稳定环境,很多内存采用的ECC(ErrorCorrectingCode,错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性,使各个内存条和插槽之间能更好的融合。
危害程度:★★★☆控制难度:★★★综合评定:★★★☆Top 5 硬盘故障回放:某服务器近期经常出现死机、无征兆的重启,经数据中心IT运维人员进行检测后发现是硬盘工作时间太长,出现了物理坏道。
于是立即将此硬盘拆下,将硬盘内的数据导出,结果在转移数据的过程中,不停地弹出I/O错误,这直接导致数据转移的速度非常慢,且丢失了很多重要数据。
解决方案:这种情况多数是磁头或者盘片出现了错误。
联系专业的数据恢复公司,拆开硬盘,果然是盘片出现了划伤,好在划伤面积并不大,更换磁头后重新恢复数据,恢复了95%以上的数据,算是比较好的结果了。
这个故障发现的及时,在盘片没有出现更多物理损伤前予以解决,如盘片损坏严重,数据将永久性丢失,为了避免这种状况的发生我们需要做到以下几点:选择质量上乘的服务器硬盘,比如:平均无故障时间超过1600000小时,年故障率低于0.55%,抗震方面要有300G/2ms的以上的耐冲击能力等等;关键服务器采用RAID模式,比如:RAID5,它由至少3块硬盘组成,在向硬盘写入数据信息的同时,还写入校验信息,当其中有1块硬盘出现故障时,可以根据算法从另外2块硬盘上得出这块故障硬盘的数据,安全性大大提高。
危害程度:★★★☆控制难度:★★★☆综合评定:★★★☆Top 4 RAID故障回放:某企业更换新的数据中心,服务器需要逐步迁移,一台文件服务器成为先行者。
这是一台采用的RAID1容灾策略的服务器,迁移过程中没有任何问题,但是使用不久一次雷暴天气后服务器异常关闭,经检测防雷系统并没有起到应有的作用,导致服务器两块硬盘同时损坏。
解决方案:对于RAID1来说,只能允许一块硬盘的损坏,当2块硬盘同时损坏后,数据将全部丢失,对于RAID3、5来说同样如此;而对于RAID6,虽然支持两块硬盘同时掉线,但是第三块盘再度掉线后,系统将也将全面崩溃!上述故障数据将是不可逆性恢复,由此可见RAID技术虽好,仍有一些弊端,因此对于极其重要的服务器我们不仅仅要做出RAID的策略,还要将核心数据同步备份到其他介质,比如:磁带、磁盘等。
危害程度:★★★☆控制难度:★★★★☆综合评定:★★★★Top 3 主板故障回放:根据日志的记录,Wsus服务器在凌晨2点宕机了,回滚当日监控录像和环境记录,没有任何异常,起初怀疑是病毒或者策略等软件因素造成的意外状况,但是重启服务器时却是另外一番景象。
开机→风扇转动,电源模块指示灯狂闪→尚未自检,随即再次启动→电源模块指示灯再次闪烁,如此周而复始。
解决方案:更换CPU、内存插槽,更换电源模块,插拔硬盘,故障依旧,将这些设备放置到同型号的服务器上,没有任何问题。
于是怀疑主板损坏,联系厂家工程师,经检测确实是主板故障,更换主板后恢复正常。
同CPU一样,主板的故障率是比较低的,但是它的危害程度却远高于CPU,对于多路服务器来讲,单一CPU 的损坏并不会影响整个服务器的运转,我们失去的或许只是性能和速度;而对于主板,它几乎没有替代品,只能依靠厂家的更换,因此它的危险性较高。
危害程度:★★★★控制难度:★★★★★综合评定:★★★★☆Top 2 静电防静电、雷击的UPS已普及故障回放:一间极为普通的机房内,春节过后,准备手动升级病毒库,刚刚触摸服务器,瞬间一个电火花出现,紧接着服务器死机了,重新启动服务器很多数据莫名其妙的丢失。
解决方案:不要小看这电火花,当人体接触金属物质产生电火花时,人体的静电电压已经超过3000伏,而硬盘只需1000伏左右的静电就会造成数据丢失,因此防静电工作务必做好,如今机房最为普遍、最为简便的防静电措施就是铺设防静电地板,它不仅能过滤很多的静电,在防火、防潮、防锈方面也起到很大作用,保护效果非常明显。
另外,闪电、雷暴等自然灾害也会造成硬件的损坏,这要破坏要远远高于静电,所以保护硬件安全也需要部署B/C级防雷。
危害程度:★★★★☆控制难度:★★★★★综合评定:★★★★☆Top 1 不明原因的故障故障回放:有故障现象,无故障原因解决方案:类似的事情有很多,比如说系统蓝屏,可能是软件冲突,也可能是病毒,还可能是内存,亦有可能是主板电容爆掉……,面对这种故障我们很难第一时间与以判断,这个时候我们就需要在综合的角度进行考量。
首先重装系统,排除软件的故障;然后,逐一替换系统硬件,排除硬件故障的可能性;如问题依旧就需要考察服务器的应用环境是否正常,比如电力供应是否满足需求,温湿度是否在正常指标之内,机房的洁净度是否合规,服务期内的灰尘是否太多等等。
很多时候故障出现的时间并不固定,短则几分钟,长则数天,没有任何规律,对于我们排错和控制造成了很多麻烦,但是细心+耐心总能找出问题的关键点,最终解决。
危害程度:★★★★★控制难度:★★★★★综合评定:★★★★★除了硬件部分,笔者还特意总结了X86服务器软件层面的十大故障分析。
对此感兴趣的读者请关注51CTO 系统频道的《十大x86服务器常见故障——系统篇》。