服务器软件故障
- 格式:pdf
- 大小:108.38 KB
- 文档页数:4
了解常见的服务器故障及解决方法服务器是现代网络世界中不可或缺的重要设备,它承担着存储数据、提供服务、传输信息等重要功能。
然而,由于各种原因,服务器在运行过程中可能会出现各种故障,给网络运行和数据安全带来风险。
因此,了解常见的服务器故障及解决方法对于保障网络稳定运行至关重要。
一、硬件故障硬件故障是服务器故障中比较常见的一种情况。
硬件故障可能包括主板故障、硬盘故障、电源故障等。
当服务器出现硬件故障时,首先需要进行硬件检测,确定具体故障原因,然后采取相应的解决方法。
1. 主板故障主板是服务器的核心组件之一,一旦主板出现故障,服务器将无法正常运行。
主板故障可能导致服务器无法启动、无法识别硬件等问题。
解决主板故障的方法一般是更换主板,确保新主板与服务器兼容,并进行相应的配置。
2. 硬盘故障硬盘是服务器存储数据的关键部件,硬盘故障可能导致数据丢失、系统崩溃等严重后果。
在硬盘故障时,可以尝试使用数据恢复工具进行数据恢复,如果无法修复,需要更换新的硬盘,并进行数据备份和恢复操作。
3. 电源故障电源故障可能导致服务器无法正常供电,造成服务器无法启动或突然关机等问题。
解决电源故障的方法是更换故障电源,确保新电源符合服务器的电源需求,保证服务器正常供电。
二、软件故障除了硬件故障外,服务器还可能出现各种软件故障,如操作系统崩溃、应用程序错误等。
软件故障可能导致服务器无法正常运行、服务中断等问题。
以下是一些常见的软件故障及解决方法:1. 操作系统崩溃操作系统是服务器的核心软件,一旦操作系统崩溃,服务器将无法正常运行。
在操作系统崩溃时,可以尝试使用系统恢复工具进行修复,如果无法修复,需要重新安装操作系统,并进行数据备份和恢复操作。
2. 应用程序错误应用程序错误可能导致服务器上的某些服务无法正常运行,影响用户体验。
在应用程序错误时,可以尝试重新启动应用程序或重启服务器,如果问题仍然存在,需要检查应用程序配置和日志,找出问题原因并进行修复。
如何应对服务器软件故障服务器是计算机网络中的核心设备,承担着存储和管理大量数据的重要任务。
然而,由于各种原因,服务器软件故障是一个常见的问题,可能导致网络中断、数据丢失以及系统不稳定等严重后果。
因此,及时有效地应对服务器软件故障是维护网络正常运行的关键。
本文将介绍一些有效的方法和策略,以应对服务器软件故障,并确保网络的稳定性和安全性。
一、备份数据当服务器软件发生故障时,数据损失是一个常见的问题。
因此,定期备份数据是预防数据丢失和最大程度恢复数据的首要步骤。
备份数据可以通过多种方式实现,例如使用外部存储设备、虚拟云备份等。
无论采用何种方法,确保备份数据定期更新,并存储在安全可靠的地方是非常重要的。
二、监测和预警系统服务器软件故障通常具有一定的预兆和迹象。
通过监测和预警系统,可以实时监控服务器的运行状况,并在可能发生故障之前提前发出警报。
监测和预警系统可以检测到服务器的性能下降、异常访问以及硬件故障等问题,并及时通知管理员采取相应的措施。
这样可以大大减少故障对网络运行的影响,提高故障处理的效率。
三、故障排除和修复当服务器软件故障发生时,快速准确地进行故障排除和修复是至关重要的。
以下是一些常见的故障排除和修复方法:1. 日志分析:服务器软件通常产生大量的日志记录,通过仔细分析这些日志,可以找到故障发生的原因和位置。
管理员应该密切关注服务器日志,并及时修复可能存在的问题。
2. 重启服务:在某些情况下,服务器软件的故障可能是由于服务进程的异常引起的。
此时,可以尝试通过重启服务来解决问题。
然而,需要注意的是,在重启服务之前,需要确保已备份重要数据,并通知相关用户。
3. 更新和修复软件:软件的漏洞和错误可能是服务器软件故障的主要原因之一。
因此,及时更新和修复软件是减少故障发生的重要手段。
管理员应该定期检查服务器软件的更新,并及时安装最新的补丁和修复程序。
四、灾难恢复计划即使采取了一系列的预防措施,服务器软件故障仍然可能发生。
服务器故障排除常见问题及解决方案在日常的服务器管理运维工作中,面对服务器故障是必不可少的一部分。
本文将介绍一些常见的服务器故障问题,并提供相应的解决方案,旨在帮助系统管理员更好地排除服务器故障。
一、连接问题1. 无法远程连接服务器解决方案:首先确认目标服务器是否正常运行。
如服务器正常,可能是由于网络配置、防火墙设置等原因导致无法远程连接。
可通过检查网络配置和防火墙规则,确保远程连接所需的端口开启和访问权限设置正确。
2. 网络延迟或丢包解决方案:在命令行窗口中使用ping命令测试服务器的网络连通性,如果延迟高或丢包率过高,可能是网络设备故障或网络拥堵引起的。
可尝试重启相关网络设备并优化网络设置,提高服务器的网络连接质量。
二、硬件问题1. 服务器无法开机或开机后立即关机解决方案:检查服务器是否有电源供应,确认电线、插头等硬件设备工作正常。
如果电源无问题,可能是由于硬件故障引起的。
此时,建议检查主板、内存、硬盘等关键硬件部件是否正常连接,如有需要可以更换故障硬件件。
2. 硬盘故障导致数据丢失解决方案:当服务器出现硬盘故障时,主要面临数据丢失或不可读取的问题。
首先,应立即停止对硬盘的读写操作,以免进一步损坏数据。
然后,可以尝试使用数据恢复工具来尝试恢复数据。
如果数据较为重要,建议寻求专业数据恢复服务。
三、软件问题1. 操作系统崩溃或无法启动解决方案:操作系统崩溃可能由于系统文件损坏、驱动程序冲突等原因引起。
针对此问题,可尝试通过操作系统安装光盘或启动盘进行系统修复,或者重新安装操作系统。
2. 服务无法启动或崩溃解决方案:服务无法启动或崩溃可能由于配置错误、依赖关系异常等原因引起。
对于此问题,可以通过检查相关服务的配置文件、日志文件等进行排查。
一些第三方服务可尝试重启或重新安装来解决。
四、安全问题1. 病毒或恶意软件感染解决方案:服务器病毒感染会严重影响系统性能和数据安全。
应该首先安装杀毒软件,并及时更新病毒库,进行全盘扫描。
五大常见服务器故障及解决方法在日常工作中,服务器故障是一种常见的问题,可能会给工作和生活带来不便。
为了更好地应对这些问题,我们需要了解一些常见的服务器故障及其解决方法。
本文将介绍五大常见服务器故障及解决方法,希望能帮助大家更好地处理服务器故障。
一、硬件故障硬件故障是服务器故障中比较常见的问题之一。
硬件故障可能包括硬盘故障、内存故障、电源故障等。
当服务器出现硬件故障时,首先需要检查硬件设备是否正常连接,是否有明显的物理损坏。
如果确定是硬件故障,可以尝试更换硬件设备或者联系厂家进行维修。
二、网络故障网络故障也是常见的服务器故障之一。
网络故障可能导致服务器无法正常连接到网络,影响服务器的正常运行。
在遇到网络故障时,可以先检查网络连接是否正常,是否有网络设备故障。
可以尝试重新启动网络设备或者联系网络运营商进行排查和处理。
三、软件故障软件故障也是服务器故障中比较常见的问题之一。
软件故障可能包括操作系统崩溃、应用程序崩溃等。
在遇到软件故障时,可以尝试重新启动服务器,检查是否有软件更新或者修复程序可用。
如果问题仍然存在,可以尝试重新安装软件或者联系软件厂商进行解决。
四、安全漏洞安全漏洞是服务器故障中比较严重的问题之一。
安全漏洞可能导致服务器被黑客攻击,造成数据泄露、服务中断等严重后果。
在遇到安全漏洞时,可以尝试及时更新服务器的安全补丁,加强服务器的安全设置,定期进行安全检查和漏洞扫描,确保服务器的安全性。
五、性能瓶颈性能瓶颈是服务器故障中比较常见的问题之一。
性能瓶颈可能导致服务器运行缓慢,影响用户体验。
在遇到性能瓶颈时,可以尝试优化服务器配置,增加硬件设备,优化软件程序,提升服务器性能。
可以通过监控工具对服务器性能进行实时监控,及时发现并解决性能瓶颈问题。
综上所述,服务器故障是工作中常见的问题,但只要我们了解常见的服务器故障及解决方法,就能更好地处理这些问题,确保服务器的正常运行。
希望本文介绍的五大常见服务器故障及解决方法能对大家有所帮助,让工作和生活更加顺畅。
软件系统运维技术中的常见故障排除与修复方法在软件系统运维的过程中,常常会遇到各种各样的故障。
这些故障可能是由硬件故障、软件错误、配置问题或其他原因引起的。
为了确保软件系统的顺利运行,运维人员需要掌握一些常见故障的排除与修复方法。
本文将介绍一些常见的故障,并提供相应的解决方案。
1. 服务器故障服务器故障是软件系统运维中最常见的问题之一。
这可能是由硬件故障、电源故障、操作系统崩溃等原因引起的。
首先,运维人员应检查服务器的硬件状态,确保硬件设备没有故障。
其次,检查服务器的电源供应情况,确保正常供电。
如果故障仍然存在,可以尝试重新启动服务器,或者根据错误日志查找可能的解决方案。
2. 数据库故障数据库故障可能导致软件系统无法正常运行。
当遇到数据库故障时,首先应该检查数据库服务器的状态,并确保数据库服务正常运行。
然后,检查数据库连接是否正确配置,并且网络连接是否稳定。
如果数据库连接正常,但是数据库仍然无法访问,可以尝试重新启动数据库服务,或者还原备份数据。
3. 网络故障网络故障可能导致软件系统无法正常请求外部资源或与其他系统进行通信。
为了排除网络故障,应该首先检查网络连接是否正常。
确定网络连接正常后,可以尝试排除防火墙或路由器配置问题。
如果网络故障是由于网络设备故障引起的,可以尝试重启设备或更换设备。
4. 代码错误代码错误是软件开发中常见的问题之一。
当遇到代码错误时,可以通过排查日志文件来定位问题。
日志文件可以提供有关错误发生的具体位置和上下文相关信息。
根据日志文件的信息,可以修改代码以修复错误。
此外,使用调试工具来监视代码的执行过程,可以帮助找到代码错误的根本原因。
5. 配置错误配置错误可能导致软件系统无法按预期运行。
为了解决配置错误,首先应该检查配置文件中的设置是否正确。
如果配置文件没有问题,可以尝试重置配置文件为默认值。
另外,如果在系统更新或安装新组件后出现配置错误,可以尝试回滚到之前的配置状态。
6. 安全漏洞安全漏洞可能导致系统受到攻击或数据泄露。
云服务器故障分析与解决策略一、故障分类云服务器故障可以分为以下几类:1. 硬件故障:包括服务器硬件故障(如CPU、内存、硬盘等)和网络硬件故障(如交换机、路由器等)。
2. 软件故障:包括操作系统故障、应用软件故障和中间件故障。
3. 服务故障:包括云服务提供商的服务故障和第三方服务的故障。
4. 安全故障:包括DDoS攻击、恶意软件感染、安全策略配置不当等。
二、故障分析流程1. 故障报告当发生故障时,首先通过监控系统、日志分析、用户反馈等途径收集故障信息。
对于紧急故障,应立即通知故障处理团队。
2. 故障确认故障处理团队接到故障报告后,应尽快确认故障是否存在。
通过远程诊断工具对服务器进行检查,确认故障现象,并初步判断故障类型。
3. 故障定位根据故障类型,进行详细的故障定位。
硬件故障可通过硬件检测工具进行诊断;软件故障需要分析系统和应用日志;服务故障需要检查服务提供商的状态报告;安全故障需通过安全监控工具进行分析。
4. 故障原因分析针对定位到的故障原因,进行深入的分析,找出故障的根本原因。
可能的原因包括:硬件老化、软件缺陷、配置错误、安全策略不当等。
5. 故障解决根据故障原因,制定故障解决方案。
对于硬件故障,可能需要更换硬件设备;软件故障需修复缺陷或重新部署软件;服务故障需与服务提供商协调解决;安全故障需采取相应的防护措施。
6. 故障恢复实施故障解决方案,恢复服务。
在故障解决过程中,需密切监控服务状态,确保故障得到彻底解决。
7. 故障总结对故障处理过程进行总结,分析故障原因,评估故障处理效果,并提出改进措施,以预防类似故障的再次发生。
三、故障预防与优化1. 定期进行硬件检测和维护,确保硬件设备处于良好状态。
2. 定期更新软件和补丁,修复已知缺陷。
3. 合理配置系统参数和网络设置,避免配置错误导致的故障。
4. 加强安全防护,预防安全故障的发生。
5. 定期进行故障演练,提高故障处理团队的应对能力。
6. 建立完善的监控体系,实时监控服务器状态,提前发现潜在故障。
服务器问题解决报告(模板)问题描述在本次报告中,我们将讨论服务器问题的解决方案。
该问题涉及到服务器运行过程中出现的故障和错误。
问题分析经过仔细分析,我们发现服务器问题主要可以归纳为以下几个方面:1. 硬件故障:服务器硬件出现故障,导致服务器无法正常运行。
2. 软件配置错误:服务器上的软件配置错误导致了系统的不稳定和运行异常。
3. 网络问题:服务器与其他设备之间的网络连接问题导致通信异常或无法访问服务器。
解决方案根据对服务器问题的分析,我们制定了以下解决方案:1. 硬件故障:- 首先,我们将进行硬件检查,确保服务器的硬件设备没有损坏或松动的情况。
- 如果发现硬件故障,我们将及时更换或修复受损的硬件设备。
- 在更换或修复硬件设备后,我们将进行严格的测试,以确保服务器正常运行。
2. 软件配置错误:- 我们将仔细检查服务器上的软件配置,确保每个配置项都正确设置。
- 如果发现配置错误,我们将进行修正,并重新启动服务器以使更改生效。
- 在进行任何更改之前,我们将先备份服务器的配置文件,以便出现问题时可以快速还原。
3. 网络问题:- 我们将检查服务器与其他设备之间的网络连接,并确保网络线缆连接正常。
- 如果发现网络连接问题,我们将重新插拔连接线缆或更换损坏的线缆。
- 我们还将检查服务器的网络设置,确保IP地址和子网掩码等信息正确配置。
结论通过以上解决方案的实施,我们能够有效地解决服务器问题。
硬件故障、软件配置错误和网络问题将得到适当的处理,从而使服务器能够正常运行。
我们将持续监控服务器的运行状况,并及时采取措施以防止类似问题的再次发生。
以上是我们的服务器问题解决报告模板,希望对您有所帮助。
如果您有任何问题或需要进一步的支持,请随时与我们联系。
谢谢!。
服务器故障及解决方案服务器故障是网络运营中常见的问题,它可能会导致网站或应用程序的不可用性,影响整个系统的稳定性和可靠性,因此服务器故障处理至关重要。
服务器故障通常分为硬件故障和软件故障两类,下面我们详细介绍一些常见的服务器故障和解决方案。
一、硬件故障1. 电源故障电源故障是服务器硬件故障中最常见的一种,常见的问题包括电源线损坏、电源开关损坏、电源自身损坏等。
如果服务器不能开机或停电,首先需要检查电源是否正常。
如果是电源线的问题,可以更换电源线;如果是电源开关的问题,可以更换电源开关;如果是电源自身问题,则需要更换故障电源。
2. 硬盘故障硬盘故障是服务器故障中较为严重的一种,因为它很容易导致数据丢失。
如果硬盘发出不正常的声响或突然停止工作,需要立即重启服务器并进行诊断。
如果硬盘在监视程序中显示错误,可以使用特殊程序来修复或重建硬盘分区表。
如果硬盘已经停止工作,需要更换故障的硬盘,并在操作系统控制台中重新安装并配置重要的数据。
3. CPU故障CPU 故障的表现有很多种,例如服务器不能启动、系统运行缓慢、计算异常等。
如果 CPU 温度过高或风扇故障可能会导致 CPU 故障,可以检查风扇是否工作正常,如果不正常则可以更换风扇。
如果 CPU 故障严重,需要更换故障的 CPU。
二、软件故障1. 操作系统崩溃操作系统崩溃可能会导致服务器崩溃。
可以尝试使用操作系统修复工具手动修复文件系统损坏。
如果损坏过于严重,可能需要重新安装操作系统。
2. 数据库故障数据库故障可能会导致数据丢失和数据不一致。
可以使用数据库管理软件重启数据库,如果重新启动后仍然出现问题,可以使用备份和还原数据库的方法来修复故障。
3. 网络故障网络故障可能导致浏览器无法访问网站,可以首先检查网络连接是否正常,检查域名服务器是否正确配置。
如果问题仍然存在,则可能需要重启服务器或路由器。
结论服务器故障是企业运营中普遍的问题,它可能会导致严重的业务中断和数据丢失,因此及时处理服务器故障至关重要。
服务器故障排查与修复技巧随着信息技术的不断发展,服务器已经成为现代企业和个人网络生活中不可或缺的一部分。
然而,服务器故障时有发生,一旦服务器出现故障,可能会给工作和生活带来严重影响。
因此,掌握服务器故障排查与修复技巧显得尤为重要。
本文将介绍一些常见的服务器故障排查与修复技巧,帮助您更好地解决服务器故障问题。
一、硬件故障排查与修复1. 电源问题:首先检查服务器的电源线是否插紧,电源插座是否正常供电。
如果电源线和插座都没有问题,可以尝试更换电源线或者插到其他插座中。
如果服务器仍然无法开机,可能是电源模块故障,需要更换电源模块。
2. 内存故障:内存故障是服务器常见的硬件故障之一。
当服务器出现频繁死机或者蓝屏时,可以尝试重新插拔内存条,清洁内存槽,确保内存条插紧。
如果问题依然存在,可能是内存条本身故障,需要更换新的内存条。
3. 硬盘故障:硬盘是服务器存储数据的关键组件,一旦硬盘故障可能导致数据丢失。
当服务器出现读写速度慢或者无法识别硬盘时,可以尝试重新连接数据线,检查硬盘是否正常运转。
如果硬盘发出异常声音或者无法正常工作,可能是硬盘故障,需要更换新的硬盘。
4. CPU故障:CPU是服务器的核心部件,一旦CPU故障可能导致服务器无法正常启动。
当服务器出现频繁死机或者无法开机时,可以检查CPU散热器是否正常工作,清洁散热风扇,确保CPU温度正常。
如果问题依然存在,可能是CPU故障,需要更换新的CPU。
二、软件故障排查与修复1. 操作系统故障:操作系统是服务器的核心软件,一旦操作系统出现故障可能导致服务器无法正常工作。
当服务器出现蓝屏或者无法启动时,可以尝试进入安全模式,进行系统恢复或者重装系统。
如果问题依然存在,可能是系统文件损坏,需要修复系统文件或者重装系统。
2. 网络故障:网络是服务器与外部通信的重要通道,一旦网络故障可能导致服务器无法连接外部网络。
当服务器无法访问外部网络或者网络速度慢时,可以检查网线连接是否正常,重启路由器或者交换机。
服务器软件系统故障应急预案发生紧急故障时的判断及处理:发生服务器软件系统故障后,客户如果未签订服务器系统维护协议,在服务器重启未能解决的情况下,通知客户经理和客户自行处理。
若已经签订服务器系统维护协议的客户,服务器管理员应立即对服务器进行查看,分析故障原因,采取相应措施;必要时,保存系统状态精品文档,你值得期待不变,取出系统镜像备份磁盘,保持原始数据,进行快速恢复。
如果没有恢复磁盘,应优先检查故障原因进行解决,如果无效,再客户同意的情况下以最新数据备份恢复的方式进行或采取其他措施。
服务器软件故障范畴:服务器软件故障包括:操作系统故障,应用软件故障,病毒黑客攻击等。
其他注意事项:事态或后果严重的,及时上报公司领导。
处置结束后, 系统管理员应将事发经过、处置结果等结束后一日内备案存档。
采取的技术措施:在故障发生后立即查看服务器系统状态,如果是系统软件出现故障,并且能进入系统,且可以清晰定位故障原因,并可以立即排除,那么立即进行排除。
如果估计在1 小时之内都不能定位故障原因,那么报告客户经理和客户,同时联系厂商及技术支持协助排除,或根据技术支持的建议进行重新安装操作系统和应用系统。
排除操作系统故障的方法,检查操作系统进程是否都正常,有无非法进程,操作系统文件有无损坏丢失,是否受到病毒和木马程序侵害,黑客攻击。
如果不是操作系统故障,应该对应用系统进行仔细检查,检查方法,查看应用系统代码和数据是否被破坏,损坏,丢失,如果丢失,从正确的备份进行恢复。
平时需做的准备工作:A、操作系统和相关配置定期备份。
B、相关应用系统及数据定期备份。
C、必要的情况下准备备用域名。
D、确保备份数据做到三方备份(本地服务器,其他服务器,异地服务器)。
E、做好备用服务器的搭建及定期测试。
成立应急预案小组成员及分工:杨胜灵负责整体技术把控、技术支持及开发人员临时紧急调配。
孙道斌负责网站、网站设计相关技术支持及设计人员临时紧急调配。
宫元负责客户、域名及域名解析相关事宜。
服务器软件故障
服务器软件故障是在服务器故障中占有比例最高的部份,约占70%,解决的过程必须更加深思熟虑。
导致服务器出现软件故障的原因有很多,最常见的是服务器BIOS版本太低、服务器的管理软件或服务器的驱动程序有BUG、应用程序有冲突及人为造成的软件故障。
下面分别举例说明各类软件故障的维修方法。
有一台HP LH6000R服务器,配置为双PIII XEON700带2M高速缓存的CPU、512M内存。
开机后,系统日志报电压调节模块异常(VRM)的错误,报错的信息是:“Voltage Regulator Module(VRM)over/under-voltage2.88V/0V”。
从表面来看,极有可能是服务器的电压调节模块或其它硬件出现故障,极容易导致维护人员认为是硬件故障。
维护人员立刻使用其它LH6000R上的硬件来测试,发现即使使用新的配件,此服务器依然报VRM错。
就在一筹莫展的时候,维修工程师带来了最新的CPU管理板(CPU Management Control)的固件(FIRMWARE),于是升级了CPU管理板块的FIRMWARE后,服务器恢复立即正常。
FIRMWARE升级方法是,在服务器的NAVIGATOR(导航光盘)中提取CPU管理板(CMC)FIRMWARE的刷新程序,程序为FLASH.EXE,然后将从网上下载的LH6KC.BIN(CPU管理板的FIRMWARE)拷贝到一张DOS启动盘上,用这张盘启动服务器。
然后在DOS下运行”FLASH/CMC A:LH6KC.BIN”,刷新完成后重新启动服务器后即可。
这种升级方法也适合刷新系统BIOS等,只是FLASH 命令的参数不同以及更新FIRMWARE及BIOS文件名不同,参数请参考服务器的说明。
任何一款服务器的FIRMWARE及BIOS都会有不同的BUG,因为BUG在所难免,所以我们不能错误地认为服务器的BIOS程序就很完善,而应该经常更新服务器的FIRMWARE及BIOS,只是在升级之前应该小心谨慎,错误的升级方法会导致严重的后果。
目前流行的中高档服务器都拥有强大的管理程序,为客户提供了方便的管理途径;服务器也拥有各种操作系统下的驱动程序,方便了客户在各种操作系统中的使用。
但是,世上任何一款程序都会有一些BUG,这些BUG将影响用户使用。
但是服务器厂商总是会在第一时间内开发出新的程序,客户只需要及时更新这些程序就可以避免这类故障。
当服务器的软件故障为此类时,表现的现象也不尽相同。
一般来说,管理程序BUG会导致系统速度变慢,CPU占用率变高,无法正常使用某些功能等;驱动程序的BUG会导致死机、与某些软件有冲突,磁盘工作不稳定等。
查看管理程序是否出错的最好的办法就是在系统中首先禁止此类管理工具,再观察服务器是
否还是异常。
由于管理工具是随着系统启动而启动的,所以应首先避免它的启动。
以WINDOWS NT4为例,就首先在管理工具
服务中禁用某些服务器软件服务,再修改注册表中的启动项即可。
如果是驱动程序有问题的话,就以安全模式进入系统,看是否正常。
但是需要注意的是,在安全模式中,系统速度变慢是正常的(特别是磁盘I/O方面)。
服务器的管理人员就应该经常在服务器网站上下载最新的管理工具程序及驱动程序。
这样会减少很大一部份软件故障的发生。
相比之下,软件冲突造成的故障判断比较困难,需要管理人员有比较丰富的经验以及敏锐的观察力。
曾经有一位朋友告诉我说,他有一台浪潮的服务器无法安装SQL SERVER2000,已经重装N次NT了,排除是系统故障。
而这唯一的服务器又将作为非常重要数据库服务器,因此非常着急。
于是我陪着朋友去了他的公司查看。
这台服务器所在的机房是非常标准、完善的机房,我检查了这台服务器的情况,发现并没有硬件上的故障,于是排除了光驱读盘力差的可能。
但是,朋友刻的SQL SERVER2000光盘引起了我的怀疑,我让他拿出了正版的SQL SERVER安装,结果还是不行。
在安装的过程中,没有出现丝毫错误,可就是在运行的时候会自动退出,没有任何提示。
但是,我在管理工具中的事件查看器的系统日志中却发现了一条信息:windata.exe导致一个无效的数据溢出。
Windata是朋友自己编写的一个程序,而且是随操作系统启动而启动的程序。
我立即结束掉这个进程后,再运行SQL 一切正常。
对于此类软件故障,操作员最好先查看有关的日志,看看系统中是否有可疑的进程。
目前的服务器无论是高端还是低端,对于SQL等标准程序的支持是相当可靠的,所以排除的重点就是结束可疑进程。
还有一种软件故障是人为因素造成的,它一般是人为误操作(包括没按操作流程的操作)、意外关机(包括电源突然不供电)或非正常关闭应用程序造成的。
人为误操作因素只要加强管理都可以避免此类故障发生。
在这里就详细说明意外关机或非正常关闭程序造成故障的方法。
正常关闭系统程序非常重要,尤其是WEB服务器。
我的一个朋友就是因为没有正常关闭系统程序而经历了一次数据损坏甚至丢失的经历。
我的朋友是使用的
HP web hosting server appliance,因此我向他提供了一些使用规则。
这些方法对于服务器的维护非常有效,主要包括了正确的关闭系统程序、怎样避免数据丢失以及非正常关闭系统后的恢复方法。
下面以我朋友的HP web hosting server appliance为例(使用的是UNIX,但思路对于其它操作系统均有效)。
正确关机的过程包括通过按动Power键来使系统断电,你应该一直按住电源开关持续几秒钟才
能使系统进入正常的关闭过程中。
另外,为了避免数据丢失,你应该按照如下的步骤操作:
·经常备份Web Hosting Server Appliance的数据,可以通过网络管理界面来完成。
·安装第二块硬盘并与原来的硬盘设置成镜像,
一旦Server Apliance未能正确关闭,并无法重起,请按如下操作恢复:
1.当appliance已经断电时,连接一条非modem的串口线(可在机盒中找到)到背面的控制口上。
2.连接串口线的另一头到一台运行Windows的PC的串口上。
3.运行超级链接程序(HyperTerminal),并设置端口的参数为19200,n-8-1, Flow control-None.你可以看到appliance的控制提示,并要求你输入管理员口令。
4.重起appliance,等到提示“LILO boot:”,按住Tab键5秒钟,直到提示变为“boot:”。
5.敲入"emergency"并回车。
此时需要耐心等待几分钟。
然后,登录提示又将出现,此时,LCD屏又能正常工作了。
6.在LCD屏上选择一个随机的密码(此密码只是用于紧急恢复时用)
翻至Defaults…并按右箭头键选中。
翻至Root Password…并按右箭头键选中。
翻至Random并按右箭头键选中,会提示一个随机产生的密码。
记下此密码。
翻至Yes并按右箭头键选中,系统密码会立刻更改。
7.回到超级链接的控制屏,登录appliance,用"root"用户名和刚才的密码,此时会出现“#”提示。
8.为修复分区,请按如下方法操作:
对于sa1100,按顺序输入:
[…]#:fsck/dev/hda5
[…]#:fsck/dev/hda6
[…]#:fsck/dev/hda7
对于sa1120,按顺序输入:
[…]#:fsck/dev/sda5
[…]#:fsck/dev/sda6
[…]#:fsck/dev/sda7
当所有的分区都被修复后,应回到“#”提示符下。
9.输入“reboot”重新启动系统。
如果系统仍无法启动,请记录下控制屏显示的内容并求助技术支持。
对于服务器的软件故障,只要平时管理员注意维护,应该是可以避免的。
······································
说行天下是非常不错的小说网站大全,你值得拥有。