服务器故障处理预案
- 格式:doc
- 大小:94.50 KB
- 文档页数:10
一、预案概述为保障公司信息系统稳定运行,提高故障处理效率,降低故障带来的损失,特制定本预案。
本预案适用于公司所有服务器发生故障时的应急处置。
二、组织架构1. 成立应急处置小组:由信息技术部门、运维部门、业务部门等相关人员组成。
2. 小组职责:(1)信息技术部门负责故障诊断、修复及系统恢复;(2)运维部门负责现场保障、设备维护及备件供应;(3)业务部门负责业务恢复、用户沟通及协助故障处理。
三、故障分类及处置流程1. 轻微故障(1)故障现象:服务器性能下降、响应缓慢、部分功能异常等。
(2)处置流程:a. 运维人员第一时间发现故障,立即通知信息技术部门;b. 信息技术部门根据故障现象进行初步判断,采取相应措施;c. 故障排除后,运维人员对服务器进行重启,确保系统正常运行。
2. 严重故障(1)故障现象:服务器宕机、数据丢失、系统崩溃等。
(2)处置流程:a. 运维人员第一时间发现故障,立即通知信息技术部门;b. 信息技术部门立即进行故障诊断,查找故障原因;c. 如故障原因涉及硬件设备,运维人员需立即通知备件供应商,确保及时更换;d. 信息技术部门根据故障原因,制定修复方案,进行故障修复;e. 故障修复后,运维人员对服务器进行重启,确保系统正常运行;f. 业务部门根据故障影响,制定业务恢复方案,逐步恢复业务。
3. 紧急故障(1)故障现象:服务器发生严重故障,导致业务中断。
(2)处置流程:a. 运维人员第一时间发现故障,立即通知信息技术部门;b. 信息技术部门立即启动应急预案,组织相关人员赶赴现场;c. 信息技术部门进行故障诊断,查找故障原因;d. 如故障原因涉及硬件设备,运维人员需立即通知备件供应商,确保及时更换;e. 信息技术部门根据故障原因,制定修复方案,进行故障修复;f. 故障修复后,运维人员对服务器进行重启,确保系统正常运行;g. 业务部门根据故障影响,制定业务恢复方案,逐步恢复业务。
四、故障报告与总结1. 故障报告:应急处置小组在故障处理过程中,应详细记录故障现象、处理过程、故障原因及修复措施,形成故障报告。
服务器应急处置预案一、前言在当今数字化的时代,服务器作为企业或组织的关键基础设施,承载着重要的数据和业务运行。
然而,服务器可能会面临各种突发情况,如硬件故障、软件漏洞、网络攻击、自然灾害等,这些都可能导致服务器服务中断,给业务带来严重的影响。
为了最大程度地减少服务器故障造成的损失,保障业务的连续性,制定一套完善的服务器应急处置预案是至关重要的。
二、应急处置原则1、快速响应在服务器出现故障时,应迅速采取行动,以缩短故障持续时间,减少损失。
2、最小化损失在处理故障时,应优先保障关键业务和数据的安全,将损失控制在最小范围内。
3、可恢复性应急处置措施应有利于服务器的恢复和正常运行,确保在故障解决后能够快速恢复业务。
4、预防为主通过定期的维护、备份和安全检测,预防服务器故障的发生。
三、应急处置组织架构及职责1、应急指挥小组负责全面指挥和协调服务器应急处置工作,制定应急策略和决策。
2、技术支持小组由服务器管理员、网络管理员、系统工程师等组成,负责对服务器故障进行诊断和修复。
3、数据恢复小组负责在服务器数据丢失或损坏时,进行数据恢复工作。
4、安全监控小组负责监控服务器的安全状况,防范和处理网络攻击等安全事件。
5、后勤保障小组提供应急处置所需的物资、设备和人员支持。
四、预防措施1、定期备份制定完善的数据备份计划,包括全量备份和增量备份,定期将数据备份到异地存储设备。
2、硬件维护定期对服务器硬件进行检查和维护,更换老化或有故障隐患的部件。
3、软件更新及时安装操作系统、应用程序的补丁和更新,修复已知的安全漏洞。
4、安全防护部署防火墙、入侵检测系统、防病毒软件等安全设备,加强服务器的网络安全防护。
5、监控预警通过监控软件实时监控服务器的性能指标,如 CPU 使用率、内存使用率、磁盘空间等,设置阈值报警,及时发现潜在的问题。
五、应急响应流程1、故障监测与报告通过监控系统或用户反馈,发现服务器故障后,立即向应急指挥小组报告。
服务器故障应急预案一、引言随着互联网的迅猛发展,服务器已经成为现代企业运行的核心基础设施。
然而,服务器故障是无法避免的,一旦发生故障将会给企业带来严重的影响,影响到业务的正常运行。
因此,制定一套完善的服务器故障应急预案显得尤为重要。
本文将结合具体情况,制定一套适用于本企业的服务器故障应急预案。
二、应急预案的目的和原则1.目的:确保服务器故障发生时,能够迅速有效地恢复服务,将损失降到最低。
2.原则:-及时:应急响应与恢复必须在第一时间开始,尽量缩短停机时间。
-高效:科学合理地组织应急工作,分工合作,提高应急响应和恢复效率。
-安全:应急过程中需确保数据安全,防止信息泄露。
-持续改进:定期审查和优化应急预案,不断提高应急能力。
三、应急响应流程1.故障发现和报告:-设立监控系统,及时发现服务器问题并自动报警。
-接收并记录用户反馈的故障信息。
-高级工程师迅速处理和分析故障信息,确定是否是故障。
2.决策和组织:-根据故障的严重性,决定是否启动应急响应。
-设立应急小组,组织并协调各部门进行故障处理。
3.应急响应:-迅速确认故障原因和范围。
-制定应急措施,尽量缩短故障处理时间。
-完善备份策略,确保数据安全。
4.服务恢复:-修复故障的硬件或软件问题。
-进行必要的数据恢复,确保业务数据完整性。
-运行全面的测试,确认恢复后服务器的正常运行。
5.事故记录和总结:-记录故障过程和应急措施,以备日后故障分析和经验总结。
-分析故障原因,提出相应的改进措施,以提高服务器运行的可靠性和稳定性。
四、应急资源和工具准备1.应急资源:-购置足够的备用服务器硬件和软件,并保存在安全的地方。
-设立备用电源和UPS,确保服务器能够正常运行。
-配备必要的网络设备,确保网络连接的稳定性。
2.应急工具:-配备必要的故障排除和恢复工具,如硬件测试工具、数据恢复工具等。
-制定清晰的应急工具使用步骤,确保工具能够正确使用。
五、组织与培训1.组织建设:-设立应急小组,明确各成员的角色和职责。
服务器故障应急预案正文:1. 引言服务器故障是企业运营中常见的问题之一,它可能导致数据丢失、服务停止以及用户满意度下降等不良后果。
为了应对潜在的服务器故障风险,并保证系统能够快速恢复和稳定运行,制定一个完善的应急预案至关重要。
2. 应急响应团队在出现服务器故障时,需要成立一个专门负责处理紧急情况并采取相应措施的团队。
该团队由以下角色组成:- 首席技术官(CTO):负责整体协调和指挥。
- 系统管理员:负责监测系统状态、诊断问题并执行修复操作。
- 数据库管理员:负责数据库相关事务,并进行备份与还原工作。
- 安全专家:确保安全性防护机制有效地部署到受影响区域。
3. 故障检测与报告流程当发生服务器故障时,必须迅速检测并向上级汇报。
具体步骤如下所示:a) 监控警报触发或异常事件被记录;b) 检查日志文件以获取更多信息;c) 确认故障是否影响到用户或系统的正常运行;d) 向上级主管报告问题,并提供详细情况和可能原因。
4. 故障分类与优先级为了能够快速定位并解决服务器故障,需要将不同类型的故障进行分类,并根据其对业务连续性和数据完整性的威胁程度确定相应处理优先级。
以下是一些常见的服务器故障类别及其示例:a) 软件错误:操作系统异常、服务无法启动等。
b) 网络问题:网络连接中断、路由器配置错误等。
c)硬件损坏:磁盘失效、电源供应中断等。
5. 应急恢复流程在发生服务器故障后,必须迅速采取措施以最小化停机时间并确保业务持续运营。
下面是一个典型的应急恢复流程:a)诊断问题来源(软件/硬件),尝试修复或替换受损部分;b)还原备份数据至稳定状态,确保没有丢失关键信息;c)测试修复结果并验证所有功能都已经正确地重新启用;6. 长期预防策略为了减少服务器故障的发生频率和影响程度,需要采取一些长期预防策略。
以下是一些建议:a)定期备份数据,并将其存储在安全可靠的地方;b)进行系统巡检以及硬件设备维护工作;c)实施监控机制来捕获异常事件并提前做出反应。
服务器系统故障应急预案1、服务器应用系统出现故障,系统恢复应急预案(1)当服务器应用系统出现故障,安全管理员、系统管理员、应用管理员应当立即初步确定故障的严重程度,估计出现故障的应用系统故障排除需要的时间,并根据应用系统需要保障的无故障运行时间,采取不同的应用系统恢复策略。
(2)如果应用系统不能停机,立即启用热备份系统进行工作。
如果应用系统不能停机,而故障又可以在10分钟之内排除,那么安全管理员指导系统管理员和应用管理员立即排除故障,恢复系统正常运行。
应用系统可以停机而故障又可以在2小时内排除,安全管理员,应该断开服务器的网络连接,配合系统管理员和应用管理员,处理服务器故障,尽快排除故障,恢复系统运行。
应用系统可以停机但故障排除不能在2小时之内完成,而应用系统有冷备份系统,安全管理员,应该断开服务器的网络连接,通知系统管理员和应用管理员启动冷备份系统,完成应用系统的安装、设置,并进行数据的恢复,保证系统正常运行。
应用系统可以停机,而又没有冷备份的应用系统,那么安全管理员应该通知系统管理员和应用管理员,备份现有系统的数据和程序,如果不能进行备份系统的数据和程序,安全管理员应该从备份管理员那里得到应用系统的最新备份。
安全管理员在确定了应用系统有备份的情况下,通知系统管理员重新修复或安装操作系统,并配合应用管理员重新安装或修复应用系统并恢复最新备份的数据。
如果备份丢失或不存在,安全管理员应该报告信息网络事件应急小组,并求助技术支持商,完成对硬盘数据的恢复。
(3)备份管理员在应用系统出现故障时,应该及时查找本地的数据备份,本地的数据备份损坏或丢失,应该立即从异地数据备份复制应用系统的数据备份到本地。
(4) 系统管理员和应用管理员应在确认安全的情况下,重新启动故障服务器系统;重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关厂商和技术支持,请求援助,分析故障原因,若经设备厂商或技术支持认定是硬件损坏,那么需要请求厂商更具维修协议,进行保修或维修。
服务器系统故障应急预案(一)引言概述:服务器系统故障是网络运维中不可避免的一部分,为了能够及时、有效地应对服务器系统故障,提前制定和完善应急预案是至关重要的。
本文将从准备工作、故障诊断、紧急修复、备份恢复、故障分析等五个方面,详细阐述服务器系统故障应急预案的制定与执行。
正文:一、准备工作1.了解服务器系统的组成与架构2.建立完善的设备清单和资产管理体系3.制定服务器系统备份策略4.建立紧急联系人名单及通信方式5.设置监测与警报系统,及时监控服务器系统运行状态二、故障诊断1.利用监测系统及时发现异常2.建立故障定位流程图,迅速确定故障源3.搜集故障发生前的关键数据和日志信息4.利用故障排查工具进行故障分析5.快速响应,配备专业人员进行故障诊断与确认三、紧急修复1.制定故障修复流程并明确责任人2.应急修复时,首先判断故障的紧急程度3.了解常见的故障处理方法及技术手段4.保证修复过程的文档化记录,便于后续跟踪和分析5.及时验证修复效果,确保服务器系统恢复正常运行四、备份恢复1.根据备份策略的要求,定期备份服务器系统2.建立备份服务器和恢复环境,确保备份数据的安全性3.制定备份恢复流程,并培训相关人员4.在故障发生后,迅速进行备份数据的恢复5.验证数据恢复的完整性和正确性,确保服务器系统完整恢复五、故障分析1.及时总结和记录故障的原因和解决方案2.分析故障的影响范围及损失情况3.通过故障分析,提出改进建议和优化方案4.形成故障案例库,为类似故障的处理提供参考5.定期回顾和更新应急预案,提高应对故障的能力和效率总结:制定和执行服务器系统故障应急预案是保障网络运维稳定的重要保障措施。
通过准备工作、故障诊断、紧急修复、备份恢复和故障分析五个方面的完善措施,可以最大程度地减少故障对服务器系统运行的影响,并提高故障应对的效率和质量。
以上是服务器系统故障应急预案(一)的详细内容,希望能对您的工作有所帮助。
云服务器故障应急预案在当今数字化时代,云服务器已经成为众多企业和组织运营的关键基础设施。
然而,由于各种原因,云服务器可能会发生故障,这将对业务的连续性和稳定性造成严重影响。
为了有效应对云服务器故障,保障业务的正常运行,制定一套完善的应急预案至关重要。
一、应急预案的目标和范围(一)目标本应急预案的主要目标是在云服务器发生故障时,能够迅速采取有效的措施,最大程度地减少故障对业务的影响,确保关键业务系统的可用性和数据的安全性,并在最短的时间内恢复正常服务。
(二)范围本预案适用于公司所有使用云服务器的业务系统,包括但不限于网站、数据库、应用程序等。
二、应急响应团队及职责(一)应急响应领导小组由公司高层管理人员组成,负责总体指挥和协调应急响应工作,制定应急决策,调配资源,确保应急工作的顺利进行。
(二)技术支持小组由公司的技术专家和运维人员组成,负责对云服务器故障进行诊断和分析,制定技术解决方案,实施故障恢复操作。
(三)业务恢复小组由各业务部门的负责人和相关人员组成,负责评估故障对业务的影响,制定业务恢复计划,协调业务部门的工作,确保业务在最短时间内恢复正常。
(四)数据备份与恢复小组负责定期对云服务器的数据进行备份,在故障发生时,能够快速有效地恢复数据,确保数据的完整性和准确性。
(五)通讯联络小组负责与内部各部门、外部供应商和客户进行沟通和协调,及时通报故障情况和恢复进展,解答相关问题。
三、预防措施(一)定期监测与维护对云服务器进行定期的监测和维护,包括硬件状态、系统性能、网络连接等,及时发现潜在的问题并进行处理。
(二)数据备份制定完善的数据备份策略,定期对重要数据进行备份,并将备份数据存储在安全的位置,确保数据的可用性和可恢复性。
(三)冗余设计在云服务器架构中采用冗余设计,如冗余电源、冗余网络、冗余存储等,提高系统的可靠性和容错能力。
(四)安全防护加强云服务器的安全防护,安装防火墙、入侵检测系统、防病毒软件等,防止黑客攻击和恶意软件的入侵。
服务器故障应急预案一、引言服务器作为现代网络的核心基础设施之一,承载着大量的数据和应用。
然而,由于各种原因,服务器故障不可避免地发生。
为了保障系统的稳定运行和及时处理故障,制定并实施应急预案显得尤为重要。
本文将介绍服务器故障应急预案的基本概念、制定步骤及应急响应措施。
二、应急预案的定义服务器故障应急预案是指为解决服务器故障可能引发的各类问题而制定的一套应急响应措施。
它包括了各类故障的识别、响应和恢复方法,以及相关人员的职责和分工,旨在确保服务器故障事件的最小化影响和快速恢复。
三、应急预案的制定步骤1. 风险评估与分析首先,需要进行风险评估与分析,了解服务器系统所面临的潜在风险和故障可能性。
这包括但不限于硬件故障、软件故障、网络故障以及自然灾害等。
2. 制定预案基于风险评估的结果,制定适应性强、全面而详尽的预案。
预案应包括故障事件的分类、紧急联系人名单、应急响应流程、恢复策略等内容。
预案需要经过相关部门的审查和核准,并定期进行更新与修订。
3. 培训与演练为了保证预案的有效性,相关人员需要接受培训与演练,熟悉应急响应流程、操作规程和技术手段。
通过定期的模拟演练,可以提高人员的应急反应能力和协同作战能力。
四、应急响应措施1. 故障识别与定位当服务器发生故障时,首要任务是确保故障的快速识别与定位。
通过监控系统、日志分析等手段,准确定位故障原因,尽快采取相应措施。
2. 紧急联系与报告在故障发生后,及时通知并召集相关人员,组成应急处理小组。
根据预案的规定,负责向上级汇报,并协调各方资源以加快故障处理速度。
3. 故障恢复与修复根据预案中的恢复策略,采取相应的措施进行故障恢复和修复工作。
这可能包括硬件设备更换、软件配置修改、数据备份与恢复等。
4. 故障分析与优化在故障得以解决后,需要进行故障分析与优化,以避免相同故障再次发生。
分析故障的原因,查找潜在的安全隐患,并及时进行相应改进。
五、总结服务器故障应急预案是保障系统稳定运行的重要保证。
一、预案背景随着互联网技术的飞速发展,云服务器已经成为企业信息化建设的重要基础设施。
然而,由于云服务器运行环境的复杂性和不确定性,故障时有发生。
为保障企业业务的连续性和稳定性,特制定本预案。
二、预案目标1. 最大限度地减少云服务器故障对企业业务的影响;2. 快速定位故障原因,确保故障及时得到解决;3. 提高应急响应效率,降低故障处理成本;4. 优化应急预案,提高应急处理能力。
三、预案组织架构1. 应急领导小组:负责全面协调和指挥云服务器故障应急处理工作;2. 应急指挥部:负责具体实施故障应急处理工作,下设以下小组:a. 技术支持组:负责故障诊断、修复和恢复;b. 业务保障组:负责协调各部门业务恢复,确保业务连续性;c. 通讯联络组:负责信息收集、传递和发布;d. 后勤保障组:负责应急物资、设备、人员调配等后勤保障工作。
四、应急预案流程1. 故障发现与报告:当云服务器出现故障时,相关人员应立即报告给应急指挥部;2. 故障确认与定位:应急指挥部接到报告后,组织技术支持组进行故障确认和定位;3. 故障处理与恢复:技术支持组根据故障原因,制定故障处理方案,并进行修复和恢复;4. 业务保障:业务保障组协调各部门,确保业务在故障期间正常运行;5. 通讯联络:通讯联络组负责收集、传递和发布应急信息,确保各部门信息畅通;6. 后勤保障:后勤保障组负责应急物资、设备、人员调配等后勤保障工作;7. 故障总结与改进:故障处理完毕后,应急指挥部组织各部门进行故障总结,分析原因,提出改进措施,完善应急预案。
五、应急预案演练1. 定期组织应急演练,提高应急处理能力;2. 演练内容包括:故障发现、报告、确认、处理、恢复等环节;3. 演练过程中,各部门应密切配合,确保演练效果。
六、预案执行与监督1. 应急预案的执行由应急指挥部负责;2. 各部门应严格按照预案要求,落实应急处理工作;3. 应急指挥部对预案执行情况进行监督,确保预案得到有效执行。
公司信息系统服务器故障应急处理预案(初稿)目录第一部分服务器故障的处理响应 (2)第二部分服务器硬件故障的诊断和处理 (4)第三部分服务器软件故障的诊断和处理 (5)第一部分服务器故障的处理响应(一)、服务器故障的定义本预案所指的服务器故障是指公司管理信息系统围的网络服务器设备的故障。
包括因设备质量原因导致的系统故障、人为因素和网络系统外界因素而导致的系统故障、计算机病毒感染及遭受黑客或恶意代码攻击而导致的应用系统故障等。
涉及本预案的服务器设备包括小型机和PC服务器,设备清册参见附表1。
(二)、服务器故障的分类以服务器设备的故障性质和故障可能涉及的围,按照以下的标准进行分类:服务器硬件故障:服务器硬件故障,包括服务器的底板故障、IO板及IO设备故障、CPU 板及CPU故障、存板及存故障、磁盘阵列及磁盘故障以及磁带库故障等。
这类故障将直接影响服务器的正常运行,情况严重的,将使服务器陷于瘫痪状态,基于该服务器的所有应用将无常使用。
如果该服务器承担的是网络的控制和管理职能,将对整个管理信息系统造成极为严重的影响;如果该服务器承担的是单个或多个应用系统的运行和管理,那么,这些应用系统将无法提供正常的服务。
服务器系统软件故障:服务器的系统软件故障,包括操作系统故障、网络控制和管理系统故障、集群管理系统故障等等。
严重的服务器系统软件故障,同样会使服务器陷入瘫痪状态。
故障造成的影响,视该服务器承担的应用系统的不同而不同,如果该服务器承担了网络的控制管理或关键应用职能,将有可能造成非常严重的后果。
关键应用服务故障:关键应用服务故障,包括Oracle数据库故障、SQL Server数据库故障、PI数据库故障、OA故障、WEB服务故障、服务故障等。
这些应用服务软件的故障,对于相关的应用系统将产生一定的影响,其影响围和损害程度随故障的性质和严重程度而定,严重的,将引起系统瘫痪。
(三)、服务器故障响应处理流程第二部分服务器硬件故障的诊断和处理一、硬件故障诊断硬件故障的诊断一般是在服务器操作系统无法引导启动的情况下进行,可以通过对主机BIOS配置、主板故障指示灯、面板状态屏幕、面板LED指示灯提供的信息进行,如条件允许(如光驱引导启动正常),还应使用设备制造厂家提供的专用诊断软件进行检查和分析。
二、识别硬件故障的方法1.电源故障。
电源故障的现象一般为:电源部件开关在“合”状态、指示灯不亮;面板状态屏幕不亮;按电源开关机器无反应、主机电源LCD指示灯不亮;无任何报警声。
2.如果在开机后出现错误代码或“哔”声错误信息,则应对照该型服务器的用户手册中有关的错误信息列表进行判别。
3.如果服务器的前面板有显示主机状态的液晶屏幕,应根据屏幕显示的信息对照用户手册中相应的容进行判别。
4.如果服务器的底板、CPU板、存板上有显示状态的LED指示灯,一般都可以在机箱找到代表指示灯意义的说明贴纸,可依此进行判别。
5.服务器一般都自带用于对硬件系统进行检测的诊断程序光盘,在服务器可以用该光盘进行引导启动的情况下,应使用该光盘进行系统测试。
三、故障排除顺序1.如果系统无法上电,可按以下步骤进行操作:(1)检查以确保电缆和电源线都牢固插进相应的插座。
(2)检查以确保系统所有部分均已打开并已正确调整。
(3)如果服务器电源线插入带开关的多插座接线盒,应确保接线盒上的开关已打开。
(4)将另一个电气设备电缆或电源线插入电源插座,并打开该设备。
(5)断开电源线,等待20秒,然后再次插入电源线并重新启动系统。
2.如果系统可以上电,但无法完成开机自检测试,可按以下步骤进行操作:(1)如果系统发出一系列哔声,则表示系统有错误,应参阅该型服务器的用户手册中的“错误信息”章节进行判别。
或与产品供应商联系维修。
(2)如果系统无法运行开机自检测试,且屏幕显示错误信息,应参阅该型服务器的用户手册中的“错误信息”章节进行判别。
如果手册推荐的方法无法解决问题,应与产品供应商联系维修。
3.如果系统通过开机自检测试,但不运行,可按以下步骤进行操作:(1)检查以确保服务器在安装实用程序中配置正确。
(2)如果服务器仍无法工作,应关机并卸下除显示器和键盘以外的所有外围设备。
测试服务器,并注意现在是否正常工作。
(3)如果服务器仍不工作,应关闭显示器、服务器和所有外围设备,然后按(4)条执行。
4.检查置硬件:(1)断开的电源线,卸下服务器主机盖。
(2)检查所有附件板是否牢固地固定在各自的插槽中。
(3)确保所有磁盘驱动器电源电缆和数据电缆已牢固并正确地联接。
使用机配置的布线和开关配置图,查对海量存储器配置。
(4)检查并确保存条和存扩展板牢固地固定在各自的插槽中,且添加的存条符合要求。
(5)重新装上服务器盖板,并锁定系统。
(6)重新装上所有电源线和电源电缆。
(7)打开服务器电源,查找错误信息。
(8)经以上步骤检查,仍无法得到有意义的错误信息,应与产品供应商联系维修。
第三部分服务器软件故障的诊断和处理一、服务器软件故障分析和诊断软件故障分析和诊断主要通过对主机运行状况、服务与进程、网络连接状况、系统端口、事件日志记录进行检查,这种检查的必要条件是服务器操作系统可以引导启动,并可以提供相应的检查界面。
1.主机运行状况的检测服务器主机的CPU、存、磁盘的使用情况对服务器的性能影响很大,如果出现问题,将直接影响到服务器的正常运行,进而对服务器上正在运行的重要的应用系统带来不可预料的后果。
因此,处理服务器软件故障前,对主机的CPU、存、磁盘资源使用情况进行检测是一个非常重要的步骤,往往可以在第一时间发现主机基本性能的状态异常。
在Windows平台上,一般使用任务管理器中的“性能”选项卡检测主机CPU和存的运行状况,使用资源管理器检查磁盘的使用情况,检查要点为:●CPU使用值,一般不会持续超过50%;●存“认可用量总数”持续超过“物理存总数”会引起系统性能下降;●存“认可用量峰值”持续接近“认可用量限制”,系统将有崩溃的危险;●任何装有运行系统的磁盘的可用空间趋近于零,系统将停滞或有崩溃的危险。
●装有操作系统的磁盘(一般为C:\)的可用空间不应低于磁盘分区总容量的15%,根据实际的运行观察,当服务器C盘可用空间小于50 M 时,系统的运行将进入不稳定状态。
2.服务、进程管理的检测服务器主机上的服务和进程主要来自二个部分,一是操作系统本身提供的系统服务和进程,这些服务的功能和状态在Windows的服务列表中有比较详细的描述,这些服务的异常,系统一般会给出比较明确的错误提示。
另一部分是应用系统的服务,服务器上往往运行着非常重要的应用系统,例如大型的数据库系统、Mail系统、Web Server或特殊业务的应用系统等。
应用系统的进程和服务是否正常运行是判断应用系统是否正常的关键,如果这些关键的进程和服务已经停止,则应用系统肯定无常工作。
监测服务器上的进程和服务是服务器管理的一个重点,对于进程的监测尤其重要,检查的要点为:●有无可疑的进程活动;●有无不显示进程标识符(PID)的进程活动;●有无不显示映象名称的进程活动;●有无不显示用户名或显示非法用户名的进程活动;●有无大量占用CPU的进程;●有无大量占用存的进程;●有无GDI对象异常的进程。
3.网络状况检测服务器网络组件的运行状况是服务器能否维持正常的网络访问和提供正常的网络服务的一个关键。
在服务器运行异常时必须检测服务器网卡的配置情况是否正常,最简单的测试是在DOS提示符下运行ipconfig /all命令,察看各个网络连接当前的配置状态。
使用网络监视器可以获得更多的信息,在网络监视器的实时部分,主要监视网络利用率、每秒帧数、每秒字节数、每秒广播、每秒多播等指标,在捕获统计中,主要监视缓冲区里的帧、当缓冲区超出限制时帧的丢失数、缓冲区利用率、丢失的帧数等指标。
当发现以上指标有异常,应进一步对捕获的数据帧进行分析,此时应特别注意查寻有无源地址或目标地址异常的帧,有无协议异常的帧。
4.系统端口检测网络中的服务器系统通常会提供一系列的服务给网络中的其他机器进行访问和使用,这些服务都是通过一些指定的端口进行通讯的,所以系统业务端口的正常与否对于系统业务有直接的影响。
对服务器的系统业务端口的检测可以在DOS提示符下使用netstat命令,该命令随带的参数所表示的意义如下:-a 显示所有连接和监听端口。
-b 显示包含于创建每个连接或监听端口的可执行组件。
在某些情况下已知可执行组件拥有多个独立组件,并且在这些情况下包含于创建连接或监听端口的组件序列被显示。
这种情况下,可执行组件名在底部的 [ ] 中,顶部是其调用的组件,等等,直到 TCP/IP 部分。
注意此选项可能需要很长时间,如果没有足够权限可能失败。
- e 显示以太网统计信息。
此选项可以与 -s选项组合使用。
-n 以数字形式显示地址和端口号。
-o 显示与每个连接相关的所属进程 ID。
-p proto 显示 proto 指定的协议的连接;proto 可以是下列协议之一: TCP、UDP、TCPv6 或 UDPv6。
如果与 -s 选项一起使用以显示按协议统计信息,proto 可以是下列协议之一:IP、IPv6、ICMP、ICMPv6、TCP、TCPv6、UDP 或 UDPv6。
-r 显示路由表。
-s 显示按协议统计信息。
默认地,显示 IP、IPv6、ICMP、ICMPv6、TCP、TCPv6、UDP 和 UDPv6 的统计信息;-p 选项用于指定默认情况的子集。
-v 与 -b 选项一起使用时将显示包含于为所有可执行组件创建连接或监听端口的组件。
Interval 重新显示选定统计信息,每次显示之间暂停时间间隔(以秒计)。
按 CTRL+C 停止重新显示统计信息。
如果省略,netstat 显示当前配置信息(只显示一次)对于UNIX服务器,可通过Connect系统业务端口,发送请求,以监测端口是否能够响应。
5.日志检查服务器上的应用系统或重要进程运行时会产生大量的日志文件,这些日志文件对于检查程序运行状态、查找程序出错原因很有帮助。
对于Windows平台上,可使用的日志系统是管理工具中提供的“事件查看器”,其中包括了系统日志、应用程序和安全性日志,需要重点关注的是“错误”和“警告”。
另外,服务器上运行的应用程序也会提供相应的日志系统,其提取日志的方法因应用系统的不同而不同,可参照相关的用户手册进行。
在UNIX平台上,日志是以文件的形式存放,不同版本的Unix日志文件的目录是不同的,在Solaris下一般是在Unix /var/log,在AIX下,需要关注的日志文件有:二、服务器软件故障的处理服务器的故障中,大部分是软件故障。
软件故障对于服务器稳定运行的影响很大,严重时将引起整个系统崩溃。