机房重要信息系统应急预案
- 格式:doc
- 大小:176.12 KB
- 文档页数:24
机房应急预案
一、应急预案概述。
机房是公司信息技术系统的核心设施,一旦发生故障或灾害,
可能会对公司的正常运营造成严重影响。
因此,为了确保机房设施
和信息系统的安全稳定运行,制定机房应急预案是非常必要的。
二、应急预案内容。
1. 应急响应组织。
在机房发生紧急情况时,应当立即组织应急响应小组,包括机
房管理员、技术人员、安全人员等,全力以赴解决问题。
2. 紧急联系方式。
建立紧急联系方式清单,包括机房管理员、技术人员、供应商、消防、警察等相关单位的联系方式,以便在紧急情况下能够及时联
系到相关人员。
3. 应急设备。
备有应急设备,如灭火器、应急照明等,以确保在紧急情况下
能够及时采取措施。
4. 应急演练。
定期组织机房应急演练,让相关人员熟悉应急流程和操作方法,提高应对紧急情况的能力。
5. 应急预案修订。
定期对机房应急预案进行修订和完善,确保应急预案的有效性
和实用性。
三、应急预案执行流程。
1. 接到紧急通知后,立即启动应急响应小组,组织相关人员前
往现场,了解情况。
2. 对机房设施和信息系统进行全面检查,找出故障点和危险源。
3. 根据情况采取相应的措施,如灭火、紧急维修等,确保机房设施和信息系统的安全稳定运行。
4. 在紧急情况得到控制后,对机房设施和信息系统进行全面检修和恢复,确保正常运行。
5. 对应急情况进行总结和分析,找出不足之处,并对应急预案进行修订和完善。
以上即为机房应急预案的内容和执行流程,希望能够确保机房设施和信息系统的安全稳定运行,保障公司的正常运营。
一、引言随着信息化建设的不断深入,重要机房作为现代通信和数据处理的核心,其稳定性和安全性至关重要。
为有效应对可能发生的突发事件,确保重要机房安全运行,降低事故损失,特制定本应急预案。
二、应急预案目标1. 确保重要机房设备、系统及信息与网络安全;2. 最大程度降低突发事件对重要机房的影响;3. 确保员工生命财产安全;4. 提高应对突发事件的能力,提高应急处置效率。
三、应急预案组织机构及职责1. 应急指挥部应急指挥部负责统筹协调、指挥调度突发事件应急处置工作。
下设以下部门:(1)应急办公室:负责收集、整理、上报突发事件信息,制定应急措施,组织协调各部门开展应急处置工作。
(2)现场指挥部:负责现场应急处置工作的指挥调度,协调各部门、人员参与救援。
2. 应急处置小组应急处置小组负责具体实施突发事件应急处置工作。
下设以下小组:(1)现场救援小组:负责现场救援、疏散、人员搜救等工作。
(2)设备保障小组:负责现场设备抢修、恢复等工作。
(3)通信保障小组:负责现场通信保障、信息传递等工作。
(4)后勤保障小组:负责现场物资保障、人员饮食、医疗等工作。
四、突发事件分类及应急处置措施1. 自然灾害(1)地震:立即启动应急预案,组织人员迅速疏散至安全区域;切断电源,关闭易燃易爆设备;加强现场巡查,确保人员安全。
(2)火灾:立即启动应急预案,组织人员疏散;切断电源,关闭易燃易爆设备;使用灭火器、消防栓等设备进行灭火。
2. 事故灾难(1)电力中断:立即启动应急预案,组织人员排查故障原因;联系供电部门抢修,确保电力恢复。
(2)网络损坏:立即启动应急预案,组织人员排查故障原因;联系网络运营商修复,确保网络恢复。
(3)设备故障:立即启动应急预案,组织人员抢修设备,确保设备正常运行。
3. 人为破坏(1)网络攻击:立即启动应急预案,组织人员排查攻击来源;联系网络安全专家进行防御,确保网络安全。
(2)设备被盗或损坏:立即启动应急预案,组织人员保护现场,联系公安部门调查;同时进行设备修复或更换。
第一章计算机机房应急预案1.1适用条件1.1.1适用范围本预案适用于计算机机房发生电力、火灾、空调故障和水浸等突发事件的应急处臵工作。
1.1.2适用场景电力事件:由于机房电力不可用引发的应急事件。
第一种情况:机房输入无电(大楼突然停电;大楼有电,机房市电输入无电);第二种情况:机房本身供配电故障。
火灾事件:机房设施本身产生的火灾以及外部火灾威胁。
空调故障:有机房空调故障引发的机房温度升高的应急事件。
水浸事件:机房内部遭到水患,影响或破坏机房正常运行。
1.2应急处臵流程1.1.3机房突发事件处臵总流程机房突发事件处置总流程指挥组执行组事件发现机房管理人员事件报告安全领导小组事件分析是应急组判断是否为事件领导小组事件定级否并启动应急预案故障处理领导小组成员协调相关资源确认事件类型领导小组成员业务部门电力、空调、火灾、浸水处置业务应急办法领导小组处置成功业务部门业务恢复领导小组处置结束结束机房停电事件应急处置流程-1(办公大楼突然无电;办公大楼有电,机房输入无电)指挥组执行组电力事件发生机房管理员快速定位故障:UPS设备检查,主要检查剩余电量、可用状态等;通知电力维修工。
是否办公大楼停电机房输入无电否是领导小组成员否修复时间(≤20分钟)与供电部门联系,确定停电原因及恢复时间是领导小组成员报告应急小组否组长修复时间(≤2小时)领导小组领导小组成员协调应急资源电力部门、领导小组成员启用发电设备、抢修线路启用发电设备,待发电机工作稳定后,切换到发电机供电;是机房管理员检查供电情况;监测业务系统运行情况结束机房停电事件应急处置流程-2(机房本身供配电故障)指挥组执行组电力事件发生机房管理人员快速定位故障UPS故障配电柜故障机房供电回路故障领导小组成员检查单电源供电设备,临时解决供电问题是领导小组成员检查配电柜各开关及线路检查故障位置及原因,以及受影响业务电力维修工、机房供电小组领导小组成员排除故障领导小组成员否配合检查供电回路故障原因:回路中是否有损坏的设备,是否存在短路,是否有漏电等,针对问题进行处理通知服务商或厂商进行维修断开UPS输入空气开关试供电是否正常领导小组成员UPS恢复正常运行是闭合回路中设备电源开关,试供电,逐台启动设备领导小组成员闭合UPS输入空气开关结束4长春市天地恒业系统集成有限公司1.5火灾事件处臵流程机房火灾事件处置流程图指挥组执行组火灾事件发生危及人身安全?是火势特别严重?否是否需要切断供电?是是否否领导小组成员领导小组成员领导小组成员领导小组成员通知全部人员撤离,拨打119 火警电话关闭机房电源,若气体灭火设备没有自启,手动启动并拨打119电话,机房人员撤离灭火器分区灭火,通知业务部门进行业务紧急处置,切断供电灭火器分区灭火,若影响业务通知业务部门进行部分业务紧急处置领导小组领导小组成员对人员和资源进行调度报告应急小组组长,通知大楼消防小组是火是否被扑灭火被扑灭机房管理员否配合119灭火执行组业务部门负责人评估机房受害程进行业务紧急处度,制定恢复措施,恢复机房环境,向置指挥组汇报详细情况结束5机房空调突发事件处置流程图指挥组执行组机房温度上升过快机房管理人员机房管理人员采取降温措施(冰块、风扇等)并监控温度变化情况发现空调故障否温度是否降低空调设备故障是否供电故障否是是领导小组成员领导小组成员领导小组成员上报小组组长通知服务承包商或厂商维修故障空调排查供电故障领导小组决策:停机策略机房管理员空调运行恢复正常执行停机策略启动业务应急结束机房水浸事件处置流程领导组安全领导小组成员机房水浸事件发生危及人身安全?是水浸是否严重?否是否需要停电?否是是否机房管理人员机房管理人员机房管理人员通知人员撤离,关闭机房电源报告应急预案小组通知人员撤离吸水除湿领导小组成员通知业务部门进行业务处领导小组成员置,切断供电,同时吸水除湿报告小组组长,切断机房供电领导小组通知业务部门负责人进行业务处置机房管理人员业务部门负责人进行业务紧急处置评估机房受害程度,制定恢复措施,向应急小组汇报,提出下一步建议恢复运行环境及损坏设施处置结束7WORD格式可编辑长春市天地恒业系统集成有限公司第二章通信网络应急预案1.8适用条件1.1.4适用范围本预案适用于通信网络类突发事件的应急处臵工作。
一、编制目的为提高机房应对突发事件的能力,确保机房设备安全、人员安全及数据安全,最大限度地减少突发事件造成的损失,特制定本预案。
二、适用范围本预案适用于公司所有机房,包括但不限于数据中心、服务器房、网络设备间等。
三、预案内容1. 组织机构(1)成立机房应急指挥部,负责指挥、协调机房突发事件应急工作。
(2)应急指挥部下设应急小组,包括:通讯联络组、现场救援组、设备维护组、安全保卫组、信息发布组等。
2. 预警与监测(1)建立健全机房安全监控系统,对温度、湿度、电力、网络流量等关键指标进行实时监测。
(2)定期对机房设备进行检查,发现隐患及时整改。
(3)关注气象、地质等自然灾害预警信息,做好应对准备。
3. 应急响应(1)接到突发事件报告后,应急指挥部立即启动应急预案,组织开展应急处置工作。
(2)通讯联络组负责与上级部门、相关部门及现场救援人员进行沟通协调。
(3)现场救援组根据现场情况,采取相应的救援措施,确保人员安全。
(4)设备维护组对受损设备进行抢修,确保设备尽快恢复正常运行。
(5)安全保卫组负责现场秩序维护,防止无关人员进入。
(6)信息发布组及时向公司内部及相关部门发布突发事件信息。
4. 应急处置措施(1)火灾:立即启动消防系统,切断电源,组织人员疏散。
同时,报告消防部门,配合其进行灭火救援。
(2)水灾:立即关闭电源,组织人员疏散。
同时,采取措施堵截水源,防止水势蔓延。
(3)设备故障:组织专业人员进行抢修,确保设备尽快恢复正常运行。
(4)网络攻击:立即启动网络安全防护措施,隔离受攻击设备,修复网络漏洞。
5. 应急恢复(1)根据实际情况,对受损设备进行维修、更换或升级。
(2)对网络进行安全检查,修复漏洞,提高网络安全防护能力。
(3)对应急响应过程进行总结,完善应急预案。
四、预案实施与培训1. 公司应定期组织应急演练,提高员工应对突发事件的能力。
2. 对新员工进行应急知识培训,确保其熟悉应急预案。
3. 定期检查预案的适用性和有效性,必要时进行修订。
计算机机房安全应急预案计算机机房是企业信息系统的核心部分,是存放服务器和网络设备的重要场所。
为了保障计算机机房的正常运行和数据安全,制定一份完善的安全应急预案是非常必要的。
下面是一份关于计算机机房安全应急预案的草案,供参考。
一、概述计算机机房安全应急预案是指在计算机机房发生突发安全事件时,为保护计算机设备和数据安全,及时响应和处理事件,最大程度恢复正常运行的一系列措施和步骤。
二、应急响应组织1. 组织机构为做好机房安全应急工作,成立计算机机房安全应急响应小组,由相关技术人员和安全管理人员组成。
2. 职责分工(1)应急小组负责人:负责组织调度应急工作,汇总总结应急工作情况。
(2)技术人员:负责应急事件的处理和恢复工作。
(3)安全管理人员:负责安全事件的调查和分析,提出完善安全措施和预防措施的建议。
三、应急预案1. 应急演练定期进行机房安全演练,以验证应急预案的有效性和完整性,提高应急响应的能力。
2. 应急联系人明确应急联系人和联系方式,及时通知相关人员并协调应急工作。
3. 安全事件的分类和级别(1)安全事件的分类:- 机房物理安全事件:如入侵、窃密、破坏等。
- 网络安全事件:如DDoS攻击、恶意软件感染等。
(2)安全事件的级别:- 一级:极其严重,立即采取行动,如火灾、水灾等。
- 二级:严重,需立即采取应急措施,如入侵、网络故障等。
- 三级:一般,需及时处理,如设备故障、安全隐患等。
4. 应急流程(1)事件发生通知当发生安全事件时,应急联系人立即通知应急小组成员,并应记录事件发生时间、地点和类别。
(2)事件评估和确认应急小组成员到达现场后,对事件进行评估和确认,了解事件的性质、危害程度和警戒级别。
(3)应急响应根据事件的性质和紧急程度,采取相应的应急措施,包括但不限于:- 网络攻击事件:封禁攻击源IP、清除恶意软件、追踪攻击者等。
- 机房物理安全事件:调取监控视频、报警、封锁事故现场等。
(4)事件记录对事件的处理过程和结果进行详细记录,包括处理时间、方法、结果等。
机房应急预案在当今数字化的时代,机房作为信息存储和处理的核心区域,其稳定运行对于企业、机构的正常运转至关重要。
然而,由于各种不可预见的因素,如电力故障、网络攻击、设备损坏等,机房可能会面临突发状况。
为了最大程度地减少这些突发情况带来的损失,保障业务的连续性,制定一份完善的机房应急预案是必不可少的。
一、应急预案的目标和原则1、目标机房应急预案的首要目标是确保在突发情况下,能够迅速、有效地采取措施,保护机房内的设备、数据和系统,尽快恢复正常运行,减少业务中断的时间和影响。
2、原则(1)预防为主:通过定期的设备维护、风险评估和安全措施的落实,降低突发事件发生的可能性。
(2)快速响应:在事件发生后,能够迅速启动应急流程,组织相关人员进行处理。
(3)协同作战:涉及到多个部门和人员,需要密切协作,共同应对危机。
(4)数据安全优先:在处理过程中,优先保障数据的完整性和安全性。
二、可能的突发情况及风险评估1、电力故障包括市电中断、UPS 故障等,可能导致设备突然停机,数据丢失。
2、网络故障如网络线路中断、路由器或交换机故障,影响数据传输和通信。
3、硬件故障服务器、存储设备等关键硬件出现故障,影响业务系统运行。
4、火灾可能由电气故障、短路等引起,对机房造成严重破坏。
5、水灾管道破裂、暴雨等导致机房进水,损坏设备。
6、空调故障机房温度过高或过低,影响设备正常运行。
7、软件故障操作系统、应用程序出现错误或崩溃。
8、人为误操作员工的错误操作导致系统故障或数据损坏。
9、自然灾害地震、台风等不可抗力因素对机房造成破坏。
三、应急组织架构及职责分工1、应急指挥小组负责全面指挥和协调应急处理工作,制定决策,调配资源。
2、技术支持小组由机房管理员、网络工程师、硬件工程师等组成,负责处理技术问题,进行设备维修和系统恢复。
3、数据备份与恢复小组负责定期备份数据,并在需要时进行数据恢复。
4、安全保障小组保障机房的物理安全,防止未经授权的人员进入,以及处理可能的安全事件。
机房应急处置预案一、前言机房作为信息系统的核心枢纽,承载着企业或组织的重要数据和业务运行。
为了有效应对机房可能出现的各类紧急情况,保障机房设备的正常运行和数据的安全,特制定本应急处置预案。
二、适用范围本预案适用于机房内发生的电力故障、网络故障、火灾、水灾、设备故障、自然灾害等突发事件的应急处理。
三、应急处置组织机构及职责1、应急处置领导小组组长:_____副组长:_____成员:_____职责:全面负责机房应急处置工作的指挥和协调,制定应急处置策略,下达应急处置指令,协调资源保障应急处置工作的顺利进行。
2、技术保障组组长:_____成员:_____职责:负责机房设备的技术维护和故障排除,提供技术支持和解决方案,保障设备的正常运行。
3、电力保障组组长:_____成员:_____职责:负责机房电力系统的监控和维护,保障电力供应的稳定,及时处理电力故障。
4、网络保障组组长:_____成员:_____职责:负责机房网络系统的监控和维护,保障网络的畅通,及时处理网络故障。
5、安全保障组组长:_____成员:_____职责:负责机房的安全保卫工作,防止未经授权的人员进入机房,保障机房设备和数据的安全。
6、后勤保障组组长:_____成员:_____职责:负责应急处置所需物资和设备的采购和储备,保障应急处置工作的物资供应。
四、预防措施1、机房环境管理保持机房清洁、干燥、通风良好,温度和湿度控制在规定范围内。
定期对机房进行清洁和消毒,防止灰尘和静电对设备的影响。
2、设备维护管理定期对机房设备进行检查和维护,包括服务器、网络设备、电力设备等。
及时更换老化和损坏的设备部件,确保设备的正常运行。
3、电力系统管理配备UPS(不间断电源)系统,保障电力供应的连续性。
定期对UPS进行检查和维护,确保其正常工作。
同时,建立备用电源系统,如发电机,以备市电中断时使用。
4、网络系统管理建立网络监控系统,实时监测网络的运行状态。
定期对网络设备进行配置备份,防止网络故障导致配置丢失。
一、编制目的为确保网络机房在发生突发事件时能够迅速、有效地进行处置,最大限度地减少损失,保障网络设备的正常运行和用户服务的稳定,特制定本预案。
二、适用范围本预案适用于公司所有网络机房,包括数据中心、分支机构和临时搭建的机房。
三、预案组织1. 成立网络机房应急指挥部,负责网络机房应急工作的统一领导和指挥。
2. 应急指挥部下设应急办公室,负责应急工作的具体实施和协调。
四、应急响应1. 事件分级根据事件影响范围、严重程度和紧急程度,将事件分为以下四个等级:(1)一级响应:重大突发事件,严重影响网络设备正常运行和用户服务。
(2)二级响应:较大突发事件,对网络设备正常运行和用户服务有一定影响。
(3)三级响应:一般突发事件,对网络设备正常运行和用户服务有一定影响。
(4)四级响应:较小突发事件,对网络设备正常运行和用户服务影响较小。
2. 响应程序(1)一级响应1)应急指挥部立即启动应急预案,成立现场指挥部,组织应急队伍投入救援。
2)立即向公司领导报告,启动应急物资储备,确保救援物资供应。
3)通知相关部门和人员,协调各方力量,全力开展救援工作。
(2)二级响应1)应急指挥部启动应急预案,成立现场指挥部,组织应急队伍投入救援。
2)通知相关部门和人员,协调各方力量,全力开展救援工作。
(3)三级响应1)应急办公室启动应急预案,组织应急队伍投入救援。
2)通知相关部门和人员,协调各方力量,全力开展救援工作。
(4)四级响应1)应急办公室启动应急预案,组织应急队伍投入救援。
2)通知相关部门和人员,协调各方力量,全力开展救援工作。
3. 响应措施(1)确保电力供应1)检查机房电力系统,确保电力供应稳定。
2)如遇电力中断,立即启动备用电源,确保网络设备正常运行。
(2)保障网络设备安全1)检查网络设备,确保设备运行正常。
2)如发现设备故障,立即进行修复或更换。
(3)确保网络安全1)对网络设备进行安全检查,确保网络安全。
2)对网络攻击、病毒等进行及时处理。
机房应急预案(新)
一、应急预案的制定目的。
为了提高机房运行的安全性和稳定性,保障信息系统的正常运行,减少因突发事件而造成的损失,特制定本应急预案。
二、应急预案的适用范围。
本应急预案适用于机房内部的所有设备和人员,包括但不限于服务器、网络设备、UPS电源、机房管理员及相关运维人员。
三、应急预案的预警机制。
1.定期进行机房设备的巡检和维护,确保设备处于良好状态,减少突发故障的发生。
2.建立定期演练机制,提高机房管理员和运维人员的应急处理能力。
3.建立完善的监控系统,及时发现设备异常并进行处理。
四、应急预案的应对措施。
1.一旦发现设备出现异常,立即启动应急预案,通知相关人员进行处理。
2.针对不同类型的故障,设立相应的应急处理流程,确保故障得到及时解决。
3.在发生突发事件时,要保障人员的安全,及时疏散人员,防止事态扩大。
五、应急预案的应急演练。
每季度进行一次机房应急演练,模拟不同类型的故障情况,让相关人员熟悉应急处理流程,提高应对突发事件的能力。
六、应急预案的修订和完善。
定期对应急预案进行修订和完善,根据实际情况不断优化应急处理流程,提高机房的安全性和稳定性。
七、应急预案的执行。
在发生突发事件时,机房管理员和运维人员要严格按照应急预
案的要求进行处理,确保故障得到及时解决,最大限度地减少损失。
八、应急预案的宣传和培训。
定期对机房相关人员进行应急预案的宣传和培训,提高他们的
应急处理意识和能力,确保应急预案的有效执行。
以上为机房应急预案,希望所有相关人员严格遵守,确保机房
设备的安全运行。
计算机机房安全应急预案范本为确保公司机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置___,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,特制定本预案。
一、机房日常维护1、建立健全机房管理制度(1)在正常工作日内,财务部信息组(以下简称信息组)人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患。
(2)节假日期间信息组人员轮流值班,负责处理有关异常情况。
(3)机房采取来人来访登记制度,未经允许,无关人员不得进入公司机房区域。
2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房入口处___小时监控录像等措施。
3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。
4、信息组对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个公司网络的正常运行。
二、机房___应急处置方案1、电源系统应急预案(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列___时,按照以___案进行处置:(2)当机房发生突然停电或是电源异常时。
首先应和相关人员联系确认正常停电以及预计停电时间。
检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等不在UPS 电源供电范围内的设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。
(3)当确定停电时间超出机房UPS承载范围后,首先确定停电的范围以及受影响的设备范围。
并及时通知各部门做好停电应急准备。
然后通知机房管理人员和系统管理人员到达现场,做好各设备的电源停电准备。
在UPS供电电量仅剩___%之后,严格按操作手册停掉各服务器的电源,最后停核心交换机和路由器,等待电力恢复。
(4)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。
XXXXXX计算机机房应急预案一、适用条件1 适用范围本预案适用于XXXXXX计算机机房发生电力、火灾、空调故障和水浸等突发事件的应急处置工作。
1适用场景电力事件:由于机房电力不可用引发的应急事件。
以机房为参照物:第一种情况:机房输入无电(大楼突然停电;大楼有电,机房市电输入无电);第二种情况:机房本身供配电故障。
火灾事件:机房设施本身产生的火灾以及外部火灾威胁。
空调故障:有机房空调故障引发的机房温度升高的应急事件。
水浸事件:机房内部遭到水患,影响或破坏机房正常运行。
二、应急处置流程机房突发事件处置总流程停电事件处置流程火灾事件处置流程XXXXXX通信网络应急预案一、适用条件1 适用范围本预案适用于XXXXXX通信网络类突发事件的应急处置工作。
2 场景描述1.网络拥塞事件发生网络通信故障,或网络负载超过了可用资源,出现数据包丢失,导致传输时延增大,网络吞吐量下降甚至网络完全瘫痪等现象,造成核心信息体统或核心业务系统无法处理业务,必须采取应急处置措施,开展处置工作的突发事件。
2.网络中断事件发生网络线路中断、设备故障等事件,导致通信网络系统部分或全部中断,造成核心信息系统或核心业务系统无法处理业务,必须采取应急处置措施开展处置工作的突发事件。
二、应急处置流程1.通信网络突发事件处置总流程2.通信网络拥塞事件处置流程2.通信网络拥塞事件处置流程XXXXXX计算机系统应急预案一、适用条件1 适用范围本预案适用于XXXXXX计算机系统突发事件的应急处置工作。
2 场景描述1.系统崩溃事件发生系统崩溃,出现蓝屏,无法启动,卡XP等情况造成无法办公,必须采取应急处置措施,开展处置工作的突发事件。
2.系统中毒事件发生系统中毒或者木马入侵事件,导致系统速度变慢,IE 指向可疑,软件无法使用,甚至杀毒软件无法使用情况时,必须采取应急处置措施,开展处置工作的突发事件。
二、应急处置流程1、计算机系统处置流程XXXXXX信息科技系统应急操作手册1、主线路故障:故障现象:联通协议转换器故障灯报警。
故障解决方法:联通和电信两条2M SDH线路,联通线路为主线,电信线路为备线,当线路发生故障时在协议转换器上会出现告警信号,如AIS灯为红色等信息。
主线路发生故障时,备用的电信线路会自动切换为主线路,代替联通线路。
在发现故障后及时上报领导及通知联通大客户经理进行故障解决。
2、OA线路故障故障现象:访问数据中心OA协同办公系统速度突然变慢或无法连接。
故障解决方法:当线路出现故障时系统访问速度变慢,通过查看设备状态指示灯判断线路是否故障,及时通知联通客户经理及数据中心网络中心,联调解决问题。
3、外联线路故障故障现象:相对应的业务无法进行,如:无法登录人行FTP服务器,无法登录银监局1104报表系统等。
故障解决方法:我行现外联单位主要有人民银行、银监局。
当线路出现故障时,应与运营商及时联系,并通知相关使用部门。
4、与数据中心连接相关设备故障故障现象:支行所有柜员终端无法登录,数据中心服务器无法访问可能出现故障的设备及处理方法:(1)锐捷路由器故障:首先检查锐捷路由器,查看是否有掉电现象,如果没有掉电则查看路由器是否出现硬件故障,(如查看路由器后面的接口卡的状态灯的颜色,红色为故障,绿色为正常)。
如果无法在短时间内修复则立刻启用备用路由器代替原路由器,将V35线缆与内网以太口网线正确接好后开机即可(注:备用路由器配置已经提前配好,与主路由器配置完全相同)。
(2)核心交换机故障:检查生产网交换机,有无断电情况,如果断电将电源重新接好。
然后对交换机使用PING命令,PING网关地址,如果不通,则表示交换机自身故障或配置出现故障,此时立刻更换备用交换机。
具体操作步骤如下:①温备设备切换:将主交换机上的所有连接线依次插拔到备用交换机上,连接完成后使用PING命令,PING数据中心对端地址。
查看是否可以PING通,如果PING通,则问题解决。
使用quit命令退出系统。
②冷备设备切换:首先使用CONSOLE连接到备用交换机,进入交换机后首先使用dis cu命令查看交换机是否有配置,输入sys命令,在提示符为 [shengchan-sw]状态下,直接导入配置信息,使用save命令进行存盘。
测试是否ping 通数据中心端地址。
如果PING通则故障排除。
③冷备设备无法启动:使用替代设备替换,使用命令del config.cfg删除交换机中的配置信息,并重启交换机,然后再将备份配置信息导入设备的操作。
使用ping命令测试数据中心对端地址。
如果PING通则故障排除。
(3)前置服务器故障:直接更换备用服务器,更换后查看服务器的状态是否正常,如光路诊断器是否有报警,硬盘灯是什么颜色,红色代表故障,绿色代表正常。
IP地址是否与原生产设备配置相同,测试业务是否正常处理,如能正常办理,说明恢复成功。
(4)生产路由器故障:对路由器进行检查,使用内网计算机,ping数据中心对端地址。
如果PING通则表示线路及广域网路由设备没有问题,如果不通则表示广域网路由设备出现故障,更换备机并测试是否联通。
并与数据中心网络中心联系。
(5)外连设备故障故障现象:人民银行或银监局ftp服务器无法访问可能出现故障的设备及处理方法:①外联路由器故障:大小额前置服务器无法正常工作,ping人民银行对端地址,如果不通则有两种可能,一为对端设备故障,此时应与人民银行及时联系,二为线路故障,应立刻将路由器以太口接到备用路由器上,再使用PING对端的备用线路地址,如果PING通表示线路正常,如果仍无法访问,则立刻上报领导及人民银行。
其它类似故障处理方法参照此方法。
②防火墙故障:当主防火墙出现故障时银监局及人民银行的网站或FTP无法访问,将线路连接到备用防火墙上,测试是否连通,连通则故障解决。
如果经过以上处理故障仍然存在,则立刻联系人民银行及银监局相关业务部门,询问是否是对方服务器故障。
上报行领导及数据中心科技部,并与对方单位人员保持联系,直至故障解决。
(6)外网设备故障故障现象:NOTES及SameTime办公软件无法登录,所有外网网站无法打开。
可能出现故障的设备及处理方法:①外网H3C交换机故障:将线路切换到备用交换机上,并使用console线连接到电脑,使用超级终端对其进行配置检查,如配置正常则再将原有网线全部连接到备用交换机上。
②数据中心服务器故障:数据中心服务器改造或升级引起的暂时无法连接,应立刻与数据中心沟通,确认故障解决时间,并上报相关领导。
(7)大小额支付系统硬盘故障:当单块硬盘故障时,主机面板会报警,硬盘灯会闪烁,机器会自动切换到备份硬盘上,此时做好切换到备用服务器的准备,联系设备供应商,反馈硬件故障信息,尽快排除故障,若需要更换硬盘则尽快联系生产商进行调换工作。
并及时向主管领导汇报故障信息和故障处理进度。
(8)前置机软件系统故障:检查前置备份应用程序与数据中心最新发布程序是否一致,如不一致则更新数据中心最新程序包文件,更新后测试业务是否正常,业务正常则故障排除。
如发现其他问题,则判断是否SCOUNIX操作系统问题,如发现操作系统问题,则将备机替换到生产环境。
核对更新包是否数据中心发布最新版本,是最新版本则通知业务部门测试业务是否正常。
并及时向主管领导及数据中心汇报故障处理进度。
(9)其它故障现象及解决方案:交易不能正常处理:1、业务终端不能正常登陆:检测终端与前置机之间的线路物理连接是否正常,若线路没有问题则尝试换一下故障终端的辫子插孔,重启终端,看是否排除故障;若仍存在故障,可尝试重启联结终端的锐捷路由器;如果是营业部及所有支行终端全部故障,首先查看前置服务器运行状态,看是否能否PING通,若前置机工作正常,则往数据中心汇报,咨询数据中心服务器运行状况,判断是否是全行故障,如果是全行故障,在数据中心数据中心指导下排除。
如果是我行前置机故障,参考前置机服务器故障及前置机软件故障解决。
另外在排除故障过程中可以使用杀毒软件,检测生产网络是否存在ARP等攻击病毒,导致丢失正确的网关地址。
如是病毒导致,则立即切断收病毒侵害的计算机网络。
如果是前置机系统故障,在短时间内无法解决,刚立即切换到备用前置机,切换成功后通知各支行系统管理员重启支行机房内的生产网路由器,并进行终端的业务测试,测试完成后整理问题出现原因,并向上级领导进行汇报。
2、密押服务器故障:密押服务器目前采取热备方式,当主设备故障时,密押服务器会自动切换到备用设备。
通过密押服务器前面板灯观察设备运转状态,若系统灯或告警灯闪烁则说明设备出现故障,使用ROOT用户登陆大小额前置机使用vi命令查看/SJL10_TCTD目录下的host_cfg.dat文件,查看配置文件中备用服务器的ip地址,如果备用IP在前面,说明密押服务器已切换到备机运行,使用PING命令检查主密押服务器的线路是否联通,如果是线路故障,检查物理连接是否正常,如果是系统故障,在非营业时间,重启主密押服务器并再次检查线路。
在线路正常状态下,运行支付系统前置机/SJL10_TCTD目录下testPIN_clnt程序,若返回return_code=0,说明设备运转恢复正常。
断开备用密押服务器线路,运行大小额前置机/SJL10目录下的testMAC_clnt 程序,检查配置文件host_cfg.dat是否恢复初始设置,然后恢复备用机的网线。
如果还有故障,则需要联系密押服务器的售后服务支持进行维修工作,并及时向主管领导汇报故障信息以及处理进度。
3、黑客攻击应急处置发现网络或系统异常,由事业保障部网络管理员和系统维护人员进行检测,查明异常原因,确认为黑客攻击的,经应急领导小组批准,切断攻击源的网络连接,迅速向数据中心级公安部门报告。
4、停电故障应急处理营业网点停电后由UPS电池供电,应关闭与业务无关的各类办公设备,立即与供电部门联系电力恢复事宜,确信停电时间超过电池供电时间后,应准备好发电机,随时准备启动使用,并检查汽油存量,如不能满足发现需要,应立即购买添加。
5、防火应急处置机房发现异味(糊味)、烟雾和初始火情,应根据警报情况进行检查,同时立即向行领导报告。
机房管理人员在发现起火点时应立即利用火场手持气体灭火器进行扑救。
在接到火警报告后事业保障部负责人和本行应急领导小组相关人员应尽快到达现场,组织灭火。
对手持气体灭火器无法控制的火情,应立即切断所有电源,人员迅速撤离机房后,向“119”报警。
在条件允许情况下,首先抢救重要数据备份信息,同时立即向数据中心报告火灾情况。
遭遇严重火情、需紧急疏散时,组织机房内员工,从消防通道立即撤离火灾区域;发生爆炸事件或突发电气大火等紧急情况下,可先组织疏散再向上级报告。
火灾发生后,事业保障部负责人和本行应急领导小组相关人员负责组织保护现场,未经公安消防机关同意,无关人员不得进入现场。