当前位置:文档之家› 运维应急故障处理方案

运维应急故障处理方案

运维应急故障处理方案
运维应急故障处理方案

运维应急故障

处理方案

文件编码AQ2I-02-S001 版本V03

文件层级□一阶□二阶

■三阶

文件类别

■体系文件

□技术文件

编制部门运维部机密等级■内文□秘密□机密□绝密

编制人文件类别■通用□项目

审核编制日期

审批生效日期

总页数9 分发编号01 文件发布盖章

文件制/修订记录

页码章节制/修订记录

版本

修订人修订日期备注修订前修订后

全部全部首次制定无V01 2,3 4,5 职责/作业内容V01 V02

全部全部按新的角色职责

定义更新角色

V02 V03

1 目的

用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常运行

2 适用范围

本程序适用于所有在系统平台运行过程中能事先预测到的非自然灾害所产生的突发性事件。

3 术语和定义

突发事件:

由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故障时间达30分钟以上,造成关键服务不可用,形成重大影响的事件。

4 职责

4.1运维工程师:

负责突发性事件应急处理计划和对策的拟定和执行。

4.2 平台研发部,移动应用部,客户服务部,服务营销部:

由部门负责人及相关人员共同处理突发性应急事件。

4.3质量管理工程师:

负责突发性事件应急处理计划和对策的监督执行。

5 作业内容

5.1突发事件分类和应急处理

5.1.1 基础设施环境不可用

包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时间高于30分钟的。

对于运营商已告知问题原因时处理方案:

1.提前通知相关运营人员和客户服务部

2.通告影响时间,影响范围

3.公告用户

4.调整域名解析,启用容灾机房

对于运营商未告知问题原因时处理方案:

1.紧急联络机房接口人

2.了解故障原因,和影响时间,评估影响范围

3.紧急公告,启用预案同已知问题处理

5.1.2 设备不可用

服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间高于30分钟的故

障处理方案:

1.通知相关运营人员和客户服务部

2.启用备份设备

3.分析故障原因,通知厂家售后

5.1.3服务不可用

软件程序问题,且影响时间高于30分钟的故障处理方案:

1.通知相关运营人员和客户服务部

2.回滚到上一个稳定软件版本

3.保存日志文件,分析定位问题原因

4.通知开发人员修正软件缺陷

5.测试通过之后重新上线

数据库问题,且影响时间高于30分钟的故障处理方案:

1.通知相关运营人员和客户服务部.

2.提前建立数据库集群

3.从库出现问题,访问解析到其它从库上

4.主库出现问题,将一台从库提升为主库

5.定期全备份和增量备份数据文件

5.保存日志操作文件

遭受恶意攻击,且攻击时间高于30分钟的故障处理方案:

1. 通知相关运营人员和客户服务部.

2.在防火墙上操作内容:

定期检查更新防火墙策略;

屏蔽恶意IP;

限制每秒的连接数。

3.在服务器上操作内容:

提前部署cache服务器;

屏蔽公网访问核心服务端口;

设定iptables 策略。

4.病毒入侵等情况操作内容:

定期扫描系统和应用软件漏洞;

定期升级系统Patch;

利用云服务。

对于已经执行上述措施,仍无法抵御攻击的情况,将部分服务迁移到公有云上,利用云服务进行容灾。

5.1.4 正常业务量徒增

处理方案:

1.和相关运营部门建立即使沟通机制,了解产品推广活动

2.购置IDC富余带宽,用于抗峰值

3.将关键服务分布式部署

5.2 故障记录和备案

5.2.1建立【事件记录表】

5.2.2分析故障原因,制定解决方案,避免相似故障再次发生

5.3 应急预案演练

5.3.1明确演练范围和参与人员

如果组织是第一次进行灾难恢复演练,不要尝试在演练中测试整个业务连续性计划,而应该选择计划中的一两个部分来进行测试。多次小规模的演练比一次大规模的演练能够让组织获得更多的价值。

在明确了演练的范围后,组织需要确定演练的参与人员。参与人员通常是与演练范围相对应的执行人员,同时也可以包括熟悉演练范围的管理人员。

预先明确演练范围和参与人员的好处在于,能够深入演练,加深理解,并控制规模。当组织逐渐适应这种演练时,就可以开始进行复杂的、测试整个计划的演练了。

5.3.2组建演练规划小组

这是一个关键的步骤,组织需要将一小部分演练参与人员纳入到规划小组中。小组成员也可以包括非具体执行人员,但他们必须了解演练范围内的业务和流程。规划小组至少应该包含一位公司高层,以增强规划的可信度。

5.3.3设定演练目标

让规划小组的每一个成员都了解本次演练的范围,并通过讨论设定演练的目标。组织第一次进行演练,目标应该设定在三个到五个之间——尽量简化每一次演练。并且,在测试过程中尽量让这些目标量化或者可视化。

以下是演练目标设定的一些例子:

?验证灾难恢复流程的有效性

?验证应急通讯列表的可用性并及时更新

?让高层管理人员熟悉他们的角色和责任

?测试并提高员工的灾难恢复意识

?验证恢复时间目标(RTO)

5.3.4 设计演练场景

灾难场景可以很简单,也可以很复杂。它可能是简单的一次火灾,也可能是恶劣天气之后的一系列事件。不论如何,该场景必须能够对预定的业务连续性计划某一(些)部分进行测试,并能够达到规划小组所设定的目标。

在创建场景的时候,可以思考以下几个问题:场景是否可信?参与人员会相信该场景的可能性吗?该场景是否可能发生?是否能够获得一个积极的结果?是否足够简单?是否含有过于专业的术语以至于观众无法听懂?是否超越了参与人员的知识范围?场景解决方案是否过于简单?参与人员是否适合这一场景的设定?

组织可以考虑使用一个曾经发生过的灾难事件作为场景,这一事件可能导致,或者曾经导致了组织的业务中断。同时,组织也可以通过参考风险分析报告,选择一个最有可能发生的会影响到业务的事件。当然,风险分析报告内的事件排序

必须要被所有参与人员认可。还有一个方法是设计一个会突出已知缺点的场景,这种情况下,需要在演练中引导参与人员,让他们逐渐意识到这些缺点。

设计灾难场景时,使用参与人员都知道的真实的地点,并使用城市、当地媒体、消防部门的名称,可以帮助提高场景的真实性。

在演练的过程中,主持人需要逐渐给出更多的场景信息,并引导参与人员进行讨论,这要求掌握好时机,并最终能够导出一个具有逻辑性的结论。场景设计的一些例子包括:

?上午10点5分,大楼报出火警

?上午10点15分,火灾应急响应小组报告服务器机房起火

?上午10点20分,部门经理报告一个小组成员尚未找到,可能还在火灾大楼里这些能够引起讨论的信息可以通过各种方式传递给参与人员,例如,可以发送到参与人员的Email地址,也可以现场发放复印件,或者只是主持人口头说明这些信息,不论选择了哪种方式,要适合参与人员,并且在加入时尽量使信息更加生动有趣。

5.3.5 设计演练评估清单

在明确了演练范围、设定好演练目标后,为了恰当地衡量这些目标是否达成,需要设计一份演练评估清单,用以在演练中跟踪和记录目标的达成情况。

评估清单应该包括评估者的姓名、需要评估的目标、评估的标准等,并为评估者预留出进行评论和做笔记的地方。一份好的评估清单能够帮助组织:

?确保对演练进行很好的评估

?突出与理想状态之间的差距

?可以在培训和宣传中突出缺点

?突出设施设备的不足之处

?强调执行人员的支持和意见的必要性

?强调持续维护和演练的必要性

5.3.6选择员工担任演练中的角色

灾难恢复演练中有几个基本的角色,即参与者、观察者、评估者和主持人,每个角色都很重要,并且需要在演练前进行相应的指导与培训。

参与者:通常负责业务连续性计划特定部分的具体执行,他们不必参与到演练的规划。

观察者:可以是组织中的任何人,只要他们对组织的业务或者流程有基本的了解即可。这些人需要一直参与到演练中,并允许在演练的任何部分提出具有建设性的评论和意见。

评估者:负责评估演练和填写评估清单,观察演练中的一个或多个目标是否达成。

主持人:负责整个演练的管理、参与人员之间的沟通,提供额外的信息以逐渐推进讨论,负责演练后的总结,并完成演练报告。

5.3.7 召开演练前的指导会议

在演练实施前,召开辅导会议,向参与人员解释参与者、观察者和评估者的角色,允许他们提问,并为每一个人提供演练日程、地点和其它信息。

最重要的是要向参与人员明确一些基本规则,以帮助参与人员消除紧张情绪,这些规则包括:

?是整个组织在进行测试,不是某一个参与人员

?学习业务连续性计划,并将演练当作一次培训

?开诚布公地进行对话

?尊重他人

?讨论时不准用手指指着别人

?不要期望演练能够解决所有问题

?保持心情愉快

5.3.8进行演练后的总结

演练后的总结是整个演练过程中最重要的步骤之一。总结会议应讨论并记录演练中观察到的优点、缺点,以改进、提升组织的业务连续性计划。总结会议可以在演练

后立刻举行,但更好的建议是放在演练后的一到两天,以便给每一位参与人员时间来整理和完善他们的反馈意见。最终形成【应急预案演练记录表】

5.3.9发现不足及时完善

6.表单

应急预案演练记录表保存期4年

网络运行维护及机房应急方案计划

网络运维小组应急预案 随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。 本预案共分为应用系统故障应急流程和机房突发事件应急流程 系统故障应急流程 一、系统故障应急流程说明 1、故障发生 系统运维服务小组可从以下途径得知故障的发生: 1.1、运维服务中心通过网管告警发现故障 1.2、维护站点通过维护巡检发现故障 1.3、用户发现故障,报给呼叫中心 1.4、驻场工程师发现故障 2、报障受理 监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。 3、信息研判 运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。 4、预案启动 如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。 5、资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家 6、预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。 7、预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。 8、结果上报 预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。

运维管理解决方案

IT运维管理解决方案简介 第1章平台介绍 1.1产品定位 IT运维管理平台立足于帮助企事业单位的IT部门构筑一个统一的IT服务管理平台,它融合了主动式资源监控、资产配置管理、服务流程管理等核心功能,为IT部门的服务供给、业务快速上线、业务稳定运行提供持续保障能力。 产品定位于信息化程度较高的高端用户,注重行业化用户的需求特点,同时借助平台化的技术优势,通过功能裁剪也能满足中小规模的市场用户需求。 1.2产品架构 Broadview V6.0 R2是Broadview产品的最新版本,其系统架构可分为4个层次,对应了四大子系统:集中监控子系统、资产配置子系统、流程管理子系统、集成展现子系统。

?集中监控子系统:集中监控子系统主要实现对生产环境中IT基础设施的集中监控管理,包括了对网络设备、服务器、存储、数据库、中间件、 安全设备、业务应用系统等性能采集和事件处理,并利用监控可视化平 台提供可视化展现。 ?资产配置子系统:资产配置子系统旨在帮助用户建立统一的IT基础设施台帐。通过一系列业务建模、自动采集、调和、变更控制等手段,保证 IT生产环境中配置项的完整性和精准性,为上层服务流程提供数据支撑。 ?流程管理子系统:流程管理子系统的目的是通过规范服务流程和技术服务工作,建立一套标准的运维服务流程,围绕事件管理、问题管理、变 更管理、配置管理、发布管理等ITIL最佳实践,进行IT运维服务的流程 化、规范化管理。 ?集成展现子系统:集成展现子系统包括了统一运维门户、报表平台、权限管理等主要模块,目的是保证平台不同角色的运维人员可以通过浏览 器访问到跟自身职责对应的功能和视图。 第2章功能特点 2.1集中监控子系统 集中监控子系统主要由网络监控模块、系统与应用监控模块、统一事件平台模块、统一性能管理模块、性能管理数据库PMDB以及监控可视化平台组成;实现了对用户IT生产环境基础设施的监控,包括:网络设备、业务服务器、存储设备、数据库系统、中间件系统、安全设备、业务应用系统等。逻辑架构如下:

应用系统运维应急方案

应用系统运维应急方案(总7 页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

运维应急方案 目录 1前言 (3) 2目标 (3) 3组织结构 (3) 4应急预警 (3) 4.1应急预警级别 (3) 4.2应急预警处理流程 (4) 4.2.1一级预警处理 (5) 4.2.2二级预警处理 (5) 4.2.3三级预警处理 (6) 5附件 (6) 5.1.1故障报告单 (6)

1前言 重庆眯客信息技术有限公司运维支持部负责公司业务系统运行维护工作。 为了保障公司因业务系统的安全、平稳运行,运维支持部特此指定运维应急方案,通过此方案来保证系统的安全。 2目标 保障公司服务器的正常运行、网络的畅通。 严格岗位制度、明确工作职责,规范工作流程。 工作规范化,制度化,加强文档管理力度。 3组织结构 根据运维工作的范围和性质,下设三个小组: 系统维护组 应用维护组 技术值班组 4应急预警 4.1应急预警级别 预警级别预警标志警报内容预警级别介绍

4.2应急预警处理流程 运维过程中出现重要故障或紧急情况时,按以下规定流程进行处

理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下: 4.2.1一级预警处理 运维过程中,如果遇到一级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间查看故 障点状态,并分析故障原因。 2.运维工程师在排查出故障后,立即着手解决。 3.在故障排除后,对所发生故障的设备进行事后跟踪。 4.在故障排除后,运维工程师应对故障原因及解决办法进行详细 说明。 4.2.2二级预警处理 运维过程中,如果遇到二级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间内查看 故障点状态,并分析故障原因。 2.立即报告给组长,运维小组长应通过电话或当面把故障报告相 关部门领导,在故障完全排查清楚后以书面形式递交“故障报 告单”。 3.运维工程师在排查出故障后,如能够立即解决,则立刻解决故 障,如需要设备厂商的技术人员到现场,应立即拨打技术厂商 的技术工程师联系电话,请求立即到现场进行故障排除。

设备故障应急处理办法关键设备故障应急计划

设备故障应急处理办法关键设备故障应急计划 关于成立《李子垭南二井机电设备故障应急处理小组管理办法》的通 知矿属南二井各单位(部门): 为了降低设备故障对矿井安全生产的影响,使设备在发生故障之后能及时有效地得到快速控制处理,处置解决中得到人力、物力保障,缩短故障处理时间,保证矿井安全生产秩序有效运行,尽量减少因设备故障造成对生产的影响和损失。经研究决定,特制定本办法,希各单位(部门)认真遵照贯彻执行。 为综合培养、利用好矿内机电专业技术人才,充分发挥其专业特长,集中优势力量解决全矿机电设备发生的重大疑难问题,减少机电设备故障对生产的影响,特成立机电设备故障应急处理小组,现将有关内容通知如下: 一、组织机构管理 ㈠矿成立机电设备故障应急响应处理领导小组: 组长:矿长副组长:机电副矿长、机电副总工程师生产副矿长 成员:机运科全体成员机电科长、调度室全体成员、机电副科长以及机电运输科所有成员、、综采队、掘进队、准备队、通风队和机电运输队的队长、书记、技术员以及机电副队长、电钳班班组长。

㈡领导小组职责 1.领导小组负责全矿机电设备故障应急解决处理的统一领导、组织指挥和和协调解决工作。对现场设备发生故障立即组织落实相关人员到现场组织、指导解决。 2.组长负责设备发生故障处理解决组织和、协调工作;,由副组长负责机电设备故障应急处理解决的技术决策决策和、人力、财力、物力的组织落实等日常具体工作。 3.检查和督促矿井主要生产设备易损配、部、维护保养油脂日常筹备到位情况。 4.机运科负责现场设备发生故障应急处理解决的现场具体技术指导工作;调度室负责设备发生故障应急处理解决的进度跟踪、信息反馈及连队间相互协助协调的工作;安监科负责设备发生故障应急处理解决的现场安全监督工作。 5.责任单位负责设备发生故障应急处理解决的具体开展、物资落实、人员落实、现场实施工作。 领导小组下设设备故障组织处理办公室和设备故障技术处理办公室,调度室负责人任设备故障组织处理办公室主任,负责设备故障解决的安排落实,处置过程跟踪。机电副总任设备故障技术处理办公室主任,负责设备故障解决的技术方案制定,现场技术指导人员的安排,及制定和落实相应故障的安全技术预防措施。 二、设备故障汇报制度

运维应急预案

项目部运维应急预案 一、停电应急措施 1.当突然停电时,各部人员接到通知后,应立即赶赴现场,检查应急灯、走火通道指示等情况及停电原因,共同组织维持现场 的秩序; 2.检查机房设备,查看指示灯,确保设备在不间断电源提供的电力下正常运转。 3.如果属于阳蓄项目部营地内发生故障而引起停电的,积极配合检测排查。 4.后勤部门打开发电机前,通知业主关闭各自连接终端设备的排插电源。发电机启动后,快速检查用户终端设备是否又因突然 停电而引起的终端设备故障。 5.恢复供电后,各部门要检查各类电器设备是否完好,运行是否正常; 6.向业主及相关方反馈停电所造成的通讯设备及终端设备的情况。 二、台风应急措施: 1.各工作岗位人员应坚守岗位,未经允许或接替决不可离岗。 2.对电话线、网线等进行检查,必要时予以加固。应做好电力设备的保障工作,防止因台风引起线路故障或电击伤人事故。 3.关紧机房门窗及设备的框架的铁门,确保设备勿因外力而造成故障。 4.定点定时加强巡视,确保项目部内的各通讯设备的正常运行。 三、重大活动技术支持 1.重大活动由业主定义。 2.随时配合业主做重大活动现场技术支持 3.按业主要求进行现场的环境搭建及服务支持。 4.重大活动前,对系统进行调试检查工作。 5.重大活动期间,对信息系统设备进行定时巡视服务。 6.重大活动期间,如发生问题进行快速故障排除,必要时应聘请原厂服务人员保证重大活动过程中信息设备的稳定运行。 在紧急事故处理中应随时关注,预先防范,沉着应对,维持现场,拍照记录!

阳蓄项目部火警、火灾应急预案流程图 善后处理,记录备案。 阳蓄项目部停电、停水应急预案流程图

(完整版)IT运维管理解决方案

IT运维管理解决方案简介 V1.0

第1章平台介绍 1.1产品定位 Broadview IT运维管理平台立足于帮助企事业单位的IT部门构筑一个统一的IT服务管理平台,它融合了主动式资源监控、操作管理、资产配置管理、服务流程管理等核心功能,为IT部门的服务供给、业务快速上线、业务稳定运行提供持续保障能力。 产品定位于信息化程度较高的高端用户,注重行业化用户的需求特点,主要面向如公安、海关、社保、税务等政府行业,以及金融、能源、烟草、通信、制造等的高端行业,同时借助平台化的技术优势,通过功能裁剪也能满足中小规模的市场用户需求。 1.2产品架构 Broadview V6.0 R2是Broadview产品的最新版本,其系统架构可分为4个层次,对应了五大子系统:集中监控子系统、资产配置子系统、操作审计子系统、流程管理子系统、集成展现子系统。

图1.产品架构 ?集中监控子系统:集中监控子系统主要实现对生产环境中IT基础设施的集中监控管理,包括了对网络设备、服务器、存储、数据库、中间件、 安全设备、业务应用系统等性能采集和事件处理,并利用监控可视化平 台提供可视化展现。 ?资产配置子系统:资产配置子系统旨在帮助用户建立统一的IT基础设施台帐。通过一系列业务建模、自动采集、调和、变更控制等手段,保证 IT生产环境中配置项的完整性和精准性,为上层服务流程提供数据支撑。 ?操作审计子系统:操作审计子系统主要功能是统一管理网络设备、服务器、数据库等资源账号并合理授权,为运维人员提供统一的操作入口并 记录操作行为。 ?流程管理子系统:流程管理子系统的目的是通过规范服务流程和技术服务工作,建立一套标准的运维服务流程,围绕事件管理、问题管理、变 更管理、配置管理、发布管理等ITIL最佳实践,进行IT运维服务的流 程化、规范化管理。 ?集成展现子系统:集成展现子系统包括了统一运维门户、报表平台、权限管理等主要模块,目的是保证平台不同角色的运维人员可以通过浏览 器访问到跟自身职责对应的功能和视图。 第2章功能特点 2.1集中监控子系统 集中监控子系统主要由网络监控模块、系统与应用监控模块、统一事件平台模块、统一性能管理模块、性能管理数据库PMDB以及监控可视化平台组成;实现了对用户IT生产环境基础设施的监控,包括:网络设备、业务服务器、存储设备、数据库系统、中间件系统、安全设备、业务应用系统等。逻辑架构如下:

应用系统运维应急方案

应用系统运维应急 方案

运维应急方案

目录 1 前言 ............................................................................ 错误!未定义书签。 2 目标 ............................................................................ 错误!未定义书签。 3 组织结构 .................................................................... 错误!未定义书签。 4 应急预警 .................................................................... 错误!未定义书签。 4.1 应急预警级别 ................................................. 错误!未定义书签。 4.2 应急预警处理流程.......................................... 错误!未定义书签。 4.2.1 一级预警处理............................................ 错误!未定义书签。 4.2.2 二级预警处理............................................ 错误!未定义书签。 4.2.3 三级预警处理 ........................................... 错误!未定义书签。 5 附件 ............................................................................ 错误!未定义书签。 5.1.1 故障报告单 ............................................... 错误!未定义书签。

故障应急处理方案

故障应急处理方案 1.电源不正确引发的设备故障。电源不正确大致有如下几种可能:供电线路或供电电压不正确、功率不够(或某一路供电线路的线径不够,降压过大等)、供电系统的传输线路出现短路、断路、瞬间过压等。特别是因供电错误或瞬间过压导致设备损坏的情况时有发生。因此,在系统调试中,供电之前,一定要认真严格地进行核对与检查,绝不应掉以轻心。 2.由于某些设备的连结有很多条,若处理不好,特别是与设备相接的线路处理不好,就会出现断路、短路、线间绝缘不良、误接线等导致设备的损坏、性能下降的问题。在这种情况下,应根据故障现象冷静地进行分析,判断在若干条线路上是由于哪些线路的连接有问题才产生那种故障现象。因此,要特别注意这种情况的设备与各种线路的连接应符合长时间运转的要求。 3.设备或部件本身的质量问题。各种设备和部件都有可能发生质量问题,纯属产品本身的质量问题,多发生在解码器、电动云台、传输部件等设备上。值得指出的是,某些设备从整体上讲质量上可能没有出现不能使用的问题,但从某些技术指标上却达不到产品说明书上给出的指标。因此必须对所选的产品进行必要的抽样检测。如确属产品质量问题,最好的办法是更换该产品,而不应自行拆卸修理。 4.设备(或部件)与设备(或部件)之间的连接不正确产生的问题大致会发生在以下几 个方面: ⑴阻抗不匹配。 ⑵通信接口或通信方式不对应。这种情况多半发生在控制主机与解码器或控制键盘等有通信控制关系的设备之间,也就是说,选用的控制主机与解码器或控制键盘等不是一个厂家的产品所造成的。所以,对于主机、解码器、控制键盘等应选用同一厂家的产品。 ⑶驱动能力不够或超出规定的设备连接数量。比如,某些画面分割器带有报警输入接口在其产品说明书上给出了与报警探头、长延时录像机等连接的系统主机连成系统,如果再将报警探头并联接至画面分割器的报警输入端,就会出现探头的报警信号既要驱动报警主机,又要驱动画面分割器的情况。 解决类似上述问题的方法之一是通过专用的报警接口箱将报警探头的信号与画面分 割器或视频切换主机相对应连接,二是在没有报警接口箱的情况时,可自行设计加工信号扩展设备或驱动设备。 5.视频传输中,最常见的故障现象表现在监视器的画面上出现一条黑杠或白杠,并且或向上或向下慢慢 滚动。因此,在分析这类故障现象时,要分清产生故障的两种不同原因。 要分清是电源的问题还是地环路的问题,一种简易的方法是,在控制主机上,就近只接入一台电源没有问题的摄像机输出信号,如果在监视器上没有出现上述的干扰现象,则说明控制主机无问题。接下来可用一台便携式监视器就近接在前端摄像机的视频输出端,并逐个检查每台摄像机。如有,则进行处理。如无,则干扰是由地环路等其它原因造成的。 6.监视器上出现木纹状的干扰。这种干扰的出现,轻微时不会淹没正常图像,而严重时图像就无法观看了(甚至破坏同步)。这种故障现象产生的原因较多也较复杂。大致有如下几种原因: ⑴视频传输线的质量不好,特别是屏蔽性能差(屏蔽网不是质量很好的铜线网,或屏蔽网过稀而起不到屏蔽作用)。与此同时,这类视频线的线电阻过大,因而造成信号产生较大衰减也是加重故障的原因。此外,这类视频线的特性阻抗不是75Ω以及参数超出规定也是产生故障的原因之一。由于产生上述的干扰现象不一定就是视频线不良而产生的故障,因此这种故障原因在判断时要准确和慎重。只有当排除了其它可能后,才能从视频线不良的角度去考虑。若真是电缆质量问题,最好的办法当然是把所有的这种电缆全部换掉,换成符合要求的电缆,这是彻底解决问题的最好办法。

应用系统运维应急方案

运维应急方案

目录 1前言 (3) 2目标 (3) 3组织结构 (3) 4应急预警 (3) 4.1应急预警级别 (3) 4.2应急预警处理流程 (5) 4.2.1一级预警处理 (5) 4.2.2二级预警处理 (5) 4.2.3三级预警处理 (6) 5附件 (8) 5.1.1故障报告单 (8)

1前言 重庆眯客信息技术有限公司运维支持部负责公司业务系统运行维护工作。 为了保障公司因业务系统的安全、平稳运行,运维支持部特此指定运维应急方案,通过此方案来保证系统的安全。 2目标 ?保障公司服务器的正常运行、网络的畅通。 ?严格岗位制度、明确工作职责,规范工作流程。 ?工作规范化,制度化,加强文档管理力度。 3组织结构 根据运维工作的范围和性质,下设三个小组: ?系统维护组 ?应用维护组 ?技术值班组 4应急预警 4.1 应急预警级别

4.2应急预警处理流程 运维过程中出现重要故障或紧急情况时,按以下规定流程进行处理及汇报。在遇到故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下: 4.2.1 一级预警处理 运维过程中,如果遇到一级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间查看故障 点状态,并分析故障原因。 2.运维工程师在排查出故障后,立即着手解决。 3.在故障排除后,对所发生故障的设备进行事后跟踪。 4.在故障排除后,运维工程师应对故障原因及解决办法进行详细说 明。 4.2.2 二级预警处理 运维过程中,如果遇到二级预警,按以下流程进行处理: 1.当通过监控或得知系统出现故障时,首先在最短的时间内查看故 障点状态,并分析故障原因。

电梯故障应急处理方案

电梯故障应急处理方案 电梯故障维修应急处理方案 1. 接到报修,礼貌询问下列信息:具体地点、电梯编号、停置楼层、故障时间、故障现象、是否困人、报修人联系方式,立即记录,并迅速安排人员、工作,完成全部调度。 2. 迅速到位:电梯维修人员3 分钟内出发,30 分钟内到达(应急人员可采取最快捷方式),迅速并彻底检修故障,以最快速度恢复电梯正常使用。 3. 故障处理完毕后,详细填写电梯故障维修记录表。 4. 上报相关部门,总结经验,尽量避免故障再次发生。 水浸事故 电梯故障维修应急处理方案 1. 接到报告或巡查发现后,立刻通知相关物业管理部门,当值人员通过电梯轿厢内部对讲机,通知乘梯客人从最近楼层离开受事故影响的电梯。 2. 将受事故影响的电梯升到最高层,并关闭。 3. 迅速清理水浸楼层电梯口,防止电梯井被浸。 4. 立即上报主管人员和电梯责任承包商。 5. 尽快解决问题,恢复电梯正常运行,填写相关记录表。 电梯异常 电梯故障维修应急处理方案 1. 如电梯维护人员巡查中发现电梯安全缆有毛刺、断股,控制设备声音异常、有异味,轿厢升降不顺畅等现象,需立刻通知电梯当值部门,采取措施减少发生危险的可能。 2. 电梯当值人员接到报告,立即通过电梯轿厢内部对讲机,通知乘梯客人从最近楼层离开发生异常的电梯。 3. 关闭发生异常的电梯。 4. 立刻上报主管维修工程人员和电梯责任承包商。 5. 以最快速度检修电梯完毕,恢复电梯正常运行,填写相关记录表。注:如遇到其他复杂情况,应通知电梯公司专业人员到达处理。 7.5.2 电梯故障困人应急处理方案 凡遇电梯故障应第一时间通知专业电梯公司维修,并由工程部电 梯专业维修人员根据不同情况,依下列步骤先行释放被困乘客。 轿厢停于接近电梯门口的位置,且高于或低于楼面不超过0.5 米时: 电梯故障困人应急处理方案 1. 确定轿厢所在位置(根据楼数灯指示或小心开启外门检查)。 2. 关闭电源(在机房配电柜内)。 3. 用专门外门钥匙开启外门(钥匙由电梯员工随身携带,总钥匙在技术部钥匙柜内)。 4. 用人力开启轿厢门。

运维服务方案

1运维服务方案 1.1运维服务承诺 如我公司中标,我公司作出如下承诺: 1、运维工作人员 我司针对本项目成立专门的运维团队和项目管理机构,负责保障服务期内本项目安全、稳定地运行。我司明确运维团队组织、人员、岗位职责、工作流程等,须建立详细的运维保障体系,并提供方案。 系统运维团队须具备安全防范系统工程设计、施工和维护能力。 系统运维团队须熟练掌握网络安全配置技术,包括网络及安全设备管理、安全域划分、安全策略优化、防火墙配置、VPN管理技术。 系统运维团队须具备视频服务管理能力,精通各种视频监控设备与平台,精通视频资源目录服务体系管理,精通各种可视调度系统设备维护。 2、巡检排故工作 对重点设备的维护工作,采取分工负责的措施;节假日期间,或有重要的会议及有关活动期间,应专门安排值班,同时作好应急准备工作,必要时安排专人在现场值班,以确保系统正常运行。维护人员应围绕系统功能、系统的各项技术指标及操作运行情况,逐点、逐台、逐项地进行检验,边检边进行记录,并排除发现的故障。 3、用户信息反馈及持续改进工作 建立客户意见反馈渠道,收集对维护工作的希望、要求和意见。 建立维护工作联系卡,提供公司相关部门负责人及维护工作人员联系电话,保证与客户联系的畅通、维护工作的及时、有效。 每半年向用户送交《维护工作客户意见征询表》,收集对维护工作的意见、要求和评议。 每维护年度对客户满意度作统计分析,提交书面报告 及时修正维护工作方案、方法及纠正维护工作的不足之处,回复客户的意见和要求,提高维护工作质量和服务水平。 4、服务响应要求 (1)运营维护服务要求 我司提供服务期内详细的运行维护保障服务方案,包括服务内容、服务形式和服务保障措施。我司的运维服务方案应完全满足以下具体要求: 1)系统质量保证:服务期内,我司保障系统能以满足本招标文件中技术要求的性能有效运行,保障过程中,涉及的软硬件升级、更换、维修等所产生的费用均包含在本次服务采购中,我司对此进行服务承诺,采购人不再支付任何费用。 2)我司每月应对系统和关键设备进行巡检,写出巡检报告并提供给采购人;应对设备进行安检、除尘保洁、线路等维护,对系统进行优化等。 3)服务期内,我司设立7×24小时热线服务电话,受理采购人系统故障申告、技术咨询。我司在收到采购人系统故障申告后,必须按要求及时解决。故障级别定义与服务的具体要求如下表:

各系统设备故障的应急处理专业技术方案

各系统设备故障的应急处理方法 一、关于供电。 由于市电的供应会存在非人为的停电情况,所以很多时候停电不会得到提前通知。这就要求我们在停电后做出最快的反应,确保酒店公共区域照明、客运、供水、及消防设施在第一时间得到恢复。 1、关于发电机组发电机组以备停电时保证酒店最基本的运行条件。机组的启停正常情况下由主电(市电)的有无作为开关的条件自主启停(主电正常时发电机停止工作停电时正常情况下会在15 秒时间内启动并正常送电)。 酒店设有一台额定00KW 功率输出的 机组位置:靠停车场C 区配电房旁

2、关于短时间停电的应急处理。当发生停电时应第一时间到达配电房和发电机房两机房了解机组的运行情况和 市电的有无。这时发电机应已处于正常运行状态下,并及时了解配电房情况,如变电柜电源指示灯已经亮起说明市电报上本公司名称,祥细说明停电时间和过程、以及供电局对本次停电的知晓情况,如是人为的停电没有提前通知还应该问清楚是否还会在什么时候停电停电时间的长短好提前做好准备。如短时间内不会再停电,就应该安顺序按下5、2、3、1、4 号电柜合闸按钮全闸送电。并观察发电机的停机过程是否正常,如已正常停机应急时通知部门第一负责人停电过程和处理情况,尽快了解客梯运行情况,如果客梯有异常应通知维保公司过来协助处理,并通过保安部了解电梯内有无人员被困,如有应到天面电梯机房通过复位控制机构或手动运行电梯到最近的楼层停到平层区通过机械钥匙释放被困人员(具体操作规程见电梯的操作规程)、了解观光梯运行情况(控制机构设于6F)、了解员工电梯运行情况(控制机构设于天面)、了解-1—5F 员工

电梯运行情况(控制机构设于 5F)处理过程同客梯,了解-2F供水系统运行情况,了解暧通系统运行情况(控制机构设于6F 平台空调主机、- 1、-2F 风机控制点、各楼层09 号房过道新风机控制点),了解热水供应系统运行情况,启动6F 空调机房控制柜为机房照明及对讲机基站供电。完成所有设施设备的检查后了解配电房各路开关柜的运行情况,检查发电机的总体情况(具体流程见发电机的操及保养规程。 已经恢复。这时我们应该电询9559 3、长时间停电的处理方法与短时间停电一样只是停电期间供电来自于发电机。 二、关于停水。酒店供水系统设于- 2F 水泵房,分为高区供水、中区供水、低区供水、无负压供水等四个系统,由三个容量为60 方的水箱并联 储水,如供水单位提前通知充分做好 准备注满水后可保证酒店正常运行

银行IT运维管理解决方案

中小银行IT运维管理解决方案

北京同创永益科技发展有限公司 前言 随着国内中小银行业务信息化的深入,银行内的IT运维管理部门对辖内的IT设备及软件的运行维护工作变得越来越复杂,技术难度也越来越高。 传统的运行维护系统大多以人工为主,这种方式事件响应慢、故障排查周期长,严重影响了IT运维部门对核心业务的支撑力以及IT运营部门的声誉。同时,IT环境的不断复杂化,使得对维护人员的技术能力要求也越来越高。如何将已有的知识有效共享,使管理人员和技术人员的业务能力持续不断提高,逐渐成为IT运营部门是否高效运行的关键因素。 中小银行IT运维管理面临的问题和挑战 ?人力资源缺乏: –目前支撑各个系统正常运行的维护人员缺乏,难以完全支持所有系统的运行维护。同时通过统计发现,IT的人员流动以前主要集中 在IT公司,而现在中小银行中,那些从事IT的员工也经常发生流 动。这使得企业本身IT支持服务不具有连续性。 ?IT 系统的运维缺乏统一规划: –由于历史原因和科技规划的不一致性,目前各家银行的各个系统的维护相对独立,这样导致人力资源较大浪费,而且不利于知识的共

享。同时,也不利于维护,一旦系统出现故障,各个系统之间的配 合难以协调。 ?服务分散,整体服务水平低: –各个应用系统的水平参差不齐,许多系统之间从业务看是相互独立的,从维护来看又是相互关联的。因此,分散的服务导致整体服务 水平下降。 ?服务缺乏量化指标: –目前,中小银行银行对于ITIL体系的引进还刚刚开始,运行服务的各种制度、流程都不完善。缺乏对服务质量的标准化度量指标, 使得目前整个系统服务的质量较低。维护人员缺乏服务的热情和激 励机制,最终导致服务水平下降。 中小银行IT运维管理解决方案 运用先进的管理平台和工具,融入规范化的服务流程,实现IT系统的高可用性和弹性,从而能够更可靠、更快速地交付服务,做到服务可视化、可控化和自动化。 通过简化IT基础设施管理,降低管理复杂度,提高员工工作效率,节约劳动力成本;通过资源整合,性能评估,容量预测和规划,优化系统配置,做到资源有效利用率最大化,降低总体拥有成本。 对核心系统资源进行自动、全面、实时地监控,加快系统故障响应能力,并形成问题管理的能力。通过查找系统性能瓶颈,了解运行隐患,实现主动式、防

变电所常见故障应急处理方案

变电所常见故障应急处理方案

变电所常见故障应急处理方案 35kV GIS 开关柜: 1、断路器拒动 1.1应急处理 当远动操作失灵时,应立即安排巡检员到达现场。现场人员检查是否有拒动开关的故障信息。如果没有,可按电调命令在所内监控盘上进行操作,若操作失败,可在开关本体上当地电动操作,如果操作不成功,立即汇报电调,并通知车间生产调度。故障开关在非运营时间处理。 1.2、处理程序、方法及注意事项: 1.2.1 检查是否有SF6 气体泄漏,气压低于下限值,有无气室压力报警信号。 1.2.2 检查直流电源(控制、电机)的电压是否正常。若不正常,从直流盘馈出到断路器端子箱顺序查找。操作机构的检修必须先将合闸弹簧和分闸弹簧的能量释放掉。 1.2.3 检查控制、电机回路的空气开关有无烧损或接触不良。更换空气开关。 1.2.4 检查控制、电机回路是否断线、接触不良。紧固端子和接线。 1.2.5 检查操作机构辅助开关、限位开关转换是否到位。调整或更换辅助开关、限位开关。 1.2.6 检查分合闸线圈是否烧毁,有异味,用万用表测量线圈电

阻。更换分合闸线圈。 1.2.7 检查断路器是否已储能,电机是否烧毁,有异味,用万用表测量电机电阻。更换电机。 1.2.8 检查二次接线是否错误(新安装或检修变更二次接线后,首次投入时出现)。改正错误接线。 1.2.9 检查机构有无卡滞现象。注润滑油,处理卡滞点。 1.2.10 检查操作机构各轴连接销子是否脱落。安装连接销子。 2、断路器跳闸 2.1、应急处理 2.1.1 如发生进线开关跳闸, 故障开关退出运行,母联开关合闸,母线由一路电源供电。如引起所内一台35/0.4kV 的变压器故障或400V 母线失压时,自动切除该变电所供电区域内的三级负荷,400V 母联自投,若400V 母联自投不成功,由电调当值供电调度员经过SCADA 倒闸操作或现场变电所值班员采用手动倒闸操作,改变供电系统运行方式,由该变电所内另一台35/0.4kV 变压器承担该变电所供电区域内的一、二级负荷供电。 2.1.2 如发生环网出线开关跳闸,听从电调指挥,将故障位置隔离。待非运营时间处理故障。 2.2、程序、方法及注意事项: 2.2.1 进、出线断路器跳闸: 在控制信号盘上查看故障信息,判断保护类型。 1)差动保护跳闸。检查保护环网电缆,对保护装置进行试验、检

业务应急与运维保障方案设计

业务应急与运维保障方案

XXX .................................................................................. 错误!未定义书签。 第1章需求分析 (1) 1.1多业务应急系统建设背景 (1) 1.2信息中心运维面临的问题 (1) 1.3业务应急和运维保障系统建设的要求 (2) 第2章整体方案设计 (3) 2.1方案设计原则 (3) 2.2整体方案描述 (4) 2.3方案的扩展性 (4) 2.4方案实现的效果 (5) 2.4.1CDAP实现本地多业务应急 (5) 2.5产品价值 (5) 2.5.1“CDAP多业务应急与运维保障平台”能实现一对多的应急接管 (5) 2.5.2“CDAP多业务应急与运维保障平台”能改善备份方案 (6) 2.5.3“CDAP多业务应急与运维保障平台”提供的测试和迁移工具 (7) 第3章CDAP业务应急与运维保障平台介绍 (8) 3.1方案环境部署 (9) 3.2方案关系配置: (9) 3.2.1应急数据源 (10) 3.2.2同步配置 (10) 3.2.3备份配置 (10) 3.2.4数据同步 (10) 3.3应急机制和预案建立 (10) 第4章灾难恢复方案 (12) 4.1.1应急接管 (12) 4.1.2数据与业务系统恢复 (13) 4.1.3文件和数据库逻辑错误恢复 (13) 4.1.4服务器系统错误恢复 (14) 4.1.5服务器硬件故障异机恢复 (15) 第5章产品维护方案 (15) 5.1目的 (15) 5.2范围 (15) 5.3服务 (15) 5.4内容 (16)

IT系统运维事故应急预案

1.编制目的 建立健全项目事故应急机制,提高XXXXXXXX应对项目实施过程中突发事故的能力,保持实施体系稳定,保障客户方权益和客户满意度,促进业务健康、可持续发展 1.1.编制依据 依据XXXXXXXXPMO发布《项目质量事故预防及处理制度》,制定本预案。 1.2.事故分级 按照突发事故严重性和紧急程度,突发质量事故分为特别重大质量事故、严重质量事故、一般质量事故和轻微质量事故四级。 a)重大:由于项目组的不规范操作、不规范管理,对系统生产环境造 成严重的数据丢失、系统崩溃、当机,以及造成重大经济损失,严 重影响客户满意的质量事故,定义为重大质量事故。 b)严重:由于项目组不规范的情况下对系统生产环境所做操作,而造 成对系统生产环境的严重影响(如造成数据丢失、数据混乱)、造 成一定程度经济损失,但能通过应急措施补救、挽回部分损失的事 故,定义为严重质量事故。 c)一般:由于项目组在未得到客户方授权的情况下对系统生产环境所 做操作,而造成对系统生产环境数据损坏或混乱,但未造成较大程 度经济损失,通过应急措施可以有效保证数据完备的事故,定义为 一般质量事故。 d)轻微:未对系统生产环境造成数据影响,但不符合规范化操作和管 理要求,对系统整理质量存在较大风险,且造成项目资产的不完整, 造成轻微经济损失的。如未对代码做及时定期的备份,导致代码版 本的不完整或代码版本管理混乱的,定义为轻微质量事故。 1.3.适用范围 本预案适用于XXXXXXXX负责实施、管理的全部项目。

2.组织指挥及职责 2.1.应急责任人 项目经理为项目应急责任人。 2.2.应急协调人 项目经理必须在发生质量事故后2小时内,向所在部门经理客观反馈问题,由项目经理初步判定项目事故等级。 级别在一般(包含)以下的事故,由项目经理作为应急处理协调人,负责总体监督、协调。 级别在严重(包含)以上的事故,由部门经理作为应急处理协调人,负责总体监督、协调。 2.3.专家组 实施支持中心作为实施专家团队,负责应急处理支持,由应急责任人在接到事故时,进行协调通报。 级别在严重(包含)以上的事故,实施专家团队必须指定专人参及事故应急处理,负责支持进行项目影响评估、损失弥补方案等工作。 2.4.涉及外包项目 整体或部分外包项目发生事故时,外包商必须指派项目经理的直属上级作为应急处理外包方协调人,外包方项目经理作为外包方负责人,由外包方负责人直接参及项目事故应急处理,协调人负责资源协调;涉及外包人员事故,该人员必须直接参及应急处理。事故应急处理完毕后再根据公司制度对上述公司或个人执行惩罚。 2.5.涉及第三方供应商 涉及第三方供应商的项目事故,第三方商必须指派专人负责,直接参及项目事故应急处理,事故应急处理完毕后再根据公司制度执行惩罚。3.事故处理程序 3.1.事故响应

变电所常见故障应急处理方案

编号:AQ-JS-03566 ( 安全技术) 单位:_____________________ 审批:_____________________ 日期:_____________________ WORD文档/ A4打印/ 可编辑 变电所常见故障应急处理方案Emergency treatment scheme for common faults in Substation

变电所常见故障应急处理方案 使用备注:技术安全主要是通过对技术和安全本质性的再认识以提高对技术和安全的理解,进而形成更加科 学的技术安全观,并在新技术安全观指引下改进安全技术和安全措施,最终达到提高安全性的目的。 35kVGIS开关柜: 1、断路器拒动 1.1应急处理 当远动操作失灵时,应立即安排巡检员到达现场。现场人员检查是否有拒动开关的故障信息。如果没有,可按电调命令在所内监控盘上进行操作,若操作失败,可在开关本体上当地电动操作,如果操作不成功,立即汇报电调,并通知车间生产调度。故障开关在非运营时间处理。 1.2、处理程序、方法及注意事项: 1.2.1检查是否有SF6气体泄漏,气压低于下限值,有无气室压力报警信号。 1.2.2检查直流电源(控制、电机)的电压是否正常。若不正常,从直流盘馈出到断路器端子箱顺序查找。操作机构的检修必须先将

合闸弹簧和分闸弹簧的能量释放掉。 1.2.3检查控制、电机回路的空气开关有无烧损或接触不良。更换空气开关。 1.2.4检查控制、电机回路是否断线、接触不良。紧固端子和接线。 1.2.5检查操作机构辅助开关、限位开关转换是否到位。调整或更换辅助开关、限位开关。 1.2.6检查分合闸线圈是否烧毁,有异味,用万用表测量线圈电阻。更换分合闸线圈。 1.2.7检查断路器是否已储能,电机是否烧毁,有异味,用万用表测量电机电阻。更换电机。 1.2.8检查二次接线是否错误(新安装或检修变更二次接线后,首次投入时出现)。改正错误接线。 1.2.9检查机构有无卡滞现象。注润滑油,处理卡滞点。 1.2.10检查操作机构各轴连接销子是否脱落。安装连接销子。 2、断路器跳闸

信息系统运维服务方案

信息系统运维服务 方案

XX局信息化系统运维服务方案 XX局 6月

目录 1概述 .................................................................. 错误!未定义书签。 1.1服务范围和服务内容 ............................. 错误!未定义书签。 1.2服务目标................................................. 错误!未定义书签。2系统现状 .......................................................... 错误!未定义书签。 2.1网络架构................................................. 错误!未定义书签。 2.2设备清单................................................. 错误!未定义书签。 2.3应用系统................................................. 错误!未定义书签。 2.4存储系统................................................. 错误!未定义书签。 2.5备份系统................................................. 错误!未定义书签。3服务方案 .......................................................... 错误!未定义书签。 3.1系统日常维护 ......................................... 错误!未定义书签。 3.2信息系统安全服务 ................................. 错误!未定义书签。 3.3系统设备维修及保养服务...................... 错误!未定义书签。 3.4软件系统升级及维保服务...................... 错误!未定义书签。4服务要求 .......................................................... 错误!未定义书签。 4.1基本要求................................................. 错误!未定义书签。 4.2服务队伍要求 ......................................... 错误!未定义书签。

(完整word版)运维系统及中心机房应急预案

运维小组应急预案 随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,确保员工安全,特制定本应急处置预案。 本预案共分为应用系统故障应急流程和机房突发事件应急流程 系统故障应急流程 一、系统故障应急流程说明 1、故障发生 系统运维服务小组可从以下途径得知故障的发生: 1.1、运维服务中心通过网管告警发现故障 1.2、维护站点通过维护巡检发现故障 1.3、用户发现故障,报给呼叫中心 1.4、驻场工程师发现故障 2、报障受理 监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。 3、信息研判 运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。 4、预案启动 如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。 5、资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源: 我公司技术支持人员; 相关厂家技术支持人员; 我公司聘请的技术专家 6、预案执行 按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。 7、预案终止 预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。 8、结果上报 预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。

相关主题
文本预览
相关文档 最新文档