当前位置:文档之家› 数据中心与信息系统灾难恢复

数据中心与信息系统灾难恢复

数据中心与信息系统灾难恢复
数据中心与信息系统灾难恢复

数据中心是集成化的IT应用环境,并且随着业务的整合以及新业务的不断涌现,数据中心变得愈加庞大和复杂,业务数据也变得愈加关键。任何断电、系统故障和人为操作不当都有可能造成关键数据的丢失,继而造成企业业务的停滞和不可估量的经济损失。如何应对数据大集中所带来的风险已成为人们关注的重点。为了应对各种自然灾难(火灾、水灾、地震等)和人为灾难(误操作、病毒等)对企业数据中心的安全和正常运行带来的冲击,近年来,信息系统灾难恢复(通常也称为“灾备”)建设日益受到社会的关注和重视。

信息系统灾难恢复是指将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行

状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态而设计的活动和流程。为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程称为灾难备份。正常情况下,对生产系统运行进行数据处理和支持关键业务功能运作的场所被称为生产中心。在灾难发生时接替生产系统运行进行数据处理和支持关键业务功能运作的场所被称为灾难备份中心(简称“灾备中心”),它包括备用的数据处理中心、备用的工作环境、备用的生活设施和技术支持及运行管理人员。

生产中心是信息系统灾难恢复的对象,而灾备中心是信息系统灾难恢复的基础,生产中心和灾备中心是数据中心的不同形态,而数据中心则是信息系统灾难恢复的载体。

对于那些高度依赖其信息系统运作的行业和企业而言,为保障信息系统安全稳定运行,人们采用了从技术、管理直至备份等诸方面的措施。其中数据中心基础设施是保障信息系统安全运行最重要的基础。从国际行业经验来看,大部分引发信息系统灾难的事件完全可以通过加强数据中心基础设施建设及运维管理来消除、或者减轻其不良影响。因此,对于业务连续性要求较高的行业和企业来说,选择高可用性数据中心作为生产中心和灾备中心是抵御灾难风险,保障业务持续运行的前提和根本。

9.2?数据中心的灾难恢复策略

信息系统灾难恢复起源于20世纪70年代,目前在政府、金融、电信、交通、能源、公共服务业以及大型制造、零售业等对信息化依存程度高的行业应用极其广泛。在震惊世界的“9?11”恐怖事件发生以后,“灾难恢复”更是成为全球性的信息化课题,即在政府或企业的数据中心遭遇自然灾难或人为侵害时,启用同城或异地建立的备份数据中心提供不间断的数据信息服务,从而保证政府或企业的业务连续性。

根据战略与业务需求的不同,灾难恢复基础设施可采用同城或异地两种布局方式。同城方式是指生产中心与灾备中心处于同一地理区域,面临同一区域性灾难风险,一般距离在20~100km以内。异地方式是指生产中心与灾备中心处于不同地理区域,通常不会同时面临同一区域性灾难风险,一般距离在数百公里以上。在同城方式下,用于数据保护及应用访问的网络使用费用相对较低,用户灾难恢复响应及业务恢复速度较快,但抵御灾难的能力有局限性。异地方式下,对区域性灾难的防范能力较强,但用于数据保护及应用访问的网络使用费用较高,用户灾难恢复响应及业务恢复速度相对较慢。

数据中心的灾难恢复解决方案取决于对生产中心及业务的风险分析和业务影响分析,根据分析的结果确定灾难恢复目标,尤其是恢复时间目标(RTO)和恢复点目标(RPO),进而选择同城、异地或同城加异地的灾难恢复策略。

9.3?灾备中心对数据中心的特殊要求

灾备中心是以最高的可靠性和可用性为标准建设的,具备数据实时备份、冗余处理能力和网络传输条件,能够在主数据中心(生产中心)面临灾难无法正常运作的时候提供替代服务,对业务系统进行紧急恢复。灾备中心和生产中心(包含互联网数据中心)都属于数据中心,都是对数据设备集中存放和管理的场所,在基础设施的要求上很多相同之处,有时

两者能够同时设置在同一建筑体中,但服务对象和业务内容不尽相同,特别是在辅助配套设施方面存在极大的差异。

数据中心在选址时通常需要远离加油站等易燃易爆场所,远离粉尘、强振动源和强电磁辐射源,选择交通通信方便、配套设施齐全、自然环境和地质条件良好的地方,从而有利于保证设备的安全运行,减少周围环境对其设备的危害,这是生产中心和灾备中心在选址时的共同点。

在选择或建设灾备中心时,应根据风险分析的结果,避免灾备中心与生产中心同时遭受同类风险。灾备中心还应具有方便灾难恢复人员或设备到达的交通条件,以及数据备份和灾难恢复所需的通信和电力等资源。

灾备中心的选址应遵循以下主要原则。

1. 策略性

首先,明确灾备中心的定位,即灾备中心的建设目的是防范什么样的灾难事件,在灾难发生时又能够提供何种服务。根据定位的不同,在选址时应采取不同的策略,例如,灾备中心若想在局部战争条件下提供服务,在选址时就不能靠近军事目标或准军事目标等。此外,应充分考虑物理安全性,避免建于闹市区,通常适宜建在郊区。

2. 风险性

在选择或建设灾备中心时,应当充分考虑备选场址包含的风险是否在可容忍的范围之内,是否符合灾难恢复规划或业务连续计划的具体要求。例如,生产中心与灾备中心之间应当保持一个安全距离,必须避免因同一灾难导致两个中心同时处于灾难事件当中的可能性。又如,应选择独立的数据中心建筑物,有效隔离灾备中心与周边的建筑。确保周边建筑发生火灾或其他紧急情况时,不会影响到灾备中心的安全。此外,灾备中心应当确保与生产中心不在同一灾难风险区域,以规避灾难风险。

3. 科学性

选择或建设灾备中心时,应对备选场址进行相关的场地风险评估,科学和全面地评价备选场址。

4. 适合性

对于选定的场址而言,首先应符合《电子计算机场地通用规范》(GB/T 2887—2000)的要求;其次还要关注场址周边环境、地质地理条件、市政配套条件、电力供应条件以及通信服务商所能提供的服务能力等诸多因素,全面判断是否符合灾备中心的建设要求。

5. 便捷性

对于灾备中心,其周边应有多条道路用于保证相关人员和物资能够顺利和快速到达。例如,要求有2条或2条以上从机场到达灾备中心的道路,时间限制在1小时内。确保主数据中心发生灾难时,相关业务专家和IT工程师能够迅速赶到灾备中心现场,实施恢复业务。

从基础设施功能分区的角度考虑,生产中心和灾备中心都应当配置IT设备区、监控室、UPS室、会议室、其他设备用房、客户接待区、客户操作区、客户测试室和客户休息室等。由于灾备中心需要为客户提供灾难发生时进行紧急恢复的工作空间,还应包括指挥中心室、新闻发布厅、VIP办公室、介质储存室和问题解决室等。指挥中心室作为灾备中心的总控中心,实时反映灾备中心的运营状况,采用多方位自动化信息集中处理及多媒体信息展示方式,对灾备中心进行集中监控管理。在客户较多的情况下,可以单独设立问题解决室作为客户各自的总控中心,通过带内和带外两种方式连接客户设备区域。而新闻发布厅则是客户在灾难发生时或者灾难恢复后的新闻发布场所。

下面将简要介绍灾备中心基础设施涵盖的范围和基础设施规划原则。

1. 灾备中心基础设施涵盖的范围

灾备中心是灾难恢复所需的、支持灾难备份系统运行的场所,包括介质的场外存放场所、备用的机房及工作辅助设施,以及允许灾难恢复人员连续停留的生活设施。按照工作性质可分为工作设施、辅助设施和生活设施三个部分见表9-1。

表9-1 灾备中心基础设施分类

2. 灾备中心基础设施规划原则

(1) 经济性。根据灾难恢复或业务连续计划的需求不同,选择或建设灾备中心时应根据实际情况给出适当的基础设施规划,降低成本。

(2) 空间性。根据灾难恢复或业务连续计划的需求和面临的风险不同,针对灾备中心的特点应当预留足够空间,避免由于预留空间不足影响到灾备中心的正常运行。例如,由于货运通道过于狭窄导致某些特定设备不能顺利搬运。

(3) 可靠性。根据灾备中心的特点,规划时应注重基础设施的可靠性,尽量避免由于单点故障造成的风险。

(4) 低调性。应考虑周边环境,不宜采用比较醒目的方式强调灾备中心,避免在特定条件下成为公众普遍关注的焦点,应采用融入周边环境的方式。

(5) 合理性。应充分考虑各类设施之间的相互关系,合理布置并预留足够的扩展空间。

(6) 管理性。应注重采用易于管理的技术或方法,提高灾备中心的工作效率,增强管理能力。

维管理要求

灾难恢复业务的特殊性为灾备中心的日常运营管理带来了与众不同的挑战,具体包括:1. 7×24×365的要求

由于大多数灾难的发生是无法预知的,作为灾备中心必须能够提供7×24×365不间断的灾难恢复服务,确保灾难事件发生后有足够的能力支持业务恢复。如何能使灾备中心

的工作人员时刻保持高度的责任心和敏感度去面对每一项日常工作,使企业的服务水平在一年的每分每秒都能保持同样的水平,这是灾备中心管理层所关注的一个主要问题。

2. “小概率、高风险”的管理要求

由于灾难事件的发生属于小概率事件,因而真正能够使用到灾备中心的概率很小。如何在平时几乎不使用的情况下,仅依靠日常的严格管理就能确保所有服务的可用性,则是灾备中心管理的另一个难点。

3. “演练为主,实操为辅”的日常管理要求

如前所述,灾备中心的启用本身就是一个小概率事件,兼之在业务连续管理中有一个重要的原则就是要对业务连续计划经常演练。因此,日常管理中应当经常采用各种各样的方式,使灾备中心的人员投入到不同的场景当中。通过这种经常性的演练,让他们熟悉每一项工作的步骤,而且能逐渐适应灾难场境中所带来的各项压力,确保当灾难真正来临时,灾备中心的人员均能按要求完成相关工作。

4. 工作重复性较强

由于灾备中心另一个重要的职责就是要确保放置在灾备中心的灾备系统平常的可用性。因此,灾备中心应习惯于制订详细的设备检查与维护工作计划,然后按每半个小时、1个小时或其他频率实施计划。

5. 质量控制难度较大

灾备中心归根到底就是通过日常严格的管理与训练有素的演练,在必要时提供灾难切换服务,能够满足RPO(灾难恢复时间点目标:主要指灾备系统可以恢复至灾难发生前的具体时间点)与RTO(灾难恢复时间目标:主要指利用灾备系统接管生产系统恢复运营所需要的时间)的要求。保证灾难恢复的有效性是一项非常专业的工作。

灾备中心的运营管理非常复杂,从日常的运维到灾难发生时的应急响应、恢复和回退,是一个专业的、持续运行的过程,如图9-1所示。

图9-1

灾备中心运维管理

9.4?灾难恢复国家和行业标准规范

我国政府十分重视标准在信息系统灾难恢复建设中的规范性和指导性作用。国务院信息化工作办公室于2005年4月份下发了《重要信息系统灾难恢复指南》(国信办〔2005〕8号),明确了灾难恢复工作的流程、灾难恢复能力的等级划分及灾难恢复预案的制订。2007年6月14日,《重要信息系统灾难恢复指南》经修订完善后正式成为国家标准《信息安全技术信息系统灾难恢复规范》(GB/T 20988—2007)。

2008年2月4日,中国人民银行发布了行业标准《银行业信息系统灾难恢复管理规范》(JR/T0044—2008)。它将信息系统按时间敏感性分成三类需求等级,确定了每类信息系统灾难恢复的最低要求。

2008年3月21日,中国保险监督管理委员会发布了《保险业信息系统灾难恢复管理指引》,对灾难恢复组织机构、需求分析和策略制定、灾难备份中心的建设与运行维护、

资源和专业服务的获取和保障、灾难恢复预案的管理、应急响应和灾难恢复、审计和备案等提出了监管要求。

数据中心灾备服务

数据中心灾备服务 方案相关内容 如何应对“将鸡蛋放在一个篮子里”所带来的风险?对于信息化应用而言,灾备系统的建设已成为备受关注的热点和重点。 概述 数据中心是数据大集中而形成的集成IT应用环境,它是各种IT应用服务的提供中心,是数据计算、网络、存储的中心。数据中心实现了安全策略的统一部署,以及对IT基础设施、业务应用和数据的统一运维管理。 数据大集中的同时也对数据安全提出了更高的要求,如何应对“将鸡蛋放在一个篮子里”所带来的风险,已成为备受关注的重点。面对频频发生的雪灾、地震等自然灾害,对于信息化应用而言,灾备系统的建设也已成为热点。随着2007年11月《信息系统灾难恢复规范》正式成为国家标准,许多用户将从观望、徘徊转向实际应用。对于正处于服务转型期的电信运营商来说,借助灾备中心应用热潮,提供更有价值的信息化服务,改变原有的、单一的网络接入商角色,是值得把握的一次良好机会。 灾难备份概念介绍 1. 灾难备份的分类 灾备从应用层次,大体可分为三个类别:数据级别、应用级别和业务级别。从用户整个业务连续性的保障程度来看,其高可用性级别也随之逐级提高。 1) 数据级别 数据级别灾备的关注点在于数据,即灾难发生后可以确保用户原有的数据不会丢失或者遭到破坏。数据级别灾备是保障数据可用的最低底线,当数据丢失时能够保证应用系统可以重新得到所有数据。这种方案的优点是投入低,构建简单。 2) 应用级别 对于业务应用繁多,并且系统需要保持7*24小时连续运行的企业来说,显然需要高级别的应用灾备系统来满足其需求。应用级备份是在数据级灾备的基础上,在备份站点同样构建一套应用系统。应用级灾备系统能提供不间断的应用服务,使用户的服务请求能够透明地继续运行,保证信息系统提供的服务完整、可靠和安全,完全不受灾难的影响。一般来说,应用级灾备系统需要通过更多软件来实现,它可以使企业的多种应用在灾难发生时进行快速切换,确保业务的连续性。 3) 业务级别

信息系统灾难恢复方案

信息系统灾难恢复方案(总6 页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

信息系统灾难恢复方案 第一章总则 第一条为规范并指导我公司生产系统灾难恢复工作,提高防范灾难风险的能力,保障持续运营,保护客户的合法权益,根据国家信息安全法律法规及有关规定,制定本预案。 第二条生产系统灾难恢复工作应坚持“统筹规划、平战结合、等级灾备”的原则,平衡成本与风险,确保工作的有效性。 第三条本指引所称灾难恢复为生产系统灾难恢复。灾难恢复工作是指,为保障生产系统持续运营,防范灾难风险并减轻灾难造成的损失和不良影响而开展的一系列工作,包括:组织机构设立和职责、灾难恢复需求分析、灾难恢复策略制定、灾难备份系统实施、灾难备份中心的建设与运行维护、灾难恢复预案管理、应急响应和恢复。 第二章总体工作要求 当生产系统及相关业务流程发生重大变更时,应立即启动灾难恢复需求的再分析,并根据最新的灾难恢复需求分析重审和修订灾难恢复策略。根据灾难恢复策略定期复审和调整灾难恢复技术方案、灾难恢复预案,并定期开展灾难恢复预案培训和演练工作。加强与业务密切相关的机构间的协调,共同评估面临的风险,协同制定灾难恢复策略,提高整体风险防范和灾难恢复能力。

第三章灾难恢复项目小组的制定和职能 1.管理组:小组人员:职责:统筹规划,指挥各小组按照既定计划进行执行。 2.部门恢复组小组成员:职责:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。 3.计算机恢复组:小组成员:职责:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。 4.损坏评估组: 小组成员: 职责:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。 5.安全组: 小组成员职责:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。 6.设备支持组: 小组成员:职责:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。 7、数据恢复组: 小组成员:职责:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。

XX财产保险股份有限公司信息系统灾难恢复预案

XX财产保险股份有限公司信息系统灾难恢复预案 2014-11

目录 1目标与范围 (2) 1.1灾难的定义............................................................................ 错误!未定义书签。 1.2容灾目标 (4) 1.3容灾范围 (5) 1.4灾难恢复演习执行周期 (5) 1.5灾难恢复计划启动决策流程 (5) 1.6灾难声明的内容 (5) 1.7灾难恢复指挥中心和异地灾备中心 (5) 2组织与职责 (6) 2.1团队组织图 (6) 2.2灾难恢复团队 (6) 2.3全部成员通讯录 (17) 3紧急响应流程 (17) 3.1灾难预警 (17) 3.2人员疏散 (17) 3.3损害评估 (17) 3.4研判和灾难宣告 (17) 4恢复及重续运行流程 (18) 4.1恢复 (18) 4.2重续运行 (18) 5灾后重建和回退 (19) 5.1生产系统的重建工作流程 (19) 5.2专业技术保障........................................................................ 错误!未定义书签。 5.3通信保障................................................................................ 错误!未定义书签。

1目标与范围 1.1灾难恢复预案中的相关术语 1)灾难备份中心backup center for disaster recovery 用于灾难发生后接替主系统进行数据处理和支持关键业务功能运作的场所,可提供灾难备份系统、备用的基础设施和专业技术支持及运行维护管理能力,此场所内或周边可提供备用的生活设施。 2)灾难备份系统backup system for disaster recovery 用于灾难恢复目的,由数据备份系统、备用数据处理系统和备用的网络系统组成的信息系统。 3)业务连续管理business continuity management 为保护组织的利益、声誉、品牌和价值创造活动,找出对组织有潜在影响的威胁,提供建设组织有效反应恢复能力的框架的整体管理过程。包括组织在面临灾难时对恢复或连续性的管理,以及为保证业务连续计划或灾难恢复预案的有效性的培训、演练和检查的全部过程。 4)业务影响分析business impact analysis 分析业务功能及其相关信息系统资源、评估特定灾难对各种业务功能的影响的过程。 5)关键业务功能critical business functions 如果中断一定时间,将显著影响组织运作的服务或职能。 6)数据备份策略data backup strategy 为了达到数据恢复和重建目标所确定的备份步骤和行为。通过确定备份时间、技术、介质和场外存放方式,以保证达到恢复时间目标(3.17)和恢复点目标(3.18)。 7)灾难disaster 由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。通常导致信息系统需要切换到灾难备份中心运行。

全球数据中心灾难史大盘点

触目惊心!全球数据中心灾难史大盘点2012-11-29 数据中心的常见【杀手】 数据中心,支撑整个IT系统正常运转的后台架构,囊括了计算、存储、网络等多种IT资源。也正是因为数据中心地位的重要性和在现代社会生活中扮演的重要角色,使得数据中心的安全和持久稳定运行成为了人们极为关注的问题。然而,前段时间飓风桑迪为代表给数据中心带来的灾难性创伤,再次引发了人们对数据中心的安全担忧。本文,将为读者介绍全球数据中心遭遇到的灾难事故,并从中总结得出数据中心安全杀手以及如何防范等问题。 本月早些时候,飓风桑迪重创美国东海岸,尤其是支持着整个工业园运转的数据中心在此次飓风肆虐中因断电而瘫痪,造成了难以挽回的巨大损失。 那么,数据中心常见的杀手有哪些呢?换句话说,究竟有哪些因素会影响数据中心的正常运行、而需要我们特别加以重视的呢?一般说来,以下因素或者灾害对数据中心会带来较大危害: 一、洪灾 毋庸置疑,曾经泰国洪灾给硬盘产业带来的影响就可以“窥一叶而知春秋”,数据中心也同样害怕汹涌的洪灾; 二、火灾 俗话说“大火无情”,一旦出现火灾事故,后果不堪设想。也正是如此,数据中心往往都备有消防装备; 三、网络中断 光纤网络在很多偏远地区并不常见,如果路由器、交换机出现宕机或者人为误操作(误配置)导致网络中断,后果同样不堪设想。没有网络的数据中心宛如一座孤岛——对于提供网络或者云服务的数据中心来尤其如此; 四、电力中断 相比网络中断,电力中断带来的麻烦更大。没有电力的数据中心就如同一堆废铁; 五、地震 去年日本大地震带来的影响,大家可能都历历在目。身处地震带或者地震频发周边的数据中心尤其要注意在防震方面的设计和构建。

保监会 保险业信息系统灾难恢复管理指引 - 2008

关于印发《保险业信息系统灾难恢复管理指引》的 通知 2008-03-27 【字体:大中小】【打印本页】【关闭窗口】 保监发〔2008〕20号 各保险公司、保险资产管理公司: 为加强保险信息安全基础设施建设,推进信息系统灾难恢复工作,根据《中华人民共和国保险法》和国家有关信息安全法律法规,我会制订了《保险业信息系统灾难恢复管理指引》,现印发给你们,请遵照执行。 二○○八年三月二十一日 保险业信息系统灾难恢复管理指引 第一章总则 第一条为规范并指导我国保险业信息系统灾难恢复工作,提高防范灾难风险的 能力,保障持续运营,保护客户和股东的合法权益,根据《中华人民共和国保险法》、国家信息安全法律法规及有关规定,制定本指引。 第二条保险业信息系统灾难恢复工作应坚持“统筹规划、资源共享、平战结合、 等级灾备”的原则,平衡成本与风险,确保工作的有效性。 第三条本指引所称保险机构是指,经中国保险监督管理委员会(以下简称“中国 保监会”)批准设立,并依法登记注册的保险公司、保险资产管理公司、外国保险公司 分公司及港、澳、台地区保险公司在大陆地区的分公司。 第四条本指引所称灾难恢复为信息系统灾难恢复。灾难恢复工作是指,为保障信息系统持续运营,防范灾难风险并减轻灾难造成的损失和不良影响而开展的一系列工作,包括:组织机构设立和职责、灾难恢复需求分析、灾难恢复策略制定、灾难备份系统实施、灾难备份中心的建设与运行维护、灾难恢复预案管理、应急响应和恢复。 本指引所称区域性灾难是指,造成所在地区或有紧密联系的邻近地区的交通、电讯、电力及其它关键基础设施受到严重破坏,关键信息网络设备毁损、重大故障或大规模人口疏散的事件,将会导致信息系统无法正常运行。例如:地震、大型公共卫生事

灾难恢复管理流程

罕王实业集团有限公司 信息中心 灾难恢复管理流程 编号及版本号:HK 责任部门:信息中心 发布(施行)日期:2015年1月 4 日编制人: 审核人: 批准人:

《信息中心灾难恢复管理流程》履历表 表单编号: 第一章总则 目的 确保公司业务的持续性,避免人为和自然灾害带来的风险。具体目标如下:1)将信息系统运行的中断降到最低; 2)限制中断和损害的范围;

3)将中断的经济影响降到最低; 4)预先建立备用操作方法; 5)培训人员处理紧急过程; 6)提供顺利快速的恢复服务。 适用范围 本流程适用于信息中心负责的所有信息系统。 职责 1 表 2 表 第二章细则 流程说明 资产列表 在此列出了公司业务持续所必须依赖的信息系统和重要数据,下列各表应6个月核查一次。1)基础硬件:包括服务器、磁盘阵列、个人计算机、打印机、传真机、磁带机、常规数据 表 2 表 3 表

灾难恢复计划 自然灾害 这里的自然灾害指造成公司所在建筑物毁灭性损失的火灾、地震、水灾、地面塌陷等灾害。自然灾害在灾难分类中出现几率最小,但造成损失是最大的。流程说明如下: 1)确定损失情况。 自然灾难发生后,灾难恢复小组成员立即建立联系,具体了解公司的损失情况,了解的范围包括:人员、物理设备、数据。 小组成员根据了解到的损失情况编制《损失一览表》。 2)通知用户服务中断。 损失情况了解清楚后,灾难恢复小组成员讨论预估的恢复时间。 灾难恢复小组组长根据《损失一览表》确定有哪些服务不能正常提供,马上联系用户通知服务中断并告知估计的恢复时间。通知用户可以通过电话联系、张贴通知、电子邮件等方式。 3)联系保险公司。 发布服务中断的信息后,灾难恢复小组组长根据《损失一览表》中记录的损失情况检查是否有财产投保,如果有则应马上联系保险公司申请理赔。 4)联系服务商。 灾难恢复小组确定损失情况后,小组成员根据《损失一览表》中记录的设备损失列表,联系该设备的提供商,重新购置或者租用设备,并确定设备的到货日期和地点。 5)确定新的机房和办公地点。 如果公司原先的机房和办公地点已经无法使用,灾难恢复小组组长应向总裁提出申请,确定新的机房和办公地点。 6)安装调试新的物理设备。 新设备到货后,灾难恢复小组组长部署新设备的安装和调试工作。安装调试任务明确后,灾难恢复小组组长应和各信息系统管理员确定完成部署的时间,如果完成时间和前期通知用户的时间不同,应通知用户最后确定的系统恢复时间。 7)恢复系统数据。 新设备安装完成后,IT(网络、操作系统)工程师取出备份的最新数据,执行数据恢复操作,各应用系统的数据恢复参照各应用系统的操作手册。 8)告知用户服务已恢复。 系统恢复运行后,恢复小组组长向用户发布通知,告知系统已经恢复运行。 9)填写《灾难恢复报告》。 流程图请见图1。 电力故障 UPS能够避免短时间的电力中断故障造成的损失。这里的电力故障指超出UPS承受范围的大范围停电事故,这种长时间的停电会造成业务停止和数据的丢失。流程说明如下: 1)确定恢复时间。 IT(网络、操作系统)工程师在明确电力中断故障后,立即联系电力供应部门,了解电力故障的原因,确定电力恢复的时间。并立即通知各信息系统管理员。 2)关闭设备。 IT(网络、操作系统)工程师在UPS供电期内关闭所有服务器设备,防止断电造成损失。3)通知用户。 系统管理员通知用户因电力故障服务中断,并告知用户恢复的大概时间。通知的方式可以是电话、张贴通知、邮件等。 4)启动服务器。 在电力供应恢复正常后,IT(网络、操作系统)工程师按照手册启动设备,并通知各个应用管理员检查各自负责的应用系统是否已经正常启动。如果应用管理员发现应用程序没有

计算机系统灾难恢复计划

嘉兴冠誉时装有限公司 计算机系统灾难恢复计划 一、灾难的定义 灾难分为自然灾害和非自然灾害。 自然灾害是指由火灾、地震等引发的一系列灾害直接导致公司的业务中断、电力故障、网络故障等。 非自然灾害是指人为的造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。 二、灾难恢复项目小组的制定和职能 1.管理组:统筹规划,指挥各小组按照既定计划进行执行。 2.部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。 3.计算机恢复组:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。 4.损坏评估组:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。 5.安全组:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。 6.设备支持组:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。 7、数据恢复组:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。 8、市场和客户关系组:负责对外进行信息发布、制定相应应急措施应对客户疑问等。 各小组共同职能: a)负责计划的执行 b)与其它组之间进行信息交流,监督计划的测试和执行 c)所有或是某一个成员可能领导特定的组 d)协调恢复过程 e)评估灾难,执行恢复计划,联系组长 f)监控并记录恢复的过程 三、业务恢复流程 (一)自然灾害引起的灾难恢复流程 由自然灾害引起的灾难往往影响较大,可能会直接导致一些基础设施的无法使用,甚至会对导致人员减少。因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。 1.数据抢救 灾难发生时,需在保证人身安全的情况对公司的重要数据进行抢救,抢救的范围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。 2.损坏评估及启动应预案 灾难发生后各小组需根据情况汇报损失情况给损坏评估组,损坏评估组根据汇总信息进行消息告知披露。披露损坏信息包括: a)公司重要生产、监视测量、办公设备

重要信息系统灾难恢复指南-2007年版

重要信息系统灾难恢复指南 作者:国务院信息化办公室 引言 灾难恢复是确保信息和信息系统安全的一项重要措施。遵从重要信息系统灾难恢复指南的要求,是做好重要信息系统灾难恢复工作的基础。 本指南用于规范和指导重要信息系统的使用和管理单位对信息系统灾难恢复的规划和准备工作。本指南主要从灾难恢复规划的管理、灾难恢复的需求分析、灾难恢复等级的确定、灾难恢复等级的实现、灾难恢复预案的制订、落实和管理等方面,对灾难恢复的规划和准备活动的规范化要求进行全面描述。本指南还以规范性附录的形式对灾难恢复的等级划分进行了描述,并以资料性附录的形式对灾难恢复预案的框架进行了说明。 1-1 1 范围 本指南规定了对重要信息系统的灾难恢复应遵循的基本要求。 本指南适用于指导重要信息系统的使用和管理单位(以下简称“单位”)进行灾难恢复的规划和准备工作,对重要信息系统灾难恢复规划项目的审批和监督管理也可参照使用。 2 规范性引用文件 下列文件中的条款通过本指南的引用而成为本指南的条款。凡是注日期的引用文件,其随后所有的修改单(不包含勘误的内容)或修订版均不适用于本指南,然而,鼓励根据本指南达成协议的各方研究是否可适用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本指南。GB/T 5271.1—2000 信息技术词汇第1 部分:基本术语 GB/T 5271.9—2000 信息技术词汇第9 部分数据通信 GB/T 5271.12—2000 信息技术词汇第12 部分外围设备 GB/T 5271.20—94 信息技术词汇20 部分系统开发 GB/T 2887-2000 电子计算机场地通用规范 3 术语和定义 GB/T 5271.1—2000 第1 部分、GB/T 5271.9—2000 第9 部分、GB/T 5271.12—2000 第12 部分和GB/T 5271.20—94 第20 部分确立的术语和定义,以及下列术语和定义适用于本指南。 3.1灾难disaster 由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到备用场地运行。 3.2灾难恢复disaster recovery 将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难

灾难恢复计划

灾难恢复计划 一、灾难的定义 灾难分为自然灾害和非自然灾害。 自然灾害是指由火灾、地震等引发的一系列灾害直接导致公司的业务中断、电力故障、网络故障等。 非自然灾害是指人为的造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。 二、灾难恢复项目小组的制定和职能 1.管理组:统筹规划,指挥各小组按照既定计划进行执行。 2.部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。 3.计算机恢复组:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。 4.损坏评估组:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。 5.安全组:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。 6.设备支持组:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。 7、数据恢复组:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。

8、市场和客户关系组:负责对外进行信息发布、制定相应应急措施应对客户疑问等。 各小组共同职能: a)负责计划的执行 b)与其它组之间进行信息交流,监督计划的测试和执行 c)所有或是某一个成员可能领导特定的组 d)协调恢复过程 e)评估灾难,执行恢复计划,联系组长 f)监控并记录恢复的过程 三、业务恢复流程 (一)自然灾害引起的灾难恢复流程 由自然灾害引起的灾难往往影响较大,可能会直接导致一些基础设施的无法使用,甚至会对导致人员减少。因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。 1.数据抢救 灾难发生时,需在保证人身安全的情况对公司的重要数据进行抢救,抢救的范围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。 2.损坏评估及启动应预案 灾难发生后各小组需根据情况汇报损失情况给损坏评估组,

数据中心灾备系统的分类

数据中心灾备系统的分类 根据数据中心的安全要求,应对灾难恢复系统采用的技术路线做出全面的考虑。 1.数据级容灾和应用级容灾 按照容灾系统对应用系统的保护程度可以分为数据级容灾和应用级容灾,业务级容灾的大部分内容是非IT系统。 数据级容灾系统只保证数据的完整性、可靠性和安全性,但提供实时服务的请求在灾难中会中断。应用级容灾系统能够提供不间断的应用服务,让服务请求能够透明(在灾难发生时毫无觉察)地继续运行,保证数据中心提供的服务完整、可靠、安全。因此对服务中断不太敏感的部分可以选择数据级容灾,以便节省成本,在数据级容灾的基础上构建应用级容灾系统,保证实时服务不间断运行,为用户提供更好的服务。 (1)数据级容灾。通过在异地建立一份数据复制的方式保证数据的安全性,当本地工作系统出现不可恢复的物理故障时,容灾系统提供可用的数据。数据级容灾是容灾的基础形式,由于只需要考虑数据的复制和存放,不需要考虑备用系统,实现起来相对简单,投资也较少。数据级容灾需要考虑三方面问题:在线模式与离线模式问题;远程数据复制技术问题;同步与异步容灾问题。 (2)应用级容灾。应用级容灾能保证业务的连续性。在数据级容灾的基础上,建立备份的应用系统环境,当本地工作系统出现不可恢复的物理故障时,容灾系统提供可用的数据和应用系统。 应用级容灾系统是建立在数据级容灾系统基础上的,同时能完成数据和应用系统环境的复制存放和管理。为实现发生灾难时的应用切换,容灾中心需要配置与工作系统同构和相同功能的业务网络、应用服务器、应用软件等。 应用级容灾还需要考虑数据复制的完全性、数据的一致性、数据的完整性、网络的通畅性、容灾切换的性能影响、应用软件的适应性改造等问题,以及为保证业务运行的所需设备、环境、人员及其相应的管理。 2.灾难恢复系统的在线/离线模式 (l)在线模式。在线灾难恢复系统要求工作系统与灾难备份系统通过网络线路连接,数据通过网络实时或定时从工作系统传输到灾难备份系统。对数据保护的实时性高,对业务连续性要求高,就需要采用在线模式。 (2)离线模式。离线灾难备份系统的数据通过存储介质(磁带、光盘等,搬运到异地保存起来实现数据的保护。离线模式适合于对数据保护的实时性要求不高的场合,离线模式设备比较简单,投资较少。 3.数据备份技术 正常情况下系统的各种应用在数据中心运行,数据存放在数据中心和灾难备份中心两地保存。当灾难发生时,使用备份数据对工作系统进行恢复或将应用切换到备份中心。灾难备份系统中数据备份技术的选择应符合数据恢复时间或系统切换时间满足业务连续性的要求。目前数据备份技术主要有如下几种: (1)磁带备份。 (2)基于应用程序的备份。通过应用程序或者中间件产品,将数据中心的数据复制到灾难备份中心。在正常情况下,数据中心的应用程序在将数据写入本地存储系统的同时将数据发送到灾难备份中心,灾难备份中心只在后台处理数据,当数据中心瘫痪时,由于灾难备份中心也存有生产数据,所以可以迅速接管业务。这种备份方式往往需要应用程序的修改,工作量比较大。另外,由应用程序本身来处理数据的复制任务,对应用系统的性能影响较大。 (3)数据库的远程数据复制。基本原理是将数据中心的数据库日志传送到远程灾难备份中心的数据库中,通过日志同步两端的数据库。这种方式需要数据库软件的支持。由于数据库方式只是传送数据库日志,与应用没有直接关系,因此无须对应用程序做大量修改。这种灾难备份方式比较适合于只对数据库有远程灾难备份需求,传输距离较长且网络传输带宽不大的用户环境。 (4)服务器逻辑卷的远程数据复制。这种方式在服务器操作系统逻辑卷管理软件基础上实现,通过IP网络将逻辑卷操作传输到异地主机,在异地主机执行同样的逻辑卷操作,保证本地和远端逻辑卷的一致性。这种灾难备份方式适合文件、数据库等多种数据的远程复制要求,并且对应用系统和数据库是透明的,但需要数据中心和灾难备份中心主机同构。 (5)基于存储备份软件实现的远程数据复制。数据的复制和同步通过存储备份软件实现,系统的灵活性很强,完全不依赖主机系统和存储系统,也不影响本地应用的响应速度,数据可以从任何存储设备上镜像到任何地点的任何存储设备上。 (6)基于智能存储设备的远程数据复制。由智能存储设备自身管理软件实现数据的远程复制,即智能存储设备将系统中的存储操作指令发送到远端的智能存储设备上,在远端智能存储设备中重做存储操作指令,实现数据远程复制。这种灾难备份方式要求数据中心和灾

应用系统灾难恢复设计方案(SSR)

应用系统灾难恢复 设计方案 方案供应商:赛门铁克软件(北京)有限公司

目录 一、需求分析 (3) 二、设计方案 (4) 三、功能设计 (5) 3.1、主要功能概述 (6) 3.2、灾难恢复工作流程 (9) 3.3、Backup Exec System Recovery管理平台 (9) 3.4、异机恢复功能选件 (10) 四、方案总结 (14)

一、需求分析 一些常见的情况:无论是相关的硬件问题、配置改变、应用程序故障、病毒攻击,还是恶意黑客攻击-都可以使企业的服务器瘫痪。如果服务器瘫痪了,那么至关重要的问题是:在业务受到影响之前有多少时间来恢复数据与应用程序。传统的方法可能需要几个小时到几天来恢复服务器、重装软件、配置应用程序、设置用户,将您的系统恢复到正常状态-假设此过程没有其它错误出现的话。因此,很有必要简化这一高度复杂而且耗费大量精力的过程,满足企业对恢复时间目标的要求。 图:Symantec灾难恢复技术列表 灾难恢复就是为恢复计算机系统而提供的技术保证。事实上,灾难恢复计划要求有周详的事前准备,尤其是灾难所引起的对业务的冲击程度的分析,并相应制定灾难后的恢复策略,利用可行的信息技术,提出最佳的恢复方案。 作为业内领先的存储软件厂商,Symantec公司已经能够解决这个长期困扰用户的问题。在其最近所发布的企业级数据保护方案中,Symantec System Recovery是目前业界速度最快的数据保护解决方案,它引入了创新的、配合磁盘的裸机恢复技术,可显著增强Windows操作系统的备份和恢复功能。

二、设计方案 如上图所示,在所以需要作系统灾难恢复的服务器上安装Symantec System Recovery。通过Symantec System Recovery可以把系统从一个硬件平台迁移到另外一个硬件平台而不需要重新安装操作系统,整个恢复时间仅需短短的几分钟,所有操作系统、系统配置、应用系统、个性化配置全部恢复如初;更可以通过把系统恢复到虚拟平台之上供用户测试补丁,以避免为真实系统贸然安装补丁后导致的系统不稳定。 Symantec System Recovery的远程恢复能力可以让管理员在任何时间、任何地点、对任何设备(包括虚拟设备)进行备份或恢复操作,此时管理员仅需要一个远程的Windows工作站、笔记本或者是Pocket PC。 另外,Symantec System Recovery也针对企业服务器数量众多的情形提供了中央视图管理功能,IT 管理员不仅可以在中央管理台上监控和报告高达上千台电脑的每一个恢复点的状态,并且可以自动地发现不受保护的系统。

信息系统灾难恢复方案

信息系统灾难恢复方案 第一章总则 第一条为规范并指导我公司生产系统灾难恢复工作,提高防范灾难风险的能力,保障持续运营,保护客户的合法权益,根据国家信息安全法律法规及有关规定,制定本预案。 第二条生产系统灾难恢复工作应坚持“统筹规划、平战结合、等级灾备”的原则,平衡成本与风险,确保工作的有效性。 第三条本指引所称灾难恢复为生产系统灾难恢复。灾难恢复工作是指,为保障生产系统持续运营,防范灾难风险并减轻灾难造成的损失和不良影响而开展的一系列工作,包括:组织机构设立和职责、灾难恢复需求分析、灾难恢复策略制定、灾难备份系统实施、灾难备份中心的建设与运行维护、灾难恢复预案管理、应急响应和恢复。 第二章总体工作要求 当生产系统及相关业务流程发生重大变更时,应立即启动灾难恢复需求的再分析,并根据最新的灾难恢复需求分析重审和修订灾难恢复策略。根据灾难恢复策略定期复审和调整灾难恢复技术方案、灾难恢复预案,并定期开展灾难恢复预案培训和演练工作。加强与业务密切相关的机构间的协调,共同评估面临的风险,协同制定灾难恢复策略,提高整体风险防范和灾难恢复能力。 第三章灾难恢复项目小组的制定和职能

1.管理组:小组人员:职责:统筹规划,指挥各小组按照既定计划进行执行。 2.部门恢复组小组成员:职责:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。 3.计算机恢复组:小组成员:职责:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。 4.损坏评估组: 小组成员: 职责:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。 5.安全组: 小组成员职责:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。 6.设备支持组: 小组成员:职责:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。 7、数据恢复组: 小组成员:职责:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。 8、市场和客户关系组: 小组成员:职责:负责对外进行信息发布、制定相应应急措施

系统灾难恢复计划

一、目的 建立一个可行的灾难恢复计划,在发生重大事件时启动该该灾难恢复计划使经济损失降到最低,对关键人员进行培训,随时准备应对灾难,执行有效的恢复动作,恢复关键业务操作。 二、范围 本计划适用于华为RTC业务 三、程序 3.1 IT 关键接入点 3.1.1 计算机基本系统 ?工厂基本数据信息 ?每日做本地备份 ?一个小型PC平台服务器 ?数据库可以加载到不同的PC系统并持续运行 ?在杭州东信放置一个备份服务器 3.1.2 Email 公司总部有专用的邮箱服务器提供给员工与客户、员工和供应商通信 ?可通过本地ISP 3.2任务和职责

3.2.1灾难声明 以下人员是由公司授权认定,可声明公司灾难。 授权人员名单 3.2.2 华为客户联系人 3.2.3 灾难沟通流程 灾难事件发生时,将会公布以下时间表: ?在发布紧急声明时,所有受影响客户将会被通知,并立刻给出一个有效的影响评价。?所有受影响的客户在1小时内通知到位(或更快,依事件而定) ?和每个客户的沟通根据他们选择的形式(例如,座机,手机,Email) 3.2.4 各业务持续性团队 3.3恢复程序 业务持续性/恢复行动:客户记录

恢复行动:方法检索试验程序和服务手册 第二设施联系人 3.4:测试程序 :3.4.1 引言 定期测试很重要,因为它证实了备份和恢复程序的有效性。预期的系统和网络环境会改变。 3.4.2 测试方法 ?测试恢复必须成功地完成与硬件,系统,网络,应用程序,数据恢复和应用程序的功能验证的业务或应用支持区域内的恢复时间框架中对业务影响评估过程的定义。测试失败必须重新测试,对于区域业务在一个时间范围内成功完成是令人愉快的。当一个系统、应用程序或网络经历了一个高程度的变换,频繁测试将被考虑。 ?测试事件日志必须包含时间框架,遇到的问题和改进建议。该日志应该扩展开,对事件回顾并用于问题的跟踪和解决。

数据中心灾难恢复指南(更新)

数据中心灾难恢复指南 (更新版)

数据中心灾难恢复指南(更新版) 当前,基于Web的应用不断普及深入,新一代的企业级数据中心建设已成为行业信息化的新热点。虚拟化、云计算等新技术和概念的提出更是为数据中心的发展开辟了新的道路。但是,无论数据中心怎样变化,企业对于数据中心容灾备份的需求是只会提高不会降低的。此外,在预算日益紧缺的情况下,灾难恢复成本也是企业考虑的重要因素之一。企业灾难因素应该考虑哪些因素?如何将虚拟化应用到灾难恢复中来?如何减少数据中心灾难恢复成本?本指南将对这些问题进行解答。 灾难恢复考虑因素 灾难恢复策略和基础架构本身就很复杂,对于大型企业来说更是这样。在这个过程中存在许多可变因素:需要确定许多标准和流程,需要对人力资源进行组织,需要对技术进行整合,需要辨别不同应用间的差异并为其排定优先次序。 数据中心灾难恢复需要考虑哪些因素? 将IT变更管理作为灾难恢复的一部分 虚拟化与灾难恢复 现在,许多公司都在它们环境的某处使用虚拟化技术。但是,他们可能不知道如何使用虚拟化技术来进行数据中心灾难恢复规划。学习如何应用虚拟化到灾难恢复很有用,也会受到很多技术上的限制。 虚拟化在数据中心灾难恢复中的作用 利用虚拟化技术来进行数据中心灾难恢复

如何节省灾难恢复成本 如今否认经济形势迫使企业减少预算。尽管灾难恢复(DR)人员在极力劝阻对这个领域预算的削减,DR也无法躲过预算危机。那么对于DR站对站数据复制解决方案的创建和维护而言,有没有什么方法或工具可以降低总的成本呢? 灾难恢复预算的头号挥霍者 使用开源复制工具来降低灾难恢复成本 你是不是在为了避免麻烦而浪费灾难恢复成本?

《保险业信息系统灾难恢复管理指引》

《保险业信息系统灾难恢复管理指引》 各保险公司、保险资产管理公司: 为加强保险信息安全基础设施建设,推进信息系统灾难恢复工作,根据《中华人民共和国保险法》和国家有关信息安全法律法规,我会制订了《保险业信息系统灾难恢复管理指引》,现印发给你们,请遵照执行。 二○○八年三月二十一日 保险业信息系统灾难恢复管理指引 第一章总则 第一条为规范并指导我国保险业信息系统灾难恢复工作,提高防范灾难风险的能力,保障持续运营,保护客户和股东的合法权益,根据《中华人民共和国保险法》、国家信息安全法律法规及有关规定,制定本指引。 第二条保险业信息系统灾难恢复工作应坚持“统筹规划、资源共享、平战结合、等级灾备”的原则,平衡成本与风险,确保工作的有效性。 第三条本指引所称保险机构是指,经中国保险监督管理委员会(以下简称“中国保监会”)批准设立,并依法登记注册的保险公司、保险资产管理公司、外国保险公司分公司及港、澳、台地区保险公司在大陆地区的分公司。 第四条本指引所称灾难恢复为信息系统灾难恢复。灾难恢复工作是指,为保障信息系统持续运营,防范灾难风险并减轻灾难造成的损失和不良影响而开展的一系列工作,包括:组织机构设立和职责、灾难恢复需求分析、灾难恢复策略制定、灾难备份系统实施、灾难备份中心的建设与运行维护、灾难恢复预案管理、应急响应和恢复。 本指引所称区域性灾难是指,造成所在地区或有紧密联系的邻近地区的交通、电讯、电力及其它关键基础设施受到严重破坏,关键信息网络设备毁损、重大故障或大规模人口疏散的事件,将会导致信息系统无法正常运行。例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障、机房内关键设备毁损等。 本指引所称同城灾备是指,生产中心与灾难备份中心处于同一地理区域,面临同一区域性灾难风险,能够抵御小范围区域内的灾难,例如小面积停电、火灾、设备故障等,距离通常在数十公里左右。 本指引所称异地灾备是指,生产中心与灾难备份中心处于不同地理区域,一般不会同时面临同一区域性灾难风险,能够抵御较大范围区域内的灾难,例如大面积停电、地震、战争等,距离通常在数百公里以上。 本指引所称自建是指,自行出资建设和拥有灾难备份中心,为自身提供灾难恢复服务。 本指引所称共建是指,多个机构共同出资建设和拥有灾难备份中心,为参与单位提供灾难恢复服务。 本指引所称外包是指,选择外部资源来承担或协助完成信息系统灾难恢复的规划、实施、运营维护,以及应急响应和恢复工作。 第五条中国保监会负责对保险业信息系统灾难恢复工作实施监督和管理。 第六条《信息安全技术信息系统灾难恢复规范》(GB/T 20988-2007)中的条款通过本指引的引用而成为本指引的条款。 第二章总体工作要求 第七条保险机构应统筹规划信息系统灾难恢复工作,自本指引生效起五年内至少达到本指引规定的最低灾难恢复能力等级要求。 保险机构新建信息系统时,应同步规划和实施灾难备份系统建设。本指引生效后新成立

QSY 1332-2010 信息系统灾难恢复管理规范

信息系统灾难恢复管理规范 Specifications for information system disaster management

Q/SY 1332—2010 目次 前言................................................................. 1 范围 (1) 2 规范性引用文件 (1) 3 术语和定义 (1) 4 灾难恢复的组织机构 (3) 4.1 综述 (3) 4.2 构成及职责 (3) 5 灾难恢复需求分析 (4) 5.1 风险分析 (4) 5.2 业务影响分析 (5) 5.3 确定灾难恢复需求 (6) 6 灾难恢复策略制定 (7) 6.1 灾难恢复能力等级 (7) 6.2 灾难备份中心布局 (7) 6.3 灾难备份中心建设模式 (7) 6.4 对灾难备份中心的要求 (8) 7 灾难备份中心运行维护 (8) 7.1 运行维护目的 (8) 7.2 运行维护内容 (8) 7.3 运行维护管理信息系统 (8) 7.4 灾难恢复预案的演练 (8) 8 灾难恢复预案 (9) 8.1 预案的目的 (9) 8.2 预案的制定 (9) 8.3 预案的管理 (9) 9 应急响应和灾难恢复 (9) 9.1 应急响应流程 (9) 9.2 灾难恢复流程 (10) 9.3 重建与回退 (11) 10 演练及培训 (11) 10.1 灾难恢复演练 (11) 10.2 认知与培训 (13) 附录A(资料性附件)灾难恢复预案框架 (14) 参考文献 (16) I

Q/SY 1332—2010 II 前言 本标准是中国石油天然气集团公司信息标准体系管理与服务规范系列标准之一。 本标准的附录A为资料性附录。 本标准由中国石油天然气集团公司信息技术专业标准化技术委员会提出并归口。 本标准起草单位:中国石油集团东方地球物理勘探有限责任公司。 本标准主要起草人:周晓松、冯梅、王雨、李闻喜、胡革强、辛麒、于普漪、徐刚、颜伟海、李颖琦、秦侃、魏占玲。

System-Recovery-2020系统灾难恢复

生产故障恢复修订日期

第1 部分灾难恢复 (3) 1.1 灾难描述 (3) 1.2 灾难恢复 (3) 1.3 域名映射 (4) 第2 部分单点故障恢复 (5) 2.1 单点故障描述 (5) 2.2 单点故障恢复 (5) 第3 部分数据库单点故障恢复 (6) 3.1 数据库单点故障描述 (6) 3.2 数据库单点故障恢复 (6)

第 1 部分灾难恢复 1.1 灾难描述 当整个区域因重大自然灾难或大规模服务中断而发生中断时的真实灾难恢复方 案。这些情况极少发生,当然为了交易安全/数据安全/交易稳定性,如果整个区域的服务中断,但须对这种可能性做出准备。如果整个VM区域的网络中断,会暂时无法交易,数据的安全也无法保障。如果启用了异地复制,则会在其他区域额外存储的交易数据/业务重新上线并实现灾难恢复。 1.2 灾难恢复 为VM 配置Azure Site Recovery,从而只需单击一下便可在几分钟内恢复应用程序。可复制到所选的VM 区域(并不局限于配对区域)。通过创建恢复计划,以便自动进行应用程序的整个故障转移过程。可事先测试故障转移从而避免影响生产应用程序或正在进行的复制。若主要区域发生中断,只需启动故障转移并将应用程序带到目标区域。因此次展示为生产环境,只能通过截图展示恢复的可能性。如下 图: 可以通过CLI一键转移所有VM到指定区域,如下图所示:

1.3 域名映射 使用Azure DNS区域,针对内部API接口地址进行统一管理和调用,执行灾难恢复后无须修改程序配置中心地址,通过Azure DNS区域进行统一修改管理,能够快速恢复生产系统业务的运行。如下图展示为Azure区域API接口地址的管理: 以上灾难恢复,均为生产测试通过。

灾难恢复计划

灾难恢复计划 文件编码(008-TTIG-UTITD-GKBTT-PUUTI-WYTUI-8256)

灾难恢复计划一、灾难的定义 灾难分为自然灾害和非自然灾害。 自然灾害是指由火灾、地震等引发的一系列灾害直接导致公司的业务中断、电力故障、网络故障等。 非自然灾害是指人为的造成的如服务器断电、软件错误、人为故意破坏、恶意代码、木马植入、恐怖袭击等。 二、灾难恢复项目小组的制定和职能 1.管理组:统筹规划,指挥各小组按照既定计划进行执行。 2.部门恢复组:负责制定各部门情况制定应急备案,确定各部门数据和财产的保护方式并执行保护,确定各部门数据的恢复方式并执行恢复。 3.计算机恢复组:负责对全公司范围内的计算机故障进行排除、恢复范围包括系统、必备办公软件。 4.损坏评估组:负责对公司损失的重要数据、财务进行总体评估。并针对相应损失的财产进行汇总并结合拥有的保险进行申报。 5.安全组:负责灾难发生后的人员、数据、财务的安全进行保护。并制定相应的安全策略。 6.设备支持组:负责对公司服务器、网络设备、交换机的故障进行排除,制定相应解决重建方案。 7、数据恢复组:负责对公司各平台数据进行恢复,并制定相应数据恢复方案。

8、市场和客户关系组:负责对外进行信息发布、制定相应应急措施应对客户疑问等。 各小组共同职能: a)负责计划的执行 b)与其它组之间进行信息交流,监督计划的测试和执行 c)所有或是某一个成员可能领导特定的组 d)协调恢复过程 e)评估灾难,执行恢复计划,联系组长 f)监控并记录恢复的过程 三、业务恢复流程 (一)自然灾害引起的灾难恢复流程 由自然灾害引起的灾难往往影响较大,可能会直接导致一些基础设施的无法使用,甚至会对导致人员减少。因此对于自然灾害引发的灾难恢复流程相对特殊且繁琐。 1.数据抢救 灾难发生时,需在保证人身安全的情况对公司的重要数据进行抢救,抢救的范围主要包括:记录公司重要信息的文件、资料,存储公司重要数据的磁带,存放重要数据的硬盘、服务器。此过程需由安全组进行统筹指挥,按照既定的计划执行,各组成员、公司员工必须服从安全组的统一调度和指挥。 2.损坏评估及启动应预案

相关主题
文本预览
相关文档 最新文档