当前位置:文档之家› 业务连续性容灾-两地三中心方案白皮书

业务连续性容灾-两地三中心方案白皮书

业务连续性容灾-两地三中心方案白皮书
业务连续性容灾-两地三中心方案白皮书

业务连续性容灾解决方案

两地三中心解决方案技术白皮书

目录

1概述 (7)

1.1数据中心业务连续性的挑战 (7)

1.2方案概述 (7)

1.3方案亮点 (7)

2两地三中心方案架构 (9)

2.1级联组网架构 (9)

2.1.1同步+异步级联方案 (9)

2.1.2异步+异步级联方案 (10)

2.2并联组网架构 (10)

2.2.1同步+异步并联方案 (10)

2.2.2异步+异步并联方案 (11)

2.3双活组网架构 (11)

2.3.1HyperMetro+异步级联方案 (11)

2.4 关键组件技术实施要求 (12)

3两地三中心方案工作原理 (13)

3.1同步+异步级联工作原理 (13)

3.1.1初始同步处理 (13)

3.1.2IO 处理流程 (14)

3.1.3灾难切换处理 (14)

3.1.4灾难恢复处理 (15)

3.1.5链路和灾备端故障处理 (15)

3.2同步+异步并联工作原理 (15)

3.2.1初始同步处理 (15)

3.2.2IO 处理流程 (16)

3.2.3灾难切换处理 (16)

3.2.4灾难恢复处理 (17)

3.2.5链路和灾备端故障 (17)

3.3异步+异步级联工作原理 (17)

3.3.1初始同步处理 (17)

3.3.2正常状态处理 (18)

3.3.3灾难切换处理 (19)

3.3.4灾难恢复处理 (20)

3.3.5链路和灾备端故障 (20)

3.4异步+异步并联工作原理 (20)

3.4.1初始同步处理 (20)

3.4.2正常状态处理 (21)

3.4.3灾难切换处理 (22)

3.4.4灾难恢复处理 (23)

3.4.5链路和灾备端故障 (23)

3.5HyperMetro+异步级联工作原理 (23)

3.5.1初始同步处理 (23)

3.5.2正常状态处理 (24)

3.5.3灾难切换处理 (24)

3.5.4灾难恢复处理 (25)

3.5.5链路和灾备端故障 (26)

3.6两地三中心容灾关键技术原理 (26)

3.7容灾管理 (29)

4两地三中心容灾业务恢复流程 (32)

4.1容灾测试流程 (32)

4.2计划性迁移流程 (33)

4.3故障切换流程 (34)

5 总结 (35)

6 缩略语 (36)

插图目录

图2-1 级联组网的两地三中心容灾架构 (9)

图2-2 并联组网的两地三中心容灾架构 (10)

图2-3 HyperMetro+异步的两地三中心容灾架构 (11)

图3-1 级联组网(同步+异步)IO 处理流程 (14)

图3-2 并联组网(同步+异步)IO 处理流程 (16)

图3-3 远程复制状态转移图 (27)

图3-4 Cache 多时间戳复制原理 (28)

图3-5 容灾管理DashBoard (29)

图3-6 容灾管理配置向导 (30)

图3-7 容灾管理组网拓扑展示 (31)

图3-8 一键式灾难恢复介绍 (31)

图4-1 一键式测试操作 (32)

图4-2 一键式计划性迁移 (33)

图4-3 一键式故障切换 (34)

表格目录表3-1 远程复制状态描述 (26)

1 概述

1.1数据中心业务连续性的挑战

随着信息化技术的飞速发展,信息系统在各种行业的关键业务中扮演着越来越重要的

角色。在通讯、金融、医疗、电子商务、物流、政府等领域,信息系统业务中断会导

致巨大经济损失、影响品牌形象并可能导致重要数据丢失。因此,保证业务连续性是

信息系统建设的关键。

近年来,大范围自然灾害时常发生,为保障业务连续性,同城灾备中心结合异地灾备

中心的“两地三中心”容灾解决方案越来越受到业界重视和认可。

1.2方案概述

两地三中心容灾解决方案中的“两地三中心”一般指的是一个生产中心、一个同城灾

难备份中心、一个异地灾难备份中心。生产中心的数据同步地复制到同城灾难备份中

心,同时,生产中心的数据异步地复制到异地灾难备份中心。

同城灾备中心通常具备与生产中心等同业务处理能力,应用可在不丢失数据的情况下

切换到同城灾备中心运行,保持业务连续运行。

在出现小概率的大范围的灾难时,如自然灾害地震,造成同城灾难备份中心与生产中

心同时不可用,应用可以切换到异地灾难备份中心。通过实施经过日常灾难演练的步

骤,应用可在业务容许的时间内,在异地的灾难备份中心恢复,保证业务连续运行。

但异地恢复通常会丢失少量的数据。

相比仅建立同城灾难备份中心或异地灾难备份中心,“两地三中心”的方式结合两者的优

点,能够适应更大范围的灾难场景,对于小范围的区域性灾难和较大范围的自然灾害,

都能够通过灾难备份系统较快地响应,尽可能保全业务数据不丢失,实现更优的

RPO 和RTO。所以,两地三中心容灾解决方案得到了广泛的应用。

1.3方案亮点

华为两地三中心解决方案的亮点和优势如下:

高中低端阵列复制技术互通

华为全系列存储产品都采用统一的存储操作系统平台,高、中、低端阵列之间都可建

立远程复制关系。客户在产品选型时,可以根据业务需要选择匹配的异地灾备中心磁

盘阵列,显著提升容灾建设投入产出比。

秒级异步复制RPO,分钟级RTO

基于Cache 多时间戳的异步远程复制,最小支持3s 的复制周期。华为容灾管理软件

OceanStor BCManager 提供的一键式容灾测试和容灾切换功能大大简化灾备恢复操作,

使灾备端数据库的恢复时间达到分钟级,缩短恢复时间。

容灾业务和拓扑可视化管理

华为容灾管理软件OceanStor BCManager 支持可视化展示两地三中心的物理拓扑和业

务逻辑拓扑。并且支持一键式容灾测试和切换,支持客户定制脚本一键恢复备用业务

系统,简化灾备系统的管理和维护。

2 两地三中心方案架构

两地三中心的容灾方式是当前容灾建设的一个重要趋势,在电信、金融、制造等领域

得到广泛的使用。

通过建设近距离的数据中心(同城数据中心)获得接近于零数据丢失的数据保护,通

过建设较远距离的数据中心(异地数据中心)获得远距离的数据保护,避免区域性的

灾难导致业务无法恢复。华为两地三中心解决方案支持级联组网(同步+异步,异步+

异步)方案(即“A->B,B->C”组网)、并联组网(同步+异步,异步+异步)方案

(即“A->B,A->C”组网)和双活组网(双活+异步)方案(即“A<->B,B->C”组

网)。

2.1级联组网架构

图2-1 级联组网的两地三中心容灾架构

2.1.1同步+异步级联方案

如图2-1 所示,在生产中心部署磁盘阵列A;在同城灾备中心部署磁盘阵列B,两个数

据中心之间通过FC 链路实现互联,生产中心的磁盘阵列A 与同城灾备中心磁盘阵列

B 建立同步远程复制,将磁盘阵列A 的数据实时同步到磁盘阵列B;在异地灾备中心,

部署磁盘阵列C,与同城灾备中心的磁盘阵列B 建立异步远程复制,将磁盘阵列B 的

数据定时地同步到阵列C。

在同城灾备中心和异地灾备中心部署容灾管理软件,实现对3 个数据中心的统一容灾

管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支

持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。

2.1.2异步+异步级联方案

如图2-1 所示,在生产中心部署磁盘阵列A;在同城灾备中心部署磁盘阵列B,两个数

据中心之间根据数据变化量对带宽的需求,可以通过FC 链路或者IP 链路实现互联,

生产中心的磁盘阵列A 与同城灾备中心磁盘阵列B 建立异步远程复制,将磁盘阵列A

的数据定时同步到磁盘阵列B;在异地灾备中心,部署磁盘阵列C,与同城灾备中心的

磁盘阵列B 建立异步远程复制,将阵列B 的数据定时的地同步到阵列C。

在同城灾备中心和异地灾备中心部署容灾管理软件,实现对3 个数据中心的统一容灾

管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支

持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。

2.2并联组网架构

图2-2 并联组网的两地三中心容灾架构

2.2.1同步+异步并联方案

如图2-2,在生产中心部署磁盘阵列A;在同城灾备中心部署磁盘阵列B,两个数据中

心之间通过FC 链路实现互联,生产中心的磁盘阵列A 与同城灾备中心磁盘阵列B 建

立同步远程复制,将阵列A 的数据实时同步到阵列B;在异地灾备中心,部署磁盘阵列

C,通过生产中心与异地灾备中心的IP 链路,实现生产中心的磁盘阵列A 与异地灾备

中心磁盘阵列C 建立异步远程复制,异步地将数据同步到磁盘阵列C。

在同城灾备中心和异地灾备中心部署容灾管理软件,实现对3 个数据中心的统一容灾

管理。容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支

持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。

2.2.2异步+异步并联方案

如图2-2,在生产中心部署磁盘阵列A;在同城灾备中心部署磁盘阵列B,两个数据中

心之间根据数据变化量对带宽的需求,可以通过FC 链路或者IP 链路实现互联,生产中

心的磁盘阵列A 与同城灾备中心建立异步远程复制,将磁盘阵列A 的数据定时同步到

磁盘阵列B;在异地灾备中心部署磁盘阵列C,与生产中心的磁盘阵列建立异步远程复

制,将磁盘阵列A 的数据定时地同步到阵列C。

在同城灾备中心和异地灾备中心部署容灾管理软件,实现对 3 个数据中心的统一容灾

管理。容灾管理软件可以可视化的展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,

并且支持在同城灾备中心以及异地灾备中心一键式容灾测试以及一键式容灾恢复。

2.3双活组网架构

2.3.1HyperMetro+异步级联方案

图2-3 HyperMetro+异步的两地三中心容灾架构

如2-4,在生产中心A 和生产中心B 位于同城,可通过裸光纤或波分设备实现FC 网络

互联,也支持通过10GE 网络互联。生产中心A 和生产中心B 同时对外提供业务,

HyperMetro 不仅实现数据实时双向镜像,而且保证任何数据中心阵列故障,对上层业

务透明切换,业务不中断。在异地灾备中心,部署磁盘阵列C,与生产中心A 或B 任

意磁盘阵列建立异步远程复制,将双活镜像的磁盘阵列数据周期性的同步到磁盘阵列

C。

在生产中心B 和异地灾备中心部署容灾管理软件,实现对双活+异步复制统一容灾管理。

容灾管理软件可以展示两地三中心容灾方案物理拓扑和业务逻辑拓扑,并且支持在异

地灾备中心一键式容灾测试以及一键式容灾恢复。

2.4 关键组件技术实施要求

城域网要求:(同步远程复制,双活)

容灾网络距离:<100km,双活建议<100km,裸光纤连接。

传输延迟:<1ms (单向)。

网络真实带宽:>业务的峰值写IO 带宽。

广域网要求:(异步远程复制)

容灾网络距离:无限制。

传输延迟:<50ms (单向)。

网络真实带宽:>业务的平均写IO 带宽。

管理工作站:

管理工作站需要三中心间通信。

网络距离要求:无限制。

通信网络带宽要求:10Mb/s。

3 两地三中心方案工作原理

3.1同步+异步级联工作原理

3.1.1初始同步处理

同步远程复制关系建立时,系统自动启动初始同步,将主LUN 的数据全部复制到从

LUN,复制期间,主LUN 如果接收到生产主机新写入的数据,也会将其复制到从

LUN。初始同步完成后,主LUN 与从LUN 的数据完全一致,同步远程复制进入正常

状态。

远程复制关系建立时,系统自动启动初始同步,将主LUN 的数据全部复制到从LUN。

初始同步完成后,异步远程复制进入正常状态。

3.1.2IO 处理流程

图3-1 级联组网(同步+异步)IO 处理流程

级联组网(同步+异步)方案IO 处理流程如上图所示:

1.主机下发IO 到磁盘阵列A 的LUN1。

2.IO 写入A 站点的LUN1,并通过同步复制同时写入B 站点的LUN12(LUN12 既

是同步远程复制的从LUN,又是异步远程复制的主LUN)。

3.当异步远程复制同步周期到来,磁盘阵列B 生成LUN12 在此时间点的数据(如t1

时间点数据)。

4.磁盘阵列C 生成同步开始前LUN2 的该时间点数据(如t2 时间点数据)。如果异

步远程复制同步失败,当需要使用LUN2 运行业务时,系统自动回滚到该时间点数

据,以保证磁盘阵列C 中数据的可用性。

5.后台启动由LUN12 在t1 时间点的数据到LUN2 的周期性同步。

如果在异步远程复制启动同步时,同步远程复制的从LUN(LUN12)状态不允许启动

同步,则周期性同步不会被启动,直到从LUN 状态允许启动同步时才生成多时间点数

据,并启动同步。

3.1.3灾难切换处理

1)生产中心故障

当生产中心发生灾难后,不能再提供业务。同城灾备中心的从LUN 保存着与主LUN

完全同步的数据,保障数据不丢失。如果同城灾备中心部署有备用主机,则备用主机

可以访问从LUN,接管业务。

从LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以

便用于后续增量恢复,缩短业务回切的时间。

2)生产中心和同城灾备中心同时故障

当生产中心和同城灾备中心在重大灾难导致数据都不可用时,异地备中心的从LUN 保

存着与主LUN 相隔一定时间周期(1-2 个复制周期)之前的数据,保障数据绝大部分

不丢失。如果异地同城灾备中心部署有备用主机,则备用主机可以访问从LUN,接管业

务。异地灾备中心从LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自

动记录其地址,以便用于后续增量恢复,缩短业务回切的时间。

3.1.4灾难恢复处理

1)数据未被破坏时

当生产中心灾难恢复后,如果磁盘阵列A 和B 没有受到破坏,主LUN 能够恢复其原有

数据,则远程复制可以将主LUN 故障期间,从LUN 12 或者LUN2 新写入的数据增量

复制到主LUN。复制完成后,主、从LUN 保持复制关系。此时,可以将业务切换回生

产中心,重新由生产主机访问磁盘阵列A 的主LUN,远程复制重新保持由主

LUN 向从LUN 实时同步数据。

2)数据完全被破坏时

当磁盘阵列A 或B 被破坏,数据不可修复时,需要重建磁盘阵列A 或者磁盘阵列B,

将从端数据反向复制到主端B 和主端A 上,调整主从关系,在生产中心恢复业务。3.1.5链路和灾备端故障处理

当生产中心与同城灾备中心的复制链路故障或者任意灾备中心设备故障,则远程复制自

动断开复制,不影响生产系统的正常运行。生产中心主LUN 将记录故障期间的数据差

异变化,待故障恢复后,自动将增量数据同步到从LUN。

3.2同步+异步并联工作原理

3.2.1初始同步处理

同步远程复制关系建立时,系统自动启动初始同步,将主LUN 的数据全部复制到从

LUN,复制期间,主LUN 如果接收到新的生产主机的写入的数据,也会将其复制到从

LUN。初始同步完成后,主LUN 与从LUN 的数据完全一致,同步远程复制进入正常状

态。

异步远程复制关系建立时,系统自动启动初始同步,将主LUN 的数据全部复制到从

LUN。初始同步完成后,异步远程复制进入正常状态。

3.2.2IO 处理流程

图3-2 并联组网(同步+异步)IO 处理流程

具体的处理流程如下:

1.主机下发IO 到磁盘阵列A 的LUN1。

2. A 站点主机写IO 双写到LUN1 和B 站点LUN12(LUN1 既是同步远程复制的主

LUN,又是异步远程复制的主LUN)。

3.当异步远程复制同步周期到来,磁盘阵列A 生成LUN1 在此时间点的数据(如t1

时间点数据)。

4.磁盘阵列C 生成LUN2 的该时间点数据(如t2 时间点数据)。如果异步远程复制

同步失败,当需要使用LUN2 运行业务时,系统自动回滚到该时间点数据,以保证

磁盘阵列C 中数据的可用性。

5.后台启动由LUN1 在t1 时间点的数据到LUN2 的周期性同步。

3.2.3灾难切换处理

1)生产中心故障

当生产中心发生灾难后,不能再提供业务。同城灾备中心的从LUN 保存着与主LUN

完全同步的数据,保障数据不丢失。如果同城灾备中心部署有备用主机,则备用主机

可以访问从LUN,接管业务。

从LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以

便用于后续增量恢复,缩短业务回切的时间。

2)生产中心和同城灾备中心同时故障

当生产中心和同城灾备中心在遭遇重大灾难导致数据均不可用时,异地灾备中心的从

LUN 保存着与主LUN 间隔一定时间周期(复制周期)之前的数据,保障数据绝大部分

不丢失。如果异地同城灾备中心部署有备用主机,则备用主机可以访问从LUN,接管业

务。异地灾备中心从LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自

动记录其地址,以便用于后续增量恢复,缩短业务回切的时间。

3.2.4灾难恢复处理

1)数据未被破坏时

当生产中心灾难恢复后,如果磁盘阵列A 和B 没有受到破坏,主LUN 能够恢复其原有

数据,则远程复制可以将主LUN 故障期间,从LUN 1’新写入的数据增量复制到主

LUN。复制完成后,主、从LUN 保持复制关系。此时,可以将业务切换回生产中心,

重新由生产主机访问磁盘阵列A 的主LUN,远程复制重新保持由主LUN 向从LUN 实

时同步数据。

2)数据完全被破坏时

当磁盘阵列A 或B 被破坏,数据不可修复时,需要重建磁盘阵列A 或者磁盘阵列B,

将从端数据反向复制到主端磁盘阵列A 和磁盘阵列B 上,调整主从关系,在生产中心

恢复业务。

3.2.5链路和灾备端故障

当生产中心与灾备中心的复制链路故障或者灾备中心存储设备故障,则远程复制自动断

开复制,不影响生产系统的正常运行。生产中心主LUN 将记录故障期间的数据差异变

化,待故障恢复后,自动将增量数据同步到从LUN。

3.3异步+异步级联工作原理

3.3.1初始同步处理

生产中心与同城灾备中心异步复制主从LUN 之间和同城灾备中心与异地灾备中心异步

复制主从LUN 之间都需要进行初始同步,初始同步可以在线进行。复制带宽足够的情

况下可以配置完就启动初始同步,带宽不足情况下,可以有几种初始同步方式:

1.临时增加复制带宽完成初始同步。

2.将设备搬迁到一起来完成初始同步。

3.通过移动介质存储中转进行初始同步。

异步复制初始同步系统自动创建快照,将主LUN 数据全部复制到从LUN,复制期间

新增数据不会复制到从LUN 中。

3.3.2正常状态处理

具体处理流程如下:

1.主机下发IO 到存储系统A 的LUN1。

LUN2 和LUN3 分别是LUN1 不同时间点的副本,LUN3 的数据副本比LUN2 的数

据副本时间要早。LUN2 既是存储系统A 与存储系统B 异步远程复制的从LUN,

又是存储系统B 与存储系统C 异步远程复制的主LUN),B 站点、C 站点LUN 对

于主机默认均为只读。

2.当A-B 异步远程复制同步周期到来,存储系统A 生成LUN1 在此时间点的数据

(如t1 时间点数据)。

3.存储系统B 生成同步开始前LUN2 的多时间点数据(如t2 时间点数据)。如果异

步远程复制同步失败,当需要使用LUN2 运行业务时,系统自动回滚多时间点数据,

以保证存储系统B 中数据的可用性。当B-C 异步远程复制同步周期到老,存储系

统B 生成LUN2 在此时间点的数据(如t2 时间点数据)

4.后台启动由LUN1 在t1 时间点的数据到LUN2 的周期性同步。

5.存储系统C 生成同步开始前LUN3 的多时间点数据(如台t3 时间点数据)。如果

异步复制失败,当需要使用LUN3 运行业务时,系统自动回滚多时间点数据。

6.后台启动由LUN2 在t2 时间点的数据到LUN3 的周期性同步。

异步复制处理过程如下:

1.主LUN1 的写IO 处理

2.在周期N,将新写入主LUN 的数据写入Cache 中。

3.在下一个周期N+1,将周期N 缓存的数据复制到从LUN2,同时将周期N+1 新收

到的写数据继续写入Cache 中。数据复制完成后,进入下一周期。

4.按照步骤2)重复进行。

5.从LUN 2 的写IO 处理

6.周期N 开始时,对从LUN 进行快照activating,即对周期N-1 的数据在Cache 和

存储介质中进行快照activating。

7.在周期N 中,接收由主LUN 同步而来的数据,写入从LUN 的Cache。

8.该周期复制完成后,disable 从LUN 的快照。

9.从LUN3 的写IO 处理

10.周期N-1 开始时,对从LUN 进行activating,即对周期N-2 的数据在Cache 和存

储介质中进行快照activating

11.在周期N-1 中,接收由主LUN 同步而来的数据,写入从LUN 的Cache。

12.该周期复制完成后,Disable 从LUN 的快照。

如果主LUN 的写IO 带宽临时性增大,或者阵列间链路带宽临时减小使得复制周期变

长,导致周期内写入数据过多,超过了Cache 所能缓存的写数据量,则远程复制会采

用日志对超出部分进行记录,不会中断周期性同步。

远程复制会严格保证从LUN 的数据一致性,即写IO 的依赖关系。在主LUN 的IO 处

理中,在每次周期间切换时,远程复制会保证将有依赖关系的两个写IO 纳入同一个周

期,或者按照其顺序分别纳入先、后周期,不会出现先写入的IO 纳入后一周期,而后

写入的IO 纳入前一周期的情况。在从LUN 的IO 处理中,当主LUN 故障后需要访问从

LUN 时,远程复制会检查从LUN 是否完成当前周期的复制,如果没有完成,则使

用快照对从LUN 进行回滚,使其数据保证为周期切换点时的状态,保证其数据一致性。

通过Cache 中的异步复制,最高可以实现1~6s 的秒级RPO 的数据灾备要求。

3.3.3灾难切换处理

1)生产中心故障

当生产中心发生灾难后,不能再提供业务。同城灾备中心的从LUN 保存着与主LUN

较近时间点的数据,保障尽量少的数据丢失。如果同城灾备中心部署有备用主机,则

备用主机可以访问从LUN,接管业务,实现最短的业务恢复。

从LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以

便用于后续增量恢复,缩短业务回切的时间。

2)生产中心和同城灾备中心都故障

当生产中心和同城中心在重大灾难或者都故障后,异地备中心的从LUN 保存着与主

LUN 间隔一定时间周期(复制周期)之前的数据,保障数据绝大部分不丢失。如果异地

同城灾备中心部署有备用主机,则备用主机可以访问从LUN,接管业务。异地灾备中心

从LUN 开始被主机访问后,每次收到新写入的数据,远程复制会自动记录其地址,以便

用于后续增量恢复,缩短业务回切的时间。

3.3.4灾难恢复处理

数据未被破坏时

当生产中心灾难恢复后,如果存储系统A 和B 没有受到破坏,主LUN 能够恢复其原有

数据,则远程复制可以将主LUN 故障期间,从LUN 1’新写入的数据增量复制到主

LUN。复制完成后,主、从LUN 保持复制关系。此时,可以将业务切换回生产中心,

重新由生产主机访问存储阵列A 的主LUN,远程复制重新保持由主LUN 向从LUN 实

时同步数据。

数据完全被破坏时

当存储系统A 或B 被破坏,数据不可修复时,需要重建存储系统A 或者存储系统B,

将从端数据反向复制到主端存储系统A 和存储系统B 上,调整主从关系,在生产中心

恢复业务。

3.3.5链路和灾备端故障

当生产中心与灾备中心的复制链路故障或者灾备中心设备故障,则远程复制自动断开

复制,不影响生产系统的正常运行。生产中心主LUN 将记录故障期间的数据差异变化,

待故障恢复后,自动将增量数据同步到从LUN。

3.4异步+异步并联工作原理

3.4.1初始同步处理

生产中心与同城灾备中心异步复制主从LUN 之间和同城灾备中心与异地灾备中心异步

复制主从LUN 之间都需要进行初始同步,初始同步可以在线进行。复制带宽足够的情

况下可以配置完就启动初始同步,带宽不足情况下,可以有几种初始同步方式:

1.临时增加复制带宽完成初始同步。

2.将设备搬迁到一起来完成初始同步。

3.通过移动介质存储中转进行初始同步。

异步复制初始同步系统自动创建快照,将主LUN 数据全部复制到从LUN,复制期间

新增数据不会复制到从LUN 中。

3.4.2正常状态处理

具体处理流程如下:

1.主机下发IO 到存储系统 A 的LUN1。LUN2

和LUN3 分别是LUN1 不同时间点的副本,LUN3 的数据副本一般比LUN2

的数据副本时间要早(如果LUN2 是10 点的,LUN3 可能是9 点的数据)。LUN1

既是存储系统A 与存储系统B 异步远程复制的主LUN,又是存储系统A 与存储

系统C 异步远程复制的主LUN),B 站点、C 站点LUN 对于主机默认均为只读。

2.当A-B 异步远程复制同步周期到来,存储系统A 生成LUN1 在此时间点的数据

(如t1 时间点数据)。

3.存储系统B 生成同步开始前LUN2 的多时间点数据(如t2 时间点数据)。如果异

步远程复制同步失败,当需要使用LUN2 运行业务时,系统自动回滚多时间点数据,

以保证存储系统B 中数据的可用性。当B-C 异步远程复制同步周期到老,存储系

统B 生成LUN2 在此时间点的数据(如t2 时间点数据)

4.后台启动由LUN1 在t1 时间点的数据到LUN2 的周期性同步。

5.当A-C 异步远程复制同步周期到来,存储系统A 生成LUN1 在此时间点的数据

(如t3 时间点数据)

6.存储系统C 生成同步开始前LUN3 的多时间点数据(如台t4 时间点数据)。如果

异步复制失败,当需要使用LUN3 运行业务时,系统自动回滚多时间点数据。

7.后台启动由LUN1 在t3 时间点的数据到LUN3 的周期性同步。

异步复制处理过程如下:

银行业务连续性和应急处理方案样本

银行业务连续性和应急处理方案

XX银行业务系统 业务连续性和应急处理方案 总则 业务系统的安全性是从技术角度与业务角度相互配合来保证,主要以防范为主,对于出现的突发事件必须有相应的组织机构来统一解决。为减少我行业务停顿造成的损失,降低重要业务进程和数据重大失效或灾难的影响,应急恢复工作组应制定详尽的应急计划,而且分工明确责任清晰。制定应急计划应分析灾难、安全失效及服务停顿的影响,明确关键设备如重要服务器、网络设备、通信线路以及软件系统的备份恢复措施和每一部分需要恢复的时间。应急计划应该明确针对不同情况的应急处理流程和恢复不同软件硬件的操作规范,而且定期进行实地演练;用作备份的设备应保持设备完好,而且应随时能够提供使用。应急计划应该经我行领导的审批,当业务系统发生变动时应急计划也应进行必要的修改、演练并获得领导审批。 第一章应急反应工作组 1.应急反应工作组的建立原则 应急反应工作组由业务部门与科技部相关人员组成,采取组长负责制。成员由专业技术人员与业务人员组成,应急反应工作

组成员在业务、技术水平上具有足够的能力处理紧急事件。各成员要具有良好的团队精神,每位成员应有明确的责任划分,在紧急事件出现时能够全力配合,服从领导安排、具有协同解决问题的能力。应急反应工作组在人员配备上要充分考虑备份方案,对于关键性岗位采取双人备份策略,以备在紧急情况发生时,保证关键岗位人员能顺利到位。 2.应急反应工作组职能 应急反应工作组职能主要包括根据业务需要确定业务系统的应急策略,并制定相应的应急计划;在事件发生时负责组织相关人员排除故障并恢复系统;平时应负责督促检查应急处理措施的准备落实情况;组织内部人员定期进行应急措施的培训和演练;每年对系统的应急策略和应急计划进行测试和评审,对需要修订的项目提出修改意见报安全领导小组审批。 3.定期修改应急计划与措施 为了适应业务系统业务快速增长的需要,业务系统系统日益复杂化,因此应急反应工作组会定期对应急计划与措施进行审计,检查各种恢复措施,确保能够从硬件、软件、网络、数据各个环节做到完整恢复。对于不断扩充的系统要即时有效地补充、修改应急计划与恢复措施,确保应急计划的可行性与高效性。

系统两地三中心方案

金融行业“两地三中心”数据备份与恢复方案设计 1.“两地三中心”设计背景 1.1.行业背景 中国有句俗话,“人无远虑,必有近忧”。伴随信息化的不断深入,银行越来越依赖信息系统,在信息化给社会和银行带来巨大好处的同时,这也使得银行的组织更易遭受攻击,从而造成业务系统的中断、数据丢失等。 近年来,越来越多的银行发现,他们的IT系统意外地、不必要地中断——即便是临时性的,也会使银行业务活动立即中断,无法继续开展,数据的丢失或访问中断,不仅影响了系统运行,还给银行造成重大损失。 1.2.业务持续性需求 银行的服务日益全球化,经济的增长和国民财富的急剧增长,客户的需求日益多样化和复杂化,对银行的服务质量的期望值越来越高,使银行保持业务连续状态成为当务之急。所谓业务连续,就是无论发生任何情况,关键系统和网络都持续可用。 传统意义上的备份和恢复计划无法继续满足需要。当今的预防措施应该包括风险评估、中断影响分析以及避免中断策略,必须将这些因素充分考虑进综合业务持续性计划。在信息时代,业务持续性不再是一项“可有可无”的工作,而是“势在必行”的重点规划。 1.3.“两地三中心”业务保障 影响业务持续性发展的因素很多,既有外部因素,如电力、通讯等;也有

内部因素,如场地、人员、决策、IT技术等。但从系统的观念看,可以说目前影响银行业务持续发展的最直接的威胁来自于信息系统的安全。 健全业务持续性风险的预防策略和措施,需要以下几点基于业务的需求: a)实施数据集中保护。随着数据日益成为银行的生命线,支持业务持续性的数据存储策略成为银行必须考虑的重点。它的优势在于,总体存储的方式可使银行降低购置和维护的成本,最大限度地减少管理多个独立业务系统的复杂性,提高银行数据的整体安全性。同时,存储容量也可得以优化,减少利用率偏低的现象。 b)采用冗余、集群、负载均衡能力等技术,消除单点故障,提高系统的高可用性,提高系统性能影响。 建立信息系统安全业务持续性保障体系,针对灾难性事件的预防目标,建议总、分行层面考虑建立异地容灾环境,建立异地备份机房,配备核心业务需要的基础设施、网络设备、通讯线路和计算机设备;建立数据服务器区,实现全行经营数据的集中保存。构建生产中心、同城灾备中心、异地灾备中心的“两地三个中心”灾备体系。 2.“两地三中心”灾难恢复系统布局 2.1.布局原则 a) 灾难备份中心设置在中华人民共和国境内; b) 灾难备份中心与生产中心之间距离合理,应避免灾难备份中心与生产中心同时遭受同类风险;

业务连续性管理体系

BS25999 业务连续性管理体系 趋势引领信息咨询有限公司 Trendsetting Consulting Co., Ltd

趋势引领是一家专注于IT服务管理(ITSM)和信息安全(ISMS)的专业咨询公司,是国际信息科学考试学会(EXIN)授权的ITIL培训和考试中心。公司以“传递先进的 IT 管理理念和经验,提高客户的IT 运维管理和 IT 项目管理成熟度”为使命,不断吸纳国内国际先进管理方法,并将这些先进的管理思想与具体企业管理相融公司全体员工均多年从事IT行业,对于如何标准化服务作业流程,降低IT运营成本,提高企业风险管控能力,以及建立IT服务质量体系具有独到的见解和方法。 公司与政府部门、权威的认证机构、国际500强企业和高等院校保持的良好密切的关系,及时跟踪标准和国内相关政策的发展变化、汲取企业的成功经验,使我们的客户能够得到最新、最权威的信息和咨询服务。 业务连续性管理的国际标准BS25999 BSI在2006年推出业务连续性管理的实践指南BS 25999-1:2006,一年之后,又推出业务连续性管理体系的规范BS 25999-2:2007。前者作为实践指南,可以提供在业务连续性管理的各个环节的指导,而后者提出的是业务连续性管理体系的必备要素的要求,可以作为审核标准来验证组织的业务连续性管理是否能够达到国际的标准。 两个标准结合使用,可以帮助帮助企业认识到潜在的危机和相关影响,制订响应、业务和连续性的恢复计划,从而提高企业的风险防范能力,以及有效地响应非计划的业务破坏并降低不良影响。 BS25999收益 9理解业务连续管理的重要性 9了解BS25999标准的框架和要求: 9掌握业务影响分析(BIA)方法 9掌握风险分析(RA)方法

系统两地三中心方案样本

金融行业”两地三中心”数据备份与恢复方案设计 1.”两地三中心”设计背景 1.1.行业背景 中国有句俗话, ”人无远虑, 必有近忧”。伴随信息化的不断深入, 银行越来越依赖信息系统, 在信息化给社会和银行带来巨大好处的同时, 这也使得银行的组织更易遭受攻击, 从而造成业务系统的中断、数据丢失等。 近年来, 越来越多的银行发现, 她们的IT系统意外地、不必要地中断——即便是临时性的, 也会使银行业务活动立即中断, 无法继续开展, 数据的丢失或访问中断, 不但影响了系统运行, 还给银行造成重大损失。 1.2.业务持续性需求 银行的服务日益全球化, 经济的增长和国民财富的急剧增长, 客户的需求日益多样化和复杂化, 对银行的服务质量的期望值越来越高, 使银行保持业务连续状态成为当务之急。所谓业务连续, 就是无论发生任何情况, 关键系统和网络都持续可用。 传统意义上的备份和恢复计划无法继续满足需要。当今的预防措施应该包括风险评估、中断影响分析以及避免中断策略, 必须将这些因素充分考虑进综合业务持续性计划。在信息时代, 业务持续性不再是一项”可有可无”的工作, 而是”势在必行”的重点规划。

1.3.”两地三中心”业务保障 影响业务持续性发展的因素很多, 既有外部因素, 如电力、通讯等; 也有内部因素, 如场地、人员、决策、 IT技术等。但从系统的观念看, 能够说当前影响银行业务持续发展的最直接的威胁来自于信息系统的安全。 健全业务持续性风险的预防策略和措施, 需要以下几点基于业务的需求: a)实施数据集中保护。随着数据日益成为银行的生命线, 支持业务持续性的数据存储策略成为银行必须考虑的重点。它的优势在于, 总体存储的方式可使银行降低购置和维护的成本, 最大限度地减少管理多个独立业务系统的复杂性, 提高银行数据的整体安全性。同时, 存储容量也可得以优化, 减少利用率偏低的现象。 b)采用冗余、集群、负载均衡能力等技术, 消除单点故障, 提高系统的高可用性, 提高系统性能影响。 建立信息系统安全业务持续性保障体系, 针对灾难性事件的预防目标, 建议总、分行层面考虑建立异地容灾环境, 建立异地备份机房, 配备核心业务需要的基础设施、网络设备、通讯线路和计算机设备; 建立数据服务器区, 实现全行经营数据的集中保存。构建生产中心、同城灾备中心、异地灾备中心的”两地三个中心”灾备体系。 2.”两地三中心”灾难恢复系统布局

业务连续性管理方法

业务连续性管理方法 Ting Bao was revised on January 6, 20021

目录

1.目的 确保核心业务及支持性业务的连续运作,减少各种安全风险可能带来的损失。 2.适用范围 本方案适用于公司在以下前提条件下的业务连续性管理: 2.1前提条件1: 公司不在同一时间内遭受同样大规模的破坏 2.2前提条件2: 公司雇用关系、现金流、供应商关系、客户关系、政府关系、投 资关系、合作伙伴关系没有受到重大影响 3.定义 3.1业务连续性管理方案: 为预防业务风险、意外灾难可能带来的损失,有效保障公司核心业 务及支持性的正常运作,而预先制订的一系列管理计划,包括:业 务连续性管理目标、业务恢复指标、以及各类灾难、故障的应急和 恢复程序。 3.2最大容忍中断时间: 指业务能容忍在没有正常支撑工具(如业务记录、信息系统、通信 电话等)支撑的最大工作时间(不包括休息时间)。 3.3关键功能目标恢复时间: 指从灾难发生开始到业务关键功能(指核心业务功能,例如:客户 要求的开发活动、支持开发活动必须的业务记录、信息系统、通信 电话)得到恢复的时间。 3.4全部功能目标恢复时间: 指从灾难发生开始到所有业务功能(指灾难发生前工作环境,包括 与原有环境一致的办公场所、基础设施、业务记录、信息系统等) 得到恢复的时间。 3.5小规模灾难或故障: 指导致某一个核心业务单元工作瘫痪的灾难或故障,例如:某一部 门的信息系统瘫痪、公司局部受到火灾、暴雨、洪水、液体泄漏事 件等影响。 3.6大规模灾难或故障: 指导致所有核心业务单元工作瘫痪的灾难或故障,例如:整个网络系 统瘫痪、信息部被完全破坏、传染病爆发,导致所有业务不能开展 等。

华为业务连续性容灾解决方案两地三中心解决方案技术白皮书

业务连续性容灾解决方案 V100R003C00 两地三中心解决方案技术白皮书 文档版本 01 发布日期 2015-08-15 华为技术有限公司

版权所有? 华为技术有限公司2015。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为技术有限公司 地址:深圳市龙岗区坂田华为总部办公楼邮编:518129 网址:https://www.doczj.com/doc/f114475509.html,

目录 1 概述 (7) 1.1 数据中心业务连续性的挑战 (7) 1.2 方案概述 (7) 1.3 方案亮点 (7) 2 两地三中心方案架构 (9) 2.1 级联组网架构 (9) 2.1.1 同步+异步级联方案 (10) 2.1.2 异步+异步级联方案 (10) 2.2 并联组网架构 (10) 2.2.1 同步+异步并联方案 (10) 2.2.2 异步+异步并联方案 (11) 2.3 双活组网架构 (11) 2.3.1 VIS双活+异步方案 (11) 2.3.2 HyperMetro+异步级联方案 (12) 2.4 关键组件技术实施要求 (12) 3 两地三中心方案工作原理 (14) 3.1 同步+异步级联工作原理 (14) 3.1.1 初始同步处理 (14) 3.1.2 IO处理流程 (15) 3.1.3 灾难切换处理 (16) 3.1.4 灾难恢复处理 (16) 3.1.5 链路和灾备端故障处理 (16) 3.2 同步+异步并联工作原理 (16) 3.2.1 初始同步处理 (16) 3.2.2 IO处理流程 (17) 3.2.3 灾难切换处理 (17) 3.2.4 灾难恢复处理 (18) 3.2.5 链路和灾备端故障 (18) 3.3 异步+异步级联工作原理 (18) 3.3.1 初始同步处理 (18)

两地三中心容灾方案

Xx项目存储方案介绍

目录 1. 现状综述 (4) 2. 总体建设方案 (4) 2.1. 建设原则和策略 (4) 2.1.1. 建设原则 (4) 2.1.2. 建设策略 (5) 2.2. 建设目标 (7) 2.2.1. 总体目标 (7) 2.2.2. 分期目标 (7) 2.3. 建设内容 (7) 2.4. 总体设计方案 (8) 3. 容灾的核心技术及选择 (9) 3.1. 容灾系统衡量指标 (9) 3.2. 容灾级别 (10) 3.3. 常见容灾建设模式 (11) 3.3.1. 同城容灾 (11) 3.3.2. 异地容灾 (11) 3.3.3. 两地三中心 (11) 3.3.4. 双活数据中心 (11) 3.4. 常用的数据复制技术 (12) 3.4.1. 基于存储层的容灾复制方案 (13) 3.4.2. 基于主机数据复制技术的灾备方案 (18) 3.4.3. 基于数据库的数据复制技术构建灾备方案 (20) 3.5. 如何选择最优的容灾方案 (28) 3.5.1. 数据容灾技术选择原理 (28) 3.5.2. 数据容灾技术选择度量标准 (29) 3.6. 本项目容灾模式及技术的选择 (29) 3.6.1. 容灾模式选择 (29) 3.6.2. 容灾中心选址 (30) 3.6.3. 数据复制技术的选择 (32) 4. 推荐方案概述 (33) 4.1. 技术路线选择 (33) 4.2. 总体方案架构 (33) 4.3. 数据库容灾系统设计 (35) 4.3.1. Golden Gate技术原理 (36) 4.3.2. 各委办局和同城容灾中心之间的数据库复制 (37) 4.3.3. 同城容灾中心和异地容灾中心之间的数据库复制 (40) 4.4. 非结构化数据容灾系统设计 (40) 4.4.1. 同城容灾中心和生产中心之间的数据容灾 (41) 4.4.2. 同城容灾中心和远程容灾中心的数据容灾 (43) 4.4.3. 应用级容灾几种实现方式 (44) 4.5. 一体化集中备份系统 (45) 4.6. 容灾网络建设方案设计 (46)

业务连续性计划

业务连续性计划 事先制定一个完备的业务连续性计划(Business Continuity Planning,缩写为BCP),积极防范并且应变处理灾难发生的一系列后果,将灾难的蔓延和损失控制在企业能够承担的范围以内,已成为现代企业管理范畴内的一个十分重要的任务。 【第一部分】 BCP的基本要素 笼统地说,BCP的目标只有一个,那就是确定并减少危险可能带来的损失,有效地保障业务的连续性。而有关BCP的一些特定目标我们将在以下各个部分中加以描述。 BCP实施的最终结果是: ●一组防范危险的评测指标; ●一支执行团队,在经过培训后可以处理各种危险事件; ●一套计划,提供危险发生时的路线图。该计划应该是充分和完备的,必须详细落实到该计划实施范围内的每一个单位、人员或设备。 我们下面所要讨论的主要是与企业中IT设施相关的内容,没有涉及到企业人员在危险状况下的安全管理问题。

每个企业所制定的BCP都应该有每个企业或者所处行业独有的特色,彼此之间不会完全一致,但大致上说来,一个完备的BCP主要是由以下一些关键部分构成的: 一、危险评估 危险评估就是认识并分析各种潜在危险的结果。这些危险的来源可能是: ●各种区域性的天然灾难,如洪水、地震、疫病等; ●人为事故或蓄意破坏造成的严重灾难,如火灾、恐怖主义袭击等; ●安全威胁、硬件、网络或通信故障; ●灾难性的应用系统错误。 所有的危险都应纳入企业的危险评估范围,并且应对各种危险的可能来源地进行较准确的定位。对于每一种危险的来源都应该认识到: ●危险的类型; ●危险的程度; ●危险发生的可能性。 比如说,如果按照有无警示性先兆来分,各类危险还可以分为:

业务连续性管理制度

业务连续性管理办法 总则 为了提高公司的风险防范能力,有效地应对各种非计划的业务破坏、降低影响,确保公司各项业务的连续性,保障公司、商户、合作伙伴等相关单位的利益,特制订本办法。 第一章流程规范 一、公司建立业务连续性管理部门及应急领导小组,根据安全级别,实行分级管理,保证在发生重大事故导致业务中断时,所有成员能够识别其角色与职责。 二、制订危机管理和灾难恢复等业务连续性管理流程,确保在系统发生故障等导致业务中断之时,能在最短时间内、保证数据零丢失的情况下进行快速恢复。 三、在与合作商(服务商)签订书面合同时要充分考虑业务的连续性,明确双方的权利、义务,并制定在意外情况下能顺利实现合作商(服务商)变更,保证合作商(服务商)不间断的应急预案。 第二章业务中断分析 一、业务中断成因可分为自然灾害、人为灾害、一般灾害 1、自然灾害主要有:地震、火灾、水灾、台风等,此种灾害无法预判,灾害发生时无法防护,发生频率最低,当灾害发生时,业务一般也只能切换到灾备机房,一旦切换到灾备机房,业务正常运行肯定收到影响。 2、人为灾害主要有:恐怖攻击、黑客攻击(网络攻击、病毒攻击等),此灾害同样无法预判,发生不高,但其中黑客攻击可从网络安全、主机安全、系统安全等方面进行防护,加大黑客攻击难度,从而达到黑客攻击防护的目的。 3、一般灾害主要有:网络故障、服务器软硬件故障、应用程序故障等,此灾害可防护,但发生频率最高,应对网络、服务器、应用程序进行相应监控,并建立相应的监控巡检系统,自动监控自动报警,及时发现和处理故障。另核心业务系统应建设主备高可用架构或

负载均衡高可用架构,避免单点故障。 二、业务中断的企业影响 1、企业收入:企业直接损失、商户赔偿金、企业未来收入损失; 2、生产效率:参与人员人数和人员处理时间; 3、声誉损失:影响企业声誉,降低了商户和合作伙伴对企业的信任,影响到后期的企业市场发展和业务合作,扩大了竞争对手优势 4、财务业绩:影响到企业的信用、现金流甚至违规罚款等 第三章技术保障 一、建立业务连续性管理制度,目标是尽可能快地恢复服务至服务级别协议规定的水准,尽量减少事故对业务运营的不利影响,以确保最好的服务质量和可用性级别。 二、应急系统的技术体系,主要是建立预防为主的计算机风险防范体系,将风险的预警融于日常工作中,包括:硬件设备的冗余备份、网络线路的冗余备份、数据备份、网络监控、系统监控。 三、维护人员应根据维护作业计划,对所维护管理的设备定期进行预防性巡视检查,机房和外线维护人员在巡视中应认真负责,及时发现问题,重点注意处在环境恶劣下、存在潜在质量故障的设备,巡视检查要认真进行记录。 第四章风险管理 一、深入分析可能造成业务中断的因素,并对其应采取相应的控制措施。 二、根据业务环境的变化,对原有风险管理制度、规则和程序进行必要的和适当的修正,保证安全措施的持续有效和及时更新。 三、对公司的关键岗位和关键人员,应实行轮岗和强制性休假制度,建立严格的内部监督管理制度。 四、系统采用适当的加密技术和措施,保证交易数据传输的安全性与保密性,以及所传输

业务连续性的管理制度

业务连续性的管理制度 精品办公文档 业务连续性管理办法 总则 为了提高公司的风险防范能力,有效地应对各种非计划的业务破坏、降低影响,确保公司各项业务的连续性,保障公司、商户、合作伙伴等相关单位的利益,特制订本办法。 第一章流程规范 一、公司建立业务连续性管理部门及应急领导小组,根据安全级别,实行分级管理,保证在发生重大事故导致业务断时,所有成员能够识别其角色与职责。 二、制订危机管理和灾难恢复等业务连续性管理流程,确保在系统发生故障等导致业务断之时,能在最短时间内、保证数据零丢失的情况下进行快速恢复。 三、在与合作商(服务商)签订书面合同时要充分考虑业务的连续性,明确双方的权利、义务,并制定在意外情况下能顺利实现合作商(服务商)变更,保证合 作商(服务商)不间断的应急预案。 第二章业务断分析 一、业务断成因可分为自然灾害、人为灾害、一般灾害

1、自然灾害主要有:地震、火灾、水灾、台风等,此种灾害无法预判,灾害发生时无法防护,发生频率最低,当灾害发生时,业务一般也只能切换到灾备机房,一旦切换到灾备机房,业务正常运行肯定收到影响。 2、人为灾害主要有:恐怖攻击、黑客攻击(网络攻击、病毒攻击等),此灾害同样无法预判,发生不高,但其黑客攻击可从网络安全、主机安全、系统安全等方面进行防护,加大黑客攻击难度,从而达到黑客攻击防护的目的。 3、一般灾害主要有:网络故障、服务器软硬件故障、应用程序故障等,此灾害可防护,但发生频率最高,应对网络、服务器、应用程序进行相应监控,并建立相应的监控巡检系统,自动监控自动报警,及时发现和处理故障。另核心业务系统应建设主备高可用架构或负载均衡高可用架构,避免单点故障。

业务连续性管理计划

业务连续性管理计划 1. 目的 为了保证在有可能出现地震、台风、洪水、泥石流、火灾、化学品灾害、公用事业的供应中断、劳动力短缺,关键设备故障、售后退货和IT系统损坏等特别事件的情况下满足客户的交付需求。 2. 范围 适用于在出现地震、台风、洪水、泥石流、火灾、化学品灾害、公用事业的供应中断、劳动力短缺,关键设备故障、售后退货和IT系统损坏、等特别事件的情况。 3. 引用文件 3.1 《人力资源管理程序》 4. 定义 特别事件:地震、台风、洪水、泥石流、火灾、化学品灾害、公用事业的供应中断、劳动力短缺,关键设备故障、售后退货和IT系统损坏等其它突发性事件。 5. 职责和权限 5.1 企管部:负责制订和修改本应急计划,并对灾害风险进行评估; 5.2 总经理:负责组织及实施应急计划。 5.3 工厂负责人:负责协调、组织及实施应急计划,当总经理不在时,行使总经理职权。 5.4 生产部:负责突发性事件发生后现场物料、机器、工具进行整理并清洁干净。 5.5 技术部:负责抢修设备,防止突发性事件扩大,降低突发性事件损失,使发生突发性事件 后生产能够尽快恢复。 5.6 办公室:负责突发事件发生后人员及财产的安全;负责维持突发性事件发生后现场秩序; 负责突发性事件中各项指令的传达及反馈突发性事件信息;负责内/外联络,小组成员之间的信息沟通;负责IT系统恢复。 5.7 销售服务中心:负责突发性事件发生后受影响订单与客户沟通。 5.8 采购部:负责突发性事件发生后恢复生产所需要的物料采购、外协加工。 5.9 质控部:负责突发性事件发生后受影响物料,在制品和成品的检验和判定。 5.10 物控部:负责统计突发性事件发生后受影响订单,调整生产计划和物料需求计划并跟进计 划的实施。负责统计突发性事件发生后仓库受影响的物资,通知质控部进行检验,根据质控部检验结果申请物资报废。 5.11 临时事故应急指挥小组:组织人员清理现场,评估灾后损失,协调全厂恢复计划的具体实施,督促各部门恢复生产进度,解决各部门在恢复生产中遇到的实际困难。

两地三中心数据容灾解决方案

钢铁企业两地三中心数据容灾解决方案 上海浪擎科技有限公司售前咨询部 2012年8月25日

目录 1. 信息安全,重于泰山 (3) 1.1备端在线两地三中心 (3) 2“双活”+ 异地容错的技术方案 (4) 2.1备端在线两地三中心灾备方案网络设计 (4) 2.2备端在线容灾系统设计 (4) 2.3异地容错的容灾系统设计 (6) 2.4备端在线两地三中心的容灾优势 (6) 附件: (11) 2.4附件1:部分案例介绍 (11)

1.信息安全,重于泰山 钢铁行业作为传统的制造行业,在逐步摆脱传统的业务模式,加速走向信息化生产时代。“如何保障业务系统的安全正常运行”的课题,一直是行业中讨论、尝试的重点。虽然信息化程度提高了,但信息安全问题不容忽视,尤其是针对业务系统的信息容灾处理成为重中之重。为了防止信息安全事故或事件的发生,尽管有相应技术防范措施,但是人为因素造成的安全风险仍然占有很高的比率。因此明确目前钢铁企业面临的主要信息安全问题并提出相应的信息管理措施十分必要。 随着信息化的发展,钢铁企业信息系统由以前单一的一、二级作业系统,向多级系统并存、互动发展。在SAP的定义中,钢铁冶金行业的信息系统架构被分解成五个层次,这五级系统分别是:一级设备控制系统;二级过程控制系统;三级车间或分厂级制造执行系统(即MES)等;四级钢铁企业资源计划系统(即ERP);五级钢铁企业间管理系统及决策系统。这五层系统之间相互集成、相互协调,构成了一个完整、复杂的钢铁企业信息系统。 那么问题来了,面对这样复杂的信息系统,如何才能保障生产系统在发生自然或人为的灾害时的业务运行呢?如何才能保证这样复杂的系统里的信息的安全呢?信息,作为企业宝贵的资源,其重要性已经得到了人们的充分认识。但是我们该如何保护这一资源?假设您就是企业的一位信息管理人员,当您的企业遭遇以下事故时,您将如何去面对: 1.某一天,企业的交易数据因操作失误而损坏; 2.某一天,工厂的所有生产数据因电源故障而丢失; 3.质量检测部门辛苦一年获取的质量数据因人为的恶意操作而丢失; 4.工厂保存的所有工人资料因为磁带的损坏而无法使用; 这样的例子还有很多很多。 那么这样的事故所带来的后果是什么?至少,很难想象这个不幸的企业还能毫发无损的健康生存。因为,对于信息时代的企业而言,健全的信息往往是维持其运转所必须的基本条件。所以,如何保护企业的信息资源,如何使企业免遭信息灾难,已经成为企业所必须考虑的沉重问题。 1.1备端在线两地三中心 基于这样的需求,浪擎设计的备端在线两地三中心整体灾难恢复解决方案,可以满足不同灾难场景下的业务连续性要求。本地机房的容灾主要是用于防范生产生产服务器发生的故障,异地灾备中心用于防范大规模区域性灾难。本地机房的容灾由于其与生产中心处于同一个机房,可通过局域网进行连接,因此数据复制和应用切换比较容易实现,可实现生产与灾备服务器之间数据的实时复制和应用的快速切换。异地灾备中心由于其与生产中心不在同一机房,灾备端与生产端连接的网络线路带宽和质量存在一定的限制,应用系统的切换也需要一定的时间,因此异地灾备中心可以实现在业务限定的时间内进行恢复和可容忍丢失范围内的数据恢复。

ShadowImage--_业务连续性_解决方案

ShadowImage--“业务连续性”解决方案 ShadowImage 是HDS 公司深入研究当今商业社会业务连续性处理流程、7 x 24 x 365 服务、数据可靠性、数据可用性、数据保护等一系列需求后,全力开发的、业界公认的、技术领先的数据复制软件。基于存储系统内部运行的数据复制技术,无需主机资源参与,最大程度的发挥了软件的可用性;瞬间分离得到的多个数据备份拷贝,提供了用户并行处理联机业务、批量作业、应用开发、测试、数据分析和数据挖掘、快速恢复的解决方案,节约了生产主机宝贵的资源而处理其他重要的业务,革新了批量作业、磁带备份的新策略,给客户提供了最佳投资选择--最小的总拥有价值(TOC)和最大化的投资回报。配合HDS 公司的TrueCopy 和Freedom 智能存储系统,为客户提供高度安全的、高度灵活的、高度统一的数据保护、容灾、数据备份的解决方案。它的主要功能如下:第一,它采用了高速的、无需主机处理资源参与的数据复制技术,不依靠于任何的主机操作系统、文件系统、和数据库系统的限制,以存储系统内部的软件操作,完成基于磁道的逻辑卷复制。其次,ShadowImage 使用了本地镜像、数据同步(异步方式)处理机制,在保证不增加主机I/O 响应时间的前提下,保护要害联机生产数据的高度安全性、应用系统的可靠性、数据的完整性,保护用户的商业信誉;运用立即获得连续性业务处理的不同时间段(PIT)的数据拷贝,确保灾难或故障发生时的最新时间段的数据拷贝备份和数据的一致性,提供客户灵活、快捷、安全的恢复方法。第三,通过ShadowImage,可以在一个系统内立即访问要害业务数据的拷贝,立即共享对时间比较敏感的相关数据,保证业务处理流程的并行处理,确保企业为客户提供实时的服务,提高客户对企业的忠诚度,提升企业对客户和市场的的灵敏反映程度。第四,ShadowImage 革新数据备份策略,提高操作流程的效率,彻底清除连续性业务处理流程中的“备份窗口(Backup-Window)”时间和缓慢的磁带备份时间,满足日益增长的业务量和数据急剧增长的需要,在日趋激烈的竞争中获取宝贵的空间第五,ShadowImage 在磁盘拷贝操作中提供快速的恢复技术和数据拷贝的高可用性,完全提升数据恢复的速度和可靠性,摒弃缓慢的、因磁带质量问题引发故障的磁带恢复机制,提升了企业对人为事故、灾难的快速恢复能力和应变能力第六,ShadowImage 通过快速数据拷贝技术和连续的PIT 数据拷贝技术,可以快速、有效的预备开发和测试环境,大大缩短新的商业应用程序的开发、测试的时间和周期,为用户快速推出业务品种提供强有力的保障,缩短业务创新的周期。通过快速数据拷贝技术,ShadowImage 快速的复制真实用户环境,大大简化灾难恢复测试的步骤计划、流程演练、例行测试,确保容灾计划的可实施性第七,ShadowImage 提供高可用的、灵活的操作性,客户可以自行配置和操作,无需HDS 工程师参与;无需预留专用的逻辑盘池,节约磁盘资源,提高了存储系统的利用率。经过ShadowImage 复制的所有数据拷贝都是Raid 保护的,本地镜像机制+磁盘矩阵Raid 技术给用户提供了双重的数据保护。第八,ShadowImage 支持开放系统和OS390 系统。开放系统下1 个源逻辑卷最多可以获得10 个拷贝(包括源卷),OS390 系统总共支持4 个拷贝(包括源卷)。HDS 9900V 系列最大支持4096 pairs(镜像磁盘对)。 本地磁盘镜像功能与快速数据恢复ShadowImage 是存储系统内部的数据复制技术,磁盘的镜像功能对于主机系统是不知情的处理,异步方式数据复制技术在不增加主机I/O 响应时间的前提下,提供了逻辑卷的实时(异步方式)数据保护功能,提高了系统的可靠性通过ShadowImage,可以定义生产数据逻辑盘与备份逻辑盘的镜像复制关系,实时的(异步方式)保持2 个逻辑磁盘的数据同步。可产生一个或多个与生产主机数据库所在的盘卷(P-Vol)完全相同的一个备份镜像卷(S-Vol),备份镜像卷中的数据和生产数据库中的数据完全相同。 图15-19 HDS9900 双机热备 图15-20 HDS 9900 双机热备工作过程ShadowImage 是实时镜像写与盘组RAID 保护,

业务连续性管理规范

1. 目的 为了保证在有可能出现地震、台风、洪水、泥石流、火灾、化学品灾害、公用事业的供应中断、劳动力短缺,关键设备故障、售后退货和IT系统损坏等特别事件的情况下满足客户的交付需求。 2. 范围 适用于在出现地震、台风、洪水、泥石流、火灾、化学品灾害、公用事业的供应中断、劳动力短缺,关键设备故障、售后退货和IT系统损坏、等特别事件的情况。 3. 引用文件 3.1 《人力资源管理程序》 4. 定义 特别事件:地震、台风、洪水、泥石流、火灾、化学品灾害、公用事业的供应中断、劳动力短缺,关键设备故障、售后退货和IT系统损坏等其它突发性事件。 5. 职责和权限 5.1 企管部:负责制订和修改本应急计划,并对灾害风险进行评估; 5.2 总经理:负责组织及实施应急计划。 5.3 工厂负责人:负责协调、组织及实施应急计划,当总经理不在时,行使总经理职权。 5.4 生产部:负责突发性事件发生后现场物料、机器、工具进行整理并清洁干净。 5.5 技术部:负责抢修设备,防止突发性事件扩大,降低突发性事件损失,使发生突发性事件 后生产能够尽快恢复。 5.6 办公室:负责突发事件发生后人员及财产的安全;负责维持突发性事件发生后现场秩序; 负责突发性事件中各项指令的传达及反馈突发性事件信息;负责内/外联络,小组成员之 间的信息沟通;负责IT系统恢复。 5.7 销售服务中心:负责突发性事件发生后受影响订单与客户沟通。 5.8 采购部:负责突发性事件发生后恢复生产所需要的物料采购、外协加工。 5.9 质控部:负责突发性事件发生后受影响物料,在制品和成品的检验和判定。 5.10 物控部:负责统计突发性事件发生后受影响订单,调整生产计划和物料需求计划并跟进计 划的实施。负责统计突发性事件发生后仓库受影响的物资,通知质控部进行检验,根据质 控部检验结果申请物资报废。 5.11 临时事故应急指挥小组:组织人员清理现场,评估灾后损失,协调全厂恢复计划的具体实 施,督促各部门恢复生产进度,解决各部门在恢复生产中遇到的实际困难。 6. 运作程序 6.1 地震、台风、洪水、泥石流 6.1.1 若办公室提前接到政府相关部门通知或地震、天气监测预报信息、预警信号,需 要停止或调整生产活动的,则应在第一时间将信息报告总经理,并通过电话、短

业务连续性计划学习资料

业务连续性计划 业务连续性计划概述 业务连续性计划是一套基于业务运行规律的管理要求和规章流程,使一个组织在突发事件面前能够迅速作出反应,以确保关键业务功能可以持续,而不造成业务中断或业务流程本质的改变。 业务连续性是指企业有应对风险、自动调整和快速反应的能力,以保证企业业务的连续运转。为企业重要应用和流程提供业务连续性应该包括以下三个方面。 1.高可用性(High availability)。它是指提供在本地故障情况下,能继续访问应用的能力。无论这个故障是业务流程、物理设施,还是IT软硬件故障。 2.连续操作(Continuous operations)。它是指当所有设备无故障时保持业务连续运行的能力。用户不需要仅仅因为正常的备份或维护而需要停止应用的能力。 3.灾难恢复(Disaster Recovery)。它是指当灾难破坏生产中心时,在不同的地点恢复数据的能力。 同时,上述三个部分不是相互孤立的,是相互关联,而且有交叉的。 区分业务连续性和灾难恢复是很必要的。严格地说,灾难恢复是恢复数据的能力,是业务连续性计划的一部分。 让业务连续性计划成为企业变化管理文化的一部分。在制定企业业务连续性计划之后,不要把这个计划放在一边。要确保该计划的切实可行,就需要把它变成活动的文档。如果企业的业务模式发生了变化,或是业务过程进行了重新设计,或是发生突发状况时的重要联系人不再为公司工作,旧的计划就需要及时进行更新。当有变化时,每个员工都应该问问自己该变化会对业务连续性计划中涉及到自己的部分会产生怎样的影响。 业务连续性计划的重要性 现在的社会特别是经济社会对网络的依赖日益加深,传统的备份恢复式安全计划已经无法保证企业业务的连续运行。 业务连续性计划正是因此而生,它根据业务流程而非针对技术进行制订,有助于建立起更具统筹能力的安全管理制度。据Gartner Group的调查结果显示,如果企业的大型数据中心和信息基础设施停止运行10日以上,超过百分之三十的企业在一个季度内倒闭,而接近90%的企业在一年内倒闭。

业务连续性管理方案

业务连续性管理方案公司标准化编码 [QQX96QT-XQQB89Q8-NQQJ6Q8-MQM9N]

目录

1.目的 确保核心业务及支持性业务的连续运作,减少各种安全风险可能带来的损失。 2.适用范围 本方案适用于公司在以下前提条件下的业务连续性管理: 2.1前提条件1: 公司不在同一时间内遭受同样大规模的破坏 2.2前提条件2: 公司雇用关系、现金流、供应商关系、客户关系、政府关系、投 资关系、合作伙伴关系没有受到重大影响 3.定义 3.1业务连续性管理方案: 为预防业务风险、意外灾难可能带来的损失,有效保障公司核 心业务及支持性的正常运作,而预先制订的一系列管理计划,包 括:业务连续性管理目标、业务恢复指标、以及各类灾难、故障的 应急和恢复程序。 3.2最大容忍中断时间: 指业务能容忍在没有正常支撑工具(如业务记录、信息系统、通信 电话等)支撑的最大工作时间(不包括休息时间)。 3.3关键功能目标恢复时间: 指从灾难发生开始到业务关键功能(指核心业务功能,例如:客户 要求的开发活动、支持开发活动必须的业务记录、信息系统、通信 电话)得到恢复的时间。 3.4全部功能目标恢复时间: 指从灾难发生开始到所有业务功能(指灾难发生前工作环境,包括 与原有环境一致的办公场所、基础设施、业务记录、信息系统等) 得到恢复的时间。 3.5小规模灾难或故障: 指导致某一个核心业务单元工作瘫痪的灾难或故障,例如:某一部 门的信息系统瘫痪、公司局部受到火灾、暴雨、洪水、液体泄漏事 件等影响。 3.6大规模灾难或故障: 指导致所有核心业务单元工作瘫痪的灾难或故障,例如:整个网络系统瘫痪、信息部被完全破坏、传染病爆发,导致所有业务不能开展 等。

商业银行业务连续性管理办法规定

商业银行业务连续性管理办法规定

商业银行业务连续性管理暂行办法 第一章总则 第一条为加强商业银行业务连续性管理,降低或消除因信息系统服务异常导致重要业务运营中断的影响,快速恢复被中断业务,根据银监会《商业银行信息科技风险管理指引》和《商业银行业务连续性监管指引》以及相关法律法规,制定本办法。 第二条本办法所称业务连续性管理是指农信社为有效应对重要业务运营中断事件,建设应急响应、恢复机制和管理能力框架,保障重要业务持续运营的一整套管理过程,包括策略、组织架构、方法、标准和程序。 第三条本办法所称重要业务是指面向客户、涉及账务处理、时效性要求较高的银行业务,其运营服务中断会对农信社产生较大经济损失或声誉影响,或对公民、法人和其他组织的权益、社会秩序和公共利益、国家安全造成严重影响的业务。 第四条本办法所称重要业务运营中断事件(以下简称运营中断事件)是指因下述原因导致信息系统服务异常、重要业务停止运营的事件。主要包括: (一)信息技术故障:信息系统技术故障、配套设施故

障; (二)外部服务中断:第三方无法合作或提供服务等; (三)人为破坏:黑客攻击、恐怖袭击等; (四)自然灾害:火灾、雷击、海啸、地震、重大疫情等。 第五条农信社应将业务连续性管理纳入全面风险管理 体系,建立与本机构战略目标相适应的业务连续性管理体系,确保重要业务在运营中断事件发生后快速恢复,降低或消除因重要业务运营中断造成的影响和损失,保障业务持续运营。 第六条农信社应根据业务发展的总体目标、经营规模 以及风险控制的基本策略和风险偏好,确定适当的业务 连续性管理战略。 第七条农信社应确定重要业务及其恢复目标,制定业 务连续性计划,配置必要的资源,有效处置运营中断事件,并积极开展演练和业务连续性管理的评估改进。 第八条业务连续性管理的基本原则是: (一)切实履行社会责任,保护客户合法权益、维护 金融秩序; (二)坚持预防为主,建立预防、预警机制,将日常 管理与应急处置有效结合; (三)坚持以人为本,重点保障人员安全;实施差异 化管理,保障重要业务有序恢复;兼顾业务连续性管理

业务连续性管理方案

业务连续性管理方案-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

目录 1.目的............................................................................................................. 错误!未定义书签。 2.适用范围 ..................................................................................................... 错误!未定义书签。 前提条件1: ........................................................................................... 错误!未定义书签。 前提条件2: ........................................................................................... 错误!未定义书签。

3.定义............................................................................................................. 错误!未定义书签。 业务连续性管理方案: .......................................................................... 错误!未定义书签。 最大容忍中断时间: .............................................................................. 错误!未定义书签。 关键功能目标恢复时间: ...................................................................... 错误!未定义书签。 全部功能目标恢复时间: ...................................................................... 错误!未定义书签。 小规模灾难或故障: .............................................................................. 错误!未定义书签。 大规模灾难或故障: .............................................................................. 错误!未定义书签。 4.规程............................................................................................................. 错误!未定义书签。 核心及支持性业务单元定义................................................................... 错误!未定义书签。 业务连续性管理目标 .............................................................................. 错误!未定义书签。 业务连续性恢复顺序 .............................................................................. 错误!未定义书签。 业务分类及灾难恢复指标 ...................................................................... 错误!未定义书签。 重大灾难、故障应急程序及计划........................................................... 错误!未定义书签。 重大灾难、故障应急程序及计划演练方案........................................... 错误!未定义书签。 5.引用文件 ..................................................................................................... 错误!未定义书签。 6.记录............................................................................................................. 错误!未定义书签。

相关主题
文本预览
相关文档 最新文档