两地三中心容灾系统设计方案
- 格式:pdf
- 大小:784.53 KB
- 文档页数:5
两地三中心容灾系统设计方案系统介绍统一考核平台数据库、流程处理应用服务及总行级web服务放在一台服务器上,数据存储在磁盘阵列上,两台服务器互为备份,全行考核平台数据集市、实例系统数据集市及实例系统考核结果数据存储在磁盘阵列上。
各实例系统设置本实例系统的查询web服务器,通过网络与本实例系统考核数据集市相连,提供本实例系统的考核数据查询及报表展现,考核平台最终用户通过局域网或广域网连接到查询web服务器。
主要数据应用环境为DB2数据库,以下是系统的基础架构图:以下是整套系统的功能架构图:●当前环境当前数据库存放在V7000系统存储中,V7000通过SVC管理,IBM SVC虚拟化方案实现存储层的双活,SVC采用stretched cluster,利用两台V7000实现vdisk mirror,加入第三个节点作为仲裁节点,每台V7000总可用容量120T,两个node距离20KM,通过DWDM设备●用户痛点:1.目前全行两地三中心建设,在现有的技术条件下,当前V7000存储环境不支持两地三中心灾备建设2.月末,季末,报表查询导出,绩效统计,考核业务压力大,主要瓶颈在于存储的I/O压力。
3.客户希望提高分行考核系统的处理速度,应对日益增长的员工数和分支行数量带来的数据增长的压力。
4.两地三中心的容灾建设,需要定时切换验证数据的有效性, 目前的SVC双活环境无法实现两地三中心的数据保护。
●解决方案:⏹基础架构选型a.SVC使用已有的SVC-DH8, 相对于以往的SVC版本,它在多项硬件功能上做了改进,在实时压缩等功能上都有非常好的表现。
b.与EMC XtreamIO闪存系列存储相比,IBM flashsystem可以在更小的机架空间提供四倍于EMC XtremIO闪存产品的容量,并提供更高的IOPS。
因此选用Flashsystem FS 900,IOPS为1.1M, 相比于flashsystem 840, 900提供了更高的带宽(读10GB/sec, 写4.5GB/sec)和更大的总可用容量,同时IBM与镁光合作,采用改进的MLC Nand, 提供了更高的可靠性。
两地三中心灾备方案1. 背景在现代化的信息技术条件下,各种灾难事件对企业的运营和数据安全构成了巨大的威胁。
为了确保业务的连续性和数据的安全性,灾备方案已经成为了企业不可或缺的一部分。
受到地缘环境、自然灾害等多种因素的影响,企业需要制定灾备方案,以保证业务的持续运营。
将业务系统和数据分散存储在不同地域的多个数据中心,是一种有效的方式,也是我们所提供的两地三中心灾备方案。
2. 方案概述两地三中心灾备方案是一种基于云计算和分布式系统的解决方案,通过将业务系统和数据分布在不同地域的三个数据中心中,以实现业务的高可用性和灾难恢复能力。
这三个数据中心包括两个主数据中心(A、B)和一个备份数据中心(C),分布在不同的地理位置上。
该方案的实施可以有效地应对自然灾害、设备故障、人为破坏等不可控因素对企业的影响,保障关键业务的连续性和可用性。
以下是方案的具体组成和设计。
3. 系统架构3.1 主数据中心两个主数据中心(A、B)是整个系统的核心,它们运行着企业的关键业务系统和数据。
每个主数据中心都具备完备且独立的硬件设施、网络和存储系统。
•主数据中心A:位于城市X,承担主要的业务运营和数据存储任务。
•主数据中心B:位于城市Y,作为主数据中心A的备份,能够及时接管业务运营和数据处理任务。
主数据中心之间通过高速网络连接,进行数据的实时同步和业务的状态复制。
主数据中心A负责主要的数据读写操作,而主数据中心B则负责数据的备份和业务的冷备。
3.2 备份数据中心备份数据中心C是系统的灾备中心,位于城市Z。
它的作用是保存主数据中心A和B的数据备份,并提供紧急的灾难恢复功能。
备份数据中心C与主数据中心通过专用线路进行数据的定期同步,确保数据的一致性。
在主数据中心发生灾难或不可用时,备份数据中心C会立即接管业务运营,保障业务的连续性。
4. 数据同步和备份策略为确保数据的一致性和完整性,我们采用以下策略进行数据的同步和备份:•日志复制:主数据中心A和B之间进行实时的数据同步,通过数据库日志的复制和传输,保持数据的一致性和完整性。
双地三核心容灾专项方案概述本文档旨在提供一份关于双地三核心容灾专项方案的详细说明。
这个方案旨在确保在系统发生故障或灾难情况下,能够保证业务的持续运行和数据的安全性。
系统架构双地三核心容灾专项方案采用以下系统架构:双地架构系统部署在两个地理位置相距较远的数据中心,分别称为主数据中心和备份数据中心。
主数据中心承担主要的业务运行和数据存储功能,而备份数据中心则作为主数据中心的冗余备份,以保证在主数据中心故障时能够快速切换到备份数据中心继续运行。
三核心架构系统采用三核心架构,包括核心数据库、核心应用服务器和核心网络设备。
这些核心组件在主数据中心和备份数据中心都进行部署,以保证冗余性和容错性。
容灾策略为了确保双地三核心容灾方案的有效性,以下是采取的容灾策略:数据备份定期对核心数据库进行全量备份和增量备份,并将备份数据存储到备份数据中心。
在主数据中心发生故障时,可以通过从备份数据中心恢复数据进行业务的快速恢复。
双活部署主数据中心和备份数据中心均能够独立运行业务,且数据实时同步。
在主数据中心发生故障时,可以快速切换到备份数据中心继续运行,确保业务的连续性。
测试和演练定期进行容灾测试和演练,以验证双地三核心容灾方案的可行性和有效性。
发现问题和漏洞时,及时进行修复和改进。
容灾恢复当系统发生故障或灾难时,可以按照以下步骤进行容灾恢复:1. 监测和识别故障:及时监测系统状态和识别故障原因。
2. 切换至备份数据中心:如果发生主数据中心故障,可以切换至备份数据中心继续运行。
3. 数据恢复:通过备份数据进行数据恢复,保证数据的完整性和一致性。
4. 故障排查和修复:对故障进行排查和修复,确保系统能够顺利运行。
结论双地三核心容灾专项方案是一种可靠的容灾解决方案,它能够在系统故障或灾难情况下保证业务的持续运行和数据的安全性。
采用该方案,可以降低业务中断的风险,提高系统的稳定性和可用性。
两地三中心容灾方案
首先,我们需要对两地三中心的布局进行合理规划。
在两地三中心容灾方案中,我们需要考虑到地理位置的选择,要求两地之间的距离适中,以便于数据中心之间的数据同步和备份。
同时,三个数据中心之间的网络连接也需要考虑到容灾切换时的稳定性和可靠性。
在布局规划中,我们还需要考虑到两地三中心之间的电力、网络、空调等基础设施的配套建设,以确保数据中心的正常运行。
其次,针对两地三中心的容灾方案,我们需要制定详细的容灾预案。
容灾预案
需要包括各种突发情况的处理流程和应急措施,例如火灾、水灾、电力故障等。
对于每一种突发情况,我们需要制定相应的处置方案,明确责任人和应急联系方式,以便在发生突发情况时能够迅速有效地做出应对。
同时,我们还需要对两地三中心的数据备份和恢复进行详细规划。
数据备份是
容灾方案中至关重要的一环,我们需要确保数据中心的数据能够定期进行备份,并能够在发生突发情况时快速恢复。
对于关键数据,我们还需要考虑到异地备份,以确保数据的安全性和可靠性。
最后,我们需要对两地三中心的容灾方案进行定期演练和评估。
容灾演练可以
帮助我们发现容灾预案中的不足之处,并及时进行修正和完善。
同时,定期的容灾评估也能够帮助我们了解容灾方案的有效性和可靠性,确保在发生突发情况时能够做出正确的应对。
综上所述,两地三中心容灾方案的制定是一项复杂而重要的工作。
只有通过合
理规划、详细预案、数据备份和恢复以及定期演练和评估,才能够确保数据中心的高可用性和容灾能力,保障企业的稳定运行。
希望通过我们的努力,能够为两地三中心的容灾方案提供更加完善的保障。
2.2 备端在线容灾系统设计在生产服务器上部署A镜像系统代理软件,在容灾服务器上安装A镜像系统服务器端软件,设置A镜像代理的检测路径为主存储路径,设置A镜像服务器路径为备用存储路径。
通过Web管理界面配置镜像对象、全量和增量策略等。
1)当生产服务器处于正常工作状态时,把生产服务器的浪擎代理软件连接至服务器。
当代理检测到主存储数据变化后,将捕获变化的数据实时的复制到备用存储上,实现了实时的复制。
具体部署如下图:2)当生产服务器故障,或者存储故障导致生产系统无法正常提供业务支持时,本地容灾服务器可直接接替生产服务器工作保障业务系统的持续运行;当本地机房发生灾难时,异地机房的容灾服务器可直接接替生产服务器工作保障业务系统的持续运行。
具体部署如下图:3)当生产系统恢复工作后,浪擎软件会继续其生产服务器的复制工作,并且在这之前会通过回切工具保障主备系统数据一致,具体部署如下图:2.3 异地容错的容灾系统设计如果本地机房发生故障,将异地容灾服务器中备份的数据进行手动恢复,可以直接恢复到原生产服务器(也可恢复到新服务器)。
备份存储系统保存了应用系统任意时刻的数据,恢复时可恢复到任意时间点,实现容错,具体部署如下图:通过以上4点保证了备用存储上的数据和主存储上的数据完全一致。
避免了主存储的单点故障。
管理端可部署在备用服务器上或系统管理员主机上。
与一般的cluster不同,浪擎灾备系统不采用共享存储模式,首先避免了硬件方面的巨量投资;其次避免了由于共享存储硬件或者连接共享存储硬件链路的故障引起的业务系统中断,避免了单点故障.2.4 备端在线的两地三中心容灾优势1) 备端在线的容灾优势:●所见即所得的容灾,备用系统直接处于在线运行的状态,是直接可见、可验证的。
不像其他容灾系统,一定要恢复后才能知道备用系统的好坏;●应用级的复制技术,即镜像系统复制的数据是数据库事务,是属于应用层的,从而可以保证数据库数据的完整性;●实施无需停顿业务系统,适合7X24小时连续运行的业务系统;●不需要主备系统硬件保证一致性,极大的降低系统改造及投入的硬件成本,只需备份存储空间大一点就行;●对网络带宽消耗非常小,不需专用的光纤传输网络,采用实时增量复制技术大大减少了资源的开销,对业务系统性能影响很小;●一旦主系统发生故障,由于备用系统的数据库直接处于运行状态,无需数据恢复阶段,仅需恢复业务系统即可,所以整个备用系统替换主系统的过程非常快;●采用实时增量复制技术,将数据复制到备用系统上,当主系统发生故障时,备用系统丢失数量极小,由于数据量小使得备份窗口趋于零,对主系统的性能影响很小;●应用方式多样化,支持多对一、一对多等镜像方式,为后期提供扩展平台;●基于WEB的统一管理平台,负责对服务器、数据库等进行配置,设置镜像策略,并监控复制链运行情况,方便管理。
两地三中心容灾系统设计方案
系统介绍
统一考核平台数据库、流程处理应用服务及总行级web服务放在一台服务器上,数据存储在磁盘阵列上,两台服务器互为备份,全行考核平台数据集市、实例系统数据集市及实例系统考核结果数据存储在磁盘阵列上。
各实例系统设置本实例系统的查询web服务器,通过网络与本实例系统考核数据集市相连,提供本实例系统的考核数据查询及报表展现,考核平台最终用户通过局域网或广域网连接到查询web服务器。
主要数据应用环境为DB2数据库,以下是系统的基础架构图:
以下是整套系统的功能架构图:
●当前环境
当前数据库存放在V7000系统存储中,V7000通过SVC管理,IBM SVC虚拟化方案实现存储层的双活,SVC采用stretched cluster,利用两台V7000实现vdisk mirror,加入第三个节点作为仲裁节点,每台V7000总可用容量120T,两个node距离20KM,通过DWDM设备
●用户痛点:
1.目前全行两地三中心建设,在现有的技术条件下,当前V7000存储环境不支持两地
三中心灾备建设
2.月末,季末,报表查询导出,绩效统计,考核业务压力大,主要瓶颈在于存储的I/O
压力。
3.客户希望提高分行考核系统的处理速度,应对日益增长的员工数和分支行数量带来
的数据增长的压力。
4.两地三中心的容灾建设,需要定时切换验证数据的有效性, 目前的SVC双活环境无
法实现两地三中心的数据保护。
●解决方案:
⏹基础架构选型
a.SVC使用已有的SVC-DH8, 相对于以往的SVC版本,它在多项硬件功能上做了改
进,在实时压缩等功能上都有非常好的表现。
b.与EMC XtreamIO闪存系列存储相比,IBM flashsystem可以在更小的机架空间提
供四倍于EMC XtremIO闪存产品的容量,并提供更高的IOPS。
因此选用
Flashsystem FS 900,IOPS为1.1M, 相比于flashsystem 840, 900提供了更高的带
宽(读10GB/sec, 写4.5GB/sec)和更大的总可用容量,同时IBM与镁光合作,采
用改进的MLC Nand, 提供了更高的可靠性。
考虑到当前交换机不支持16G port,
Flashsystem 900采用16个8G port,2.9T的flash module, 总可用容量26T左右,
占用2U空间,在空间上不用再添加新的物理机柜。
c.本地SVC VDM双活采用已有的DWDM设备,两条运营商裸光纤链路实现线路
冗余,异地复制增加思科FCIP设备,数据压缩比最高可以达到1:6, 以减少链路
带宽占用,同时租用两家运营商IP专网,联通和电信,均为155*2M。
d.交换机支持8G port, 在该方案中不存在ISL情景。
e.需要新采购一套同等配置的V7000存储作为第三中心异地存储。
⏹技术选型
a.本地复制仍然采用SVC提供的virtual disk mirror双活技术,
b.为了解决当前存储的性能瓶颈,为SVC添加flash system 900的存储层,采用SVC
的easy tier,该功能在SVC上默认打开,不会额外增加采购成本。
c.远程复制采用V7000的Global mirror, RPO 30秒。
d.由于可以利用SVC和V7000的快照和复制技术,暂时不必采购V9000, 以后可
以根据业务需要进行横向扩展。
如上图,方案设计如下:
Quorum disk承担两个SVC node的仲裁角色。
将flashsystem设置为SVC flash tier, V7000映射的Mdisk设置为Enterprise tier,将其映射给SVC的Mdisk创建成storage pool 1并创建lun, 这样可大大提升1站点的读写性能。
2站点的V7000/2通过image mode的方式将卷映射给SVC,创建成storage pool 2, 将站点1映射给SVC的和站点2映射给SVC的卷创建成Vdisk mirror,同时在SVC将read的prefer disk设置成站点1。
同时为了使用V7000存储的copy service,从SVC上禁用V7000/2的cache, 这样既保证了GM的正常运行,也可以将SVC的cache留给站点1用做read/write cache,优先保证站点1的读写性能。
V7000/2和V7000/3之间为异步复制,创建Global mirror一致性组,同时保证V7000/3上的存储池有至少有30%的空间剩余,以保证在链路出现故障或者数据堵塞时,异地存储有足够的空间来存放快照数据,以此实现数据的两地三中心保护。
SVC的连接的端口为inter-node/storage, 不需要预留replication端口,单个node 8个端口,剩下的端口留作以后扩展。
存储的性能数据收集和监控可用用IBM TPC来监控,以实时分析业务的读写性能数据,随时调整存储的参数,例如闪存的容量等。
案例设计讲解
1.关于easy tier闪存容量的考虑
如果需要准确计算所需要的flashsystem的容量,可以使用STAT工具(IBM Storage Tier Advisor Tool)来获取关于热点数据的分布,这样可以计算所需要闪存容量,一般根据统计,在采用easy tier的环境中,为了达到较快的读写性能,一般快速存储和机械硬盘两个存储层的容量比为1:10,在本案例中,V7000可用容量120T,flash system可用容量26T, 完全可以满足为加速数据读写的需要。
2.采用flash system加速的优点
由于更快速的接口、芯片设计和数据通道的FPGA组件,使用Flash System全闪存系列存储,要比V7000内部使用SSD固态硬盘实现easy tier带来成倍的性能增长。
3.传统存储V7000与flashsystem组成VDM对性能的影响
由于业务自身的特点,存储的瓶颈主要在于读操作,同时存储的写操作在写到V7000内存cache之后即可以返回写操作完成,因此本身不会由于与flashsystem之间的性能差异导致滞后,如果仍然影响I/O的response time, 可以通过调整mirrowritepriority的属性为latency, 以保证在出现response time延迟时不会导致VDM的一份拷贝出现offline的情形。
4.异步复制对IO性能的影响
异地选用V7000上的Global mirror异步传输模式,不会影响VDM方式的数据写入反应时间,在GM源端写入即返回写的成功结果。
5.举例说明各环节故障对事件方案的影响
a)Flashsytem 900停机
i.Flashsystem可以实现绝大部分的故障的在线维护,比如闪存模块
(microlatency module),风扇,controller,FC port, 当Flashsystem需要停
机维护时,可按照以下步骤,不会影响业务。
ii.保证存储池有足够的空间将数据移动到HDD Mdisks.
iii.如果easy tier被设置成auto, 将其改成on, 这个操作过程可以获取热点图,整个过程时间也会得到最小化。
iv.移除闪存mdisk,强制将数据从HDD的mdisk中移除
v.确保文件迁移完成,这个过程可能要两天的时间才能完成。
vi.执行闪存的维护过程。
vii.将闪存的Mdisk添加回存储池中,24小时内,easy tier开始将热点数据移到闪存的Mdisk中。
b)1站点故障
如果第一个站点出现灾难,此时Flashsystem 900和V7000/1均不可用,此时SVC的双活机制有效的保证了数据访问的不中断。
c)SVC故障
如果SVC一个node故障,此时quorum disk的存在保证一个node仍然提供服务,但此时可能disable写缓存,进入write-through模式,影响读写性能。
如果整套SVC故障,由于V7000/2采用image mode挂载,将V7000/2的image 卷直接挂载到host, 即可实现业务的正常运行。