双活数据中心方案
- 格式:doc
- 大小:1.45 MB
- 文档页数:14
双活数据中心解决方案-通用1·引言在现代信息化时代,数据中心的高可用性和可靠性成为各个行业组织所追求的目标。
为了实现数据中心的高可用性,双活数据中心解决方案被广泛采用。
本文将介绍双活数据中心解决方案的通用架构和实施步骤。
2·概述2·1 解决方案概述双活数据中心解决方案是通过在两个地理位置相距较远的数据中心之间进行数据实时同步,以确保当一个数据中心发生故障时,另一个数据中心可以无缝接替其工作,保证业务系统的连续性运行。
2·2 设计目标双活数据中心解决方案的设计目标包括:●提供连续性的业务运行。
●最小化数据中心之间的数据同步延迟。
●最大化数据恢复速度。
●确保数据的一致性。
3·架构设计3·1 主备数据中心双活数据中心解决方案通常由一个主数据中心和一个备份数据中心组成。
主数据中心负责处理实时业务请求,备份数据中心作为主数据中心的镜像,并负责处理当主数据中心故障时的业务请求。
3·2 数据同步机制为了实现数据中心间的实时数据同步,双活数据中心解决方案通常采用以下机制:●数据异步复制。
●数据同步模式。
●数据冲突解决策略。
4·实施步骤4·1 前期准备在实施双活数据中心解决方案之前,需要进行以下准备工作:●确定主备数据中心的位置和网络架构。
●评估主备数据中心之间的网络带宽和延迟。
●确定数据同步机制和数据冲突解决策略。
4·2 网络连接实施双活数据中心解决方案需要建立可靠的网络连接,确保主备数据中心之间的数据实时同步。
4·3 数据同步配置配置数据同步机制,并根据实际需求进行性能调优和容错配置。
4·4 故障切换测试在实施双活数据中心解决方案之后,需要进行故障切换测试,确保备份数据中心能够无缝接替主数据中心的工作。
4·5 系统监控和运维建立有效的系统监控和运维机制,对主备数据中心进行实时监控,并定期进行数据中心切换和巡检。
双活数据中心方案本文档旨在详细介绍双活数据中心方案。
双活数据中心是指在一个组织内部建立两个或更多的数据中心,使得在任何情况下均能保持高可用性和冗余性。
1\引言1\1 背景1\2 目的1\3 范围2\双活数据中心架构2\1 数据中心结构概述2\2 网络架构2\3 存储架构2\4 计算架构2\5 负载均衡和容错机制3\双活数据中心部署规划3\1 数据中心位置选择3\2 网络连接规划3\3 存储规划3\4 计算资源规划3\5 安全规划4\数据同步与复制4\1 数据同步原理4\2 数据同步技术选型4\3 数据复制策略4\4 数据完整性和一致性保证5\高可用性与故障转移5\1 故障转移策略5\2 自动化故障转移5\3 监控与预警5\4 容灾测试和演练6\数据中心升级与维护6\1 升级策略和计划6\2 维护策略和计划6\3 软硬件升级流程6\4 灾难恢复过程7\附件●附件1: 双活数据中心网络拓扑图●附件2: 存储架构示意图注释:1\双活:指两个或更多数据中心在活动状态下同时运行,发生故障时能够实现无缝切换。
2\可用性:指系统或服务在规定时间内处于可用状态的能力。
3\冗余性:指系统或服务拥有多余的资源,以保证在故障发生时能够继续提供服务。
4\容错机制:指系统或服务所具备的自动恢复能力,以确保任何故障不会导致系统崩溃或服务中断。
本文档所涉及的法律名词及注释:1\双活数据中心方案:在法律上指一个组织内部建立两个或更多的数据中心,以确保数据和服务的高可用性和冗余性。
2\高可用性:在法律上指系统或服务在规定时间内能够持续提供可用性的能力。
3\故障转移:在法律上指系统或服务在发生故障时自动切换到备用设备,以保证服务的连续性。
4\监控与预警:在法律上指对数据中心和相关设备进行实时监控,并在发生异常情况时提供预警通知。
5\容灾测试和演练:在法律上指定期定时对数据中心的灾难恢复过程进行测试和演练,以验证其可用性和可行性。
本文档涉及附件:1\附件1: 双活数据中心网络拓扑图2\附件2: 存储架构示意图。
双活数据中心方案双活数据中心方案1. 引言随着互联网业务的不断发展,数据中心的高可用性和容灾能力变得越来越重要。
传统上,为了确保业务的连续性和数据的安全性,许多企业会建设多个数据中心并采用双活架构。
本文将介绍双活数据中心方案的概念、原理和实施方式,并讨论其优点和挑战。
2. 双活数据中心的概念双活数据中心是指在不同的地理位置建设两个数据中心,并实现两个数据中心之间的数据的实时同步和业务的无缝切换。
通过双活架构,即使一个数据中心发生故障,另一个数据中心仍然能够提供连续的服务,确保业务的不间断运行。
3. 双活数据中心的原理双活数据中心方案主要包括以下几个关键技术:3.1 数据同步数据同步是实现双活数据中心的基础。
数据同步可以通过同步复制或异步复制的方式实现。
同步复制要求数据在两个数据中心之间实时同步,确保两个数据中心的数据完全一致,但对网络质量和延迟要求较高。
异步复制允许一定的延迟,可以在网络不稳定或延迟较大的情况下提供更好的性能,但可能会导致数据的不一致。
3.2 业务切换当一个数据中心发生故障时,需要将业务无缝切换到另一个数据中心。
业务切换可以通过负载均衡器、域名解析或虚拟 IP 地址等方式实现。
负载均衡器可以将流量均匀地分发到两个数据中心,域名解析可以将域名指向另一个数据中心的 IP 地址,虚拟 IP地址则可以使切换过程对用户透明。
3.3 失败检测和自动恢复为了提高系统的可用性和容错能力,需要在双活数据中心中实现故障检测和自动恢复机制。
故障检测可以通过心跳机制或监控系统实现。
一旦检测到故障,系统应该能够自动触发故障切换并将业务切换到备用数据中心。
4. 双活数据中心的实施方式双活数据中心方案可以通过多种方式实施,具体取决于业务需求和预算限制。
以下是几种常见的实施方式:4.1 同城双活同城双活是指将两个数据中心建设在同一个城市或区域,并通过专线或光纤连接起来。
这种方式可以提供较低的延迟和较高的网络带宽,适用于对延迟和带宽要求较高的业务。
双活数据中心解决方案在当今数字化时代,数据中心的重要性日益凸显。
随着云计算、大数据、人工智能等技术的快速发展,数据中心的需求也在不断增加。
然而,传统的单活数据中心面临着诸多挑战,例如单点故障风险大、资源利用率低、能耗高等问题。
为了解决这些挑战,双活数据中心方案应运而生。
双活数据中心是指在两个地理位置相距较远的数据中心之间进行数据的主备备份,当一个数据中心发生故障时,另一个数据中心可以立即接管其工作,保证业务的连续性和可靠性。
双活数据中心解决方案可以有效降低单点故障风险,提高系统的可用性和稳定性。
在双活数据中心解决方案中,关键的一环是数据的同步和备份。
通过采用实时数据同步技术,可以确保两个数据中心之间的数据保持一致性,当主数据中心发生故障时,备份数据中心可以立即接管工作,保证业务的连续性。
同时,双活数据中心还可以实现负载均衡,提高资源的利用率,降低能耗成本。
双活数据中心解决方案还可以应对突发事件,例如自然灾害、网络攻击等。
通过将数据中心部署在地理位置相距较远的地方,可以有效降低突发事件对业务的影响,保障数据的安全性和可靠性。
除此之外,双活数据中心解决方案还可以为企业提供更加灵活的部署方式。
企业可以根据自身的业务需求和预算情况,选择合适的数据中心部署方案,实现资源的灵活调配和成本的最优化。
总的来说,双活数据中心解决方案是一种高可用、高稳定、高灵活的数据中心部署方案,可以有效应对传统单活数据中心所面临的诸多挑战。
随着数字化技术的不断发展,双活数据中心解决方案必将成为未来数据中心发展的主流趋势。
通过采用双活数据中心解决方案,企业可以提高业务的连续性和可靠性,降低风险,实现业务的持续发展。
因此,我们有理由相信,双活数据中心解决方案将会在未来得到更加广泛的应用和推广。
双活数据中心方案双活数据中心方案一、介绍双活数据中心方案是一种高可用性解决方案,通过将数据和应用同时部署在两个数据中心,实现数据和应用的双向同步,提供业务连续性,降低系统故障风险。
本文档将详细介绍双活数据中心方案的各个方面。
二、架构设计1、数据中心选择- 硬件条件:选择具备足够硬件资源的数据中心,包括服务器、存储等设备。
- 网络条件:确保数据中心之间的网络带宽和延迟满足业务需求。
- 电力条件:确保数据中心具备稳定可靠的电力供应。
2、数据同步- 数据同步技术:选择合适的数据同步技术,如数据库复制、文件同步等,使两个数据中心的数据保持一致性。
- 数据同步策略:确定数据同步的频率和方式,如同步延时要求和同步方式(异步或同步)等。
3、应用部署- 应用集群化:将应用部署在多个服务器上,实现负载均衡和故障切换。
- 应用同步部署:将应用同时部署在两个数据中心,实现两地的业务连续性。
4、故障切换与容灾- 故障切换策略:定义故障触发条件和切换流程,确保故障时能够快速切换到备用数据中心。
- 容灾测试:定期进行容灾测试,验证容灾方案的可行性和有效性。
三、监控与报警1、监控系统- 监控指标:确定需要监控的指标,如服务器负载、网络流量、存储空间等。
- 监控工具:选择合适的监控工具,实时监控数据中心的各项指标。
- 监控策略:设置监控策略,包括告警阈值、告警通知方式等。
2、报警系统- 报警方式:选择适合的报警方式,如邮件、短信、方式APP等。
- 报警接收人:确定接收报警信息的人员,包括运维团队、管理人员等。
四、数据备份与恢复1、数据备份- 备份频率:确定数据备份的频率,如每天、每周等。
- 备份策略:定义备份策略,包括全量备份和增量备份等。
- 备份验证:定期验证备份数据的完整性和可用性。
2、数据恢复- 恢复时间目标(RTO):定义数据恢复的时间目标,即从故障发生到数据恢复的时间。
- 恢复点目标(RPO):定义数据恢复的点目标,即恢复到哪个时间点的数据。
双活数据中心方案双活数据中心方案是一种部署在不同地理位置的两个数据中心,旨在提供高可用性和灾备恢复能力。
这种方案能够确保在一个数据中心出现故障的情况下,另一个数据中心能够顺利接管服务,并保证用户体验不受影响。
以下将详细介绍双活数据中心方案的设计和优势。
1.数据复制:双活方案需要确保两个数据中心之间的数据实时复制或者近实时复制。
这可以通过数据库的主从复制、文件同步或者数据快照实现。
数据复制的目的是保持数据的一致性,以便在故障发生时能够无缝切换到另一个数据中心。
2.心跳检测和故障切换:为了监测数据中心的健康状态,通常会设置心跳检测机制,以确保数据中心之间的连接正常。
如果主数据中心出现故障,心跳检测会及时发现,并触发故障切换机制,将服务切换到备用数据中心。
故障切换的过程应该是自动化的,以减少人工干预和减少切换时间。
3.基础设施冗余:为了实现高可用性,双活方案需要在两个数据中心都配置冗余的基础设施,包括独立的电力供应、网络连接、服务器和存储设备等。
当一个数据中心发生故障时,备用数据中心能够顺利接管服务,而不会由于基础设施故障而导致服务中断。
1.高可用性:双活方案可以提供更高的可用性,因为即使一个数据中心出现故障,另一个数据中心仍然可以继续提供服务。
这种设计可以最大限度地减少服务中断的风险,并提供卓越的用户体验。
2.灾备恢复能力:双活方案能够提供更好的灾备恢复能力。
当一个数据中心发生灾难性故障时,备用数据中心可以快速接管服务,并恢复运营。
这种方案可以最大限度地减少业务损失,并提供持续的服务。
3.地理位置容灾:由于双活方案将数据中心部署在不同地理位置,可以有效应对地域性的自然灾害或人为事故。
即使一个地区受到灾害影响,另一个地区的数据中心仍然能够正常运营,确保数据安全和业务连续性。
4.故障切换和容错能力:双活方案通常自动化故障切换,减少人工干预的需要。
这种方案可以提供更快的故障恢复时间,并减少对用户的影响。
此外,双活方案中的数据复制和冗余设计可以减少单点故障的风险,提供更可靠的服务。
双活数据中心解决方案双活数据中心解决方案1. 简介随着信息技术的快速发展,各种企业的业务以及数据量不断增加,对高可用性和数据安全性的需求也越来越高。
为了应对这种需求,很多企业选择了双活数据中心解决方案。
双活数据中心解决方案是指通过在两个数据中心之间实现数据备份和故障转移,确保业务的持续性和数据的安全性。
本文将介绍双活数据中心解决方案的基本原理和常见的实施方式。
2. 双活数据中心解决方案的基本原理双活数据中心解决方案的基本原理是通过将数据与业务同时部署在两个数据中心中,实现数据的实时备份和故障转移。
具体而言,双活数据中心解决方案包括以下几个核心要素:2.1 数据同步在双活数据中心解决方案中,需要确保两个数据中心中的数据保持一致性。
为此,需要使用数据同步技术,将数据从一个数据中心实时同步到另一个数据中心。
常用的数据同步技术包括:- 数据复制:将数据从一个数据中心复制到另一个数据中心。
这种技术通常使用异步复制,可以在一定程度上提高性能。
- 日志复制:将数据中心的操作日志实时复制到另一个数据中心,然后在另一个数据中心进行重放。
这种技术可以保证数据的完整性和一致性。
2.2 故障检测与切换在双活数据中心解决方案中,需要实时监测数据中心的运行状态,一旦发现故障,需要及时切换到备用数据中心,确保业务的持续性。
常见的故障检测与切换技术包括:- 心跳检测:通过定时发送心跳包,检测数据中心的运行状态。
一旦发现数据中心不可用,即切换到备用数据中心。
- 自动故障切换:通过自动化的脚本或工具,实现对数据中心的故障检测和切换。
这种技术可以提高故障切换的速度和准确性。
2.3 负载均衡与性能优化在双活数据中心解决方案中,需要将用户的请求分发到两个数据中心中,实现负载均衡和性能优化。
常见的负载均衡与性能优化技术包括:- DNS负载均衡:通过将域名解析到多个IP地址,实现请求的分发和负载均衡。
这种技术简单易用,但对故障切换支持较弱。
双活数据中心解决方案双活数据中心是一种为了提高数据中心的可靠性和容错能力而采取的解决方案。
传统的单一数据中心往往会存在单点故障的问题,当数据中心发生故障时,会导致服务的中断,造成严重的损失。
而双活数据中心则通过将数据和服务分散在两个或多个数据中心中,从而实现数据和服务的高可用性和容错性。
下面将介绍双活数据中心解决方案的原理、技术和应用。
双活数据中心的原理是通过在不同地理位置建设两个相互独立的数据中心,每个数据中心都具备完整的数据和服务能力。
在正常情况下,数据和服务会在两个数据中心之间进行实时同步,用户可以通过任意一个数据中心访问数据和服务。
当一些数据中心发生故障时,系统会自动切换到另一个数据中心继续提供服务,从而实现了服务的高可用性和容错性。
为了实现双活数据中心解决方案,需要采取一系列的技术手段。
首先,需要使用高速网络来保证两个数据中心之间的实时数据同步。
常见的技术包括数据镜像、数据复制和数据同步等。
其次,需要使用负载均衡技术来处理用户的请求,将请求分发到两个数据中心中的任意一个。
常见的负载均衡技术包括DNS负载均衡、硬件负载均衡和软件负载均衡等。
最后,需要使用自动故障转移和故障恢复技术来处理数据中心的故障情况。
常见的技术包括故障切换、容灾备份和自动恢复等。
双活数据中心解决方案可以应用于各种场景。
首先,它可以应用于互联网服务提供商,以提供高可用性的互联网服务。
例如,电子商务平台可以使用双活数据中心来确保订单和支付数据的安全和可靠性。
其次,它可以应用于金融行业,以确保金融交易的可靠性和安全性。
例如,银行可以使用双活数据中心来实现跨地域的交易处理和结算。
第三,它可以应用于企业内部的数据中心,以提高企业内部系统的可用性和容错性。
例如,大型企业可以使用双活数据中心来部署企业资源计划(ERP)系统和客户关系管理(CRM)系统等。
总之,双活数据中心解决方案是一种提高数据中心可靠性和容错能力的有效方法。
通过将数据和服务分散在两个或多个数据中心中,并实现实时数据同步和自动故障转移,可以提供高可用性和容错性的数据中心服务。
双活数据中心方案双活数据中心方案文档1.引言1.1 目的本文档旨在提供一个详尽的双活数据中心方案,用于在灾难恢复和高可用性方面保护组织的关键业务系统和数据。
该方案旨在确保业务连续性,减少停机时间,并提供可靠的数据备份和恢复机制。
1.2 背景随着企业依赖关键业务系统的增加,确保系统的高可用性和容错性变得至关重要。
传统的单活数据中心方案可能因为单点故障而导致停机和数据丢失的风险。
为了解决这些问题,双活数据中心方案应运而生。
通过在两个地理位置上设置相互镜像的数据中心,双活方案可以提供故障转移和灾难恢复能力,以确保业务连续性。
2.方案概述2.1 架构图在双活数据中心方案中,我们将使用两个位于不同地理位置的数据中心(Data Center A和Data Center B),它们通过高速网络连接进行同步和数据复制。
每个数据中心都包含一组服务器、存储设备和网络设备,以及备用电源和冷却系统,以提供高可用性和灾难恢复能力。
2.2 功能要求- 快速故障转移和灾难恢复:当一个数据中心发生故障时,系统可以自动切换到备用数据中心,从而减少停机时间。
- 数据同步和复制:确保数据在两个数据中心之间的同步和复制,使数据丢失最小化。
- 监控和报警:监测数据中心的运行状态和性能参数,及时发现并解决潜在问题。
- 安全性和数据保护:采取适当的安全措施,保护数据的机密性和完整性,并进行定期备份。
3.数据中心架构3.1 数据中心 A数据中心 A 位于位置 X,包含以下组件:- 服务器集群:运行核心业务系统的一组服务器,以提供业务功能。
- 存储设备:用于存储和管理数据的高性能存储设备。
- 网络设备:提供内部和外部网络连接的交换机、路由器和防火墙等。
- 冷却系统:确保数据中心的温度保持在合适的范围内。
- 备用电源:在主电源故障时提供电力供应。
3.2 数据中心 B数据中心 B 位于位置 Y,与数据中心 A 类似,包含以下组件:- 服务器集群:与数据中心 A 同步的一组服务器,用于故障转移和灾难恢复。
一、需求背景:随着数据的大集中,银行纷纷建设了负责本行各业务处理的生产数据中心机房(普通称为数据中心),数据中心因其负担了全行业务,所以其并发业务负荷能力和不间断运行能力是评价一个数据中心成熟与否的关键性指标。
近年来,随着网上银行、手机银行等各种互联网业务的迅猛发展,银行数据中心的业务压力业成倍增加,用户对于业务访问质量的要求也越来越高,保障业务系统的7*24 小时连续运营并提升用户体验成为信息部门的首要职责。
商业银行信息系统的安全、稳定运行关系着国家金融安全和社会稳定,监管机构也十分重视商业银行的灾难备份体系建设,多次发布了商业银行信息系统灾难备份的相关标准和指引,对商业银行灾备系统建设提出了明确的要求。
为适应互联网业务的快速增长,保障银行各业务安全稳定的不间断运行,提高市场竞争力,同时符合监管机构的相关要求,建设灾备、双活甚至多活数据中心正在成为商业银行的共同选择。
二、发展趋势:多数据中心的建设需要投入大量资金,其项目周期往往很长,涉及的范围也比较大。
从技术上来说,要实现真正意义上的双活,就要求网络、应用、数据库和存储都要双活。
就现阶段来看,大多数客户的多数据中心建设还达不到彻底的双活要求,主流的建设目标是实现应用双活。
目前客户建设多数据中心的模型可以归纳为以下几种:1.单纯的数据容灾:正常情况下惟独主数据中心投入运行,备数据中心处于待命状态。
发生灾难时,灾备数据中心可以短期内恢复业务并投入运行,减轻灾难带来的损失。
这种模式只能解决业务连续性的需求,但用户无法就近快速接入。
灾备中心建设的投资巨大且运维成本高昂,正常情况下灾备中心不对外服务,资源利用率偏低,造成为了巨大的浪费。
2.构建业务连续性:两个数据中心(同城/异地)的应用都处于活动状态,都有业务对外提供服务且互为备份。
但出于技术成熟度、成本等因素考虑,数据库采用主备方式部署,数据库读写操作都在主中心进行,灾备中心进行数据同步。
发生灾难时,数据中心间的数据库可以快速切换,避免业务中断。
双活数据中心解决方案目录一、内容概括 (2)1.1 背景与挑战 (2)1.2 双活数据中心定义 (3)1.3 双活数据中心优势 (4)二、双活数据中心架构设计 (5)2.1 总体架构 (7)2.2 服务器与存储架构 (8)2.3 网络架构 (9)2.4 虚拟化技术应用 (11)三、双活数据中心实施步骤 (12)3.1 项目规划与准备 (14)3.2 硬件部署与配置 (15)3.3 软件安装与调试 (17)3.4 测试与验证 (18)四、双活数据中心运维管理 (19)4.1 运维流程 (20)4.2 监控与管理工具 (22)4.3 故障处理与恢复策略 (23)4.4 安全性与合规性保障 (24)五、双活数据中心案例分析 (26)5.1 国内外成功案例介绍 (28)5.2 案例分析 (28)六、双活数据中心发展趋势与展望 (30)6.1 新技术应用 (31)6.2 行业趋势分析 (32)6.3 未来发展方向 (34)七、总结与建议 (35)7.1 双活数据中心价值评估 (35)7.2 实施与推广建议 (37)一、内容概括本解决方案旨在解决企业在构建双活数据中心时所面临的一系列技术和管理问题。
该方案在结构上兼顾灵活性和安全性,注重提升数据中心间的协作能力和冗余性。
方案首先定义了双活数据中心的目标与要求,强调数据中心之间的实时数据同步、负载均衡以及故障切换机制的重要性。
详细介绍了双活数据中心的架构设计,包括网络架构、存储架构以及计算资源分配等关键方面。
本方案还涉及数据中心运维管理的优化措施,包括资源监控、故障预警与处置流程等。
本解决方案还讨论了如何确保数据安全性和合规性,包括数据加密、访问控制以及审计日志管理等。
本方案总结了实施过程中的关键步骤和潜在风险点,并提出了针对性的建议和解决方案,以帮助企业在实施双活数据中心过程中实现平稳过渡和提升运营效率。
1.1 背景与挑战随着云计算、大数据、物联网等技术的快速发展,企业业务需求呈现出多样化和实时性的特点,对数据中心提出了更高的要求。
双活数据中心解决方案1. 引言1. 背景介绍:随着企业对高可用性和容灾能力的需求增加,双活数据中心成为了一种常见的解决方案。
2. 目标:本文档旨在提供一个详尽而全面的双活数据中心解决方案范本,以供参考使用。
2. 双活架构设计1. 架构概述:描述整体架构及其组件之间的关系。
a) 主要组件:- 数据库服务器(DB Server)- 应用程序服务器(App Server)- 网络设备(Switches、Routers等)3. 高可用性策略1)硬件层面:a) 冗余配置: 描述如何通过多个实例或节点来确保系统不会因单点故障而停止运行。
b) 快速切换机制: 解释当主节点发生故障时如何快速将工作负载转移到备份节点上。
4. 容灾恢复策略- 备份与还原策略:a)数据库备份频率;b)应急情形下进行数据库恢复所需要时间估计;- 整体系统迁移方式:a)完全关闭服务后再启动;b)逐步迁移服务。
5. 数据同步机制1) 同城双活:描述在两个数据中心之间如何实现数据的实时或准实时同步。
a) 基于数据库复制技术(例如MySQL主从复制)b) 使用消息队列系统进行异地多活6. 网络架构设计- 双线路接入:a)不同运营商提供的网络连接;b)使用BGP协议来确保流量分发和故障切换;- 负载均衡策略:a)基于硬件设备、软件负载均衡器等方式,将请求平均分配到各个节点上。
7. 安全性考虑1) 防火墙配置: 描述如何设置防火墙以保护整体系统免受恶意攻击。
2) 访问控制列表 (ACL): 解释如何限定对关键组件的访问权限。
8. 监控与报警机制- 实施监测方案;a ) 对服务器资源利用率进行监视,并及时采取行动解决问题;b ) 设置合理告警规则, 并建立相应响应计划.9.附件:本文档涉及以下附件,请参见相关文件。
10.法律名词及注释:- 双活数据中心:指同时运行两个完全独立的数据中心,以实现高可用性和容灾能力。
- 高可用性:系统或服务在面对故障时仍然可以提供连续不断的功能和服务。
双活数据中心方案一、需求背景:随着数据的大集中,银行纷纷建设了负责本行各业务处理的生产数据中心机房(一般称为数据中心),数据中心因其负担了全行业务,所以其并发业务负荷能力和不间断运行能力是评价一个数据中心成熟与否的关键性指标。
近年来,随着网上银行、手机银行等各种互联网业务的迅猛发展,银行数据中心的业务压力业成倍增加,用户对于业务访问质量的要求也越来越高,保障业务系统的7*24小时连续运营并提升用户体验成为信息部门的首要职责。
商业银行信息系统的安全、稳定运行关系着国家金融安全和社会稳定,监管机构也十分重视商业银行的灾难备份体系建设,多次发布了商业银行信息系统灾难备份的相关标准和指引,对商业银行灾备系统建设提出了明确的要求。
为适应互联网业务的快速增长,保障银行各业务安全稳定的不间断运行,提高市场竞争力,同时符合监管机构的相关要求,建设灾备、双活甚至多活数据中心正在成为商业银行的共同选择。
二、发展趋势:多数据中心的建设需要投入大量资金,其项目周期往往很长,涉及的范围也比较大。
从技术上来说,要实现真正意义上的双活,就要求网络、应用、数据库和存储都要双活。
就现阶段来看,大多数客户的多数据中心建设还达不到完全的双活要求,主流的建设目标是实现应用双活。
目前客户建设多数据中心的模型可以归纳为以下几种:1.单纯的数据容灾:正常情况下只有主数据中心投入运行,备数据中心处于待命状态。
发生灾难时,灾备数据中心可以短时间内恢复业务并投入运行,减轻灾难带来的损失。
这种模式只能解决业务连续性的需求,但用户无法就近快速接入。
灾备中心建设的投资巨大且运维成本高昂,正常情况下灾备中心不对外服务,资源利用率偏低,造成了巨大的浪费。
2.构建业务连续性:两个数据中心(同城/异地)的应用都处于活动状态,都有业务对外提供服务且互为备份。
但出于技术成熟度、成本等因素考虑,数据库采用主备方式部署,数据库读写操作都在主中心进行,灾备中心进行数据同步。
发生灾难时,数据中心间的数据库可以快速切换,避免业务中断。
双活数据中心可充分盘活企业闲置资源,保证业务的连续性,帮助用户接入最优节点,提高用户访问体验。
3.提升业务服务能力:多个数据中心同时对外提供服务且互为备份,各中心的数据库可同时处理应用的读写请求,网络、存储、应用和数据库全部实现多活。
各数据中心独立运营,用户流量可被智能调度,形成灵活、弹性和可扩展的面向服务的业务架构。
三、业务目标:用户建设多数据中心的思路和建设模型略有不同,但大多数用户的主要建设目标可以归纳为以下几点:◆流量分发用户访问流量可灵活、弹性的调度到多个数据中心,使各数据中心压力相对均衡,保证用户接入最近最快速的数据中心节点,提高用户访问体验。
◆故障切换当出口链路或内部服务器出现异常时,运维人员可第一时间获悉故障情况,业务可根据需要自动或手动平滑切换至正常节点,保证用户访问的连续性。
◆业务安全数据中心所处位置基础设施完善,水电通信供应稳定,数据中心内部有相应技术手段保证整个数据中心抵抗DDos攻击,各业务系统不被黑客非法入侵。
◆环境一致性多个数据中心对用户来说理应是透明的,其对外服务时提供统一接口,各数据中心内部数据和服务能力需要完全一致,且随时处于可切换状态。
四、实现逻辑我们把整个数据中心在逻辑上分为接入层和服务层,其处理逻辑的示意图如下:◆接入层(智能DNS)◆接入层(RHI路由注入)◆服务层◆故障切换五、总体设计总行数据中心整体上分为主中心和灾备中心,二者的网络架构、业务系统和服务能力都基本相同,同时对外提供服务,形成双活数据中心。
数据中心内部划分为互联网业务区(提供外网服务,如手机银行、网上银行等)、核心生产业务区(传统生产业务,如ATM、柜面等)、数据库区(生产/查询)和业务测试区,出于成本考虑,灾备数据中心不设业务测试区。
主备数据中心和各一级分行之间通过专线互联,利用动态路由协议组建企业内部专网。
数据中心的对外业务集中在互联网业务区,通常使用域名方式对外发布,客户端访问业务系统时,需要先由DNS将域名解析为IP地址,然后再访问该目标IP。
对外业务的全局负载通常利用DNS解析实现,其可根据用户地理位置、用户所属运营商和网络质量、数据中心服务能力等因素作为判断依据,为不同用户返回不同的IP地址,实现流量的合理分配。
对于数据中心的内网业务,一部分与外网业务相同,通过域名发布。
另一部分与一级分行业务类似,直接通过IP 地址访问。
对于通过IP地址访问的业务,内网全局负载采用IP-Anycast(RHI路由注入)技术实现,其原理是在各数据中心以相同IP发布业务,由动态路由协议根据COST值等参数用户判断访问的最佳路径。
六、互联网业务全局负载(以网银为例)1.设计模型我们把网银业务从逻辑上分为接入侧和服务侧,接入侧包括出口链路、全局负载设备;服务侧包括WEB服务单元、APP服务单元和DB服务单元。
WEB 服务单元包含SSL卸载设备、WAF防火墙、负载均衡和服务器;APP服务单元包含防火墙、负载均衡和服务器;DB服务单元包含防火墙、负载均衡、数据库审计和数据库。
WEB服务单元和APP服务单元在2个数据中心同时提供服务,实现应用双活。
考虑到数据强一致性、技术成熟度和成本等因素,双数据中心间的DB服务单元建议主备部署,数据中心内部的数据库集群可结合本地负载均衡实现多活。
为达到最佳负载效果,需要各服务单元的负载设备可以访问其他数据中心对应服务单元的服务器,但优先调度本地服务器。
2.实现方式(1)流量调度数据中心层面:我们推荐使用两层逻辑算法的智能DNS调度策略,首先,全局负载设备会判断用户的地理位置,将用户调度到就近的数据中心,解决南北互访的问题;其次,根据用户所属运营商选择对应链路供用户接入,解决跨运营商访问慢的问题。
此外,全局负载还可对客户端LDNS发起反向探测,判断用户网络质量,为用户选择最佳接入路径。
服务单元层面:WEB、APP和DB服务单元都配备了本地负载均衡器,用户访问流量到达数据中心内部后,由服务单元的负载设备根据预设策略分发给各服务器,可根据用户需求灵活选择轮询、优先级、最小连接等算法。
(2)业务连续性数据中心层面:通过DC Cookie保证用户接入同一数据中心。
用户首次访问时,本地WEB负载设备在响应数据包中插入DC Cookie,当客户端网络发生变化时,第二次访问就可能被调度到其他数据中心,这时其他数据中心的WEB 负载设备会识别该Cookie,将用户请求转发至第一次处理该用户访问的WEB 负载设备,再由该负载设备进行调度。
服务单元层面:WEB服务单元的负载建议通过cookie会话保持(插入、改写和被动)保证业务连续性;APP服务单元的负载可通过cookie或源IP会话保持保证业务连续性(是否需要会话保持,选择何种会话保持方式需要结合应用具体情况);DB服务单元一般不需要会话保持。
(3)健康状态检查服务单元层面:通过内置的应用级健康监视器对服务器进行主动探测,提供HTTP、HTTPS、RADIUS、FTP等常用模板。
对于其他应用,提供接口供用户自定义检测内容和响应内容。
此外,还提供极具特色的被动健康检查功能,通过对TCP和HTTP协议的数据交互做采样分析,判断服务器的健康状态。
数据中心层面:全局负载与服务侧的各区域负载均衡联动,实时共享信息,判断服务侧整体服务能力;同时全局负载设备会探测出口各链路健康状态,结合服务侧整体服务能力和设备自身负荷情况,综合判断该数据中心的健康状态(正常、繁忙、故障)。
(4)故障切换服务单元层面:服务单元内部某服务器繁忙或故障时,将用户请求调度到其他正常服务器。
数据中心层面:a.某数据中心的WEB或APP服务器全部繁忙或全部故障时,用户接入链路不切换,通过专线将数据转发至正常数据中心对应服务单元。
b.主数据中心的数据库服务器全部故障时,用户接入链路不切换,通过专线将直接激活备数据中心的数据库,实现数据库一键切换。
数据库切换前需要验证数据库的正确性,用户需要完成数据验证并保证数据库按顺序切换。
c.数据中心的所有链路同时故障时,全局负载设备将用户流量平滑牵引至正常数据中心。
单链路故障时,可根据用户需求切换至本中心其他链路或其他中心同ISP链路。
此外,当某数据中心出现服务能力不足时(链路繁忙、服务单元繁忙等),全局负载设备还可以基于数据中心的整体健康得分情况将用户分流至其他数据中心,保障用户正常访问。
(5)安全保障数据中心层面:a.网络出口处部署DDos防护设备并在运营商处购买流量清洗服务,保证数据中心整体安全。
b.网络出口处部署FW和IPS设备,从网络层和应用层保证数据中心不被恶意入侵。
c.全局负载设备提供DNS防火墙功能,充分保证DNS安全。
服务单元层面:各服务单元部署防火墙,保证区域安全。
WEB服务单元直接面向互联网用户,需要部署SSL卸载设备实现SSL加解密,提高业务访问安全。
同时,通过部署WAF保障WEB服务器的安全。
(6)业务优化加速a.跨数据中心的数据库同步需占用大量带宽资源,且数据量非常大,部署WOC设备可大幅压缩传输数据,削减流量。
WEB或APP服务单元跨数据中心通信时,通过WOC设备的协议优化和流缓存等技术实现加速。
当二者同时需要大量带宽资源时,优先保证数据库同步。
b.互联网区的WEB服务单元直接面向公网,受公网网络质量影响较大,负载均衡可通过协议优化、数据压缩和智能加速等技术减少网络环境影响,提高用户访问体验。
此外,外网用户会有大量重复请求,通过负载设备的高速缓存技术,对静态和内容进行缓存,减少服务器数据交互,降低服务器性能压力,提高访问速度。
(7)其他a.负载设备在服务单元内部通过旁路部署,为保证来回数据一致需要开启SNAT功能,一般情况下,WEB服务器都需要统计用户访问源IP,可通过负载设备在HTTP头部插入X-Forwarded-for字段来透传用户真实源IP。
b.数据中心网络出口对各类设备性能要求较高,针对某些传统防火墙性能不足的情况,可以在防火墙前后各部署负载均衡设备,实现防火墙的负载。
c.考虑到极端情况,单数据中心需要能承载所有业务压力,建议选择2倍于实际性能需求的负载均衡设备。
负载均衡设备自身拥有过载保护机制,当CPU、内存等指标达到阀值时,向用户发出告警信息,并重定向或丢弃后续新建连接。
七、内网业务全局负载(以一级分行为例)1.设计模型各分行数据中心与总行数据中心通过动态路由协议互联,形成大的企业内网环境。
其大多数业务(ATM、POS、签章、柜面等)通过IP地址直接访问,利用RHI路由注入的方式对外发布。
负载设备以M+N集群的方式分别部署在两个数据中心,不同的业务系统由不同的负载设备承载,解决了应用集中的风险问题,同时提供灵活的应用部署和无缝业务切换。