当前位置：文档之家› F5服务器负载均衡解决方案

F5服务器负载均衡解决方案

一．大量数据处理所面临的问题 (2)

1．目前存在隐患 (3)

2．应用系统问题综述 (3)

1)“峰值”问题 (4)

2)多米诺”现象 (4)

3)“N+1”方式 (4)

4)“扩展”不便 (5)

5)“免疫力”差 (5)

6)“容灾”.................................................................................. 错误！未定义书签。

7)应用与网络脱节 (6)

二．F5解决方案 (6)

2.1 网络结构 (6)

2.2 方案优势 (7)

2.2.1避免“不平衡”现象 (7)

2.2.2解决因“峰值堵塞”带来的性能调整“不平衡” (9)

2.2.3避免“多米诺”现象 (9)

2.2.4更好的提供系统容错，提高系统可靠性 (10)

2.2.5“扩展”灵活 (11)

2.2.6“免疫力”强 (12)

2.2.7“容灾” (13)

2.2.8网络感知应用，应用控制网络 (14)

三．相关技术资料 (17)

BIG-IP提供支持99.999%的正常运行 (17)

四．成功案例 (19)

F5为中国某税务机关提供高可用性解决方案 (19)

一．大量数据处理所面临的问题

在现今的企业中，不论是否提供关键性任务的服务，都需要一个持续运行不断的高可用性网络计算环境以维持不间断的高品质服务。所谓高可用性的环境，也是信息管理人员所必须考虑的四件事：

1.使数据有一个安全的存储和运作方式，即使在设备故障时仍能保持数据的完整

一致。

2.使服务器系统持续运行，即使发生故障仍然让服务持续下去。

3.使整个计算环境能更好的管理，如何容错、容灾、集群共享。

4.如何使投资有最好的效益，使系统有最佳的扩充能力，有最低的整体拥有成本，

也就是在任何情况之下均能确保数据的完整一致，系统持续运行，使服务不间

断，同时有最好的投资回报率。

高可用性被定义为计算系统的连续运行。根据故障停机的业务影响，应用系统需要不同的可用性水平。要想实现一个应用系统的高可用性，所有组件(包括应用和数据库服务器、存储设备以及端到端网络)都需要提供连续的服务。

企业和机构对网络化应用及Internet 的日益依赖，加上语音和数据的集成，创造了对高可用性应用的增加需求。任何类型的系统故障停机都可能意味着收入、信誉和客户满意的巨大损失。

高度网络可用性的利用，企业实施高可用性网络来：

?防止财务损失

?防止生产力损失

?改进用户满意度

?改进客户满意/信任

?降低反应性IT支持成本，提高IT生产力

?部署关键任务应用支持新业务实践的好处

?典型的业务要求

为了实现高度的网络可用性，需要部署下列组件：

?可靠的网络设备

H/W和S/W冗余及软件可靠性

?弹性网络技术

确保任何设备或链路故障快速恢复的功能性

?网络设计

定义良好的网络拓扑和配置，旨在以一种优化和计划良好的方式利用网络

弹性功能。

?最佳实践

定义良好的网络部署和维护过程，以及简化这些政策实施所必需的事件和

变化管理工具

?全球性支持

全球性积极的支持和纠错支持，可以实现抢先的快速反应维护支持

?行业伙伴关系

确保端到端应用可用性的技术、支持服务及最佳实践的集成

1．目前存在隐患

1.1由于采用双机备份方式成本太高,如果不能建立有效的冗余技术,服务器不能保障得到24*7持续服务质量.

1.2在广泛开展业务时,在流量的非线性变化或不平衡动态中,有可能需要根据具体情况增加或删除业务服务器,而增加与减少业务服务器材必须更改系统的IP地址指向,造成业务服务器的扩展达不到新业务的需求.

1.3大量开展业务使服务器数量急剧增加,而如何管理监控服务器的流量,以便随时掌握服务器的负载情况和趋势是一个较大的难题.

1.4服务器需要与许多异种架构系统配合,联网环境复杂,黑客攻击与病毒,蠕虫等侵入的可能性相对核心网络系统大,因为服务器的IP地址裸露在网络中使得服务器的安全性得不到保障

2．应用系统问题综述

1)“峰值”问题

应用服务器的业务一般多为联机业务。联机业务的处理多存在“波峰”和“波谷”的变化。而且“波峰”时，业务量大小的变化又不规律，这就使应用服务器不得不面对“峰值堵塞”问题。

原有解决方法为增加应用服务器或主机数量，提高处理能力。但仍存在性能不平衡问题，且这样做，投资成本大。

2)多米诺”现象

单台服务器的设置，不可避免会出现“单点故障”，需要进行服务器“容错”。

为实现容错，往往在主服务器旁安置一台或多台备份服务器。但这样做，平时只有一台服务器工作，其它服务器处于空闲状态，无法完全利用所有服务器的处理资源，投资得不到充分利用。且当出现“峰值堵塞”时，所得到的往往是“多米诺”效应，即所有服务器连续被“堵”至“死”。并且，当所有服务器都损坏时，无法动态地、合理地利用其它资源提供服务或备份。

3)“N+1”方式

这种方式也是在应对服务器“容错”时，提出的应用方式。“N”，即业务处理集群，“1”，即一台备份机。

我们注意到，虽然存在一台备份机，随时准备对业务处理集群中的任意一台服务器进行备份，但是，如果又有服务器或更多服务器（软硬件）出现故障呢？所以“N+1”也不能很好地完成系统“容错”。

4)“扩展”不便

随着物理和应用的集中，应用服务器上所要处理的数据量（traffic）增大，客户交易产生的同时连接（concurrentconnection）数量会越来越多。

?若处理资源不够，在未超出系统容量时，往往是客户的请求回应越来越慢，可容纳的同时连接数量逐渐减小，系统性能严重下降。

?当超出系统容量后，系统“死机”，业务中断。

为应对日益增多的业务量，系统的扩展性尤为重要。当前所采用的扩展方式多为利用CLUSTER的方式。但这时，需要配置CLUSTER卡和CLUSTER集线器。·这些硬件设备成本高，投资大。

·CLUSTER对硬件系统存在限制。

·CLUSTER的容量有限。

所有这些都会使系统“扩展”不便。

5)“免疫力”差

由于系统服务器“裸露”于网络连接中，而防火墙的安置又多在网络总入口处，所以服务器很容易受到来自各方面的“恶意性”或“无意”地攻击。

为每台或每组服务器单独设置防火墙，又会使系统投资加大，维护量大幅提高。

6)应用与网络脱节

系统的变化随时随地都会发生，完全靠人工的方式去调整网络与之适应，已经显出了其“非时时地”、“不灵活的”缺陷。如何使应用的变化动态地反映到网络的调整，已经成为现代化应用系统的一个新的课题。

二．F5解决方案

2.1 网络结构

如前所述应用系统出现的问题，经过认真的分析，结合F5在业界多年的经验，利用F5的流量管理设备提供良好的“备而不闲”的解决方案。

防火墙

BIGIP

Server

Switch

在这种结构下，F5 BIGIP与上联的防火墙和下联的交换机都采用交叉全冗余线路连接，因此需要在防火墙，BIGIP和siwtch上都开启spanning-tree 协议，从而避免环路的产生。在F5上会添加一个virtual server，映射到后台server上。只需要将dns记录指到F5上的virtual server，即可把用户导向到F5上。当用户访问这个virtual server时，流量会被均匀的负载均

衡到后台server上。如果某台server设备发生故障，F5将自动发现并不再把流量发送到这台故障的server上，从而实现server的高可用。在需要扩展时，只需将新的服务器设备连接到网络中，在F5上做一些设置即可。不会对现有网络产生任何影响的情况下就可以实现无缝扩展。

2.2 方案优势

2.2.1避免“不平衡”现象

如果能够充分利用所有的服务器资源，将所有流量均衡的分配到各个服务器，我们就可以有效地避免“不平衡”现象的发生。

BIGIP是一台对流量和内容进行管理分配的设备。它提供12种灵活的算法将数据流有效地转发到它所连接的服务器群。而面对用户，只是一台虚拟服务器。用户此时只须记住一台服务器，即虚拟服务器。但他们的数据流却被BIGIP灵活地均衡到所有的服务器。这12种算法包括：

?轮询（Round Robin）：顺序循环将请求一次顺序循环地连接每个服务器。当其中某个服务器发生第二到第7层的故障，BIGIP就把其从顺序循环队列中拿出，不参加下一次的轮询，直到其恢复正常。

?比率（Ratio）：给每个服务器分配一个加权值为比例，根椐这个比例，把用户的请求分配到每个服务器。当其中某个服务器发生第二到第7层的故障，BIGIP

就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正

常。

?优先权（Priority）：给所有服务器分组，给每个组定义优先权，BIGIP用户的请求，分配给优先级最高的服务器组（在同一组内，采用轮询或比率算法，分配用户的请求）；当最高优先级中所有服务器出现故障，BIGIP才将请求送给次优先级的服务器组。这种方式，实际为用户提供一种热备份的方式。

?最少的连接方式（Least Connection）：传递新的连接给那些进行最少连接处理的服务器。当其中某个服务器发生第二到第7层的故障，BIGIP就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正常。

?最快模式（Fastest）：传递连接给那些响应最快的服务器。当其中某个服务器发生第二到第7层的故障，BIGIP就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正常。

?观察模式（Observed）：连接数目和响应时间以这两项的最佳平衡为依据为新的请求选择服务器。当其中某个服务器发生第二到第7层的故障，BIGIP就把其从服务器队列中拿出，不参加下一次的用户请求的分配，直到其恢复正常。

?预测模式（Predictive）：BIGIP利用收集到的服务器当前的性能指标，进行预测分析，选择一台服务器在下一个时间片内，其性能将达到最佳的服务器相应用户的请求。(被BIGIP进行检测)

?动态性能分配（Dynamic Ratio-APM):BIGIP收集到的应用程序和应用服务器的各项性能参数，动态调整流量分配。

?动态服务器补充（Dynamic Server Act.):当主服务器群中因故障导致数量减少时，动态地将备份服务器补充至主服务器群。

?服务质量(QoS)：按不同的优先级对数据流进行分配。

?服务类型(ToS)：按不同的服务类型（在Type of Field中标识）对数据流进行分配。

?规则模式：针对不同的数据流设置导向规则，用户可自行编辑流量分配规则，BIGIP利用这些规则对通过的数据流实施导向控制。

2.2.2解决因“峰值堵塞”带来的性能调整“不平衡”

当出现流量“峰值”时，如果能调配所有服务器的资源同时提供服务，所谓的“峰值堵塞”压力就会由于系统性能的大大提高而明显减弱。

由于BIGIP优秀的负载均衡能力，所有流量会被均衡的转发到各个服务器，即组织所有服务器提供服务。这时，系统性能等于所有服务器性能的总和，远大于流量“峰值”。这样，即缓解了“峰值堵塞”的压力，又降低了为调整系统性能而增加的投资。

2.2.3避免“多米诺”现象

BIGIP将所有的服务器组织在一起提供服务，流量压力合理地分担到各个服务器，不会使服务器如同单台设备工作时出现“多米诺”现象。当本地服务器群中的服务器数量不能满足系统要求时，BIGIP会利用“动态服务器补充”功能自动调入服务器补充系统性能。并且即使当所有服务器都不能提供服务时，“Redirect”功能会把用户数据请求转发到“备份”点，满足系统的可靠性要求。

2.2.4更好的提供系统容错，提高系统可靠性

“N+1”方式因备份服务器的数量少而不能有效的提供系统容错能力。

BIGIP将用户的服务请求均衡到所有的服务器。服务器群中的任何一台或多台设备发生故障后，用户的服务请求被均衡到其它服务器。而且，当本地服务器群中的服务器数量不能满足系统要求时，BIGIP会利用“动态服务器补充”功能自动调入服务器补充系统性能。

如何有效地确定服务器、应用、内容的状态，使提高系统可靠性的关键。BIGIP 利用其独到的、高效的“健康检测”手段，识别服务器、应用、内容的状态。它们包括：

?服务器逻辑连接状态检测

?应用类型状态检测

?扩展内容查证(ECV: Extended Content Verification)--ECV是一种非常复杂的服务检查，主要用于确认应用程序能否对请求返回对应的数据。如果一个

应用对该服务检查作出响应并返回对应的数据，则BIGIP控制器将该服务器

标识为工作良好。如果服务器不能返回相应的数据，则将该服务器标识为宕

机。宕机一旦修复，BIGIP就会自动查证应用已能对客户请求作出正确响应

并恢复向该服务器传送。该功能使BIGIP可以将保护延伸到后端应用如Web

内容及数据库。BIGIP的ECV功能允许您向Web服务器、防火墙、缓存服

务器、代理服务器和其它透明设备发送查询，然后检查返回的响应。这将有

助于确认您为客户提供的内容正是其所需要的。

?扩展应用查证(EAV: Extended Application Verification)EAV是另一种服务检查，用于确认运行在某个服务器上的应用能否对客户请求作出响应。为完

成这种检查，BIGIP控制器使用一个被称作外部服务检查者的客户程序，该

程序为BIGIP提供完全客户化的服务检查功能，但它位于BIGIP控制器的外

部。例如，该外部服务检查者可以查证一个从后台数据库中取出数据的应用

能否正常工作。EAV是BIGIP提供的非常独特的功能，它提供管理者将BIGIP

客户化后访问各种各样应用的能力，该功能使BIGIP在提供标准的可用性查

证之外能获得服务器、应用及内容可用性等最重要的反馈。该功能对于提高

系统可靠性至关重要，它用于从客户的角度测试您的站点。例如，您可以模

拟客户完成交易所需的所有步骤－连接到应用服务器或中间件服务器、从目

录中选择项目以及验证交易使用的信用卡。一旦BIGIP掌握了该“可用性”信

息，即可利用负载平衡使资源达到最高的可用性。BIGIP已经为测试多种服

务的健康情况和状态，预定义了扩展应用验证(EAV)，如：FTP、NNTP、

SMTP、POP3和MSSQL等，用户还可依据实际应用，自行编辑EAV脚本。

2.2.5“扩展”灵活

根据系统的发展、业务的增长，进行灵活的扩充，是不可避免的。这不仅要顾及到数量的增长，同时也要考虑到软硬件类型的区别。

BIGIP对系统的扩充是非常灵活的。

?BIGIP对所连接的服务器群的数量没有限制，同时对服务器的软、硬件类型也没有任何限制。

?BIGIP可最大同时容纳多达4百万个会话业务。

在需要扩展时，只需将新的服务器设备连接到网络中，在F5上做一些设置即可。不会对现有网络产生任何影响的情况下就可以实现无缝扩展。

2.2.6“免疫力”强

在图中我们可以看到，应用web服务器群或中间件服务器群在逻辑上位于BIGIP 之后，所有的数据流，包括“攻击性”数据流都要经过BIGIP才能够流至服务器。BIGIP 具有以下优秀的安全特性，对系统进行保护：

?访问控制列表

?IP包过滤

?加密（SSL）的管理信息传递

?口令保护

?拒绝“DoS”攻击

?免疫“Ping of Death”攻击

?不用Ack缓冲应答未确认的SYN，防止SYN风暴

?通过对无效连接的管理来防止使用没有开放的服务进行攻击

?源路由检查，防止IP欺骗

?NAT/SNAT。通过设置，BIGIP?可以将一个端口映射到多个端口上。许多知名的端口是，如80，443，20，21可以被映射到服务器上的任何一个端

口上。此外，BIGIP?可以将位于它后面的服务器的地址翻译为那些对外公

布的地址。这个安全特性为网络带来了以下几种好处：

入侵者无法确定哪些服务运行在哪些端口上，因而增加了攻击的难度；

使用非公开的路由地址、BIGIP?可以节省客户的IP地址，降低客户的成本；

可以隐藏BIGIP?背后的服务器地址，避免这些服务器暴露到外部世界，从而减少了黑客攻击这些服务器的机会

?利用虚拟IP地址隐藏服务器实际地址。

同时，在BIGIP?的安全管理报告中通过监视下列参数，BIGIP?可以在安全报告中列出那些服务和端口受到了非法的访问尝试：

?IP地址：攻击者的源IP地址

?频率：攻击者尝试攻击的数量

?端口：哪个端口受到攻击

这些信息可以帮助管理员发现他们网络中存在的安全漏洞，并且可以判定哪些人是潜在的攻击者。

2.2.7“容灾”

数据中心的冗余设置常被用来提供数据中心的“容灾”。BIGIP与3DNS的结合，可以灵活的提供“容灾”保障。

BIGIP可以通过设置“备份中心”，保证在主数据中心负载过重或发生故障，无法正常提供服务时，自动启用“备份中心”，继续为客户提供服务。

3DNS可以帮助客户在系统寻找过程中，智能地找寻到合适的数据中心。并且3DNS还可以动态监测数据中心的状态，一旦主数据中心发生故障，无法正常提供服务，3DNS可以自动将流量立即传送到备份“备份中心”。

BIGIP与3DNS的结合应用，可以保证在局域和广域连接中为系统提供灵活的“容灾”策略。

2.2.8网络感知应用，应用控制网络

以下图为例，应用web服务器或中间件服务器会定制完成与后台服务器进行数据记录的备份。这时，这台服务器会集中于备份数据，而影响正常的客户服务。若此时的客户请求再转向它，势必会对客户服务带来影响，如响应延迟太大，或服务

中断。

但是，F5利用“iControl”技术可以帮助服务器通知网络，“此时忙，暂停服务”，然后，网络将停止再向它转发客户请求，而将客户请求继续转发至其它服务器，继续对客户应用请求提供服务。并且，服务器会同时通知3DNS，这个中心可用服务器数量减少一台，应相应减少对这个中心的客户服务请求量。当这台服务器完成所有数据记录的备份后，服务器又会通知BIGIP和3DNS，此时它已恢复正常，可以提供服务。这时，系统又恢复原有的正常状态。

在系统的运行过程中，各种各样的变化是不可避免的，靠人工的方法毕竟不是一个灵活的、智能的方式。“iControl”可帮助系统成为一个“自适应”的系统，使“网络真正感知应用，应用控制网络”。

另外，利用BIGIP、3DNS和iControl,还可以帮助系统提供增值应用：

配置灵活。BIGIP的放置非常灵活，即可放置在服务器群与网络的中间，也可与服务器群以平行的方式接入网络。

?BIGIP可根据服务器的运行状态，如“CPU性能”、“内存利用率”、“磁盘空间利用率”

等服务器软、硬件状态，自动调整流量的分配。

?BIGIP的高可靠性连接，提高了系统的可靠度。BIGIP之间可互相备份，并且，提供“客户连接状态”的备份，提供“冗余”操作。它们可工作与两种状态： Active/Standby

Active/Active

?可基于所有TCP/IP协议进行流量分发、管理和控制。

?可对所有基于IP的设备提供流量的分发、管理和控制，包括防火墙、路由器、VPN路由器等网络设备。

?Npath?性能。BIGIP?包括称作nPath的可选模式。该模式允许服务器绕过BIGIP?直接将信息返回给客户。例如，涉及下载流式媒体的企业可以选择采用该功能。BIGIP?仅对用户的请求（即进入的流量）进行管理。

?SSL加速加密套接字(Secure Socket)层交易的广泛采用和总体网络负载减缓了服务器的执行速度。SSL Gateway为SSL交易加速。

?3DNS?和BIGIP?结合提供14种的全球流量分配策略：

轮询算法

比率

最少连接数

随机

用户定义的服务质量

往返时间（RTT）

完成率（数据包丢失）

BIG-IP吞吐量（PPS）

全球可用性

HOPS

分布式拓扑

访问控制

LDNS轮询算法

动态比率

三．相关技术资料

BIG-IP提供支持99.999%的正常运行

99.999%高可用性

服务器系统的可用性指标可以用两个参数进行简单的描述：平均无故障工作时间（MTBF），和平均修复时间（MTBR）。系统的可用性可用下式表示：

系统可用性＝MTBF/(MTBF＋MTBR)

也就是说，如果系统的可用性达到99.9%，则每年的停止服务时间将达8.8小时，而当系统的可用性达到99.99%时，年停止服务时间是53分钟，当可用性达到99.999%时，每年的停止服务时间只有5分钟。

对于网络时代的企业任何服务停止带来的损失都是巨大的，据国外权威机构对400家企业的调查，普通企业一次关键应用的停机平均损失达每小时1万美元，而对于一些金融企业每小时的停机损失竟达到100万美元。调查发现，造成系统停止服务的主要原因有三个：其一，硬件故障，在整个停机原因中占30%，其二，操作系统和应用软件故障，占35%，其三是由于操作失误，程序错误和环境故障，占35%。

可以看到，要提高系统的可用性必须从硬件和软件两个方面入手，对于硬件产品而言，运行的时间越长越易出故障，提高硬件系统的可用性必须要在故障出现时能够保证系统继续服务。硬件冗余技术可以很好的解决这一问题，通过对关键部件的冗余设计可以做到当系统中出现故障硬件时由冗余部件自动接替服务，不致造成系统停机。而对于软件系统而言，故障的产生难以进行有效的预测，通过快速地恢复软件系统降低平均平均修复时间（MTBR）也可以达到提高可用性的目的。

服务器系统的电子部件和机械部件之间存在着可靠性的差异。电子电路的可靠性根据其工作状态不同也存在一定的差异，通常工作在高压大电流情况下的部件可靠性较低，而工作在低压小电流状态的部件可靠性较高，工作温度较高的部件可靠性低，工作温度较低的部件可靠性高。

通过分析可以看到，提高MTBF值和降低MTBR值对系统可用性设计具有相同的意义。

四．成功案例

F5为中国某税务机关提供高可用性解决方案

FW1

FW2

APP Server

Interne