当前位置：文档之家› 集群分为哪几种？集群的区别在于哪里？

集群分为哪几种？集群的区别在于哪里？

目前应用最为广泛的集群计算技术可以分为三大类：高可用性集群技术、高性能计算集群技术和高可扩展性集群技术。下面我们将对这三种集

群技术进行一下简单的介绍。

1、高可用性集群技术

高可用性集群，英文原文为High Availability Cluster, 简称HA Cluster，是指以减少服务中断（宕机）时间为目的的服务器集群技术。

随着全球经济的增长，世界各地各种各样的组织对IT系统的依赖都在不断增加，电子贸易使得商务一周七天24小时不间断的进行成为了可

能。新的强大的应用程序使得商业和社会机构对日常操作的计算机化要求达到了空前的程度，趋势非常明显，我们无时无刻不依赖于稳定的计

算机系统。

这种需求极速的增长，使得对系统可用性的要求变得非常重要，许多公司和组织的业务在很大程度上都依赖于计算机系统，任何的宕机都

会造成严重的损失，关键IT系统的故障可能很快造成整个商业运作的瘫痪，每一分钟的宕机都意味着收入、生产和利润的损失，甚至于市场地

位的削弱。

为了提高整个系统的可用性，除了提高计算机各个部件的可靠性以外，一般情况下都会采用集群的方案。

所谓集群，就是共同为客户机提供网络资源的一组计算机系统。而其中的每一台提供服务的计算机，我们称之为节点。当一个节点不可用或者

不能处理客户的请求时，该请求将会转到另外的可用节点来处理，而这些对于客户端来说，它根本不必关心这些要使用的资源的具体位置，集

群系统会自动完成。

集群中节点可以以不同的方式来运行，这要看它们是如何设置的。在一个理想的两个节点的集群中，两个服务器都同时处于活动状态，也就是

在两个节点上同时运行应用程序，当一个节点出现故障时，运行在出故障的节点上的应用程序就会转移到另外的没有出现故障的服务器上，这

样一来，由于两个节点的工作现在由一个服务器来承担，自然会影响服务器的性能。

针对这种情况的解决方案是，在正常操作时，另一个节点处于备用状态，只有当活动的节点出现故障时该备用节点才会接管工作，但这并不是

一个很经济的方案，因为你不得不买两个服务器来做一个服务器的工作。虽然当出现故障时不会对性能产生任何影响，但是在正常运行时的性

能价格比并不太好。

从上面的工作方式出发，我们可以把集群分为下面几种（特别是两节点的集群）主/主 (Active/active)

这是最常用的集群模型，它提供了高可用性，并且在只有一个节点在线时提供可以接受的性能，该模型允许最大程度的利用硬件资源。每

个节点都通过网络对客户机提供资源，每个节点的容量被定义好，使得性能达到最优，并且每个节点都可以在故障转移时临时接管另一个节点

的工作。所有的服务在故障转移后仍保持可用，但是性能通常都会下降。

主/从(Active/passive)

为了提供最大的可用性，以及对性能最小的影响，Active/passive模型需要一个在正常工作时处于备用状态，主节点处理客户机的请求，

而备用节点处于空闲状态，当主节点出现故障时，备用节点会接管主节点的工作，继续为客户机提供服务，并且不会有任何性能上影响。

混合型(Hybrid)

混合是上面两种模型的结合，只针对关键应用进行故障转移，这样可以对这些应用实现可用性的同时让非关键的应用在正常运作时也可以

在服务器上运行。当出现故障时，出现故障的服务器上的不太关键的应用就不可用了，但是那些关键应用会转移到另一个可用的节点上，从而

达到性能和容错两方面的平衡。

为什么要做高可用集群？

双机热备针对的是服务器的故障。

服务器的故障可能由各种原因引起，如设备故障、操作系统故障、软件系统故障等等。一般地讲，在技术人员在现场的情况下，恢复服务器

正常可能需要１０分钟、几小时甚至几天。从实际经验上看，除非是简单地重启服务器（可能隐患仍然存在），否则往往需要几个小时以上。

而如果技术人员不在现场，则恢复服务的时间就更长了。

而对于一些重要系统而言，用户是很难忍受这样长时间的服务中断的。因此，就需要通过双机热备，来避免长时间的服务中断，保证系统长

期、可靠的服务。

决定是否使用双机热备，正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度，以此决定是否使用双机热备。即，你的用户能

容忍多长时间恢复服务，如果服务不能恢复会造成多大的影响。

在考虑双机热备时，需要注意，一般意义上的双机热备都会有一个切换过程，这个切换过程可能是一分钟左右。在切换过程中，服务是有可

能短时间中断的。但是，当切换完成后，服务将正常恢复。因此，双机热备不是无缝、不中断的，但它能够保证在出现系统故障时，能够很快

恢复正常的服务，业务不致受到影响。而如果没有双机热备，则一旦出现服务器故障，可能会出现几个小时的服务中断，对业务的影响就可能

会很严重。

另有一点需要强调，即服务器的故障与交换机、存储设备的故障不同，其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的

设备，同时也是既包括硬件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断，而且软件方面的问题也可能导致

服务器不能正常工作。

还应指出的是，一些其他的防护措施如磁盘阵列（RAID）、数据备份虽然是非常重要的，但却不能代替双机热备的作用。

目前高可用集群实现的方式有哪几种？

A\硬件方式：2台服务器+一台磁盘阵列柜（外挂、有raid控制器，支持集群）优点：? 性价比高

? 占用系统资源较低，阵列柜本身不占系统资源

? 支持大容量数据，支持在线扩容

? 保护用户投资

缺点：投资比例较大

非全冗余架构，容易产生单点故障

施工比较复杂，需要专业人士

B、软件方式：2台服务器

优点：没有单点故障

投资比例较硬件方式少

数据安全，通常数据分2份保存

有的软件具有灾备功能，即使2份数据同时丢失，也能迅速恢复。

施工比较简单，按照相关软件操作手册做就可以

缺点：占用系统资源，数据量越大，速度越慢，大型数据库的应用，庞大的数据写入，不建议用。

通常每天数据写入在500MB内.

投资不明显，硬件很容易看的见

如果用户需要做高可用集群，做为工程师需要做的准备工作？

A、预算

B、自己的能力

C、方案推荐

以上2种高可用集群方法，任意推荐一种或者由用户自己选择

，

方案A需要的预算：2服务器+1阵列（硬盘、阵列卡、scsi线）+2windows2003企业版+1sql2005企业版+方案实现技术能力

或者：2服务器+1阵列（硬盘、阵列卡、scsi线）+2windows2003标准版+1sql2005标准版+专业第三方集群软件

方案B需要的预算：2服务器+2windows2003标准版+1sql2005标准版+专业第三方集群软件

2、高性能计算集群技术高性能计算集群，英文原文为High Performance Computing Cluster, 简称HPC Cluster，是指以提高科学计算能力为

目的计算机集群技术。 HPC Cluster是一种并行计算（Parallel Processing）集群的实现方法。并行计算是指将一个应用程序分割成多块可以

并行执行的部分并指定到多个处理器上执行的方法。目前的很多计算机系统可以支持SMP（对称多处理器）架构并通过进程调度机制进行并行处

理，但是SMP技术的可扩展性是十分有限的，比如在目前的Intel架构上最多只可以扩展到8颗CPU。为了满足哪些"计算能力饥渴"的科学计算任

务，并行计算集群的方法被引入到计算机界。著名的"深蓝"计算机就是并行计算集群的一种实现。

由于在某些廉价而通用的计算平台（如Intel+Linux）上运行并行计算集群可以提供极佳的性能价格比，所以近年来这种解决方案越来越

受到用户的青睐。比如壳牌石油（Shell）所使用的由IBM xSeries服务器组成的1024节点的Linux HPC Cluster是目前世界上计算能力最强的计

算机之一。

HPC Cluster向用户提供一个单一计算机的界面。前置计算机负责与用户交互，并在接受用户提交的计算任务后通过调度器（Scheduler）

程序将任务分配给各个计算节点执行；运行结束后通过前置计算机将结果返回给用户。程序运行过程中的进程间通信（IPC）通过专用网络进行

。

HPC Cluster中使用的服务器通常可以分为用户节点、管理节点、存贮节点和计算节点四种。它们的角色分别是：

用户节点：

提供用户界面的计算机。它从用户那里接受任务，运行调度器（在本地或独立的"控制节点"上）将任务分派到其它计算机，并将运算结果

返回给用户。

管理节点：

提供管理功能的计算机。它应该能够使管理员从这一计算机对集群中的任意一台计算机进行监视和操作，并处理集群中所有计算机的日志

和报警信息。

存贮节点：

提供存贮共享的计算机。为了使任务可以并行执行，每台执行任务的计算机必须能够访问同样的数据。存贮节点通过网络共享（NFS）或其

它方式来确保数据访问的同步。

计算节点：

真正执行计算任务的计算机。集群中的大部分计算机都是这种类型。一个HPC Cluster中通常同时使用三个网络，它们分别是IPC网络，管

理网络和存贮访问网络。根据具体的使用需求和选择的节点特性，这些网络可以使用多种介质和协议。

IPC网络：

用于并行任务执行时的进程间通信的专用网络，通常要求延迟小，带宽大。

管理网络：

用来收集集群信息、监视集群计算机和执行维护任务的网络。

存贮访问网络：

用来访问公用存贮的专用网络。

在实现一个HPC Cluster时，通常需要考虑以下问题：

? 应用程序是计算能力饥渴型（CPU+内存）还是IO（磁盘/网络）饥渴型？

--HPC Cluster只适合解决计算能力饥渴型的问题

? 应用程序是否可以"并行化"？

--HPC Cluster对于可以并行化的应用程序最为有效

? 怎样才能提高"计算密度"？

--所谓的"计算密度"是指在单位空间中所能提供的计算能力（所能摆放的计算机台数）。没有很好的计划和组织，一台1000+节点的超级计算机

就可能成为一场超级麻烦。更高的计算密度不仅意味着更小的体积，也以为着更加简便的管理和更少的投资。1U的机架式服务器应当是首选。

然后应该考虑的是：哪种服务器需要更少的电缆？哪种计算机用作计算节点可以省去额外的控制部件（如连接键盘、鼠标的控制台切换器）？

哪种计算节点可以提供更高的计算效能？

? 如何安装和管理所有的计算机？

--计算机的可管理性在HPC Cluster的实现中至关重要。在同时面对数十甚至成百上千的计算机的情况下，管理员能否简单快速地执行维护工作

常常成为影响集群发挥效用的关键因素。

在集群计算的需求确定之后，选择各种组件构成Cluster的实现方案常常十分困难，而且经常由于组件之间难以协同工作而导致Cluster的实现

失败，或者最终构造了一个难以使用又难以管理的Cluster。针对这种情况，应该优先考虑选择一体化的HPC产品。这些产品通常会在厂商的工

厂中进行组装和测试，然后按机架的方式交付客户使用。比如在目前的IBM所提供的1300 HPC Cluster，它基于Intel架构的硬件平台和Linux操

作系统，使用与"深蓝"计算机上同样的集群计算技术，在计算密度、集群管理等方面都比较出色。

目前在高性能计算集群领域我国只有银行系统，做战系统、科研系统、气象等领域有少许的应用，在此我们不做深入探讨。

3、高可扩展性集群技术

高可扩展性集群技术就是带均衡策略（算法）的服务器群集。负载均衡群集在多节点之间按照一定的策略（算法）分发网络或计算处理负

载。负载均衡建立在现有网络结构之上，它提供了一种廉价有效的方法来扩展服务器带宽，增加吞吐量，提高数据处理能力，同时又可以避免

单点故障。

一般的框架结构如下图（以Web访问为例，其它应用类似）。后台的多个Web服务器上面有相同的Web内容，Internet客户端的访问请求首

先进入一台服务器，由它根据负载均衡策略（算法）合理地分配给某个Web服务器。每个Web服务器有相同的内容做起来不难，所以选择负载均

衡策略（算法）是个关键问题。下面会专门介绍均衡算法。

负载均衡的作用就像轮流值日制度，把任务分给大家来完成，以免让一个人过度劳累。但是与轮流值日制度不同的是，负载均衡是一种动

态均衡，它通过一些工具实时地分析数据包，掌握网络中的数据流量状况，把任务理分配出去。对于不同的应用环境（如电子商务网站，它的

计算负荷大；再如网络数据库应用，读写频繁，服务器的存储子系统系统面临很大压力；再如视频服务应用，数据传输量大，网络接口负担重

压。），使用的均衡策略(算法)是不同的。所以均衡策略（算法）也就有了多种多样的形式，广义上的负载均衡既可以设置专门的网关、负载

均衡器，也可以通过一些专用软件与协议来实现。在OSI七层协议模型中的第二（数据链路层）、第三（网络层）、第四（传输层）、第七层（

应用层）都有相应的负载均衡策略（算法），在数据链路层上实现负载均衡的原理是根据数据包的目的MAC地址选择不同的路径；在网络层上可

利用基于IP地址的分配方式将数据流疏通到多个节点；而传输层和应用层的交换（Switch），本身便是一种基于访问流量的控制方式，能够实

现负载均衡。

到目前为止，针对网络负载均衡的产品主要有两大类：一是硬件；二是软件。硬件产品比软件产品运行得快但是价格较高。著名的产品有

：3Com的智能网卡和DynamicAccess技术结合起来，不用在交换机上做任何设置，就可以完成分担任务；Cisco路由器通过对动态环路、旁路技

术等功能的提供实践着负载均衡；Win2000中，专门集成了针对服务器群集的负载均衡软件；IBM的Web专用服务器和Network Dispatcher软件；

Lotus的ICM；还有许多厂商都支持的链路聚集、高层交换......实现方法还在不断地花样翻新，充实着"负载均衡"的内容。

目前，基于均衡算法主要有三种：轮循(Round-Robin)、最小连接数（Least Connections First），和快速响应优先（Faster Response

Precedence）。轮循算法，就是将来自网络的请求依次分配给集群中的服务器进行处理。最小连接数算法，就是为集群中的每台服务器设置一

个记数器，记录每个服务器当前的连接数，负载均衡系统总是选择当前连接数最少的服务器分配任务。这要比"轮循算法"好很多，因为在有些

场合中，简单的轮循不能判断哪个服务器的负载更低，也许新的工作又被分配给了一个已经很忙的服务器了。快速响应优先算法，是根据群集

中的服务器状态（CPU、内存等主要处理部分）来分配任务。这一点很难做到，事实上到目前为止，采用这个算法的负载均衡系统还很少。尤

其对于硬件负载均衡设备来说，只能在TCP/IP协议方面做工作，几乎不可能深入到服务器的处理系统中进行监测。但是它是未来发展的方向。

采用负载均衡群集的场合很多，本文将以Web/Ftp服务器群集这个典型的应用为例进行介绍。互联网的出现使信息访问产生了质的飞跃，但随

之而来的是Web流量的激增（高并发访问），由于涉及的信息量十分庞大，用户访问的频率也高，许多基于Web的大型公共信息系统(如电子图书

馆、BBS、搜索引擎和远程教育等)需要在实时性和吞吐量方面都具有较高性能的Web服务器支持。一些热门的Web站点由于负荷过重而变得反应

迟缓。如何提高Web服务器的性能和效率成为一个亟待解决的问题。

实际上，服务器的处理能力和I/O已经成为提供Web服务的瓶颈。如果客户的增多导致通信量超出了服务器能承受的范围，那么其结果必然

是服务质量下降。显然，单台服务器有限的性能不可能解决这个问题，一台普通服务器的处理能力只能达到每秒几万个到几十万个请求，无法

在一秒钟内处理上百万个甚至更多的请求。显然，采用高性能的主机系统（小型机乃至大型计算机）是可行的。但是，除了其价格价格昂贵外

，这种高速、高性能的主机系统，很多情况下也不能解决同时处理几万个并发。因为，高速主机系统只是对于复杂单一任务和有限的并发处理

显得高性能，而Internet中的Web服务器绝大多数处理是"简单任务"、高强度并发处理，因此，即便有大资金投入采用高性能、高价格的主机

系统，也不能满足Web应用的需要。这就是利用Web服务器群集实现负载均衡的最初基本设计思想。

Web服务器群集的概念最早由伊利诺斯州大学（UIUC：University of Illinois at Urbana-Champaign）的超级计算应用中

心（NCSA：National Center of Supercomputing Applications)提出并实现了一个原型系统"NCSA Scalable Web Server Cluster"，它通过

连接一组计算机对客户同时提供服务，实现分布负载，降低对用户请求的响应时间，并扩展Web服务器的应用。后来Berkeley的NOW小组、NSC和

科罗拉多大学的Harvest小组、Cisco及IBM公司等也加入此行列，很快推出相应产品。如NCSA使用几台工作站构成可扩展并行Web服务器群，提

供使用其浏览器软件Mosaic、服务器软件httpd的用户查询帮助信息和下载软

件的服务器系统，采用轮循算法选择群集中某台计算机为当前访问

请求服务；加州大学SWEB系统采用DNS转发技术实现服务器IP地址重定向（Yahoo 采用的就是这种方法）；Inktomi公司利用NOW构造并行

的HotBot检索引擎，因而系统具有成本低和扩展能力强的特点；此外，IBM公

司也提出类似的可扩展并行Web服务器群集系统的设计方案。这些

系统的成功表明Web 服务器群集是改善Web服务的一种有效解决方案，并且正

在成为主流技术。

在Web负载均衡群集的设计中，网络拓扑被设计为对称结构。在对称结构中每台服务器都具备等价的地位，都可以单独对外提供服务。通过

负载算法，分配设备将外部发送来的请求均匀分配到对称结构中的每台服务器上，接收到连接请求的服务器都独立回应客户的请求。

1. 高性能：一个Web服务器群集系统由多台Web服务器组成，对外部而言，整个群集就如同一台高性能Web服务器，系统只有一个

对外的网络地址（主机名或IP地址），所有的HTTP请求都发到这个地址上。系统中有专门的机制能够将这些请求按照一定原则分发到群集中的

各台服务器上，让它们各自分担一部分工作。

2. 可扩展性它是采用同样的方法或技术高效率地支持较大规模系统的能力。Web服务器群集系统的组成结构和工作原理决定了它

能够比较容易地达到较好的可扩展性，因为扩大系统规模非常容易，只要在网络中增加新的Web服务器计算机即可。

3. 高可用性 Web服务器群集系统将会在各种商业应用领域中占有

举足轻重的地位。商用系统最重视系统的可靠性和容错性，二者

合在一起称为系统的可用性。常用的系统可用性指标有系统平均无故障时间、期望不间断工作时间及年平均故障率等。由于Web服务器群集系统

中各台Web服务器之间相对独立，采用一些不太复杂的技术就能使Web服务器群集系统达到很高的可用性。一些商用产品中已经部分实现了这种

技术。

对于Web服务器来讲，如果访问压力过大，多个HTTP请求都发到这个地址上，如sohu,yahoo,msn等，系统中有专门的机制能够将这些请求按照一

定原则分发到群集中的各台服务器上，让它们各自分担一部分工作。，这样问题就解决了