当前位置：文档之家› H3C CAS高可靠性和高可用性技术白皮书

H3C CAS高可靠性和高可用性技术白皮书

1技术应用背景 (1)

2 H3C实现的技术特色 (2)

2.1 H3C CAS云计算管理平台简介 (2)

2.2相关技术基础简介 (3)

2.2.1共享存储 (3)

2.2.2动态迁移 (4)

2.3 H3C CAS高可靠性（HA）技术 (5)

2.3.1相关术语 (5)

2.3.2物理服务器主机HA工作原理 (5)

2.3.3虚拟机HA工作原理 (6)

2.3.4技术特色总结 (7)

2.4 H3C CAS高可用性技术 (8)

2.4.1动态资源调整 (8)

2.4.2虚拟机资源限额 (10)

2.5应用限制 (11)

3典型组网案例 (12)

3.1组网拓扑 (12)

3.2注意事项 (13)

3.2.1对服务器硬件的要求 (13)

3.2.2整合比（单台服务器上虚拟机数量）的决定因素 (13)

4参考文献 (14)

1 技术应用背景

随着虚拟化和云计算浪潮在全球IT行业的兴起，越来越多的企业、行业和运营商纷纷将自身的IT 架构切换到虚拟化环境中。虚拟化技术对数据中心内未被充分利用的服务器进行整合，极大地降低了客户的一次性投入成本，精简了数据中心物理服务器的数量，同时，减少了供电、制冷、场地和运维人员方面的运营成本。

但是，虚拟化也为IT应用带来了单点故障问题，在未实施虚拟化技术之前，IT管理员往往遵循“根据最坏情况下的工作负载来确定所有服务器的配置”这一策略，即一台高性能物理服务器仅安装一个应用程序。在这种情况下，即使该物理服务器出现了断电或操作系统崩溃等异常状况，最多只会影响到一个应用的运行，而在虚拟化环境下，每台物理服务器往往运行多个虚拟的应用服务器，因此，虚拟化技术的实施将使IT环境面临的灾难破坏性更严重，尤其对于一些重要的业务入口或接入点（如企业的生产服务器和金融行业的数据库服务器等），即使出现秒级的业务中断，也将遭受灾难性的后果。在这种应用背景下，如何保证虚拟化环境下业务应用的高可靠性和高可用性，成为急需解决的一个技术问题。

VM VM VM

图1物理服务器故障造成虚拟化业务全部中断

传统的集群解决方案（如微软的Cluster Service和Veritas Cluster Server）致力于在发生服务器主机故障或虚拟机故障时，在最短的应用程序停机时间内实现即时恢复，要达到这个目标，IT基础架构必须进行如下设置：

?每台物理服务器和虚拟机都必须有一个镜像虚拟机（可能在其它服务器主机上）。

?使用集群软件将服务器（或虚拟机及其主机）设置为互相镜像，一般情况下，由主虚拟机向镜像发送心跳信号，一旦发生故障，镜像将立即接管。

下图显示使用传统集群方法的典型的虚拟机设置：

机箱内集群跨机箱集群

图2使用传统集群配置确保虚拟化应用的高可靠性

设置和维护这样的集群解决方案成本昂贵，并会占用大量资源。每添加一台新的虚拟机，可能需要更多的虚拟机甚至是更多的服务器主机才能进行故障切换。您将不得不设置、连接和配置所有的新计算机，并更新群集应用程序的配置。

总之，传统解决方案虽然能够保证快速恢复，但却是资源和劳动密集型的，而且通常存在对应用程序和操作系统的依赖性问题。

由于集群解决方案的成本和复杂性问题，它们通常只被一小部分企业应用程序所采用，而大部分应用程序则没有任何故障切换保护。

为了解决虚拟化和云计算部署带来的单点故障问题，H3C CAS云计算软件摒弃了高成本、高复杂度的传统集群方案，通过为应用程序提供可用的、经济的高可用性，而使其更“大众化”。

2 H3C实现的技术特色

2.1 H3C CAS云计算管理平台简介

H3C CAS云计算管理平台是H3C公司面向企业和行业数据中心推出的虚拟化和云计算管理软件，通过精简数据中心服务器的数量，整合数据中心IT基础设施资源，精简IT操作，提高管理效率，达到提高物理资源利用率和降低整体拥有成本的目的。同时，利用先进的云管理理念，建立安全的、可审核的数据中心环境，为业务部门提供成本更低、服务水平更高的基础架构，从而能够针对业务部门的需求做出快速的响应。

H3C CAS云计算管理平台由三个组件构成：

?CVK：Cloud Virtualization Kernel，虚拟化内核平台

运行在基础设施层和上层客户操作系统之间的虚拟化内核软件。针对上层客户操作系统对底层硬件资源的访问，CVK用于屏蔽底层异构硬件之间的差异性，消除上层客户操作系统

对硬件设备以及驱动的依赖，同时增强了虚拟化运行环境中的硬件兼容性、高可靠性、高

可用性、可扩展性、性能优化等功能。

?CVM：Cloud Virtualization Manager，虚拟化管理系统

主要实现对数据中心内的计算、网络和存储等硬件资源的软件虚拟化管理，对上层应用提供自动化服务。其业务范围包括：虚拟计算、虚拟网络、虚拟存储、高可用性（HA）、动

态资源调度（DRS）、虚拟机容灾与备份、虚拟机模板管理、集群文件系统、虚拟交换机策

略等。

?CIC：Cloud Intelligence Center，云业务管理中心

由一系列云基础业务模块组成，通过将基础架构资源（包括计算、存储和网络）及其相关策略整合成虚拟数据中心资源池，并允许用户按需消费这些资源，从而构建安全的多租户

混合云。其业务范围包括：组织（虚拟数据中心）、多租户数据和业务安全、云业务工作流、

自助式服务门户、兼容OpenStack的REST API接口等。

图3H3C CAS云计算管理平台系统逻辑结构图

2.2 相关技术基础简介

2.2.1 共享存储

H3C CAS云计算管理平台中的存储用于保存虚拟机的操作系统、应用程序文件、配置文件以及与活动相关的其它数据，是虚拟机正常工作的基本前提条件。

根据存储的种类不同，可以分为本地存储和共享存储两种。

?在部署了H3C CAS云计算管理平台，并将主机作为被管理资源对象添加到H3C CAS云计算管理平台之后，该主机默认使用本地磁盘介质作为存储，其它主机不能使用。

?在数据中心中，很多用户选择使用共享存储来承载虚拟机及其数据，目前，H3C CAS云计算管理平台支持IP SAN等类型的存储。

采用共享存储的好处是：

?共享存储往往比本地存储提供更好的I/O性能（尤其在多虚拟机环境下）。

?H3C CAS云计算管理平台中的高可用性功能需要共享存储作为先决条件，例如HA和动态资源调整等。

H3C CAS中的虚拟机文件系统是一种优化后的高性能集群文件系统，允许多个云计算节点同时访问同一虚拟机存储。由于虚拟架构系统中的虚拟机实际上是被封装成了一个档案文件和若干相关环境配置文件，通过将这些文件放在SAN存储阵列上的文件系统中，可以让不同服务器上的虚拟机都可以访问到该文件，从而消除了单点故障。

图4共享存储组网拓扑结构

2.2.2 动态迁移

动态迁移是实现自动化和自我优化的数据中心所必需的关键特性。H3C CAS动态迁移支持在物理服务器之间实时迁移正在运行中的虚拟机，利用虚拟机实时迁移技术，不仅在执行硬件维护时无需安排宕机和中断业务操作，而且可以使资源池内的虚拟机不断自动优化，最大限度地提高硬件利用率、灵活性和可用性。

图5虚拟机迁移技术

利用H3C CAS动态迁移技术在物理服务器之间实时迁移虚拟机的过程是通过两项底层技术实现的。

(1) 虚拟机操作系统和应用程序的完整状态被封装在共享存储设备上的一组文件之中，这样的共享

存储设备可以是iSCSI存储区域网络（SAN）或网络连接存储（NAS）。通过H3C CAS高

性能集群文件系统，多个物理服务器主机可以同时访问同一个虚拟机文件。

(2) 虚拟机的内存映像和精确执行状态可通过高速网络在各物理服务器主机之间迅速传递。H3C

动态迁移技术通过在一个位图中保存对现行内存处理过程的跟踪，使用户在数据传递期间察觉

不到性能变化。一旦整个内存和系统状态被复制到目标物理服务器主机之后，H3C CAS动态

迁移技术就会中止源虚拟机的运行，随后，将位图复制到目标物理服务器，并在目标物理服务

器上继续运行该虚拟机。

2.3 H3C CAS高可靠性（HA）技术

H3C CAS云计算软件将一组服务器主机合并为一个具有共享资源池的集群，并持续对集群内所有的服务器主机与虚拟机运行状况进行检测，一旦某台服务器主机或虚拟机发生故障，H3C CAS HA 软件模块会立即响应并在集群内另一台服务器主机上重启所有受影响的虚拟机。

2.3.1 相关术语

1. 节点（Node）

运行HA心跳进程的一个独立主机，称为节点。节点是HA软件模块的运行载体，每个节点上运行着H3C CAS云计算操作系统和心跳软件服务。

2. DC（Designated Coordinator，指定协调者）

HA软件模块在开始工作前，首先在各节点间选举产生一个节点作为主节点，用于管理和控制集群HA的指令，所有配置操作都在该DC主机上进行，并由其分发到集群下的各个节点上。

3. 资源（Resource）

资源是一个节点可以控制的实体，并且当节点发生故障时，这些资源能够被其它节点接管，如虚拟机镜像文件资源等。

4. 事件（Event）

集群中可能发生的事情，例如节点系统故障、网络连通故障、网卡故障、应用程序故障等。这些事件都会导致节点的资源发生转移，HA的稳定运行与检测也是基于这些事件来进行的。

5. 动作（Action）

事件发生时HA的响应方式，动作是由shell脚本控制的，例如，当某个节点发生故障后，备份节点将通过事先设定好的执行脚本进行服务的关闭或启动。进而接管故障节点的资源。

2.3.2 物理服务器主机HA工作原理

H3C CAS云计算软件统一在各个物理服务器节点之间维持“心跳”（默认为3秒），节点之间通过相互发送组播报文以检测对方是否存在，当发现某个节点连续多次（默认为10次）未响应组播请求时，就认为该节点发生了节点系统故障事件，此时，集群内的DC就会重启该节点，并根据一定的策略算法，尝试在其它的服务器上重新启动所有失效的虚拟机。HA软件模块会保证在任何时候当物理服务器发生宕机时，资源池中都有足够的硬件资源，使失效的服务器中的虚拟机在其它的服务器上顺利启动。H3C CAS采用优化后的高性能集群文件系统，通过支持SAN/iSCSI/NFS等存储

协议，可以允许不同的服务器访问同一虚拟机磁盘文件，这一特性使得H3C CAS HA的实现非常的简单和方便。

VM VM VM

图6使用H3C CAS云计算软件HA特性进行主机故障切换

需要注意的是，如果发生系统故障事件的节点恰好为DC节点，那么，在检测到DC节点故障后，集群内的备份节点之间自动发起DC的选举，重新生成新的DC。

2.3.3 虚拟机HA工作原理

除了对集群中的物理服务器节点进行持续检测之外，H3C CAS HA软件模块还对运行于物理服务器节点之上的虚拟机进行持续检测。

在每台服务器节点上都运行了一个LRMd（Local Resource Manager daemon，本地资源管理器守护进程），它是HA软件模块中直接操作所管理的各种资源的一个子模块，负责对本地的虚拟化资源进行状态检测，并通过shell脚本调用方式实现对资源的各种操作。

当LRMd守护进程检测到本机的某台虚拟机出现通信故障时，首先将事件通知给DC，由DC统一将该虚拟机状态告知集群内所有的物理服务器节点，并按照一定的策略算法，为该故障的虚拟机选择一个空闲的服务器节点，在该节点上重启该虚拟机。

图7使用H3C CAS云计算软件HA特性进行虚拟机故障切换

2.3.4 技术特色总结

H3C CAS HA技术有效的解决了目前其它高可用性解决方案面临的问题：

?当物理服务器发生硬件故障时，所有运行于该服务器的虚拟机可以自动切换到其它的可用服务器上，相对传统的双机容错方案，H3C CAS HA可以最大程度减少因硬件故障造成的服务器

故障和服务中断时间。

?不同于其它HA的双机热备方式，所有参与HA的物理服务器都在运行生产系统，充分利用现有硬件资源。同时，对众多的操作系统和应用程序，H3C CAS提供统一的HA解决方案，避

免了针对不同操作系统或者应用，采用不同的HA方案带来的额外开销和复杂性。

通过H3C CAS HA，IT部门可以：

?为没有容错功能的应用提供冗余保护

传统意义上HA实现很复杂并且价格昂贵，多用于关键性的服务或应用，而H3C CAS HA 为所有的应用程序提供了高性价比的HA解决方案。

?为整个IT环境提供“第一条安全防线”

不同于其它基于操作系统和应用的HA实现方式，H3C CAS HA为IT系统提供了更统一、更易于管理的高可用性解决方案。H3C CAS用最少的成本和最简单的管理方式为所用的应

用提供了最基本的冗余保护功能。

综上所述，H3C CAS HA解决方案的技术特点总结如下：

1. 自动侦测物理服务器和虚拟机失效

H3C CAS会自动的监测物理服务器和虚拟机的运行状态，如果发现服务器或虚拟机出现故障，会在其它的服务器上重新启动故障机上所有虚拟机，这个过程无需任何人为干预。

2. 资源预留

H3C CAS永远会保证资源池里有足够的资源提供给虚拟机，当物理服务器宕机后，这部分资源可以保证虚拟机能够顺利的重新启动。

3. 虚拟机自动重新启动

通过在其它的物理服务器上重新启动虚拟机，HA可以保护任何应用程序不会因为硬件失效而中断服务。

4. 智能选择物理服务器

当与H3C CAS动态负载均衡功能共同使用时，H3C CAS HA可以根据资源的使用情况，为失效物理服务器上的虚拟机选择能获得最佳运行效果的物理服务器。

2.4 H3C CAS高可用性技术

2.4.1 动态资源调整

在虚拟化和云计算环境中，一旦客户将服务器整合到资源较少的物理主机上，虚拟机的资源需求往往会成为意想不到的瓶颈，全部资源需求很有可能超过主机的可用资源。H3C CAS云计算软件提供的动态负载均衡特性引入一个自动化机制，通过持续地平衡容量，将虚拟机迁移到有更多可用资源的主机上，确保每个虚拟机在任何节点都能及时地调用相应的资源。即便大量运行SQL Server 的虚拟机，只要开启了动态资源调整功能，就不必再对CPU和内存的瓶颈进行一一监测。全自动化的资源分配和负载平衡功能，也可以显著地降低数据中心的成本与运营费用。

1. 工作原理

图8使用H3C CAS云计算软件动态资源调整特性进行虚拟机动态迁移

H3C CAS管理台定期（默认1分钟）轮询集群内所有的物理服务器主机，对CPU和内存等关键计算资源的利用率进行检测，并根据用户自定义的规则来判断是否需要为物理服务器主机在集群内寻

找有更多可用资源的主机，以将该主机上的虚拟机迁移到另外一台具有更多合适资源的服务器上，或者将该服务器上其它的虚拟机迁移出去，从而为某个虚拟机腾出更多的“空间”。

图9集群动态资源调度自定义规则配置

除了定时检测和动态迁移之外，H3C CAS还充分考虑了虚拟机对物理服务器主机的亲和性因素，即衡量虚拟机对当前物理主机的依赖程度。例如，用户可能希望某些虚拟应用系统只允许在固定的物理主机上运行，而不允许其动态迁移。此时，只需要在H3C CAS云计算管理平台上，去勾选虚拟机的自动迁移属性即可。

图10虚拟机自动迁移属性配置

2. 技术特色总结

根据业务需求自动调整资源

H3C CAS 动态资源调度功能将物理服务器主机资源聚合到集群中，通过监控CPU 和内存等关键计算资源的利用率持续优化虚拟机跨物理主机的分发，将这些资源动态自动分发到各虚拟机中。

自动平衡计算容量

H3C CAS 动态资源调度功能会不间断地平衡资源池内的计算容量，提高服务级别并确保每个虚拟机能随时访问相应资源，满足虚拟应用程序的高可用性。

2.4.2 虚拟机资源限额

默认情况下，H3C CAS 给每台物理服务器主机上的虚拟机分配数量相同的CPU 、内存以及磁盘I/O 资源。但是，并不是所有虚拟机工作负载天生相同，例如，SQL 服务器和Web 服务器的访问需求就不尽相同，因此，手动调整分配给每个虚拟机的资源就显得非常重要。

图11 资源限额机制确保虚拟机的高可用性

H3C CAS 通过资源限额方式来为虚拟机指定资源调度的优先级。有三种预设的限额分配方式：高、中、低，调度优先级权重分别为4:2:1，反映到份额上的数值如下表所示：

磁盘I/O 调度优先级百分比

50.0%

31.2%

18.8%

比如，一台物理服务器主机上分配了5个虚拟机，CPU 调度优先级分别为高、中、中、低、低，那么，高优先级的虚拟机至少可以获得4/(4+2+2+1+1)=40%的CPU 资源，中优先级的虚拟机至少可以获得20%的CPU 资源，而低优先级的虚拟机至少可以获得10%的CPU 资源。

需要强调的是，虚拟机资源限额机制的真正目的是为了确保每个虚拟机对资源的调度下限，如果物理服务器上没有发生虚拟机的资源抢占行为，那么，即使是低优先级的虚拟机也有可能独享该物理服务器上绝大部分的资源。

高中低高中低

图12 资源抢占机制进一步提高资源的利用率

当所有的虚拟机都处于满负载运行的情况下，CPU 资源严格按照4:2:1的权重比例进行调度，以确保所有的虚拟机都能抢占到一定数量的资源，保证业务的可用性。一旦某个虚拟机的负载回落到权重比例之下，那么，其它的虚拟机可以抢占本属于该虚拟机的资源，以最大限度地利用物理资源的利用率，保证应用程序的运行效率。

2.5 应用限制

? H3C CASHA 的实现技术依赖于集群、共享存储和动态迁移等基础技术。因此，在实际组网部署时，必须将物理服务器节点组成集群，并配置为共享存储模式。

动态迁移特性要求各物理服务器主机的CPU 厂商必须一致，比如，都为Intel 或AMD 的CPU 。另外，采用同一厂商、同一产品族和同一代处理器的服务器组成的集群，可以获得最好的迁移兼容能力。

3 典型组网案例

3.1 组网拓扑

?对于具有特殊硬件访问要求的业务应用（如高性能计算、高性能图形处理、特殊串并行加密应用等）和需要占用大量I/O和内存资源的大负载应用（如视频点播、Exchange邮件服务器等），

不适合采用虚拟化，需要部署在独立的物理服务器或小型机上。

?利用H3C CAS CVM组件提供的服务器虚拟化能力，将非关键性业务和非大负载业务部署到虚拟化环境中。

?考虑到HA和动态资源调整所要求的资源冗余，总体资源使用率不超过2/3较合适。

?根据应用程序对CPU和磁盘I/O等资源的依赖程度，为虚拟机建立不同的服务等级（SLA），设置不同的资源调度优先级，以确保这些应用的高可用性。

图13高可靠性和高可用性典型组网拓扑图

3.2 注意事项

3.2.1 对服务器硬件的要求

1. CPU

CPU必须支持硬件辅助虚拟化技术，如Intel-VT或AMD-V。

采用同一厂商、同一产品族和同一代处理器的服务器组成的集群，可以获得最好的迁移兼容能力。

2. 内存

内存资源往往比CPU资源更会成为潜在的性能瓶颈，尽可能将服务器配置到最大内存，采用最大容量的内存条。

3.2.2 整合比（单台服务器上虚拟机数量）的决定因素

1. 服务器硬件配置

CPU性能：核数越多，主频越高，所能支持的虚拟机数量越多。

内存大小：内存容量越大，所能支持的虚拟机数量越多。

本地磁盘：内置的本地磁盘可用性和I/O吞吐能力都较弱，不建议在其上存放虚拟机，推荐使用外置高性能磁盘阵列。

2. 应用负载大小与业务关键程度

应用负载越大，能同时运行的虚拟机数量越少。

业务越关键，建议同时运行的虚拟机数量越少。

考虑到HA和DRS所要求的资源冗余，总体资源使用率不超过2/3较合适。

经验数据：双路4核10VM/服务器，四路4核15-30VM/服务器。

4 参考文献

H3C CAS云计算管理平台技术白皮书

可靠性概念1

第一部分产品可靠性基本概念编讲杨志飞 1 质量定义为了某个目的而进行的单项具体工作叫“活动”。活动需要“资源”，资源包括人员、设施、设备、技术、资金和时间。将输入转化为输出的一组关联的资源和活动称“过程”。产品：ISO 9000定义为“活动或过程的结果”。产品可包括：硬件、流程性材料、软件、服务或它们的组合；产品可以是有形的(如组件或流程性材料)，也可以是无形的(如知识或概念)或是它们的组合；产品可以是预期的(如提供给客户的)或非预期的(如污染物或不愿有的后果)。(国内曾经把产品定义为：是指任何元器件、零部件、组件、设备、分系统或系统，可以指硬件、软件或者两者的结合。) 硬件，是有形的、不连续的、具有特定形状的产品，通常由制造的、建造的和装配的零件、部件或(和)组件组成。流程性材料，是由固体、气体、液体或由它们的组合所组成，经转换形成的产品(最终产品或中间产品），通常由管道、桶、袋、罐或以卷的形式交付。软件，是通过支持媒体表达的信息所构成的一种智力创作。服务，是为满足顾客的需要，供方和顾客之间接触的活动以及供方内部活动产生的结果。整机：是指产品的部分内涵，即产品中设备以上的部分。系统：能够完成某项工作任务的设备、人员及技术的组合。一个完整的系统应包括在规定的工作环境下，使系统的工作和保障可以达到自给所需的一切设备、有关的设施、器材、软件、服务和人员。分系统：在系统中执行一种使用功能的组成部分。如数据处理分系统、制导分系统等。请注意：组件多数可以看作整机，有时也当作元器件，在高度集成的器件中，往往包含了整机的模块，现代的部件往往也做成组件。因此很难划清它们的界线。实体，是可以单独描述和考虑的事物，可以是某项活动和过程、某个产品、某个组织、体系或人或他们的任何组合。特性，是帮助识别和区分各类实体的一种属性。属性包括物理、化学、外观功能或其它可识别的性质。其描述的量叫“特性参数”。反映实体满足规定和潜在需要能力的特性之和叫“质量”。潜在需要是用户未在合同或定单中明确提出但实质上有的需要。质量是实体的一项最重要的特性，包括：性能、适用性、可信性、安全性、环境、经济性、美学。可信性，是描述可用性和它的影响因素包括可靠性、维修性、维修保障性的集合性术语。 2故障定义产品终止最终完成规定功能的能力的事件称“失效”。产品不能执行规定功能的状态叫“故障”。丧失功能的准则叫故障判据。相对于给定的规定功能，有故障的产品的一种状态叫“故障模式”。形成故障的物理、化学(可能还有生物)变化等内在原因称为“故障机理”。产品在规定的条件下使用，由于其本身固有的弱点而引起的失效，称为“本质故障”，不按规定条件使用产品而引起的失效称为“误用故障”。产品设计应包括减少误用故障的设计过程。产品由于制造上的缺陷等原因而发生的故障称为“早期故障”；而由于偶然因素发生的故障称为“偶然故障”，一般在事前不能测试或监控，属于“突然故障”。产品由于老化、磨损、损耗或疲劳等原因引起的故障称为“耗损故障”。通过事前的测试或监控可以预测到的故障称为“渐变故障”。使产品不能完成规定任务或可能导致人或物重大损失的

可靠性术语

本文介绍常用可靠性维修性术中英文对照，方便大家使用！可靠性 reliability 维修性 maintainability 可用性 availability 可信性 dependability 耐久性 durability 效能 effectiveness 固有能力 capability 修理的产品 repaired item 不修理的产品 non-repaired item 服务 service 规定功能 required function 时刻 instant of time 时间区间 time interval 持续时间 time duration 累积时间 accumulated time 量度 measure 工作 operation 修改(对产品而言) modification (of an item) 维修保障性 maintenance support performance 失效 failure 致命失效 critical failure 非致命失效 non-critical failure 误用失效 misuse failure 误操作失效 mishandling failure 弱质失效 weakness failure 设计失效 design failure 制造失效 manufacture failure 老化失效;耗损失效 ageing failure; wear-out failure 突然失效 sudden failure 渐变失效;漂移失效 gradual failure; drift failure 灾变失效 cataleptic failure 关联失效 relevant failure 非关联失效 non-relevant failure

可靠性、有效性、可维护性和安全性(RAMS)

1 目的为确保产品在使用寿命周期内的可靠性、有效性、可维护性和安全性（以下简称RAMS），建立执行可靠性分析的典型方法，更好地满足顾客要求，保证顾客满意，特制定本程序。 2 适用范围适用于本集团产品的设计、开发、试验、使用全过程RAMS的策划和控制。 3 定义 RAMS:可靠性、有效性、可维护性和安全性。 R——Reliability可靠性:产品在规定的条件下和规定的时间内，完成规定功能的能力。可靠性的概率度量亦称可靠度。 A——Availability有效性：是指产品在特定条件下能够令人满意地发挥功能的概率。 M——Maintainability可维护性：是指产品在规定的条件下和规定的时间内，按规定的程序和方法进行维修时，保持或恢复到规定状态的能力。维修性的概率度量亦称维修度。 S——Safety安全性：是指保证产品能够可靠地完成其规定功能，同时保证操作和维护人员的人身安全。 FME(C)A：Failure Mode and Effect(Criticality)Analysis 故障模式和影响（危险）分析。 MTBF平均故障间隔时间：指可修复产品(部件)的连续发生故障的平均时间。 MTTR平均修复时间：指检修员修理和测试机组,使之恢复到正常服务中的平均故障维修时间。数据库：为解决特定的任务，以一定的组织方式存储在一起的相关的数据的集合。 4 职责 4.1 销售公司负责获取顾客RAMS要求并传递至相关部门；组织对顾客进行产品正确使用和维护的培训；负责产品交付后RAMS数据的收集和反馈。 4.2 技术研究院各技术职能部门负责确定RAMS目标，确定对所用元器件、材料、工艺的可靠性要求，进行可靠性分配和预测，负责建立RAMS数据库。 4.3 工程技术部负责确定能保证实现设计可靠性的工艺方法。 4.4 采购部负责将相关资料和外包（外协）配件的RAMS要求传递给供方，并督促供方实现这些要求。 4.5制造部负责严格按产品图样、工艺文件组织生产。 4.6动能保障部负责制定工装设备、计量测试设备的维修计划并实施，保证其处于完好状态。

H3C CAS高可靠性和高可用性技术白皮书

目录 1技术应用背景 (1) 2 H3C实现的技术特色 (2) 2.1 H3C CAS云计算管理平台简介 (2) 2.2相关技术基础简介 (3) 2.2.1共享存储 (3) 2.2.2动态迁移 (4) 2.3 H3C CAS高可靠性（HA）技术 (5) 2.3.1相关术语 (5) 2.3.2物理服务器主机HA工作原理 (5) 2.3.3虚拟机HA工作原理 (6) 2.3.4技术特色总结 (7) 2.4 H3C CAS高可用性技术 (8) 2.4.1动态资源调整 (8) 2.4.2虚拟机资源限额 (10) 2.5应用限制 (11) 3典型组网案例 (12) 3.1组网拓扑 (12) 3.2注意事项 (13) 3.2.1对服务器硬件的要求 (13) 3.2.2整合比（单台服务器上虚拟机数量）的决定因素 (13) 4参考文献 (14) i

1 技术应用背景随着虚拟化和云计算浪潮在全球IT行业的兴起，越来越多的企业、行业和运营商纷纷将自身的IT 架构切换到虚拟化环境中。虚拟化技术对数据中心内未被充分利用的服务器进行整合，极大地降低了客户的一次性投入成本，精简了数据中心物理服务器的数量，同时，减少了供电、制冷、场地和运维人员方面的运营成本。但是，虚拟化也为IT应用带来了单点故障问题，在未实施虚拟化技术之前，IT管理员往往遵循“根据最坏情况下的工作负载来确定所有服务器的配置”这一策略，即一台高性能物理服务器仅安装一个应用程序。在这种情况下，即使该物理服务器出现了断电或操作系统崩溃等异常状况，最多只会影响到一个应用的运行，而在虚拟化环境下，每台物理服务器往往运行多个虚拟的应用服务器，因此，虚拟化技术的实施将使IT环境面临的灾难破坏性更严重，尤其对于一些重要的业务入口或接入点（如企业的生产服务器和金融行业的数据库服务器等），即使出现秒级的业务中断，也将遭受灾难性的后果。在这种应用背景下，如何保证虚拟化环境下业务应用的高可靠性和高可用性，成为急需解决的一个技术问题。 VM VM VM 图1物理服务器故障造成虚拟化业务全部中断传统的集群解决方案（如微软的Cluster Service和Veritas Cluster Server）致力于在发生服务器主机故障或虚拟机故障时，在最短的应用程序停机时间内实现即时恢复，要达到这个目标，IT基础架构必须进行如下设置： ?每台物理服务器和虚拟机都必须有一个镜像虚拟机（可能在其它服务器主机上）。 ?使用集群软件将服务器（或虚拟机及其主机）设置为互相镜像，一般情况下，由主虚拟机向镜像发送心跳信号，一旦发生故障，镜像将立即接管。下图显示使用传统集群方法的典型的虚拟机设置： 1

软件可靠性

7．7 软件可靠性 7.7.1 基本概念 1. 软件可靠性的定义定义 1 软件可靠性(software reliability )是指软件在规定的运行环境中和规定的时间内无失效运行的概率[ANSI91]。所以它是时间t 的函数，我们用)(t R 来表示。定义 2 软件故障率(failure rate )是指在单位时间内软件发生故障的概率。它和软件可靠性的关系如下： ) () ()(t R dt t dR t - =λ 或者是： ))(exp()( 0 ?-=t dt t t R λ 定义3 软件平均无故障时间(MTTF)。指软件从开始运行到出现一个故障的期望时间，根据可靠性的定义有： ? ∞ = )(dt t R MTTF 和软件中错误相关的定义定义4 软件错误(Software Error )。指在软件生存期内的不希望或不可接受的人为错误。软件错误是一种人为的行为，相对于软件本身是一种外部行为。定义 5 软件缺陷(Software Defect )。指存在于软件（文档、数据、程序）之中的那些不希望或不可接受的偏差。其结果是软件在某一特定条件时出现运行故障。当软件指程序时，软件缺陷即程序污点(Bug )。定义 6 软件故障(Software Fault )。指软件运行过程中出现的一种不希望或不可接受的内部状态。软件故障是一种动态行为。定义 7 软件失败(Software Failure )。指软件运行时产生的一种不希望或不可接受的外部行为结果。 2. 软件的可用性定义程序在给定的时间点，按照SRS 的规定，成功地运行的概率。可靠性与可用性的区别：可靠性指在0到t 这段时间间隔内系统没有失效；可用性仅仅意味着在时刻t ，系统是正常运行的。

可靠性与可用性

以可靠性为代价逐渐增加可用性 Dan Byron (March 2002) 一个用户考虑一个系统的可靠性是当他们需要时看这个系统是否可用和可操作，增强系统可用性的一个方法是添加更多的组件到系统，但是组件数量的增多，增加了系统的故障率，因此从工程的观点来看减小了可靠性。这篇文章调解可靠性和可用性之间的明显的不和谐，且研究冗余，把它作为增加可用性的一种方式。从工程观点来说，可靠性是指一个系统或设备在规定的条件下（笔记本电脑、IT中心）指定的期限内（例如：三年）完成一个必要功能（持续运转）的能力，从用户的观点出发，一个系统是否可靠取决于当用户想使用它时，它是否可以正常运行。这个运行的可靠性被更恰当地定义为可用性：对于需要使用它的任何时候，系统都是可用的，且是适合的。虽然这种情况是一个理想状况，但一个高可用性系统不要求高可靠，可靠性如何被评定的一个测试为了解可靠性和可用性之间的关系提供了一个基本原则。 MTBF 作为可靠性的一个测量标准一个系统里的组件、子组件、设备或部件有它们固有的可靠性，经常用平均故障间隔时间(MTBF)来表示，一个系统固有的可靠性是指系统中所有组件的非可靠性(故障率) 总和的一个函数。考虑一个MTBF为100,000小时的集成电路，如果把这个设备放到一个电路里，这个电路还包含一个MTBF 为100,000小时的LED，就此而言这个电路的可靠性不是相加，它的MTBF不是200,000小时。为了确定这个电路的MTBF，首先要转换每个组件的MTBF为它相应的故障率（它的MTBF的倒数）：用这个故障率总和的倒数计算出系统（电路）的MTBF： = 1/0.0002 = 50,000 小时这个方法可以应用于任何串联性质的系统：一种组件的输入依靠另外一个组件的输出，任何设备的故障将会导致整个系统的一个故障。

EN50126-1999 铁路应用—可靠性_可用性_可维护性和安全性

BS EN 50126：1999 铁路应用—可靠性，可用性，可维护性和安全性（RAMS）的规范和示例 2007年6月

目录引言------------------------------------------------------------------------------------------------------------------------------5 1适用范围----------------------------------------------------------------------------------------------------------------------6 2相关参考标准----------------------------------------------------------------------------------------------------------------7 3 定义---------------------------------------------------------------------------------------------------------------------------8 4 铁路RAMS------------------------------------------------------------------------------------------------------------------12 4.1综述--------------------------------------------------------------------------------------------------------------------------12 4.2 铁路RAMS与服务质量------------------------------------------------------------------------------------------------12 4.3 铁路RAMS要素---------------------------------------------------------------------------------------------------------13 4.4 影响铁路RAMS的因素------------------------------------------------------------------------------------------------1 5 4.4.1总则------------------------------------------------------------------------------------------------------------------------15 4.4.2 因素的归类--------------------------------------------------------------------------------------------------------------15 4.4.3因素的管理---------------------------------------------------------------------------------------------------------------19 4.5达到铁路RAMS要求的方法-------------------------------------------------------------------------------------------20 4.5.1概要------------------------------------------------------------------------------------------------------------------------20 4.5.2RAMS规范----------------------------------------------------------------------------------------------------------------20 4.6风险---------------------------------------------------------------------------------------------------------------------------21 4.6.1风险概念-------------------------------------------------------------------------------------------------------------------21 4.6.2风险分析-------------------------------------------------------------------------------------------------------------------21 4.6.3风险评估和承诺----------------------------------------------------------------------------------------------------------22 4.7安全完整性------------------------------------------------------------------------------------------------------------------23 4.8自动防故障的概念---------------------------------------------------------------------------------------------------------25 5铁路RAMS的管理----------------------------------------------------------------------------------------------------------25 5.1概要---------------------------------------------------------------------------------------------------------------------------25 5.2系统生命周期---------------------------------------------------------------------------------------------------------------26 5.3标准应用---------------------------------------------------------------------------------------------------------------------32 6 RAMS的生命周期-----------------------------------------------------------------------------------------------------------33 6.1 步骤1概念-----------------------------------------------------------------------------------------------------------------34 6.2步骤2系统定义和应用条件---------------------------------------------------------------------------------------------35 6.3步骤3 风险分析-----------------------------------------------------------------------------------------------------------38 6.4步骤4 系统需求-----------------------------------------------------------------------------------------------------------39 6.5步骤5 系统需求分派-----------------------------------------------------------------------------------------------------43 6.6步骤6 设计和实施--------------------------------------------------------------------------------------------------------44 6.6步骤 7 制造-----------------------------------------------------------------------------------------------------------------46 6.6步骤 8 安装-----------------------------------------------------------------------------------------------------------------47 6.6步骤 9 系统确认-----------------------------------------------------------------------------------------------------------48 6.6步骤10 系统接受度-------------------------------------------------------------------------------------------------------50 6.6步骤11 操作和维护-------------------------------------------------------------------------------------------------------51 6.6步骤12 性能监视----------------------------------------------------------------------------------------------------------52

可靠性和可用性区别简介

可靠性和可用性区别简介可用性（Availability）是关于系统可供使用时间的描述，以丢失的时间为驱动（Be Driven By Lost Time）。可靠性（Reliability）是关于系统无失效时间间隔的描述，以发生的失效个数为驱动（Be Driven By Number of Failure）。两者都用百分数的形式来表示。在一般情况下，可用性不等于可靠性，只有在没有宕机和失效发生的理想状态下，两者才是一样的。 1可用性可用性最简单的表示形式是： A = Uptime / ( Uptime + Downtime ) 如果我们要讨论一年的可用性，公式的分母就必须至少是8760小时。固有可用性从设计的角度来看待可用性： A i = MTBF / ( MTBF + MTTR ) MTBF，mean time between failure MTTR，mean time to repair 或者 A i = MTTF / ( MTTF + MTTR ) MTTF，mean time to fail MTTR，mean time to replace 从上述公式可以看出。如果平均失效间隔时间（MTBF，mean time between failure）或平均失效前时间（MTTF，mean time to fail）远大于平均修复时间（MTTR，mean time to repair）或者平均恢复时间（MTTR，mean time to replace），那么可用性将很高。同样的，如果平均修复时间或平均恢复时间很小，那么可用性将很高。如果可靠性下降（比如MTTF变小），那么就需要提高可维护性（比如减小MTTR）才能达到同样的可用性。当然对于一定的可用性，可靠性增长了，可维护性也就不是那么重要了。所以我们可以在可靠性和可维护性之间做出平衡，来达到同样的可用性，但是这两个约束条件必须同步改进。如果系统操作中没有人为疏忽的发生，A i是我们可以观察到的最大的可用性了。在实际环境中，我们采用使用可用性公式。使用可用性公式考虑了人为影响的因素。 A0 = MTBM/ ( MTBM + MDT ) 平均维护间隔时间（MTBM，mean time between maintenance）包括所有纠正的和预防行为的时间（相比 MTBF 只关心失效发生时的维护更切合实际应用）。平均宕机时间（MDT，mean down time）包括所有跟宕机有关的纠正维护（CM，corrective maintenance）时间，MDT中包括了：（1）修复失效过程中如路途、材料等方面造成的延迟时间（相比 MTTR 只关注失效修复时间更切合实际应用）

可靠性可用性可维护性安全性 RAMS 定义解释

可靠性，可用性，可维护性，安全性 (RAMS)定义解释张屹2015年3月1日 1引言 “RAMS是可靠性（Reliability）、可用性（Availability）、可维修性（Maintainability）和安全性（Safety）这四个英文字母的首字母的缩写。可靠性：产品在规定的条件和规定的时间内，完成规定功能的能力。可用性：产品在任意随机时刻需要和开始执行任务时，处于可工作或可使用状态的程度。可维修性：产品在规定条件下和规定时间内，按规定的程序和方法进行维修时，保持或恢复到规定状态的能力。安全性：产品所具有的不导致人员伤亡、系统损坏、重大财产损失、不危害员工健康与环境的能力。” 以上是用自然语言描述的RAMS概念。为了使概念理解简单并且清晰一致，本文用公式和图形方式，从产品功能出发给出RAMS概念的形式化解释，给出相应的评价指标。 2产品功能人们对产品的需求，根本上是对产品功能的需求。产品功能的模型如下图所示， x y 图1 功能的数学模型人们当然期望产品功能——这个y=f(x)是恒定的，不随外部环境和时间等条件变化，但这在现实世界是不可能的，因此有了对产品性能的要求。下文的RAMS即属于产品性能的范畴。

3 RAMS 概念解释 3.1 R AM 图2 RAM 状态图由图2可见产品使用中只能处于两个状态： 1. y =f (x )的状态，这是人们所期望的，称为正常状态， 2. y ≠f (x )的状态，这是人们所不期望的，称为故障状态。处于正常状态时，如果产品发生失效，则会进入故障状态；处于故障状态时，如果产品得到恢复，则会进入正常状态。产品的RAM （可靠性、可用性和可维护性）即与这两个状态有关。假设外部条件一致并恒定的情况下：可靠性即是产品处于正常状态的能力；可用性即是产品处于正常状态占产品整个使用周期的比例；可维护性即是产品从回到正常状态的能力；其中“能力”是一个宽泛的概念，使用“持续时间”把它指标化，即“持续时间”就是“能力”。可靠性是产品处于正常状态的能力，也就是产品处于正常状态的持续时间。参见图3。正常故障正常正常故障失效失效恢复恢复图3 RAM 时间图得到了衡量RAM 的指标。可靠性：MTTF （平均失效前时间）=(T tf1+T tf2+…+ T tfn )/n 可用性：A= MTTF/MTBF; 其中，MTBF （平均失效间隔时间）=(T bf1+T bf2+…+ T bfn )/n 可维护性：MTTR （平均恢复前时间）=(T tr1+T tr2+…+ T trn )/n 可靠性也可使用失效率λ评价（对于恒定失效率，λ=1/MTTF ）。可维护性也可使用维护率μ评价（对于恒定维护率μ=1/MTTR ）。

文档之家

H3C CAS高可靠性和高可用性技术白皮书

可靠性概念1

可靠性术语

可靠性、有效性 、可维护性和安全性(RAMS)

H3C CAS高可靠性和高可用性技术白皮书

软件可靠性

可靠性与可用性

EN50126-1999 铁路应用—可靠性_可用性_可维护性和安全性

可靠性和可用性区别简介

可靠性 可用性 可维护性 安全性 RAMS 定义解释

可靠性、有效性、可维护性和安全性(RAMS)

可靠性可用性可维护性安全性 RAMS 定义解释