当前位置:文档之家› 冗余设计与容错设计

冗余设计与容错设计

冗余设计与容错设计

1.冗余与容错的概念

提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容

错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出

现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一

个规定功能。“容错”反映了产品或系统在发生故障情

况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。

从原理上讲,冗余作为容错设计的重要手段,其实施流

程和原则也同样适用与其他容错设计活动。

2.冗余设计

2.1.目的

冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象

(a) 通过提高质量和基本可靠性等方法不能满足任务可靠性

要求的功能通道或产品组成单元;

(b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元;

(c)影响任务成败的可靠性关键项目和薄弱环节;

(d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目;

(e)其他在设计中需要采用冗余设计的功能通道或产品组

成单元。

2.3 .适用时机

在设计/研制阶段的初期,与其他设计工作同步开展。

2.4 . 冗余设计方法

A)按照冗余使用的资源可划分为:

(a)硬件冗余:通过使用外加的元器件、电路、备份部件等对硬件进行冗余;

(b)数据/信息冗余:通过诸如检错及自动纠错的检校码、奇偶位等方式实现的数据和信息冗余;

(c)指令/执行冗余:通过诸如重复发送、执行某些指令或

程序段实现的指令/执行冗余;

(d)软件冗余:通过诸如增加备用程序段、并列采用不同

方式开发的程序等对软件进行冗余。

B)按照实施冗余的产品级别可划分为:部件冗余、系统冗余等。

C)按照冗余方法可划分为:

(a)静态冗余:只利用冗余的资源把故障的后果屏蔽掉,而不对原来的系统结构进行重新改变。此方法多用于电路或部件。

(b)动态冗余:在发现故障后,对有故障的部件或分系统进行切换或对系统进行重构或恢复。此方法多用于系统。(c)混合冗余:上述两种冗余方法的组合。

D)按照冗余系统的工作方式和各个单元的工作状态,冗余也可划分为:

(a)主动冗余(热储备/热备份):冗余系统中的各个单元同时工作,以保证在有限个单元故障时,该冗余系统仍然能够完成预定任务。主动冗余又可划分为并行冗余和表决冗余两类。

(b)备用冗余(冷储备/冷备份、温储备/温备份):执行任务时,冗余系统中只有一个单元工作,当该单元发生故障时,切换至其他的冗余单元,直至所有冗余单元都失效,该冗余系统才失效。备用冗余可划分为冷备份和温备份。

上述冗余方式分类如图

温储备/温备份图1 冗余方式分类

2.4.1.主动冗余

主动冗余(active redundancy)也称为工作冗余、热

储备或热备份,是指:执行规定功能的所有手段同时处于工作状态的冗余。主动冗余包括并行冗余和表决冗余两种方式。(1)并行冗余

并行冗余系统工作时,所有冗余单元均同时工作,并

提供相同的输出,仅当所有冗余单元均失效时,该冗余系统才失效。并行冗余系统中,在保证系统正常运行的前提下允许失效的单元个数称为该冗余系统的冗余度。图2给出了一个二度冗

余系统的可靠性框图示意。

(1)

式中:

n 为系统中单元数;

Rs 为系统可靠性;

R i 为第i 个单元的可靠性。∏=--=n i i s R R 1)1(1

A1

A2

An

……

k /n (G )图3 表决冗余系统可靠性框图示意

当采用相同冗余单元组成表决冗余系统时,表决器完全可靠,则其可靠性数学模型可表示为:

(2)

式中:

n 为系统中单元数;

Rs 为系统可靠性;

R 为单元可靠性。

∑=--=n k i i n i i n s R R C

R )1(

当采用不同冗余单元组成表决冗余系统时,其可靠性

数学模型不便用单一的通用公式描述。实际操作时可用全概率法计算系统的可靠性。例如对于2/3(G)的表决冗余系统,其可靠性可通过下式计算:

Rs=R1R2R3+(1-R1)R2R3+(1-R2)R1R3+(1-R3)R1R2

从其原理可以看出,在使用相同资源的条件下,并行

冗余比表决冗余提供更多的冗余度;但对于某些具有准确度、精度等要求的功能而言,表决冗余设计能够通过比较、判断,筛选掉异常或错误的输出,因而更能满足功能要求。在主动冗余中,并行冗余通常用于保证一个功能通道的工

作可靠性,而表决冗余通常用于保证多个功能通道。

A2

An

……

切换

环节图4 带切换的备用冗余系统

在备用冗余系统中,根据备份冗余单元的工作情况,又可分为冷备份和温备份。

执行任务时,冗余系统的不工作单元如果处于关闭状态(不加电状态),则称该冗余系统为冷备份系统;如果处于待机预热状态,则称该冗余系统为温备份系统。相对而言,温备份具有较快捷的启动或切换过程,切换过程对冗余系统工作的影响较小;冷备份中备份单元的工作应力更低,因此其不

工作状态下的可靠性较高。

2.4.

3.不同冗余类型的特点

各种冗余形式具有不同的特点。在工程应用中,应根据产品特点和可靠性要求,并在成本、重量、体积、资源消耗等方面进行权衡,最终确定应采用的冗余方式。不同冗余类型的特点及适用性汇总见表1所示。

同冷备份

同样存在切换薄弱环

节。相对冷备份,不

工作冗余单元的能耗

和应力较高切换过程相对冷备份冗余快捷,并可储存冗余备份单元寿命主份单元工作时,其余各冗余单元不工作但处于待机状态温备份有利于消除间歇故障,适用于允许输出间断或变化较大的功能有切换过程,需要增加切换环节,切换过程可能对系统工作产生影响,切换环节可

能构成薄弱环节

可储存冗余单元寿命主份单元工作时,其余各冗余单元不工作且处于关闭状

态冷备

份备用

冗余

2.6 .实施要点

进行冗余设计时,应注意以下几点:

(1)可以采用相同单元冗余,也可采用不同单元冗余

例如用两个螺栓连接一个法兰,如果有一个螺栓失效,法兰连接就不可靠。为了提高连接的可靠性,采用六个螺栓来连接这个法兰,即使有任何四个螺栓失效,这个法兰的连接还是可靠的。这是一个六中取二的表决冗余,即2/6(G)系统,这里有四个螺栓是冗余单元,均相同。

载人运载火箭在起飞至二级主机关机任务时段,具备自

动逃逸功能;同时还可以接受地面遥控指令实施逃逸。这

是不同功能单元冗余的例子。

(2)冗余虽然能提高任务可靠性,但降低了基本可靠性例如一个系统由三个相同单元构成可靠性并联系统,设每个单元可靠性为0.9,则并联系统的任务可靠性为

0.999;而该系统基本可靠性按串联模型计算为0.729。比

较可见,任务可靠性从0.9提高至0.999,但基本可靠性则从0.9降至0.729,任务可靠性提高了,但单元从一个变为三个,成本、重量、体积、功耗等大大增加了,且基本可靠性降低了,意味着维修工作量增大了,从而维修费用负担增加了。由此可见,是否要采用冗余,采用什么样的冗余,需要看获得的效益与付出的代价相比是否值得来定。

冗余技术是一种优化技术,它是指在费用、重量、体积、功耗等因素限制条件下,如何配置冗余单元使系统任务可

靠性达到最大;或者在达到可靠性指标要求下使耗用的资

源最少。

图6 二极管电路可靠性框图

可用性设计原则

可用性设计原则 文档修改记录

启发式评估原则?错误!未定义书签。 可学习性................................................. 错误!未定义书签。 1.可见性................................................ 错误!未定义书签。 刺激强度?错误!未定义书签。 ?模式?错误!未定义书签。 反馈.................................................. 错误!未定义书签。 识别.................................................. 错误!未定义书签。 定位?错误!未定义书签。 2.可预见性.............................................. 错误!未定义书签。?一致性和正确性?错误!未定义书签。 ?惯例 ................................................. 错误!未定义书签。?熟悉度 ............................................... 错误!未定义书签。?布局?错误!未定义书签。 模式?错误!未定义书签。 3.?映射与启示性 ........................................ 错误!未定义书签。4.真实性?错误!未定义书签。 5.?帮助性 ............................................... 错误!未定义书签。有效性?错误!未定义书签。 1.?效用 ................................................ 错误!未定义书签。?用户控制原则 ......................................... 错误!未定义书签。 操作与目标相符原则.................................... 错误!未定义书签。 正确的功能与复杂度平衡原则............................ 错误!未定义书签。2.?容错性(安全性)?错误!未定义书签。 避免出错原则?错误!未定义书签。 ?错误恢复原则 ......................................... 错误!未定义书签。?用户控制和自由——清楚的标识退出 ..................... 错误!未定义书签。 3.?稳定性?错误!未定义书签。 高效性(效率)?错误!未定义书签。 4.?简洁性?错误!未定义书签。 ?去除界面冗余元素原则?错误!未定义书签。 80/20原则.......................................... 错误!未定义书签。?满意度原则?错误!未定义书签。 ?渐进原则?错误!未定义书签。 合理约束原则?错误!未定义书签。 5.?快捷性?错误!未定义书签。 6.可记忆性.............................................. 错误!未定义书签。 7.灵活性................................................ 错误!未定义书签。满意度?错误!未定义书签。

Stratus (美国容错)ftServer -“最可靠的 计算机系统”

Stratus ftServer –世界上最可靠的计算机系统 一.Sales points ftServer采用Stratus Technologies,Inc(美国容错技术公司)30年的可靠性设计技术,在Intel的IA架构上推出的具有无可匹敌的稳定性的计算机运行平台。同时得益于Intel Xeon 多核芯片技术的强大处理能力,保障用户对运算能力需求。 容错— Fault Tolerance 设计方案(永不停顿方案) 在计算机系统的设备或某一部件出现故障的情况下,计算机系统仍能保持程序的正确运行,并给出正确结果。可靠性达到99.999或以上。 高可用性-High Availability 设计方案(故障恢复方案) 采用内部冗余的计算机或部件,通过硬件组合软件的方法,在运行模块(服务器主机)出现问题时,通过另外备用的模块或机器来恢复原来的程序运行。可靠性达到99.9或99.99。 “真正”容错服务器– ftServer 1)通过芯片和高效的容错技术设计,在一个或多个不同设备产生故障的情况下,系统运行稳如泰山; 2)像单机一样的使用和管理环境,极大降低IT部署,操作和维护难度; 3)全部在线维护故障设备,系统不会停止运行。 二.ftServer 体系结构(DMR双模设计)

三.Stratus (美国容错)ftServer的技术特点及优势 1) Stratus ftServer 采用全冗余的部件级别容错技术设计,使得整台服务器的任何部件不会出现单点故障。 2) ftServer采用Stratus独有的时钟同步(lock step)专利技术,让整台服务器时刻在双工状态下运行,为你提供业界具有最高可靠性的计算机运行平台。 3) ftServer的独特技术设计,使得整套系统变成一个像单机一样的平台,操作系统和应用软件的使用就像单机,安装,维护,使用简单;应用部署快捷,简便。 4) ftServer提供整套系统所有主要部件的联机更换。 包括CPU, 内存,I/O控制器,主板,磁盘,网卡,电源等。更换部件自动 回复同步,无需太多人工干预;应用系统不会产生任何切换,动态运算数据 和静态磁盘数据完整保护,绝无丢失。 5) ftServer提供状态指示灯和图形化的状态管理,机器运行状态一目了然。 6) ftServer可以提供联机的实时故障自动报告,并可提供随时的强有力的远程服务支持,让你使用更加放心。 7) ftServer采用开放式平台设计架构,支持Windows,Redhat Linux, VMWare等主要操作系统应用平台,应用程序方案简单,不需要为在操作系统之上复杂的高可用设计方案付出额外的软件和维护成本。 8) Stratus ftServer是为用户的生产、IT运行环境中提供安全为稳定运行环境的理想选择。

冗余设计与容错设计

冗余设计与容错设计 1.冗余与容错的概念 提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容 错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出 现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一 个规定功能。“容错”反映了产品或系统在发生故障情 况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。 从原理上讲,冗余作为容错设计的重要手段,其实施流 程和原则也同样适用与其他容错设计活动。

2.冗余设计 2.1.目的 冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象 (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性 要求的功能通道或产品组成单元; (b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元; (c)影响任务成败的可靠性关键项目和薄弱环节; (d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目; (e)其他在设计中需要采用冗余设计的功能通道或产品组 成单元。

容错关键技术

容错关键技术 一个容错系统包含四个要素:首先是故障检测,这是容错系统必不可少的环节,其他环节以此为基础;其次是对出现的故障所造成的影响进行评估并限制其进一步传播;最后是对确定为不可恢复的故障进行处理。 容错的基本步骤概括起来是故障检测→处理故障→系统恢复。 防止故障造成系统失效有两种基本技术:即是故障掩蔽技术和系统重组技术。 故障掩蔽是防止故障造成差错的各种技术,换句话说要将发生的故障隐蔽起来。这类技术不要求在容忍故障前检测故障,但要求做到故障包容。故障包容是指使故障的影响局部化,不希望一个故障全局地影响整个系统的性能。在故障效应达到模块的输出之前,通过隔离或校正来消除它们的影响,从而达到容错的目的。 掩蔽技术不改变系统的结构,即系统部件的逻辑关系相对固定,因此掩蔽技术又称静态冗余技术。当掩蔽冗余因模块中的故障而耗尽时,再发生故障就会在输出产生错误。 系统重组是防止差错导致系统失效的各种技术。系统重组技术首先做到故障检测,然后做到故障定位,最后做到系统恢复。 系统重组技术称动态冗余技术。 故障掩蔽技术及系统重组技术是达到容错的两种基本途径。而它们又建立在资源冗余的基础上的。资源冗余主要有两种基本形式:硬件冗余和软件冗余。 1、硬件冗余 实时系统中应用最广泛的冗余形式是硬件的物理重复。随着半导体元件体积的缩小及成本的下降,硬件冗余成为更实用的一种冗余方法。硬件冗余有两种形式:被动冗余和主动冗余。 被动硬件冗余又称静态硬件冗余,是指冗余结构并不随故障情况的变化的冗余的形式。被动硬件冗余应用了故障掩蔽的概念,将发生的故障隐蔽起来,防止故障造成差错。被动硬件冗余的基本机理是通过多数表决隐蔽发生的故障。这种冗余方法一般用于多机系统。 主动硬件冗余又称动态硬件冗余,是通过故障检测,故障定位及系统恢复来

计算机容错技术课后习题

第1章绪论 1、为什么说可靠度高的系统其安全度必然高,但安全度高的系统其可靠度不一定高? 答:可靠度:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的~,记为R(t)。 安全度:设在时刻t0系统正常运行,则系统在时刻t的安全度S(t)指系统在[t0 ,t]内正常运行的条件概率加上系统在时刻t处于失效安全状态的条件概率,即S(t) = R(t) +FS(t)。 由二者的定义可以看出,当R(t)的值越大,即可靠度越高,且FS(t)值一定时,S(t) = R(t) +FS(t)的值必定会越大,即安全度会很高;反之,安全度高的系统是由R(t)和FS(t)两项参数共同决定的,R(t)的值可以是一个定值,而FS(t)的值可以取一个较高值时,可以满足高可靠度的要求。 2、可靠度高的系统是否可用度一定高?可用度高的系统是否可靠度一定高,为什么? 答:设在时刻t0系统正常运行,则系统在整个时间区间[t0 ,t]内正常运行的条件概率,称为系统在时刻t的可靠度,记为R(t)。系统在时刻t的可用度:指系统在该时刻正确执行其功能的概率,记为A(t),瞬时可用度。系统处于稳定状态时,其可用度不再随时间变化,称为稳态可用度,记为Ass。 可靠度高的系统,可用度一定高,而可用度高的系统,可靠度不一定高。 注意:可用度与可靠度的区别,可用度只考虑时刻t系统正确执行功能的概率,并不关心时刻t以前系统是否发生过时效。而可靠度则要考虑在整个时间区间【t0,t】内系统正常运行的概率。 3、系统可维度是如何影响系统的可用度的,试用公式予以说明。 答:系统的可维度M(t)是指系统失效后,在时间间隔t=Tf内被修复的概率。可用度A=T0/(T0+Tf),T0:正常运行时间,系统完成功能的时间。Tf:故障时间,故障修理时间之和。 4、实现冗余有哪几种方式? 答:(1)硬件冗余:应用附加硬件来实现故障检测及容错:典型的列子如双机比较系统,三模表决系统等。 (2)软件冗余:应用附加软件来实现故障检测及容错。典型例子如故障诊断程

关于计算机服务器系统的容错技术

关于计算机服务器系统的容错技术 摘要随着时代的发展,信息技术的进步,计算机已经逐渐的成为了各行各业中不可取代的一部分,我国对于计算机技术的应用也十分的广泛。其中,计算机服务器系统是计算机中十分重要的一个技术,能够为国防、医疗以及金融等各个行业为计算机系统提供不间断的服务,如果它出现问题那么会造成十分严重的损失,因此应该对于计算机服务器系统的容错技术进行足够的重视并且对其进行进一步的发展。本文主要对其进行了详细的阐述。 关键词计算机服务器系统容错技术 中图分类号:TP302.8 文献标识码:A 1容错必要性 随着计算机技术的普及,通过计算机系统来进行信息的传输并提供服务逐渐应用的越来越广泛,但是计算机的软硬件都有可能会发生故障,这些故障如果没有及时的进行解决很容易造成巨大的损失,甚至会造成整个服务的终止网络也会因此而瘫痪,因此产生难以估量的损失。因此,系统的容错性以及不间断的性质显得尤为重要,为了能够更好地保证系统安全、可靠地运行,必须要采取一定的措施来保证计算机系统能够在出现故障的时候已然可以正常的使用。经过人

们地长时间的研究,总结出来了两种方法,一种叫做避错,就是使用正确的设计并且进行相应的质量控制尽可能的避免系统产生错误,防止将错误引进系统之中,但是在实际的运行中难免会产生一些意料之外的事情,因此这种方法在实施起来有着很大的难度。另外一种就是容错,在系统中出现了某些硬件或者软件的错误的时候,系统能够执行规定的一组程序,或者说这种程序不会因为系统的故障而被中断或者在中途被修改,且其执行的结果也不包含系统中的故障引起的差错。 随着科技的不断发展,计算机技术的逐渐普及,设备的安全性以及可靠性逐渐的引起了越来越多的人的重视,因此计算机服务器系统的容错技术十分重要。当系统的内部出现故障的时候,通过容错技术能够消除故障产生的影响并且使系统最终仍然能够给出正确的结果。按照时间进行故障的划分,故障可以分为以下几种类型:永久性的故障、间歇性的故障以及偶然性的故障。随着计算机的硬件技术的不断发展,容错计算机的系统开销逐渐的降低,同时纠错的速度变得越来越快。而软件方面的容错,对于硬件不会提出过高的要求。 2容错技术概述 容错指的是计算机系统的一个或者多个关键的部件发生故障或者将要发生故障的时候,仍然能够保持正常的工作

容错控制简介

1.2容错技术简介 容错控制及其系统组成 容错控制的发展及研究现状 1.2.1容错控制的概念和任务 容错概念最初来源于计算机系统设计领域,是指系统内部环节发生局部故障或失效情况下,计算机系统仍能继续正常运行的一种特性。后来人们逐渐把容错的概念引入到控制系统,这样人们虽然无法保证控制系统每个环节的绝对可靠,但是构成容错控制系统后,可以使系统中的各个故障因素对控制性能的影响被显著削弱,从而间接地提高了控制系统的可靠性。特别是控制系统的重要部件的可靠度未知时,容错技术更是在系统设计阶段保证系统可靠性的必要手段。 容错控制的指导思想是在基于一个控制系统迟早会发生故障的前提下,在设计控制系统初期时就将可能发生的故障对系统的稳定性及静态和动态性能影响考虑在内。最简单的情况,如果传感器或执行器发生故障,在故障后不改变控制律的情况下,如何来维持系统的稳定性就是控制器设计过程中值得注意的问题。在容错控制技术中,这种问题属于完整性控制的范畴。 在某种程度上,容错控制系统是指具有内部冗余(硬件冗余、解析冗余、功能冗余和参数冗余等)能力的控制系统,即在某些部件(执行器、传感器或元部件)发生故障的情况下,闭环系统仍然能保持稳定,并在原定性能指标或性能指标有所降低但可接受的条件下,安全地完成控制任务,并具有较理想的特性。动态系统的容错控制是伴随着基于解析冗余的故障诊断技术的发展而发展起来的。 1.2.2容错控制的现状研究 容错控制系统的基本结构为:传感器、故障检测与诊断子系统、执行器和控制器。其中,故障检测与诊断子系统能够对控制系统进行实时故障监测与辨识等;控制器则根据故障诊断信息作出相应的处理,实施新的容错控制策略,保证系统在故障状态下仍能获得良好的控制效果。在实际控制系统中,各个基本环节都有可能发生故障。 容错控制系统有多种分类方法,如按系统分为线性系统容错控制和非线性系统容错控制,确定性系统容错控制和随机系统容错控制等;按克服故障部件分类为执行器故障容错控制,传感器故障容错控制,控制器故障容错控制和部件故障容错控制等;按控制对象不同分为基于硬件冗余和解析冗余的容错控制分类。一般,为了全面反映容错控制系统的特性,常将上述各种分类方法组合运用。 1.硬件冗余方法 硬件冗余是指对系统的重要部件及易发生故障部件设置各种备份,当系统内某部件发生故障时,对故障部分进行隔离或自动更换,使系统正常工作不受故障元器件的影响,保证系统的容错性能。硬件冗余方法根据备份部件是否参与系统工作可分为静态硬件冗余和动态硬件冗余。 l)静态硬件冗余:并联多个相同的组件,当其中某几个发生故障时并不影响其它组件的正常工作。 2)动态硬件冗余:在系统中不接入备份组件,只有在原组件发生故障后,才把输入和输出端转接到备份组件上来,同时切断故障组件的输入和输出端,即运行模块的失效,备用模块代替运行模块工作。系统应该具有自动发现故障的能力与自动转接设备。 硬件冗余方法可以用于任何硬件环节失效的容错控制,建立起来的控制系统将具有较强

容错与冗余技术(DOC)

容错与冗余技术 容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。 而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。 1.1 容错概念的提出 提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。 利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。 容错控制技术在国外发展的比较早,是由冯·诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。 我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。 所谓容错:就是容许错误,是指设备的一个或多个关键部分法生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。 错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误

需对其拆除、更换或修正,是不能容忍的。第二类的错后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。 容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。 1.1.1 智能容错的定义 智能容错IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。 智能容错技术的构成方法可以采用以下三步来实现: (1)建立系统的设计目标; (2)设计智能容错处理机构; (3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。 硬件智能容错HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。图1 所示为二冗余结构原理图:

容错性设计

容错性设计 交互设计IXD, 博客blog, 用户体验UE, by 张雅秋. 即便你的产品90%的时间都运行良好。但是如果在用户需要帮助时置之不理,他们是不会忘 记这一点的。——《getting real》 我们有时候不能不面对产品出错的时候。无论设计得多么用心,无论做了多少测试,用户仍然会遇到错误和问题。既然出错不可避免,那么如何进行容错性设计才是关键。 容错性设计就是当错误发生时,人们看到的界面。 就像对付不该发生的错误一样,容错性设计的关键在于“做好防御”。产品设计者们必须不断寻找可能造成用户困惑和不满的出错点。好的防御性设计决定用户体验的好坏。 举个例子: 有没有人注意过进入银行ATM机可以有多少种刷卡方式。答案是八种!而正确进入方式只有 一种方式。 如何从设计上避免用户出错,限制是一种非常必要的方式。 限制用户某些交互操作

SIM卡如果做成一个倒角避免了长方形带来多种插入方式的错误。 三项插座和相应插孔的匹配避免了用户使用两项或其他插座错误的可能。 置灰是界面上限制某些操作的好方式。 Flickr的照片上传wizard,防止用户跳过第一步直接进入后面操作,采用置灰的方式。一方面告诉用户这可以进行当前操作,另一方面预示后面还有哪样的操作。 其次,减少认知困惑也很重要。 减少用户认知混淆

根据已订阅和未订阅的不同,订阅button和退订进行视觉上明显的区分,避免错误操作。合理利用系统反馈 如果错误不可避免的发生了,合理恰当的提示可以减少用户的挫败感。 1、提前提示某些操作可能引起错误。 在输入密码需要区分大小写时,caps lock键打开下作出提示以免出错。 2、防止用户错误,操作后提示确认。 在用户点击发送后提示没有输入主题信息,防止用户直接发送无主题邮件。

计算机冗余容错

计算机冗余容错 fault-tolerant computer rongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性; 另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。冗余技术是容错计算机中容错技术的基础。冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。 最常用的硬件冗余是硬件的重复。硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。被动冗余技术中使用最广的是三模元余TM[R。TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。多数表决器的表决原则是三中取二。也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。三模冗余的关键是多数表决器本身的可靠性问题。提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。这种系统通常被称为带三重多数表决器的三模冗余系统。除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。主动冗余技术中

容错服务器技术vs双机冗余

容错服务器技术vs双机冗余 2009-05-21 来自:网界网作者:宋家雨收藏 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术

计算机数据库以及系统容错性处理

龙源期刊网 https://www.doczj.com/doc/357846493.html, 计算机数据库以及系统容错性处理 作者:洪雄 来源:《科教导刊·电子版》2018年第07期 摘要计算机在现在的生活中是非常普遍存在的事物,也是我们的生活工作所必需的,计算机是一个多种先进技术结合的产物,计算机中的很多应用对于其他领域来说,会有很大的借鉴意义。计算机的图形处理技术是一种很复杂的技术应用,在数据计算领域的应用,是此技术的一种有效利用,同时对于数据计算来说,也是一种有益的借鉴来源,二者在一定程度上,可以说是有效的结合使用,相互促进,相互提高。本文通过对计算机交互式的图形技术的分析,引出可视化技术在数据的挖掘中所起到的重要作用,进而阐述交互式技术在计算机的图形处理中的重要作用。 关键词计算机算法数据计算可视化 中图分类号:TP302 文献标识码:A 0引言 几年来,计算机的图形处理技术越来越频繁的被人们应用于其他的领域,也是现在这个科学技术非常发达的社会的一种形势所在。现代一种相对比较常见的数据的可视化技术,指的就是运用计算机的图形学和图像处理的技术,把数据转化为可以被识别的图像或者图形,进而可以在显示器的屏幕上显示出来,被看见的使用者所理解和接受,同时还要进行交互处理的技术。这样一种技术涉及的技术和领域比较广泛,计算机的图形学、图像处理技术、计算机设计、计算机视觉技术、人机交互技术等,多个领域的结合才是一种比较实用的技术。今年以来,随着网络科学技术和网上电子商务技术的发展,在以往科学计算可视化的基础之上,出现了信息可视化的概念,并且逐渐在吸引人们的眼球,成为科学技术领域研究的焦点问题。我们都知道,“可视化”就是使之可见,可以被看见,就是可视化的最基本的含义,那么,数据在挖掘过程中,很多活动都可以被认为是可视化,利用可视化的技术进行信息的传递、知识的发现等。 1计算机服务器系统容错系统的概述 我们所说的计算机故障,指的是由于计算机不见的物理实现、操作错误或者是设计错误等原因引起的计算机系统硬件或者是软件错误的状态。故障的诊断、检测和恢复技术主要是作为计算机容错技术的重要组成部分,如果计算机系统要进行故障恢复的操作,首先就要进行检测、诊断的技术来对故障所处的位置进行定位。作为恢复的前提,我们还应该在恢复技术的作用下使得计算机系统能够恢复到无故障时候的状态并且开始正常工作。当前运用的计算机容错技术最基本的方法是冗余技术,而硬件冗余、软件冗余、信息冗余以及时间冗余技术是作为冗余技术的四个主要组成部分。

冗余与双机热备

冗余与双机热备 冗余: 指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间 Redundan,自动备援,即当某一设备发生损坏时,它可以自动作为后备式设备替代该设备。 冗余系统配件主要有: 电源:高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担所有的负载。有些服务器系统实现了DC的冗余,另一些服务器产品如 Micron公司的NetFRAME 9000实现了AC、DC的全冗余。 存储子系统:存储子系统是整个服务器系统中最容易发生故障的地方。以下几种方法可以实现该子系统的冗余。磁盘镜像:将相同的数据分别写入两个磁盘中。磁盘双联:为镜像磁盘增加了一个I/O控制器,就形成了磁盘双联,使总线争用情况得到改善; RAID:廉价冗余磁盘阵列(Redundant array of inexpensive disks)的缩写。顾名思义,它由几个磁盘组成,通过一个控制器协调运动机制使单个数据流依次写入这几个磁盘中。RAID3系统由5个磁盘构成,其中4 个磁盘存储数据,1个磁盘存储校验信息。如果一个磁盘发生故障,可以在线更换故障盘,并通过另3个磁盘和校验盘重新创建新盘上的数据。RAID5将校验信息分布在5个磁盘上,这样可更换任一磁盘,其余与RAID3相同。 I/O卡:对服务器来说,主要指网卡和硬盘控制卡的冗余。网卡冗余是在服务器中插上双网卡。冗余网卡技术原为大型机及中型机上的技术,现在也逐渐被PC服务器所拥有。PC服务器如 Micron公司的NetFRAME9200最多实现4个网卡的冗余,这4个网卡各承担25%的网络流量。康柏公司的所有 ProSignia/Proliant服务器都具有容错冗余双网卡。 PCI总线:代表Micron公司最高技术水平的产品NetFRAME 9200采用三重对等PCI 技术,优化PCI总线的带宽,提升硬盘、网卡等高速设备的数据传输速度。 CPU:系统中主处理器并不会经常出现故障,但对称多处理器(SMP)能让多个CPU 分担工作以提供某种程度的容错。 双机热备: 所谓双机热备就是使用互为备份的两台服务器共同执行同一服务,其中一台主机为工作机(Primary Server),另一台主机为备份机(Standby Server)。在系统正常情况下,工作机为应用系统提供服务,备份机监视工作机的运行情况(工作机同时也在检测备份机是否正常),当工作机出现异常,不能支持应用系统运

可容错的微服务架构设计

可容错的微服务架构设计 微服务架构可以通过明确定义的服务边界来隔离故障。但是像在每个分布式系统中一样,发生网络、硬件、应用级别的错误都是很常见的。由于服务依赖关系,任何组件可能暂时无法提供服务。为了尽量减少部分中断的影响,我们需要构建容错服务,来优雅地处理这些中断的响应结果。 本文介绍了基于RisingStack 的Node.js 咨询和开发经验构建和操作高可用性微服务系统的最常见技术和架构模式。 如果你不熟悉本文中的模式,那并不一定意味着你做错了。建立可靠的系统总是会带来额外的成本。 微服务架构的风险 微服务架构将应用程序逻辑移动到服务,并使用网络层在它们之间进行通信。这种通过网络间通信代替单应用程序内调用的做法,会带来额外的延迟,以及需要协调多个物理和逻辑组件的系统复杂度。分布式系统的复杂性增加也将导致更高的网络故障率。 微服务体系结构的最大优势之一是,团队可以独立设计,开发和部署他们的服务。他们对服务的生命周期拥有完全的所有权。这也意味着团队无法控制他们依赖的服务,因为它更有可能由不同的团队管理。使用微服务架构,我们需要记住,提供者服务可能会临时不可用,由于其他人员发行的错误版本,配置以及其他更改等。 优雅的服务降级 微服务架构的最大优点之一是您可以隔离故障,并在当组件单独故障时,进行优雅的服务降级。例如,在中断期间,照片共享应用程序中的客户可能无法上传新图片,但仍可以浏览,编辑和共享其现有照片。

微服务容错隔离 在大多数情况下,由于分布式系统中的应用程序相互依赖,因此很难实现这种优雅的服务降级,您需要应用几种故障转移的逻辑(其中一些将在本文后面介绍),以为暂时的故障和中断做准备。 服务间彼此依赖,再没有故障转移逻辑下,服务全部失败。 变更管理

容错服务器技术vs双机冗余

容错之"错" 容错服务器技术vs双机冗余 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9 的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术 美国容错公司技术顾问高峰在接受记者采访时表示,容错服务器的技术并不难理解,计算机自诞生之日起,其系统结构并没有发生任何改变,仍然是冯诺依曼教授所提出的由运算器(CA)、控制器(CC)、存储器M和输入/输出装置所组成,而容错服务器的思路就是把所

分布式系统中容错技术导论

收稿日期:2004 07 14 作者简介:刘俊丽(1972 ),女,毕业于黑龙江大学计算数学及其应用软件专业,黑龙江省黑河学院计算机系讲师,从事计算机教学工作。 分布式系统中容错技术导论 刘俊丽 (齐齐哈尔大学黑河学院,齐齐哈尔164300) 摘 要 本文讲述的是分布计算系统出现部分失效的时候,系统应该能自动从失效中恢复过来,并且不会对整个系统的性能产生严重的影响。 关键词 分布式系统;故障;失效;容错 Abstract The article is abou t the fault tolerance that the system can recover from the crash automatically and won t have a serious influence on the function of the whole system. Key words the distribu ted system;the crash;the failure;the fault tolerance 中图分类号 TP392 文献标识码 A 文章编号 1008-0821(2004)10-0223-03 分布计算系统区别于单机系统的一个特点是在分布式系统中存在着部分失效的情况。当分布式系统某个部件出现问题的时候就发生了部分失效。虽然部分失效对分布式系统的性能有一定的影响,但同时,它应该不会影响分布式系统中整个应用程序的正确执行。相反,在单机系统中,如果系统中的一个关键部件出现问题,整个应用程序就无法继续执行。 分布计算系统的一个重要设计目标是当系统中出现部分失效的时候,系统应该能自动从失效中恢复过来,并且不会对整个系统的性能产生严重的影响。故此在这里我们讨论分布计算系统中的容错技术。 容错是计算机科学中一个重要的研究领域。首先介绍与故障处理有关的一些基本概念和分布计算系统中的故障模型。关于分布计算系统中容错的一些非常有用而详细的介绍可以参见文献[J ALOTE,1994]。 1 基本概念 分布计算系统应该是一个可信赖的系统(dependable system),容错是与可信赖系统紧密相联系的一个概念。分布计算系统的可信赖性(dependability )包括如下几个方面[KOPETZ,1993]: 1 1 可用性(availability) 可用性反映的是系统随时可被用户使用的特性。也就是说,在任何给定的时刻用户都可以使用此系统正确地执行用户给定的任务。 1 2 可靠性(reliability) 可靠性指的是在错误存在的情况下,系统持续服务的能力。尽管可靠性和可用性容易混淆,但它们并不是同一个概念。可靠性反映的是一段时间的特性,而可用性反映的是某个时刻的特性。高可靠性系统能够持续运行一个相当长的时间而不会中断。如果一个系统,每个小时都有并 且仅有1毫秒时间失效,那么它的可用性可达99 9999%,但是它仍然是一个高度不可靠的系统。同样地,如果一个系统从来不崩溃,但是在8月份中,有2个星期的假期需要关机,这个系统是高可靠性的系统,但是它的可用性只有96%。 1 3 安全性(safety) 安全性指的是在系统出现暂时错误的情况下,不出现灾难性后果的能力。例如核电厂的控制系统和宇宙飞船的控制系统要求具有很高的安全性。 1 4 可维护性(maintainability) 可维护性指的是系统一旦出现故障,系统易于修复的能力。高可维护性的系统意味着具有高的可用性。对于高可维护性系统来说,要求它具有自动检测错误和自动修复的能力。 1 5 保密性(security) 保密性要求系统资源不被非法用户访问。 系统失效指的是系统不能提供它所固有的服务功能。例如,分布式系统是为用户提供一系列服务的,但其中某一个服务或某些服务功能不能完全正确提供时,就说系统失效了。 一般来说,从错误的时间特性来看,错误可分为暂时性的(transient)、间歇性的(intermittent)和永久性的(per manent)。暂时性的错误一旦发生之后就会消失,当相关的操作重复执行之后,错误就消失了。间歇性的错误是一会儿出现,一会儿又消失的错误,这种错误是十分令人烦恼的一种错误,因为它十分难于诊断。永久性错误是一种持续性错误,这种错误一旦出现,将会长时间存在,直到出现错误的部件被修复为止。像集成芯片被烧坏、软件缺陷、磁盘磁头损坏等都是永久性错误。 223 2004年10月第10期October 2004No .10 现代情报 情报纵横

计算机网络安全容错技术解析

4 计算机网络安全课程设计 容错技术浅析 班级: 学号: 姓名: 分数: 2013年12月16日

容错技术浅析 摘要:计算机技术的发展是日新月异的,与此同时计算机系统的可靠性越来越受到人们的重视,而容错技术是提高可靠性的一种有效方法。本文首先阐述了计算机容错技术的历史和概念,而后还展示了两种容错技术的完成方法和现如今运用于网络上的容错技术产品,最后简要的概括了容错技术未来的发展趋势。 关键字:容错技术、冗余、磁盘镜像 1 引言 性能、价格和可靠性是评价一个网络的三大要素,为了提高网络系统上午高可靠性,人们进行了长期的研究,并总结了两种方法。一种叫做避错,即采用正确的设计和质量控制尽量避免把故障引进系统,但实际上这是不可能的。还有一种方法就是容错,所谓容错是指当系统出现某些指定的硬件或软件的错误时,系统能执行规定的一组程序,或者说程序不会因系统中的故障而中断或被修改,并且执行结果也不包含系统中故障引起的差错。随着现代工业技术的发展和计算机的普及,工业设备运行的安全性和可靠性越来越引起人们的重视,为了保证其安全、高效和可靠地运行,必须采用与之相适应的管理模式,容错技术为计算机系统提供了这样的能力:当计算机内部出现故障的情况下,计算机系统仍能正确工作。计算机容错技术是计算机系统可靠性提高的重要手段。

2 容错技术的历史 上世纪80年代,第一代容错技术就开始进入商用领域。美国Stratus(容错公司)在Stratus 独特的硬件级容错技术及VOS专有操作系统环境下,采用了Motorola M68000处理器。 1993年,英特尔I860处理器在Stratus的硬件级容错体系结构中成功应用,在软件环境方面,还能满足业界对开放性要求的Unix操作系统FTX,即AT&T UNIX SVR4。 1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA-RISC对称多处理技术。 进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA 服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。另一方面,企业越来越依赖信息系统来完成关键业务的应用,同时他们不可能配备更多的专业人员来进行专职维护。双机热备、集群服务器遇到难题。 如今,NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性达到了99.999%,这种实时保护技术来源于STRATUS连续处理技术(Fundamentals of Continuous Pro-cessing Design),包括LOCKSTEP 技术,安全故障(FAILSAFE)软件激活服务(ACTIVE SERVICE )。

相关主题
文本预览
相关文档 最新文档