存储容错

格式：doc
大小：53.50 KB
文档页数：6

下载文档原格式

/ 6

电容管容错率计算公式

电容管容错率计算公式
在电子设备中，电容管是一种常见的元件，用于存储电荷和调节电路的电压。

在实际应用中，电容管的容错率是一个非常重要的参数，它决定了电容管在工作过程中的稳定性和可靠性。

因此，了解和计算电容管的容错率是非常必要的。

电容管的容错率通常用百分比表示，它表示电容管在工作过程中的误差范围。

容错率越小，表示电容管的精度越高，反之则表示精度较低。

在实际应用中，通常会根据电路的要求选择不同容错率的电容管，以保证电路的稳定性和可靠性。

电容管的容错率计算公式如下：
容错率 = |测量值标称值| / 标称值 100%。

其中，测量值表示实际测量得到的电容管的数值，标称值表示电容管的标称数值。

通过这个公式，我们可以计算出电容管的容错率，从而评估电容管的精度和稳定性。

在实际应用中，电容管的容错率受到多种因素的影响，包括制造工艺、材料质量、环境温度等。

因此，在选择电容管时，需要综合考虑这些因素，以确保选择到合适的电容管，满足电路的要求。

除了计算电容管的容错率外，还可以通过一些测试方法来评估电容管的性能，比如频率特性测试、温度特性测试等。

通过这些测试，可以更全面地了解电容管的性能，从而选择到更合适的电容管。

总之，电容管的容错率是一个重要的参数，它直接影响着电路的稳定性和可靠性。

通过计算和评估电容管的容错率，可以选择到合适的电容管，保证电路的正常工作。

希望本文的介绍对大家有所帮助，谢谢阅读！。

常用容错及冗余机制

4 常用容错及冗余机制
4.2.4双机容错软件在双机容错系统的工作中，双机软件是必不可少的。一切故障的诊断，服务的切换，硬件的控制都由双机软件来控制实现。同时为了使双机系统对外象一个单主机系统一样，双机软件还可以为双机系统生成系统虚拟IP对外工作，客户机通过虚拟IP访问双机系统。这样就避免了服务切换后主机IP 地址改变导致客户机无法连通的问题。并且双机软件还可以控制两台服务器对共享磁盘子系统的访问同一时刻只能有一台主机可以对其访问，避免了同时访问可能造成的数据破坏。双机软件通过侦测网卡或两台服务器之间互连的串口线进行两台主机的状态诊断，一旦工作的主机出现问题，如数据库服务器出现操作系统挂起、死机、网卡坏、硬盘控制器坏等等，双机软件控制备份机接管系统的虚拟IP和共享磁盘子系统的控制权并启动备份机上的服务对外工作，保证系统的实时性和可靠性。
4 常用容错及冗余机制
2、双工模式在双工模式下双机系统对外提供两个服务（例如：应用服务和数据库服务）。两台服务器都安装了应用服务和数据库服务软件,数据库的数据存在共享盘中。在正常情况下,一台服务器只起应用服务,未起数据库服务,对客户端的应用请求进行处理;另一台服务器只起数据库服务,不起应用服务,对共享盘拥有控制权并对共享盘中的数据进行存取, 提供数据库服务.当其中任何一台服务器出现问题，如数据库服务器出现操作系统挂起、死机、网卡坏、硬盘控制器坏等等。这时，另一台服务器将出问题的服务器上的任务接管，此时，这台服务器同时提供应用服务和数据库服务, 客户端就可继续进行对服务器的业务请求，保证业务的继续进行。在出问题的服务器恢复正常后，又可选择适当时间切换到正常操作状态，以保证整体性能。
双机软件通过侦测网卡或两台服务器之间互连的串口线进行两台主机的状态诊断一旦工作的主机出现问题如数据库服务器出现操作系统挂起死机网卡坏硬盘控制器坏等等双机软件控制备份机接管系统的虚拟ip和共享磁盘子系统的控制权并启动备份机上的服务对外工作保证系统的实时性和可靠性

计算机容错技术在非编网存储系统中的应用

因而无法使用诊断程序．它又有重复但
技术也因此应运而生视频编辑网络系服务器做管理的分离式计算机网络系
有以下特性：一是使用双总线体系结
性．这也提供了一个进行错误判断的机
统．核心是有Ｓ其ＡＮ做存错．心管理构．核确保系统的某一部分发生故障时仍会．以通过更换硬件或软件等途径来可
应用情况。
关键词：容错；网络存储；可靠性
中图分类号：Ｐ１Ｔ３３文献标识码：Ａ
随着网络性能和ＳＮ的性能发展．Ａ
实现容错的。提供以检查点为基本的恢复机能每个运行中的进程都在另一个处理机上具有完全相同但并不活动的后备进程如运行的进程内发现不能恢复的故障。用后备进程替换。若操作则系统发现原进程故障．则启动后备进
点就会引起这样的故障偶然性故障的出现是暂时的．且可能是非重复性的常常由于环境的变化、电源方面的干扰、器件性能的波动、件的随机变元软化、电磁干扰等因素而引起。这样的故障有可能仅出现一次．很长时间出现或
现。
当系统内部有故障存在时．过容源。的一项报告指出这类故障占所有现通
错技术消除故障的影响．系统最终仍使

hdfs容错机制

hdfs容错机制一、HDFS容错机制HDFS容错机制是在HDFS文件系统中采用的一种有效的处理容错问题的机制，在HDFS中通过采用多副本容错机制来提高数据的可靠性，即数据的副本数量是可配置的，这样可以实现对数据的冗余、备份，从而保证ETL任务的高可用性和容错性。

1、多副本容错HDFS文件系统采用多副本容错的原理，即在存储数据时将文件分割成多个小块，把每一个小块存储多份复本，每一个小块都有一份本地复本用来记录信息，这些复本可以分散到不同的节点上，通过这样的策略，实现了多份复本的容错功能，保证了HDFS的高可用性。

2、容错机制HDFS容错机制通过负责容错算法来保证数据的可用性，具体实现的原理如下：(1)当节点故障时，可以从存储的数据块中找到可以恢复的副本，从而替换故障节点的数据副本；(2)如果发生类似文件系统故障或服务器中断的情况，HDFS会自动进行重建，从而恢复文件系统和服务器的稳定性；(3)HDFS系统会自动检测每个存储块的健康情况，当某个块发生故障时，系统会自动检测，并从备份节点复制，确保孝份副本的完整性；(4)系统会定期检查数据的可用性，并在发现问题时重新分配，以确保数据的完整性。

3、热备份HDFS文件系统采用热备份机制来避免数据的丢失，其原理主要是在纵向副本配置的基础上，在每次写入数据前，都会先将原有的数据副本备份下来，再进行数据的写入，这样可以确保在某个数据块出现问题的情况下，HDFS可以随时调用上一次备份的数据副本，进行恢复操作，解决数据丢失的问题。

4、容错性：HDFS文件系统采用了多副本容错机制，它可以保证数据的容错性，即如果某个存储块发生故障，系统可以自动从备份节点复制，确保数据的完整性，同时也可以保证数据处理的可靠性，从而确保ETL 任务的高可用性和容错性。

数据容错的简单了解

数据容错的简单了解我们都知道容错技术在计算机当中的应⽤是相当⼴泛的，⽽容错技术也被分为硬件容错、软件容错、数据容错等。

在这⾥就来简单分析⼀下数据容错。

数据容错的策略就是数据备份和恢复策略，以及容灾技术、数据纠错等技术。

数据备份指的是将计算机系统中硬磁盘上的⼀部分数据转到可脱机保存的介质(如磁带、软磁盘和光盘)上。

通常可以分为完全备份、增量备份、差分备份和渐进式各份等多种备份⽅式。

1、完全备份完全备份(FullBackup) 是指将系统中所有选择的数据对象进⾏⼀次全⾯的备份，⽽不论数据对象⾃上次备份之后是否修改过。

这是最基本也是最简单的备份⽅式。

它是所有更进⼀步、更灵活的备份⽅式的基础。

完全备份的优点具有⾮常简单的操作过程。

如果在备份间隔期间出现数据丢失等问题，可以只使⽤⼀份备份快速地恢复所丢失的数据。

完全备份的缺点是备份的数据量最⼤，备份时间最长，所需要的存储容量是最⼤，对服务器的正常运营也是影响最⼤。

2.增量备份增量备份是指只对上次备份后系统中变化过的数据对象的备份。

也称为⾮累积增量备份。

这种⽅式是针对特定的时间段内新创建、更新及删除的数据对象。

增量备份的优点是备份时间⽐完全备份短许多。

它没有重复的备份数据，减少了⽹络带宽占⽤，节省了存储空间，缩短了备份的时间。

因⽽这种备份⽅法⽐较经济，可以频繁地进⾏。

增量备份的缺点是数据恢复时间长，恢复⼯作⽐较⿇烦。

3.差分备份差分备份是指对上次完全备份以来系统中所有变化过的数据对象的备份，也称为累积C cumulative) 增量备份。

这种备份在进⾏备份和数据恢复的时缺耗时适中。

差分备份的优点是数据恢复简单快捷。

它将恢复时涉及到的备份记录数量限制在2 个，简化了恢复的复杂性。

与完全备份相⽐，差分备份的⼯作量⼩，备份时间短，并节省磁盘空间。

与增量备份相⽐，差分备份的⼯作量⼤，随着时间推移⽽不断增加(假设每天修改的数据都不⼀样)。

但是它的灾难恢复相对简单。

利用容错技术提升网络可靠性的方法(四)

网络已经成为现代社会不可或缺的一部分，无论是个人生活还是商业活动都离不开网络的支持。

然而，由于人为因素及各种意外情况，网络出现故障的情况时有发生。

为了提升网络的可靠性，降低故障对人们生活和工作的影响，容错技术成为了一种有效的解决方案。

一、备份与冗余备份与冗余是容错技术中常用的方法之一。

在网络系统中，可以通过备份数据来确保数据的可靠性。

例如，对于重要的文件和数据库，可以设置定期自动备份，并将备份数据存储在不同的硬盘、服务器或地理位置上。

这样，即使某个设备或地点发生故障，仍然能够通过其他备份来恢复数据，保证网络的正常运行。

此外，冗余也是一种常见的容错技术。

通过在网络中增加冗余设备或路径，能够实现设备或路径的热备份。

一旦主设备或路径发生故障，备用设备或路径会立即接管工作，保证网络的连续性和可靠性。

例如，企业级网络中常用的冗余方案有热备份服务器、冗余路由器等。

二、故障检测与诊断及时检测和诊断网络故障是提升网络可靠性的关键一环。

在网络中引入故障检测与诊断系统，能够实时监测网络设备的状态，发现故障并迅速采取措施修复。

例如，网络监控系统可以监测网络设备的运行状态、数据传输速率等指标，一旦发现异常情况，就能够及时发出警报并通知管理员采取相应的措施。

除了实时监测，故障诊断也是关键环节之一。

网络故障可能由多种原因引起，如硬件故障、软件错误或网络拥塞。

通过故障诊断系统，能够分析故障发生的原因，并给出相应的解决方案。

例如，网络管理系统可以根据故障现象和设备状态来判断故障原因，并提供相应的故障处理指南，帮助管理员快速解决问题。

三、容错编码技术容错编码技术是一种通过在数据中引入冗余信息来纠正和恢复错误的方法，被广泛应用于提高通信和存储系统的可靠性。

例如，在存储系统中，可以使用冗余数据来纠正和恢复硬盘中的错误数据，提高数据的完整性和可靠性。

在通信系统中，可以使用差错检测和纠错编码技术来保证数据传输的正确性。

容错编码技术可以提高网络的抗干扰能力，减少错误传输对网络性能的影响。

增强固态硬盘容错能力的技术研究

增强固态硬盘容错能力的技术研究固态存储技术是通过闪存(Flash)阵列来高速存取数据的一种存储技术。

固态硬盘容量越来越大是建立在单颗芯片容量不断增大的基础上的,然而Flash芯片在容量增加的同时可靠性却不断下降。

因此当前固态硬盘面临的可靠性问题成为制约固态硬盘商业化的重要障碍,针对固态硬盘可靠性问题的研究对于促进固态存储技术的发展具有重要意义。

本文从固态存储介质的比特可靠性和固态硬盘整体可靠性两个方面展开了研究。

当前主流的固态硬盘都是以NAND Flash作为存储介质,NAND Flash具有容量大、读写速度快的特点。

随着单芯片集成度的提高,NAND Flash的误码率越来越高,这就需要纠错能力越来越强的纠错编码来保证存储数据的可靠性。

而低密度奇偶校验码(Low Density Parity Check,LDPC)是一种纠错能力较强的纠错编码方式,本文根据MLC Flash的误码率特性,提出了一种适用于MLC 的LDPC码校验节点的构造方式。

针对MLC存储单元中高有效位(Most Significant Bit,MSB)和低有效位(Least Significant Bit,LSB)误码率不同的特点,从降低LDPC码的译码错误概率出发,提出了一种LDPC码校验节点中MSB 和LSB的合理搭配方式。

仿真实验表明LDPC码校验节点中MSB和LSB的比例越不均衡,LDPC码的译码错误概率越小。

在构造LDPC码时使用这种方法构造的校验节点,能够有效降低LDPC码的译码错误概率。

固态硬盘中不仅会出现比特翻转现象,还会可能出现Flash页、块、芯片甚至控制器失效的情况。

为了应对页、块可能失效的情况,固态硬盘引入了纠删码的概念,通过一定程度的数据冗余,提高数据的可靠性。

本文提出了基于RAID-5技术的改进型的固态硬盘数据冗余机制,通过在固态硬盘通道之间建立数据的冗余关系确保固态硬盘在出现通道级以下错误时仍然能够正常读取数据。

数据存储与容灾第二版

数据存储与容灾第二版数据存储是指将数据存放在特定的媒介中以便后续访问和使用的过程。

随着信息技术的不断发展，数据存储的需求也越来越大。

同时，为了保障数据的安全和可靠性，数据容灾也成为了一个重要的话题。

本文将重点讨论数据存储与容灾的相关内容。

一、数据存储的基本原理数据存储可以通过多种方式实现，例如磁盘、内存、云存储等。

其中，磁盘是最常见的一种数据存储媒介。

磁盘通过将数据存储在磁道和扇区中，实现了数据的永久保存。

内存则是一种临时存储介质，其读写速度更快，但容量有限。

云存储则是将数据存放在远程服务器上，用户可以通过网络访问和管理数据。

二、数据存储的优化策略为了提高数据存储的效率和性能，我们可以采取一些优化策略。

首先，我们可以使用压缩算法来减小数据的存储空间，从而节省存储成本。

其次，我们可以采用分布式存储的方式，将数据分散存储在多个节点上，提高系统的可扩展性和容错性。

此外，数据的索引和分区策略也可以对数据的读写效率产生重要影响。

三、数据容灾的意义和方法数据容灾是指为了保障数据的安全和可靠性，采取一系列措施来防止数据丢失和损坏的过程。

数据容灾的意义在于保护重要数据免受各种风险的影响，例如硬件故障、自然灾害、人为错误等。

常见的数据容灾方法包括备份、镜像和冗余存储等。

备份是将数据复制到其他存储设备或位置，以防止原始数据的丢失。

镜像则是将数据实时同步到其他设备上，以保证数据的一致性和可用性。

冗余存储则是通过使用冗余的硬件设备来存储数据，以提高系统的容错性。

四、数据存储与容灾的最佳实践在实际应用中，我们需要根据实际需求选择合适的数据存储和容灾方案。

首先，我们需要评估数据的重要性和敏感性，根据不同的需求选择不同的媒介和策略。

其次，我们需要制定合理的数据备份和恢复计划，确保数据的完整性和及时性。

同时，定期进行数据的测试和验证，以确保备份和恢复方案的有效性。

此外，我们还需要关注数据安全和隐私保护，采取措施防止数据泄露和未授权访问。

面向应用的Legato双机容错存储方案

面向应用的Legato双机容错存储方案
史宏图
【期刊名称】《通信世界》
【年(卷),期】2003(000)003
【摘要】当前企业内运行的应用越来越丰富，也越来越复杂，各种应用都需要进行完善的备份。

高可用性软件的基本工作原理是服务器间通过软件监控服务器，当某服务器硬件或是软件失效，软件的切换功能发生作用将中断服务器的工作在指定服务器上启动起来使服务器的工作得以继续。

高可用性软件从功能上分可以分为热备、容错两种，细分为双机热备、双机容错、集群热备、集群容错(注：双机指两台服务器间，集群指多台服务器间)。

热备与容错的区别在于容错软件监控服务器的应用，而热备是监控服务器的硬件。

容错软件有着比热备软件更高的性能。

【总页数】1页(P44)
【作者】史宏图
【作者单位】无
【正文语种】中文
【中图分类】TP309.3
【相关文献】
1.面向分散式存储的数字图书馆云存储方案研究 [J], 陈臣
2.Legato Co-StandbyServer AAdvanced双机容错解决方案 [J],
3.面向应用级的双机容错系统的设计与实现 [J], 谢长生;胡兵全
4.面向期限感知分布式矩阵相乘的高效存储方案 [J], 赵永柱; 黎卫东; 唐斌; 梅峰; 卢文达
5.基于MapReduce面向列的数据库存储方案研究 [J], 李爱武;刘宁;严升则
因版权原因，仅展示原文概要，查看原文内容请购买。

一种低成本高可靠的星载计算机存储器容错方法

第４６卷　第３期２０２０年６月空间控制技术与应用ＡｅｒｏｓｐａｃｅＣｏｎｔｒｏｌａｎｄＡｐｐｌｉｃａｔｉｏｎＶｏｌ．４６　Ｎｏ．３Ｊｕｎ．　２０２０ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７４１５７９．２０２０．０３．０１０一种低成本高可靠的星载计算机存储器容错方法吕　岩摘　要：星载计算机应用中，高可靠和低成本往往相互矛盾．传统计算机系统通过采用高等级器件的方式来提高系统可靠性，但代价是成本高昂．商业卫星采用降低元器件等级的方式来降低系统成本，但可靠性也随之降低．针对这一矛盾，提出了一种设计方法：利用低等级元器件，通过对程序存储器和数据存储器双冗余的方式来提高计算机存储器的可靠性、容错能力以及抗空间环境能力．采用本设计的计算机其存储器部分的可靠性与传统宇航计算机相当，成本与商业卫星计算机相当，实现了低成本与高可靠兼顾．关键词：低成本；高可靠；容错；单粒子效应；星载计算机中图分类号：Ｖ４４６文献标志码：Ａ文章编号：１６７４１５７９（２０２０）０３００６６０６ＡＦａｕｌｔＴｏｌｅｒａｎｔＭｅｔｈｏｄｆｏｒＳｐａｃｅＣｏｍｐｕｔｅｒＭｅｍｏｒｙｗｉｔｈＬｏｗＣｏｓｔａｎｄＨｉｇｈＲｅｌｉａｂｉｌｉｔｙＬＶＹａｎＡｂｓｔｒａｃｔ：Ｉｎｓｐａｃｅｂｏｒｎｅｃｏｍｐｕｔｅｒａｐｐｌｉｃａｔｉｏｎｓ，ｈｉｇｈｒｅｌｉａｂｉｌｉｔｙａｎｄｌｏｗｃｏｓｔａｒｅｃｏｎｔｒａｄｉｃｔｏｒｙ．Ｔｒａｄｉｔｉｏｎａｌｓｐａｃｅｃｏｍｐｕｔｅｒｓｙｓｔｅｍｓｕｓｅｈｉｇｈｌｅｖｅｌｄｅｖｉｃｅｓｔｏｉｍｐｒｏｖｅｓｙｓｔｅｍｒｅｌｉａｂｉｌｉｔｙｗｉｔｈｈｉｇｈｃｏｓｔ．Ｃｏｍｍｅｒｃｉａｌｓａｔｅｌｌｉｔｅｓｕｓｅｌｏｗｇｒａｄｅｃｏｍｐｏｎｅｎｔｔｏｒｅｄｕｃｅｓｙｓｔｅｍｃｏｓｔ，ｂｕｔｒｅｌｉａｂｉｌｉｔｙｉｓａｌｓｏｒｅｄｕｃｅｄ．Ｉｎｒｅｓｐｏｎｓｅｔｏｔｈｉｓｃｏｎｔｒａｄｉｃｔｉｏｎ，ａｄｅｓｉｇｎｍｅｔｈｏｄｉｓｐｒｏｐｏｓｅｄ：ｏｎｔｈｅｐｒｅｍｉｓｅｏｆｌｏｗｇｒａｄｅｃｏｍｐｏｎｅｎｔｓ，ｔｈｒｏｕｇｈｔｈｅｄｕａｌｒｅｄｕｎｄａｎｃｙｏｆｐｒｏｇｒａｍｍｅｍｏｒｙａｎｄｄａｔａｍｅｍｏｒｙｔｏｉｍｐｒｏｖｅｔｈｅｒｅｌｉａｂｉｌｉｔｙａｎｄｆａｕｌｔｔｏｌｅｒａｎｃｅｏｆｃｏｍｐｕｔｅｒｓｙｓｔｅｍｍｅｍｏｒｙ．Ｔｈｅｒｅｌｉａｂｉｌｉｔｙｏｆｔｈｅｍｅｍｏｒｙｐａｒｔｏｆｔｈｅｃｏｍｐｕｔｅｒａｄｏｐｔｉｎｇｔｈｉｓｄｅｓｉｇｎｉｓｃｏｍｐａｒａｂｌｅｔｏｔｈａｔｏｆａｔｒａｄｉｔｉｏｎａｌａｅｒｏｓｐａｃｅｃｏｍｐｕｔｅｒ，ａｎｄｔｈｅｃｏｓｔｉｓｃｏｍｐａｒａｂｌｅｔｏｔｈａｔｏｆａｃｏｍｍｅｒｃｉａｌｓａｔｅｌｌｉｔｅｃｏｍｐｕｔｅｒ．Ａｎｄｆｉｎａｌｌｙｂｏｔｈｌｏｗｃｏｓｔａｎｄｈｉｇｈｒｅｌｉａｂｉｌｉｔｙａｒｅａｃｈｉｅｖｅｄ．Ｋｅｙｗｏｒｄｓ：ｌｏｗｃｏｓｔ；ｈｉｇｈｒｅｌｉａｂｉｌｉｔｙ；ｆａｕｌｔｔｏｌｅｒａｎｔ；ｓｉｎｇｌｅｅｖｅｎｔｅｆｆｅｃｔ；ｓｐａｃｅｃｏｍｐｕｔｅｒ收稿日期：２０２００４２２；录用日期：２０２００６１０．ＭａｎｕｓｃｒｉｐｔｒｅｃｅｉｖｅｄＡｐｒ．２２，２０２０；ａｃｃｅｐｔｅｄＪｕｎｅ１０，２０２０．“十三五”装备预研航天科技联合基金资助项目（６１４１Ｂ０６０９０３０１）．“ＴｈｉｒｔｅｅｎｔｈＦｉｖｅＹｅａｒ”ｅｑｕｉｐｍｅｎｔｐｒｅｒｅｓｅａｒｃｈｓｐａｃｅｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙｊｏｉｎｔｆｕｎｄｐｒｏｊｅｃｔ．山东航天电子技术研究所，烟台２６４０００．ＳｈａｎｄｏｎｇＩｎｓｔｉｔｕｔｅｏｆＳｐａｃｅＥｌｅｃｔｒｏｎｉｃＴｅｃｈｎｏｌｏｇｙ，Ｙａｎｔａｉ２６４０００，Ｃｈｉｎａ．０　引　言一般而言，星载计算机系统主要由：处理器、程序存储器、数据存储器等部分组成．传统的星载计算机系统一般选用高等级器件，程序存储器一般选用对单粒子免疫的反熔丝型器件，数据存储器（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ，ＳＲＡＭ）一般选用抗单粒子阈值高的器件，或者通过错误检测与纠正（ｅｒｒｏｒｄｅｔｅｃｔｉｏｎａｎｄｃｏｒｒｅｃｔｉｏｎ，ＥＤＡＣ）等技术来对抗单粒子翻转［１］．通过提高单个元器件可靠性的方式来提高整个计算机系统的可靠性，这种方式的优点是可靠性高，代价是成本高昂．随着航天技术的发展，商用现货（ｃｏｍｍｅｒｃｉａｌｏｆｆｔｈｅｓｈｅｌｆ，ＣＯＴＳ）器件凭借着成本低，集成度高等优点，应用日益广泛．目前商业卫星公司通常采用降低器件质量等级的方式来降低成本．由于ＣＯＴＳ器件大多采用塑封形式，存在吸潮、爆米花效应等问题，其可靠性相对较低，且由于未针对航天应用环境进行特殊设计，其抗空间环境能力也较弱，在轨易发生因单粒子、总剂量等问题导致的在轨异常［２４］．鉴于此，商业卫星在设计时一般会对ＣＯＴＳ存储器件有容错措施，但大部分容错只限于存储器单芯片内的软件多模技术，比如在存储器中存放多份程序代第３期吕　岩：一种低成本高可靠的星载计算机存储器容错方法码冗余，用来对抗单粒子翻转导致的系统无法启动［５］，此方法只能在一定程度上对抗单粒子翻转，不能够对抗存储器单芯片失效，而存储器单芯片失效也就意味着整个计算机系统的失效．因此，选用ＣＯＴＳ器件虽然可以降低计算机成本，但也降低了系统的可靠性．目前提高计算机系统可靠性的方法主要有三模等技术，即对计算机系统进行整机三模［６］，该方法可大幅提高系统的可靠性，但付出的代价很大，需要同时配置三套计算机系统，体积大，重量大，功耗高，带来的附加成本较高，在商业卫星领域不易推广．针对此问题，对于低轨应用场景，提出了一种设计方法，利用ＣＯＴＳ器件，通过程序存储器和数据存储器双冗余的方式来提高计算机系统的可靠性．相比于计算机系统三模，本设计付出的代价较小，仅需要增加两片存储器即可对计算机系统的可靠性和抗空间环境能力有较大提升，且系统具有优异的容错能力，即便单个存储器失效，系统也能够正常运行．１　系统组成在计算机系统中，受器件复杂度等因素影响，失效率高的器件主要为：程序存储器、数据存储器和处理器．其它器件诸如电阻、电容、电源、逻辑门电路等器件失效率相对较低［７］．考虑到处理器的重要性，一般商业卫星都会选用高等级器件作为处理器．因此，在提高可靠性方面我们主要对低等级的程序存储器和数据存储器进行可靠性加固，代价小，收益高．由于低等级的程序存储器和数据存储器多为塑封器件，存在吸潮、爆米花效应等问题，长时间在轨应用有失效的风险［８］．因此对其进行了双冗余．由于ＣＯＴＳ器件自身抗空间环境能力相对较弱，在轨易发生单粒子翻转．因此，选用了芯片自身带有错误检查与纠正（ｅｒｒｏｒｃｏｒｒｅｃｔｉｎｇｃｏｄｅ，ＥＣＣ）功能的存储器件．综合以上原则，本设计的计算机系统主要由以下几部分组成：处理器（高等级器件）、双冗余ＳＲＡＭ（ＣＯＴＳ器件）、双冗余ＮＯＲＦＬＡＳＨ（ＣＯＴＳ器件）．其中ＳＲＡＭ选用两片同样规格的带ＥＣＣ纠检错功能的ＳＲＡＭ，ＦＬＡＳＨ选用两片同样规格的带ＥＣＣ纠检错功能的ＮＯＲＦＬＡＳＨ，两片ＳＲＡＭ和ＦＬＡＳＨ均同时工作．系统框图如图１所示．图１　计算机系统组成框图Ｆｉｇ．１　Ｃｏｍｐｕｔｅｒｓｙｓｔｅｍｆｕｎｃｔｉｏｎｂｌｏｃｋｄｉａｇｒａｍ２　系统设计２．１　硬件设计处理器选用ＡＣＴＥＬ的ＳｍａｒｔＦｕｓｉｏｎ２系列片上系统ＦＰＧＡ，内部集成了１６６ＭＨｚ的ＣｏｒｔｅｘＭ３硬核处理器，资源丰富，体积小，功耗低［９］，有过大量飞行验证．本设计选用ＳｍａｒｔＦｕｓｉｏｎ２系列的Ｍ２Ｓ０５０Ｔ１ＦＧＧ４８４Ｍ型处理器．程序存储器选用ＣＹＰＲＥＳＳ公司生产的ＮＯＲＦＬＡＳＨ，可存储Ｂｏｏｔ程序和应用程序，芯片选型为Ｓ２５ＦＬ５１２ＳＡＧＢＦＩ２１１，容量５１２Ｍｂｉｔ，芯片自带ＥＣＣ功能，每１６ｂｙｔｅｓ可以纠正１ｂｉｔ数据位翻转，ＥＣＣ纠检错状态可以通过访问ＦＬＡＳＨ的ＥＣＣ寄存器来查看．芯片采用串行外设接口（ｓｅｒｉａｌｐｅｒｉｐｈｅｒａｌｉｎｔｅｒｆａｃｅ，ＳＰＩ），Ｑｕａｄ模式下读取速率可以达到１０４ＭＨｚ．数据存储器选用ＩＳＳＩ公司生产的ＳＲＡＭ，可用于运行计算机程序，芯片选型为ＩＳ６１ＷＶ１０２４１６ＥＤＢＬＬ１０Ｂ２Ｌ，容量１６Ｍｂｉｔ，自带ＥＣＣ纠检错功能，每１ｂｙｔｅ可以纠正１ｂｉｔ数据位翻转，芯片输出ＥＣＣ纠检错状态管脚ＥＲＲ，用高低电平来表征当前是否发生ＥＣＣ纠检错．ＳＲＡＭ的访问速度可达到１００ＭＨｚ．计算机系统搭建原理如图２所示．２．２　程序运行设计ＮＯＲＦＬＡＳＨ作为程序存储器，将引导程序和应用程序拷贝相同的两份存放在两片ＮＯＲＦＬＡＳＨ中，ＦＰＧＡ主要实现ＣＰＵ与ＦＬＡＳＨ之间的地址转换以及２片ＦＬＡＳＨ数据的表决．处理器加电后，ＣＰＵ通过ＦＰＧＡ映射地址从ＦＬＡＳＨ中加载，将ＦＬＡＳＨ中存放的应用程序加载到ＳＲＡＭ中，完成程序加载后，ＣＰＵ从ＳＲＡＭ中运行．·７６·空间控制技术与应用第４６卷图２　计算机系统原理图Ｆｉｇ．２　Ｓｃｈｅｍａｔｉｃｄｉａｇｒａｍｏｆｃｏｍｐｕｔｅｒｓｙｓｔｅｍ２．２．１　程序加载Ｍ２Ｓ０５０Ｔ处理器ＣＰＵ主频设置为１２８ＭＨｚ，处理器在启动时对程序加载速度一般无特殊要求，设置访问ＦＬＡＳＨ为６４个等待周期，即ＣＰＵ对ＦＬＡＳＨ的访问周期为４９６ｎｓ．ＦＬＡＳＨ在Ｑｕａｄ模式下单次访问耗时２１ｎｓ．读取ＦＬＡＳＨ的ＥＣＣ状态寄存器需要采用ＦＡＳＴＲＥＡＤ方式，单次访问耗时４２１ｎｓ．在ＣＰＵ一个取指周期内，ＦＰＧＡ依次完成以下操作：Ｔ１阶段：ＦＰＧＡ将ＣＰＵ的访问地址映射给２片ＦＬＡＳＨ并判读２片ＦＬＡＳＨ给出的数据是否一致；Ｔ２阶段：ＦＰＧＡ判读两数据一致则将ＦＬＡＳＨ１数据映射给ＣＰＵ，如果不一致则访问２片ＦＬＡＳＨ的ＥＣＣ寄存器状态；Ｔ３阶段：ＦＰＧＡ将ＥＣＣ寄存器状态正确的ＦＬＡＳＨ数据映射给ＣＰＵ．一个取指周期内，各阶段所耗费的时间如图３所示．图３　ＣＰＵ程序加载一个取指周期Ｆｉｇ．３　ＣＰＵｐｒｏｇｒａｍｌｏａｄｓａｄｄｒｅｓｓｉｎｇｃｙｃｌｅ程序加载流程如图４所示．２．２．２　程序运行Ｍ２Ｓ０５０Ｔ处理器ＣＰＵ主频设置为１２８ＭＨｚ，星上平台应用场景，一般设置ＳＲＡＭ为４个等待周期即可满足大部分应用需求，即ＣＰＵ对ＳＲＡＭ的访问周期为３１ｎｓ．ＳＲＡＭ的单次读写耗时１０ｎｓ．图４　ＣＰＵ程序加载工作流程Ｆｉｇ．４　ＣＰＵｐｒｏｇｒａｍｌｏａｄｉｎｇｗｏｒｋｆｌｏｗ在ＣＰＵ一个ＳＲＡＭ访问周期内，ＦＰＧＡ依次完成以下操作：Ｔ１阶段：ＦＰＧＡ将ＣＰＵ的访问地址映射给２片ＳＲＡＭ并判读２片ＳＲＡＭ给出的数据是否一致；Ｔ２阶段：如果数据一致则将ＳＲＡＭ１给出的数据映射给ＣＰＵ，如果不一致则判读２片ＳＲＡＭ的ＥＲＲ管脚状态；Ｔ３阶段：ＦＰＧＡ将ＥＲＲ状态正确的ＳＲＡＭ数据映射给ＣＰＵ，同时ＦＰＧＡ将错误的ＳＲＡＭ数据回写并纠正．一个访问周期内，各阶段所耗费的时间如图５所示．图５　ＣＰＵ程序运行一个取指周期Ｆｉｇ．５　ＣＰＵｐｒｏｇｒａｍｒｕｎｓａｄｄｒｅｓｓｉｎｇｃｙｃｌｅ·８６·第３期吕　岩：一种低成本高可靠的星载计算机存储器容错方法程序运行流程如图６所示．图６　ＣＰＵ程序运行工作流程Ｆｉｇ．６　ＣＰＵｐｒｏｇｒａｍｏｐｅｒａｔｉｏｎｗｏｒｋｆｌｏｗ３　容错分析针对ＣＯＴＳ器件在轨易发生的故障进行了分析和对比，见表１．由表１可知，采用本设计的计算机系统，基本可抵御在轨的常见异常，且对抗单粒子翻转的鲁棒性更强，能够容忍单ｂｉｔ或多ｂｉｔ翻转，因此，在容错方面，本设计要优于传统的计算机系统．４　可靠性预计根据ＧＪＢ／Ｚ２９９Ｃ２００６电子设备可靠性预计手册，在计算机系统中，受器件工艺复杂度等因素影响，计算机系统中失效率较高的器件主要为：程序存储器、数据存储器和处理器等大规模集成电路．其它器件诸如电阻、电容、电源、逻辑门电路等器件其失效率相对较低．因此我们将计算机核心部分简化成以下模型，如图７所示．表１　计算机在轨易发生的故障分析对比Ｔａｂ．１　Ａｎａｌｙｓｉｓａｎｄｃｏｍｐａｒｉｓｏｎｏｆｃｏｍｐｕｔｅｒｐｒｏｎｅｆａｕｌｔｓ序号故障模式传统计算机系统本设计计算机系统结果措施结果措施１因器件、工艺、空间环境等问题导致的单片ＦＬＡＳＨ失效无法启动无措施正常启动可通过另一片ＦＬＡＳＨ正常启动２ＦＬＡＳＨ发生单ｂｉｔ翻转多次加载直至启动１片ＦＬＡＳＨ中存储多份程序代码，第１份程序代码翻转则切换至第２份，直至找到未翻转的程序代码启动．正常启动ＦＬＡＳＨ自带ＥＣＣ纠检错功能，能够抵御单ｂｉｔ翻转．３ＦＬＡＳＨ发生多ｂｉｔ翻转无法启动无措施，所存储的备份程序代码均被打翻．正常启动两片ＦＬＡＳＨ容错，ＦＰＧＡ可通过ＥＲＲ状态表决出正确的ＦＬＡＳＨ供处理器启动，同时ＦＰＧＡ可刷新纠正被多ｂｉｔ打翻的ＦＬＡＳＨ．４因器件、工艺、空间环境等问题导致的单片ＳＲＡＭ失效无法运行无措施正常运行可通过另一片ＳＲＡＭ正常运行５ＳＲＡＭ发生单ｂｉｔ翻转正常运行通过ＥＤＡＣ等软件措施进行纠检错正常运行ＳＲＡＭ自带ＥＣＣ纠检错功能，能够抵御单ｂｉｔ翻转．６ＳＲＡＭ发生多ｂｉｔ翻转计算机重启计算机运行错误，进入陷阱，重新加载．正常运行两片ＳＲＡＭ容错，ＦＰＧＡ可通过ＥＲＲ状态表决出正确的ＳＲＡＭ供计算机运行，同时ＦＰＧＡ可刷新纠正被多ｂｉｔ打翻的ＳＲＡＭ．由上图可知，传统计算机或商业卫星计算机系统可简化为串联模型，任何一部分失效，均会导致系统失效．由上图可知，本设计计算机系统可简化为串并联混合模型，只有两片ＳＲＡＭ或ＦＬＡＳＨ同时失效，才会导致系统失效．对比两个模型可知，除ＳＲＡＭ和ＦＬＡＳＨ连接方式不同外，其余部分两个模型均为串联模式（两个·９６·空间控制技术与应用第４６卷模型的Ｒａ、Ｒｂ可靠性相同）．因此，为了突出两种模型的对比情况，下面仅针对两种模型的ＳＲＡＭ和ＦＬＡＳＨ进行局部可靠性预计．图７　传统计算机或商业卫星计算机可靠性简化模型１Ｆｉｇ．７　ＴｒａｄｉｔｉｏｎａｌｃｏｍｐｕｔｅｒｏｒＣｏｍｍｅｒｃｉａｌｓａｔｅｌｌｉｔｅｓｃｏｍｐｕｔｅｒｒｅｌｉａｂｉｌｉｔｙｍｏｄｅｌ１图８　本设计计算机可靠性简化模型２Ｆｉｇ．８　Ｃｏｍｐｕｔｅｒｒｅｌｉａｂｉｌｉｔｙｍｏｄｅｌ３ｏｆｔｈｅｐａｐｅｒ根据ＧＪＢ／Ｚ２９９Ｃ２００６电子设备可靠性预计手册，进口集成电路的失效率计算公式为［７］：λｐ＝（Ｃ１πＴ＋Ｃ２πＥ）πＱ（１）其中：λｐ表示模型中各器件的失效率；Ｃ１表示电路复杂度失效率，１０－６／ｈ；πＴ表示温度应力系数；Ｃ２表示封装复杂度失效率，１０－６／ｈ；πＥ表示环境系数；πＱ表示质量系数；根据式（１）查表并计算等规模的宇航级和工业级芯片的失效率如表２所示．根据可靠性预计公式［１０］：ＲＳ（ｔ）＝∏ｍｉ＝１Ｒｉ＝Ｒｆｌａｓｈ２×Ｒｓｒａｍ２＝ｅ－∑Ｎｉ＝１λｉｔ（２）其中：ＲＳ（ｔ）表示模型中存储器部分总的可靠性；Ｒｉ表示模型中各部分的可靠性；λｉ表示模型中各器件的失效率；ｔ表示模型中器件的工作时间；Ｒｆｌａｓｈ１表示ＦＬＡＳＨ的可靠性；Ｒｓｒａｍ１表示ＳＲＡＭ的可靠性。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

西安工业大学
容错技术与存储容错
姓名：李丽莎
学号：1206210398
专业：计算机应用技术
容错技术与存储容错
摘要：大量数据需要传输和存储，在传输和存储过程中会出现各式各样的错误。

为了避免和减少这些错误的发生，增加系统的可靠性，由此出现了容错机制。

本文就容错的概念，容错技术，存储容错系统和常见的两种容错系统进行了探讨，深入理解了容错的机制和内涵。

关键词：数据存储；容错技术；容错系统
1、容错技术的概况和历史
容错FT(Fault Tolerant)就是当系统由于种种原因出现了数据、文件损坏或丢失时，能够自动地将这些损坏或丢失的文件和数据恢复到发生事故以前的状态，使系统能够连续正常运行的一种技术。

容错技术一般利用冗余硬件交叉检测操作结果。

上世纪80年代，第一代容错技术开始进入商用领域。

1993年，英特尔 I860处理器在Stratus的硬件级容错体系结构中成功应用。

1996年，容错技术得到HP的支持，共同推出Stratus Continuum系列，将Stratus容错结构结合HP PA －RISC对称多处理技术。

进入21世纪以来，制造、中小企业、能源、交通等领域对服务器，特别是中低端IA服务器的需求激增，过去仅仅可以应用在RISC平台、HP－UX环境下的容错产品也面临着新的挑战。

如今，NEC通过与美国容错公司多年的合作，于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。

2、常见的容错技术
常见的容错技术有双重文件分配表和目录表技术、快速磁盘检修技术、磁盘镜像技术、双工磁盘技术等。

2.1 双重文件分配表和目录表技术
硬盘上的文件分配表和目录表存放着文件在硬盘上的位置和文件大小等信息，如果它们出现故障，数据就会丢失或误存到其他文件中。

通过提供两份同样的文件分配表和目录表，把它们存放在不同的位置，一旦某份出现故障，系统将做出提示，从而达到容错的目的。

2.2 快速磁盘检修技术
这种方法是在把数据写入硬盘后，马上从硬盘中把刚写入的数据读出来与内存中的原始数据进行比较。

如果出现错误，则利用在硬盘内开设的一个被称为“热定位重定区”的区，将硬盘坏区记录下来，并将已确定的在坏区中的数据用原始数据写入热定位重定区上。

2.3 磁盘镜像技术
磁盘镜像是在同一存储通道上装有成对的两个磁盘驱动器，分别驱动原盘和副盘，两个盘串行交替工作，当原盘发生故障时，副盘仍旧正常工作，从而保证了数据的正确性。

2.4 双工磁盘技术
它是在网络系统上建立起两套同样的且同步工作的文件服务器，如果其中一个出现故障，另一个将立即自动投入系统，接替发生故障的文件服务器的全部工作。

3、存储容错系统
3.1 存储容错系统
存储容错系统实现了存储级的HA，能够在两套存储间自动持续复制数据，实现存储镜像及数据的实时同步；在主存储节点故障时，RSS容错存储系统可自
动将数据访问路径导向备用存储节点，从而保障系统可持续访问存储设备。

3.2 存储容错系统的特点
存储容错系统的特点如下：
（1）安全、高性能的数据存储架构
全冗余的存储架构，通过存储镜像及实时同步技术，构建存储HA架构，消除存储设备单点故障；性能卓越的RAID处理系统和端到端的8G通能力，可在复杂的SAN应用环境下提供高效的数据吞吐服务。

（2）快速数据同步和故障切换
采用独立的数据管理架构，数据同步、路径切换、数据恢复过程由专用的系统管理，几乎不消耗任何应用主机资源。

基于高速SAN网络的数据同步和恢复，秒级故障切换。

（3）与现有IT环境的无缝集成
可动态融入FC SAN网络，为SAN中任意主机透明提供容错存储，对于用户已有的存储设备，UDSAFE RSS可通过Transparent透明卷迁移功能实现在线数据接管，无需对原存储迁移数据，重新配置RAID并恢复数据。

（4）弹性的容量管理与灵活的扩展性
具有独特的自动精简配置技术，可实现容量超额分配与动态占用，简化存储管理，提升存储资源利用率；并可实现存储容量的动态扩展，具有很大的灵活性。

（5）丰富的数据保护功能
支持快照，卷拷贝，远程复制等数据保护技术，可轻松实现数据备份及数据容灾。

4、常见的容错系统
4.1 网络存储系统容错
海量网络存储系统，跟任何一个系统一样，要安全可靠。

海量网络存储系统的可靠性其实显的更加的重要，海量网络存储系统管理着庞大的数据，在这个视数据为生命的时代，可靠性的要求是不言而喻的。

如何让浩瀚的网络数据可靠安
全，这就要从容灾容错机制着手，设计一种比当前有效的、安全的保障机制。

网络存储系统中不论硬件设备还是软件都不可避免存在故障的发生，但并不是故障发生就一定意味着该系统完全失效。

“容错”就是容许存在某些错误，因此，容错计算就可以理解为即使有硬件故障或数据丢失，系统仍能正常运行。

我们可以利用冗余机制来实现容错功能从而提高系统的可靠性。

“冗余”按汉语字面理解就是“多余，没有用的”，显然，这种解释在这里是讲不通的。

其实，它是实现容错技术提高系统可靠性的最主要手段。

冗余主要包括软件冗余，硬件冗余和数据冗余。

硬件冗余主要是通过网络接口和网络链路冗余来实现可靠的网络I/O 通道。

数据冗余是指数据之间的重复，也就是说除了正常的数据之外，还有一些多余的数据，网络存储系统中数据冗余主要有复制和编码两种方式。

复制主要是指将同样的数据存储多份。

目前P2P存储系统和分布式文件系统通常使用复制来提高系统的性能和文件访问的容错。

由存储节点组成的文件系统分布于整个广域网中，同时想要访问大文件的多个客户也分布于整个广域网中。

文件系统使用的标准策略是把文件分割成n个固定大小的块，这些块被复制k份分布在整个系统中。

单个文件被分割成8个数据块，标号从1到8，每个数据块被复制到8个存储节点中的任意四个节点上。

编码方式的冗余是指将数据通过一定的编码算法计算出校验数据，然后原始数据和校验数据分布存储在整个系统中。

编码方式有很多种，目前存储系统中主流的编码技术是基于奇偶校验的RAID 技术，数据存储分布冗余通过存储虚拟化技术构建相应级别的RAID来实现。

常见的RAID技术有RAID1、RAID3、RAID5。

RAID5解决了容错问题，而且有三分之二的存储容量。

4.2 GFS容错机制
GFS容错机制主要有Master容错和Chunk Server容错。

4.2.1 Master容错
具体来说，Master上保存了GFS文件系统的三种元数据。

1）命名空间
（Name Space），也就是整个文件系统的目录结构。

2）Chunk与文件名的映射表。

3）Chunk副本的位置信息，每一个Chunk默认有三个副本。

首先就单个Master来说，对于前两种元数据，GFS通过操作日志来提供容错功能。

第三种元数据信息则直接保存在各个Chunk Server上，当Master启动或Chunk Server向Master注册时自动生成。

因此当Master发生故障时，在磁盘数据保存完好的情况下，可以迅速恢复以上元数据。

为了防止Master彻底死机的情况，GFS还提供了Master远程的实时备份，这样在当前的GFS Master出现故障无法工作的时候，另外一台GFS Master可以迅速接替其工作。

4.2.2 Chunk Server容错
GFS采用副本的方式实现Chunk Server的容错。

每一个Chunk有多个存储副本（默认为三个），分布存储在不同的Chunk Server上。

副本的分布策略需要考虑多种因素，如网络的拓扑、机架的分布、磁盘的利用率等。

对于每一个Chunk，必须将所有的副本全部写入成功，才视为成功写入。

在其后的过程中，如果相关的副本出现丢失或不可恢复等状况，Master会自动将该副本复制到其他Chunk Server，从而确保副本保持一定的个数。

尽管一份数据需要存储三份，好像磁盘空间的利用率不高，但综合比较多种因素，加之磁盘的成本不断下降，采用副本无疑是最简单、最可靠、最有效，而且实现的难度也最小的一种方法。

GFS中的每一个文件被划分成多个Chunk，Chunk的默认大小是64MB，这是因为Google应用中处理的文件都比较大，以64MB为单位进行划分，是一个较为合理的选择。

Chunk Server存储的是Chunk的副本，副本以文件的形式进行存储。

每一个Chunk以Block为单位进行划分，大小为64KB，每一个Block对应一个32bit的校验和。

当读取一个Chunk副本时，Chunk Server会将读取的数据和校验和进行比较，如果不匹配，就会返回错误，从而使Client选择其他Chunk Server上的副本。

参考文献
[1] 周敬利，余胜生.网络存储原理与技术[M].北京：清华大学出版社，2005
[2] 李二补.数据存储系统中可靠性和容错性研究.山西：山西三维集团
[3] 赵文辉，徐俊，周加林.网络存储技术[M].北京：清华大学出版社，2005。