存储容错
- 格式:doc
- 大小:53.50 KB
- 文档页数:6
电容管容错率计算公式
在电子设备中,电容管是一种常见的元件,用于存储电荷和调节电路的电压。
在实际应用中,电容管的容错率是一个非常重要的参数,它决定了电容管在工作过程中的稳定性和可靠性。
因此,了解和计算电容管的容错率是非常必要的。
电容管的容错率通常用百分比表示,它表示电容管在工作过程中的误差范围。
容错率越小,表示电容管的精度越高,反之则表示精度较低。
在实际应用中,通常会根据电路的要求选择不同容错率的电容管,以保证电路的稳定性和可靠性。
电容管的容错率计算公式如下:
容错率 = |测量值标称值| / 标称值 100%。
其中,测量值表示实际测量得到的电容管的数值,标称值表示电容管的标称数值。
通过这个公式,我们可以计算出电容管的容错率,从而评估电容管的精度和稳定性。
在实际应用中,电容管的容错率受到多种因素的影响,包括制造工艺、材料质量、环境温度等。
因此,在选择电容管时,需要综合考虑这些因素,以确保选择到合适的电容管,满足电路的要求。
除了计算电容管的容错率外,还可以通过一些测试方法来评估电容管的性能,比如频率特性测试、温度特性测试等。
通过这些测试,可以更全面地了解电容管的性能,从而选择到更合适的电容管。
总之,电容管的容错率是一个重要的参数,它直接影响着电路的稳定性和可靠性。
通过计算和评估电容管的容错率,可以选择到合适的电容管,保证电路的正常工作。
希望本文的介绍对大家有所帮助,谢谢阅读!。
hdfs容错机制一、HDFS容错机制HDFS容错机制是在HDFS文件系统中采用的一种有效的处理容错问题的机制,在HDFS中通过采用多副本容错机制来提高数据的可靠性,即数据的副本数量是可配置的,这样可以实现对数据的冗余、备份,从而保证ETL任务的高可用性和容错性。
1、多副本容错HDFS文件系统采用多副本容错的原理,即在存储数据时将文件分割成多个小块,把每一个小块存储多份复本,每一个小块都有一份本地复本用来记录信息,这些复本可以分散到不同的节点上,通过这样的策略,实现了多份复本的容错功能,保证了HDFS的高可用性。
2、容错机制HDFS容错机制通过负责容错算法来保证数据的可用性,具体实现的原理如下:(1)当节点故障时,可以从存储的数据块中找到可以恢复的副本,从而替换故障节点的数据副本;(2)如果发生类似文件系统故障或服务器中断的情况,HDFS会自动进行重建,从而恢复文件系统和服务器的稳定性;(3)HDFS系统会自动检测每个存储块的健康情况,当某个块发生故障时,系统会自动检测,并从备份节点复制,确保孝份副本的完整性;(4)系统会定期检查数据的可用性,并在发现问题时重新分配,以确保数据的完整性。
3、热备份HDFS文件系统采用热备份机制来避免数据的丢失,其原理主要是在纵向副本配置的基础上,在每次写入数据前,都会先将原有的数据副本备份下来,再进行数据的写入,这样可以确保在某个数据块出现问题的情况下,HDFS可以随时调用上一次备份的数据副本,进行恢复操作,解决数据丢失的问题。
4、容错性:HDFS文件系统采用了多副本容错机制,它可以保证数据的容错性,即如果某个存储块发生故障,系统可以自动从备份节点复制,确保数据的完整性,同时也可以保证数据处理的可靠性,从而确保ETL 任务的高可用性和容错性。
数据容错的简单了解 我们都知道容错技术在计算机当中的应⽤是相当⼴泛的,⽽容错技术也被分为硬件容错、软件容错、数据容错等。
在这⾥就来简单分析⼀下数据容错。
数据容错的策略就是数据备份和恢复策略,以及容灾技术、数据纠错等技术。
数据备份指的是将计算机系统中硬磁盘上的⼀部分数据转到可脱机保存的介质(如磁带、软磁盘和光盘)上。
通常可以分为完全备份、增量备份、差分备份和渐进式各份等多种备份⽅式。
1、完全备份 完全备份(FullBackup) 是指将系统中所有选择的数据对象进⾏⼀次全⾯的备份,⽽不论数据对象⾃上次备份之后是否修改过。
这是最基本也是最简单的备份⽅式。
它是所有更进⼀步、更灵活的备份⽅式的基础。
完全备份的优点具有⾮常简单的操作过程。
如果在备份间隔期间出现数据丢失等问题,可以只使⽤⼀份备份快速地恢复所丢失的数据。
完全备份的缺点是备份的数据量最⼤,备份时间最长,所需要的存储容量是最⼤,对服务器的正常运营也是影响最⼤。
2.增量备份 增量备份是指只对上次备份后系统中变化过的数据对象的备份。
也称为⾮累积增量备份。
这种⽅式是针对特定的时间段内新创建、更新及删除的数据对象。
增量备份的优点是备份时间⽐完全备份短许多。
它没有重复的备份数据,减少了⽹络带宽占⽤,节省了存储空间,缩短了备份的时间。
因⽽这种备份⽅法⽐较经济,可以频繁地进⾏。
增量备份的缺点是数据恢复时间长,恢复⼯作⽐较⿇烦。
3.差分备份 差分备份是指对上次完全备份以来系统中所有变化过的数据对象的备份,也称为累积C cumulative) 增量备份。
这种备份在进⾏备份和数据恢复的时缺耗时适中。
差分备份的优点是数据恢复简单快捷。
它将恢复时涉及到的备份记录数量限制在2 个,简化了恢复的复杂性。
与完全备份相⽐,差分备份的⼯作量⼩,备份时间短,并节省磁盘空间。
与增量备份相⽐,差分备份的⼯作量⼤,随着时间推移⽽不断增加(假设每天修改的数据都不⼀样)。
但是它的灾难恢复相对简单。
网络已经成为现代社会不可或缺的一部分,无论是个人生活还是商业活动都离不开网络的支持。
然而,由于人为因素及各种意外情况,网络出现故障的情况时有发生。
为了提升网络的可靠性,降低故障对人们生活和工作的影响,容错技术成为了一种有效的解决方案。
一、备份与冗余备份与冗余是容错技术中常用的方法之一。
在网络系统中,可以通过备份数据来确保数据的可靠性。
例如,对于重要的文件和数据库,可以设置定期自动备份,并将备份数据存储在不同的硬盘、服务器或地理位置上。
这样,即使某个设备或地点发生故障,仍然能够通过其他备份来恢复数据,保证网络的正常运行。
此外,冗余也是一种常见的容错技术。
通过在网络中增加冗余设备或路径,能够实现设备或路径的热备份。
一旦主设备或路径发生故障,备用设备或路径会立即接管工作,保证网络的连续性和可靠性。
例如,企业级网络中常用的冗余方案有热备份服务器、冗余路由器等。
二、故障检测与诊断及时检测和诊断网络故障是提升网络可靠性的关键一环。
在网络中引入故障检测与诊断系统,能够实时监测网络设备的状态,发现故障并迅速采取措施修复。
例如,网络监控系统可以监测网络设备的运行状态、数据传输速率等指标,一旦发现异常情况,就能够及时发出警报并通知管理员采取相应的措施。
除了实时监测,故障诊断也是关键环节之一。
网络故障可能由多种原因引起,如硬件故障、软件错误或网络拥塞。
通过故障诊断系统,能够分析故障发生的原因,并给出相应的解决方案。
例如,网络管理系统可以根据故障现象和设备状态来判断故障原因,并提供相应的故障处理指南,帮助管理员快速解决问题。
三、容错编码技术容错编码技术是一种通过在数据中引入冗余信息来纠正和恢复错误的方法,被广泛应用于提高通信和存储系统的可靠性。
例如,在存储系统中,可以使用冗余数据来纠正和恢复硬盘中的错误数据,提高数据的完整性和可靠性。
在通信系统中,可以使用差错检测和纠错编码技术来保证数据传输的正确性。
容错编码技术可以提高网络的抗干扰能力,减少错误传输对网络性能的影响。
增强固态硬盘容错能力的技术研究固态存储技术是通过闪存(Flash)阵列来高速存取数据的一种存储技术。
固态硬盘容量越来越大是建立在单颗芯片容量不断增大的基础上的,然而Flash芯片在容量增加的同时可靠性却不断下降。
因此当前固态硬盘面临的可靠性问题成为制约固态硬盘商业化的重要障碍,针对固态硬盘可靠性问题的研究对于促进固态存储技术的发展具有重要意义。
本文从固态存储介质的比特可靠性和固态硬盘整体可靠性两个方面展开了研究。
当前主流的固态硬盘都是以NAND Flash作为存储介质,NAND Flash具有容量大、读写速度快的特点。
随着单芯片集成度的提高,NAND Flash的误码率越来越高,这就需要纠错能力越来越强的纠错编码来保证存储数据的可靠性。
而低密度奇偶校验码(Low Density Parity Check,LDPC)是一种纠错能力较强的纠错编码方式,本文根据MLC Flash的误码率特性,提出了一种适用于MLC 的LDPC码校验节点的构造方式。
针对MLC存储单元中高有效位(Most Significant Bit,MSB)和低有效位(Least Significant Bit,LSB)误码率不同的特点,从降低LDPC码的译码错误概率出发,提出了一种LDPC码校验节点中MSB 和LSB的合理搭配方式。
仿真实验表明LDPC码校验节点中MSB和LSB的比例越不均衡,LDPC码的译码错误概率越小。
在构造LDPC码时使用这种方法构造的校验节点,能够有效降低LDPC码的译码错误概率。
固态硬盘中不仅会出现比特翻转现象,还会可能出现Flash页、块、芯片甚至控制器失效的情况。
为了应对页、块可能失效的情况,固态硬盘引入了纠删码的概念,通过一定程度的数据冗余,提高数据的可靠性。
本文提出了基于RAID-5技术的改进型的固态硬盘数据冗余机制,通过在固态硬盘通道之间建立数据的冗余关系确保固态硬盘在出现通道级以下错误时仍然能够正常读取数据。
数据存储与容灾第二版数据存储是指将数据存放在特定的媒介中以便后续访问和使用的过程。
随着信息技术的不断发展,数据存储的需求也越来越大。
同时,为了保障数据的安全和可靠性,数据容灾也成为了一个重要的话题。
本文将重点讨论数据存储与容灾的相关内容。
一、数据存储的基本原理数据存储可以通过多种方式实现,例如磁盘、内存、云存储等。
其中,磁盘是最常见的一种数据存储媒介。
磁盘通过将数据存储在磁道和扇区中,实现了数据的永久保存。
内存则是一种临时存储介质,其读写速度更快,但容量有限。
云存储则是将数据存放在远程服务器上,用户可以通过网络访问和管理数据。
二、数据存储的优化策略为了提高数据存储的效率和性能,我们可以采取一些优化策略。
首先,我们可以使用压缩算法来减小数据的存储空间,从而节省存储成本。
其次,我们可以采用分布式存储的方式,将数据分散存储在多个节点上,提高系统的可扩展性和容错性。
此外,数据的索引和分区策略也可以对数据的读写效率产生重要影响。
三、数据容灾的意义和方法数据容灾是指为了保障数据的安全和可靠性,采取一系列措施来防止数据丢失和损坏的过程。
数据容灾的意义在于保护重要数据免受各种风险的影响,例如硬件故障、自然灾害、人为错误等。
常见的数据容灾方法包括备份、镜像和冗余存储等。
备份是将数据复制到其他存储设备或位置,以防止原始数据的丢失。
镜像则是将数据实时同步到其他设备上,以保证数据的一致性和可用性。
冗余存储则是通过使用冗余的硬件设备来存储数据,以提高系统的容错性。
四、数据存储与容灾的最佳实践在实际应用中,我们需要根据实际需求选择合适的数据存储和容灾方案。
首先,我们需要评估数据的重要性和敏感性,根据不同的需求选择不同的媒介和策略。
其次,我们需要制定合理的数据备份和恢复计划,确保数据的完整性和及时性。
同时,定期进行数据的测试和验证,以确保备份和恢复方案的有效性。
此外,我们还需要关注数据安全和隐私保护,采取措施防止数据泄露和未授权访问。
面向应用的Legato双机容错存储方案
史宏图
【期刊名称】《通信世界》
【年(卷),期】2003(000)003
【摘要】当前企业内运行的应用越来越丰富,也越来越复杂,各种应用都需要进行完善的备份。
高可用性软件的基本工作原理是服务器间通过软件监控服务器,当某服务器硬件或是软件失效,软件的切换功能发生作用将中断服务器的工作在指定服务器上启动起来使服务器的工作得以继续。
高可用性软件从功能上分可以分为热备、容错两种,细分为双机热备、双机容错、集群热备、集群容错(注:双机指两台服务器间,集群指多台服务器间)。
热备与容错的区别在于容错软件监控服务器的应用,而热备是监控服务器的硬件。
容错软件有着比热备软件更高的性能。
【总页数】1页(P44)
【作者】史宏图
【作者单位】无
【正文语种】中文
【中图分类】TP309.3
【相关文献】
1.面向分散式存储的数字图书馆云存储方案研究 [J], 陈臣
2.Legato Co-StandbyServer AAdvanced双机容错解决方案 [J],
3.面向应用级的双机容错系统的设计与实现 [J], 谢长生;胡兵全
4.面向期限感知分布式矩阵相乘的高效存储方案 [J], 赵永柱; 黎卫东; 唐斌; 梅峰; 卢文达
5.基于MapReduce面向列的数据库存储方案研究 [J], 李爱武;刘宁;严升则
因版权原因,仅展示原文概要,查看原文内容请购买。
第46卷 第3期2020年6月空间控制技术与应用AerospaceControlandApplicationVol.46 No.3Jun. 2020DOI:10.3969/j.issn.1674 1579.2020.03.010一种低成本高可靠的星载计算机存储器容错方法吕 岩摘 要:星载计算机应用中,高可靠和低成本往往相互矛盾.传统计算机系统通过采用高等级器件的方式来提高系统可靠性,但代价是成本高昂.商业卫星采用降低元器件等级的方式来降低系统成本,但可靠性也随之降低.针对这一矛盾,提出了一种设计方法:利用低等级元器件,通过对程序存储器和数据存储器双冗余的方式来提高计算机存储器的可靠性、容错能力以及抗空间环境能力.采用本设计的计算机其存储器部分的可靠性与传统宇航计算机相当,成本与商业卫星计算机相当,实现了低成本与高可靠兼顾.关键词:低成本;高可靠;容错;单粒子效应;星载计算机中图分类号:V446 文献标志码:A 文章编号:1674 1579(2020)03 0066 06AFault TolerantMethodforSpaceComputerMemorywithLow CostandHigh ReliabilityLVYanAbstract:Inspacebornecomputerapplications,highreliabilityandlowcostarecontradictory.Tradition alspacecomputersystemsusehigh leveldevicestoimprovesystemreliabilitywithhighcost.Commercialsatellitesuselow gradecomponenttoreducesystemcost,butreliabilityisalsoreduced.Inresponsetothiscontradiction,adesignmethodisproposed:onthepremiseoflow gradecomponents,throughthedualredundancyofprogrammemoryanddatamemorytoimprovethereliabilityandfaulttoleranceofcomputersystemmemory.Thereliabilityofthememorypartofthecomputeradoptingthisdesigniscom parabletothatofatraditionalaerospacecomputer,andthecostiscomparabletothatofacommercialsat ellitecomputer.Andfinallybothlowcostandhighreliabilityareachieved.Keywords:low cost;high reliability;fault tolerant;single eventeffect;spacecomputer收稿日期:2020 04 22;录用日期:2020 06 10.ManuscriptreceivedApr.22,2020;acceptedJune10,2020.“十三五”装备预研航天科技联合基金资助项目(6141B06090301).“ThirteenthFive Year”equipmentpre researchspacescienceandtech nologyjointfundproject.山东航天电子技术研究所,烟台264000.ShandongInstituteofSpaceElectronicTechnology,Yantai264000,China.0 引 言一般而言,星载计算机系统主要由:处理器、程序存储器、数据存储器等部分组成.传统的星载计算机系统一般选用高等级器件,程序存储器一般选用对单粒子免疫的反熔丝型器件,数据存储器(staticrandom accessmemory,SRAM)一般选用抗单粒子阈值高的器件,或者通过错误检测与纠正(errordetectionandcorrection,EDAC)等技术来对抗单粒子翻转[1].通过提高单个元器件可靠性的方式来提高整个计算机系统的可靠性,这种方式的优点是可靠性高,代价是成本高昂.随着航天技术的发展,商用现货(commercialoff the shelf,COTS)器件凭借着成本低,集成度高等优点,应用日益广泛.目前商业卫星公司通常采用降低器件质量等级的方式来降低成本.由于COTS器件大多采用塑封形式,存在吸潮、爆米花效应等问题,其可靠性相对较低,且由于未针对航天应用环境进行特殊设计,其抗空间环境能力也较弱,在轨易发生因单粒子、总剂量等问题导致的在轨异常[2 4].鉴于此,商业卫星在设计时一般会对COTS存储器件有容错措施,但大部分容错只限于存储器单芯片内的软件多模技术,比如在存储器中存放多份程序代第3期吕 岩:一种低成本高可靠的星载计算机存储器容错方法码冗余,用来对抗单粒子翻转导致的系统无法启动[5],此方法只能在一定程度上对抗单粒子翻转,不能够对抗存储器单芯片失效,而存储器单芯片失效也就意味着整个计算机系统的失效.因此,选用COTS器件虽然可以降低计算机成本,但也降低了系统的可靠性.目前提高计算机系统可靠性的方法主要有三模等技术,即对计算机系统进行整机三模[6],该方法可大幅提高系统的可靠性,但付出的代价很大,需要同时配置三套计算机系统,体积大,重量大,功耗高,带来的附加成本较高,在商业卫星领域不易推广.针对此问题,对于低轨应用场景,提出了一种设计方法,利用COTS器件,通过程序存储器和数据存储器双冗余的方式来提高计算机系统的可靠性.相比于计算机系统三模,本设计付出的代价较小,仅需要增加两片存储器即可对计算机系统的可靠性和抗空间环境能力有较大提升,且系统具有优异的容错能力,即便单个存储器失效,系统也能够正常运行.1 系统组成在计算机系统中,受器件复杂度等因素影响,失效率高的器件主要为:程序存储器、数据存储器和处理器.其它器件诸如电阻、电容、电源、逻辑门电路等器件失效率相对较低[7].考虑到处理器的重要性,一般商业卫星都会选用高等级器件作为处理器.因此,在提高可靠性方面我们主要对低等级的程序存储器和数据存储器进行可靠性加固,代价小,收益高.由于低等级的程序存储器和数据存储器多为塑封器件,存在吸潮、爆米花效应等问题,长时间在轨应用有失效的风险[8].因此对其进行了双冗余.由于COTS器件自身抗空间环境能力相对较弱,在轨易发生单粒子翻转.因此,选用了芯片自身带有错误检查与纠正(errorcorrectingcode,ECC)功能的存储器件.综合以上原则,本设计的计算机系统主要由以下几部分组成:处理器(高等级器件)、双冗余SRAM(COTS器件)、双冗余NORFLASH(COTS器件).其中SRAM选用两片同样规格的带ECC纠检错功能的SRAM,FLASH选用两片同样规格的带ECC纠检错功能的NORFLASH,两片SRAM和FLASH均同时工作.系统框图如图1所示.图1 计算机系统组成框图Fig.1 Computersystemfunctionblockdiagram2 系统设计2.1 硬件设计处理器选用ACTEL的SmartFusion2系列片上系统FPGA,内部集成了166MHz的Cortex M3硬核处理器,资源丰富,体积小,功耗低[9],有过大量飞行验证.本设计选用SmartFusion2系列的M2S050T 1FGG484M型处理器.程序存储器选用CYPRESS公司生产的NORFLASH,可存储Boot程序和应用程序,芯片选型为S25FL512SAGBFI211,容量512Mbit,芯片自带ECC功能,每16bytes可以纠正1bit数据位翻转,ECC纠检错状态可以通过访问FLASH的ECC寄存器来查看.芯片采用串行外设接口(serialpe ripheralinterface,SPI),Quad模式下读取速率可以达到104MHz.数据存储器选用ISSI公司生产的SRAM,可用于运行计算机程序,芯片选型为IS61WV102416EDBLL 10B2L,容量16Mbit,自带ECC纠检错功能,每1byte可以纠正1bit数据位翻转,芯片输出ECC纠检错状态管脚ERR,用高低电平来表征当前是否发生ECC纠检错.SRAM的访问速度可达到100MHz.计算机系统搭建原理如图2所示.2.2 程序运行设计NORFLASH作为程序存储器,将引导程序和应用程序拷贝相同的两份存放在两片NORFLASH中,FPGA主要实现CPU与FLASH之间的地址转换以及2片FLASH数据的表决.处理器加电后,CPU通过FPGA映射地址从FLASH中加载,将FLASH中存放的应用程序加载到SRAM中,完成程序加载后,CPU从SRAM中运行.·76·空间控制技术与应用第46卷图2 计算机系统原理图Fig.2 Schematicdiagramofcomputersystem2.2.1 程序加载M2S050T处理器CPU主频设置为128MHz,处理器在启动时对程序加载速度一般无特殊要求,设置访问FLASH为64个等待周期,即CPU对FLASH的访问周期为496ns.FLASH在Quad模式下单次访问耗时21ns.读取FLASH的ECC状态寄存器需要采用FASTREAD方式,单次访问耗时421ns.在CPU一个取指周期内,FPGA依次完成以下操作:T1阶段:FPGA将CPU的访问地址映射给2片FLASH并判读2片FLASH给出的数据是否一致;T2阶段:FPGA判读两数据一致则将FLASH1数据映射给CPU,如果不一致则访问2片FLASH的ECC寄存器状态;T3阶段:FPGA将ECC寄存器状态正确的FLASH数据映射给CPU.一个取指周期内,各阶段所耗费的时间如图3所示.图3 CPU程序加载一个取指周期Fig.3 CPUprogramloadsaddressingcycle程序加载流程如图4所示.2.2.2 程序运行M2S050T处理器CPU主频设置为128MHz,星上平台应用场景,一般设置SRAM为4个等待周期即可满足大部分应用需求,即CPU对SRAM的访问周期为31ns.SRAM的单次读写耗时10ns.图4 CPU程序加载工作流程Fig.4 CPUprogramloadingworkflow在CPU一个SRAM访问周期内,FPGA依次完成以下操作:T1阶段:FPGA将CPU的访问地址映射给2片SRAM并判读2片SRAM给出的数据是否一致;T2阶段:如果数据一致则将SRAM1给出的数据映射给CPU,如果不一致则判读2片SRAM的ERR管脚状态;T3阶段:FPGA将ERR状态正确的SRAM数据映射给CPU,同时FPGA将错误的SRAM数据回写并纠正.一个访问周期内,各阶段所耗费的时间如图5所示.图5 CPU程序运行一个取指周期Fig.5 CPUprogramrunsaddressingcycle·86·第3期吕 岩:一种低成本高可靠的星载计算机存储器容错方法程序运行流程如图6所示.图6 CPU程序运行工作流程Fig.6 CPUprogramoperationworkflow3 容错分析针对COTS器件在轨易发生的故障进行了分析和对比,见表1.由表1可知,采用本设计的计算机系统,基本可抵御在轨的常见异常,且对抗单粒子翻转的鲁棒性更强,能够容忍单bit或多bit翻转,因此,在容错方面,本设计要优于传统的计算机系统.4 可靠性预计根据GJB/Z299C 2006电子设备可靠性预计手册,在计算机系统中,受器件工艺复杂度等因素影响,计算机系统中失效率较高的器件主要为:程序存储器、数据存储器和处理器等大规模集成电路.其它器件诸如电阻、电容、电源、逻辑门电路等器件其失效率相对较低.因此我们将计算机核心部分简化成以下模型,如图7所示.表1 计算机在轨易发生的故障分析对比Tab.1 Analysisandcomparisonofcomputer pronefaults序号故障模式传统计算机系统本设计计算机系统结果措施结果措施1因器件、工艺、空间环境等问题导致的单片FLASH失效无法启动无措施正常启动可通过另一片FLASH正常启动2FLASH发生单bit翻转多次加载直至启动1片FLASH中存储多份程序代码,第1份程序代码翻转则切换至第2份,直至找到未翻转的程序代码启动.正常启动FLASH自带ECC纠检错功能,能够抵御单bit翻转.3FLASH发生多bit翻转无法启动无措施,所存储的备份程序代码均被打翻.正常启动两片FLASH容错,FPGA可通过ERR状态表决出正确的FLASH供处理器启动,同时FPGA可刷新纠正被多bit打翻的FLASH.4因器件、工艺、空间环境等问题导致的单片SRAM失效无法运行无措施正常运行可通过另一片SRAM正常运行5SRAM发生单bit翻转正常运行通过EDAC等软件措施进行纠检错正常运行SRAM自带ECC纠检错功能,能够抵御单bit翻转.6SRAM发生多bit翻转计算机重启计算机运行错误,进入陷阱,重新加载.正常运行两片SRAM容错,FPGA可通过ERR状态表决出正确的SRAM供计算机运行,同时FPGA可刷新纠正被多bit打翻的SRAM. 由上图可知,传统计算机或商业卫星计算机系统可简化为串联模型,任何一部分失效,均会导致系统失效.由上图可知,本设计计算机系统可简化为串并联混合模型,只有两片SRAM或FLASH同时失效,才会导致系统失效.对比两个模型可知,除SRAM和FLASH连接方式不同外,其余部分两个模型均为串联模式(两个·96·空间控制技术与应用第46卷模型的Ra、Rb可靠性相同).因此,为了突出两种模型的对比情况,下面仅针对两种模型的SRAM和FLASH进行局部可靠性预计.图7 传统计算机或商业卫星计算机可靠性简化模型1Fig.7 TraditionalcomputerorCommercialsatellitescomputerreliabilitymodel1图8 本设计计算机可靠性简化模型2Fig.8 Computerreliabilitymodel3ofthepaper 根据GJB/Z299C 2006电子设备可靠性预计手册,进口集成电路的失效率计算公式为[7]:λp=(C1πT+C2πE)πQ(1)其中:λp表示模型中各器件的失效率;C1表示电路复杂度失效率,10-6/h;πT表示温度应力系数;C2表示封装复杂度失效率,10-6/h;πE表示环境系数;πQ表示质量系数;根据式(1)查表并计算等规模的宇航级和工业级芯片的失效率如表2所示.根据可靠性预计公式[10]:RS(t)=∏mi=1Ri=Rflash2×Rsram2=e-∑Ni=1λit(2)其中:RS(t)表示模型中存储器部分总的可靠性;Ri表示模型中各部分的可靠性;λi表示模型中各器件的失效率;t表示模型中器件的工作时间;Rflash1表示FLASH的可靠性;Rsram1表示SRAM的可靠性。
西安工业大学
容错技术与存储容错
姓名:李丽莎
学号:1206210398
专业:计算机应用技术
容错技术与存储容错
摘要:大量数据需要传输和存储,在传输和存储过程中会出现各式各样的错误。
为了避免和减少这些错误的发生,增加系统的可靠性,由此出现了容错机制。
本文就容错的概念,容错技术,存储容错系统和常见的两种容错系统进行了探讨,深入理解了容错的机制和内涵。
关键词:数据存储;容错技术;容错系统
1、容错技术的概况和历史
容错FT(Fault Tolerant)就是当系统由于种种原因出现了数据、文件损坏或丢失时,能够自动地将这些损坏或丢失的文件和数据恢复到发生事故以前的状态,使系统能够连续正常运行的一种技术。
容错技术一般利用冗余硬件交叉检测操作结果。
上世纪80年代,第一代容错技术开始进入商用领域。
1993年,英特尔 I860处理器在Stratus的硬件级容错体系结构中成功应用。
1996年,容错技术得到HP的支持,共同推出Stratus Continuum系列,将Stratus容错结构结合HP PA -RISC对称多处理技术。
进入21世纪以来,制造、中小企业、能源、交通等领域对服务器,特别是中低端IA服务器的需求激增,过去仅仅可以应用在RISC平台、HP-UX环境下的容错产品也面临着新的挑战。
如今,NEC通过与美国容错公司多年的合作,于2001年推出了业界第一台基于IA架构、支持Microsoft Win-dows Server 2000标准操作系统环境的容错服务器。
2、常见的容错技术
常见的容错技术有双重文件分配表和目录表技术、快速磁盘检修技术、磁盘镜像技术、双工磁盘技术等。
2.1 双重文件分配表和目录表技术
硬盘上的文件分配表和目录表存放着文件在硬盘上的位置和文件大小等信息,如果它们出现故障,数据就会丢失或误存到其他文件中。
通过提供两份同样的文件分配表和目录表,把它们存放在不同的位置,一旦某份出现故障,系统将做出提示,从而达到容错的目的。
2.2 快速磁盘检修技术
这种方法是在把数据写入硬盘后,马上从硬盘中把刚写入的数据读出来与内存中的原始数据进行比较。
如果出现错误,则利用在硬盘内开设的一个被称为“热定位重定区”的区,将硬盘坏区记录下来,并将已确定的在坏区中的数据用原始数据写入热定位重定区上。
2.3 磁盘镜像技术
磁盘镜像是在同一存储通道上装有成对的两个磁盘驱动器,分别驱动原盘和副盘,两个盘串行交替工作,当原盘发生故障时,副盘仍旧正常工作,从而保证了数据的正确性。
2.4 双工磁盘技术
它是在网络系统上建立起两套同样的且同步工作的文件服务器,如果其中一个出现故障,另一个将立即自动投入系统,接替发生故障的文件服务器的全部工作。
3、存储容错系统
3.1 存储容错系统
存储容错系统实现了存储级的HA,能够在两套存储间自动持续复制数据,实现存储镜像及数据的实时同步;在主存储节点故障时,RSS容错存储系统可自
动将数据访问路径导向备用存储节点,从而保障系统可持续访问存储设备。
3.2 存储容错系统的特点
存储容错系统的特点如下:
(1)安全、高性能的数据存储架构
全冗余的存储架构,通过存储镜像及实时同步技术,构建存储HA架构,消除存储设备单点故障;性能卓越的RAID处理系统和端到端的8G通能力,可在复杂的SAN应用环境下提供高效的数据吞吐服务。
(2)快速数据同步和故障切换
采用独立的数据管理架构,数据同步、路径切换、数据恢复过程由专用的系统管理,几乎不消耗任何应用主机资源。
基于高速SAN网络的数据同步和恢复,秒级故障切换。
(3)与现有IT环境的无缝集成
可动态融入FC SAN网络,为SAN中任意主机透明提供容错存储,对于用户已有的存储设备,UDSAFE RSS可通过Transparent透明卷迁移功能实现在线数据接管,无需对原存储迁移数据,重新配置RAID并恢复数据。
(4)弹性的容量管理与灵活的扩展性
具有独特的自动精简配置技术,可实现容量超额分配与动态占用,简化存储管理,提升存储资源利用率;并可实现存储容量的动态扩展,具有很大的灵活性。
(5)丰富的数据保护功能
支持快照,卷拷贝,远程复制等数据保护技术,可轻松实现数据备份及数据容灾。
4、常见的容错系统
4.1 网络存储系统容错
海量网络存储系统,跟任何一个系统一样,要安全可靠。
海量网络存储系统的可靠性其实显的更加的重要,海量网络存储系统管理着庞大的数据,在这个视数据为生命的时代,可靠性的要求是不言而喻的。
如何让浩瀚的网络数据可靠安
全,这就要从容灾容错机制着手,设计一种比当前有效的、安全的保障机制。
网络存储系统中不论硬件设备还是软件都不可避免存在故障的发生,但并不是故障发生就一定意味着该系统完全失效。
“容错”就是容许存在某些错误,因此,容错计算就可以理解为即使有硬件故障或数据丢失,系统仍能正常运行。
我们可以利用冗余机制来实现容错功能从而提高系统的可靠性。
“冗余”按汉语字面理解就是“多余,没有用的”,显然,这种解释在这里是讲不通的。
其实,它是实现容错技术提高系统可靠性的最主要手段。
冗余主要包括软件冗余,硬件冗余和数据冗余。
硬件冗余主要是通过网络接口和网络链路冗余来实现可靠的网络I/O 通道。
数据冗余是指数据之间的重复,也就是说除了正常的数据之外,还有一些多余的数据,网络存储系统中数据冗余主要有复制和编码两种方式。
复制主要是指将同样的数据存储多份。
目前P2P存储系统和分布式文件系统通常使用复制来提高系统的性能和文件访问的容错。
由存储节点组成的文件系统分布于整个广域网中,同时想要访问大文件的多个客户也分布于整个广域网中。
文件系统使用的标准策略是把文件分割成n个固定大小的块,这些块被复制k份分布在整个系统中。
单个文件被分割成8个数据块,标号从1到8,每个数据块被复制到8个存储节点中的任意四个节点上。
编码方式的冗余是指将数据通过一定的编码算法计算出校验数据,然后原始数据和校验数据分布存储在整个系统中。
编码方式有很多种,目前存储系统中主流的编码技术是基于奇偶校验的RAID 技术,数据存储分布冗余通过存储虚拟化技术构建相应级别的RAID来实现。
常见的RAID技术有RAID1、RAID3、RAID5。
RAID5解决了容错问题,而且有三分之二的存储容量。
4.2 GFS容错机制
GFS容错机制主要有Master容错和Chunk Server容错。
4.2.1 Master容错
具体来说,Master上保存了GFS文件系统的三种元数据。
1)命名空间
(Name Space),也就是整个文件系统的目录结构。
2)Chunk与文件名的映射表。
3)Chunk副本的位置信息,每一个Chunk默认有三个副本。
首先就单个Master来说,对于前两种元数据,GFS通过操作日志来提供容错功能。
第三种元数据信息则直接保存在各个Chunk Server上,当Master启动或Chunk Server向Master注册时自动生成。
因此当Master发生故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数据。
为了防止Master彻底死机的情况,GFS还提供了Master远程的实时备份,这样在当前的GFS Master出现故障无法工作的时候,另外一台GFS Master可以迅速接替其工作。
4.2.2 Chunk Server容错
GFS采用副本的方式实现Chunk Server的容错。
每一个Chunk有多个存储副本(默认为三个),分布存储在不同的Chunk Server上。
副本的分布策略需要考虑多种因素,如网络的拓扑、机架的分布、磁盘的利用率等。
对于每一个Chunk,必须将所有的副本全部写入成功,才视为成功写入。
在其后的过程中,如果相关的副本出现丢失或不可恢复等状况,Master会自动将该副本复制到其他Chunk Server,从而确保副本保持一定的个数。
尽管一份数据需要存储三份,好像磁盘空间的利用率不高,但综合比较多种因素,加之磁盘的成本不断下降,采用副本无疑是最简单、最可靠、最有效,而且实现的难度也最小的一种方法。
GFS中的每一个文件被划分成多个Chunk,Chunk的默认大小是64MB,这是因为Google应用中处理的文件都比较大,以64MB为单位进行划分,是一个较为合理的选择。
Chunk Server存储的是Chunk的副本,副本以文件的形式进行存储。
每一个Chunk以Block为单位进行划分,大小为64KB,每一个Block对应一个32bit的校验和。
当读取一个Chunk副本时,Chunk Server会将读取的数据和校验和进行比较,如果不匹配,就会返回错误,从而使Client选择其他Chunk Server上的副本。
参考文献
[1] 周敬利,余胜生.网络存储原理与技术[M].北京:清华大学出版社,2005
[2] 李二补.数据存储系统中可靠性和容错性研究.山西:山西三维集团
[3] 赵文辉,徐俊,周加林.网络存储技术[M].北京:清华大学出版社,2005。