7609双引擎冗余故障处理
- 格式:doc
- 大小:35.00 KB
- 文档页数:3
ControlLogix系统冗余故障分析及改进措施(合集五篇)第一篇:ControlLogix系统冗余故障分析及改进措施ControlLogix系统冗余故障分析及改进措施摘要:介绍了ControlLogix冗余系统的组成和工作原理。
针对故障现象,通过对系统软件的深入研究和不断试验、实践,提出了合理的改进措施并取得了良好的效果,提高了系统的可靠性、排除了因不确定性故障所导致的系统安全。
关键词:ControlLogix冗余系统;故障;原因分析;改进措施和处理方案冗余系统应用简介以深圳地铁一期工程为例:典型车站分为A、B两端,在A端设置两套冗余的控制器(PLC),一套作为整个车站的主控制器兼作与上位机的通讯接口,接车站交换机,另外一套负责A端的设备监控;在B端设置一套冗余的从控制器,负责B端的设备监控;在车站的其它地方设置远程I/O设备。
控制器及各远程I/O设备通过冗余的ControlNet现场总线相连。
(系统配置如图1)冗余系统的设置和工作原理ControlLogix冗余系统硬件结构由两个完全一样的控制器框架组成,每个ControlLogix冗余系统框架中控制器模块、通信模块和SRM 模块。
两个框架尺寸完全相同,模块一模一样,插放位置也一模一样,控制器中的程序也一模一样。
两个控制器框架之间,完全靠系统冗余模块SRM来完成同步和数据的交换。
进入同步状态的主机控制器,自动地传送备份数据到辅机控制器,这些数据无须用户挑选和编程,只要在主机控制器中被程序运行时刷新过的数据,都会通过交叉装载传送到辅机控制器,传送的数据量可以非常大。
控制器通过与SRM的连接,得知自己是主机控制器还是辅机控制器,从而决定是传送数据还是接收数据。
这些完全不需要用户的介入,系统自动获取、自动判断、自动传送。
两个控制器的同步运行和大量数据的复制,使得输出得到无扰切换。
在成对的冗余框架中,首先上电的框架成为主机框架,后上电的框架作为辅机框架,并建立与主机控制器的同步。
数据错误(循环冗余检查)之解决方法数据错误是指在计算机系统中出现的一种数据损坏或不一致情况。
循环冗余检查(Cyclic Redundancy Check,CRC)是一种常用的错误检测机制,用于检测和纠正数据传输过程中的错误。
数据错误(循环冗余检查)通常是由于传输过程中出现的数据损坏、病毒感染、存储介质老化或操作系统问题等原因引起的。
下面将介绍几种常见的解决方法。
1.使用备份数据备份是最常见的解决方法之一、通过定期备份数据,可以确保在数据出现错误时可以恢复到之前的可靠状态。
备份可以使用外部存储设备(如硬盘、U盘、网络存储等)进行,也可以使用在线云存储服务。
2. 使用数据恢复工具数据恢复工具可以帮助恢复被损坏或删除的数据。
这些工具通常可以扫描磁盘或存储介质,找回被损坏或删除的文件,并尝试恢复错误的数据。
常用的数据恢复工具有Recuva、DiskGenius、EaseUS Data Recovery等。
3.使用校验和校验和是一种简单的错误检测方法,通过比较发送方计算出的校验和与接收方计算出的校验和是否一致来判断数据是否正确。
如果校验和不一致,就说明数据出现了错误。
校验和可以用于文件传输、网络通信等场景,并且可以在软件中轻松实现。
4.使用奇偶校验奇偶校验是一种简单而有效的错误检测方法。
在奇偶校验中,发送方将要发送的数据进行编码,使得数据中的1的个数为奇数或偶数。
接收方在接收到数据后,计算数据中1的个数,并与发送方发送的奇偶数进行比较,以判断数据是否正确。
如果接收方计算出的奇偶数与发送方发送的奇偶数不一致,就说明数据出现了错误。
5.使用纠错码纠错码是一种更强大的错误检测和纠正机制。
与校验和、奇偶校验不同,纠错码可以检测和修复多个位的错误。
常见的纠错码有海明码、RS码、BCH码等。
纠错码可以应用于存储系统、通信系统等场景,可以大幅提高数据的可靠性。
6.检查硬件问题如果数据错误频繁发生,有可能是硬件问题导致的。
机械设计中的冗余优化与故障排除机械设计是一门涉及机械结构、工艺和材料等多学科交叉的学科,旨在设计、开发和优化各种机械系统。
在机械设计过程中,冗余优化和故障排除是两个重要的方面,对于提高机械系统的性能和可靠性至关重要。
一、冗余优化冗余是指在设计中添加额外的部件或功能,超过了实际需要的数量。
冗余设计有多种形式,包括冗余部件、功能冗余和冗余路径等。
冗余设计的目的是提高系统的鲁棒性和可靠性。
首先,冗余部件的设计是一种常见的冗余优化策略。
通过增加部件的数量,可以提高系统的容错能力。
例如,在一个传动系统中,可以增加多个相同的齿轮,以防止其中一个齿轮故障导致整个系统失效。
这种冗余设计可以有效地减少单点故障的概率,提高系统的可用性。
其次,功能冗余的设计也是一种常见的优化策略。
功能冗余是指在系统中添加多个可以完成相同功能的部件或模块。
这种设计可以保证当一个部件或模块发生故障时,其他部件或模块能够继续完成相同的功能,从而实现故障的快速切换和系统的可用性保障。
例如,在一个自动化生产线中,可以配置多个相同的机器人进行操作,当其中一个机器人故障时,其他机器人可以接替其任务,保持生产的连续性。
最后,冗余路径的设计也是一种重要的策略。
冗余路径是指在系统中设置多条不同的传输路径,以实现数据或能量的冗余传输。
这样一来,即使其中一条路径发生故障,系统仍然可以通过其他路径正常工作。
例如,在电力系统中,可以设计多条供电线路,当其中一条线路发生故障时,电力可以通过其他线路供应,确保供电的可靠性。
二、故障排除任何一个机械系统都有可能发生故障,因此故障排除是机械设计中不可或缺的一环。
故障排除是指通过识别和排除故障源,恢复机械系统的正常运行。
在故障排除过程中,需要运用多种技术和方法。
首先,故障排除需要进行故障诊断,确定故障的具体原因。
常见的故障诊断方法包括故障现象观察、实验测试、模拟仿真以及故障模式分析等。
通过对故障进行系统性的分析和判断,可以准确地确定故障源,从而采取相应的修复措施。
双机冗余系统通常包括几个层次,即:硬件冗余、操作系统冗余、应用系统冗余。
我们的解决方案指的是应用系统冗余,具体说就是控制系统软件的冗余。
而控制系统软件的冗余又包含两个方面的内容,即驱动程序的冗余和S CAD A软件的冗余。
驱动程序的冗余主要是指驱动程序的热备方式。
热备方式通常包括驱动程序的两种扫描方式,即两个驱动程序同时扫描同时接收或者只有一个驱动程序进行扫描。
通常情况下,两个驱动程序同时扫描同时接收是不被采用的,主要是因为驱动程序和控制设备之间信道的限制,还有就是很难保证上行、下行数据的同步。
所以我们建议采用第二种扫描方式,这样就必须在两个驱动程序之间建立主备关系。
任意时刻个只有一个驱动程序进行扫描,也就是主驱动程序,而备驱动程序只进行接收,这样即可以保证上行扫描数据的一致性,也可以保证下行控制数据的唯一性。
S CAD A软件的冗余主要包括:实时数据同步、历史数据同步、报警同步、控制输出的唯一性等几个方面。
也就是说主S CAD A是监视和控制的唯一的数据源,网络上所有的MMI (人机界面工作站)都必须通过主S CAD A进行监视和控制;备S CAD A必须保证同主S CAD A的数据同步。
这里实时数据的同步主要依靠驱动程序数据的同步来实现;历史数据的同步,可以通过建立独立的历史数据服务器来实现,也可以通过在S CAD A节点上建立历史数据恢复的功能来实现。
现有的组态软件大多不具备这些功能,因此S CAD A冗余的实现除了依赖组态软件本身提供的功能外,还有额外的工作要做。
驱动程序有主备,S CAD A软件有主备,都存在切换的问题;但是驱动程序的切换和S CAD A软件的切换必须同步,否则数据的唯一性和可靠性没有任何保障。
所以驱动程序和S CAD A软件之间必须建立联系用来协调各自的状态,保证不出现混乱。
只有这样才能实现比较完善的双机冗余。
系统实例项目名称:自来水厂S CAD A冗余系统系统组成: Gateway:Motorola MDLC GatewayRTU:Motorola MOS CAD RTU通讯方式:无线操作系统:MS WINDOWS2000 SERVER/PROFESIONALS CAD A 软件:iFIXMMI工作站软件:IFIXS CAD A 冗余软件:DUALS CAD A冗余驱动程序:OPC SERVER FOR MGT功能简介:主OPC SERVER FOR MGT负责通过Motorola MDLC Gateway 扫描无线连接的RTU,备OPC SERVER FOR MGT并不对RTU发送扫描命令,只是主驱动程序同步接收RTU上传的数据。
数据中心是现代社会信息技术运转的重要基础,它承载着海量的数据存储和处理工作。
然而,由于硬件设备也会面临各种故障风险,数据中心管理中的故障切换与冗余配置技巧成为了至关重要的一环。
一、故障切换技巧故障切换是指当数据中心某一硬件设备或者网络出现故障时,系统可以快速、自动地进行切换以确保数据中心的正常运转。
以下是一些故障切换技巧:1. 快速探测故障:在数据中心中,监控系统可以实时监测硬件设备的状态,一旦发现故障,就能及时通知管理员进行处理。
同时,使用自动诊断技术可以帮助快速准确定位问题。
2. 冗余设备准备:为了保证切换的顺利进行,数据中心中应配置冗余设备。
通过冗余设计,一旦主设备出现故障,备用设备可以立即投入使用,确保系统的连续性。
3. 自动化切换:人工干预会引入延迟和人为错误的风险。
因此,数据中心应该利用自动化切换技术,将故障切换的过程自动化,提高切换的速度和准确性。
4. 异地备份:对于数据中心来说,出现灾难性故障是无法完全避免的。
为了保证数据的安全性和连续性,数据中心还应该做好异地备份工作。
即将数据备份到离主数据中心较远的地方,以防止在灾难发生时无法恢复数据。
二、冗余配置技巧冗余配置是指在数据中心中重复配置相同或类似的硬件设备,以提供备份和容错能力。
以下是一些冗余配置技巧:1. 冗余电源:电源是数据中心中必不可少的组成部分,因此配置冗余电源非常重要。
通过为服务器和网络设备提供冗余电源,可以防止单点故障导致整个系统宕机。
2. 冗余网络:正常的数据中心需要保证网络的稳定性和高可用性。
通过配置冗余网络设备,可以确保即使某一网络设备发生故障,其他设备可以顶替其工作,保证数据中心的连续性。
3. 冗余存储:数据中心的存储设备也应该配置冗余,以防止数据丢失或者无法访问。
通过使用冗余存储设备,可以实现数据备份和数据冗余,保证数据的安全性和可靠性。
4. 冗余服务器:服务器是数据中心中最重要的组成部分之一。
配置冗余服务器可以实现负载均衡和故障转移,确保数据中心的高可用性和稳定性。
数据中心是现代信息技术的核心枢纽,承载着大量关键业务应用和数据的存储与处理。
在数据中心运行过程中,故障切换和冗余配置是至关重要的技术手段,能够保障数据中心的高可用性和业务连续性。
本文将从故障切换和冗余配置两个方面,探讨数据中心管理中的相关技巧。
一、故障切换技巧故障切换是指在数据中心发生硬件或软件故障时,将受影响的资源从故障设备切换到备用设备,以保证业务的平稳运行。
故障切换的关键在于快速发现故障、迅速切换,并且保证业务连续性。
1. 故障监控与预警数据中心应配置完善的监控系统,对关键设备和服务进行实时监测,快速发现潜在故障风险。
监控系统应具备报警功能,能够在故障发生时发出及时的警报,以便管理员能够迅速采取措施进行处理。
2. 写时复制技术在故障切换过程中,数据的一致性是至关重要的。
为了避免数据丢失或不一致,可以采用写时复制(WAN)技术。
WAN技术将数据同步复制到备用设备,并实现主备设备之间的实时数据同步。
当主设备发生故障时,备用设备可以立即接管,无需手动干预,并且保证数据的一致性。
3. 负载均衡与容灾互备负载均衡技术能够将请求均匀分发到不同的服务器上,避免某一台服务器过载而导致服务不可用。
在故障切换过程中,负载均衡技术可以帮助实现故障设备与备用设备之间的平滑切换,确保业务的持续性。
冗余配置技巧冗余配置是指为了保证数据中心的高可用性,对关键组件、设备和网络进行冗余备份。
当一个组件发生故障时,备用组件可以自动接替其工作,从而避免业务中断。
1. 冗余电源与电力配备电力是数据中心不可或缺的基础设施,为了保障数据中心的连续运行,应该配备冗余电源。
冗余电源可以采用UPS(不间断电源)和发电机的组合,以应对断电等紧急情况。
2. 冗余网络与网络设备数据中心的网络是保证业务连续性的重要基础。
网络冗余配置可以通过使用多个交换机、路由器和光纤链路实现。
冗余网络能够提供备份通路,当一个网络设备发生故障时可以自动切换到备用设备,避免网络中断。
双机热备常见问题及处理人员定位系统双机热备软件常见故障分析与处理(一)故障现象:软件安装后,主备机无法正常切换。
分析原因:1,双机热备之间的切换是以主备机所连接的外网的通断作为判断的依据。
并且与主备机网络名称相关。
解决办法:1,检查主备机外网通断情况。
2,检查主备机与矿交换机之间硬件连接以及能否拼通。
3,检查软件内外网IP是否与本机对应的俩个网卡网络名以及设置IP是否一致。
(二)故障现象:主备可以正常切换,数据可以自动同步,但手动镜像却提示不成功或者超时。
分析原因:1,数据库过大会导致2分钟内数据同步不完全并超时。
2,来宾帐户未启用或设置了密码,导致本机无法访问另台机子的数据文件。
3,系统中SERVER 服务和Workstation未启动。
4,针对WINDOWS SERVER 2003 操作系统装机后要配置文件服务器,配置后选择的文件要求共享,且权限为完全控制。
隶属于Everyone 用户.5,,在本地策略用户指派权利中“拒绝本地登录中”去掉Guest帐户。
解决办法:1,检查数据库大小,把人事库照片删除后缩小在添进去。
2,检查来宾帐户是否启用以及用户指派权利选项。
3,检查是否启动SERVER 和Workstation服务。
4,在主机的数据查询分析器中输入备机的内网IP 看能否访问到备机BW_HR 和BW_KJ222这两个库。
在备机硬盘下创建文件,并通过主机的‘开始,运行’选项输入对方内网IP(例如:\\10.10.10.4)看能否访问到该文件,并对该文件进行删除及创建新文件,看是否成功。
如不成功,则检查共享文件的权限。
(三)故障现象:主备机切换时,提示无法切换成主机且数据服务器软件没有自动关闭或启动。
分析原因:1,双机热备软件设置时,所添加的文件路径与实际路径不一致。
2,软件设置时,未把最后一项:“当双机热备软件关闭时自动关闭服务器软件程序”选项打勾。
3,主备机SQL SERVER 数据库注册属性不一致。
磁盘冗余阵列解决方案RAID方案有两种,一种是硬件RAID解决方案,一种是软RAID解决方案。
硬件RAID解决方案1、RAID 0RAID 0是最早出现的RAID模式,即Data Stripping数据分条技术。
RAID 0是组建磁盘阵列中最简单的一种形式,只需要2块以上的硬盘即可,成本低,可以提高整个磁盘的性能和吞吐量。
RAID 0没有提供冗余或错误修复能力,但实现成本是最低的。
RAID 0示意图RAID 0最简单的实现方式就是把N块同样的硬盘用硬件的形式通过智能磁盘控制器或用操作系统中的磁盘驱动程序以软件的方式串联在一起创建一个大的卷集。
在使用中电脑数据依次写入到各块硬盘中,它的最大优点就是可以整倍的提高硬盘的容量。
如使用了三块80GB的硬盘组建成RAID 0模式,那么磁盘容量就会是240GB。
其速度方面,各单独一块硬盘的速度完全相同。
最大的缺点在于任何一块硬盘出现故障,整个系统将会受到破坏,可靠性仅为单独一块硬盘的1/N。
为了解决这一问题,便出一了RAID 0的另一种模式。
即在N块硬盘上选择合理的带区来创建带区集。
其原理就是将原先顺序写入的数据被分散到所有的四块硬盘中同时进行读写。
四块硬盘的并行操作使同一时间内磁盘读写的速度提升了4倍。
在创建带区集时,合理的选择带区的大小非常重要。
如果带区过大,可能一块磁盘上的带区空间就可以满足大部分的I/O操作,使数据的读写仍然只局限在少数的一、两块硬盘上,不能充分的发挥出并行操作的优势。
另一方面,如果带区过小,任何I/O指令都可能引发大量的读写操作,占用过多的控制器总线带宽。
因此,在创建带区集时,我们应当根据实际应用的需要,慎重的选择带区的大小。
带区集虽然可以把数据均匀的分配到所有的磁盘上进行读写。
但如果我们把所有的硬盘都连接到一个控制器上的话,可能会带来潜在的危害。
这是因为当我们频繁进行读写操作时,很容易使控制器或总线的负荷超载。
为了避免出现上述问题,建议用户可以使用多个磁盘控制器。
一次7609双引擎冗余故障处理过程
近日某客户报障一台Cisco7609路由器双引擎冗余工作不正常,需要上门处理。
到达现场发现改7609配置了两块SUP720-3B的引擎,分别在5 、6槽位,当前活跃引擎为slot5上引擎。
首先查看7609-1双引擎当前冗余状态
7609-1#show mod
Mod Ports Card Type Model Serial No.
1 24 CEF720 24 port 1000mb SFP WS-X6724-SFP SALxxxxxxxx
2 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SALxxxxxxxx
5 2 Supervisor Engine 720 (Active<wbr>) WS-SUP720-3B SALxxxxxxxx
6 2 Supervisor Engine 720 (Cold<wbr>) WS-SUP720-3B SALxxxxxxxx
Mod MAC addresses Hw Fw Sw Status
1 0019.56f3.91bc to 0019.56f3.91d3 2.5 12.2(14r)S5 12.2(18)SXF7 Ok
2 001a.6cd7.ed40 to 001a.6cd7.ed6f 2.5 12.2(14r)S5 12.2(18)SXF7 Ok
5 0016.c85e.2ae8 to 0016.c85e.2aeb 5.2 8.4(2) 12.2(18)SXF7 Ok
6 0013.c43a.dc74 to 0013.c43a.dc7
7 4.5 8.1(3) 12.2(17d)SXB Ok
由于设备配置的双引擎冗余方式为SSO模式:
7609-1#show run
………
no ip domain-lookup
………
redundancy
mode sso
main-cpu
auto-sync running-config
………
位于slot6的引擎IOS版本12.2(17d)SXB不支持SSO模式,因此双引擎现在工作在RPR模式,此时如果主控引擎发生故障冗余引擎会经历一次完整的启动后接管主控引擎的位置。
手动强制切换:
7609-1# redundancy force-switchover
重启时间大约在2分钟左右,结果如下:
7609-1#show mod
Mod Ports Card Type Model Serial No.
1 24 CEF720 24 port 1000mb SFP WS-X6724-SFP SALxxxxxxxx
2 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SALxxxxxxxx
5 2 Supervisor Engine 720 (Cold<wbr>) WS-SUP720-3B SALxxxxxxxx
6 2 Supervisor Engine 720 (Active<wbr>) WS-SUP720-3B SALxxxxxxxx
Mod MAC addresses Hw Fw Sw Status
1 0019.56f3.91bc to 0019.56f3.91d3 2.5 12.2(14r)S5 12.2(18)SXF7 Ok
2 001a.6cd7.ed40 to 001a.6cd7.ed6f 2.5 12.2(14r)S5 12.2(18)SXF7 Ok
5 0016.c85e.2ae8 to 0016.c85e.2aeb 5.2 8.4(2) 12.2(18)SXF7<wbr> Ok
6 0013.c43a.dc74 to 0013.c43a.dc7
7 4.5 8.1(3) 12.2(17d)SXB<wbr> Ok
由于SSO模式下不需要经历完整重启,冗余引擎可以在几秒钟内接管故障引擎,因此尽可能让双引擎工作在SSO模式。
要达到该目的需要升级该引擎的IOS文件到12.2(18)SXF7。
Slot5上的引擎IOS文件存放在内置super-bootdisk,该存储介质容量为512M,
7609-1#dir sup-bootdisk:
Directory of sup-bootdisk:/
1 -rw- 81764868 Jan 8 2007 14:32:36 -08:00 s72033-ipservicesk9_wan-mz.122-18.SXF7.bin
512024576 bytes total (429957120 bytes free)
在Slot6的引擎上对应的sup-bootdisk只有64M,而s72033-ipservicesk9_wan-mz.122-18.SXF7.bin大于80M,因此将该IOS文件拷贝到slot6上引擎外置的disk0中,disk0容量为512M。
7609-1#copy sup-bootdisk: slavedisk0:
Source filename [s72033-ipservicesk9_wan-mz.122-18.SXF7.bin]
Destination filename [s72033-ipservicesk9_wan-mz.122-18.SXF7.bin]
Copy in progress...
81764868 bytes copied in 220.980 secs (370010 bytes/sec)
进行强制切换(当前主控引擎为slot6上引擎):
7609-1# redundancy force-switchover
切换发生后slot5上的引擎成为主控,slot6的引擎不能正常重启,进入rommon状态。
此时从主控引擎(slot5)上查看状态如下:
7609-1#show mod
Mod Ports Card Type Model Serial No.
1 24 CEF720 24 port 1000mb SFP WS-X6724-SFP SALxxxxxxxx
2 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SALxxxxxxxx
5 2 Supervisor Engine 720 (Active) WS-SUP720-3B SALxxxxxxxx
6 0 Supervisor-Other Unknown Unknown<wbr>
Mod MAC addresses Hw Fw Sw Status
1 0019.56f3.91bc to 0019.56f3.91d3 2.5 12.2(14r)S5 12.2(18)SXF7 Ok
2 001a.6cd7.ed40 to 001a.6cd7.ed6f 2.5 12.2(14r)S5 12.2(18)SXF7 Ok
5 0016.c85e.2ae8 to 0016.c85e.2aeb 5.2 8.4(2) 12.2(18)SXF7 Ok
6 0000.0000.0000 to 0000.0000.0000 0.0 Unknown Unknown Unknown
回到slot6在rommon模式下指定启动文件即可正常启动:
rommon 1 >boot disk0:/ s72033-ipservicesk9_wan-mz.122-18.SXF7.bin
造成此种现象的原因是7609-1的配置文件中指定的启动位置为内置的super-bootdisk,
……..
hostname 7609-1
boot system flash sup-bootdisk:
logging buffered 40960 debugging
……..
而Slot6上引擎的super-bootdisk(64M)为空,IOS文件存放于外置的disk0中,因此slot6上引擎发生重启的时候无法正常引导IOS文件,进入rommon模式。
在手动指定启动文件的情况下slot6上的引擎能正常启动,并且在启动完成后与slot5上的引擎工作在正常SSO模式,状态如下:
7609-1#show mod
Mod Ports Card Type Model Serial No.
1 24 CEF720 24 port 1000mb SFP WS-X6724-SFP SALxxxxxxxx
2 48 CEF720 48 port 10/100/1000mb Ethernet WS-X6748-GE-TX SALxxxxxxxx
5 2 Supervisor Engine 720 (Active<wbr>) WS-SUP720-3B SALxxxxxxxx
6 2 Supervisor Engine 720 (Hot<wbr>) WS-SUP720-3B SALxxxxxxxx
当双引擎处于此状态时,两块引擎都处于完全启动状态,主控引擎发生故障时冗余引擎能在数秒内接管。
但由于IOS 文件存放位置不同,造成了切换测试中slot5→slot6→slot5切换过程正常,但是slot6会进入ROMMON模式,此时必须通过手工干预才能正常启动:
rommon 1 >boot disk0:/ s72033-ipservicesk9_wan-mz.122-18.SXF7.bin。