SDH传输故障处理分析
- 格式:doc
- 大小:45.00 KB
- 文档页数:7
浅谈SDH传输常见故障分析及处理[摘要]铁路通信传输系统是铁路系统从指挥调度到具体现场运行检修及维护的信息重要获取通道,一旦通信传输系统系统出现故障,则会造成影响运输的重大事故,为此在通信传输系统的日常维护工作中要求我们对各类故障进行定位并及时排除。
[关键词]基本原则 sdh 故障处理方法中图分类号:td327.3 文献标识码:a 文章编号:1009-914x (2013)05-0299-01一、传输故障定位的基本原则传输故障定位一般应遵循“先抢通后修复、先外部后传输、先单站后单板,先线路后支路、先高级后低级”的原则。
1.1先抢通后修复在出现故障时,系统维护者要首先抢通业务然后进行故障修复。
如果存在影响业务情况下的传输网络告警故障,如在2mbit/s业务通道出现los(信号丢失)告警,因外线原因导致的收无光告警,单元盘故障产生的unitfailure(单元失效)告警等情况下产生的故障,必须首先抢通业务。
1.2先外部后传输在处理故障时应先排除外部的可能因素,如断纤、终端设备故障、电源或机房环境配套故障等,而后进行传输系统原因查找。
当可能存在外界因素影响而产生传输网络告警故障时,如设备温度告警、光路告警、网元失效告警,也需照此原则处理。
1.3先单站后单板一般设备故障时,不会只是一个站点出现告警,而是在很多站点同时上报告警。
这时就需要通过分析和判断缩小范围,快速、准确地定位是哪个单站的问题,而后尽可能准确地将故障定位到单站后再具体定位到单板。
1.4先线路后支路在处理故障时,如果支路出现了大量ais告警,这时需要先排除线路板故障再查看支路板故障。
由于传输系统线路板的故障常常会引起支路板的异常告警,在处理告警时,应按“先线路后支路”的顺序,排除网管告警;如支路出现大量als则首先查看线路板是否出现los告警或其他异常告警,再查看支路板告警。
1.5先高级后低级在进行告警分析时,先分析高级别告警再分析低级别告警。
引言目前光通信在以往的电力载波通信、微波通信、一点多址等诸多通信方式中日显优势,并占据主导地位,现已成为电力通信网的主要传输方式。
它是以光波为载体,以光导纤维为传输媒质,将信号从一处传输到另一处的一种通信手段。
它具有传输的信息量大、距离远、频带宽、质量高、抗干扰及辐射性强等许多优点,是集语音、图像、数据通信为一体的综合传输网。
因此,如何有效地做好光通信设备的日常维护工作,确保其安全稳定地运行,是非常重要的。
本文对SDH光端设备在日常运行维护中所发生的常见故障的处理分析过程及日常维护中的一些问题,进行了简单的归纳和总结。
1 掌握线路、设备及仪表情况SDH系统的维护主要是对光线路和设备的维护,运行维护人员必须熟知系统的各方面情况才能做好维护工作,具体如下:(1) 光缆线路情况:包括光缆的长度、芯数、接头、跳纤及光纤的衰耗值、备纤等各方面情况。
(2) 设备情况:主要包括设备的型号、配置情况、机盘功能、接口情况、面板上各种告警灯和指示灯的显示情况及组网情况;光端机的各种测试指标,如:收发送光功率、灵敏度等;设备供电电源情况;ODF架、DDF架、VDF架及网管系统的应用情况。
(3) 仪表、工具情况:SDH光传输系统常用仪表有:光功率计,光时域反射仪(OTDR),误码仪,2M话路分析仪等。
要熟练掌握这些仪表的功能及使用方法。
2 故障定位的基本思路2.1 故障定位的原则故障定位一般应遵循“先外部,后传输;先单站,后单板;先线路,后支路;先高级,后低级”的原则。
(1) 先外部,后传输。
在定位故障时,应首先排除外部的可能因素,如断纤、交换侧故。
(2) 先单站,后单板。
在定位故障时,首先要尽可能准确地定位出是哪一个站,然后再定位出是该站的哪一块板。
(3) 先线路,后支路。
线路板的故障常常会引起支路板的异常告警,因此在进行故障定位时,应遵循“先线路,后支路”的原则。
(4) 先高级,后低级。
即进行告警级别分析,首先处理高级别的告警,如危急告警、主要告警,这些告警已经严重影响通信,所以必须马上处理;然后再处理低级别的告警,如次要告警和一般告警。
SDH设备故障分析定位的基本步骤和处理流程在SDH设备的实际维护过程中,故障告警不是一个一个孤立地出现的,某一设备的故障往往引发相关设备的连锁告警反应,因此,在分析故障告警时,不要仅对某一个告警进行孤立的分析,要从网络系统的角度去分析告警现象,以便正确定位故障点。
1确定故障区段(1)检查光纤、电缆是否接错、光路和网管系统是否正常,排除设备外的故障。
(2)检查各站点业务配置是否正确,排除配置错误的可能性。
(3)通过告警性能来分析故障的原因。
(4)通过逐段环回来进行故障的区段定位,将故障最终定位到单站。
(5)通过单站自环测试来定位故障板。
(6)通过更换单板来定位故障板。
2进一步定位故障(1)对于环形网的光纤连接,要按照从环外看逆时针方向,本站的东侧光板接下一站的西侧光板;对于链形网中间的ADM站点,光纤连接也要按照本站的东侧光板接下一站的西侧光板。
可以通过拔纤、关断激光器检查告警来判断光纤是否接错。
(2)电缆是否接错或不通可以通过在DDF架上环回和电口近端环回,然后检查交换机或其它外围设备是否正常的方法来判断。
(3)检查配置是否错误的重点是根据组网方式、业务方式来检查时隙是否满足业务的需要,另外也要检查单板配置,如支路板的保护/无保护、是否环回等属性;GTC板的设备类型配置;线路板的J1、C2字节配置;时钟板的同步源配置;公务板的电话号码、出环路由等。
(4)可以通过逐段环回来进行故障的区段定位,将故障定位在某一区段直至某一单站,如图1所示。
如果A站与C站之间有业务不通,在A站挂仪表测试,可以先后通过对A站电口近端环回、A站东向线路板光纤自环回、B站东向线路板光纤自环回、C站西向线路板外环回、C站对应电口远端环回来定位故障。
1)若A站电口近端环回业务不通,则说明馈线电缆、接口板或支路板故障。
2)若A站西线路板处环回业务不通,则说明可能是A、B之间的光路或光接口的问题。
3)若B站西向线路板外环回业务不通,则说明可能是A、B之间的光路或光接口问题。
SDH传输设备的告警分析及故障排除□王新辉(台州市黄岩广播电视局,浙江台州318020)中图分类号:TN943.6 文献标识码:A 文章编号:1007-7022(2003)06-0103-02 SDH光传输设备在日常工作中承担着越来越繁忙的工作,技术维护人员几乎每天都会面对告警的发生,因此正确理解SDH的告警,将有助于对故障的正确分析和判断,及时地定位及解决。
下面给出几个故障事例,通过对这些故障的分析,有益于加深对故障处理的认识。
1 光路发生阻断后,设备告警信号的分析及处理如图1所示,光缆发生阻断时,在网管上会发出OOF,LOF,RS-LOS等光路通道上的告警。
如果是单纤断,B网元收到OOF,LOF,RS-LOS 等告警,A网元则有MS-RDI类似的告警(此时告警的产生是由于K2字节的b6b7b8=110所造成的)。
图1 此时维护人员应该根据告警,并使用光功率计对收方向的光纤进行测量,若收到光信号,则可能是本端光接头或入端的光尾纤或光盘的问题;若收不到光信号,则是光缆阻断或是对端站的问题,由此来对故障进行分段查找,用O TDR再进一步定位故障点。
同时,当收端无时钟信号输入时,也会产生R-LOS告警,此时需根据网管上显示的告警进一步判断。
2 误码告警的分析及处理施,防止高频头进水;冬季下雪后要及时清扫天线的积雪,以保证信号质量。
另外,我们定期检查卫星天线接地线是否接地良好,这项检查很重要,接地良好可以防止雷击损坏卫星接收设备及机房设备。
3 播出机房设备的维护检测为了保证有线电视的安全优质播出,我们制定了一套维护管理制度,对机房设备进行周检、月检、季检和年检等定期检修和日常维护。
我们每周都对调制器的图像载波电平、伴音载波电平及音量进行调整,并做好记录,若发现某个频道电平变化较大,则尽快查找原因。
坚持对录像机进行月检,进行内部除尘,清洗磁头,对卫星接收机、视频分配器等输出的视频信号幅度每月进行一次调整。
关于SDH光传输设备系统的日常维护和常见故障处理研究文尚平成都地铁运营有限公司摘要:当前,地铁通信网络SDH光传输设备的使用数量增多,其能够观察SDH网络的再生段、复用段等通道的警告信息,从而保证电力网络的正常运行。
随着大量的SDH光传输设备投入到地铁通信网中,对其高效地故障处理与维护变得非常重要,因此对光传输设备的故障处理与消除、维护等方面都提出了更高的要求。
基于此,文章就SDH光传输设备系统的日常维护和常见故障处理进行简要分析。
关键词:SDH;光传输设备系统;日常维护;故障处理1. SDH技术传输概述随着城市化进程的加快,社会生产力提升,人均物质生活水平显著增长,相应对电力事业建设发展提出了更高的要求。
基于此,SDH技术在传输网中应用的节点数目逐渐增加,除了中心节点以外,还应该保持其他环节的业务一致,实现自动化的运行通道和生产管理,创造更高的经济效益和社会效益。
SDH传输体系在满足传输需求的同时,还可以多点环境下的网络业务传输需求。
尤其是在当前的技术条件背景下,SDH传输体系愈加完善,其中包括终端复用器、分插复用器以及数字交叉连接设备。
2. SDH传输系统故障处理原则SDH网络传输存在着异常,通常情况下是通道电路造成的故障。
一般按照以下几个原则进行处理:2.1明确故障,做出初步判断初步进行判断主要对告警指示的信息进行分析,观察SDH网络传输系统上的告警设备,检测是否存在着异常情况。
采集监控系统显示的信息以及业务部门的申告信息,从中进行初步判断。
主要是明确故障是系统内部还是系统外部故障,网络设备还是线路的故障,从而初步判断出障碍段和障碍性质。
2.2电路调度原则在初步判断好故障的性质和路段后,如果通信还不能够恢复,就要采取相应的应对措施。
利用电路调度的基本原则,根据重要程度的先后顺序,采取紧急调度的方案。
及时恢复重要线路、重要地区、重要电路的通信,以保证重点线路的正常通信。
2.3加速故障排除原则在进行电路调度之后,必须采取故障排除工作。
SDH同步传输系统的故障处理方法对于SDH传输设备故障的定位和排除,首先应该做到熟悉SDH光同步传输系统的理论知识,了解告警信号流的走向;其次应掌握SDH光传输设备的告警产生的机理、相应的回传以及对下游信号的影响;最后应该熟练掌握传输设备的基本操作,熟悉自己所维护的SDH传输设备的网络拓扑、保护模式、业务配置等情况,加强设备故障时现场数据的采集和保存工作。
由于传输设备具有站与站之间距离较远的应用特点,因此在定位故障时,应该先将故障点准确地定位到单站,一旦将故障定位到单站后,就可以集中精力,通过数据分析、硬件检查、更换硬件等方法排除故障。
下面就SDH光传输设备一些常见的故障判断及处理方法进行简要介绍。
1 根据告警及性能信息判断故障SDH的帧结构定义了丰富的开销字节,其中包含了系统告警和性能信息的字节,如K2字节,当检测到上行信号传输失效时,发送设备将向下行方向发出告警指示信号(AIS),检测到复用段AIS的标记是解扰后K2字节的第6、7、8bit出现全“1”;为了让发送端知道接收端已经收到了发来的复用段AIS信号或检测到了复用段失效,接收端要回送一个复用段远端接收失效(MS-FERE)信号,其标记是解扰后的K2字节的第6、7、8 bit位置出现“110”码。
当SDH光传输设备发生故障时,会伴随大量的告警事件和性能数据的产生,通过对这些信息的分析,可基本上判断出故障的类型和相应的位置。
使用这种方法的关键是如何及时、方便、真实、全面地获取故障信息。
得到告警信息和性能信息的方法一般有两种,即通过网管系统和观察设备机框的运行告警灯。
在如图1组成的链形组网中,网管设在A站,此时若A站与C站之间的2 Mbit/s业务中断,而且从A站不能登录C站,且B站东向光板有复用段远端缺陷指示(MS-RDI)告警和高阶通道接收缺陷指示(HP-RDI)告警,A站与C站之间的业务所对应的2Mbit/s通道有低阶通道接收缺陷指示(LP-RDI)告警。
SDH传输故障处理分析SDH传输故障处理分析中国联合通信有限公司传输系统的日常维护工作经常要求我们对各类故障进行定位并及时排除。
故障定位最关键的是将故障点准确地定位到单板,然后排除故障。
这就需要对故障产生的原因、处理的思路及方法有一个清晰的认识,这样才能够达到事半功倍的效果。
传输故障定位的基本原则众所周知,传输故障定位一般应遵循“先抢通后修复、先外部后传输、先单站后单板、先线路后支路、先高级后低级”的原则。
1.先抢通后修复在出现故障时,系统维护者要首先抢通业务然后进行故障修复。
如果存在影响业务情况下的传输网络告警故障,如在2Mbit/s业务通道出现 LOS(信号丢失)告警,因外线原因导致的收无光告警,单元盘故障产生的UnitFailure(单元失效)告警等情况下产生的故障,必须首先抢通业务。
不过要想先抢通业务需要一个先决条件,那就是网络中有与故障通道相同起始点的可用通道资源或与故障板件相同的可用备板。
2.先外部后传输在处理故障时应先排除外部的可能因素,如断纤、终端设备故障、电源或机房环境配套故障等,而后进行传输系统原因查找。
当可能存在外界因素影响而产生传输网络告警故障时,如设备温度告警、光路告警、网元失效告警,也需照此原则处理。
3.先单站后单板指在查找传输设备故障原因时,需要先定位到站点再定位到板件。
一般设备故障时,不会只是一个站点出现告警,而是在很多站点同时上报告警。
这时就需要通过分析和判断缩小范围,快速、准确地定位是哪个单站的问题,而后尽可能准确地将故障定位到单站后再具体定位到单板。
如处理光路误码、光功率异常等告警处理时,需要结合业务信号流,对告警与性能事件一起进行分析。
可采用环回法、替代法、数据分析法、仪表测试法来判断告警及故障产生的原因,将其定位到单板。
4.先线路后支路在处理故障时,如果支路出现了大量AIS告警,这时需要先排除线路板故障再查看支路板故障。
由于传输系统线路板的故障常常会引起支路板的异常告警,在处理告警时,应按“先线路后支路”的顺序,排除网管告警;如支路出现大量AIS则首先查看线路板是否出现LOS告警或其他异常告警,再查看支路板告警。
5.先高级后低级在进行告警分析时,先分析高级别告警再分析低级别告警。
特别是当高、低级别告警同时存在时,应首先分析级别高的告警,如紧急告警、主要告警,然后再分析低级别的告警,如次要告警、一般告警。
处理告警时,系统维护者先处理影响业务的告警。
如果这些告警是由更高一级的告警引起的,则先处理更高一级的告警,如AIS、LOP等。
如果是由LOS引发的,要先处理LOS告警。
传输故障形成原因导致传输故障的原因很多,按照故障的来源,大体上可分为工程施工缺陷、日常维护操作不当、设备对接失败、设备外部原因及设备本身原因等。
1.工程施工不规范、质量差此类故障有的在施工期间就能暴露出来,有的可能在设备运行一段时间或某些外因作用下,才暴露出来,从而为设备的稳定运行埋下隐患。
为了杜绝此类故障,施工人员需要严格按工程规范施工安装,认真细致地按规范要求进行单点和全网的调试和测试。
2.日常维护操作不当维护人员由于对系统了解不够深入细致,对具体设备的细节、性能特点和注意事项以及新老设备和新旧版本的特点和差别不清楚,就贸然开通而容易导致故障。
此类故障最容易在升级扩容、新老设备及版本混用、使用新版的备板和使用未经系统联调的板件的情况下出现。
3.设备对接失败由于传送业务的多样性和业务对传输通道性能需求的复杂性,传输设备的对接十分复杂,这时容易出现系列问题,比如线缆连接错误,设备接地不符合要求,传输、交换网络之间时钟同步异常,SDH帧结构中开销字节的定义差别等,都会导致故障的产生。
4.设备外部原因设备外部故障也将导致传输故障。
导致传输故障的外部原因很多,包括:一、电源系统及配套故障。
如交流停电、直流掉电、熔断器故障、供电电压过低、接地不良、环境劣化等;二、光纤光缆故障。
如光缆线路中断,光缆线路衰耗过大、尾纤断,尾纤弯曲半径过小,法兰盘接头有灰尘及尾纤头脏等;三、电缆故障。
如2Mbit/s电缆中断,2Mbit/s接口输入输出端口脱落、松动而造成的接触不良等;四、交换机故障。
5.设备本身原因这指的是设备本身损坏或板件配合存在着问题。
常见的现象有:一、单盘故障。
如线路板、2Mbit/s板、时钟板、交叉板、主控板等器件损坏;二、网管系统故障。
包括网管与设备之间的网线故障或系统异常而造成的ECC通道中断、死机等情况。
需要提醒的是,设备在运行较长时间后,板件会自然老化,这种由于设备老化而产生的故障也属于此类。
设备老化故障有一个共同特点:设备已使用较长时间,故障之前设备基本正常,故障只是在个别点、个别板件出现,或在一些外因作用下出现。
故障处理思路在遇到故障时,系统维护者应该不慌不乱,仔细查看故障现象并分析可能原因,从而做到有的放矢,迅速处理。
故障处理一般应遵循“先看,再问,然后思考,最后动手”的思路。
系统维护者到达现场后首先查看故障的现象,包括故障出现的位置,有哪些告警,故障的严重程度,造成的危害等,这样才能够明白故障的本质。
查看完现象后,系统维护者应询问各阶段现场人员,该现象是由何种原因造成,比如是否有人修改了数据,删除了文件,更换了电路板;是否遭遇停电或雷击,是否存在操作不当现象。
根据以上结果,系统维护者再结合自己的知识思考、分析,判断何种原因可能引起该种故障等,做出较为正确的判断。
最后根据故障定位原则找出故障点,通过修改数据、更换单板等方法排除故障。
常见传输故障处理方法常见的传输故障处理方法包括观察分析法、环回测试法、插拔法、替换法、配置数据分析法、更改配置法、仪表测试法和经验处理法。
1.观察分析法系统故障时一般会伴有相应的告警信息。
通过观察告警灯运行情况,可以及时发现故障。
故障发生时,网管上也会记录非常丰富的告警事件和性能数据信息,通过分析这些信息,并结合SDH帧结构中的开销字节和SDH告警原理机制,初步判断故障类型和故障点的位置。
2.环回测试法有时观察分析法不能解决问题,如组网、业务以及故障信息相当复杂的情况和无明显告警和性能信息上报的特殊故障情况。
系统维护者可以利用网管提供的维护功能进行测试,判断故障点和类型。
最常见的方法是环回。
环回是定位故障点最有效和常用的方法,它不需要对告警和性能做太深入的分析,缺点是会影响业务,一般在业务量小的时候使用。
3.插拔法当发现某种电路板有故障时,系统维护者可以通过插拔一下电路板和外部接口插头的方法,排除因接触不良或处理机异常产生的故障。
在插拔时,系统维护者要注意遵循单板插拔的操作规范,以免导致其它问题甚至损坏板件。
4.替换法当用插拔法不能解决问题时,可以考虑替换法。
替换法就是使用一个正常的备件去替换一个被怀疑工作不正常的元件,从而实现故障的定位和排除。
替换法适用于排除传输外部设备的问题,如光纤、中继电缆、交换机、供电设备等。
或故障定位到单站后,用于排除单站内单板的问题。
如某站光板有告警,我们怀疑收发光纤接反,则可将收、发两根光纤互换。
若互换后,光板告警消失,就说明确实光纤接反。
替换法的优点在于方法简单,对维护人员要求不高,比较实用,但对备件有要求。
另外替换插拔电路板时,需要按照操作规范执行。
5.配置数据分析法配置数据分析法是指通过开销字节配置及状态分析、更改交叉连接等手段对告警进行辅助判断和处理的故障排除方法。
配置数据分析法的优点是不影响业务,不需要仪表,能够正确识别硬件连接错位,处理效率高。
但是故障定位的时间相对较长,且对维护人员的要求非常高。
一般只有对设备非常熟悉且经验非常丰富的维护人员才能使用。
在使用该方法时,应尽量选择J0/J1/V3等不影响业务的踪迹字节和其他状态字节。
6.更改配置法更改配置法是对时隙、板位、单板参数重新进行配置。
故适用于故障定位到单个站点后,排除由于配置错误而导致的故障。
当通过更改时隙配置不能将故障确切地定位到是哪块单板的问题时,需进一步通过替换法进行故障定位。
因此该方法适用于没有备板的情况下,初步定位故障类型,并使用其他业务通道或板位暂时恢复业务。
该方法操作起来比较复杂,对维护人员的水平要求较高。
因此,除非在没有备板的情况下用于临时恢复业务,或用于定位指针调整问题,一般情况不推荐使用。
7.仪表测试法仪表测试法一般用于排除传输设备外部问题以及与其它设备的对接问题。
传输设备常用测试仪表包括2Mbit/s误码测试仪、SDH测试仪、光谱分析仪等。
通过仪表测试法分析定位故障比较准确。
缺点是对仪表有需求,同时对维护人员的要求也较高。
8.经验处理法在一些特殊的情况下,如由于瞬间供电异常,低压或外部强烈的电磁干扰,致使传输设备某些单板进入异常工作状态。
此时的故障现象,如业务中断、 ECC通信中断等,可能伴随相应的告警,也可能没有任何告警,检查各单板的配置数据可能也是完全正常的。
经验证明,在这种情况下,系统维护者通过复位单板,网元掉电重启,重新下发配置或将业务倒换到备用通道等手段,可有效地及时排除故障、恢复业务。
建议系统维护者尽量少使用该方法来处理,因为该方法不利于故障原因的彻底查清。
遇到这种情况,除非情况紧急,一般还是应尽量使用前面介绍的几种方法,或通过正确渠道请求技术支援,尽可能地将故障定位出来,以消除设备内外的隐患。
典型案例分析为了更深入地理解传输故障的处理思路和方法,现对几个典型的案例进行分析。
1.传输2Mbit/s线故障引起业务中断故障现象:某网元2Mbit/s业务中断,传输设备为华为155/622H,传输设备上有T-LOS 告警。
故障分析:由于传输设备上有T-LOS告警,系统维护者可以肯定传输设备光路没有任何问题。
因为在传输设备到网元的2Mbit/s电路上有故障,所以问题可能出在传输设备电接口板SP1D或是2Mbit/s线故障。
故障定位和解决步骤:到站先用环回的方式判断故障点,在DDF架上做远端环回时,传输设备仍有T-LOS告警,做近端环回时通路正常,说明是 DDF架到SP1D板的2Mbit/s线有问题,且是SP1D板到DDF架上的发支路故障,与开始的分析吻合。
由于SP1D板到DDF架上的2Mbit /s线是成品线,无法修复,只有将SP1D板上未用的2Mbit/s成品线与故障线成功对换后,告警消除,放通2Mbit/s,业务才恢复正常。
为保证以后业务的正常开通,系统维护者最后将坏的那根2Mbit/s成品线换下,以保证所有2Mbit/s线是正常的。
结论:此故障是一个典型的2Mbit/s线故障引起业务中断案例,在这个案例中,我们根据故障现象,预先分析出故障属于2Mbit/s电路故障,并由最常规的环回方式来判断故障点,找到故障点后迅速地恢复业务。
2.电压异常导致业务中断故障现象:某局传输组网为4个OpTIX2500设备组成双向复用段保护环,1号网元为业务中心点,接有网管计算机。