传输网络告警预处理分析及应用
- 格式:doc
- 大小:27.00 KB
- 文档页数:4
传输网络告警预处理分析及应用【摘要】传输网络规模大,结构复杂,维护工作繁重,为提高故障处理响应速度,本文对传输网络告警进行预处理,制定告警过滤规则,将滑动窗口的理念引入综合网管告警呈现窗口,讨论分析故障诊断的规则和自学习能力,提高故障的处理效率与准确率。
【关键词】故障;预处理;告警采集;告警过滤;告警分析;故障诊断1.引言传输网络作为基础网络,规模庞大,结构复杂,一个网络故障的发生常伴随大量告警产生,告警分析是故障预处理的重要手段。
如何在复杂庞大的网络中迅速对告警进行分析,进行故障定位,提高故障的处理效率与准确率,是当今传输网络维护的一个日益迫切而重要的课题。
2.基本概念故障是指系统由于其组成部件出现硬件或软件上的紊乱,从而导致使系统不能正常工作并且提供服务,故障可能会导致系统产生告警。
传输网络中故障主要分为硬件故障和软件故障,硬件故障有单板故障、线路中断、尾纤故障等,软件故障一般是指主控板、业务版的软件故障。
告警则是指在系统中发生某些特定的异常事件时,由系统发出的通报组成的事件报告,主要用来进行告警信息的传递。
告警表示有故障发生。
告警信息分析是故障进行分析和预处理的重要手段。
3.告警预处理告警信息分为特征告警和非特征告警,非特征告警的分析价值低,且常常存在信息冗余、数据不完整、时间同步、告警中包含一些与关联规则无关的噪声,告警信息的属性不同等等等问题,故需要根据告警进行相关性分析。
告警相关性分析是指对告警进行合并和转化,将多个告警合并成少数几条或一条具有更准确信息的告警,减少传输综合网管上报告警数量,协助网络运维人员及时发现故障,减少业务中断时间,提高故障诊断和业务恢复的效率,最终提高运营商的效益。
目前,中国移动的传输网络由多个厂家提供,各厂家自带网管系统,分散监控、分散管理多厂家设备,操作复杂性高,缺乏统一、整体的全网网络级管理系统;缺乏对全网资源、网络拓扑的宏观把握和数据分析;为了解决这一问题,集团组织开发了传输综合网管系统来实现跨平台跨厂商的传输网络的维护和管理,其最重要的目标在于对全网故障的宏观把握,尤其在重大故障的处理上,第一时间呈现重大故障的告警信息,帮助网络线维护人员通过监控手段第一时间发现故障,并进行预处理。
SDH传送网告警分析处理系统的研究的开题报告一、研究背景和目的随着互联网和网络通信技术的快速发展,SDH(同步数字层次)传送网作为一种高速、稳定、可靠的传输方式,在通信领域中得到了广泛应用。
然而,SDH传送网运行过程中,设备故障和异常操作等问题难以避免,这些问题会导致网络中出现各种告警信息。
因此,对于SDH传送网中的告警信息进行有效的分析处理,是保证网络稳定运行和提高通信质量的关键。
本文旨在基于SDH传送网告警分析处理系统,研究和设计一种高效、可靠、实用的告警处理系统,以提高网络维护和管理的效率和便利性。
具体目的包括:1.深入了解SDH传送网告警信息的来源、类型和特征,明确各种告警信息的含义和作用;2.借鉴已有的网络告警处理系统的设计思路和技术方案,结合SDH传送网的特点,提出相应的解决方案;3.基于Java Web技术开发出相应的告警处理系统,实现告警信息的采集、存储、分析和处理等功能;4.通过对SDH传送网告警数据的分析和实验验证,评估系统的有效性和性能。
二、研究内容和方法1. 研究内容(1) SDH传送网告警信息的来源和分类;(2)SDH传送网告警的特点和应用;(3) 告警处理系统的理论和技术基础;(4) 基于Java Web技术的SDH传送网告警处理系统的设计和实现;(5) 系统的性能测试和实验验证。
2. 研究方法(1)文献调研法:通过阅读网络通信和SDH传送网方面的相关文献,整理并分析SDH传送网告警信息的来源、分类和特点;(2) 系统设计法:根据已有的告警处理系统的设计思路和技术方案,结合SDH传送网的特点,提出相应的解决方案,并进行系统设计和开发;(3)实验研究法:使用现有的SDH传送网设备或模拟器,收集和分析告警信息,评估系统的性能和有效性。
三、研究意义和创新点SDH传送网作为一种重要的通信技术,其稳定运行和工作效率的关键在于对告警信息的及时分析和处理。
本文将在已有的告警处理系统的基础上,结合SDH传送网的特点和需求,提出一种高效、可靠、实用的SDH传送网告警处理系统。
关于传输告警问题的故障原因初步分析报告目录来自:一、故障描述及影响范围 (2)二、故障处理过程 (2)三、故障原因初步分析 (6)四、后续改进措施 (6)一、故障描述及影响范围1、故障描述:近期由于联通总部对台州联通巡检将至,对于基站(nodeb)出现大量反复的传输告警(PCM,TClink与RFI_IMA告警)。
在7670上检测的告警则是missconnect,faut,LIF等告警,文档将会对这些告警的含义与解决办法予以讨论。
2、故障影响范围:对于这些传输告警来说(PCM告警)对起基站业务速率产生影响,如果严重则会引起掉话。
TN_LINK告警如果大量出现则会引起小区降级甚至导致小区吊死的。
RFI_IMA告警大部分产生在基站传输的第一路主要是由于静电或者头子没有插好引起。
二、故障处理具体过程对于传输告警我们主要关注的是NODEB上的告警,因为NODEB才是我们处理的重点。
但传输告警的反馈会在7670上显示的比较全面一点,因此下面我门就NODEB与7670的告警分别来讨论。
第一:基站(nodeb)的告警1:基站(NODEB)PCM告警处理:1)查看7670上是不是有Physical Fault告警 2)查询中兴SDH上是不是有2M的los告警如果满足以上2点的话就可以确定是由于基站侧故障引起,我可以通过派单安排督导或者代维进行处理。
例如:对于椒江方元商务大厦TZSFW5701的告警显示PCM/4 PCM FAULT Specific Problem。
满足以上2点通过江主任与基站督导上站确认发现中兴SDH(S200的光端机)到DDF架有一根收发连线故障已经通知工程队整改。
2:基站(nodeb)TC_LINK告警的处理:1)如果基站出现TC_LINK告警,可以看出TN上显示如红色的部分4个PCM都是OK的,但VCC是没有激活的。
[a:] TN2:1-8 Cri:Alrm:1241 31MAY2011 09:06wcdma-admin[RW]> configure[c:] TN2:1-8 Cri:Alrm:1239 31MAY2011 09:06wcdma-admin[RW]> group ima 1-13-1-4-l11# Type Status Name1-13-1-4-L11 Cell Relay Ok TZW1457IfIndex : 286082544 (0x110D45F0)Link-Range : 1-1-1..3-7-3CAC_Links (C) : 4 ActTimeout : 2000 msMinNumLinks (P): 1 DeActTimeout : 1000 msTxSynchro : CTC DiffDelayMax : 27 msDynamic CAC : n/aIMA Version : 1.1Reference Point: UNI (User-Network Interface)Payload scrambling: ENABLEDCell Relay Links:1: 2-7-1 Ok 5: -2: 2-7-2 Ok 6: -3: 2-7-3 Ok 7: -4: 3-1-1 Ok 8: -[c:group ima 1-13-1-4-l11] TN2:1-8 Cri:Alrm:1240 31MAY2011 09:06wcdma-admin[RW]> connect show-group atm ima 1-13-1-4-l11Type Creator Endpoint 1 Endpoint 2 Pk1->2 Pk2->1---- -------- ------------------------- ------------------------- ------ ------P2P CLI PVC *1-13-1-4-L11;0/50 *1-3-1-3;71/50 0kbs 0kbsP2P CLI PVC *1-13-1-4-L11;0/51 *1-3-1-3;71/51 0kbs 0kbsP2P CLI PVC *1-13-1-4-L11;0/52 *1-3-1-3;71/52 0kbs 0kbsP2P CLI PVC *1-13-1-4-L11;0/53 *1-3-1-3;71/53 0kbs 0kbsP2P CLI PVC *1-13-1-4-L11;0/100 *1-3-1-3;71/100 1.9Mbs 1.9MbsP2P CLI PVC *1-13-1-4-L11;0/101 *1-3-1-3;71/101 1.9Mbs 1.9MbsP2P CLI PVC 1-13-1-4-L11;0/102 *1-3-1-3;71/102 1.9Mbs 1.9MbsP2P CLI PVC 1-13-1-4-L11;0/103 *1-3-1-3;71/103 1.9Mbs 1.9MbsP2P CLI PVC *1-13-1-4-L11;0/108 *1-3-1-3;71/108 1.9Mbs 1.9MbsP2P CLI PVC *1-13-1-4-L11;0/109 *1-3-1-3;71/109 1.9Mbs 1.9MbsP2P CLI PVC 1-13-1-4-L11;0/110 *1-3-1-3;71/110 1.9Mbs 1.9MbsP2P CLI PVC 1-13-1-4-L11;0/111 *1-3-1-3;71/111 1.9Mbs 1.9MbsP2P CLI PVC *1-13-1-4-L11;0/115 *1-3-1-3;71/115 0kbs 0kbs 2)在网管上表现为:以TZW1457路桥美多机车为例可以看出AAL2Bearer前面有告警而PCM则无告警产生。
常见告警说明及处理目录1告警的查看 (3)2BTS告警的结构 (3)3常见告警说明及处理 (5)3.12993告警处理 (5)3.27745告警处理 (5)3.37601告警处理 (6)3.47602告警处理 (6)3.57604告警处理 (7)3.67949告警处理 (8)3.72725告警处理 (8)3.87743告警处理 (9)3.97744告警处理 (9)3.107607告警处理 (10)3.117767告警处理 (10)1 告警的查看查看告警的常用MML命令有以下几个:❖查看BTS当前告警:ZEOL: BCF IDENTIFICATION: BTS ALARM NUMBER, ALARM CLASS;例如:ZEOL: 21:NR=7745; 查看BCF号为21、告警号为7745、且未被cancel的告警。
ZEOL:30:CLS=AL3; 查看BCF号为30、告警级别为3星、且未被cancel的告警。
❖查看BTS历史告警:ZEOH: DATE, TIME: BCF IDENTIFICATION, OBJECT TYPE, CURRENT STATE OF OBJECT, ALARM NUMBER, ALARM CLASS;例如:ZEOH:2008-3-18,8-30-0; 查看2008年3月18日8时30分之后的告警历史,包括已经cancel的和未被cancel的。
ZEOH::NR=7745; 查看今天的7745告警历史,包括已经cancel的和未被cancel的。
❖查看BSC当前告警:ZAHO: UNIT IDENTIFICATION: ALARM PARAMETER;例如:ZAHO:OMU:CLS=AL2; 查看当前告警级别为2星级、告警对象为OMU、且状态为ON(即未被cancel的)。
ZAHO; 查看当前所有状态为ON的告警。
❖查看BSC历史告警:ZAHP: UNIT IDENTIFICATION: ALARM PARAMETER: DATE, TIME;例如:ZAHP::CLS=AL3:2008-3-18; 查看2008年3月18日0时以后的所有3星级告警,包括已经cancel的和未被cancel的。
DCWTechnology Application技术应用131数字通信世界2023.101 研究背景1.1 SDH应用现状上海浦东华为SDH 光环网(简称“本场光环网”)是由华东空管局独立投资建设的本场通信骨干基础网络,投产于2015年,是空管行业华东地区首套光传输网络,在2018年之后进行了升级扩容,目前的网络主体采用了四环相交结构,主要承载雷达、甚高频、导航、气象、航行情报、语音等信号传输。
本场光环网采用具有智能特性的NG-SDH 设备OptiX OSN 系列,共配置44个节点。
1.2 告警情况2021年至今,本场光环网网管共上报2 245个告警,其中紧急告警973个、重要告警1 157个、次要告警115个,告警日志统计分析如下:在紧急告警中,告警数量排名前四的节点依次为航管楼、HGL-500M 、HGL-500S 、点对点-航管楼;在重要告警中,告警数量排名前四的节点依次为航管楼、大终端、浦东三甲港雷达、大终端辅助环;在次要告警中,告警数量排名前四的节点依次为大终端、东场监、航管楼、R5南航向。
可以看出告警主要集中在大终端、航管楼的节点设备,这与这些地点需要大量业务开通操作、业务引接有关,从侧面反映出这些节点设备的活跃程度,应在今后运维中着重关注。
2 告警分析及处理2.1 告警梳理本场光环网系统在建成投入之初由于配置不完整导致产生大量告警,我们进行了存量告警专项清理工作,在对网管告警详细信息进行梳理归类之后,可得出。
作者简介:包 励(1987-),男,上海人,本科,研究方向为传输网络。
SDH光传输网常见告警分析在空管中的应用研究包 励(华东空管局,上海 200000)摘要:SDH是一套可以进行同步数据传输、复用和交叉连接的标准化数字信号等级结构,随着通信网络传输、交换、处理大量信息向数字化、综合化、智能化、个人化发展,作为通信网络的承载体传输网需要宽带化、规范化,SDH应运而生。
其具有强大的运行维护管理(OAM)功能,由光传输设备所组成的环形网络能够为传输链路提供环网保护,具有自愈保护功能。
SDH常见告警及处理SDH常见告警及处理故障定位关键是:将故障点准确地定位到单站。
故障定位的一般原则可总结为四句话:先外部,后传输;先网络,后网元;先高速,后低速;先高级,后低级。
故障定位的一般原则可总结如下:先定位外部,后定位传输在定位故障时,应先排除外部的可能因素,如光纤断,对接设备故障或电源问题等。
先定位网络,后定位网元在定位故障时,首先要尽可能准确地定位出是哪个站的问题。
先高速部分,后低速部分从告警信号流中可以看出,高速信号的告警常常会引起低速信号的告警;因此在故障定位时,应先排除高速部分的故障。
先分析高级别告警,后分析低级别告警在分析告警时,应首先分析高级别的告警,如紧急告警、主要告警;然后再分析低级别的告警,如次要告警和提示告警。
一、紧急告警类 1、R_LOS 告警表示接收线路侧信号丢失(Receive loss ofsignal),为紧急告警, SL16板会上报此告警。
告警原因? 断纤; ? 线路衰耗过大; ? 本板接收方向故障;? 对端站发送部分故障,线路发送失效;? 对端站交叉时钟板故障或不在位。
处理步骤:? 如果相邻两端的线路板同时告R-LOS,用网管查询发射光功率正常,则应该为光缆故障。
?检查对端光板发射功率是否正常,如果不正常,更换线路板?清洁本站尾纤接头和线路板接收光口,查看告警是否排除?用光功率计检查本站光接收是否正常,如果正常,更换线路板?检查本站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘和光衰减器后,查看告警是否排除。
R_LOS告警为高级告警,跟随它出现的会有R_LOF、APS_INDI、AU_AIS、MS_AIS,往往处理完R_LOS告警后,跟随它出现的许多告警会随着消失。
2、BUS_ERR. 概述BUS_ERR告警表示总线错误告警(Bus error),为紧急告警,GXCS,EXCS板会上报此告警。
告警原因交叉芯片损坏;线路板到交叉板的母板总线坏。
SDH传输设备的告警分析及故障排除□王新辉(台州市黄岩广播电视局,浙江台州318020)中图分类号:TN943.6 文献标识码:A 文章编号:1007-7022(2003)06-0103-02 SDH光传输设备在日常工作中承担着越来越繁忙的工作,技术维护人员几乎每天都会面对告警的发生,因此正确理解SDH的告警,将有助于对故障的正确分析和判断,及时地定位及解决。
下面给出几个故障事例,通过对这些故障的分析,有益于加深对故障处理的认识。
1 光路发生阻断后,设备告警信号的分析及处理如图1所示,光缆发生阻断时,在网管上会发出OOF,LOF,RS-LOS等光路通道上的告警。
如果是单纤断,B网元收到OOF,LOF,RS-LOS 等告警,A网元则有MS-RDI类似的告警(此时告警的产生是由于K2字节的b6b7b8=110所造成的)。
图1 此时维护人员应该根据告警,并使用光功率计对收方向的光纤进行测量,若收到光信号,则可能是本端光接头或入端的光尾纤或光盘的问题;若收不到光信号,则是光缆阻断或是对端站的问题,由此来对故障进行分段查找,用O TDR再进一步定位故障点。
同时,当收端无时钟信号输入时,也会产生R-LOS告警,此时需根据网管上显示的告警进一步判断。
2 误码告警的分析及处理施,防止高频头进水;冬季下雪后要及时清扫天线的积雪,以保证信号质量。
另外,我们定期检查卫星天线接地线是否接地良好,这项检查很重要,接地良好可以防止雷击损坏卫星接收设备及机房设备。
3 播出机房设备的维护检测为了保证有线电视的安全优质播出,我们制定了一套维护管理制度,对机房设备进行周检、月检、季检和年检等定期检修和日常维护。
我们每周都对调制器的图像载波电平、伴音载波电平及音量进行调整,并做好记录,若发现某个频道电平变化较大,则尽快查找原因。
坚持对录像机进行月检,进行内部除尘,清洗磁头,对卫星接收机、视频分配器等输出的视频信号幅度每月进行一次调整。
传输设备常见告警解释及处理建议LianLv一、 LOS 告警:信号丢失1、正常情况下两个网元之间要通信,中间的信号流必须是畅通的,如下图;2、从上图可以看书信号从MSC 发出2M 信号,经过SDH 设备复用后传递给下一个设备,最后末端SDH 设备解复用出2M 信号给另一端的MSC 。
也就是说,产生信号源的设备是发出信号的设备,当相邻的设备收不到对端发出的信号时就会上报LOS 告警,即信号丢失;A 、上图中由于SDH2发出的光信号SDH1收不到所以SDH1的收光口会上报LOS 告警;B 、上图中MSC2发出的2M 信号由于2M 线中断导致SDH2的2M接口收不到信号,所以SDH2的2M 接口会上报LOS 告警;C 、 上图是MSC1收不到信号的情况;说明:在通信标准中信号丢失的告警名都为LOS,但是不同厂家在编写网管软件时其有所不同,比如:华为公司传输设备,光口收不到信号上报告警为R-LOS ,支路口(2M 口)收不到信号时报T-ALOS;二、 LOF 告警:帧丢失1、当收到的信号功率太大或太小时都会上报OOF 告警;2、是指可以收到信号,但是检测不到信号的开始位置。
一般在波分和SDH 相连时,由于中继段线路中断,造成SDH 设备收到的信号为非调制光。
四、 AIS 告警:全1指示告警举例:SDH2收不到BTS 发来的2M 信号,SDH2会上报LOS 告警,并下插“1”码,当BSC1收到的2M 信号为全要“1”的时候就会上报AIS 告警。
这个故障我们日常维护中经常碰到,如果基站发送处理的2M 信号在中间传输环节中中断,BSC 的dip 端口都会上报AIS 告警。
五、 RDI 告警:远端告警指示举例:当BTS 收到的2M 信号在传输途中中断,但是BSC 可以收到BTS 发送的信号,那么BTS 就会发送AIS 信号给BSC ,当BSC 收到AIS 信号时就会上报RDI ,即远端告警指示说明故障点在BTS 端。
SDH告警分析报告
一、绪论
近期,我们的SDH网络发生了一系列告警,严重影响了网络的正常运行。
为了解决这一问题,我们进行了SDH告警分析,并根据分析结果给出了恰当的解决方案。
本报告主要对SDH告警进行了系统性的分析,提出了有效的解决方案,为有效的管理和维护SDH网络提供了参考依据。
二、SDH告警分析
1.SDH告警的类型和主要症状
在SDH网络中,有许多不同类型的告警可能会发生,简单地把它们分为三类:材料告警、设备告警和软件告警。
材料告警是由于线路、信号等材料原因引起的告警,如长时间低速警报、光缆损坏警报等。
材料告警的主要症状是线路故障,比如线路速率明显下降、线路中断、线路极其不稳定等。
设备告警是由于设备故障引起的告警,如设备故障警报、内部温度过高警报等。
设备告警的主要症状是设备故障,例如设备故障、内部温度明显高于正常值、设备拓扑错误等。
软件告警是由于软件程序故障引起的告警,如程序功能出错警报、程序参数错误警报等。
软件告警的主要症状是软件程序故障,如程序功能出现异常、软件参数设置错误等。
2.SDH告警的根源分析。
传输网络告警预处理分析及应用
【摘要】传输网络规模大,结构复杂,维护工作繁重,为提高故障处理响应速度,本文对传输网络告警进行预处理,制定告警过滤规则,将滑动窗口的理念引入综合网管告警呈现窗口,讨论分析故障诊断的规则和自学习能力,提高故障的处理效率与准确率。
【关键词】故障;预处理;告警采集;告警过滤;告警分析;故障诊断
1.引言
传输网络作为基础网络,规模庞大,结构复杂,一个网络故障的发生常伴随大量告警产生,告警分析是故障预处理的重要手段。
如何在复杂庞大的网络中迅速对告警进行分析,进行故障定位,提高故障的处理效率与准确率,是当今传输网络维护的一个日益迫切而重要的课题。
2.基本概念
故障是指系统由于其组成部件出现硬件或软件上的紊乱,从而导致使系统不能正常工作并且提供服务,故障可能会导致系统产生告警。
传输网络中故障主要分为硬件故障和软件故障,硬件故障有单板故障、线路中断、尾纤故障等,软件故障一般是指主控板、业务版的软件故障。
告警则是指在系统中发生某些特定的异常事件时,由系统发出的通报组成的事件报告,主要用来进行告警信息的传递。
告警表示有故障发生。
告警信息分析是故障进行分析和预处理的重要手段。
3.告警预处理
告警信息分为特征告警和非特征告警,非特征告警的分析价值低,且常常存在信息冗余、数据不完整、时间同步、告警中包含一些与关联规则无关的噪声,告警信息的属性不同等等等问题,故需要根据告警进行相关性分析。
告警相关性分析是指对告警进行合并和转化,将多个告警合并成少数几条或一条具有更准确信息的告警,减少传输综合网管上报告警数量,协助网络运维人员及时发现故障,减少业务中断时间,提高故障诊断和业务恢复的效率,最终提高运营商的效益。
目前,中国移动的传输网络由多个厂家提供,各厂家自带网管系统,分散监控、分散管理多厂家设备,操作复杂性高,缺乏统一、整体的全网网络级管理系统;缺乏对全网资源、网络拓扑的宏观把握和数据分析;为了解决这一问题,集团组织开发了传输综合网管系统来实现跨平台跨厂商的传输网络的维护和管理,其最重要的目标在于对全网故障的宏观把握,尤其在重大故障的处理上,第一时间呈现重大故障的告警信息,帮助网络线维护人员通过监控手段第一时间发现故障,并进行预处理。
因此,传输综合网管系统是告警分析和故障预处理的重要工
具。
在传输综合网管中,为了帮助监控人员尽快地发现故障,需要对告警进行预处理,这些预处理的具体内容包括:
(1)告警采集,从各厂家的子网网管服务器上尽可能采集更多的告警;
(2)告警压缩:将多个同时发生的相同告警缩减成一个告警。
(3)告警过滤:根据告警过滤规则,删减冗余告警,呈现本征告警。
(4)告警计数:用一个新的告警替代特定数目的同时发生的相同告警。
(5)告警呈现:通过滑动窗口将经上述处理后的告警呈现出来。
3.1 告警采集
采集的主要任务是与所接系统进行双向交互,一方面将从通过设备厂家网管接口采集到的数据转换成数据管理层和应用管理层的所需数据,另一方面将数据管理层和功能应用层下发的命令转换成厂商网管系统所能识别的命令,从而对厂商网管系统进行管理操作。
3.2 告警过滤
批量采集上来的大量告警中,有些只持续短短几秒钟,有些关键字段缺失,有些重复出现,有些属性冗余,影响数据挖掘的准确度和效率,为将原始数据转换成便于挖掘的形式,需去除闪断告警、处理缺值数据、合并重复告警、完成数据类型转换。
从广西移动区公司传输综合网管系统随机抽取2012年8.6-8.20共15天告警数据,共1461822条告警,将这些告警作为原始告警数据,处理结果下表所示。
表1 告警过滤效果统计表
3.3 告警呈现
在告警相关性分析系统开始运行之前,预先设定一个较大的初始时间窗口,尽可能多的采集告警序列,以确保采集的告警序列中包含完整的特征告警组。
然后对采集到的特征告警组进行分析,包括告警压缩、告警过滤、告警计数等处理,确定特征告警组上报时间T(30分钟)。
在系统运行过程中,引入滑动窗口的概念,确保在尽可能短的时间窗口内,采集到完整的特征告警组。
3.4 故障诊断规则
告警进行预处理后,需根据告警进行故障诊断。
故障诊断常见的方法是基于规则的故障诊断。
建立基于规则的故障诊断有助于实现告警的自动派单,减轻监控人员的工作,使得监控人员能把主要精力集中在告警的及时发现、告警的预判断和告警的跟进处理上。
基于规则的方法不需要深刻理解网络结构和运行原理,符合人的思维,便于理解,易于维护和开发实现和升级。
在告警相关性分析中,故障诊断规则的获取方法大致分为两种:人工方式和数据挖掘方式。
人工方式建立故障诊断规则是指监控人员和维护专家通过分析历史故障和告警的典型案例,或者通过相关的通信文档等多种途径,确定产生故障的根本原因,从而手工建立故障诊断规则。
为了使故障诊断具备自学习能力,本文引入数据挖掘方式,结合人工方式提高诊断自学能力。
数据挖掘方式是在海量数据中发现新模式的一种分析技术,通过分析历史故障所引起的典型告警的上报规律,建立故障诊断规则。
当网络稳定运行的一段时间以后,在数据库中累积了大量的历史告警和故障的信息,特别适合数据挖掘的应用。
3.5 应用举例
本节将以二干三期柳州文惠至永福光缆中断故障为例,说明本文的告警预处理方法及告警诊断规则在现网运维中的应用。
柳州文惠往永福方向为OTM网元,华为1600G设备,在本地有业务上下;永福往柳州文惠方向为OLA网元,充当中继站的角色。
从故障发生0:46至故障结束2:36,柳州文惠上报相关告警工共134条;中继站永福上报告警12条。
经告警预处理,及告警采集、告警压缩、告警抑制、告警过滤、告警计数后,呈现在综合网管的与本故障相关的告警为柳州文惠10条、永福3条,告警压缩率为90%.
根据历史故障案例规则库中,典型的光缆中断故障告警现象表现为主光路信号失效,OTM网元监控信号板、光放板、D40单板及单波波长转换板上报告警,OLA网元监控信号板及光放板上报告警,经故障诊断规则判断,这是典型的主光路信号丢失,在OTDR系统上测试结果表明确实为光缆中断引起,证明告警预判断结果正确,监控人员当即通知线路维护人员处理。
从故障发生至告警预处理、综合网管系统上报告警、告警诊断预判断、监控人员发现告警及通知维护人员处理仅需要10分钟不到的时间,大大缩短了告警的预处理时间,提高抢修维护工作效率。
4.结论
本文在日益扩大复杂的传输网络维护工作量日益加重的背景下,以现网维护中柳州文惠至永福光缆中断故障为例,讨论了如何分析网络的故障外在形式——告警信息,结合传输综合网管平台,进行告警信息、告警压缩、告警过滤、告警
计数、告警呈现等告警预处理措施,引入告警诊断规则进行过故障的初步判断,有效地提高故障的预判断处理能力,提高网络的维护效率,缩短故障处理时间,从而达到节约人力成本,提高运营效益的目的。
参考文献
[1]邓歆,孟洛明.告警相关性分析模型在通信网故障诊断中的应用[J].北京邮电大学学报,2006,29(3):66-70.
[2]逞晓鹏.数据挖掘在综合网管告警相关性分析中的研究和应用[D].北京交通大学,2009.
[3]王玮.对通信综合网管系统故障管理的设计[J].山东电力技术,2003.06.
[4]郑秋华.网络故障智能诊断关键技术研究[J].光通信研究,2007,08.。