网管系统告警产生和处理机制
- 格式:doc
- 大小:62.00 KB
- 文档页数:5
ZXWT-A80常见告警分析在设备安装维护工作中会遇到很多告警,对告警的有效分析是解决问题的关键。
要找到问题的根源,首先要从告警产生的原因着手,查清问题后运用有效的处理方法排除故障。
以下针对ZXWT-A80传输设备的一些常见告警,给出产生原因及处理方法,在以后工作中可以作为同事们的参考。
1、R-LOS告警告警名称:R-LOS Loss of signal 接收线路侧信号丢失告警级别:紧急告警原因:1)断纤;2)线路衰耗过大或光功率过载;3)对端站发送部分故障线路发送失效;4)对端站交叉板故障或不在位处理方法:1)一般是光纤断、光纤衰耗太大、接收光功率过载、单板故障等原因;2)检查光缆是否完好,光接头是否接触良好,清洁光缆连接器;3)如果接收光功率过载,加入衰耗器;4)如果是单板故障,更换单板。
2、R-LOF告警告警名称:R-LOF loss of frame接收线路侧帧丢失告警级别:紧急告警原因:1)接收信号衰减过大;2)对端站发送信号无帧结构;3)本板接收方向故障处理方法:1)一般是光纤衰耗太大,检查光纤是否完好;2)检查光纤接头接触是否良好,清洁光纤接头;3)检查对端站发送信号的帧结构;4)如果是单板故障,则更换单板。
3、R-OOF告警告警名称:R-OOF Out of frame接收线路侧帧失步告警级别:紧急告警原因:1)接收信号衰减过大;2)传输过程误码过大;3)对端站发送部分故障;4)本站接收方向故障处理方法:1)一般是光纤衰耗太大、接收光功率过载、单板故障等原因;2)检查光缆是否完好,光接头是否接触良好,清洁光缆连接器;3)检查对端站发送部分4)如果是单板故障,更换单板4、MS-AIS告警告警名称:MS-AIS Multiplex section alarm indication复用段告警指示告警级别:主要告警原因:1)对端站发送MS-AIS信号;2)对端站时钟板故障;3)本板接收部分故障处理方法:1)检查对端站线路板是否有问题,可通过复位或更换单板来检查告警是否消失; 2)检查本站线路板,同样可通过复位或更换单板的方法来检查告警是否消失。
华为SDH故障1.1 R_LOS告警名称或故障现象:R_LOS告警表示接收线路侧信号丢失(Receive loss of signal),为紧急告警。
告警产生原因:1、断纤;2、线路衰耗过大;3、本板接收方向故障;4、对端站发送部分故障,线路发送失效;5、对端站交叉时钟板故障或不在位。
告警处理方法:1、现场用光功率计检测告警单板的接收光功率是否正常。
如果接收光功率正常,请转至步骤8。
2、检查光缆是否有故障,排除光缆故障后,查看告警是否排除。
3、清洁本站尾纤接头和线路板接收光口,查看告警是否排除。
4、检查本站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘和光衰减器后,查看告警是否排除。
5、用光功率计检查对端站的发射光功率是否正常,如果发射光功率不正常,更换线路板。
6、如果发射光功率正常,清洁对端站的尾纤接头,查看告警是否排除。
7、检查对端站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘和光衰减器后,查看告警是否排除。
8、更换本站上报告警的线路板,查看告警是否排除。
9、更换对端站的线路板,查看告警是否排除。
1.2 R_LOF、R_OOF告警名称或故障现象:R_LOF告警表示接收线路侧帧丢失(Receive loss of frame),为紧急告警。
告警产生原因:1、接收信号衰减过大;2、对端站发送信号无帧结构;3、本板接收方向故障。
告警处理方法:1、在网管上查看是否有高级别的R_LOS告警,优先处理这些高级别告警后,查看告警是否排除。
2、检测告警单板的接收光功率是否正常。
如果接收光功率正常,请转至步骤9。
如果收光不正常,让现场定位衰耗点在机房内还是在线路上,如果在线路上,转至步骤8。
3、清洁本站尾纤接头和线路板接收光口,查看告警是否排除。
4、检查本站的法兰盘和光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘和光衰减器后,查看告警是否排除。
告警与性能一:综述在SDH设备中,除了信号丢失等告警信号,其余所有的告警及性能都在SDH帧的开销中得到体现,并根据开销在每个网元的处理将开销字节终结、从新向下一个网元发起(前被终结的内容重新发起)、以及回送对告信息。
告警及性能的产生:根据当前光纤、支路线路的状态,以及根据误码的算法,要么向网管发出告警信息,要么向相应的开销字节写入内容同时向网管上报数值。
开销字节的终结即是将开销提取出来,上告网管报告为告警及性能记数,以及如需要的话,对SDH发出相应的保护倒换(同样是通过写开销字节来达到目的)等动作。
开销字节的从新发起即是将本网元已经终结的字节按照当前状态写入,或重新进行性能的记数等,然后发给下一网元。
回送对告信息即是在收到对端的各种告警及性能记数(如B2、B3、V5性能以及K2状态),根据SDH开销字节含义,将对告的信息写入对告的字节(如M1、G1、REI、K2等)里,通过光纤发往对端。
如上图,以B点为需要描述的网元:对B点来说,A点以及光纤、支路线路是告警以及性能的发起源(C点与A点同),B点根据SDH标准处理某部分开销字节,从处理的开销字节中得到相应的告警及性能记数,上报网管,并在此处将此部分开销内容终结,及不往下一个站点下发,其余的未处理开销根据交叉直通等不做改变的发到下一个网元,此处如C 网元。
同时B点将需要对告的信息写入A的帧开销中,发往A点,A点得到一些对告的告警及性能,即在网管上产生相应的远端告警及远端性能。
同样B点接收到从C点发来的开销同样处理。
A、C点同样如B点描述。
告警与性能的理解需要对SDH的帧结构有详细了解,如图所示:9×10×二:告警及性能分类1.传输类:LOS、LOF、LOP、AIS、标识失配等包括MS、HP、LP、AU、TU,即复用段、再生段、告阶/低阶通道本端、远端RDI设备类:拔板、故障、不匹配、时钟丢失等性能超值B1、B2、B3、PJ、V5、CV等软件告警网管、时隙分配等2.性能记数:B1、B2、B3、PJ、V5、CV等本端记数、远端FEBBE、ES、SES、UASB1、B2、B3、PJ、V5、CV属于各个开销段的内容。
SDH传输设备的告警分析及故障排除□王新辉(台州市黄岩广播电视局,浙江台州318020)中图分类号:TN943.6 文献标识码:A 文章编号:1007-7022(2003)06-0103-02 SDH光传输设备在日常工作中承担着越来越繁忙的工作,技术维护人员几乎每天都会面对告警的发生,因此正确理解SDH的告警,将有助于对故障的正确分析和判断,及时地定位及解决。
下面给出几个故障事例,通过对这些故障的分析,有益于加深对故障处理的认识。
1 光路发生阻断后,设备告警信号的分析及处理如图1所示,光缆发生阻断时,在网管上会发出OOF,LOF,RS-LOS等光路通道上的告警。
如果是单纤断,B网元收到OOF,LOF,RS-LOS 等告警,A网元则有MS-RDI类似的告警(此时告警的产生是由于K2字节的b6b7b8=110所造成的)。
图1 此时维护人员应该根据告警,并使用光功率计对收方向的光纤进行测量,若收到光信号,则可能是本端光接头或入端的光尾纤或光盘的问题;若收不到光信号,则是光缆阻断或是对端站的问题,由此来对故障进行分段查找,用O TDR再进一步定位故障点。
同时,当收端无时钟信号输入时,也会产生R-LOS告警,此时需根据网管上显示的告警进一步判断。
2 误码告警的分析及处理施,防止高频头进水;冬季下雪后要及时清扫天线的积雪,以保证信号质量。
另外,我们定期检查卫星天线接地线是否接地良好,这项检查很重要,接地良好可以防止雷击损坏卫星接收设备及机房设备。
3 播出机房设备的维护检测为了保证有线电视的安全优质播出,我们制定了一套维护管理制度,对机房设备进行周检、月检、季检和年检等定期检修和日常维护。
我们每周都对调制器的图像载波电平、伴音载波电平及音量进行调整,并做好记录,若发现某个频道电平变化较大,则尽快查找原因。
坚持对录像机进行月检,进行内部除尘,清洗磁头,对卫星接收机、视频分配器等输出的视频信号幅度每月进行一次调整。
华为GPON故障1.1 分支光纤断或OLT检测不到预期的单ONT的光信号(LOSi)告警名称或故障现象:分支光纤断或OLT检测不到预期的单ONT的光信号(LOSi)(闪断则伴随有SD,RDI)告警产生原因:1、ONU上联光纤断裂:ONU到分光器间光缆断裂;2、单个ONU频繁闪断;告警处理方法:1、派网服维护人员到现场检查ONU,并检查检查ONU到分光器前ODF间尾纤;2、单个ONU的分支光纤断裂告警只影响该ONU的业务,检查光路。
3、单个ONU的闪断会引起该PON口所有ONU的质差并一起闪断,查看历史告警,以告警时间的先后次序去激活ONU,直至PON口下其他ONU的闪断结束,可以定位闪断源头为刚才去激活的ONU,按第2步处理,要求收光在-10dBm~-22 dBm。
4、配合网服维护人员更换分光器后的ODF架位到ONU端的尾纤,或是跟换分光器到ODF架位间的楼间光缆中纤芯;1.2 主干光纤断或OLT检测不到预期的光信号(LOS)告警名称或故障现象:主干光纤断或OLT检测不到预期的光信号告警产生原因:1、分光器到OLT光功率过低;2、分光器到OLT间光缆故障;2、分光器损耗过大;告警处理方法:1、检查分光器与OLT之间的光路,跟换好一点的光纤;2、检查分光器端口及整体耗损,更换分光器端口或者整体替换;1.3 以太光口LOS告警名称或故障现象:OLT上以太光口LOS,若是单上联的OLT同时会引起OLT托管;告警产生原因:OLT与城域网间尾纤、光缆光功率低告警处理方法:1.该故障会引起OLT单边,检查光路,通知城域网检查对端交换机端口状态。
1.4 以太网端口链路状态从up变化为down告警名称或故障现象:OLT的以太网端口链路状态从up变化为down告警产生原因:1、端口光口未打开;2、光路衰耗过大,超过门限;3、光模块损坏;4、单板故障;告警处理方法:1、在网管上检查设备端口有没有打开光口;2、派线路代维携带光功光源及相应光模块到两端现场检查光路,两端光缆收光功率应在-10dBm到-22dBm以下;3、若光缆正常,查看是否是设光模块问题;4、若检查单板是否正常,则更换单板;1.5 风扇电源模块故障告警名称或故障现象:网管上报OLT上上报下带ONU风扇电源模块故障或是OLT风扇故障告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口及相关资料查找相应ONU,派网服维护人员到指定ONU检查;2、网服人员到现场后先观察ONU设备上风扇指示灯;3、重启相应设备的风扇电源;2、更换相应设备的风扇;1.6 风扇配置或运行状态异常告警名称或故障现象:网管上报OLT上上报下带ONU风扇配置或运行状态异常或是OLT风扇故障告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口及相关资料查找相应ONU,派网服维护人员到指定ONU检查;2、网服人员到现场后先观察ONU设备上风扇指示灯;3、重启相应设备的风扇电源;2、更换相应设备的风扇;1.7 上行以太端口连线故障或端口状态异常告警名称或故障现象:OLT上报上行以太端口连线故障或端口状态异常,此是电口上行板特有告警告警产生原因:OLT设备的上行以太端口连线故障或端口异常告警处理方法:1、派维护人员到OLT现场检查网线;2、更换相应单板;1.8 单板芯片发生故障告警名称或故障现象:OLT上报单板芯片发生故障告警产生原因:1、设备单板吊死;2、设备芯片超负荷,被烧坏;告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.9 GPON OLT发送失败(TF)告警名称或故障现象:OLT上报GPON OLT发送失败(TF)告警产生原因:1、设备单板吊死;2、设备光模块被烧坏;3、数据吊死;告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.10 单板硬件异常告警名称或故障现象:OLT上报单板硬件异常告警产生原因:1、设备单板吊死告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.11 单板通讯故障告警名称或故障现象:OLT上报单板通讯故障1、设备单板吊死告警处理方法:1、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.12 以太光口发射功率不在门限范围内告警名称或故障现象:OLT上报以太光口发射功率不在门限范围内告警产生原因:1、光缆光纤光功率过低或过高;2、光模块故障;3、设备板件故障;告警处理方法:1、派维护人员到现场检查光缆收发光功率,更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.13 单板掉电告警名称或故障现象:OLT上报单板掉电告警产生原因:1、设备单板吊死2、设备单板电源故障;告警处理方法:1、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.14 网管与设备通讯失败告警名称或故障现象:OLT上报网管与设备通讯失败,该板OLT业务全阻1、OLT设备掉电;2、主控板吊死,或者通信故障;3、OLT设备上联光路故障;4、OLT的网关IP设备问题;告警处理方法:1、查看主控板是否有告警,有高级别的告警优先处理;2、检查设备供电是否正常,检查上联光路是否正常;3、ONU的管理IP是否错设为OLT的网关IP1.15 ONT远端误码(RDIi)告警名称或故障现象:OLT上报 ONT远端误码(RDIi)告警产生原因:1、ONT(ONU)设备吊死;2、ONU到OLT的光纤故障;告警处理方法:1、网管复位ONT(复位会中断业务3到5分钟),仍然无法消除则检查光路;2、更换ONU,重做数据1.16 ONT信号退化(SDi)告警名称或故障现象:OLT上报 ONT信号退化(SDi)告警产生原因:1、ONT(ONU)设备吊死;2、ONU到OLT的光纤故障;告警处理方法:1、网管复位ONT(复位会中断业务3到5分钟),仍然无法消除则检查光路;2、更换ONU,重做数据;阿尔卡特GPON故障2.1 网元脱管告警名称或故障现象:OLT上报网元脱管,该板OLT业务全阻告警产生原因:1、OLT设备掉电;2、主控板吊死,或者通信故障;3、OLT设备上联光路故障;4、OLT的网关IP设备问题;告警处理方法:1、查看主控板是否有告警,有高级别的告警优先处理;2、检查设备供电是否正常,检查上联光路是否正常;3、ONU的管理IP是否错设为OLT的网关IP2.2 风扇配置失效(Rack fan missing Alarm)告警名称或故障现象:OLT上报风扇配置失效(Rack fan missing Alarm)告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口及相关资料查找相应,派维护人员到场检查;2、维护人员到现场后先观察设备上风扇指示灯是否正常;3、重启相应设备的风扇电源;2、更换相应设备的风扇;2.3 单板丢失(BDMISSING)告警名称或故障现象:OLT上报单板丢失 (BDMISSING)告警产生原因:1、OLT单板不兼容;2、OLT设备单板吊死,或者被损坏;告警处理方法:1、热插拔该板件;2、更换相应单板;3、联系厂家工程师配合处理;2.4 GPON发送失败(TXFAIL)告警名称或故障现象:OLT上报 GPON发送失败(TXFAIL)告警产生原因:1、OLT数据吊死;2、OLT设备单板吊死,或者被损坏;告警处理方法:1、热插拔该板件;2、更换相应单板;3、联系厂家工程师配合处理;2.5 NT以太网链路端口停用告警名称或故障现象:OLT上报 NT以太网链路端口停用,同时该告警产生原因:1、上联城域网的端口故障;2、上联城域网的链路问题;3、城域网交换机端口或者设备故障;告警处理方法:1、优先联系城域网检查相应交换机端口情况;2、派维护人员到机房检查连接城域网设备的光路是否正常;3、检查连接两端的链路是否正常;2.6 PON信号丢失告警名称或故障现象:ONU上报 PON信号丢失告警产生原因:1、分光器到OLT光功率过低;2、分光器到OLT间光缆故障;2、分光器损耗过大;告警处理方法:1、检查分光器与OLT之间的光路,更换光纤;2、检查分光器端口及整体耗损,更换分光器端口或者整体替换;2.7 ONT未激活告警名称或故障现象:ONU上报 ONT未激活告警产生原因:1、ONU上联光纤断裂:ONU到分光器间光缆断裂;2、单个ONU频繁闪断;告警处理方法:1、该告警只影响该ONU的业务,报维护人员检查光路。
网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。
告警采集程序通过rules将SYSLOG日志记录解析为告警记录。
一条典型的华为端口DOWN告警解析过程:Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state针对上面的告警,通过rules,主要解析出如下内容告警来源IP:133.63.254.190告警类型:IFNET/5/UPDOWN告警对象:Ethernet1/0/5告警原始级别:5告警描述:Interface Ethernet1/0/5 Turns into DOWN state2、Snmp Trap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。
举例说明:10.102.16.2:TRAP[requestID=0, errorStatus=Success(0), errorIndex=0,VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP告警定义:(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。
(2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。
华为GPON故障1.1 分支光纤断或OLT检测不到预期的单ONT的光信号〔LOSi〕告警名称或故障现象:分支光纤断或OLT检测不到预期的单ONT的光信号〔LOSi〕〔闪断如此伴随有SD,RDI〕告警产生原因:1、ONU上联光纤断裂:ONU到分光器间光缆断裂;2、单个ONU频繁闪断;告警处理方法:1、派网服维护人员到现场检查ONU,并检查检查ONU到分光器前ODF间尾纤;2、单个ONU的分支光纤断裂告警只影响该ONU的业务,检查光路。
3、单个ONU的闪断会引起该PON口所有ONU的质差并一起闪断,查看历史告警,以告警时间的先后次序去激活ONU,直至PON口下其他ONU的闪断完毕,可以定位闪断源头为刚刚去激活的ONU,按第2步处理,要求收光在-10dBm~-22 dBm。
4、配合网服维护人员更换分光器后的ODF架位到ONU端的尾纤,或是跟换分光器到ODF架位间的楼间光缆中纤芯;1.2 主干光纤断或OLT检测不到预期的光信号〔LOS)告警名称或故障现象:主干光纤断或OLT检测不到预期的光信号告警产生原因:1、分光器到OLT光功率过低;2、分光器到OLT间光缆故障;2、分光器损耗过大;告警处理方法:1、检查分光器与OLT之间的光路,跟换好一点的光纤;2、检查分光器端口与整体耗损,更换分光器端口或者整体替换;1.3 以太光口LOS告警名称或故障现象:OLT上以太光口LOS,假如是单上联的OLT同时会引起OLT托管;告警产生原因:OLT与城域网间尾纤、光缆光功率低告警处理方法:1.该故障会引起OLT单边,检查光路,通知城域网检查对端交换机端口状态。
1.4 以太网端口链路状态从up变化为down告警名称或故障现象:OLT的以太网端口链路状态从up变化为down告警产生原因:1、端口光口未打开;2、光路衰耗过大,超过门限;3、光模块损坏;4、单板故障;告警处理方法:1、在网管上检查设备端口有没有打开光口;2、派线路代维携带光功光源与相应光模块到两端现场检查光路,两端光缆收光功率应在-10dBm到-22dBm以下;3、假如光缆正常,查看是否是设光模块问题;4、假如检查单板是否正常,如此更换单板;1.5 风扇电源模块故障告警名称或故障现象:网管上报OLT上上报下带ONU风扇电源模块故障或是OLT风扇故障告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口与相关资料查找相应ONU,派网服维护人员到指定ONU检查;2、网服人员到现场后先观察ONU设备上风扇指示灯;3、重启相应设备的风扇电源;2、更换相应设备的风扇;1.6 风扇配置或运行状态异常告警名称或故障现象:网管上报OLT上上报下带ONU风扇配置或运行状态异常或是OLT风扇故障告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口与相关资料查找相应ONU,派网服维护人员到指定ONU检查;2、网服人员到现场后先观察ONU设备上风扇指示灯;3、重启相应设备的风扇电源;2、更换相应设备的风扇;1.7 上行以太端口连线故障或端口状态异常告警名称或故障现象:OLT上报上行以太端口连线故障或端口状态异常,此是电口上行板特有告警告警产生原因:OLT设备的上行以太端口连线故障或端口异常告警处理方法:1、派维护人员到OLT现场检查网线;2、更换相应单板;1.8 单板芯片发生故障告警名称或故障现象:OLT上报单板芯片发生故障告警产生原因:1、设备单板吊死;2、设备芯片超负荷,被烧坏;告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.9 GPON OLT发送失败(TF)告警名称或故障现象:OLT上报GPON OLT发送失败(TF)告警产生原因:1、设备单板吊死;2、设备光模块被烧坏;3、数据吊死;告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.10 单板硬件异常告警名称或故障现象:OLT上报单板硬件异常告警产生原因:1、设备单板吊死告警处理方法:1、派维护人员到现场更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;3、更换相应单板;1.11 单板通讯故障告警名称或故障现象:OLT上报单板通讯故障1、设备单板吊死告警处理方法:1、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.12 以太光口发射功率不在门限X围内告警名称或故障现象:OLT上报以太光口发射功率不在门限X围内告警产生原因:1、光缆光纤光功率过低或过高;2、光模块故障;3、设备板件故障;告警处理方法:1、派维护人员到现场检查光缆收发光功率,更换相应端口光模块;2、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.13 单板掉电告警名称或故障现象:OLT上报单板掉电告警产生原因:1、设备单板吊死2、设备单板电源故障;告警处理方法:1、派维护人员到现场复位单板或热拔插重启单板;2、更换相应单板;1.14 网管与设备通讯失败告警名称或故障现象:OLT上报网管与设备通讯失败,该板OLT业务全阻1、OLT设备掉电;2、主控板吊死,或者通信故障;3、OLT设备上联光路故障;4、OLT的网关IP设备问题;告警处理方法:1、查看主控板是否有告警,有高级别的告警优先处理;2、检查设备供电是否正常,检查上联光路是否正常;3、ONU的管理IP是否错设为OLT的网关IP1.15 ONT远端误码(RDIi)告警名称或故障现象:OLT上报 ONT远端误码(RDIi)告警产生原因:1、ONT〔ONU〕设备吊死;2、ONU到OLT的光纤故障;告警处理方法:1、网管复位ONT〔复位会中断业务3到5分钟〕,仍然无法消除如此检查光路;2、更换ONU,重做数据1.16 ONT信号退化〔SDi)告警名称或故障现象:OLT上报 ONT信号退化〔SDi)告警产生原因:1、ONT〔ONU〕设备吊死;2、ONU到OLT的光纤故障;告警处理方法:1、网管复位ONT〔复位会中断业务3到5分钟〕,仍然无法消除如此检查光路;2、更换ONU,重做数据;阿尔卡特GPON故障2.1 网元脱管告警名称或故障现象:OLT上报网元脱管,该板OLT业务全阻告警产生原因:1、OLT设备掉电;2、主控板吊死,或者通信故障;3、OLT设备上联光路故障;4、OLT的网关IP设备问题;告警处理方法:1、查看主控板是否有告警,有高级别的告警优先处理;2、检查设备供电是否正常,检查上联光路是否正常;3、ONU的管理IP是否错设为OLT的网关IP2.2 风扇配置失效〔Rack fan missing Alarm〕告警名称或故障现象:OLT上报风扇配置失效〔Rack fan missing Alarm〕告警产生原因:1、风扇电源故障;2、风扇故障;告警处理方法:1、根据告警中端口与相关资料查找相应,派维护人员到场检查;2、维护人员到现场后先观察设备上风扇指示灯是否正常;3、重启相应设备的风扇电源;2、更换相应设备的风扇;2.3 单板丢失(BDMISSING)告警名称或故障现象:OLT上报单板丢失 (BDMISSING)告警产生原因:1、OLT单板不兼容;2、OLT设备单板吊死,或者被损坏;告警处理方法:1、热插拔该板件;2、更换相应单板;3、联系厂家工程师配合处理;2.4 GPON发送失败(TXFAIL)告警名称或故障现象:OLT上报 GPON发送失败(TXFAIL)告警产生原因:1、OLT数据吊死;2、OLT设备单板吊死,或者被损坏;告警处理方法:1、热插拔该板件;2、更换相应单板;3、联系厂家工程师配合处理;2.5 NT以太网链路端口停用告警名称或故障现象:OLT上报 NT以太网链路端口停用,同时该告警产生原因:1、上联城域网的端口故障;2、上联城域网的链路问题;3、城域网交换机端口或者设备故障;告警处理方法:1、优先联系城域网检查相应交换机端口情况;2、派维护人员到机房检查连接城域网设备的光路是否正常;3、检查连接两端的链路是否正常;2.6 PON信号丢失告警名称或故障现象:ONU上报 PON信号丢失告警产生原因:1、分光器到OLT光功率过低;2、分光器到OLT间光缆故障;2、分光器损耗过大;告警处理方法:1、检查分光器与OLT之间的光路,更换光纤;2、检查分光器端口与整体耗损,更换分光器端口或者整体替换;2.7 ONT未激活告警名称或故障现象:ONU上报 ONT未激活告警产生原因:1、ONU上联光纤断裂:ONU到分光器间光缆断裂;2、单个ONU频繁闪断;告警处理方法:1、该告警只影响该ONU的业务,报维护人员检查光路。
本文由凭湾飞龙贡献通信网络知识凭湾科技故障定位的常用方法●一般要借助于网管(F 或f 网管都有可以),根据网管上显示的单盘告警以及单盘性能,同时还要作好故障定位。
●检查光缆、电缆是否连接正确,网管系统是否正常,排除传输设备外的故障;●检查各站点业务配置是否正确,排除配置错误的可能性;●通过设备性能监视功能来分析故障的原因;●通过环回,将故障最终定位到单站;●通过本站自环测试来定位故障点;●通过更换单元盘等部件来定位故障点。
告警解释1▲LOS:信号丢失,无光功率输入、接收光功率过低、信号劣化于10-3。
OOF:帧失步,搜索不到A1、A2字节,一帧错一个字节就检测一个OOF告警。
LOF:帧丢失,OOF持续3mS以上就会发生LOF。
S-BBE:再生段背景误码块,B1校验到再生段—STM-N有误码块。
MS-AIS:复用段告警指示信号,K2(6-8)=111超过3帧。
MS-RDI:复用段远端信号劣化指示,对端检测到MS-RDI,MS-EXC,由K2(6-8)回发来。
MS-REI:复用段远端误码指示,由对端通过M1字节回发,由B2检测出。
MS-EXC:复用段误码过量,由B2 检测。
告警解释2▲AU-AIS:管理单元告警指示信号,整个AU为全“1”(包括AU-PTR指针)AU-LOP:管理单元指针丢失,连续8帧收到无效指针或NDF。
HP-RDI:高阶通道远端信号劣化指示,收到HP-TIM、HP-SLM。
HP-REI:高阶通道远端误码指示,回送给发端由收端B3字节检测出的误码块。
HP-BBE:高阶通道背景误码块,显示本端由B3字节检测出的误码块。
HP-TIM:高阶通道踪迹字节失配,J1应该收到的和实际所收到的不一致。
HP-SLM:高阶通道信号标签失配,C2应该收到的和实际所收到的不一致。
HP-UNEQ:高阶通道未装载,C2=00H 超过5 帧。
告警解释3▲TU-AIS:支路单元告警指示信号,整个TU为全“1”(包括TU指针)。
SDH告警分析与故障处理1.告警名称:信号丢失(R-LOS)告警产生的原因:断纤;线路损耗过大,导致收光功率超出灵敏度值;对端站发送方向无系统时钟;对端站激光器损坏,线路发送失效;对端站交叉板没有时钟输出;对端站时钟板工作不正常. 告警处理步骤:测试告警单板的接收光功率,如果光功率正常则检查板上接头有无松动,如果接头良好则更换告警单板;如果光功率很小或接近0mW,检查对端至本站的光缆是否松动;如果光缆线路正常,检查对端站光发送板接头是否松动,如果接头良好则更换对端站光发送板。
2.告警名称:帧丢失(R-LOF)告警产生的原因:光损耗过大;对端站发送信号无帧结构;本端接收方向有故障。
告警处理步骤:检查告警单板接收光功率,如果光功率正常则检查告警单板是否存在问题;如果光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏;如果光纤及告警单板都正常,则检查对端站光发送板设法存在问题。
3.告警名称:帧失步(R-OOF)告警产生的原因:接收信号损耗偏大;传输过程误码过大;接收方向器件有故障;对端站发送有故障。
告警处理步骤:检查告警单板接收光功率,光功率正常则检查告警单板是否存在问题;如光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏;如光纤及告警单板都正常,则检查对端站光发送板是否存在问题。
4.告警名称:发送失效(TF)告警产生的原因:光发送模块损坏;告警处理步骤:更换故障单板5.告警名称:再生段误码过量指示(B1-EXC)告警产生的原因:接收信号损耗偏大;对端站光发送电路高频部分有故障;光纤不清洁或与连接器不正确;本站接收电路部分故障。
告警处理步骤:如果同时也出现B2、B3告警,故障往往是线路损耗过大或由光接口板的故障引起,定位方法同出现R-LOS的情况;检查设备工作温度是否过高;如无以上情况,更换故障单板。
6.告警名称:复用段告警指示(MS-AIS)告警产生的原因:对端站发线路AIS信号;对端站发站发方向无时钟或无信号告警处理步骤:检查对端站线路板(ASP等)是否存在问题,可通过复位或更换单板的方法检查告警是否消失;检查本站线路板,先更换光接收板,如未解决再更换ASP板。
网络管理—警告系统的设计1设计目标1.数据采集:通过采集计算网络中的配置信息,告警信息,性能信息,反馈给告警中心。
2.数据分析:分析告警信息(原始告警信息,性能数据,配置信息),推理处理并存储记录告警,且实现告警的可确认消除(自动回复/手动恢复)。
3.数据应用:实时监控重要的告警信息,解决并消除告警信息。
根据告警信息记录生成报表统计,向上层提供决策的数据依据。
2 概要设计系统分三层:数据的采集数据处理数据应用数据采集:从系统的网元上采集数据包括:性能数据信息,网元告警信息,拓扑结构的配置信息,向数据处理层的制定临时数据库中传送。
数据处理:从指定的数据库中获得原始数据信息,判断处理。
根据估值(及性能阀值)判断生成警告信息,存储分析并上报告警信息。
实现告警的匹配确认清除,重复告警的归并处理。
数据应用:及时监控重要的告警信息,并处理此告警,反馈告警的确认信息。
根据不同的用户需求展现告警统计信息报表,为决策提供数据支持。
3数据采集层3.1 内容3.1.1配置数据采集的内容及获得该网络中的网元设备,基本信息,与实体形成对应的映射。
用于网络的拓扑信息管理。
网管系统管理采集以下配置数据:3.1.2告警数据采集的内容3.1.2.1告警源需要采集的告警报告分为:网元告警●路由器:●交换机:●配线板:●服务器:cpu , 内存,硬盘,电源,风扇(散热),网卡,光驱,端口,运行的软件服务1.环境告警: 暂保留。
2.通信连接告警(拓扑管理):当某一网元设备持续一定时间不响应网管系统时,网管系统应能自动生成该网元设备的通信连接警。
3.性能告警:当性能指标超出预先设定的范围时,系统触发的告警称为性能告警。
4.设备告警:来自设备红端的告警信息。
3.1.2.2原始告警数据内容原始告警数据是从告警源采集到的未经任何处理的原始告警信息,格式和内容与网元类型相关,原始告警信息将在告警管理应用层进行处理,采集层采集到的告警原始数据至少应包括以下内容:3.1.3性能数据采集的内容针对不同的网元,采集其对应的性能信息。
OMS网管系统可能存在的告警信息及处理办法Topology Error 告警等级:Critical(严重的)发生原因:Duplicate node in subnetwork.(网络中存在重复节点机)处理建议:Alter the node number.(重置节点机序号)可能影响:OTN subnetwork contains duplicate node number.(OTN网络中存在重复节点机序号)Element Disappeared(元件丢失)告警等级:Critical(严重的)处理建议:Check if object is still up and runing,or reachable by OMS.(检查丢失部件是否还在运作中或能否通过OMS系统检测到) 可能影响:OMS does no longer find the object on network..(OMS系统再不能检测网络中的部件)OTN Resynchronisation 告警等级:Critical(严重的)故障原因:OMS中存在光纤主备网络切换处理建议:Search possible cause via other alarm message.(检查可能的其他告警路径)可能影响:Primary or secondary OTN ring resynchronisation.(主备网络不能正常切换)Excessive Code Violation(大量代码错误)告警等级:Minor (次要的)处理建议:Check whether both optical connectors are property connected and whether there is no dust in the connection.(检查光纤接头是否正确连接或是否在连接处存在灰尘)可能影响:The transceiver detects too many errors in the code passing over the fibre.(光收发模块检测到光纤里传输的全是错误代码)FIXED OTR600:Optical Signal Loss(光信号丢失)告警等级: Minor (次要的)处理建议:Check power received.If sufficient.Replace receiving transceiver,if not,check output power of optical transmitter and attennation of optical connection,andrepair where needed.(检查接受功率,如果是正常的,更换接收模块,如果光功率较低,检查发送端模块并注意光纤连接,发现问题及时修复)可能影响:The optical input power reaches sensitivity threshold.(光学输入功率达到临界值)A Code Violation Occurred (发生一个代码错误) 告警等级:Major(一般的)处理建议:Check whether both optical connectors are properly connected and whether there is no dust in the connectors.If ok ,repalce transceiver and/or the transceiverof the node transmitter.(检查两端光连接器件是否正确连接,检查是否在连接处存在灰尘。
常见的告警与性能事件1.1 SDH常见的告警1、输入信号丢失(LOS)告警产生的原因:断纤;线路损耗过大,导致收光功率超出灵敏度值;对端站发送方向无系统时钟;对端站激光器损坏,线路发送失效;对端站交叉板没有时钟输出;对端站时钟板工作不正常.告警处理步骤:测试告警单板的接收光功率,如果光功率正常则检查板上接头有无松动,如果接头良好则更换告警单板;如果光功率很小或接近0mW,检查对端至本站的光缆是否松动;如果光缆线路正常,检查对端站光发送板接头是否松动,如果接头良好则更换对端站光发送板。
2、帧定位丢失告警(LOF)告警产生的原因:光损耗过大;对端站发送信号无帧结构;本端接收方向有故障。
告警处理步骤:检查告警单板接收光功率,如果光功率正常则检查告警单板是否存在问题;如果光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏;如果光纤及告警单板都正常,则检查对端站光发送板设法存在问题。
3、上游故障告警(AIS)(1) MS-AIS(接收线路)复用段告警告警产生的原因:上游发线路AIS信号;上游发站发方向无时钟或无信号(内部)。
告警处理步骤:检查对端站线路板(ASP等)是否存在问题,可通过复位或更换单板的方法检查告警是否消失;检查本站线路板,先更换光接收板,如未解决再更换ASP板。
(2) AU-AIS(接收高阶通道)管理单元告警告警产生的原因:上游发AU-AIS;上游发站内部故障,在交叉与线路之间,无时钟信号,无业务信号;本站接收部分故障。
告警处理步骤:检查对端站及本站业务配置是否正确,如果不正确则重新配置业务;依次更换对端站对应的交叉板和线路板;(3) TU-AIS支路单元告警告警产生的原因:对方支路没有配置,或支路故障;对方交叉单元故障;由于高阶告警而引起TU-ALS,如RLOS、RLOC等;4、发送失效(TF)告警产生的原因:光发送模块损坏;告警处理步骤:更换故障单板。
5、复用段远端接收失效(MS-RDI)告警产生的原因:对端站发送MS-RDI;对端站收端收到R-LOS、R-LOF、MS-AIS信号,或收端电路故障;本端发送有故障,或发送方向光纤故障。
常见告警、性能及处理一:告警处理1.LOS:信号丢失告警。
表示本端接收不到光信号。
主要引起的原因是①光纤断;②对端发送光信号没有;③本端光收模块坏。
处理方法:①先将本端用一根光纤自环,若告警消失,表示本端是好的,问题在对端。
若对端自环也好,则可以肯定两端间光纤的断了;若对端自环不好,也是LOS告警,用光功率计测量其光发功率,若功率过小(-50dB或更低)则可断定光发坏了;若功率正常,则是由于没有时钟引起的,换掉时钟板,告警消失。
②若本端自环还是LOS告警,则是由于光收模块坏了,更换后告警消失。
2.LOF/OOF:帧丢失、帧失步告警。
原因和处理同1。
帧失步:连续5帧以上,找不到正确的A1、A2,则进入帧失步状态。
帧丢失:如果OOF状态持续一段时间,则进入帧丢失状态。
3.MS-AIS:该告警是伴随着远端LOS/LOF出现而出现的,或者从网管上插入该告警。
处理方法:①若本端自环也有该告警,则更换光板。
②本端自环是好的,对端又没有LOS告警,则可能是网管上插入了AIS告警,从网管上将插入AIS操作取消,若此处理不消除告警,则更换远端光板。
③若远端有LOS告警,则按1将LOS告警消除。
4.MS-FERF/RDI:复用段远端接收故障。
产生原因是由于远端有LOS、LOF、MS-AIS告警引起的。
处理方法:按1、2、3方法消除远端告警则可。
实际工程中,我们经常遇到这样的情况:5.B1、B2、B3信号劣化告警。
原因:光板接收光功率过强或过弱,或系统本身所有。
处理方法:将本端自环,适当调节光纤插入深度,若告警消失,则是由于光功率过强或过弱引起,过强加衰减,过弱将光纤洗干净,法兰盘连接处拧紧或换光发功率强的光模块;若不是光功率引起的,则是光板或时钟板所致,更换光板或时钟板则可(误码性能的参数意义见后面详细介绍)。
6.LOM:复帧丢失。
原因:通常由对端交叉板引起。
处理方法:①更换对端交叉板则可。
②检查背板是否断针。
③交叉板是否插好。
Optix OSN7500告警IN_PWR_ABN产生的原因和处理方法一.告警解释IN_PWR_ABN告警表示输入光功率异常。
二.告警属性告警级别告警类型主要通信三.告警参数在网管中浏览告警时,选中该告警,在“告警详细信息”中会显示该告警的相关参数。
告警参数的格式为“告警参数(16进制):参数1参数2…参数n”,如:告警参数(16进制):0x01 0x08…。
每个参数的含义说明参见下表。
参数名称参数名称参数含义参数含义参数1代表单板实际光口号。
四.对系统的影响该告警会影响业务的传输性能,严重时会导致业务中断。
五.可能原因告警IN_PWR_ABN产生的可能原因如下:光纤弯曲过大;光纤头不清洁;光连接器松动或未插紧;对端站发送部分故障;本站接收部分故障六.处理步骤1、在网管上查询本站的接收光功率。
1)若接收光功率过低,请清洁本站尾纤接头和线路板接收光口,确认光纤连接器插紧后,查看告警是否消除。
2)若告警未消除,检查尾纤弯曲半径是否小于6cm,若尾纤弯曲半径小于6cm,请重新盘放尾纤,查看告警是否消除。
3)若接收光功率过高,请在接收光口增加合适的光衰减器后,查看告警是否消除。
2、若告警仍未消除,请检查本站的法兰盘是否连接正确,正确使用法兰盘,并清洁法兰盘后,查看告警是否消除。
3、若告警仍未消除,在网管上查询对端站的发射光功率是否正常。
1)如果不正常,请更换对端站单板,查看告警是否消除。
2)如果正常,请进行下一步。
4、若告警仍未消除,则清洁对端站的尾纤接头,确认光纤连接器插紧后,查看告警是否消除。
5、若告警仍未消除,检查对端站的法兰盘是否连接正确,正确使用法兰盘,并清洁法兰盘后,查看告警是否消除。
6、若告警仍未消除,表示本站单板接收部分故障,更换本站单板。
网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。
告警采集程序通过rules将SYSLOG日志记录解析为告警记录。
一条典型的华为端口DOWN告警解析过程:Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state针对上面的告警,通过rules,主要解析出如下内容告警来源IP:133.63.254.190告警类型:IFNET/5/UPDOWN告警对象:Ethernet1/0/5告警原始级别:5告警描述:Interface Ethernet1/0/5 Turns into DOWN state2、Snmp Trap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。
举例说明:10.102.16.2:TRAP[requestID=0, errorStatus=Success(0), errorIndex=0,VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP告警定义:(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。
(2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。
解析翻译后的告警如下:告警来源IP:10.102.16.2告警类型:zxAnEponOnuErroredSymbolPeriodEvent告警对象:10.102.16.2告警级别:4告警描述:10.102.16.2 F820(0/4/4/5) : ONU错误符号间隔事件3、网元状态Polling告警(主动检测方式)(1)告警产生采用定期调度(根据设备的重要程度可设定不同的策略)对设备先进行SNMP连接测试,再进行ICMP PING测试:a、如果SNMP Ping不通,ICMP Ping也不通,发送网元中断告警;如果只有SNMP Ping不通,只发送网元不可管理告警b、如果SNMP Ping通,不管ICMP Ping通不通,都不发送任何告警c、如果原来只是SNMP Ping不通,但ICMP Ping也开始不通,再发送一条网元中断告警说明:网元不可管理和网元中断告警,默认只发送一次,不重复发送(即发生次数为1)。
(2)告警恢复对于处于网元不可管理或网元中断状态的设备,同时进行SNMP Ping和ICMP Ping跟踪:a、如果SNMP Ping通,根据设备的告警状态,发送相应的恢复告警,分两种情况:设备只有网元不可管理告警:发送网元不可管理恢复告警设备同时有两种告警:同时发送网元不可管理和网元中断的恢复告警b、如果SNMP Ping仍不通,但ICMP Ping开始通(也就是说原来两者都不通),发送一条网元中断恢复告警。
4、端口状态Polling告警(主动检测方式)端口Polling在端口流量采集时进行(检测周期与性能采集周期相同,5min一次)。
判断标准:本次端口流量采集采到的端口操作状态跟上次采到的端口状态做对比,如果发生了状态变化则发送告警,即:如果是up->down,就发端口DOWN告警;如果是down->up,就发恢复告警。
告警示例:告警类型:端口状态告警描述:如:172.28.12.4 GigabitEthernet0/1/13(端口) 端口down告警级别:严重说明:端口状态告警,只发送一次,不重复发送(即发生次数为1)。
5、性能告警(主动检测方式)告警产生机制:根据性能采集后的数据结果和性能告警设置进行比较,如果满足性能告警设置条件,发送相应的性能告警。
恢复告警:如果发生了“满足性能告警设置条件”->“不满足性能告警设置条件”的变化,则发送相应的恢复告警。
性能告警分类:(1)阈值性能告警:通过阈值设置产生的性能告警(2)基线性能告警:偏离基线时产生的性能告警(3)梯度性能告警:梯度变化满足一定条件时产生的性能告警(4)高级性能告警:满足给定的组合条件时产生的性能告警说明:性能告警,如果满足性能告警设置条件,则每5分钟发送一次,直到告警恢复为至。
6、其它告警:翻转告警、资源预警、进程告警等(主动检测方式)(1)翻转告警:根据翻转设置条件,产生的告警,不能自动恢复。
告警类型为“翻转告警”。
(2)资源预警:根据资源预警设置条件,判断设备的槽位占有或端口利用率是否超过给定阈值,如果超过,则发送相应的资源预警告警。
告警类型为“资源预警”。
(3)采集进程告警:采集进程正常时,能够定时主动发送心跳信息给应用服务器,系统每3分钟检测一次,根据采集进程的心跳信息是否及时更新来判断采集进程是否正常,如果超过设定时间,心跳信息没有更新,则认为进程down,进而产生相应的告警(重复发送)。
如果进程启动,心跳信息恢复,则发送恢复告警。
告警类型为“网管服务进程”。
1.1.2 告警数据处理流程告警从采集,到入活动库,最后进入历史库,这个过程称为告警的生命周期。
采集为始,入历史库为终。
从始到终,其数据流程如下图所示:流程说明:1、 收到的所有SYSLOG 和TRAP 告警都进行记录。
2、 只有SYSLOG 和TRAP 告警需要经过RULES 解析和翻译环节,其它告警来源无此过程。
3、 被RULES 过滤掉的SYSLOG 和TRAP 告警直接丢弃,而非进入历史库,SYSLOG 和TRAP 告警在原始库中可以找到(TRAP 原始报文默认不入库,如果要入库,需要打开进程参数)。
4、 告警先进行重定义,在进行预处理规则过滤,被预处理过滤的告警,直接进入历史库(也可以选择直接丢弃),对应的删除类型为“预处理删除”;没有过滤的告警入活动库,同时发布JMS 消息。
5、 告警是排队入库的,每次从入库队列中取一定数量的告警依次入库。
分为三种情况:(1) 如果活动库中存在相同的告警事件(告警源和事件相同),则进行告警更新(更新发生次数和发生时间);(2) 如果活动库中不存在相同的告警事件,则插入一条新的活动告警记录; (3) 如果告警为恢复告警,则将活动库中对应的告警事件清除,进入历史库。
6、 活动库的告警被删除后,进入历史库。
这里的删除有以下几种情况(1) 界面手工删除恢复过滤 过滤 未通过 告警重定义 历史库活动库 丢弃 解析翻译 封装告警 SYSLOG 主动检测告警:设备PING ,端口Polling ,性能告警,资源告警,拨测告警等 各种规则预处理是 未过滤 未过滤告警接收Socket 服务告警验证 时间窗口处理 告警风暴处理 资源关联通过否 JMS 消息服务AlarmOperator TRAP 原始告警库丢弃对应的删除类型为“用户手工删除”。
(2)自动恢复删除收到恢复告警后,自动与对应的活动告警结对合并,合并后的告警入历史库。
合并后的告警,清除时间为恢复告警的发生时间,清除类型为“自动恢复删除”,其余字段保留原告警信息。
也就是说,恢复告警是与成对的活动告警合并成一条告警后入历史库。
(3)告警条件删除根据在告警设置里设置的定时删除规则,定时删除符合条件的活动告警。
对应的删除类型为“告警条件删除”。
(4)告警过多删除低级告警当活动库的告警超过设置的容量时,系统自动启动的删除低级别(未定和警告)告警的策略。
删除的告警的级别为未定和警告。
对应的删除类型为“告警过多删除低级告警”。
(5)成对合并直接入历史库如果收到的某个告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库,这种情况下告警删除类型为“成对合并直接入历史库”。
(6)等价告警剔重目前仅适用于端口down告警。
当上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”。
1.1.3告警关联机制告警关联机制包括:(1)告警结对清除收到恢复告警后,自动与对应的活动告警结对合并成一条告警,合并后的告警从活动库转入历史库,这种情况下告警删除类型为“自动恢复删除”;(2)告警压缩合并收到告警时,自动与活动库中存在的相同告警事件(告警源和事件相同)进行合并,同时更新告警的发生次数和发生时间;(3)告警合并直接入历史库如果收到的某个告警发生和恢复时间非常接近(1秒左右),入库线程从告警队列里取告警后,发现有这种成对的情况,就不再走活动库而是直接合并入历史库,这种情况下告警删除类型为“成对合并直接入历史库”;(4)告警同源处理目前主要用于端口DOWN告警。
端口DOWN告警的来源主要有SYSLOG和端口状态Polling两种,尽管告警类型在不同的厂商定义中不尽相同,但反映的是同一告警事件,系统把这些告警类型归属到同一个告警类型组“PORT_DOWN”,同一个告警类型组下的告警,认为是等价的。
为避免由于SYSLOG日志缺失或解析规则不完整造成的端口DOWN告警不准确,系统采用了端口状态Polling作为辅助手段,对端口状态事件进行监控,但与SYSLOG告警进行了关联处理。
具体策略:a、PORT_DOWN告警类型组下的所有告警类型,可以互相清除,即对于同一个端口,某个告警类型的恢复告警,可以清除其它PORT_DOWN告警。
b、上来某条端口down告警时,但活动库中已经存在该端口的其它PORT_DOWN告警,则该端口down告警直接入历史库,删除类型为“等价告警剔重”。
c、当活动库中存在某个端口的PORT_DOWN告警,而端口状态Polling检测到该端口的操作状态为up时,则发送端口状态恢复告警,用于清除该端口的所有PORT_DOWN告警。
目前PORT_DOWN告警类型组包括的告警类型:告警类型来源说明端口状态端口状态PollingLINK-3-UPDOWN SYSLOGLINEPROTO-5-UPDOWN SYSLOGLINK_DOWN SYSLOGLINK-SP-3-UPDOWN SYSLOGPKT_INFRA-LINK-3-UPDOWN SYSLOGPKT_INFRA-LINEPROTO-5-UPDOWN SYSLOGIFNET/4/LINK UPDOWN SYSLOGPHY/4/PHY_STA TUS_UP2DWN SYSLOGPKT_INFRA-LINK-5-CHANGED SYSLOGL2INF/5/PORT LINK STATUS CHANGE SYSLOG……每个现场的配置有所不同。