网元告警处理流程图
- 格式:doc
- 大小:72.50 KB
- 文档页数:16
1.APS_FAIL1.概述APS_FAIL告警表示保护倒换失败指示(APS Protection switching failed),为主要告警,ASCC板会上报此告警。
2.告警原因●复用段保护倒换过程失败。
3.处理步骤步骤操作1检查复用段环上的业务配置是否正确,修改错误配置后,查看告警是否排除。
2.APS_INDI1.概述APS_INDI告警表示复用段保护协议状态指示告警(APS State indicatealarm),为主要告警,ASCC板会上报此告警。
2.告警原因●发生复用段保护倒换。
3.处理步骤步骤操作1本告警表示发生了复用段倒换,排除复用段保护故障后,查看告警是否排除。
3.APS_MANUAL_STOP1.概述APS_MANUAL_STOP告警表示复用段协议人工停止(APS Manual stop),为次要告警,ASCC板会上报此告警。
2.告警原因●停止了复用段协议。
3.处理步骤步骤操作1启动复用段协议。
4.AU_AIS1.概述AU_AIS告警表示AU告警指示(AU Alarm indication),为主要告警,SL64,SF64,SL16,SL16A,SD16,SD16A,SLQ4,SLQ4A,SLH1,SLO1,SP16,SP08,GE02,FE08,EGT2板会上报此告警。
2.告警原因●对端站发送AU_AIS;●对端站发送部分故障;●本站接收部分故障。
3.处理步骤危险:如果交叉时钟没有热备份,复位、更换该单板,会导致业务中断,属危险操作。
更换线路板,需要保证线路板的传输距离与原线路板一致。
步骤操作1在网管上查看是否有高级别的R_LOS、R_LOF、B1_EXC、B2_OVER告警,优先处理这些高级别告警后,查看告警是否排除。
2检查网元是否处于保护倒换运行状态,排除倒换故障后,查看告警是否排除。
3检查网元的业务配置是否正确,修改错误的配置后,查看告警是否排除。
4利用告警分析法和环回法,定位故障发生的网元。
传输设备常见告警解释及处理建议LianLv一、 LOS 告警:信号丢失1、正常情况下两个网元之间要通信,中间的信号流必须是畅通的,如下图;2、从上图可以看书信号从MSC 发出2M 信号,经过SDH 设备复用后传递给下一个设备,最后末端SDH 设备解复用出2M 信号给另一端的MSC 。
也就是说,产生信号源的设备是发出信号的设备,当相邻的设备收不到对端发出的信号时就会上报LOS 告警,即信号丢失;A 、上图中由于SDH2发出的光信号SDH1收不到所以SDH1的收光口会上报LOS 告警;B 、上图中MSC2发出的2M 信号由于2M 线中断导致SDH2的2M接口收不到信号,所以SDH2的2M 接口会上报LOS 告警;C 、 上图是MSC1收不到信号的情况;说明:在通信标准中信号丢失的告警名都为LOS,但是不同厂家在编写网管软件时其有所不同,比如:华为公司传输设备,光口收不到信号上报告警为R-LOS ,支路口(2M 口)收不到信号时报T-ALOS;二、 LOF 告警:帧丢失1、当收到的信号功率太大或太小时都会上报OOF 告警;2、是指可以收到信号,但是检测不到信号的开始位置。
一般在波分和SDH 相连时,由于中继段线路中断,造成SDH 设备收到的信号为非调制光。
四、 AIS 告警:全1指示告警举例:SDH2收不到BTS 发来的2M 信号,SDH2会上报LOS 告警,并下插“1”码,当BSC1收到的2M 信号为全要“1”的时候就会上报AIS 告警。
这个故障我们日常维护中经常碰到,如果基站发送处理的2M 信号在中间传输环节中中断,BSC 的dip 端口都会上报AIS 告警。
五、 RDI 告警:远端告警指示举例:当BTS 收到的2M 信号在传输途中中断,但是BSC 可以收到BTS 发送的信号,那么BTS 就会发送AIS 信号给BSC ,当BSC 收到AIS 信号时就会上报RDI ,即远端告警指示说明故障点在BTS 端。
网管系统告警产生和处理机制1.1.1告警来源和产生机制1、SYSLOG日志(被动接收方式)通过采集服务器的SYSLOG服务,接收网元发送上来的SYSLOG日志记录。
告警采集程序通过rules将SYSLOG日志记录解析为告警记录。
一条典型的华为端口DOWN告警解析过程:Jul 15 19:54:11 133.63.254.190 2008 yaan-DC-R-N40 IFNET/5/UPDOWN:Interface Ethernet1/0/5 Turns into DOWN state针对上面的告警,通过rules,主要解析出如下内容告警来源IP:133.63.254.190告警类型:IFNET/5/UPDOWN告警对象:Ethernet1/0/5告警原始级别:5告警描述:Interface Ethernet1/0/5 Turns into DOWN state2、Snmp Trap告警(被动接收方式)告警采集在162端口监听并接收网元发送过来的TRAP通知,通过加载相应MIB里的TRAP定义或者厂家提供的TRAP告警翻译规则,转换为相应的告警记录。
举例说明:10.102.16.2:TRAP[requestID=0, errorStatus=Success(0), errorIndex=0,VBS[1.3.6.1.2.1.1.3.0 = 229 days, 12:07:02.00;1.3.6.1.6.3.1.1.4.1.0 = 1.3.6.1.4.1.3902.1015.1010.1.10.1.17;1.3.6.1.2.1.2.2.1.1 = 808584704]]根据中兴提供的TRAP告警定义:(1)1.3.6.1.4.1.3902.1015.1010.1.10.1.17代表zxAnEponOnuErroredSymbolPeriodEvent,即ONU错误符号间隔事件,级别是主要。
(2)808584704 代表索引信息,可进一步定位到具体的ONU设备,如F820(0/4/4/5)。
➢网元断链告警处理案例1.故障现象描述✧在双模站点开通过程中,部分站点在初期会有断链情况。
告警显示“网元断链告警(198099803)”这样的话,后台就无法监控到断链站点的状态。
2.故障分析排查思路1、只有个别基站在所属网管服务器上面断链,可以排查网管服务器故障;2、大批基站集中断链,可以排除基站本身硬件、供电故障;3、如果个别站点在正常运行,排除基站无硬件、供电故障后,出现断链,一般为传输问题,需要联系移动传输室来联合排查定位;3.传输网络结构介绍✧LTE基站OMC维护网络从IP传输网络架构来看,可分为3段,依次是:基站------基站网关------网管服务器网关------网管服务器。
整个传输网络结构如下图所示:4.网元断链故障处理流程5.故障排查总结通过上述的排查总结如下:1、首先确认BBU设备是否运行正常,站点传输设备是否正常,基站供电系统是否正常。
2、然后检查下站点的配置数据,确保站点配置无误,可能由于传输割接导致站点断链。
网管配置参数如下图所示:网元中配置的OMC操作维护地址:基站传输网络→IP传输→IP层配置中的OMC操作维护地址:基站传输网络→IP传输→OMC链路服务器地址:3、关于ping命令,有两种使用情况:a)从后台ping前台基站的话:直接在网管服务器上:ping ip地址。
b)从前台基站上ping后台服务器:需要通过使用LMT工具来,下面简单介绍其使用方法:启动EDMS登录基站---Ping包检测—设置ping的包大小,次数及相应的IP地址---再点击对应的按钮开始测试。
Ping包检测开始后,会在ping包信息区域显示每次ping包的详细信息。
Ping包结束后,会在ping包统计区显示统计信息,包括是否存在丢包、延时等等。
SDH告警分析与故障处理1.告警名称:信号丢失(R-LOS)告警产生的原因:断纤;线路损耗过大,导致收光功率超出灵敏度值;对端站发送方向无系统时钟;对端站激光器损坏,线路发送失效;对端站交叉板没有时钟输出;对端站时钟板工作不正常. 告警处理步骤:测试告警单板的接收光功率,如果光功率正常则检查板上接头有无松动,如果接头良好则更换告警单板;如果光功率很小或接近0mW,检查对端至本站的光缆是否松动;如果光缆线路正常,检查对端站光发送板接头是否松动,如果接头良好则更换对端站光发送板。
2.告警名称:帧丢失(R-LOF)告警产生的原因:光损耗过大;对端站发送信号无帧结构;本端接收方向有故障。
告警处理步骤:检查告警单板接收光功率,如果光功率正常则检查告警单板是否存在问题;如果光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏;如果光纤及告警单板都正常,则检查对端站光发送板设法存在问题。
3.告警名称:帧失步(R-OOF)告警产生的原因:接收信号损耗偏大;传输过程误码过大;接收方向器件有故障;对端站发送有故障。
告警处理步骤:检查告警单板接收光功率,光功率正常则检查告警单板是否存在问题;如光功率超出正常范围,则检查对端站至本站光纤及其接口是否损坏;如光纤及告警单板都正常,则检查对端站光发送板是否存在问题。
4.告警名称:发送失效(TF)告警产生的原因:光发送模块损坏;告警处理步骤:更换故障单板5.告警名称:再生段误码过量指示(B1-EXC)告警产生的原因:接收信号损耗偏大;对端站光发送电路高频部分有故障;光纤不清洁或与连接器不正确;本站接收电路部分故障。
告警处理步骤:如果同时也出现B2、B3告警,故障往往是线路损耗过大或由光接口板的故障引起,定位方法同出现R-LOS的情况;检查设备工作温度是否过高;如无以上情况,更换故障单板。
6.告警名称:复用段告警指示(MS-AIS)告警产生的原因:对端站发线路AIS信号;对端站发站发方向无时钟或无信号告警处理步骤:检查对端站线路板(ASP等)是否存在问题,可通过复位或更换单板的方法检查告警是否消失;检查本站线路板,先更换光接收板,如未解决再更换ASP板。
通信传输设备故障汇报处理流程一、华为传输设备(一)当TMS中发现根告警所属系统为华为SDH传输系统时,根据告警原始原因分为以下几种处理情况:1、R_LOS(接收线路侧信号丢失告警)(1)TMS告警定位查看流程:当告警原始原因为R_LOS时,查看告警对象为XX站点XX设备X槽XX网元号XX框XX槽XX板XX端口,右键此条告警选择告警定位后进入传输拓扑图,若能直接定位到网元可直接双击进入设备面板图查看告警,若无法定位,点击分层加载图标将所有网元加载完毕后,在搜索一栏输入站点名称,选择告警对象中的网元型号进行定位,选择网元双击直接进入设备面板图,双击告警对象中的槽位进入板卡试图,选择告警对象中的端口查看对端站点设备槽位及端口。
(2)R_LOS告警描述及原因:告警描述:R_LOS告警表示线路接收侧信号丢失(Receive loss of signal)。
该告警产生后,业务中断,并向下游下插AIS信号。
产生该告警后,系统会自动向上游站点回告MS_RDI,上游站点会产生MS_RDI 告警。
告警原因:①断纤(干线光缆故障或局间光缆故障引起);②连接件故障(与该单板相连的波分系统的连接件,连纤);③线路衰耗过大或光功率过载;④对端站发送部分故障,线路发送失效;⑤对端站交叉板故障或不在位;⑥对端站时钟板故障;⑦本站接收部分故障(本端SDH设备的连接件,连纤,单板)⑧对端站设备停电。
(3)告警通知流程:①当告警对象站点设备与对端站点设备为同一管辖围,调度值班员通知相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之反馈告警原因及影响的重要业务(保护、稳控、自动化、调度数据网、视频会议、广域网)。
②当告警对象站点设备与对端站点设备不在同一管辖围时,调度值班员应查看告警对象站点设备和对端站点设备是否同时发生R_LOS告警,若同时发生R_LOS告警,调度值班员通知两个站点相关管辖运维分部生产值班员核查告警原因,并告知在45分钟之反馈告警原因及影响的重要业务;若对端站点设备未发生R_LOS告警,调度值班员通知告警对象设备管辖运维分部生产值班员核查告警原因,并告知在45分钟之反馈告警原因及影响的重要业务。
一、半永久连接状态告警A2/APT "WHMSC8*57/GB/0/" 926 020820 0627SEMIPERMANENT CONNECTION FAULTNAMEMSC3-0此告警出现多伴随有信令中断以及DIP中断告警,多为传输故障引起。
如果没有半永久连接所在设备的DIP告警出现,可以先拆除此半永久连接,再按原有定义数据重新定义激活,即可。
若激活不成功,仍有告警,则说明信令终端设备也许有故障,可以另换一个新的C7ST2C设备定义(用STDEP:DEV=C7ST2C-0&&-200;找出状态为IDLE的)。
若告警仍出现,则注意观察与此有关的DIP是否有传输质量告警。
具体步骤为:1、EXSCP:NAME=MSC3-0;找到对应的UPD设备及信令中断C7ST2C-xx2、EXSCE:NAME=MSC3-0,DEV=UPD-xx;拆除该半永久连接3、EXSPI:NAME=MSC3-0;重新定义EXSSI:DEV=UPD/C7ETC4/MALT-xx;EXSSI:DEV=C7ST2C-xx;4、EXSCI:NAME=MSC3-0,DEV=UPD-**;二、SIZE调整告警A2/APZ "WHHLR3*57/GB/0/" 263 020826 1034SIZE ALTERATION OF DATA FILES SIZE CHANGE REQUIRED此告警出现说明有部分FUNCTION BLOCK的SAE值需增加,可根据提示查看需要调整的SAE 值,向爱立信工程师确认此FUNCTION BLOCK SAE值是否可以扩大1、<DBTSP:TAB=SAACTIONS;通过查看SAACTIONS表,找到引起告警的FUNCTION BLOCKDATABASE TABLEBLOCK TAB TABLE WRAPPEDSAFTAB1 SAACTIONS YESACTNUM SAE BLOCK TYPE CNTRTYP CURRNI NEWNI0 700C7OMASE LOCAL CONS1 00NIE NIR STATUS0 0 REGEND通过该例,可以发现需要调整的为SAE=700,BLOCK=C7OMASE,当前值为0,希望增加到的值仍为0,这是一个特例。
可以通过参考同类其他网元的相同BLOCK值。
如果当前和希望增加到的值相同,则可以通过指令<SAALI;RESET此告警。
2、<SAAEP:SAE=700,BLOCK=C7OMASE;SIZE ALTERATION OF DATA FILES INFORMATIONSAE BLOCK CNTRTYP NI NIU NIE NIR700 C7OMASE CONS1 0END3、<SAALI;WO WHHLR3*57/GB/0/1/06/06 NVT-495 TIME 020827 1343 PAGE 1SIZE ALTERATION OF DATA FILES RESULTSAE BLOCK NI NIE NIR700 C7OMASEFAULT CODE 97NI INCREASE TO ZERO REQUESTEDEND注:1、SAALI指令应慎用,因为该指令的作用是自动将BLOCK扩大到系统所期望的值,为避免引起不必要的SIZE调整,仍建议手工调整SAE值。
2、HLR中如果出现SAE=501,BLOCK=ASD以及SAE=261 的SIZE调整告警,不要盲目调整,这两个SIZE的NI值与系统的设计容量有关,最好以释放资源的方式消除告警。
三、IOG卷容量超过门限值告警A2/APZ "WHHLR*57/FC/0/1" 273 020826 0607VOLUME LIMIT EXCEEDEDSPG VOLUME LIMIT0 CHARVOLUME 80%此告警出现说明卷容量超过总容量的门限值,由卷多余文件占用硬盘存储空间引起,确认该告警产生的门限值大小,通常为总容量的80%左右。
删除部分多余文件既可。
但删除文件时应确认该文件是否有用。
<INMCT:SPG=0;:INFIP:VOL=CHARVOLUME; 查看该卷的文件FILE TABLEFILE FCLASSICIFILE00 CMPICIFILE01 CMPRELFSW0 CMPRELFSW8 CMPTTFILE00 CMP经确认,RELFSW8文件为CP DUMP文件,不应存储在该卷中,可以删除。
A2/APZ "WHMSC1*57/FC/0/1" 273 020826 0607VOLUME LIMIT EXCEEDEDSPG VOLUME LIMIT0 EXCHVOLUME 2%此告警虽然也说明卷容量超过总容量的门限值,但显而易见,该告警产生的门限值太小,只有2%。
类似这类告警产生的门限值低于50%的告警,可以通过调整告警门限的方法来消除告警。
inmct:spg=0; :invop:vol=exchvolume; 确认告警门限值大小VOLUME ATTRIBUTES STATUSREV DATE TOTSIZE(KB) USEDSIZE(KB) LIMIT1 201231 10938448 321475 2AVAILSIZE(%) USEDSIZE(%)97 3NODE1 IO1 SIZE1(KB)A HD-1 10938448NODE2 IO2 SIZE2(KB)B HD-1 10938448ENDINVOC:VOL1=EXCHVOLUME,LIMIT=80;修改告警门限值。
END;四、CP故障告警A3/APZC "WHMSC6*57/GB/0/" 806 020825 0222CP FAULT此告警出现说明CP存在硬件临时或永久性错误,CP故障告警根据其严重性分为A1、A2、A3级别,告警出现后应先用指令<DPWSP;查看CP工作状态,通常A3级别告警不影响CP工作状态。
具体诊断修复过程如下:1、<REPCI; 诊断CP故障ORDERED< CP DIAGNOSISTEST RESULTFAULTFAULTTYPETEMPORARYMAG PCB REPLACED REASONCPU-B STUD-2CPU-B POWCEND此例诊断结果为一临时性错误,由DSU板故障引起,通常A3 CP FAULT告警诊断结果与此类似。
临时性错误可以用指令修复或插拔板解决。
<REMCI:MAG=CPU-B,PCB=STUD-2; 根据诊断结果指令修复或插拔换板ORDERED< CP MANUAL INTERVENTIONINTERVENTION PREPARATIONSUCCESSFUL<RECCI; 指令修复CP,使执行侧备用侧并边ORDERED< CP REPAIRSUCCESSFUL注:A1、A2级别的CP FAULT须换板修复,应尽量在晚上话务量较低时执行。
五、FORLOPP告警O1/APZ "WHMSC4*57/GB/0/" 530 020819 1133SYSTEM STATELONG DURATION TIME FOR FORLOPPINF1 INF2 INF3 INF4H'3E3 H'2C H'18<syfap:hours=1;ORDEREDWO WHMSC4*57/GB/0/1/06/06 NVT-534 TIME 020823 1047 PAGE 1ACTIVE FORLOPPSFORLOPP-ID STATUS NACT NPASS FLPROTYPE START BLOCKH'0256 000D NORMAL 3 0 H'0000 0002 020820 AOTH'03EE 0019 ABORTED 10 4 H'0000 0000 1133 C7TCP H'02E1 002F ABORTED - - H'0000 0000 1133 MRRM H'02AF 001D NORMAL 1 26 H'0000 0008 020821 JOBH'03E3 002C NORMAL 3 0 H'0000 0002 020816 AOTH'012A 0030 NORMAL 3 0 H'0000 0002 020819 AOTEND<syfip:fid=h'3e3-h'2c; ORDERED<WO WHMSC4*57/GB/0/1/06/06 NVT-534 TIME 020823 1047 PAGE 1 HBWO WHMSC4*57/GB/0/1/06/06 NVT-534 TIME 020823 1049 PAGE 1 INDIVIDUALS CONNECTED TO FORLOPPSEARCHYESFORLOPP-ID STATUS FLPROTYPE DATE TIMEH'03E3 002C NORMAL H'0000 0002 020816 1134BLOCK FILENUMBER INDIVIDUAL STATUS FID-VARAUE H'0001 H'0000 0000 ACTIVE1 H'0051ADE H'0001 H'0000 0000 ACTIVE1 H'0064AOT H'0001 H'0000 0000 ACTIVE1 H'0090LAD H'0011 H'0000 007A ACTIVE2 H'016BLAD H'0012 H'0000 0075 ACTIVE2 H'016FLAD H'0012 H'0000 006A ACTIVE2 H'016FLAD H'0013 H'0000 0152 ACTIVE2 H'0166END<SYFRI:FID=H'3E3-H'2C,BLOCK=AOT,IND=H'0,FILENUM=H'1;EXECUTED六、软件应用错误告警A3/APZ "WHMSC1*57/GB/0/" 444 020822 0841APPLICATION DETECTED SOFTWARE ERROR此告警出现多由于FORLOPP非正常释放引起,该告警仅仅只是告知维护人员此问题出现过。