华为PTN告警处理规范
- 格式:docx
- 大小:21.18 KB
- 文档页数:16
华为PTN告警处理规范1.ETH_LOS告警解释:ETH_LOS为以太网端口连接丢失告警。
该告警表示以太网端口接收不到以太网信号。
产生原因:以太网端口的电缆或光纤没有连接好。
电缆或光纤故障。
本端网元接收光功率过低。
单板故障。
处理步骤:检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。
更换上报告警的处理板。
若告警未消除,更换对端网元对应的处理板。
2.MPLS_TUNNEL_LOCV告警解释:MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。
连续3个周期内没有收到希望的CV/FFD报文时出现此告警。
产生原因:PW对端停止CV/FFD。
物理链路故障。
PW对端单板正在复位。
业务接口配置错误。
网络出现严重拥塞。
处理步骤:在网管上查看PW对端是否停止了CV/FFD。
在网管上检查该链路两端网元是否存在单板或光模块相关的告警。
若告警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。
在网管上检查对端单板是否上报COMMUN_FAIL告警。
若存在,说明对端单板可能正在复位。
清除COMMUN_FAIL告警后,查看本告警是否清除。
对照网元规划表,在网管上查看业务接口是否配置错误。
如果是,重新配置业务接口后,查看告警是否消除。
检查故障Tunnel的带宽是否已被完全占用。
如果是,增大Tunnel带宽配置或消除非法发送大数据量的根源。
查看告警是否清除。
3. BD_STATUS告警解释:BD_STATUS为物理单板离线告警。
当用户在网管上配置了逻辑单板而物理子架上却没有插入实际单板时就会上报此告警。
产生原因:单板正在硬复位。
单板未插上,或单板插上,但与母板接触不良。
板间通讯故障。
处理步骤:在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。
等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否消除。
华为PTN故障处理手册v1.0公司网络维护中心2010年12月目录一、概述 (5)二、网络故障分析定位方法 (5)2.1 告警分析法 (5)2.2 性能统计分析法 (7)2.3 OAM分析法 (9)2.4 配置数据分析法 (13)2.5 仪表测试分析法 (15)2.6 环回法 (16)2.7 排除法 (17)三、业务中断故障和业务恢复 (18)3.1 流程图 (18)3.2 查询误操作 (20)3.3 检查告警 (20)3.4 检查环回和装载 (21)3.5 检查业务配置 (22)3.6 应急恢复方案 (22)3.6.1 倒换 (22)3.6.2 复位 (23)3.6.3 通过更换单板恢复业务 (23)四、常见故障处理方法 (24)4.1 带DCN故障处理 (24)4.2 MPLS Tunnel故障处理 (29)4.3 PW故障处理 (31)4.4 CES业务故障处理 (33)4.5 以太网业务故障处理 (38)4.6 offload故障处理···············错误!未定义书签。
4.7 时钟故障处理 (42)4.8 QoS故障处理 (44)4.9 线性MSP故障处理 (48)4.10 TPS故障处理 (52)4.11 LAG故障处理 (55)4.12 MPLS APS故障处理 (59)五、部件更换注意事项 (63)4.13 部件分类说明 (65)4.14 更换处理板 (66)4.15 更换子卡 (68)4.16 更换接口板 (70)4.17 更换XCS单板 (71)4.18 更换带有1+1保护的SCA单板 (73)4.19 更换没有1+1保护的SCA单板 (76)4.20 更换风扇板 (79)4.21 更换PIU板 (80)4.22 更换可插拔光模块 (81)4.23 更换CF卡 (83)一、概述PTN网络故障处理在日常维护中显得至关重要,为了更好的开展PTN网络的日常维护,特编制PTN网络故障处理手册。
目录1. MSC SERVER处理分册 (3)1.1 告警箱处于离线状态 (3)1.2、FE端口故障 (3)1.3、WCKI时钟参考源丢失 (4)1.4、控制框与业务框通信失败 (5)1.5、BAM到主机通讯失败 (6)1.6、BAM到主机连接中断 (7)1.7、与NTP服务器断连 (8)1.8、Q922链路故障 (9)1.9、TCP链路故障 (11)1.10、CPU过载 (12)1.11、单板网口协商失败 (13)1.13、许可证文件即将失效 (14)1.14、计费中心长时间未取话单 (16)1.15、心跳中断 (17)1.16、双机倒换 (18)1.17、私网中断 (19)1.18、IP资源失效 (20)1.19、备份连接失败 (21)1.20、单板故障 (22)1.21、许可证即将过期告警 (23)1.22、许可证已经过期告警 (24)1.23、电源输出开关关闭 (25)1.24、H.248 SCTP链路故障 (26)1.25、MGW退出服务 (28)1.26、MTP目的信令点不可达 (29)1.27、MTP路由传输禁止 (31)11.28、MTP链路故障 (32)1.29、MTP缓冲区拥塞 (34)1.30、M2UA链路故障 (35)1.31、SCCP目的信令点禁止 (37)1.32、SCCP子系统禁止 (38)N => 联系对端局点确认其子系统是否恢复。
(40)2. MGW处理分册 (40)2.1 FE级联网口故障 (40)2.2 风扇框通讯故障 (42)2.3 NET单板时钟检测异常 (44)2.4 NET单板时钟失锁 (47)2.5 GE级联光口故障 (48)2.6 NET单板时钟失锁 (50)2.7 NET单板时钟配线故障 (52)2.8 级联光口故障 (54)2.9 GE通道光模块故障 (56)2.10 TDM通道光模块故障 (58)3.11 BLU时钟检测异常 (60)2.12 信令链路故障告警 (62)2.13 SPF扣板链路故障 (64)2.14 L2UA链路组故障 (67)2.15 L2UA链路故障 (68)2.16 单板软件异常告警 (70)2.17 SIWF故障告警 (72)2.18 控制平面拥塞 (74)2.19 单板故障 (75)2.20 告警箱断链 (77)2.21 单板上存在故障的半永久 (78)2.22 参考源丢失 (80)2.23 虚拟媒体网关迁移出业务态 (82)1. MSC SERVER处理分册1.1 告警箱处于离线状态告警含义1. 告警解释当BAM与告警箱之间通信中断时间超过10秒钟后,系统将产生该告警。
1、NE_NOT_LOGIN告警解释NE_NOT_LOGIN表示网元未登录对系统的影响无法从网元侧查询该告警的配置数据无法在网管上管理该网元可能原因原因1:网元与网管通讯中断解决网元与网管通讯中断方法,参见NE COMMU BREAK原因2:用户退出登陆或者登陆网元失败以其他正确的网元用户登陆网元查看告警是否结束,若未结束,请进行下一步如果故障依然存在,请联系华为工程师MPLS_TUNNEL_LOCV告警解释MPLS_TUNNEL_LOCV 为TUNNEL连通性丢失告警。
连续3个周期内没有收到希望的CV/FFD报文时出现此告警。
对系统的影响该告警产生时,会触发MPLS APS倒换,将业务倒换到保护TUNNELMPLS_TUNNEL_FDI告警将抑制MPLS_TUNNEL_LOCV告警的上报。
可能原因告警MPLS_TUNNEL_LOCV产生的可能原因如下:原因1:TUNNEL的INGRESS节点停止CV/FFD原因2:物理链路故障原因3:INGRESS节点的单板正在复位原因4:业务借口配置错误原因5;网络出现严重拥塞原因6:CPU占用饱和,无法处理ARP协议报文处理步骤:原因1:原因1:TUNNEL的INGRESS节点停止CV/FFD1、在网管上分别进入上报告警的TUNNEL的INGRESS节点和EGRESS节点的“网元管理器”,在功能树中选择“配置》MPLS 管理》单播TUNNEL管理”。
选择“OAM参数”选项卡。
2、查看两端的“检测方式”和“检测报文类型”参数是否一致如果两端的参数。
则。
不一致修改任一节点的参数配置使两端一致后,单击“应用”。
一致继续下一步3、查看INGRESS节点的“CV/FFD状态”参数如果是。
则。
停止右键单击该条TUNNEL,在弹出的菜单中单击‘启动CV/FFD”.查看告警是否清除启动排查下一原因原因2:物理链路故障1、在网管上查看EGRESS节点是否存在HARDBAD、ETH_LOS、或者ETH LINK DOWN告警,具体操作请参见在U2000上查询当前告警。
PTN业务故障处理方法
故障定位的基本原则为三句话:先主后次、由外而内、逐步深入。
先主后次:障产生时通常伴随着告警,首先需要分析告警,应首先分析高级别的告警(如紧急告警、主要告警),然后再分析低级别的告警(如次要告警和提示告警)。
由外到内:在界定故障类型时,应先排除外部的可能因素,如链路故障、电源故障、温度过高等;其次是排查配置是否正确,如时钟跟踪、对接参数、门限设置等;最后才是具体定位故障点。
逐步深入:在定位故障点时,遵循逐步缩小范围的原则,先确认是网络侧问题还是用户侧问题,然后进一步定位到是某一段链路问题或故障网元的某块单板问题。
首先,核实网管网元告警是否和业务有关的告警。
查询影响的业务或者是tunnel
核实网元tunnel的连通性,查询tunnel的APS是否正常倒换,保护tunnel是否正常。
查看保护组的状态
通过LSP ping测试tunnel是否正常
设置需要测试参数,正向、反向都需要分别配置。
关注:包长:64、512、1400字节,覆盖长短包。
包数:50。
优先级:0、7,覆盖高低优先级。
核查PWE3业务是否故障。
通过以太OAM测试核实PWE3业务连通性
进入以太OAM测试界面,设置LB参数
查看以太OAM测试结果LB测试信息:没有超时,LB统计信息:发送报文个数和接收报文个数相等
可通过VCCV ping来检测PWE3业务的连通性。
查看运行结果,看业务是否故障。
华为LTE常见告警处理建议2017-8-15华为LTE常见告警目录1射频单元业务不可用告警 (4)2小区不可用告警 (5)3射频单元维护链路异常告警 (6)4BBU IR接口异常告警 (6)5网元断连 (7)6传输光接口异常告警 (7)7S1接口故障告警 (8)8射频单元IR接口异常告警 (8)9License试运行告警 (8)10以太网链路故障告警 (9)11用户面故障告警 (9)12射频单元时钟异常告警 (10)13基站S1控制面传输中断告警 (10)14射频单元交流掉电告警 (10)15BBU IR光模块收发异常告警 (11)16射频单元驻波告警 (11)17远程维护通道故障告警 (12)18小区服务能力下降告警 (12)19射频单元光模块收发异常告警 (12)20射频单元光接口性能恶化告警 (13)21交流掉电告警 (14)22时钟参考源异常告警 (14)23射频单元硬件故障告警 (15)24射频单元输入电源能力不足告警 (15)25配置数据超出License限制告警 (15)26射频单元ALD电流异常告警 (15)27RRU组网级数与配置不一致告警 (16)28射频单元发射通道增益异常告警 (16)30星卡天线故障告警 (17)31BBU IR光模块/电接口不在位告警 (17)32天线设备维护链路异常告警 (17)33制式间通信异常告警 (18)34配置数据不一致告警 (18)35系统时钟不可用告警 (18)36时间同步失败告警 (19)37射频单元软件运行异常告警 (19)38BBU直流输出异常告警 (19)39单板温度异常告警 (20)40射频单元光模块/电接口不在位告警 (20)41射频单元接收通道RTWP/RSSI过低告警 (21)42BBU单板维护链路异常告警 (21)43BBU光模块收发异常告警 (21)44RRU组网拓扑类型与配置不一致告警 (22)45证书失效告警 (23)46远程维护通道配置与运行数据不一致告警 (23)47系统无License运行告警 (23)48单板不在位告警 (24)49未配置时钟参考源告警 (24)50MAC错帧超限告警 (24)51单板下电告警 (24)52单板硬件故障告警 (25)53版本自动回退告警 (25)54单板类型和配置不匹配告警 (26)55单板软件运行异常告警 (26)56机框类型配置与实际不一致告警 (26)57射频单元工作模式与单板能力不匹配告警 (27)58License Feature不可用告警 (27)59传输光模块不在位告警 (27)61射频单元CPRI接口异常告警 (28)62射频单元光模块类型不匹配告警 (29)63小区重配置失败告警 (29)64BBU IR光接口性能恶化告警 (30)65单板时钟输入异常告警 (30)66射频单元过载告警 (30)67射频单元温度异常告警 (31)68星卡维护链路异常告警 (31)1 射频单元业务不可用告警故障原因:1、配置原因:小区配置与设备支持规格冲突;射频模块在共模SDR配置下, 制式间载波频率间隔、功率规格、载波数规格、带宽规格等配置错误;CPRI速率配置错误;SFN跨框场景下,扇区设备配置错误;ODI配置错误;2、软件原因:License资源不足;3、单板不可用:小区使用的CPRI链路故障;小区使用的基带单元故障;小区使用的射频单元收发通道故障;CPRI带宽不足;CPRI MUX场景单板不支持;数据链路故障;控制链路故障;时钟精度不足;处理建议:1、检查小区和设备规格,更换型号匹配设备;核查配置参数是否有误,调整正确参数配置;2、核查小区LICENSE,增加LICENSE;3、排查CPRI链路、基带单元、射频单元收发通道、CPRI带宽、CPRI MUX场景单板故障;排查数据链路、控制链路故障,;校准时钟精度;2 小区不可用告警故障原因:1、配置原因:小区配置与设备支持规格冲突;射频模块在共模SDR配置下, 制式间载波频率间隔、功率规格、载波数规格、带宽规格等配置错误;小区参数修改引起小区重建;UBBP 单板上的基带工作制式没有包含LTE FDD制式、LTE TDD制式或者NB-IoT制式;LBBP单板上的工作模式没有包含LTE FDD制式、LTE TDD制式或者NB-IoT制式;eNodeB基带资源闭塞或者不可用;基站协议类型和RRU链环协议类型配置冲突;单板不支持配置成LTE FDD 制式+LTE TDD制式;CPRI速率配置错误;当两个小区承载在同一个AAS上,频点配置相同且发射虚天线波束参数相同;使用AAS配置V4R和UST小区,未配置虚天线倾角;多模负荷分担组网,出纤单板有UBBP,但UBBP未配置工作制式;NB-IoT小区所在LBBP单板工作模式没有包含NB-IoT模式;配置到射频模块的载波数量超出RHUB CPRI_E口规格限制;修改eNodeBId后没有复位App;2、软件原因:License资源不足;3、单板不可用:单板不可用;小区使用的CPRI链路故障;小区使用的基带单元故障;小区使用的射频单元收发通道故障;S1信令链路故障;时钟资源不可用(LTE TDD);CPRI带宽不足;CPRI MUX场景单板不支持;处理建议:1、检查小区和设备规格;核查配置参数是否有误;2、核查小区LICENSE;3、排查CPRI链路、基带单元、射频单元收发通道、CPRI带宽、CPRI MUX场景单板故障;排查数据链路、控制链路故障;校准时钟精度;3 射频单元维护链路异常告警故障原因:1、配置原因:链环上配置了多余的射频单元;双模CPRI MUX特性的组网,汇聚关系配置冲突;双模CPRI MUX特性的组网,汇聚方基带单板硬件故障、未安装或未上电、未配置;双模CPRI MUX特性的组网,汇聚方和被汇聚方链环配置的协议类型不一致;链环配置的协议类型和实际所连的射频单元的协议类型不一致;链环的“CPRI线速率”配置为MANUAL 时,前级射频单元模块不具备不等速率级联的能力或者本级射频单元配置的“从口线速率”超出了射频单元能力;链环的“CPRI线速率”配置为非MANUAL时,射频单元无法与当前链环运行的CPRI线速率同步;该射频单元所在链环的CPRI端口被闭塞或被设置断点;该射频单元所在链环的CPRI端口在对端制式被闭塞或被设置断点;该射频单元所在链环的CPRI 端口在当前组网中不支持下联功能;2、软件原因:射频单元故障导致射频单元自动复位,或人工操作导致射频单元复位;3、硬件原因:射频单元交流掉电、射频单元直流掉电、未上电或运行异常;BBU与射频单元之间或者上下级射频单元之间的光纤或者电缆故障;BBU或射频单元光模块故障;射频单元或BBU单板硬件故障;双模CPRI MUX特性的组网,汇聚方基带单板光模块故障;双模CPRI MUX特性的组网,被汇聚方与汇聚方之间BBU背板转发链路资源不足或链路故障;双模CPRI MUX特性的组网,汇聚方和被汇聚方基带单板硬件能力不支持背板汇聚;内存软失效处理建议:1、检查小区和设备配置参数是否有误;2、核查核查软件是否人工复位或者自动复位;3、排查电力,馈线接头、电缆、光模块、CPRI链路、基带单元、基带单板硬件能力不支持背板汇聚、内存软;4 BBU IR接口异常告警故障原因:1、配置原因:多模基站场景下配置错误;用户执行了闭塞CPRI端口的命令;2、硬件原因:在BBU和下级射频单元连接链路采用光接口时,可能是BBU或下级射频单元的光纤接头或光模块未插紧,或光纤链路故障;在BBU和下级射频单元连接链路采用电接口时,可能是BBU或下级射频单元的电缆接头未插紧,或电缆故障;多模场景下,BBU互联线缆异常或者BBU互联端口光模块故障;BBU或下级射频单元运行异常或硬件故障;处理建议:1、检查小区和设备配置参数是否有误;2、现场检查BBU与下级射频单元RRU之间的光路,重点排查两端的光纤、光模块是否存在问题;3、不排除RRU软件或硬件故障导致,可尝试先复位RRU观察告警是否恢复,不行则尝试更换;。
常见告警一:sccp 目的信令点禁止、MTP路由传输禁止、 MTP目的信令点不可达、sccp子系统禁止首先查看目的信令点编码对应局向(本例中编码为AFE10)指令为LST N7DSP:;输出界面:由此我们初步判断是:本端局至JNRZHLR的相关告警由于JNRZHLR至本地端局经常出现此告警,可采用手动恢复,并清除告警。
若是至其他局向出现此告警,则需立即通知维护人员。
(此告警属于严重告警须重视)二:E1/T1 远端告警首先:双击红色圈中的信息会弹出如下对话框:其次:根据框、槽、端口号,可以查找电路文档信息得出进一步详细信息:1)对端局向为:JNIGM3,TID:2016 模块号:29 起始电路:5408 终止电路:54392)交换ddf (对应传输ddf要传输人员再次确认)以上信息均为手工录入信息,其中TID(终端标示)信息是最准确的,为确保电路文档信息正确,可在相应server下进行如下操作来进行验证:LST TKCBYTID (类似于exdep)会出现如下相关信息:(包括局向、中继群、模块号、起始电路号)第三:根据以上信息可以进行以下预处理:1)查看该电路状态:DSP N7TKC(类似于爱立信的stdep)会出现如下信息:电路状态是:空闲、忙均代表正常,若是其他状态如:闭塞、锁定、故障、未知均为故障状态2)根据ddf,联系传输处理3)如果出现传输闪断现象,或者传输人员正在处理该电路时,需要输入如下指令以防止告警不断出现,造成不必要的扣分。
(类似于dtfse)。
切忌:将告警屏蔽后,一定要在文档中标注!4)如何配合传输查看电路一般传输人员为排查线路故障,会要求我们配合查看电路状态一般可以从面板中直接查看电路是好是坏,或者用指令DSP E1PORT(类似于dtstp)如图所示:查看1框13槽23端口绿色:代表wo,红色:代表abl 说明电路是故障的三:提高篇:链路故障SPF扣板链路故障此告警是比较重要的告警,类似于爱立信的C7 link 告警首先双击红色圈中的定位信息,进行初步定位:查找相应的电路、ddf等信息(mgw的告警)1)以上红色圈中的三个参数信息是比较重要的信息:链路名称:JIG4-1这是说明是对端局向是到jig4的接口班组号+E1端口号:确定该链路所在电路,以及相关ddf信息根据以上信息,联系传输处理该电路。
告警处理通用流程
处理华为PTN 950设备的告警时,请参照以下流程。
华为PTN 950告警处理的一般原则
处理告警时,一般需要遵循以下原则:
●先根源告警,后衍生告警。
根据常见告警的相关性规则,先处理由故障或异常事件直接引发的告警(根源告警),后处理其它衍生出来的告警。
●先网管,后网元。
先在网管上远程实施告警原因的排查操作,后对实际网元实施排查。
●先排查常见原因,后排查特殊原因。
根据告警处理的经验和其它告警相关信息,先排查告警的常见原因,后排查告警的特殊原因。
●先软件,后硬件。
告警原因为华为PTN 950设备故障时,先排查软件故障(如复位单板),后排查硬件故障(如更换单板)。
注意:
文中涉及到拔插单板和硬复位的操作,若经过该板的业务没有保护,都将中断业务,请根据实际情况慎重进行此项操作。
说明:
告警处理过程中如存在任何问题,可联系华佳慧科技专业技术工程师处理。