PTN网元告警分析
- 格式:docx
- 大小:39.74 KB
- 文档页数:20
告警分析法是定位故障的常用方法之一。
当设备发生故障时,一般会伴随大量的告警。
通过对告警的分析,可大概判断出发生故障的类型和位置。
通过U2000查询华为OptiX PTN950告警
只要在U2000主拓扑的网元图标上点击右键,就可以查询以下告警信息:
●当前告警
●网元侧历史告警
●网管侧历史告警
具体操作请参见查询华为OptiX PTN950网元当前告警。
通过分析、定位告警产生的原因,清除告警,并排除故障。
注意:
通过U2000获取告警信息时,应注意保证网络中各网元的当前时间与网管时间同步。
倘若网元当前时间与网管时间不同步,将导致信息上报错误。
在维护过程中,对某网元重下配置后,应特别注意将该网元的当前时间与网管时间同步。
否则网元会工作在缺省时间里,而缺省时间并不是当前时间。
华为PTN告警处理规范1.ETH_LOS告警解释:ETH_LOS为以太网端口连接丢失告警。
该告警表示以太网端口接收不到以太网信号。
产生原因:以太网端口的电缆或光纤没有连接好。
电缆或光纤故障。
本端网元接收光功率过低。
单板故障。
处理步骤:检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。
更换上报告警的处理板。
若告警未消除,更换对端网元对应的处理板。
2.MPLS_TUNNEL_LOCV告警解释:MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。
连续3个周期内没有收到希望的CV/FFD报文时出现此告警。
产生原因:PW对端停止CV/FFD。
物理链路故障。
PW对端单板正在复位。
业务接口配置错误。
网络出现严重拥塞。
处理步骤:在网管上查看PW对端是否停止了CV/FFD。
在网管上检查该链路两端网元是否存在单板或光模块相关的告警。
若告警未清除,查看光纤或电缆是否故障,更换故障的光纤或电缆。
在网管上检查对端单板是否上报COMMUN_FAIL告警。
若存在,说明对端单板可能正在复位。
清除COMMUN_FAIL告警后,查看本告警是否清除。
对照网元规划表,在网管上查看业务接口是否配置错误。
如果是,重新配置业务接口后,查看告警是否消除。
检查故障Tunnel的带宽是否已被完全占用。
如果是,增大Tunnel带宽配置或消除非法发送大数据量的根源。
查看告警是否清除。
3. BD_STATUS告警解释:BD_STATUS为物理单板离线告警。
当用户在网管上配置了逻辑单板而物理子架上却没有插入实际单板时就会上报此告警。
产生原因:单板正在硬复位。
单板未插上,或单板插上,但与母板接触不良。
板间通讯故障。
处理步骤:在网管的“运行态”槽位视图中查看该单板的工作状态是否为蓝色,若是,则该单板处于硬复位状态。
等待3至5分钟,该单板的工作状态转成绿色后,查看本告警是否消除。
NE_NOT_LOGIN告警解释NE_NOT_LOGIN表示网元未登录。
可能原因∙原因1:网元与网管通讯中断。
∙原因2:用户退出登录或登录失败。
处理步骤∙原因1:网元与网管通讯中断。
解决网元与网管通讯中断方法,参见NE_COMMU_BREAK。
∙原因2:用户退出登录或登录网元失败。
以其他正确的网元用户登录网元。
∙查看告警是否结束,若未结束,请进行下一步。
∙如果故障依然存在,请联系华为工程师。
MPLS_TUNNEL_LOCV告警解释MPLS_TUNNEL_LOCV为Tunnel连通性丢失告警。
连续3个周期内没有收到希望的CV/FFD报文时出现此告警。
对系统的影响∙该告警产生时,会触发MPLS APS倒换,将业务倒换到保护Tunnel。
∙MPLS_TUNNEL_FDI告警将抑制MPLS_TUNNEL_LOCV告警的上报。
可能原因告警MPLS_TUNNEL_LOCV产生的可能原因如下:∙原因1:Tunnel的Ingress节点停止CV/FFD。
∙原因2:物理链路故障。
∙原因3:Ingress节点的单板正在复位。
∙原因4:业务接口配置错误。
∙原因5:网络出现严重拥塞。
∙原因6:CPU占用率饱和,无法处理ARP协议报文。
处理步骤∙原因1:Tunnel的Ingress节点停止CV/FFD。
1.在网管上分别进入上报告警的Tunnel的Ingress节点和Egress节点的“网元管理器”,在功能树中选择“配置 > MPLS管理 > 单播Tunnel管理”。
选择“OAM参数”选项卡。
2.查看两端的“检测方式”和“检测报文类型”参数配置是否一致。
3.查看Ingress节点的“CV/FFD状态”参数。
原因2:物理链路故障。
1.在网管上查看Egress节点是否存在HARD_BAD、ETH_LOS或ETH_LINK_DOWN告警,具体操作请参见在U2000上查询当前告警。
∙原因3:Ingress节点的单板正在复位。
1.在网管上查看Ingress节点是否存在COMMUN_FAIL告警。
∙原因4:接口配置错误。
1.对照网元规划表,查看Tunnel是否配置在正确的接口之上,例如查看下一跳IP地址。
原因5:网络出现严重拥塞。
1.检查故障Tunnel的带宽是否已被完全占用。
2.可选:对于动态Tunnel,查看业务路由是否经过了带宽较低的物理链路。
∙原因6:CPU占用率饱和,无法处理ARP协议报文。
1.在网管上查看是否存在CPU_BUSY告警。
2.如果存在,优先清除CPU_BUSY告警后,查看本告警是否清除。
ETH_LINK_DOWN告警解释ETH_LINK_DOWN为网口连接故障告警。
该告警表示以太网连接错误,端口协商失败。
对系统的影响∙在数据传输时,网口协商失败,无法接收数据,业务中断。
∙ETH_LOS告警将抑制ETH_LINK_DOWN告警的上报。
∙ETH_LINK_DOWN告警将抑制LAG_MEMBER_DOWN和MAC_FCS_EXC告警的上报。
可能原因告警ETH_LINK_DOWN产生的可能原因如下:∙原因1:本端网元和对端网元的端口工作模式不一致,造成协商失败。
∙原因2:端口内环回。
∙原因3:纤缆连接到错误的端口。
∙原因4:单板故障。
处理步骤∙原因1:本端网元和对端网元的端口工作模式不一致,造成协商失败。
1.在网管上查看两端网元的以太网端口工作模式是否一致。
2.若不一致,修改设置,使两端的端口工作模式一致后,查看告警是否清除。
具体操作请参见查询和设置以太网接口工作模式。
∙原因2:端口内环回。
1.在网管上查看两端端口是否存在LOOP_ALM告警,具体操作请参见在U2000上查询当前告警。
2.若存在,优化清除LOOP_ALM告警后,查看本告警是否清除。
∙原因3:纤缆连接到错误的端口。
1.对照网元规划表,查看上报告警的端口是否错插了纤缆,造成两端端口工作模式不一致。
2.重新正确连接纤缆,清除告警。
∙原因4:单板故障。
1.在网管上查看两端网元的相关单板是否存在HARD_BAD等硬件类告警。
2.若存在,更换存在硬件类告警的单板后,查看本告警是否清除。
具体操作请参见部件更换。
ETH_LOS告警解释ETH_LOS为以太网端口连接丢失告警。
该告警表示以太网端口接收不到以太网信号。
对系统的影响∙该告警产生时,以太网端口接收不到数据,业务中断。
∙LSR_NO_FITED和LASER_MOD_ERR告警将抑制ETH_LOS告警的上报。
∙ETH_LOS告警将抑制其它以太网业务的相关告警。
可能原因告警ETH_LOS产生的可能原因如下:∙原因1:以太网端口的电缆或光纤没有连接好。
∙原因2:电缆或光纤故障。
∙可选:原因3:本端网元接收光功率过低。
∙原因4:单板故障。
处理步骤∙原因1:以太网端口的电缆或光纤没有连接好。
1.检查以太网端口的电缆或光纤是否接好,插紧松脱的电缆或光纤。
∙原因2:电缆或光纤故障。
1.检查电缆或光纤是否存在故障,更换故障的电缆或光纤。
∙可选:原因3:本端网元接收光功率过低。
1.在网管上查看对端网元是否存在OUT_PWR_ABN告警。
若存在,优先清除该告警后,查看本告警是否清除。
具体操作请参见在U2000上查询当前告警。
2.若告警未清除,清洁接收光口及光纤头表面。
具体操作请参见检查及清洁光纤连接器。
3.若告警仍未消除,检查法兰盘或光衰减器是否连接正确,光衰减器的衰减值是否过大。
正确使用法兰盘或光衰减器。
4.若告警仍未消除,通过增减光衰减器调整光功率至正常范围内。
原因4:单板故障。
1.更换上报告警的处理板。
具体操作请参见部件更换。
2.若告警未消除,更换对端网元对应的处理板。
OUT_PWR_ABN告警解释OUT_PWR_ABN告警表示输出光功率异常。
对系统的影响该告警产生时,业务的传输性能受到影响,严重时会造成业务的中断。
可能原因告警OUT_PWR_ABN产生的可能原因如下:∙原因1:输出光功率过高或过低。
∙原因2:单板故障。
处理步骤∙原因1:输出光功率过高或过低。
1.更换上报告警的端口的光模块,查看告警是否清除。
具体操作请参见更换可插拔光模块。
∙原因2:单板故障。
1.更换上报告警的单板,查看告警是否清除。
具体操作请参见部件更换。
SWDL_NEPKGCHECK告警解释SWDL_NEPKGCHECK告警表示包加载软件包中某个文件丢失或校验通不过且无法修复。
主机在软件包文件巡检时发现文件丢失或校验通不过时,会自动从其它区的完整软件包进行修复,如果无法修复即上报此告警。
对系统的影响∙该告警产生时,网元将不能完成包加载操作。
∙若主机在软件包文件巡检时发现文件完整,没有丢失,告警将自动清除。
可能原因SWDL_NEPKGCHECK告警产生的原因如下:文件类型不匹配或丢失。
处理步骤∙原因:文件类型不匹配或丢失。
1.检查文件类型是否匹配、文件是否有丢失,如存在不匹配或丢失,重新下载匹配的软件。
2.重新进行软件包加载,更新软件包,查看告警是否清除。
具体操作请参见《升级指导书》。
NE_COMMU_BREAK告警解释网元与网管通讯中断。
对系统的影响无法在网管上管理该网元。
可能原因∙原因1:该网元所属的网关网元无法与网管通讯,导致该网元通讯失败。
∙原因2:该网元主控故障。
∙原因3:该网元与网关网元之间的光纤故障。
∙原因4:网络规模过大,导致网元间ECC通信的规模超过网元处理能力的极限。
处理步骤∙原因1:该网元所属的网关网元无法与网管通讯,导致该网元通讯失败。
1.检查该网关网元是否上报GNE_CONNECT_FAIL告警,若上报该告警,请先结束该告警,参见GNE_CONNECT_FAIL的告警解决方法。
2.在网管上查看当前告警,检查该告警是否结束。
如果告警不能结束,继续下一步。
∙原因2:该网元主控故障。
查看SCC单板面板上的指示灯,若指示灯显示异常,说明SCC单板故障。
具体指示灯对应的状态参见表1。
复位SCC单板,若无效,则更换SCC单板。
具体操作参见相应设备的《部件更换》“更换SCC单板”。
∙原因3:该网元与网关网元之间的光纤故障。
用OTDR仪表测量光纤,通过分析仪表显示的线路衰减曲线判断是否断纤,并判断断纤大致的位置。
若线路出现断纤现象,则更换光纤。
∙原因4:网络规模过大,导致网元间ECC通信的规模超过网元处理能力的极限。
1.将网络规模过大的子网划分为若干个规模较小的子网。
说明:∙按分层、分域的管理原则,将相邻网络划分为同一个子网。
∙建议各子网内的网元数量小于或等于64个网元。
2.在各子网中选择适当的普通网元,并将其转换为网关网元。
说明:当子网中仍具有多个环路和链路时,将处于最多环路和链路的设备设置为网关网元,以避免大量的管理信息需要通过基于DCC这种窄带宽信道传送,从而减少DCN再次发生拥塞的可能性。
3.关闭冗余子网之间的ECC连接。
∙关闭通过扩展ECC(自动/人工)实现的ECC子网之间的互通。
∙关闭通过STM-N光/电口实现的ECC子网之间的互通。
如果故障依然存在,请联系华为工程师。
参考信息MAC_FCS_SD告警解释MAC_FCS_SD为MAC层检测到误码劣化越限告警。
软件定时检测MAC芯片接收字节数和误码字节数,计算误码是否超过劣化门限,超过设置的门限即上报此报警。
对系统的影响∙该告警产生时,业务性能下降,甚至中断。
可能原因告警MAC_FCS_SD产生的可能原因如下:∙原因1:线路信号劣化。
∙可选:原因2:输入光功率不正常。
∙可选:原因3:光纤头表面不清洁。
处理步骤∙原因1:线路信号劣化。
1.在网管上查看是否存在LOOP_ALM告警。
若存在,优先清除LOOP_ALM告警后,查看本告警是否清除。
具体操作请参见在U2000上查询当前告警。
2.若告警未清除,在网管上检查是否存在DOS攻击等。
若存在,消除非法发送大量数据的根源,查看告警是否清除。
3.若告警仍未清除,查看光纤或电缆是否存在故障。
更换故障的光纤或电缆后,查看告警是否清除。
∙可选:原因2:输入光功率不正常。
1.查看上报本告警的端口是否同时上报IN_PWR_ABN告警。
2.若存在,优先清除IN_PWR_ABN告警后,查看本告警是否清除。
∙可选:原因3:光纤头表面不清洁。
1.清洁光纤头表面和处理板接收光口。
具体操作请参见检查及清洁光纤连接器。
LSR_WILL_DIE告警解释LSR_WILL_DIE为激光器寿命即将终止告警。
该告警表示激光器不可用。
对系统的影响∙该告警产生时,业务会出现误码。
若不及时更换光模块,激光器损坏后,会导致业务中断。
∙LSR_NO_FITED和LASER_MOD_ERR告警将抑制LSR_WILL_DIE告警的上报。
可能原因告警LSR_WILL_DIE产生的可能原因如下:∙原因1:激光器老化。
∙原因2:单板的检测电路故障。