华为MSTP以太网故障处理指导书要点
- 格式:doc
- 大小:327.50 KB
- 文档页数:17
路由篇目录目录第8章 MSDP故障处理............................................................................................................ 8-18.1 MSDP简介......................................................................................................................... 8-18.2 MSDP故障处理 ................................................................................................................. 8-28.2.1 典型组网环境........................................................................................................... 8-28.2.2 配置注意事项........................................................................................................... 8-38.2.3 故障诊断流程........................................................................................................... 8-38.2.4 故障处理步骤........................................................................................................... 8-58.3 故障处理案例 ..................................................................................................................... 8-68.3.1 MSDP对等体一直处于DOWN状态 ....................................................................... 8-68.3.2 MSDP测试环境中IPTV 不通.................................................................................. 8-78.3.3 Anycast RP应用中RP间互通信息异常.................................................................. 8-88.4 FAQ .................................................................................................................................... 8-98.5 故障诊断工具 ................................................................................................................... 8-138.5.1 display命令 ........................................................................................................... 8-138.5.2 debugging命令 ..................................................................................................... 8-188.5.3 告警 ....................................................................................................................... 8-208.5.4 日志 ....................................................................................................................... 8-20第8章 MSDP故障处理本章包含以下内容:●MSDP简介介绍了进行MSDP故障处理时用户所需的知识要点。
传输产品SDH日常故障处理•掌中宝(第2期)目录第1章硬件类故障 (1)1.1 EP1板报“TU12通道告警指示信号” (1)1.2 时分模块故障导致2M业务不通 (3)1.3 S320通过网管远程确定ET1支路个数 (6)1.4 光板故障引发的R-LOS告警及倒换 (8)1.5 风扇故障导致光路中断 (9)1.6 LP16板不匹配造成业务中断 (11)1.7 提示NCP内存不足问题 (13)第2章性能类故障 (15)2.1 OL64光板光功率正常情况下报大量误码 (15)2.2 2M线缆接口焊接不良导致2M业务出现CV性能 (17)第3章数据配置类故障 (20)3.1 交叉板版本类型不符引起故障 (20)3.2 时隙下发提示“等待应答超时” (21)第4章电源类故障 (23)4.1 PWCK供电能力不足导致AIS (23)-i-4.2 某站点ZXMP S320设备配置三块SFE导致设备运行异常 (24)第5章保护类故障 (26)5.1 光板故障导致复用段环倒换出现问题 (26)5.2 复用段保护关系配置颠倒导致倒换不成功 (28)5.3 交叉板导致业务倒换不正常 (30)5.4 背板坏引起通道保护不正常 (32)5.5 2M板故障引起的通道环倒换故障 (35)5.6 硬件自环导致通道环不保护 (38)第6章网管类故障 (41)6.1 某地市网管无法删除网元出错问题 (41)6.2 E300网管出现电路搜索功能异常的问题 (42)6.3 WINDOWS XP操作系统下安装E300网管后出现S390设备监控不正常问题 (44)6.4 某地市网管无法监控全部网元 (45)第7章 ECC类故障 (53)7.1 S320 NCP上ID、IP与网管不一致导致网元脱管 (53)7.2 更改IP导致部分设备脱管 (54)第8章时钟同步类故障 (57)-ii-8.1 系统时钟板故障 (57)8.2 “2MBITS盒线路时钟导出”故障 (58)第9章 ASON类故障 (60)9.1 SNCP 1+1业务-保护连接不能回复 (60)第10章对接类故障 (63)10.1 S360设备与CTC公司网桥设备对接问题 (63)-iii-硬件类故障第1章硬件类故障1.1 EP1板报“TU12通道告警指示信号”故障现象某网络组网如图1-1所示,业务配置如图1-2所示。
Technology Analysis技术分析DCW85数字通信世界2019.101 引言随着IP 技术广泛应用,传统的SDH 传输技术以越来越无法满足人们的需求,MSTP 越来越被人们重视起来。
本文列举了MSTP 设备常见的几类故障场景,并针对各个故障场景,逐一给出故障现象及故障处理方法。
2 日常维护要求2.1 快速恢复日常维护要求随着MSTP 设备应用的广泛,MSTP 设备的维护也得到了重视。
简单的设备维护可以从以下几个步骤入手:步骤一:日常数据备份数据库自动备份策略设置的网管入口:系统>网元软件管理>网元备份策略管理,ASON&分组网元每天一次,其他网元每周一次。
网管脚本定时备份:在网管上创建“全网配置脚本”文件的定时备份任务,每周一次。
网管数据库定时备份:在网管上创建数据库定时备份任务,每月一次。
网管侧业务路径信息导出:网管侧SDH 业务路径导出,ASON 控制链路/TE 链路/智能电路信息导出,分组Tunnel/PWE3业务路径导出,每周一次。
步骤二:采集工具部署在Support 网站下载“UEasyDataCollection ”工具后安装在U2000网管服务器上。
步骤三:日常例行检查数据库检查:在Support 网站下载“DBCheckerUI"工具检查。
高危告警检查:筛查&处理全网高危告警(如下表),禁止屏蔽。
表1 重要告警列表APS_FAlL ETH_LOS NESF_LOST POWER_SWITCH APS_MANUAL_STOP FAN_FAIL NESTATE_INSTALL PWAPS_LOST BIOS_STATUS FAN_PWR_ALM NODEID_MMPWR_LOW BUS_ERR HARD_BAD OOL PWR_MAJ_ALM CFCARO_FALED HDLC_FAIL PATCH_ERR PWR_OVER CHIP_ABN HSC_UNA V AIL PATCHFILE_NOTEXIST SLA VE_BAD CHIP_FAlL MBUS_SERIAL PLL_FAIL SYNC_FAIL COMMUN_FAL NE_CFG_CONFLICT POWER_ABNORMAL T_LOSEX DBMS_ERROR NE_POWER_OVER POWER_ALM TEMP_ALARM ETH_APS_LOSTNEBD_XC_DIFPOWER_FAILTEMP_OVER2.2 故障信息采集要求故障信息采集是较为重要的一环,我们可以借助相关工具来更加快速精准的完成故障信息采集。
某客户MSTP专线故障处理故障描述近日,我市某客户申告反映其公司A端到分支点Z端某县公司内网专线业务偶有丢包,让我公司维护人员检查一下。
客户网络结构客户市公司至各分支点电路租用的是我公司的点对点电路,由我公司在客户市公司提供一台MSAP瑞斯康达设备,在业务板出网线连接客户思科交换机;通过联通传输网络到各县,在各县分支点安装一台瑞斯康达光电转换器,出电口用网线和客户交换机对接:处理过程接到用户申告后,我市公司维护人员到客户机房。
1、查看RC006状态正常,让传输网管查看,通道无告警。
由于测试通道,需要中断客户业务,在得到客户同意后,我维护人员让网管在Z端做软环,我维护人员在A端用以太测试仪测试,通道正常。
2、把网线重新插到设备上,询问客户,业务完全中断。
查看瑞斯康达设备,发现该分支点业务端口不亮。
咨询网管得知该端口状态为DOWN,查看该业务在思科设备上的端口,也不亮。
随后更换网线,设备端口还是不亮。
3、由于客户各分支点业务在市公司思科交换机上都是绑定的,所以不能随意更换端口,后联系该公司省维护人员,得知该交换机通过启用STP协议,支持广播风暴抑制特性。
如果出现网络风暴,交换机自动关闭端口24小时。
由于我维护人员在传输软环尚未取消时,就把网线接上思科设备,交换机检测到收发包激增,就判定局域网出现网络风暴,自动把端口禁用。
经客户省维护人员远程重开端口,客户业务恢复。
4、后来和客户沟通,在客户A端pingZ端地址,发现时延较大,偶尔有丢包的情况出现,判定应该是客户业务及人员增长,原有带宽已不能满足客户需求,建议联系客户经理对客户提供提速服务。
经验总结由于以交换机连接的局域网,当网线发生混线后,信号不能正常传输并产生错误信号,或者由于某台电脑中病毒,导致网络出现环路,引起网络风暴,造成整个网络的不正常甚至瘫痪。
而某些交换机厂家为了防止这种情况出现,通过命令启用了STP协议,防以太网风爆设置,来隔离网络风暴,保障整个网络正常运行。
1以太网专线电路故障处理浅析一、前言随着MSTP 技术的发展与成熟,跨域专线电路采用MSTP 平台传输正呈逐年上升趋势,而MSTP 电路在故障发生时又存在定位困难、处理时间长等问题,给维护工作带来不小压力。
本文主要以华为MSTP 电路故障处理为例,总结日常工作中积累的一些维护经验,望能对后期的MSTP 客户电路维护提供借鉴。
二、MSTP 电路故障处理思路MSTP 电路在开通前期需要通过SDH 层业务配置、端口属性配置、TAG 属性、封装协议等较多设置项目(如图 1 以太网专线电路配置示意图),在故障定位时关注点较多所以并没有一成不变的处理方法,可以根据现场实际情况再结合自己的维护经验和对维护手段的熟悉程度进行处理。
MSTP 电路故障定位可以参照“先告警后性能、先SDH 后以太网、先日志后测试、先内部后外部”的原则,并可从以下几方面进行重点排查。
图1以太网专线电路配置示意图1.业务时隙配置问题由于不同厂家时隙顺序不一致导致对接不通、或者是误操作等其他原因造成原SDH业务配置被更改或丢失,从而导致以太网业务中断情况。
此类情况发生时,一般同时有SDH业务层面的相关告警上报,如TU_AIS、TU_LOP等。
2.以太网单盘端口基本属性配置问题,包括下列内容:(1)端口使能问题:开启与否决定端口是否收发数据和上报告警;(2)端口工作模式问题:主要有auto、10M half、10M full、100M half、100M full、1000M full等六种模式,设置时必须与对接设备的网口工作模式保持一致,避免出现auto对100mfull等类似问题;(3)MTU(最大传送单元)值问题MTU值即一次传送单元的最大长度,取值受硬件限制(一般情况下设置MTU值为1522)。
若端口接收到大于MTU值的数据帧,则无条件丢弃,直接导致业务异常。
可以在了解硬件限制和业务基础上设置最大传送单元。
3. 以太网TAG属性和VLAN ID配置问题以太网TAG属性用以判断对端设备发出的数据帧在本端能否正确的进行识别。
华为光网络维护宝典——第2部分故障处理专题篇目录第1章OptiX 光网络产品IP与ID故障处理专题 ..................................... 错误!未定义书签。
1.1背景知识 ................................................................................................. 错误!未定义书签。
1.1.1网元ID.......................................................................................... 错误!未定义书签。
1.1.2IP地址 .......................................................................................... 错误!未定义书签。
1.1.3ID与IP的关系.............................................................................. 错误!未定义书签。
1.2常用的命令 ............................................................................................. 错误!未定义书签。
1.2.1设置/查询网元扩展ID(或子网号) .................................................. 错误!未定义书签。
1.2.2设置/查询网元的IP地址............................................................... 错误!未定义书签。
华为MSTP以太网故障处理指导书华为技术有限公司目录1说明 (3)2故障处理总流程 (3)2.1流程图 (3)2.2流程说明 (5)3MSTP故障处理思路及方法 (5)3.1MSTP故障处理思路与方法 (5)3.2MSTP故障类似及原因 (6)3.3MSTP故障处理方法 (7)3.3.1对于以太链路完全中断的问题定位 (7)3.3.2对于以太链路持续存在丢包的问题定位 (9)4附件 (10)4.1各种业务开通时需要注意的事项 (10)4.2以太网性能门限的设置建议 (11)4.3告警列表 (12)1 说明●目的本指导书是针对华为MSTP系统出现故障时的处理措施,其目的是指导维护人员尽快恢复设备的正常运行。
●使用对象OptiX系列SDH光传输设备MSTP系统维护人员。
●适用场合设备出现故障时,指导设备维护人员快速进行故障定位与排除。
2 故障处理总流程因掉电、断纤等外部原因,或操作不当以及设备软、硬件故障引起的SDH系统业务中断,维护人员可参照此流程快速定位故障,或及时寻求帮助,直到业务恢复。
注意事项:按照此流程处理业务中断或其它紧急问题时,需要注意以下几点:1)以尽快恢复业务为原则。
2)应先分析故障现象,定位原因后再进行处理。
在原因不明的情况下应避免盲目操作, 导致问题扩大化。
3)处理过程中遇到困难,及时联系华为公司以获取技术支持,并配合华为公司处理故障,最大程度减少业务中断时间。
4)处理过程中一定要作好故障记录,保存好故障的原始数据。
2.1 流程图图1.故障处理总流程2.2 流程说明(1) 进行故障记录时,力求做到对故障发生的全过程进行真实、详细的记录。
对于像故障发生的时间,在故障出现前后曾经做过哪些操作等重要信息都要进行详实地记录,同时对于网管中的告警信息,性能事件等重要数据也要进行保存。
(2) 外部原因造成的故障,如电源问题、光缆问题、机房环境(温度等)、终端设备(交换机等)等,应及时进入其它相应处理流程。
(3) 通过查询相关的告警和性能判断是否是SDH层面造成的故障,如果是SDH层面产生的故障,转SDH故障处理指导书进行处理。
华为EFGS系列单板还提供测试帧功能,能够非常方便的确认SDH侧VCTRUNK的LINK状态是否正常,操作简单实用。
(4) 如果是由于以太网层面故障,参照《MSTP处理思路及方法》进行处理。
在解决问题时,对设备的操作应该严格按照操作规范进行,如必须佩戴防静电手带等。
(5) 遇到困难无法排除故障时,拨打华为公司24小时问题受理电话:800-830-2118,以获取技术支持,并配合华为公司工程师处理故障。
(6) 在业务恢复后,对运行情况进行观察,确认故障已经排除。
(7) 在故障处理完后,应及时填写相关的处理报告。
3 MSTP故障处理思路及方法对OptiX 系列SDH光传输设备MSTP系统来说,除了遵照故障处理流程外,还应尽可能采取其它的应急措施(如提供备用电路),减少业务中断时长。
3.1 MSTP故障处理思路与方法与SDH故障定位思路一样,以太网故障定位也遵循“先外部、再内部;先软件、再硬件;先单板、再系统”的原则,充分利用性能事件、环回、测试帧等技术手段,结合工具软件、测试仪表进行有计划有步骤的定位。
首先需要对于事故做一下初步的定位,首先排除SDH层面的问题:通过查询相关的告警和性能,EFGS系列单板提供GFP测试帧验证VCTRUNK端口之间互通性;确认SDH层面没问题后,转入以太网层面的定位。
环回当然是我们的法宝。
与数据维护人员配合也是很重要的,一般多用PING和测试帧+环回手段来定位故障点。
比如通过MSTP设备数据单板网口PING对端路由器或者交换机的IP地址,能够PING通基本证明我们这边正常,建议采用如下的格式PING包:ping xxx.xxx.xxx.xxx –l 1000 –t–l 1000代表是1000字节的包长,-t代表是持续ping包。
可以变换多种包长,同时多开几个ping窗口试试。
当然ping包正常也不能完全排除metro设备的问题,因为在端口工作模式不正确的时候,小流量的ping也是可以ping通的。
它更多意义上是证明我们以太网链路的配置没问题,SDH层面也是没有问题的。
我们的首先需要检查、确认SDH层的配置和通道没有问题,才能集中精力来排查以太网数据层面的问题。
如业务配置是基于VLAN报文的业务或基于MPLS报文的业务,最好的手段就是通过数据分析仪来辅助定位问题,在不具备测试仪表的情况下,可通过“模拟发包”类的软件,利用计算机网卡仿真设备发送业务报文,协助定位问题。
3.2 MSTP故障类似及原因一般来说以太网板(这里以EFGS为例)的故障都分成两种类型:1)链路完全中断2)链路上持续存在丢包从目前来看可能造成故障的原因如下:3.3 MSTP故障处理方法3.3.1 对于以太链路完全中断的问题定位对于第一种链路完全中断故障类型,一般表现为对接的路由器和交换机接收不到任何报文,业务完全中断,完全无法PING通对端设备等等,主要检查以下几个部位:(1) 端口TAG属性(TAG/UNTAG)设置不当该种故障出现概率较大,多发生在初开通业务时,MSTP设备的TAG属性设置和与其连接的数据设备设置不能相互配合,或MSTP设备未能与数据设备进行端口属性同步更改,导致业务中断。
(2) 端口工作模式引起的故障物理层出现故障,表现为实际端口工作模式不正确,或者端口某些参数异常,或接口板故障,物理层寄存器被随意改写等。
该问题出现的概率也比较多,主要通过查询物理层的相关寄存器来定位问题所在的部位。
重点在网管上查询以太网口使能与工作模式。
(3) 网线或者光纤出现故障这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。
(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。
另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。
(4) 需重点查询VC通道捆绑情况在非LCAS状态下捆绑错或不一致也可致使业务中断。
(5) 端口的默认vlan id设置也不要放过如果ip端口设置了untag属性但是配置了vlan路由的业务类型,那么该ip 端口的默认vlan id一定要和vlan路由中的vlan id 一致,不然的话,这个小疏忽却能使业务中断的。
对于EFGS单板的Hybrid端口的PVID设置也要注意两端设备的一致问题。
(6) 以太网配置的静态路由错误或者丢失(7) 单板硬件故障一般都会有上报TU-AIS,TU-LOP等SDH层告警,现象比较好判断。
(8) 封装协议不匹配对于EFGS系列单板,N1单板支持LAPS和GFP,N2只支持GFP,不同的封装协议是无法对接成功的。
(9) GFP帧失步或GFP封装FCS_ERROR可能GFP封装的参数设置不一致造成的问题,如N1的EFGS单板默认的GFP封装是“小字节序”而N2的单板默认值是“大字节序”(10) 因为大量丢包造成的业务中断这种情况转第二种故障类型处理。
3.3.2 对于以太链路持续存在丢包的问题定位(1) 业务量大,配置带宽不够这种情况可以通过对对端的数据设备性能统计数据进行判别,一般对端设备可以接收到比较多而且持续的PAUSE帧。
而且一般路由器都可以监控到实际流量(当然是IP层的,比ET1的二层流量要小),如果实际流量接近我们配置的带宽,也证明我们的带宽资源不足了。
可以尝试多绑定几个2m来验证问题。
(2) 带宽足够,但是业务突发比较大这种情况也是很常见的,但是比较难于判别。
同样要通过分析一下对端设备的性能统计(我们自身的性能统计也可以查询作为参考)来得出结论,首先是流量,很可能平均流量远小于我们配置的带宽,但对端设备还是在时不时收到我们设备发出的PAUSE帧,证明对端过来的业务突发比较大,超过了我们能够容忍的限度。
此时一是增加带宽,但是更主要的是要求对端的设备做一下流量整形,这样效果会好很多。
可以通过查看性能数据来看出发生了什么问题:设置以太网性能监视,查询当前以太网性能数据。
(3) 业务量过大的时候,对端设备不响应流控造成丢包由于华为MSTP设备使能流控,对端设备不响应流控,造成华为MSTP设备过快的发送无用的PAUSE帧,引起大量丢包。
建议对于业务量较大的站点,要不和对端设备同时使能流控,要不同时都不使能,不要出现一方使能另一方不使能的情况。
(4) 单板设置的最大传输包长MTU小于实际设备的传输包长这种情况不太常见,但是发生了也很难确认。
首先我们ET1单板默认的传输包长是1522字节,可以设置到的最大包长是1980字节。
这个问题一般需要和局方确认,并且通过性能事件查证是否有收到大于1522字节的数据包。
(5) 端口模式和对端设备不匹配,造成工作在异常状态这种情况出现的非常普遍,多为两端对接,一端设置成100MFULL或者10MFULL(100M全双工或者10M全双工),一端设置成AUTO(自协商)。
这种情况多半会导致AUTO一端被错误协商成100M HALF,引起工作模式不匹配。
这种情况下小业务流量还是可以传输,但是数据量一大就会导致大量的碰撞和冲突包被检测到(可以通过性能统计查询到)。
建议的设置原则是:对端是自协商我们就是自协商,对端是100MFULL我们就是100MFULL。
(6) 网线或者光纤出现故障。
这样的问题比较好判别,首先是确认一下ET1单板插网线的以太网接口是否有LINK灯亮(绿色),没有亮说明网线可能坏了,或者是交叉和公网线弄混了。
(注意光接口板的指示灯在接口板内部);同时看看接口上另外一个指示灯(黄色)是否在亮,有亮说明有数据收发,没有则说明无数据收发。
另外通过查询以太网实时性能,如果存在较多的CRC错误等异常错包,在首先排除端口工作模式问题的前提下,也可能是网线光纤存在问题。
(7) 单板硬件故障。
一般都会有上报TU-AIS,TU-LOP或BBE等SDH层告警或性能,现象比较好判断。
(8) 二层交换业务存在回路,而未启动生成树。
一般在MSTP设备形态上是可以通过配置确保业务无环路存在的,单在某些特殊情况可能存在环路,例如人为的原因在以太接口上插环回电缆等。
如该情况未启用生成树就会存在广播风暴消耗网络带宽资源。
(9) 网络存在异常,如存在超量的广播报文,占用大部分转发带宽,后果与广播风暴类似。
4 附件4.1 各种业务开通时需要注意的事项a)确保网络物理链接,确认配置业务后无SDH部分相关告警,如存在告警一定进行排除;b)明确MSTP设备以太网单板对接的数据设备(包括计算机)的端口的工作模式:MSTP设备以太单板端口的工作模式设置需与数据设备端口属性相同,如都是自协商,都是100MFULL等。