交换机二层环路问题处理指南
- 格式:docx
- 大小:47.56 KB
- 文档页数:12
目录1介绍 (3)2网络业务故障,如何确认存在环路? (3)2.1第一步:是否可以通过端口流量发现数据风暴? (4)2.2第二步:是否可以通过MAC-Flapping检测漂移? (5)2.2.1框式交换机 (5)2.2.2盒式交换机 (7)2.3第三步,是否可以通过环路检测发现环路? (8)2.3.1Loop Detection(框式) (9)2.3.2Loopback Detection(盒式) (10)3环路问题发生后,如何快速破环? (11)3.1第一步:是否理解网络业务并明确拓扑? (11)3.2第二步:是否需要用影响最小的方法破环? (11)3.2.1方法一:端口退出成环VLAN破环 (11)3.2.2方法二:shutdown成环端口破环 (11)3.2.3方法三:通过拔出成环光纤破环 (11)3.3第三步:操作后确认业务是否恢复? (12)4环路问题发生后,如何定位问题根因? (12)4.1第一步:是否由于近期施工操作引入环路? (12)4.2第二步:是否由于近期修改配置引入的环路? (12)4.3第三步:是否典型的常见环路问题? (13)4.3.1交换机自环出现环路 (13)4.3.2交换机下游设备自环出现环路 (13)4.3.3环形组网链路震荡导致环收敛震荡 (14)4.3.4环形组网寄存器下发失败无法破环 (14)4.3.5链路单通引入RRPP网络单向环 (15)4.3.6协议堵塞的端口L2PT(bpdu-tunnel)协议报文成环 (16)4.3.7下游设备报文转发异常导致疑似环路 (17)4.4第四步:收集信息返回研发分析 (17)5环路问题解决后,网络是否需要优化? (19)5.1第一步:是否需要部署适当的破环协议? (19)5.2第二步:是否需要提升链路质量和可靠性? (19)5.3第三步:是否需要部署广播抑制提升网络健壮性? (19)5.4第四步:是否需要部署QoS保证协议报文优先转发? (19)6结束语 (19)1介绍以太网链路由于各种原因,导致数据或协议报文环形转发,导致网络形成数据风暴,最终影响正常业务。
华为二层交换机默认出现环路检查解决方案(恒大人寿、东莞信托、环路)【处理时间】2016年5月,2017年1月【客户名称】恒大人寿,东莞信托【主机信息】要有详细的硬件描述:华为s5700-28P-LI在交换机有二个VLAN使用的不同的应用,尤其是在互联网区域两条线路一条电信一条联通类,接两套业务应用。
【业务系统】基金与信托业务【关键字】互联网线路不整个瘫痪【处理人员】闫小涛【问题说明】现象:出现状况是导致一条线路不通,或者导致整个网络不通。
事件分析根据以往的其它品牌二层交换机都没有类似的问题,尤其是二层交换机复用情况,通过排除法排除问题,先使用一条线路测试。
解决方案注意:Loopback Detection功能需要发送大量检测报文来进行环路检测,这将会耗费一定的系统资源,请在不需要环路检测时及时关闭此功能。
接口使能Loopback Detection功能后,便会周期性发送目的MAC为BPDU MAC的Untagged环路检测报文来进行环路检测。
由于交换机通常不允许BPDU报文通过,因此,此时Loopback Detection只能检测接口自环,而无法检测设备下挂环路以及检测设备双接口环路。
如果需要Loopback Detection检测设备下挂环路,当设备之间相连的接口均为Access类型接口或同一设备的出接口、入接口的PVID相同时,可以配置loopback-detect untagged mac-address实现环路检测;否则,必须配置对指定的VLAN进行环路检测。
如果需要Loopback Detection检测设备双接口环路,则必须配置对指定的VLAN进行环路检测。
S2750EI&S5700上,可在系统视图下使能所有接口的Loopback Detection功能,也可以在接口视图下使能单个接口的Loopback Detection功能,用户可根据实际需要任选一项进行配置。
操作步骤1. 执行命令system-view,进入系统视图。
常见交换机故障处理手册一.小区用户拨号678故障主要原因:1.设备问题2.环路问题3.数据出错4.线路问题处理步骤:1. 首先从上联的设备登录,查看下联口数据收发。
1.1 如果端口DOWN,则是上联设备网线松动或光猫坏。
1.2 如果端口UP,数据收发都有,则检查该端口是否有MAC地址上来。
1.2.1有MAC地址的话就可能是端口吊死或是环路,shutdown端口再undoshutdown端口即可解决端口吊死。
环路可以通过dis log来查看下联设备是否存在环路,一层一层查找到环路端口,环路可能由设备端口坏,物理线路成环,以及用户端网卡坏造成。
1.2.2无MAC地址的话也可能是端口吊死引起,shutdown端口再undoshutdown端口即可解决。
1.3 如果端口UP,数据有发无收,则是下联设备故障,需要到现场检查。
1.3.1 首先查看设备有无电源.1.3.2 如是户外缆级联,则查看设备端口是否UP,如设备端口DOWN,则更换设备端口确认是否端口坏或用测线仪测试线路是否正常,如线路不通则转交线路部门处理。
1.3.3如是光缆级联,首先查看光猫是否正常,光路指示灯是否正常,如指示灯不正常,则用光源测试线路是否正常。
线路通则通过更换光猫,将尾纤收发互反来解决或通过光源发光来确认线路是否不通,如线路不通则转交线路部门处理。
1.3.4 光猫如正常,则查看交换机是否正常,通过console口登录设备,首先查看设备上联口是否有MAC地址透传。
1.3.4.1如有MAC地址透传,还不能拨号上网的,一般为设备吊死,重启后可恢复。
如设备重启仍无法连接,则查看本端以及上联设备数据是否配置正常,有无数据丢失。
1.3.4.2如无MAC地址透传,则要检查上联端口连接是否正常,如线路正常则更换上联口测试。
如若不行,则直接连户外缆或光猫测试,可以成功拨号则说明问题在设备端。
如本端以及上联设备数据配置正常,则说明设备坏需更换新设备。
环路故障和DHCP故障处理环路故障故障原因:以太网中的交换机之间存在不恰当的端口相连会造成网络环路,如果相关的交换机没有翻开STP功能,这种环路会引发数据包的无休止重复转发,形成播送风暴,从而造成网络故障。
说通俗点就是交换机自身或互相之间串连起来了,就构成了环路。
所有环路的形XX是由于目的路径不明确导致混乱而造成的。
网络环路也分为第二层环路和第三层环路。
第二层是指,一个播送信息经过两个交换机的时候会不断恶性循环的产生播送,造成环路。
而第三层环路那么是原路由意外不能工作,造成路由通告错误,形成一个恶性循环。
例子:网络192.168.0.0/24--路由1--路由2 正常192.168.0.0/24网络被路由1通告到路由2,当网络出问题不能到达的时候,路由1把192.168.0.0/24路由信息删除,但是路由2通告给了路由1,让路由1误以为路由2的那边能到达192.168.0.0/24网络,结果造成恶性循环(例子建立在RIP,IGRP等路由协议下,只有这两个协议会造成第三层环路)。
我们在日常工作中经常遇到的环路多是属于第二层环路。
环路的危害非常大,重那么导致一个会聚层下的的所有网络中断,轻那么至少一片区域的网络中断,给公司运营带来巨大的损失。
故障排查:使用PING命令查环路通过对环路产生原因的分析,我们了解到如果网络存在环路,那么播送数据将会以2的N次方的数量增加,最终导致网络通信拥塞,网络丢包严重。
通常我们在日常工作判断网络通信质量采用PING命令,如下列图:当我们遇到环路影响的故障时,一般机房里有可网管交换机的,可以查看到是交换机几号口下有环路影响,根本上可能迅速锁定故障点。
但到遇到机房无可网管交换机时,就需要将交换机上的所有线路暂时中断,只保存上联主干线路,一直不断长PING网络。
同时将刚刚拨下的线路逐一插回,每插一根线路的时候等待一到二分钟左右的时间,观测是否出现丢包现象。
当插上一根线路的时候,出现丢包现象,可能判断该线路下存在环路影响。
交换机中网络环路常见问题详解以太网中的交换机之间存在不恰当的端口相连会造成网络环路,如果相关的交换机没有打开STP功能,这种环路会引发数据包的无休止重复转发,形成广播风暴,从而造成网络故障。
一天,我们在校园网的网络运行性能监控平台上发现某栋搂的VLAN有问题——其接入交换机与校园网的连接中断。
检查放置在网络中心的汇聚交换机,测得与之相连的100BASE-FX端口有大量的入流量,而出流量却非常少,显得很不正常。
然而这台汇聚交换机的性能似乎还行,感觉不到有什么问题。
于是,我们在这台汇聚交换机上镜像这个异常端口,用协议分析工具Sniffer来抓包,最多时每秒钟居然能抓到10万多个。
对这些数据包进行简单分析,我们发现其中一些共同特征。
当时,我们急于尽快抢修网络,没去深究这些数据包的特征,只看到第1点就以为网络受到不明来历的Syn Flood攻击,估计是由一种新网络病毒引起,马上把这台汇聚交换机上该端口禁用掉,以免造成网络性能的下降。
故障排除为了能在现场测试网络的连通性,在网络中心,我们把连接那栋大楼接入交换机的多模尾纤经光电转换器用双绞线连到一台PC上,并将其模拟成那个问题VLAN的网关。
然后,到现场找来大楼网管员,想让他协助我们尽快把感染了未知病毒的主机查到并隔离。
据大楼网管员反映,昨天网络还算正常,不过,当时本大楼某部门正在做网络调整,今天上班就发现网络不行了,不知跟他们有没有关系。
我们认为调整网络应该跟感染病毒关系不大。
在大楼主配线间,我们把该接入交换机上的网线都拔掉,接上手提电脑,能连通网络中心的测试主机。
我们确认链路没问题后,每次将剩余网线数量的一半插回该交换机,经测试没问题则如是继续下去,否则换插另一半,逐渐缩小怀疑有问题网线的数量。
我们最终找到一条会引起问题的网线,只要插上这根网线,该大楼网络就会与模拟网关中断连接。
经大楼网管员辨认,这条网线是连接昨天在做网络调整的那个部门的。
他还说以前该部们拉了一主一备两条网线,应该还有一条,并亲自在那台交换机上把另一条找了出来。
交换机连接成环导致网络中断的解决办法交换机连接成环导致网络中断的解决办法网络环路导致网络瘫痪或中断是我们网管员们经常遇到的问题,但是在规模较大的网络环境中,这种故障常常具有较强的隐蔽性,让我们无法快速高效地处理。
笔者最近就遇到了一起这样的故障。
一天早晨5点多钟,笔者突然接到电话,说机房的网管系统无法访问网元设备。
披上衣服马上赶往公司。
到了公司机房,查看了一下省网管中心监控软件自动发给机房人员的短信告警信息,信息显示在两点左右,部分BSC和RNC设备脱管。
故障描述笔者单位的网管系统主要分为两部分,一部分是网管系统专用的域内终端系统,另一部分是对网元设备的监控系统。
为了全面排查故障,笔者先检查终端部分,发现各域内终端可以正常获取IP地址,并能正常访问办公、资源管理、电子运维系统(EOMS)等省公司接口服务器(Portal)。
接着检查网元部分,由于网元设备本地无权限监控,必须通过省公司4A认证服务器再访问网元设备。
现在可以访问省公司服务器进行验证,但是无法连接出问题的BSC、RNC等设备,并且也无法Ping通相关设备的IP地址。
网元系统拓扑结构如图1所示。
故障排查通过上面的检查,基本可以判端故障出现在网元部分。
通过查看端口登记发现,出问题的设备主要集中在网元交换机2华为S3952上,于是来到三层的传输机房,发现它与上联的网元汇总交换机Cisco 2960的级联端口存在故障。
这下故障点找到了,笔者认为可能是这条网线坏了或者是端口吊死了这样的小问题。
于是把网线重新插拔一下,然而故障依旧,重新换了一条网线,还是不能解决故障。
分别用网线把笔记本电脑与这两个级联口接上,发现Cisco交换机的级联口一直为Down 状态,而华为交换机的级联口就可以正常的UP。
笔者又判定是Cisco这个级联口存在故障,于是在Cisco交换机上找了一个空口并作了数据,这回将两个交换机连上,端口可用了。
满以为这下可以解决故障了,但谁知没过多久,端口又Down掉了。
交换机⼆层环路问题处理指南⽬录1 介绍 (3)2 ⽹络业务故障,如何确认存在环路? (3)2.1 第⼀步:是否可以通过端⼝流量发现数据风暴? (4)2.2 第⼆步:是否可以通过MAC-Flapping检测漂移? (5)2.2.1 框式交换机 (5)2.2.2 盒式交换机 (7)2.3 第三步,是否可以通过环路检测发现环路? (8)2.3.1 Loop Detection(框式) (9)2.3.2 Loopback Detection(盒式) (10)3 环路问题发⽣后,如何快速破环? (11)3.1 第⼀步:是否理解⽹络业务并明确拓扑? (11)3.2 第⼆步:是否需要⽤影响最⼩的⽅法破环? (11)3.2.1 ⽅法⼀:端⼝退出成环VLAN破环 (11)3.2.2 ⽅法⼆:shutdown成环端⼝破环 (11)3.2.3 ⽅法三:通过拔出成环光纤破环 (11)3.3 第三步:操作后确认业务是否恢复? (12)4 环路问题发⽣后,如何定位问题根因? (12)4.1 第⼀步:是否由于近期施⼯操作引⼊环路? (12)4.2 第⼆步:是否由于近期修改配置引⼊的环路? (12)4.3 第三步:是否典型的常见环路问题? (13)4.3.1 交换机⾃环出现环路 (13)4.3.2 交换机下游设备⾃环出现环路 (13)4.3.3 环形组⽹链路震荡导致环收敛震荡 (14)4.3.4 环形组⽹寄存器下发失败⽆法破环 (14)4.3.5 链路单通引⼊RRPP⽹络单向环 (15)4.3.6 协议堵塞的端⼝L2PT(bpdu-tunnel)协议报⽂成环 (16) 4.3.7 下游设备报⽂转发异常导致疑似环路 (17)4.4 第四步:收集信息返回研发分析 (17)5 环路问题解决后,⽹络是否需要优化? (19)5.1 第⼀步:是否需要部署适当的破环协议? (19)5.2 第⼆步:是否需要提升链路质量和可靠性? (19)5.3 第三步:是否需要部署⼴播抑制提升⽹络健壮性? (19)5.4 第四步:是否需要部署QoS保证协议报⽂优先转发? (19)6 结束语 (19)1介绍以太⽹链路由于各种原因,导致数据或协议报⽂环形转发,导致⽹络形成数据风暴,最终影响正常业务。
目录1介绍............................................................................................................................................ 2网络业务故障,如何确认存在环路? ....................................................................................2.1第一步:是否可以通过端口流量发现数据风暴? ....................................................2.2第二步:是否可以通过MAC-Flapping检测漂移?....................................................2.2.1框式交换机 ........................................................................................................2.2.2盒式交换机 ........................................................................................................2.3第三步,是否可以通过环路检测发现环路? ............................................................2.3.1Loop Detection(框式).........................................................................................2.3.2Loopback Detection(盒式) ................................................................................. 3环路问题发生后,如何快速破环? ........................................................................................3.1第一步:是否理解网络业务并明确拓扑? ................................................................3.2第二步:是否需要用影响最小的方法破环? ............................................................3.2.1方法一:端口退出成环VLAN破环 .................................................................3.2.2方法二:shutdown成环端口破环.....................................................................3.2.3方法三:通过拔出成环光纤破环 ....................................................................3.3第三步:操作后确认业务是否恢复? ........................................................................ 4环路问题发生后,如何定位问题根因? ................................................................................4.1第一步:是否由于近期施工操作引入环路? ............................................................4.2第二步:是否由于近期修改配置引入的环路? ........................................................4.3第三步:是否典型的常见环路问题? ........................................................................4.3.1交换机自环出现环路 ........................................................................................4.3.2交换机下游设备自环出现环路 ........................................................................4.3.3环形组网链路震荡导致环收敛震荡 ................................................................4.3.4环形组网寄存器下发失败无法破环 ................................................................4.3.5链路单通引入RRPP网络单向环.......................................................................4.3.6协议堵塞的端口L2PT(bpdu-tunnel)协议报文成环 ....................................4.3.7下游设备报文转发异常导致疑似环路 ............................................................4.4第四步:收集信息返回研发分析 ................................................................................5环路问题解决后,网络是否需要优化? ................................................................................5.1第一步:是否需要部署适当的破环协议? ................................................................5.2第二步:是否需要提升链路质量和可靠性? ............................................................5.3第三步:是否需要部署广播抑制提升网络健壮性? ................................................5.4第四步:是否需要部署QoS保证协议报文优先转发? .............................................6结束语........................................................................................................................................1介绍以太网链路由于各种原因,导致数据或协议报文环形转发,导致网络形成数据风暴,最终影响正常业务。
本文档仅介绍二层网络的常见环路问题识别和处理。
本指导手册按照如下思路进行二层环路问题分析和处理:1、网络业务故障,如何观察确认存在二层环路?2、环路问题发生后,如何快速破环恢复业务?3、如何排查环路问题的根本原因,是否已知案例?。
4、针对问题原因,对网络进行适当的优化。
处理二层环路问题,您首先需要准备如下:1、整网的拓扑图,包含设备名称、登陆方式、系统MAC。
2、登陆软件,记录全部的操作记录。
准备好这些,我们开始二层环路问题的处理之旅。
2网络业务故障,如何确认存在环路?网络业务故障后,如发生二层环路,通常会存端口流量数据风暴和反复大量的MAC漂移现象。
因此,在骨干链路所在的节点,通过如下三步操作:图1:环路排查流程图可以判断网络是否可能存在二层环路。
2.1第一步:是否可以通过端口流量发现数据风暴?通过display interface brief命令,查看所有接口下的流量,存在环路的接口上InUti和OutUti两个计数会逐步增加:第一次查询:[151]disp interface Ethernet brief | in upPHY: Physical*down: administratively down(l): loopback(b): BFD downInUti/OutUti: input utility/output utilityInterface PHY Auto-Neg Duplex Bandwidth InUti OutUti TrunkGigabitEthernet0/0/2 up enable full 100M 0% 0.01% --GigabitEthernet0/0/16 up enable full 1000M 0.56% 0.56% 1GigabitEthernet1/0/12 up enable full 1000M 0.56% 0.56% 1MEth0/0/1 up enable half 100M 0.01% 0.01% --最后一次查询:[151]disp interface Ethernet brief | in upPHY: Physical*down: administratively down(l): loopback(b): BFD downInUti/OutUti: input utility/output utilityInterface PHY Auto-Neg Duplex Bandwidth InUti OutUti TrunkGigabitEthernet0/0/2 up enable full 100M 0% 0.01% --GigabitEthernet0/0/16 up enable full 1000M 76% 76% 1GigabitEthernet1/0/12 up enable full 1000M 76% 76% 1MEth0/0/1 up enable half 100M 0.01% 0.01% --一般情况下,查询只能看到网络的当前流量结果,此时需要和网络的正常业务流量进行比较,业务流量的带宽可以从客户的网络流量监控图获取。