常见网络故障案例解析
- 格式:ppt
- 大小:85.00 KB
- 文档页数:35
网络工程师的网络故障排除和修复案例分析1. 案例一:路由器故障在一家大型企业的网络中,突然出现了网络连通性问题。
经过初步排查,发现问题主要出现在网络的核心设备——路由器上。
该路由器负责连接各个子网,并提供互联网连接。
在进行网络故障排除前,网络工程师首先检查了路由器的接口状态,发现其中一个接口显示为down状态。
工程师尝试重新启动该接口,但问题并没有解决。
随后,工程师决定进一步深入排查。
通过日志分析,发现路由器出现了高负载和异常错误信息。
工程师怀疑路由器的配置可能存在问题,因此检查了路由器的配置文件。
最终,工程师发现一个错误的路由策略导致了路由器的故障。
为了解决问题,工程师重新配置了路由器,并重新启动了接口。
随后,网络恢复正常,用户的网络连通性得到了恢复。
2. 案例二:交换机故障在一家中小型企业的网络中,部分用户反馈无法访问内部服务器。
经过初步排查,网络工程师发现用户所在的子网无法与服务器所在的子网进行通信。
工程师尝试ping服务器IP地址,发现无法ping通。
工程师进一步检查了交换机的端口状态,并发现用户所在的交换机端口出现了异常。
怀疑是交换机端口故障导致的网络问题,工程师在网络拓扑图上找到了一个备用交换机,并将受影响的用户连接到备用交换机上。
然而,问题并没有解决。
工程师意识到问题可能出在交换机的链路上。
通过检查链路连接状态,工程师发现一根链路线路断开了。
工程师修复了链路,并重新配置了相关端口。
最终,用户恢复了对服务器的访问。
3. 案例三:防火墙配置错误在一家金融机构的网络中,发生了一次重大的网络安全事件。
网络工程师接手了这个案例,试图找出并修复网络安全漏洞。
经过详细调查,工程师发现防火墙的配置存在问题。
防火墙是保护企业网络的第一道安全防线,它负责过滤和检查网络流量。
通过审查防火墙的配置文件,工程师发现了一些不正确的规则和过时的访问控制列表(ACL)。
这些配置问题导致了网络安全漏洞,使得恶意攻击者能够绕过防火墙并访问内部网络。
1. 违规外联安全隐患:公司信息内网与互联网已经隔离,不能进行交互。
信息内网办公计算机如果使用网络拨号、无线上网卡等进行违规外联,就会使信息内网与互联网联通,会把来自互联网的的各类信息安全风险引入到企业信息内网。
案例分析:2006年5月,国家某单位员工私自在内网办公计算机上安装使用了CDMA无线上网卡接入互联网。
在与互联网联通的期间,导致内网办公计算机感染木马,该单位重要资料被盗取。
该员工受到降级处分,并调离原工作岗位。
防范措施:严禁“一机两用”(同一台计算机既上信息内网,又上信息外网或互联网)的行为。
严禁通过电话拨号、无线等方式与信息外网和互联网联接。
使用防止非法外联的相关措施,如部署桌面终端管理系统,及时监控并强制阻断违规外联。
2. 网络接入隐患分析:信息内外网网络接入如果管理不够严格,就会在信息安全防线之内,被存有企图的人利用而直接接入信息内外网,实施相关危害性操作。
案例举证:国内某事业单位的一名外部合作单位技术人员尝试将个人计算机接入该单位的信息内网,由于该单位未对网络接入进行严格管控,致使该外部技术支持人员成功接入并获取到该单位内部数据库账号口令,窃取了数据库中重要的数据文件数十份,并转卖给竞争对手,导致该单位蒙受重大损失。
防范措施:严格执行公司“八不准”规定,不准将未安装终端管理系统的计算机接入信息内网,不准非地址绑定计算机接入信息内外网。
制定严格的外部人员访问程序,对允许访问人员实行专人全程陪同或监督,并登记备案。
3. 移动存储隐患分析:连接互联网的计算机和移动存储介质上处理、存储涉及企业秘密信息和办公信息,很有可能会直接造成信息泄露事件。
案例举证:2009年12月,国家相关部门通报公司某单位员工使用的计算机中涉及办公资料泄露。
经查实,该员工将办公资料存入非公司专配的个人移动存储介质并带回家中,利用连接互联网的计算机对该移动存储介质进行操作,由于其家用计算机存在空口令且未安装安全补丁,感染了特洛伊木马病毒,使存于移动存储介质上的文件信息泄露。
常见网络故障案例解析目录一、网络故障概述 (2)1.1 网络故障的定义 (2)1.2 网络故障的分类 (3)1.3 网络故障排除的步骤 (4)二、常见的网络故障类型及案例解析 (5)2.1 网络连接故障 (7)2.1.1 客户端无法连接到服务器 (8)2.1.2 网络连接不稳定 (9)2.1.3 无法获取IP地址 (10)2.2 网络设备故障 (11)2.2.1 路由器故障 (12)2.2.2 交换机故障 (13)2.2.3 防火墙故障 (14)2.3 网络服务故障 (16)2.3.1 DNS服务器故障 (17)2.3.2 Web服务器故障 (18)2.3.3 FTP服务器故障 (19)2.4 网络协议故障 (20)2.4.1 TCP/IP协议故障 (21)2.4.2 HTTP协议故障 (22)2.4.3 ICMP协议故障 (23)三、网络故障排除工具与技巧 (24)3.1 网络故障排除工具介绍 (25)3.2 网络故障排除技巧 (27)四、网络故障预防与维护 (28)4.1 网络故障预防措施 (30)4.2 网络设备维护 (31)4.3 网络服务优化 (32)一、网络故障概述网络故障是指在计算机网络系统中,由于硬件、软件、传输介质等方面的问题导致网络通信中断、数据丢失或性能下降的现象。
网络故障不仅影响用户的正常使用,还可能对企业的业务运行造成严重后果。
对网络故障进行及时有效的处理和预防至关重要。
常见的网络故障类型包括:线路故障、交换机故障、路由器故障、无线网络故障、DNS故障等。
这些故障可能是由于设备老化、损坏、配置错误、接口松动、信号干扰等原因引起的。
为了快速定位和解决网络故障,通常需要采取一系列步骤,如分析故障现象、收集信息、判断故障原因、制定解决方案、实施处理措施、测试验证等。
在某些情况下,还需要对网络进行定期维护和升级,以提高网络的稳定性和可靠性。
针对不同类型的网络故障,用户可以根据具体情况选择合适的解决方法,如重启设备、更换损坏的部件、更新配置文件、调整网络参数等。
问题描述1月30日下午接到客户报其无线办公网络突然中断,各区域部分无线终端能够找到无线信号,但输入账号信息提示错误,但大部分终端无法找到无线信号,无线控制器AC和验证服务器ACS均已重启,故障依旧。
处理过程现场使用手机搜索wifi信号确实无法发现信号源,查看AC控制器配置发现两个办公无线信号源被隐藏,将隐藏属性取消后,无线办公信号源出现。
使用客户现场人员账号登录无线办公网络发现验证失败,登录AC控制器查看配置,发现控制器并不提供本地账号验证,账号验证通过一台思科ACS服务器采用RADIUS方式与后台企业AD域控服务器验证,每个登录用户都使用自己的域账号进行无线办公网登录,在AC控制器上查看AP接入点用户账号登录情况发现办公用户登录验证已成功发送至AC控制器,但之后的验证失败。
从命令行ping测试AC控制器和ACS服务器连通正常,进入服务器机房登录ACS服务器查看,这时客户告知有两个用户可以登录办公无线网络,在ACS服务器上查看这两个用户的登录信息,发现他们在春节假期后登录过ACS服务器,怀疑ACS服务器与AD域控制器用户验证出现问题。
在ACS服务器上查看用户登录失败日志记录,发现节后频繁出现ACS 服务器与域控服务器数据库交换失败告警,用命令行ping测域控服务器地址和域名发现可以连通AD域控服务器地址但域名解析失败,查看ACS服务器网卡配置发现首选DNS和备选DNS服务器均指向互联网通用DNS服务器,将两个DNS服务器地址指向主备域控服务器地址,重新测试无线办公网络登录成功,故障解除。
故障分析经分析后认为,本次故障主要原因是春节假期长时间无人登录办公无线网络,引起ACS服务器或域控服务器刷新本地DNS缓存(活动目录AD域中各种访问主要基于域名进行,域名的访问一般有两种方式,本地缓存HOSTS文件和DNS服务器,AD域中本地缓存文件有存储期限,长时间不访问会通过策略清空缓存,但正常情况下终端可以通过本地网卡的DNS服务器指向与域控服务器联系),由于网卡DNS服务器指向错误,引起ACS服务器无法通过域控服务器解析域名,造成无线用户验证失败,而两个可以验证的账号,因近期曾经从域控服务器远程登录过ACS服务器,因此用户信息被重新记录在本地,无线账号可以登录成功。
5G NSA 网络常见掉线问题分析研究XX目录一、掉线基本原理 (4)1.1掉线现象 (4)1.2常见掉线场景 (6)二、正向排查动作 (7)2.1硬件告警、故障日志排查 (8)2.2操作排查 (10)2.3参数核查 (11)2.4信令流程分析 (13)2.5误码排查 (19)2.6覆盖和干扰排查 (22)2.7部释放原因排查 (26)2.7.15G CHR 查找掉线记录方法 (26)2.7.24G CHR 查找掉线记录方法 (29)2.7.34G CHR 分析方法 (31)2.7.45G 内部释放原因值 (34)2.7.5下行RLC 达到最大重传次数分析 (35)2.7.6上行RLC 达到最大重传次数分析 (38)2.7.7SR 达到最大发送次数分析 (39)三、反向排查场景 (42)3.15G 覆盖问题导致的掉线 (42)3.25G 干扰问题导致的掉线 (45)3.35G 配置问题导致的掉线 (49)3.44G 配置问题导致的掉线 (51)3.5切换失败导致的掉线 (51)3.6传输故障导致的掉线 (54)3.7小区故障导致的掉线 (56)3.8SCG 重配失败导致掉线 (59)3.9核心网问题导致掉线 (61)3.104G 掉线重建导致5G 掉线 (63)3.11 其它 (64)四、话统KPI 问题分析方法(NSA) (64)4.1掉线KPI 定义 (64)4.2信令流程及统计点 (65)4.3掉线问题分析方法 (68)4.3.1动作1:确定问题类型 (69)4.3.2动作2:时间趋势分析 (70)4.3.3动作3:释放原因初步确认 (70)4.3.4动作4:TOP N 分析 (71)4.3.5动作5:关联指标分析 (72)4.3.6动作6:操作和外部事件 (77)4.3.7动作7:TOP 站点或典型站点详细分析 (78)五、经验总结 (79)5G NSA 网络常见掉线问题分析研究XX【摘要】5G NSA 网络发展经常出现 5G 网络掉线率高的问题,解决 5G NSA 网络掉线率,提高用户 5G 网络感知。
NetworktriggeredServiceRequest超时⽆法上⽹案例
Network triggered Service Request超时
⽆法上⽹案例
【问题简述】
136****5273(4600040****5718)⽤户于12⽉21⽇18点35分来电表⽰⽤我们移动数据4G上⽹⾮常的慢,要求核实原因并给与解决。
⼯单流⽔号:20151221183528X82234。
【问题分析】
平台分析
查询GB平台,⽤户投诉当天12点之后,只有⼀条附着记录,⽆任何业务记录,考虑到⽤户为4G终端,查询GGSN话单,⽤户在投诉前确实占⽤4G⽹络,具体如下:
在SEQ平台查询发现,⽤户在投诉时段信令⾯的⽹络侧业务请求全部超时,⽤户确实存在不能上⽹的情况。
原始信令分析
为了进⼀步确定⽤户⽆法上⽹的原因,我们对成功的信令⾯的原始信令进⾏解析,发现⽹络侧在下发数据后,持续⽆法寻呼到终端,导致上⾏数据⽆法传送,⽹页当然也⽆法打开,具体如下:
异常信令:
⼩区指标分析分析
根据原始信令,⽹络侧下发数据包在寻呼UE时,UE没有响应,该问题可能为UE异常或者⽆线链路信号质量太差,查询所占⼩区4061715指标⽆异常,具体如下:
【解决⽅法】
通过以上分析得出⼩区下指标⽆问题,那⽤户终端存在问题的可能性较⼤,联系⽤户,指导⽤户进⾏终端重启。
观察信令,⽤户在18点54分重启附着后,根据信令判断⽤户业务已恢复正常,故障为终端异常导致,具体如下:。
计算机网络故障典型案例分析【摘要】本文分析了前段时间园区网络出现的故障,找到故障原因,并提示解决方案。
【关键词】网络;计算机;无线路由器;ARP协议1 故障现象公司目前接入网络的计算机有一千多台,思科交换机有40多台,有段时间园区网络出现计算机上网及访问内部服务器时断时续,腾讯通一会掉线,一会上线,导致园区所有应用系统服务器法访问,对生产及办公造成严重影响。
2 故障分析出现以上情况时,我通过Cisco Network Assistant监控软件对园区网络监控发现,园区机房的核心交换机CPU负荷率达到100%,核心交换机下连的思科交换机CPU负荷率也达到100%,导致思科交换机无法处理正常的数据交换。
如下图所示:图1根据Cisco Network Assistant监控软件的记录日志分析判断问题产生源所在的交换机,对该交换机所有端口做镜像口,并对镜像口通过wireshark软件对ARP 协议进行分析,通过对交换机ARP数据包分析发现,网络中有大量的192.168.1.1的广播,根本看不到正常的网络包之间传输。
如下图所示:图2ARP协议的作用是负责将逻辑地址转换成物理地址,每一个网络中的主机都有一个ARP调整缓存(ARP cache)里面存储着本主机目前知道的逻辑地址到物理地址的映射关系,该表不是静态的,可以随着时间而动态地更新。
ARP协议是一个通用性协议,除了可以将IPV4地址解析为MAC地址外,也可以用于其他的地址类型解析,如IPX地址,对于以太网上的TCP/IP来说,ARP协议的作用就是将目标设备的IP地址解析成MAC地址。
根据上图所示,网络中不止一台无线路由器,这些无线路由器未经配置直接连入公司网络内,因无线路由器出厂默认IP地址为192.168.1.1,当有多台192.168.1.1的无线路由器时,DHCP 功能未关闭。
会有计算机获取到192.168.1.0这个网段的IP地址,这个网段的地址是非法地址,网关即为无线路由器的IP地址。
LTE核心网常见故障和投诉案例分析案例一:临时方案用户预换卡不能使用2、3G业务【故障现象】临时方案的用户,在更换USIM卡但未开通4G业务的情况下,在4G网络的覆盖下,用4G 手机终端可能无法正常使用2,3G业务。
只能在4G手机上设置“2,3G only”,才能恢复正常使用。
【故障分析】临时方案的用户,在更换USIM卡但未开通4G业务的情况下,当前BOSS系统只是将用户的IMSI鉴权信息通过BOSS指令存储到HSS,并未建立IMSI和MSISDN的关联,即未放号为签约用户的任何2、3G的分组域、电路域和4G业务的签约信息。
这种场景下HSS给MME返回DIAMETER_ERROR_USER_UNKNOWN的错误码,MME收到HSS的DIAMETER_ERROR_USER_UNKNOWN码后,给终端返回#8“EPS services and non-EPS services not allowed”的NAS原因值。
终端收到“EPS services and non-EPS services not allowed”的NAS值后,不再尝试重新选网。
【故障解决】针对这种临时方案的用户,如果只更换USIM卡不签约4G业务,根据测试,MME给终端返回#7“EPS services not allowed”的NAS值能够使终端较快地重选到2、3G网络。
根据协议中定义的映射规则,HSS需要给MME返回DIAMETER_ERROR_UNKNOWN_EPS_SUBSCRIPTION (5420)with Error Diagnostic of NO_GPRS_DATA_SUBSCRIBED的错误原因值,对应到HSS上,需要BOSS在用户进行更换USIM卡时,不管用户签不签约4G业务时,都要向HSS发送放号的BOSS指令,如果用户不签约4G业务,则通过设置4G-APN模板为0来关闭用户的4G功能。
启示:网络侧把问题归类后,通过NAS值反馈给终端,终端针对不同的NAS值会有不同的响应行为,在定位此类问题的时候,需要抓取信令,观察S1-MME接口上附着失败或者TAU 失败的原因值。