交换机CPU使用率高问题定位
- 格式:pptx
- 大小:474.50 KB
- 文档页数:23
CPU 占用率高的定位思路常见原因CPU 占用率,就是一个时间段内,CPU 执行代码的时间与时间段总长度的比率。
CPU占用率常常是衡量设备性能的重要指标之一。
CPU 占用率高,是设备本身的一种现象,直观表现为display cpu-usage 命令查询结果中整机CPU 占用率“CPU usage”偏高,如超过70%。
或者产生告警basetrap_1.3.6.1.4.1.2011.5.25.129.2.4.1 hwCPUUtilizationRisingAlarm,默认超过90% 会产生此告警。
但是在网络运行中CPU 高常常会导致其他业务异常,如BGP震荡、VRRP频繁切换、单板复位、甚至设备无法登录。
业务异常的故障,请根据具体表现查看相应的故障处理章节。
以下讨论的原因及步骤基于CPU 占用率高这个现象。
通常,整机CPU 占用率过高,是由于某些任务的CPU 占用率居高不下导致的。
具体导致某任务CPU 占用率高的可能原因:l 上送CPU 报文过多,如环路或DoS 报文攻击l STP网络频繁震荡,收到大量TC 报文,造成设备频繁删除MAC表和ARP 表项l 设备产生海量日志,占用大量CPU 资源故障诊断流程详细处理流程如图3-1 所示。
图3-1 CPU 占用率高故障诊断流程图故障处理步骤说明请保存以下步骤的执行结果,以便在故障无法解决时快速收集和反馈信息。
以下的步骤之间并没有严格的顺序关系,实际操作中并不一定要遵守文中所给的顺序。
设备型号不同,以下步骤中命令的显示信息也会有差异,请以设备实际显示信息为准。
文中示例旨在告诉读者如何查看相关信息。
操作步骤步骤1 检查占用CPU 高的任务名称执行命令display cpu-usage,查看主用主控板各任务的CPU 占用率。
执行命令display cpu-usage slot slot-id 查看接口板各任务的CPU 占用率。
记录CPU 占用率超过70%的任务名称。
CPU利用率高的定位思路和方法一、确定CPU利用率高的原因:1.1 监测CPU利用率:使用操作系统或第三方的监控工具来实时监控CPU利用率。
可以使用Windows操作系统的任务管理器、Linux操作系统的top命令、第三方工具如SolarWinds等。
1.2分析CPU利用率:根据监测结果,分析CPU利用率的波动趋势、峰值出现的时间、对应的进程或服务等,找到CPU利用率异常高的原因。
二、定位CPU利用率高的可能原因:2.1进程或服务过多:检查系统中运行的进程或服务数量是否过多,特别是一些占用较多CPU资源的进程或服务,如数据库服务、网络服务等。
2.2病毒或恶意软件:使用杀毒软件对系统进行全面扫描,查杀病毒或恶意软件。
2.3资源竞争:检查系统中的其他资源使用情况,如内存、硬盘、网络等,是否存在资源竞争现象,导致CPU利用率高。
2.4CPU风扇散热不良:检查CPU风扇是否正常运转,散热是否良好。
如果CPU温度过高,会导致CPU频繁降频,进而导致CPU利用率上升。
2.5软件升级或安装问题:检查是否有最近安装或升级的软件可能引起了CPU利用率高的问题。
如果有,可以尝试回滚或卸载该软件,观察是否有改善。
2.6执行任务过多或任务调度不当:检查系统中是否有大量线程或进程同时执行,如果任务调度策略不合理,可能导致CPU利用率高。
可以调整任务的调度策略或限制任务的并发数。
三、解决CPU利用率高的方法:3.1优化进程或服务:分析CPU利用率高的进程或服务,优化其代码或配置,减少对CPU资源的占用。
3.2执行资源清理工作:定期清理系统中不需要的临时文件、日志文件、缓存文件等,释放磁盘空间和内存资源。
3.3增加硬件资源:如果CPU利用率高的原因是因为系统资源不足,可以考虑增加硬件资源,如增加CPU核心数、内存容量等。
3.4优化任务调度:根据实际需求和系统性能,调整任务的优先级和调度策略,合理分配CPU资源。
3.5部署负载均衡:如果是因为并发请求过多导致CPU利用率高,可以考虑使用负载均衡的方式将请求分散到多台服务器上,减轻单台服务器的负载压力。
案S5800交换机频繁出现CPU利用率高问题案例分析∙0推荐,1035浏览∙3收藏,我的收藏问题现象某局点反馈,S5800设备使用过程中,CPU利用率突然上升到100%,之后客户业务马上受到影响,登录设备查看进程发现arp占79%,但过了几分钟后CPU又回到原来水平了。
该故障情况不定时出现,每次出现持续一段时间。
原因分析1、根据诊断信息,可以确定占用CPU最多的进程是ARP任务。
现场通过抓包确认,CPU高时,设备收到较多ARP报文。
2、查看设备配置,发现配置了arp detection功能。
在配置了ARP Detection功能后,设备会将收到的ARP报文重定向到CPU进行检查,这样可能会导致当网络中存在攻击者恶意构造大量ARP报文发往设备,会导致设备的CPU负担过重,从而造成其他功能无法正常运行甚至设备瘫痪。
这种情况下,可以启用ARP报文限速功能来控制上送CPU的ARP报文的速率。
但现场配置arp报文限速功能后,cpu依然很高,后来关闭了arp detection功能后,故障仍然存在。
3、继续排查,通过现场在CPU高时打印上送cpu的报文,以及收集如下信息查看arp进程的具体调用栈情况。
[S5800]_h[S5800-hidecmd]dis task 110 slot 1 cpu 0[S5800-hidecmd]dis task 110 slot 2 cpu 0通过查看任务调用信息,发现下面的配置导致ARP进程偏高:arp anti-attack source-mac filterarp广播报文默认上cpu处理,而arp 单播回应报文只有目的mac是设备本身才会上送cpu,默认情况下目的mac不是自己的不上,配置该命令后,导致过路的arp也会上送cpu。
该命令的作用是:使能源MAC地址固定的ARP攻击检测之后,该特性会对上送CPU的ARP报文按照源MAC地址和VLAN进行统计。
当在一定时间(5秒)内收到某固定源MAC地址的ARP报文超过设定的阈值,不同模式的处理方式存在差异:在filter模式下会打印Log信息并对该源MAC地址对应的ARP报文进行过滤;在monitor模式下只打印Log信息,不过滤ARP报文。
Troubleshooting High CPUUtilization翻译:陈丹丹武洋这篇文档包含如下几个部分:⏹CPU利用率概述⏹何时高CPU利用率有隐患⏹判断根本原因⏹有用信息⏹文档获取和提交服务请求CPU利用率概述当交换机启动后,交换机CPU会同时执行两项任务:⏹相应系统进程的各种中断请求⏹接收发送数据包当系统进程的中断请求或需要转发的数据包增加时,CPU利用率就会增加。
在正常的操作环境下,一个非堆叠交换机的CPU利用率在5%一下。
对于堆叠交换机,CPU 利用率最小会在7%-8%之间,CPU利用率只由主交换机测量,并且交换机堆叠的数量也会影响CPU利用率。
由于Cisco系统的后台计时器每秒会运行很多次,即使在最简单的部署中,CPU利用率也不会显示0%。
提醒正常的包转发是由硬件完成的,并不涉及CPU,所以包的转发不会受高CPU利用率的影响。
当需要CPU处理的数据包很多,或系统进程占用了过长的CPU处理时间,CPU负载就会过高。
当任何一种使用CPU资源的交换机功能受到攻击时,CPU负载也会过高。
例如:如果网络中存在广播风暴,CPU就会接收到过多的数据包,并处理它们,进而使其他系统进程得不到CPU处理。
查看CPU利用率,输入show cpu processes sorted命令。
输出会显示过去5秒、一分钟、5分钟的CPU利用率。
输出也会显示每个系统进程在各个周期下的利用率。
Switch# show processes cpu sortedCPU utilization for five seconds: 5%/0%; one minute: 6%; five minutes: 5%PID Runtime(ms) Invoked uSecs 5Sec 1Min 5Min TTY Process1 4539 89782 50 0.00% 0.00% 0.00% 0 Chunk Manager2 1042 1533829 0 0.00% 0.00% 0.00% 0 Load Meter3 0 1 0 0.00% 0.00% 0.00% 0 DiagCard3/-14 14470573 1165502 12415 0.00% 0.13% 0.16% 0 Check heaps5 7596 212393 35 0.00% 0.00% 0.00% 0 Pool Manager6 0 2 0 0.00% 0.00% 0.00% 0 Timers7 0 1 0 0.00% 0.00% 0.00% 0 Image Licensing8 0 2 0 0.00% 0.00% 0.00% 0 License Client N9 1442263 25601 56336 0.00% 0.08% 0.02% 0 Licensing Auto U10 0 1 0 0.00% 0.00% 0.00% 0 Crash writer11 979720 2315501 423 0.00% 0.00% 0.00% 0 ARP Input12 0 1 0 0.00% 0.00% 0.00% 0 CEF MIB API<output truncated>在输出中,过去5秒CPU利用率显示了两个数值(5%/0%)。
版权所有:杭州华三通信技术有限公司无线设备CPU利用率高问题故障排查一、开始CPU 超负荷运行时会造成很多问题,此时设备会出现丢包现象,从而导致正常业务受到很大的影响。
定位故障的思路是: 1.判断当前CPU 是否正常。
2.判断近期操作是否影响到CPU 。
3.判断具体是哪个进程长时间占用CPU。
1、查看当前设备CPU状态查看当前设备CPU信息是否正常,以便明确下一步操作。
命令:display cpu-usage例如:通过命令查看,可以确认当前CPU是否处于正常状态(长期高于70%表示异常)。
2、查看各进程占用CPU情况命令:进入隐藏模式 display cpu-usage task reset task-runtime-max display task例如:通过命令查看,可以确认具体是哪些进程大量占用CPU,下表列出常见CPU进程具体含义。
版权所有:杭州华三通信技术有限公司版权所有:杭州华三通信技术有限公司版权所有:杭州华三通信技术有限公司版权所有:杭州华三通信技术有限公司3、了解当前网络是否存在重大操作例如:(1)AP升级操作。
(2)设备新上网管软件。
(3)整网重大变动。
(4)在网设备掉电、重启、异常均可能影响到无线在网设备。
(5)在线的一些实时操作,包括AP手动重启、开关服务模板等。
4、反馈当前操作收集信息(1)将了解到的现场操作与可以收集到的历史信息结合到一起分析,有助于判断问题。
例如:第一、AP升级操作。
第二、设备新上网管软件。
第三、整网重大变动。
第四、在网设备掉电、重启、异常均可能影响到无线在网设备。
第五、在线的一些实时操作,包括AP手动重启、开关服务模板等。
(2)由于当前设备恢复正常,因此只能及时收集现有的历史信息供分析。
命令:display cpu-usage history [AC]display diagnostic-information 进入隐藏模式 display cpu-usage task reset task-runtime-max display task例如:通过命令查看,可以确认近一个小时的CPU利用率具体情况。
Catalyst 6500/6000 Switch High CPU Utilization2009.9目录CATALYST 6500/6000 SWITCH (1)HIGH CPU UTILIZATION (1)第1章序言 (4)第2章广播风暴 (5)第3章ARP攻击 (7)第4章善意或恶意攻击 (9)第5章附件–参考文档 (19)Contents (19)Introduction (20)Prerequisites (20)Requirements (20)Components Used (20)Conventions (20)Difference Between CatOS and Cisco IOS System Software (20)Understand CPU Utilization on Catalyst 6500/6000 Switches (21)Situations and Features That Trigger Traffic to Go to Software (22)Packets That Are Destined to the Switch (22)Packets and Conditions That Require Special Processing (22)ACL-Based Features (23)NetFlow-Based Features (24)Multicast Traffic (25)Other Features (25)IPv6 Situations (25)LCP Schedular and DFC Module (26)Common Causes and Solutions for High CPU Utilization Issues (27)IP Unreachables (27)NAT Translations (27)Use of CEF FIB Table Space in the Flow Cache Table (27)Optimized ACL Logging (29)Rate Limit of Packets to the CPU (29)Physical Merger of VLANs Due to Incorrect Cabling (31)Broadcast Storm (31)BGP Next-Hop Address Tracking (BGP Scanner Process) (31)Non-RPF Multicast Traffic (32)show Commands (33)Exec Processes (34)L3 Aging Process (35)BPDU Storm (35)SPAN Sessions (36)%CFIB-SP-STBY-7-CFIB_EXCEPTION : FIB TCAM exception, Some entries will be software switched (36)Copper SPFs (36)Modular IOS (37)Check CPU Utilization (37)Utilities and Tools to Determine the Traffic That Is Punted to the CPU (38)Cisco IOS System Software (38)CatOS System Software (42)Recommendations (43)第1章序言从目前很多案例看,引起CPU高的原因,按先后次序如下:1、内网广播风暴引擎:比如,客户曾经因其他问题开case到思科,思科售后工程师发现,客户65已持续一个月CPU 100%,经查明是广播风暴2、物理环路:多链路互联2个设备时、链路捆绑但配置错误时3、ARP检测:现在,80%的安全隐患来自内往,ARP欺骗/攻击就是其中一种,将导致内网网络设备CPU过高4、无意/恶意攻击行为:比如常见的为:SQL蠕虫病毒攻击和大量Syn flood攻击5、其他行为第2章广播风暴从交换机原理看网络广播风暴的几种原因:一、交换机基础知识交换机的定义:交换机是一种基于MAC(网卡的硬件地址)识别,能完成封装转发数据包功能的网络设备。