A-A+

核心交换机端口全部亮绿灯却不闪的故障分析

2018年04月16日 网管技术 暂无评论 阅读 76 views 次

今天我们单位的网络出现了一个重大故障,现象是全网全部瘫痪无法使用,经排查具体原因是企业的核心交换机不交换了,具体的故障特征如下:

1、核心交换机的有连接的端口指示灯为绿色,但一点也不闪烁;

2、进入交换机console管理,发现ping交换机三层网关都通,但是ping任何一个外部设备地址均不通,路由就更不用说了,外部访问也不通;

这种症状小度还是第一次遇到,虽然我们的核心交换机比较老了,是Cisco 4500系列的核心交换,但一直使用情况良好,通过初步分析,我们判断出现该故障的可能原因如下:

1、网内有病毒爆发或者出现其它流量异常,导致广播风暴,最终导致交换机的交换功能死锁,也就是不工作了;

2、网内出现了环路,不排除运维人员突然接插了hub或者是网线导致网络环路,最终导致交换机所有端口报错 自锁;

3、交换机设备自己的硬件故障,如果是硬件故障,最有可能的问题点在交换机主板或交换机主引擎插板。

根据以上分析的结果,我们开始了快速排查,首先排除的是网络病毒的爆发,因为以前爆发病毒的时候,交换机的现象是交换端口全亮灯,但是在不停的狂闪,我们这次的交换端口是全部绿灯,却一点不闪,这个症状属于交换机没有任何数据包传输的特征。

第二,我们要排除环路问题,这个问题的排查比较困难,采用show logging命令也没有发现什么告警信息,唯一的办法就是拔线了,通过拔线检查,发现交换机的症状与原来一样没有任何的变化,这下我们可有点急了,因为只有一种可能了,那就是硬件坏了。

我们最终采用了网管的终极法宝,那就是重启交换机,由于能够进交换机后台,所以我们选择了软重启,reload命令重启,看着交换机的启动与一步步的自己,竟然全部正常通过了,而且重启成功了,交换机恢复了正常运转,问题竟然解决了!

虽然企业的网络恢复了正常,但作为一名网管,这件事情其实并没有完结,因为我们知道,这次的最终原因并没有找到,保不齐以后还出呢?

这时我们也有时间去检查一下交换机的健康状况了,发现有点异常的是CPU利用率,比较高。

show processes cpu sorted  发现 Cat4k Mgmt LoPri  这个进程使用率比较高如图:

查交换机CPU进程

交换机CPU过高

另外,show platform health     发现K2CpuMan Review    程序使用率也很高。

关于CPU高的原因,我们分析一下是病毒流量或环路流量的可能性都存在,如果要发现具体原因,还要靠端口镜像和抓包分析工具来分析了,这项工作已经开展了,结果还没出。

另外,我又做了个试验,把一个正常的交换端口shutdown了,观察交换机端口的指示灯是什么颜色,试验的结果是橘色,与本次的端口指示灯绿色不闪不一样,因此我的怀疑还是主要指向了交换机的硬件故障了,本来怀疑是交换端口出现大量errordisable,也可以导致交换端口停用,但指示灯估计是橘色了。

既然这次可能是交换机引擎或主板出现了异常,导致交换机不工作,那么后续的措施就要谨慎了。

首先,第一个措施,我们找了台带三层路由功能的备用交换机Cisco 3750G,用它来提前模拟好核心交换机的配置,以防以后发现不测,一旦再出现上述故障,重启也解决不了了,我们可以立即更换至备用交换机。

第二个措施,准备年中提预算,准备买一台新的核心交换机了,毕竟Cisco4506已经用了将近十年了,已经够本了。

给我留言

Copyright © 度娘搜搜 保留所有权利.   鲁ICP备15005183号-1

用户登录

分享到: