A-A+

网络抓包发现大量“IP checksum offload”错误导致应用访问变慢的经典案例分享

2019年06月27日 网管技术 暂无评论 阅读 355 views 次

今天小度要给大家分享一个解决网络中应用变慢问题的经典案例,这个案例持续了一周多的时间,通过了很多方式没有解决,最终重要发现了问题的根源,因此小度感觉对大家非常有帮助,现在总结如下:

1、问题现象

在企业局域网中原来访问正常的门户网站和公文系统,忽然开始变的打开非常慢,点击到打开大约要多等待五六秒种,可不是毫秒,等页面进入后就正常了,而且第二次访问就快了,等吧页面全关掉,等会再访问,又会变慢。

2、查找问题的过程

起初大家都以为是门户和公文系统相关的应用服务期或数据库出现了问题,结果经过了各种业务系统排查,没有发现问题,但时间却已经过去了好几天。

后来开始从网络上找问题,结果也是一样,没有找到问题的根源。这时一周的时间已经过去,企业的员工和领导已经有了很大的不满。

最后,小度的锁定方向还是走到了网络抓包上,因为数据包才是最为原始的,什么也藏不住的。

通过抓包及认真的数据分析,最终终于找到了问题的根源,原来是一个大家都没有想到的软件-金山毒霸!金山毒霸网络版原来对应用是不影响了,后来有了一次升级,增加了金山毒霸防黑墙功能,而且网管把防黑墙的策略在所有终端机上起来了,这个防黑墙相当于对所有出PC终端的访问请求现行审查过滤,导致应用访问延迟变慢。

采用的抓包工具

采用的是网管最常使用的wireshark抓包工具。

数据分析的过程

IP checksum offload

wireshark抓包报错截图

通过抓包发现,每次客户端访问目标应用时总是出现大量的“IP checksum offload”错误,小度通过在网上查阅资料,发现这是一种数据传输中的错误,与客户端或服务器端的网卡有关,但这不像啊,不可能全部的设备的网卡都出问题啊,后来我就把方向放到的核心交换机,结果发现交换机的CPU并不高,不是处理能力不够的问题。

最后,小度感觉这是一直重传机制,当客户端发起请求后规定时间内得不到回应,客户端会重新发起请求,所以也可能问题处在客户端的处理能力上,就这样,我才把方向指向了客户端上不起眼的金山毒霸上。

结论是金山毒霸的防黑墙会过滤所有客户端发出的请求,导致请求延迟,并产生了大量“IP checksum offload”错误数据包,关闭金山毒霸的防黑墙策略,问题就立即解决了。

案例经验总结

本次案例之所以小度认为是经典,不在于抓包工具的使用和分析能力,在于寻找问题的过程,很多企业的网络和应用都是不同分工的人负责的,他们之间缺少有效的联动,分析问题时很可能导致片面,最后导致解决问题的时间超长,本案例的特征是应用访问慢,但问题的原因却既不是应用本身也不是网络,而是一个不起眼的第三方的金山毒霸,要解决这种问题,需要的是全局观和协同作战的能力,大家认为呢?

给我留言

Copyright © 度娘搜搜 保留所有权利.   鲁ICP备15005183号-1

用户登录

分享到: