TCP RST网络抓包下应用随机连接失败的原因分析验证请求

阿华AIGC实验室

2026-4-21

老兄，先给你点个赞——你这套抓包分析的逻辑已经相当扎实了，我帮你把结论再捋一遍，确认你的判断完全站得住脚：

核心结论验证

网络层完全正常：代理（IP35）能正常回复TCP ACK，说明从客户端到代理的链路、防火墙、路由都没有问题。ACK是TCP协议栈层面的响应，只要代理的TCP服务还在监听，就会自动返回ACK，这直接排除了FW/网络规则的锅，和你之前的判断一致。
问题出在代理应用层：代理只返回了TCP ACK，却没有任何应用层的响应（比如TLS握手的Server Hello，或者HTTP的响应报文），这说明请求已经到了代理的TCP栈，但没有被上层的代理应用处理——要么是应用卡死了，要么是资源耗尽没法处理新请求，甚至可能是进程僵死了。
客户端RST是超时触发的正常行为：你提到的“前4行重复多次后发RST”完全符合TCP的超时重传逻辑——客户端在多次发送请求却收不到应用层响应后，TCP栈判定这条连接已经失效，所以主动发送RST断开连接，这进一步坐实了是上游服务无响应导致的问题。

关于负载均衡器的猜测

你怀疑LB把流量导到了故障代理节点的可能性非常高：
如果后端某个代理节点的应用进程出问题了（比如内存泄漏导致进程僵死、连接池耗尽没法处理新请求），但LB的健康检查只做了TCP端口连通性检查（而不是应用层的健康验证，比如发个GET /health看响应），那么LB会误以为这个节点还正常，继续把流量发过去。这种情况下，节点的TCP栈还能正常发ACK，但应用层完全不处理请求，就会出现你抓包里的“黑洞”现象。