Unifi UDMP多WAN IP场景下路由/DNS异常连接问题排查求助
Unifi UDMP多WAN IP场景下路由/DNS异常连接问题排查求助
大家好,最近碰到个特别诡异的路由/DNS相关问题,折腾好久没找到根因,想请各位大佬帮忙分析下:
背景情况
我们用Unifi UDMP设备搭了「中心辐射型(hub and spoke)」拓扑,每个站点通过IPSEC隧道连到AWS EC2上的VyOS路由器,以此实现各站点和AWS内部基础设施的核心路由。
之前因为有本地部署的服务器,每个站点还额外建了一条到主办公室的IPSEC隧道(给旧VoIP服务器用),同时配有本地DNS服务器。现在所有基础设施都迁去AWS了,主办公室的那条隧道已经没用——我把大部分站点的这条隧道删掉后,一切正常,但唯独site3站点一删隧道就出问题。
故障现象
- 第一次删site3到主办公室的隧道后,刚开始10分钟左右一切正常,之后用户就反馈「没网」。我猜是他们还在用旧的本地DNS服务器,于是把site3的主DNS改成AWS的DNS,备用设成谷歌DNS,调整后恢复正常。
- 等我再次删掉这条隧道时,用户这次反馈的是AWS上的映射驱动器失联,同样是正常跑10分钟左右就失效。
- 离谱的是,只要site3到主办公室的隧道处于连接状态,该站点到AWS的所有连通性都完全正常;一旦断开,就会出现上述延迟失效的问题。
已做的排查操作
- 从site3的客户端机器做
traceroute到AWS EC2,路径是:客户端→本地WAN→VyOS IP→目标服务器IP,看起来没走主办公室的隧道绕路。 - 查site3客户端的路由表:没有AWS网段(172.30.0.0/16)的条目,流量默认发往0.0.0.0也就是UDMP网关,这符合预期。
- 查site3的UDMP路由表:明确有一条172.30.0.0/16的路由,下一跳指向VyOS路由器,配置没毛病。
- 发现个异常细节:虽然所有设备都开了允许ICMP并响应ping,但UDMP和VyOS路由器之间互相ping不通,甚至也ping不通EC2实例;但site3的客户端却能正常ping通所有目标。
- 检查EC2安全组规则:原来只允许了site3的WAN IP(108.x.69.250/32),后来我把规则改成了整个子网108.x.69.248/29(因为site3的UDMP配置了额外IP),不过这只是死马当活马医的尝试,不确定是不是根因。
当前核心疑问
site3的UDMP配置比较特殊:它用的是静态WAN IP,但同时还配置了「Router」和额外IP地址:
- WAN IP: 108.x.69.250
- 子网掩码: 255.255.255.248
- Router: 108.x.69.249
- 额外IP地址: 108.x.69.251/32、108.x.69.252/32、108.x.69.253/32、108.x.69.254/32、108.x.69.255/32
有没有大佬遇到过UDMP这种「静态WAN+额外IP/指定Router」的配置导致的路由异常?我得等到非工作时间才能再测试,现在先想听听各位的分析思路。
另外附上我画的拓扑示意图,方便大家理解:
网络拓扑示意图
备注:内容来源于stack exchange,提问作者boog




