You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

Unifi UDMP多WAN IP场景下路由/DNS异常连接问题排查求助

Unifi UDMP多WAN IP场景下路由/DNS异常连接问题排查求助

大家好,最近碰到个特别诡异的路由/DNS相关问题,折腾好久没找到根因,想请各位大佬帮忙分析下:

背景情况

我们用Unifi UDMP设备搭了「中心辐射型(hub and spoke)」拓扑,每个站点通过IPSEC隧道连到AWS EC2上的VyOS路由器,以此实现各站点和AWS内部基础设施的核心路由。

之前因为有本地部署的服务器,每个站点还额外建了一条到主办公室的IPSEC隧道(给旧VoIP服务器用),同时配有本地DNS服务器。现在所有基础设施都迁去AWS了,主办公室的那条隧道已经没用——我把大部分站点的这条隧道删掉后,一切正常,但唯独site3站点一删隧道就出问题。

故障现象

  1. 第一次删site3到主办公室的隧道后,刚开始10分钟左右一切正常,之后用户就反馈「没网」。我猜是他们还在用旧的本地DNS服务器,于是把site3的主DNS改成AWS的DNS,备用设成谷歌DNS,调整后恢复正常。
  2. 等我再次删掉这条隧道时,用户这次反馈的是AWS上的映射驱动器失联,同样是正常跑10分钟左右就失效。
  3. 离谱的是,只要site3到主办公室的隧道处于连接状态,该站点到AWS的所有连通性都完全正常;一旦断开,就会出现上述延迟失效的问题。

已做的排查操作

  • 从site3的客户端机器做traceroute到AWS EC2,路径是:客户端→本地WAN→VyOS IP→目标服务器IP,看起来没走主办公室的隧道绕路。
  • 查site3客户端的路由表:没有AWS网段(172.30.0.0/16)的条目,流量默认发往0.0.0.0也就是UDMP网关,这符合预期。
  • 查site3的UDMP路由表:明确有一条172.30.0.0/16的路由,下一跳指向VyOS路由器,配置没毛病。
  • 发现个异常细节:虽然所有设备都开了允许ICMP并响应ping,但UDMP和VyOS路由器之间互相ping不通,甚至也ping不通EC2实例;但site3的客户端却能正常ping通所有目标。
  • 检查EC2安全组规则:原来只允许了site3的WAN IP(108.x.69.250/32),后来我把规则改成了整个子网108.x.69.248/29(因为site3的UDMP配置了额外IP),不过这只是死马当活马医的尝试,不确定是不是根因。

当前核心疑问

site3的UDMP配置比较特殊:它用的是静态WAN IP,但同时还配置了「Router」和额外IP地址:

  • WAN IP: 108.x.69.250
  • 子网掩码: 255.255.255.248
  • Router: 108.x.69.249
  • 额外IP地址: 108.x.69.251/32、108.x.69.252/32、108.x.69.253/32、108.x.69.254/32、108.x.69.255/32

有没有大佬遇到过UDMP这种「静态WAN+额外IP/指定Router」的配置导致的路由异常?我得等到非工作时间才能再测试,现在先想听听各位的分析思路。

另外附上我画的拓扑示意图,方便大家理解:
网络拓扑示意图

备注:内容来源于stack exchange,提问作者boog

火山引擎 最新活动