跨VLAN挂载NFS共享失败的问题排查求助
跨VLAN挂载NFS共享失败的问题排查求助
大家好,我最近在尝试跨VLAN挂载一台确认正常的NFS服务器共享,折腾了好几天还是没搞定,想请各位大佬帮忙分析下问题所在。
先说说我的环境:
- NFS服务器在VLAN105,IP是
10.137.105.3 - 客户端在VLAN202,IP是
10.137.202.122 - 网络是通过二层交换机划分的多个VLAN
目前我做了这些连通性测试:
- 客户端能ping通服务器,也能ssh到服务器,telnet服务器的2049端口也能通
- 但用traceroute测2049端口时,最后一跳返回了
!X标记,具体输出如下:
[root@wsr8js ~]# traceroute -p 2049 10.137.105.3 traceroute to 10.137.105.3 (10.137.105.3), 30 hops max, 60 byte packets 1 _gateway (10.137.202.1) 0.164 ms 51.500 ms 51.502 ms 2 nfs01-r8.v13.forge (10.137.105.3) 0.739 ms !X 0.724 ms !X 0.745 ms !X
NFS服务器的共享配置我也确认过,exportfs输出显示共享是开放给整个10.137.0.0/16网段的:
[root@nfs01-r8 ~]# exportfs /viz-share 10.137.0.0/16
但客户端执行挂载命令时,会卡住2-3分钟然后报连接超时:
[root@wsr8js ~]# mount -vvvv -t nfs 10.137.105.3:/viz-share /data/viz-share/ mount.nfs: timeout set for Thu Dec 28 08:47:16 2023 mount.nfs: trying text-based options 'vers=4.2,addr=10.137.105.3,clientaddr=10.137.202.122' mount.nfs: mount(2): Connection timed out mount.nfs: Connection timed out
我还测试了RPC服务:
- 客户端执行
rpcinfo -p 10.137.105.3会一直卡住,最后报超时:
[root@wsr8js ~]# rpcinfo -p 10.137.105.3 10.137.105.3: RPC: Remote system error - Connection timed out
- 服务器本地执行
rpcinfo -p localhost则显示所有RPC服务都正常运行:
[root@nfs01-r8 ~]# rpcinfo -p localhost program vers proto port service 100000 4 tcp 111 portmapper 100000 3 tcp 111 portmapper 100000 2 tcp 111 portmapper 100000 4 udp 111 portmapper 100000 3 udp 111 portmapper 100000 2 udp 111 portmapper 100024 1 udp 54095 status 100024 1 tcp 33537 status 100005 1 udp 20048 mountd 100005 1 tcp 20048 mountd 100005 2 udp 20048 mountd 100005 2 tcp 20048 mountd 100005 3 udp 20048 mountd 100005 3 tcp 20048 mountd 100003 3 tcp 2049 nfs 100003 4 tcp 2049 nfs 100227 3 tcp 2049 nfs_acl 100021 1 udp 52601 nlockmgr 100021 3 udp 52601 nlockmgr 100021 4 udp 52601 nlockmgr 100021 1 tcp 43875 nlockmgr 100021 3 tcp 43875 nlockmgr 100021 4 tcp 43875 nlockmgr
另外,我已经把服务器和客户端的防火墙都关闭了,问题还是没解决。
用tcpdump抓包的结果也很奇怪:
- 服务器上完全看不到客户端发过来的RPC流量
- 客户端这边能看到发往服务器111端口的SYN包一直在重传,比如:
917 12.904205299 10.137.202.122 10.137.105.3 TCP 74 981 → 111 [SYN] Seq=0 Win=26880 Len=0 MSS=8960 SACK_PERM=1 TSval=2986187948 TSecr=0 WS=128 928 13.948479395 10.137.202.122 10.137.105.3 TCP 74 [TCP Retransmission] 981 → 111 [SYN] Seq=0 Win=26880 Len=0 MSS=8960 SACK_PERM=1 TSval=2986188993 TSecr=0 WS=128
之后就是每隔4秒、8秒这样重复重传。
我感觉问题肯定出在网络上,但我不是网络工程师,实在不知道该从哪里下手排查了,希望各位能给点思路!
备注:内容来源于stack exchange,提问作者Jack Swope




