Docker容器持续启停异常求助：按官方教程部署后故障排查

阿华AIGC实验室

2026-5-22

排查Docker Swarm容器频繁重启的方案

看起来你在按照Docker官方教程部署Swarm服务时遇到了容器反复重启的问题——第一次运行正常，之后就出现了频繁启停的情况。从你给出的docker stack ps getstartedlab输出来看，容器一直卡在Preparing状态，而且ERROR列没有显示完整信息，这是我们首先要解决的点。下面是一步步的排查步骤，帮你定位问题：

第一步：获取完整的服务启动日志
容器反复重启的核心原因几乎都会在日志里体现，执行这条命令跟踪web服务的实时日志：
```
docker service logs -f getstartedlab_web
```
加上-f参数可以实时刷新日志，你能看到容器启动过程中的具体报错——比如依赖缺失、配置文件错误、端口占用、应用代码bug等，这些都是最常见的启动失败原因。
第二步：查看单个容器的详细状态
从docker stack ps的输出里找到那个反复重启的容器ID（比如getstartedlab_web.1对应的容器ID），然后用inspect命令查看容器的完整配置和状态细节：
```
docker inspect <container-id>
```
重点关注State字段里的退出码（ExitCode）和错误信息，以及HostConfig里的端口、卷挂载配置。比如退出码127通常是启动命令找不到，退出码1一般是应用自身报错。
第三步：检查Swarm集群节点状态
如果是多节点Swarm集群，先确认所有节点都处于健康可用状态：
```
docker node ls
```
确保所有节点的STATUS都是Ready，如果有节点状态异常（比如Down或者Unavailable），会导致容器调度失败，进而反复重启。
第四步：验证镜像与服务配置变化
你提到首次运行正常，后续才出问题，大概率是镜像或服务配置被修改了：
- 检查当前服务使用的镜像是否和第一次一致：docker service inspect getstartedlab_web | grep Image
- 对比初始配置，看看是否有端口、卷挂载、环境变量的变更——比如不小心把端口改成了已被占用的，或者挂载的本地目录被删除/权限变更了。
第五步：检查宿主机资源占用
容器反复重启也可能是宿主机资源不足导致的，用以下命令检查CPU、内存和磁盘空间：
```
# 实时查看容器资源使用
docker stats
# 查看宿主机CPU/内存
top
# 查看磁盘空间
df -h
```
如果磁盘满了、内存耗尽，容器会被系统强制终止并重启。