Docker多阶段构建报错：stat提示NVIDIA文件不存在但实际存在

阿华AIGC实验室

2026-4-29

问题分析与解决方案

你遇到的这个问题其实踩了NVIDIA容器镜像的一个常见坑：那些libnvidia-*开头的库文件根本不存在于nvidia/cuda:10.0-devel-ubuntu18.04镜像本身里——它们是在容器运行时，通过Docker的NVIDIA runtime自动从宿主机绑定挂载进来的驱动相关文件。

你用docker run --gpus all启动容器时能看到这些文件，是因为NVIDIA runtime帮你把宿主机的驱动库挂载到了容器目录里，但这些文件并不是镜像层的一部分，所以在多阶段构建的镜像上下文（也就是构建阶段）里，Docker根本找不到它们，自然会抛出“文件不存在”的错误。

下面给你几个可行的解决方案：

方案1：移除不必要的驱动库复制步骤（最推荐）

你完全不需要手动复制这些libnvidia-*库文件。当你用--gpus all参数运行最终构建好的镜像时，Docker会自动把宿主机对应的NVIDIA驱动库挂载到容器内，既能保证驱动兼容性，又避免了手动复制的麻烦。

修正后的Dockerfile只需要保留CUDA Toolkit的复制和必要的环境配置：

FROM nvidia/cuda:10.0-devel-ubuntu18.04 AS cuda10
FROM osrf/ros:foxy-desktop

# 复制CUDA Toolkit到ROS镜像中
COPY --from=cuda10 /usr/local/cuda-10.0 /usr/local/cuda-10.0
# 创建cuda软链接，方便后续调用
RUN cd /usr/local && ln -s cuda-10.0 cuda

# 设置CUDA环境变量（建议添加，避免后续运行CUDA程序时找不到库）
ENV PATH=/usr/local/cuda/bin:$PATH
ENV LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

方案2：解决跨系统版本的隐藏兼容性问题

这里还要提醒你一个容易忽略的坑：nvidia/cuda:10.0-devel-ubuntu18.04基于Ubuntu 18.04，而osrf/ros:foxy-desktop基于Ubuntu 20.04。跨Ubuntu版本复制CUDA Toolkit可能会遇到依赖库版本不兼容的问题（比如glibc版本差异），导致后续运行CUDA程序时出错。

如果要彻底避免这个问题，建议选择基础系统版本一致的镜像组合：

要么改用支持Ubuntu 18.04的ROS版本（比如ROS Noetic），和CUDA 10.0的基础系统匹配；
要么找基于Ubuntu 20.04的CUDA镜像（比如nvidia/cuda:11.0-devel-ubuntu20.04），和ROS Foxy的基础系统匹配。

方案3：特殊需求下打包驱动库（不推荐）

如果你因为某些特殊需求，必须把驱动库打包进镜像里，不要从CUDA镜像复制，而是直接从宿主机复制（前提是宿主机的驱动版本和你要打包的版本完全一致）：

FROM nvidia/cuda:10.0-devel-ubuntu18.04 AS cuda10
FROM osrf/ros:foxy-desktop

# 从宿主机复制驱动库（注意路径要和你宿主机的实际路径一致）
COPY /usr/lib/x86_64-linux-gnu/libnvidia-ptxjitcompiler.so.460.32.03 /usr/lib/x86_64-linux-gnu/
COPY /usr/lib/x86_64-linux-gnu/libnvidia-fatbinaryloader.so.410.129 /usr/lib/x86_64-linux-gnu/
# 其他需要的库同理逐一复制...

# 复制CUDA Toolkit并设置软链接
COPY --from=cuda10 /usr/local/cuda-10.0 /usr/local/cuda-10.0
RUN cd /usr/local && ln -s cuda-10.0 cuda

不过这种方式非常不推荐，因为驱动库版本必须和宿主机完全匹配，否则容器运行时会出现驱动兼容性错误，镜像的灵活性会大打折扣。

内容的提问来源于stack exchange，提问作者wl2776