帮助文档--GPU云服务器-火山引擎

文档中心

简体

文档备案控制台

GPU云服务器

GPU云服务器

GPU云服务器

文档指南

请输入

GPU云服务器

产品动态

新功能发布记录

镜像发布记录

图说GPU云服务器

初见GPU云服务器

产品简介

什么是GPU云服务器

快速入门

NVIDIA驱动安装指引

购买异构计算型实例

购买高性能计算异构型实例

用户指南

实例规格清单

实例规格介绍

GPU实例命名与选型推荐

高性能计算GPU型

即将停售的实例规格

实例操作指引

安装NVIDIA驱动

安装NVIDIA Tesla驱动

创建实例时自动安装Tesla驱动

创建实例后快速安装Tesla驱动

手动安装GPU驱动

安装CUDA工具包

安装NVIDIA-Fabric Manager软件包

安装NVIDIA GRID驱动

创建实例时自动加载GRID驱动

手动安装GRID驱动

卸载NVIDIA驱动

卸载NVIDIA Tesla驱动

卸载NVIDIA-Fabric Manager软件包

卸载NVIDIA GRID驱动

管理高性能计算集群

高性能计算集群概述

创建高性能计算集群

扩容高性能计算集群

删除高性能计算集群

管理集群事件

集群诊断

集群诊断概述

创建诊断任务

查看历史诊断报告

诊断项汇总

监控

云监控

RDMA网络监控（hpcpni2）

安装veCCL

安装veCCL通信库（Analyzer 专用）

GPU公共镜像和驱动维护周期

最佳实践

推理加速

GPU-小EP部署DeepSeek-R1/V3模型

GPU-大EP部署DeepSeek-R1/V3.1模型

GPU-基于xLLM部署DeepSeek-R1/V3模型

HPC-单机部署DeepSeek-R1的W4A8方案

AIGC实践

HPC-弹性预约实例（时段型）适配veRL

HPC-VeRL Code Sandbox最佳实践

GPU-部署DeepSeek-V4-Pro模型

GPU-部署DeepSeek-V4-Flash模型

GPU-部署DeepSeek-R1/V3模型

GPU-部署DeepSeek-V3.2模型

GPU-部署Qwen3.5模型

GPU-部署Qwen3模型

GPU-部署GLM-5.1模型

GPU-部署GLM-5模型

GPU-部署Kimi-K2.6模型

GPU-部署Kimi K2.5模型

GPU-部署MiniMax-M2.7模型

GPU-部署MiniMax-M2.5模型

搭建应用

GPU-部署NGC环境

GPU-部署Pytorch应用

GPU-搭建AIGC能力（Linux）

GPU-搭建AIGC能力（Windows）

GPU-搭建Isaac Sim 5.1仿真环境

HPC-搭建Slurm计算集群

性能测试/调优

HPC-单机/多机NCCL测试（Easy_NCCL）

HPC-多机NCCL测试优化方案之实例亲和性排序

通过单机/多机GPT训练判断GPU性能（Easy_GPT）

使用NCCL Tuner Plugin优化NCCL通信性能

使用NCCL Softbond Plugin保障单网卡故障下训练流量恢复

自研高性能集合通信库veCCL

GPU性能计算器

HPC-配置单网卡多IP

HPC-制作RDMA容器镜像

在高性能计算GPU型实例中安装RDMA Agent

使用秒级监控功能

故障处理

使用A100显卡的训练进程异常中断，如何排查问题？

如何重置GPU?

Ubuntu 24.04+Nvidia drive 570+doca 2.9.1环境下DeepEP报错原因分析与解决方案

NVIDIA GPU常见XID错误处理方法

如何解决NCCL集合通信参数不匹配

如何解决集合通信传输中断

如何解决集合通信执行中断

如何解决集合通信未启动

如何解决集合通信进度不匹配

如何解决未知根因导致的通信挂起

如何解决计算慢节点

如何解决通信慢节点

如何解决计算负载不均

常见问题

GPU云服务器FAQ

NVIDIA驱动FAQ

GPU实例硬件相关FAQ

容器共享mGPU

产品简介

什么是容器共享mGPU

用户指南

通过Docker云上安装并使用mGPU服务

通过容器服务使用mGPU

配置mGPU算力分配策略

文档首页

GPU云服务器

复制全文

下载 pdf

GPU云服务器

复制全文

下载 pdf

文档反馈

问问助手

最近更新时间：

这个页面对您有帮助吗？

有用

有用

无用

无用