帮助文档--GPU云服务器-火山引擎

文档中心

文档备案控制台

登录立即注册

导航

GPU云服务器

搜索目录或文档标题搜索目录或文档标题

GPU云服务器

产品动态

新功能发布记录

镜像发布记录

图说GPU云服务器

初见GPU云服务器

产品简介

什么是GPU云服务器

快速入门

NVIDIA驱动安装指引

购买异构计算型实例

购买高性能计算异构型实例

用户指南

实例规格清单

实例规格介绍

GPU实例命名与选型推荐

高性能计算GPU型

即将停售的实例规格

实例操作指引

安装NVIDIA驱动

安装NVIDIA Tesla驱动

创建实例时自动安装Tesla驱动

创建实例后快速安装Tesla驱动

手动安装GPU驱动

安装CUDA工具包

安装NVIDIA-Fabric Manager软件包

安装Nvidia GRID驱动

创建实例时自动加载GRID驱动

手动安装GRID驱动

卸载NVIDIA驱动

卸载NVIDIA Tesla驱动

卸载NVIDIA-Fabric Manager软件包

卸载NVIDIA GRID驱动

管理高性能计算集群

高性能计算集群概述

创建高性能计算集群

扩容高性能计算集群

删除高性能计算集群

管理集群事件

集群诊断

集群诊断概述

创建诊断任务

查看历史诊断报告

诊断项汇总

监控

云监控

RDMA网络监控（hpcpni2）

最佳实践

推理加速

GPU-小EP部署DeepSeek-R1/V3模型

GPU-大EP部署DeepSeek-R1模型

GPU-基于xLLM部署DeepSeek-R1/V3模型

AIGC实践

HPC-单机部署DeepSeek-R1的W4A8方案

HPC-弹性预约实例（时段型）适配veRL

HPC-VeRL Code Sandbox最佳实践

GPU-基于Terraform一键部署DeepSeek模型

GPU-部署DeepSeek-R1/V3模型

GPU-部署DeepSeek-V3.2-Exp模型

GPU-部署DeepSeek-R1-Distill模型

GPU-部署DeepSeek-OCR模型

GPU-部署Qwen3模型

GPU-部署Baichuan大语言模型

GPU-部署ChatGLM-6B模型

GPU-部署Kimi-K2模型

GPU-部署GPT-OSS-120B模型

GPU-部署Seed-OSS模型

GPU-部署基于DeepSpeed-Chat的行业大模型

GPU-基于Diffusers和Gradio搭建SDXL推理应用

GPU-使用Llama.cpp量化Llama2模型

HPC-基于LLaMA的RDMA配置指南

关于Lambada模型评估的实践指导

搭建应用

GPU-部署NGC环境

GPU-部署Pytorch应用

GPU-搭建AIGC能力（Linux）

GPU-搭建AIGC能力（Windows）

HPC-搭建Slurm计算集群

性能测试/调优

HPC-单机/多机NCCL测试（Easy_NCCL）

HPC-多机NCCL测试优化方案之实例亲和性排序

通过单机/多机GPT训练判断GPU性能（Easy_GPT）

使用NCCL Tuner Plugin优化NCCL通信性能

使用NCCL Softbond Plugin保障单网卡故障下训练流量恢复

自研高性能集合通信库veCCL

GPU性能计算器

HPC-配置单网卡多IP

HPC-制作RDMA容器镜像

在高性能计算GPU型实例中安装RDMA Agent

使用秒级监控功能

故障处理

使用A100显卡的训练进程异常中断，如何排查问题？

如何重置GPU?

Ubuntu 24.04+Nvidia drive 570+doca 2.9.1环境下DeepEP报错原因分析与解决方案

NVIDIA GPU常见XID错误处理方法

常见问题

GPU云服务器FAQ

NVIDIA驱动FAQ

GPU实例硬件相关FAQ

容器共享mGPU

产品简介

什么是容器共享mGPU

用户指南

通过Docker云上安装并使用mGPU服务

通过容器服务使用mGPU

配置mGPU算力分配策略

文档首页

/

GPU云服务器

最近更新时间：首次发布时间：

复制全文

有用

有用

无用

无用

文档反馈

问问助手