帮助文档--容器服务-火山引擎

文档中心

文档备案控制台

登录立即注册

导航

容器服务

搜索目录或文档标题搜索目录或文档标题

容器服务 VKE

产品动态

新功能发布记录

历史功能发布记录

历史功能发布记录（2024 年）

历史功能发布记录（2023 年）

历史功能发布记录（2022 年）

Kubernetes 版本发布记录

容器服务发布 Kubernetes v1.30 版本说明

容器服务发布 Kubernetes v1.28 版本说明

容器服务发布 Kubernetes v1.26 版本说明

（停止维护）容器服务发布 Kubernetes v1.24 版本说明

（停止维护）容器服务发布 Kubernetes v1.20 版本说明

Kubernetes 版本支持策略

组件发布记录

网络组件

rdma-device-plugin

存储组件

snapshot-controller

监控组件

prometheus-agent

prometheus-adapter

finops-kube-collector

finops-kube-recommender

node-problem-detector

调度组件

cluster-autoscaler

vci-virtual-kubelet

DNS 组件

安全组件

application-inspector

镜像组件

cr-credential-controller

p2p-accelerator

image-accelerator

GPU 组件

nvidia-device-plugin

安全公告

ingress-nginx 漏洞修复公告（CVE-2025-1097、CVE-2025-1098、CVE-2025-1974、CVE-2025-24513、CVE-2025-24514）

CVE-2024-0135、CVE-2024-0136、CVE-2024-0137 安全公告

Kubernetes 安全漏洞公告（CVE-2024-10220）

NVIDIA Container Toolkit 安全漏洞公告（CVE-2024-0132）

Ingress-nginx 插件安全漏洞公告（CVE-2024-7646）

Kubernetes 安全漏洞公告（CVE-2024-21626）

Kubernetes 安全漏洞公告（CVE-2020-8554）

Ingress-nginx 插件安全漏洞公告（CVE-2021-25745）

Ingress-nginx 插件安全漏洞公告（CVE-2021-25746）

产品公告

【产品变更】容器服务支持亚太东南 (雅加达) 地域

【集群版本】Kubernetes 1.24 版本集群停止维护公告

【产品变更】容器服务正式开放亚太东南（柔佛）地域

【产品变更】容器服务上报至云监控事件中心的云产品事件部分格式与字段变更

【产品变更】容器服务停止新建「性能型 SSD」云盘类型的存储

【集群版本】Kubernetes 1.20 版本集群停止维护公告

【产品变更】SLA 修改公告

【产品变更】容器服务停止支持新建 g2i、c2i、r2i、ebmg2i 规格族云服务器

【产品变更】容器日志键值索引字段变更说明

【产品变更】旧版本 API 迁移通知

【产品变更】容器服务停止支持新建 g1、c1、r1、i1 规格族云服务器

【产品变更】跨服务授权权限策略收敛公告

【产品变更】容器服务新增支持和适配部分 ECS 实例规格

【产品变更】容器服务正式开放华东 2 (上海) 地域

【产品变更】容器服务正式开放华南 1 (广州)地域

【产品变更】容器服务正式商业化公告

【产品变更】容器服务全量适配新规格的云服务器

【产品变更】容器服务调整「性能型SSD」云盘类型的存储为白名单功能

产品简介

什么是容器服务

地域和可用区

高危操作及恢复方案

云服务依赖关系

原生 Kubernetes 名词对照

CIS Kubernetes 基准支持状态

快速入门

通过控制台使用容器服务

通过 kubectl 使用容器服务

通过应用模板快速部署应用

用户指南

集群

创建无 ECS 节点集群

集群基本信息

节点池

节点池概述

创建节点池

创建托管节点池

管理节点池

扩缩容节点池

弹性预约扩容

配置节点 kubelet 参数

节点检查自愈

抢占式实例节点池

节点

添加已有节点

节点预留资源策略

节点的 Pod 调度密度计算说明

系统标签和污点

授权管理

配置 IAM 用户权限

服务条件关键字与自定义策略

配置 RBAC 权限

RBAC 权限角色说明

IRSA 机制

集群中使用 IRSA 能力

VKE 服务关联角色说明

镜像

操作系统镜像概述

基于 Docker 制作自定义镜像

基于 ECS 制作自定义镜像

命名空间

命名空间概述

创建命名空间

设置资源配额

设置资源限制

管理命名空间

网络

集群网络

集群子网扩展

安全组设置

集群访问规则

API Server 访问控制

修改 API Server 子网

容器网络

为 Pod 绑定独立 EIP

为 Pod 配置固定 IP

基于 Trunk ENI 支持 Pod 独占弹性网卡

使用 NetworkPolicy 进行网络访问控制

服务（Service）

集群内访问（ClusterIP）

节点端口访问（NodePort）

负载均衡（LoadBalancer）

负载均衡服务概述

负载均衡服务使用注意事项

通过控制台创建负载均衡服务

通过 kubectl 创建负载均衡服务

使用 Annotation 配置负载均衡服务

复用已有负载均衡实现跨集群业务部署

路由（Ingress）

路由规则概述

ALB Ingress

通过控制台创建 ALB Ingress

通过 kubectl 创建 ALB Ingress

使用 Annotation 配置 ALB Ingress

使用 ALB Ingress 实现业务发布

ALB Ingress 配置 HTTPS 协议

使用 Secret 配置 ALB Ingress 证书

为 ALB Ingress 配置转发规则重写

为 ALB Ingress 配置多个后端服务器组

CLB Ingress

CLB Ingress 使用注意事项

通过控制台创建 CLB Ingress

通过 kubectl 创建 CLB Ingress

使用 Annotation 配置 CLB Ingress

CLB Ingress 配置 HTTPS 协议

Nginx Ingress

通过控制台创建 Nginx Ingress

通过 kubectl 创建 Nginx Ingress

Nginx ingress 常用注解

Nginx Ingress 配置 HTTPS 协议

Nginx Ingress 使用 HTTPS 对接后端服务

Nginx Ingress 配置重定向规则

Nginx Ingress 配置 URL 重写规则

Nginx Ingress 使用一致性哈希均衡负载

Nginx Ingress 配置流量复制

使用 Nginx Ingress 实现灰度发布和蓝绿发布

部署多套 Nginx Ingress Controller

APIG Ingress

通过控制台创建 APIG Ingress

通过 kubectl 创建 APIG Ingress

使用 Annotation 配置 APIG Ingress

使用 APIG Ingress 实现业务发布

使用 APIG Ingress 实现灰度发布和蓝绿发布

管理路由规则

域名解析（DNS）

使用 NodeLocal DNSCache 缓存代理

工作负载

工作负载概述

无状态负载

创建无状态负载

管理无状态负载

有状态负载

创建有状态负载

管理有状态负载

任务

定时任务

创建定时任务

管理定时任务

守护进程

创建守护进程

管理守护进程

容器组

创建容器组

管理容器组

查看容器组信息

对象浏览器

使用免密组件拉取私有镜像创建工作负载

使用 Init 容器初始化应用

存储管理

EBS 云盘存储卷

使用云盘静态存储卷

使用云盘动态存储卷

动态扩容云盘数据卷

静态扩容云盘数据卷

云盘快照

使用云盘快照

TOS 对象存储卷

使用对象存储静态存储卷

NAS 文件存储卷

使用 NAS 文件存储静态存储卷

使用 NAS 文件存储动态存储卷

vePFS 文件存储卷

使用 vePFS 文件存储静态存储卷

使用 vePFS 文件存储动态存储卷

通过协议服务 NFS 使用 vePFS

CloudFS 大数据文件存储卷

使用大数据文件存储静态存储卷

本地存储卷

使用 LVM 类型的本地存储动态存储卷

使用独占盘类型的本地存储动态存储卷

通过临时卷方式使用本地存储 LVM 卷

配置管理

创建配置项

管理配置项

在容器中使用配置项

创建保密字典

在容器中使用保密字典

管理保密字典

弹性伸缩

弹性伸缩概述

节点弹性伸缩

节点伸缩原理

创建节点弹性伸缩

工作负载弹性伸缩

工作负载伸缩概述

指标伸缩（HPA）

使用 CPU 和内存指标实现弹性伸缩

使用 GPU 和网络指标实现弹性伸缩

使用自定义指标实现弹性伸缩

基于自建 Prometheus 实现弹性伸缩

管理指标伸缩

定时伸缩（CronHPA）

创建定时伸缩

管理定时伸缩

智能伸缩（IHPA）

智能伸缩概述

创建智能伸缩

事件驱动伸缩（KEDA）

使用 APIG 网络指标实现弹性伸缩

组件管理

组件变更配置差异说明

组件占用节点 IP 说明

GPU

NVIDIA GPU 调度

容器共享 GPU 调度

mGPU 使用方法

配置 mGPU 算力分配策略

mGPU 多卡共享

使用 mGPU 在离线混部

GPU 调度标签说明

自动安装 GPU 驱动

自定义安装 GPU 驱动

优化 GPU 时钟频率配置

调度管理

任务调度

Capacity 调度

弹性资源优先级调度

负载感知调度

NUMA 拓扑感知调度

RDMA 拓扑感知调度

配置调度器自定义参数

使用 Pod CPU Burst 能力

可观测性

可观测性概述

日志管理

采集容器日志

使用环境变量采集容器日志

采集 ingress 组件日志

采集控制面组件日志

事件监控

事件监控概述

事件类型汇总

配置和查看持久化事件

基础观测

基础观测概述

自定义指标标签

容器服务观测

控制面服务观测

DNS 服务观测

Ingress 服务观测

CNI 网络观测

镜像加速观测

AI 资源观测

镜像仓库观测

CSI 存储观测

检查自愈观测

全栈观测

全栈观测概述

开启全栈观测

资源检索

无状态负载

有状态负载

AIOps 套件

AIOps 套件概述

集群巡检

配置集群巡检

巡检项说明和修复建议

故障诊断

节点池诊断

容器组诊断

成本套件

成本套件概述

开通成本套件

成本洞察

集群用量洞察

集群成本洞察

批量计算套件

批量计算套件概述

批量计算套件使用说明

开通批量计算套件

队列管理

套件运维

队列任务资源配额抢占策略说明

预加载镜像缓存

云原生 AI 套件

AI 套件概述

开通 AI 套件

AI 套件组件管理

AI 数据加速

AI 数据加速概述

CloudFS 目的端数据加速

VKE 目的端数据加速

通过 AI 交互式工作站进行镜像构建

安全管理

应用中心

创建 Helm 应用

稳定性

基础稳定性能力配置

工作负载稳定性优化

Kubernetes 集群稳定性优化

通过 Terraform 使用容器服务

管理通过 Terraform 创建的集群

使用 Terraform 创建无 ECS 节点的 VKE 集群

使用 Terraform 管理已有的集群

管理通过 Terraform 创建的节点池

使用 Terraform 管理默认节点池中的已有节点

使用 Terraform 管理自定义节点池中的已有节点

注册集群

注册集群概述

集群管理

通过代理方式注册现有集群

连接注册集群

注销注册集群

配置注册集群 RBAC 授权

工作负载

无状态负载

有状态负载

服务与路由

配置管理

弹性伸缩

自定义资源

对象浏览器

最佳实践

授权

IAM 授权最佳实践

基于 IAM 保护 VKE 控制台访问

集群

通过 VKE 搭建 IPv4/IPv6 双栈集群

通过 IPv6 访问 API Server

使用 KubeCm 管理多集群 KubeConfig

集群升级最佳实践

使用共享 VPC 创建集群

节点和节点池

ECS 选型最佳实践

增强容器资源可见性

自定义集群 kubelet 参数

AI 应用

基于 VKE 快速部署满血版 DeepSeek-V3/R1 模型

基于 VKE 快速部署 DeepSeek-R1-Distill 模型

AI 训练任务监控

使用 AI 容器镜像

网络

集群内应用对外暴露服务

集群内应用互访

CoreDNS 最佳实践

Nginx Ingress 最佳实践

通过 Ingress 获取真实客户端 IP 地址

自定义 Nginx Ingress Controller 观测最佳实践

配置节点池级别 Pod 安全组和子网

VKE 集群中使用 RDMA 资源

容器网络内核参数优化

数据面

正确使用容器网络

正确使用容器存储

正确使用运行时与操作系统

控制面

Kubernetes 开发者最佳实践

存储

存储选型最佳实践

存储多可用区部署推荐配置

云盘持久化存储最佳实践

NAS 持久化存储最佳实践

调度

将节点 Label/Annotation 注入到 Pod

可观测性

集群监控实践和常用大盘

监控集群中的 Golang 应用

监控集群中部署的应用实例

通过 PodMonitor 配置服务发现

通过 ServiceMonitor 配置服务发现

弹性伸缩

节点弹性伸缩（CA）最佳实践

容器水平伸缩（HPA）最佳实践

安全

安全下线节点

云原生容器安全解决方案

安全组配置最佳实践

集群网络安全最佳实践

迁移

火山引擎云原生迁移解决方案

镜像加速

P2P 镜像加速方案

容器镜像懒加载方案

解决方案

大规模并发业务系统云上架构解决方案

云原生场景基础资源使用成本优化方案

基于 Argo Workflows 和 Serverless Kubernetes 搭建精细化用云工作流

节点故障负载容灾迁移方案

API 参考

API 发布历史

使用前必读

调用方式

集群管理

UpdateClusterConfig

ListSupportedResourceTypes

CreateKubeconfig

ListKubeconfigs

DeleteKubeconfigs

节点池管理

CreateDefaultNodePool

UpdateNodePoolConfig

节点管理

虚拟节点

CreateVirtualNode

ListVirtualNodes

DeleteVirtualNode

组件管理

ListSupportedAddons

UpdateAddonConfig

UpdateAddonVersion

标签管理

ListTagsForResources

访问策略管理

GrantPermission

ListPermissions

RevokePermission

弹性容器实例

镜像缓存

CreateImageCache

UpdateImageCache

ListImageCaches

DeleteImageCache

UpdateImageCacheRetentionDays

全局配置管理

SetGlobalDefaultDeleteOption

GetGlobalDefaultDeleteOption

通用数据结构

请求数据结构

返回数据结构

附录

公共错误码

资源状态说明

SDK 参考

常见问题

通用 FAQ

使用容器服务运行应用的大致流程是怎样的？

容器服务目前使用的容器运行时是什么？

容器服务访问 RDS MySQL 数据库时如何设置白名单？

如何申请使用邀测功能？

使用命令行进行 Base64 编码的常见问题

集群 FAQ

集群管理

如何查看集群的 Kubernetes 版本？

无法删除创建失败的集群？

如何修改创建集群过程中 API Server 关联创建的 CLB 的规格？

创建集群过程中，自动创建的 CLB 有什么用途？

如何使用集群创建持续交付私有资源池？

集群网络

如何手动开启集群的公网访问？

容器服务集群目前支持哪种网络方式？

如何获取集群的公网 IP？

如何获取集群公网流量出口的 EIP 地址？

集群升级

升级集群前升级网络组件会出现流量中断吗？

升级集群控制面是否会导致业务流量中断？

升级集群时正常运行的业务 Pod 是否会重启？

升级集群大概需要多长时间？

数据面节点升级的方式是什么？

升级节点时节点上的 kubelet 自定义参数会被覆盖吗？

注册集群 FAQ

通过代理方式注册集群时，因缺少 Agent 导致集群失联，该怎么处理？

节点与节点池 FAQ

如何查看节点 Containerd 版本？

如何打包和使用自定义镜像？

GPU A100/A800 多卡机型 RDMA 网络连通异常如何处理？

通过云服务器（ECS）控制台修改节点对应的 ECS 实例配置后节点未同步变更？

什么是默认节点池？

如何查询节点的可分配资源？

节点无法自动缩容？

如何查看节点资源使用情况？

如何清理已有节点数据盘残留数据？

期望节点数量是如何变化的？

授权 FAQ

如何为 IAM 用户授权 Cluster 级别资源的权限？

IAM 用户无法访问 ALB ingress

操作集群资源，提示“AccessDenied,Code:403”错误如何解决？

为什么有集群管理员权限的子用户无法创建 YAML 资源？

工作负载 FAQ

创建工作负载后 Pod 实例状态一直显示“ContainerCreating”？

如何获取容器初始化日志？

部署工作负载失败，提示“0/16 nodes are available”错误如何解决？

Pod 异常排查

Pod 处于 Pending 状态，未被成功调度

Pod 处于 CrashLoopBackOff 状态

Pod 处于 ImagePullBackOff 状态

Pod 健康检查失败

服务与路由 FAQ

通过 Annotation 配置四层负载均衡时出现“lb is provisioning”事件

通过 Annotation 配置四层负载均衡时出现“loadbalancer for service not found”事件

删除 Service 时出现“InvalidServerGroupListener.InUse”事件

已关联工作负载的服务，解绑工作负载后，通过服务访问地址仍然能够访问到原工作负载？

如何批量创建服务？

创建 Ingress 时，Webhook 校验报错找不到 Service？

LoadBalancer 类型 Service 中的会话保持与 CLB 监听器的会话保持有什么区别？

无法访问 Ingress Controller 自身，该如何解决？

Ingress 无法访问 TCP、UDP 服务，该怎么办？

HTTPS 访问报错 “SSL_ERROR_RX_RECORD_TOO_LONG”，该怎么处理？

集群中添加或修改了 TLS 证书，但是访问时还是默认证书或旧证书

创建 Ingress 时报错 "failed calling webhook"，该如何处理？

已经添加了 Ingress，但并没有生效，该如何排查？

Ingress Pod 中无法保留源 IP

无法连接到通过 Ingress 暴露的 gRPC 服务

灰度规则不生效

灰度规则错误或影响到别的流量，该怎么处理？

无法连接到后端 HTTPS 服务

出现常见 HTTP 错误码

配置了 rewrite-target，资源访问时出现 404 报错

资源访问时报错“net::ERR_HTTP2_SERVER_REFUSED_STREAM”

业务通过 ingress-nginx 对外暴露，下载大文件超过 1 min 时会话超时断开

Ingress 配置跨域访问失效

HTTP 请求中 Header 丢失，该怎么处理？

Nginx Ingress 插件安装失败

配置修改后不生效或不完全生效

长链接断开，该怎么处理？

请求 Ingress 无响应，该如何处理？

大规模业务 ConfigMaps 导致 Ingress Nginx Controller 无法启动

存储 FAQ

集群同时存在多种规格的云服务器节点时，如何使用云盘存储卷？

Kubernetes 集群无法挂载已经存在数据的 PV/PVC 云盘，该如何处理？

PV 挂载对象存储桶的根目录后创建容器报错，该怎么处理？

如何修改 TOS 存储的挂载配置，允许其他用户读写 TOS 存储卷？

GPU FAQ

进程 SM 使用率和 mGPU 配置的算力比例不匹配？

GPU 实例硬件相关问题

弹性伸缩 FAQ

HPA 滚动发布时出现扩容多余 Pod 现象

可观测性 FAQ

无法查询 kube_namespace_label 指标

配额 FAQ

如何提升配额（Quota）？

组件 FAQ

如何处理组件调度失败？

如何处理组件安装失败，提示资源名称冲突？

组件长时间处于安装中/更新中/卸载中，该如何处理？

如何处理组件卸载失败？

如何确认使用了 node-local-dns 组件？

如何处理组件启动失败？

如何处理处于镜像拉取失败状态的组件？

系统必装组件处于异常状态，如何恢复？

容器镜像 FAQ

如何关闭公共镜像中的 GSP 配置？

故障排查

CentOS 6.X 镜像运行异常退出问题排查

技术服务 FAQ

弹性容器实例 VCI

最新动态

新功能发布记录

产品公告

【停售公告】弹性容器实例停止售卖 n1、n2i 规格族

【产品变更】VCI Pod 驱逐和防护策略对资源状态的影响说明

【产品变更】弹性容器实例日志采集能力解耦 Metadata Server 通知

【产品变更】弹性容器日志键值索引字段变更说明

【产品变更】弹性容器实例支持华南 1 (广州) 地域

【产品变更】弹性容器实例支持华东 2 (上海) 地域

【产品变更】弹性容器实例正式商业化公告

产品介绍

什么是弹性容器实例

实例规格族

VCI 实例规格介绍

地域和可用区

产品计费

计费方式

预留实例券

快速入门

VCI 入门指引

VCI 准备工作

通过控制台使用弹性容器实例

通过 kubectl 使用弹性容器

用户指南

对接 VCI

在 VPC-CNI 网络模型集群中使用 VCI

在 Flannel 网络模型集群中使用 VCI

通过配置 vci-profile 使用 VCI

Virtual Kubelet 和虚拟节点

创建虚拟节点

创建实例

通用型实例

指定容器 vCPU 和内存创建通用型实例

指定 VCI 规格创建通用型实例

GPU 计算型实例

指定容器 GPU 资源创建 GPU 计算型实例

指定 VCI 规格创建 GPU 计算型实例

忽略特定容器资源需求创建实例

创建实例并配置远端代理仓

网络

指定子网创建实例

指定安全组创建实例

配置 IPv4/IPv6 双栈网络

存储

容器 rootfs 持久化

日志

通过日志服务采集 VCI 容器日志

通过 Sidecar 方式采集 VCI 容器日志

监控

使用托管 Prometheus 监控 VCI

使用自建 Prometheus 监控 VCI

通过虚拟节点获取 VCI 监控指标

VCI GPU 监控指标

配置 VCI 磁盘使用率监控与告警

事件

VCI 事件监控概述

VCI 事件类型汇总

运维

容器 coredump 持久化

VCI Pod 驱逐及防护

调度

VCI 实例库存感知调度

容器配置

配置安全上下文

设置容器启动和退出顺序

VCI Pod 原地重启

实例元数据

实例元数据概述

实例元数据项

查看实例元数据

VCI 镜像缓存

使用自动镜像缓存创建 VCI 实例

使用手动镜像缓存创建 VCI 实例

使用 CRD 管理 VCI 镜像缓存

Pod Annotation 说明

VCI 支持的 kubectl 命令列表

最佳实践

使用 VCI 运行 Spark 数据处理任务

自建/跨云 Kubernetes 集群弹性使用 VCI 方案

在容器中合理定义 Java 8 堆栈内存

常见问题

集群存在多个可用区子网情况下如何处理 VCI Pod 的调度？

如何让创建的 VCI Pod 调度到指定可用区？

出现 FailedCreateSystemDisk 事件时如何处理？

使用带分区的数据盘时 Pod 无法正常运行

创建 Pod 时出现 ProviderFailed 如何处理？

创建 Pod 报错 exec user process caused: exec format error 如何处理？

使用镜像缓存后，如何避免拉取镜像？

VCI Pod 一直处于 Pending 状态且未出现拉取镜像相关事件如何处理？

相关协议

容器服务产品/服务专用条款

容器服务托管版产品服务等级协议

弹性容器实例服务等级协议

文档首页

/

容器服务

最近更新时间：首次发布时间：

有用

有用

无用

无用

文档反馈