帮助文档--容器服务-火山引擎

文档中心

简体

文档备案控制台

容器服务

容器服务

容器服务

文档指南

请输入

容器服务 VKE

产品动态

新功能发布记录

历史功能发布记录

历史功能发布记录（2024 年）

历史功能发布记录（2023 年）

历史功能发布记录（2022 年）

Kubernetes 版本发布记录

容器服务发布 Kubernetes v1.34 版本说明

容器服务发布 Kubernetes v1.32 版本说明

容器服务发布 Kubernetes v1.30 版本说明

（即将停止维护）容器服务发布 Kubernetes v1.28 版本说明

（停止维护）容器服务发布 Kubernetes v1.26 版本说明

（停止维护）容器服务发布 Kubernetes v1.24 版本说明

（停止维护）容器服务发布 Kubernetes v1.20 版本说明

Kubernetes 版本支持策略

运行时发布记录

containerd 运行时发布记录

containerd 2.1.x 介绍

组件发布记录

网络组件

vpc-cni-controlplane

rdma-device-plugin

存储组件

snapshot-controller

监控组件

event-collector

prometheus-agent

prometheus-adapter

node-problem-detector

apmplus-server-agent

apmplus-opentelemetry-collector

调度组件

cluster-autoscaler

vci-virtual-kubelet

DNS 组件

安全组件

application-inspector

pod-identity-webhook

镜像组件

cr-credential-controller

p2p-accelerator

image-accelerator

GPU 组件

nvidia-device-plugin

安全公告

ingress-nginx 漏洞修复公告（CVE-2026-1580）

ingress-nginx 漏洞修复公告（CVE-2025-1097、CVE-2025-1098、CVE-2025-1974、CVE-2025-24513、CVE-2025-24514）

CVE-2024-0135、CVE-2024-0136、CVE-2024-0137 安全公告

Kubernetes 安全漏洞公告（CVE-2024-10220）

NVIDIA Container Toolkit 安全漏洞公告（CVE-2024-0132）

Ingress-nginx 插件安全漏洞公告（CVE-2024-7646）

Kubernetes 安全漏洞公告（CVE-2024-21626）

Kubernetes 安全漏洞公告（CVE-2020-8554）

Ingress-nginx 插件安全漏洞公告（CVE-2021-25745）

Ingress-nginx 插件安全漏洞公告（CVE-2021-25746）

产品公告

【产品公告】VKE 托管集群访问控制面（API Server）的链路切换公告

【集群版本】Kubernetes 1.28 版本集群停止维护公告

【产品变更】csi-tos 组件停止维护公告

【产品变更】产品/服务条款和 SLA 修改公告

【产品公告】nvidia-device-plugin 组件默认关闭 XID 异常隔离功能

【集群版本】Kubernetes 1.26 版本集群停止维护公告

【产品公告】NGINX Ingress 停止维护公告

【产品公告】VKE 集群补丁版本升级

【产品变更】FinOps 成本管理功能下线公告

【产品变更】云监控采集组件下线公告

【产品变更】容器服务配置名称更名公告

【产品变更】GPU Driver 470 系列节点镜像停止维护公告

【产品变更】容器服务支持亚太东南 (雅加达) 地域

【集群版本】Kubernetes 1.24 版本集群停止维护公告

【产品变更】容器服务正式开放亚太东南（柔佛）地域

【产品变更】容器服务上报至云监控事件中心的云产品事件部分格式与字段变更

【产品变更】容器服务停止新建「性能型 SSD」云盘类型的存储

【集群版本】Kubernetes 1.20 版本集群停止维护公告

【产品变更】SLA 修改公告

【产品变更】容器服务停止支持新建 g2i、c2i、r2i、ebmg2i 规格族云服务器

【产品变更】容器日志键值索引字段变更说明

【产品变更】旧版本 API 迁移通知

【产品变更】容器服务停止支持新建 g1、c1、r1、i1 规格族云服务器

【产品变更】跨服务授权权限策略收敛公告

【产品变更】容器服务新增支持和适配部分 ECS 实例规格

【产品变更】容器服务正式开放华东 2 (上海) 地域

【产品变更】容器服务正式开放华南 1 (广州)地域

【产品变更】容器服务正式商业化公告

【产品变更】容器服务全量适配新规格的云服务器

【产品变更】容器服务调整「性能型SSD」云盘类型的存储为白名单功能

产品简介

什么是容器服务

高危操作及恢复方案

云服务依赖关系

地域和可用区

CIS Kubernetes 基准支持状态

原生 Kubernetes 名词对照

用户指南

集群

创建集群

创建方式概述

创建托管集群

注册现有集群

使用集群模板创建无 ECS 节点集群

创建异构计算托管集群

创建 IPv4/IPv6 双栈集群

查看集群信息

连接集群

使用 kubectl 连接集群

访问凭证管理

集群运维

升级集群

集群升级操作

集群升级检查项

注销注册集群

节点池

节点池概述

创建节点池

创建托管节点池

创建普通节点池

创建抢占式实例节点池

管理节点池

扩缩容节点池

手动扩缩容节点池

弹性预约扩容（通用型）

弹性预约扩容（时段型）

配置节点池 Kubelet 参数

配置节点池 Containerd 参数

快速入门

通过控制台使用容器服务

通过 kubectl 使用容器服务

通过应用模板快速部署应用

节点

添加已有节点

管理节点

管理托管集群节点

管理注册集群节点

节点运维

节点预留资源策略

节点的 Pod 调度密度计算说明

系统标签和污点

授权

IAM 权限

配置 IAM 权限

服务条件关键字与自定义策略

RBAC 权限

配置 RBAC 权限

RBAC 权限角色说明

IRSA 机制

集群中使用 IRSA 能力

VKE 服务关联角色说明

镜像

操作系统镜像概述

基于 Docker 制作自定义镜像

基于 ECS 制作自定义镜像

命名空间

命名空间概述

创建命名空间

设置资源配额

设置资源限制

管理命名空间

网络

集群网络

集群子网扩展

安全组设置

集群访问规则

API Server 访问控制

API Server 子网管理

通过 IPv6 访问 API Server

容器网络

为 Pod 绑定独立 EIP

基于 Trunk ENI 支持 Pod 独占弹性网卡

为 Pod 配置固定 IP

为 Pod 配置 QoS 限速

为 Pod 配置 IPv6 公网带宽

使用 NetworkPolicy 实现网络访问控制

服务（Service）

集群内访问（ClusterIP）

节点端口访问（NodePort）

负载均衡（LoadBalancer）

负载均衡服务概述

负载均衡服务使用注意事项

通过控制台创建 CLB 负载均衡服务

通过 kubectl 创建 CLB 负载均衡服务

使用 Annotation 配置 CLB 负载均衡服务

配置 CLB 负载均衡服务 IP 模式

使用 Annotation 配置 NLB 负载均衡服务

复用已有负载均衡实例实现跨集群业务部署

路由（Ingress）

路由规则概述

APIG Ingress

通过控制台创建 APIG Ingress

通过 kubectl 创建 APIG Ingress

使用 Annotation 配置 APIG Ingress

APIG Ingress 配置 HTTPS 协议

使用 APIG Ingress 实现灰度发布和蓝绿发布

使用 APIG Ingress 实现业务发布

ALB Ingress

ALB 实例类型概述

ALB Ingress 使用注意事项

通过控制台创建 ALB Ingress

通过 kubectl 创建 ALB Ingress

使用 Annotation 配置 ALB Ingress

自定义转发规则配置示例

配置基于 Header 的流量转发

配置基于请求方法的流量转发

配置基于查询字符串的流量转发

配置转发流量重写

配置转发流量重定向

配置转发流量限速

配置返回固定响应

配置转发流量跨域

配置转发至多个后端服务

ALB Ingress 配置 HTTPS 协议

为 ALB Ingress 配置 HTTPS 双向认证

使用 ALB Ingress 实现业务发布

CLB Ingress

CLB Ingress 使用注意事项

通过控制台创建 CLB Ingress

通过 kubectl 创建 CLB Ingress

使用 Annotation 配置 CLB Ingress

CLB Ingress 配置 HTTPS 协议

Nginx Ingress

通过控制台创建 Nginx Ingress

通过 kubectl 创建 Nginx Ingress

使用 Annotation 配置 Nginx Ingress

Nginx Ingress 配置 HTTPS 协议

Nginx Ingress 使用 HTTPS 对接后端服务

Nginx Ingress 配置重定向规则

Nginx Ingress 配置 URL 重写规则

Nginx Ingress 使用一致性哈希均衡负载

Nginx Ingress 配置流量复制

使用 Nginx Ingress 实现灰度发布和蓝绿发布

部署多套 Nginx Ingress Controller

管理路由规则

迁移路由规则

Nginx Ingress 迁移到 APIG Ingress

Nginx Ingress 迁移到 ALB Ingress

域名解析（DNS）

使用 NodeLocal DNSCache 缓存代理

工作负载

工作负载概述

创建工作负载

创建无状态负载

创建有状态负载

创建定时任务

创建守护进程

工作负载配置

使用免密组件拉取私有镜像创建工作负载

管理工作负载

容器组

创建容器组

管理容器组

查看容器组信息

使用 Init 容器初始化应用

对象浏览器

配置管理

创建配置项

管理配置项

在容器中使用配置项

创建保密字典

在容器中使用保密字典

管理保密字典

存储

存储基础知识

FSX 客户端

FSX 客户端介绍

FSX 鉴权方式

使用 IRSA 实现存储挂载鉴权

数据管理中心（DMC）

通过 FSX 客户端使用 DMC 静态存储卷

云盘存储（EBS）

使用云盘静态存储卷

使用云盘动态存储卷

动态扩容云盘数据卷

静态扩容云盘数据卷

配置格式化参数

云盘快照

使用云盘快照

对象存储（TOS）

对象存储 CSI 能力升级说明

FSX 访问方式

FSX 客户端升级

通过 FSX 客户端使用 TOS 静态存储卷

加密 TOS 存储卷

S3FS 访问方式

使用 TOS 静态存储卷

文件存储（NAS）

FSX 访问方式

通过 FSX 客户端使用 NAS 静态存储卷

NFS 访问方式

通过 NFS 使用 NAS 静态存储卷

通过 NFS 使用 NAS 动态存储卷

弹性文件存储（EFS）

FSX 访问方式

FSX 客户端升级

通过 FSX 客户端使用 EFS 静态存储卷

NFS 访问方式

通过 NFS 使用 EFS 静态存储卷

通过 NFS 使用 EFS 动态存储卷

文件存储（vePFS）

FSX 访问方式

FSX 客户端升级

通过 FSX 客户端使用 vePFS 静态存储卷

vePFS Client 访问方式

使用 vePFS 静态存储卷

使用 vePFS 动态存储卷

NFS 访问方式

通过 NFS 使用 vePFS 存储卷

大数据文件存储（CloudFS）

使用 CloudFS 静态存储卷

本地存储卷

使用 LVM 类型的本地存储动态存储卷

使用独占盘类型的本地存储动态存储卷

通过临时卷方式使用本地存储 LVM 卷

存储卷挂载参数

弹性伸缩

弹性伸缩概述

节点弹性伸缩

节点弹性伸缩概述

配置节点自动伸缩（Cluster AutoScaler）

配置节点即时弹性（Karpenter）

工作负载弹性伸缩

工作负载伸缩概述

指标伸缩（HPA）

使用 CPU 和内存指标实现弹性伸缩

使用 GPU 和网络指标实现弹性伸缩

使用自定义指标实现弹性伸缩

基于自建 Prometheus 实现弹性伸缩

管理指标伸缩

定时伸缩（CronHPA）

创建定时伸缩

管理定时伸缩

智能伸缩（IHPA）

智能伸缩概述

创建智能伸缩

事件驱动伸缩（KEDA）

使用 APIG 网络指标实现弹性伸缩

组件管理

网络组件

vpc-cni-controlplane

alb-ingress-controller

apig-controller

rdma-device-plugin

存储组件

fsxset-controller

snapshot-controller

监控组件

prometheus-agent

prometheus-adapter

event-collector

apmplus-opentelemetry-collector

apmplus-server-agent

node-problem-detector

调度组件

scheduler-plugin

vci-virtual-kubelet

cluster-autoscaler

其他组件

application-inspector

image-accelerator

p2p-accelerator

cr-credential-controller

nvidia-device-plugin

pod-identity-webhook

cloud-controller-manager

组件变更配置差异说明

组件占用节点 IP 说明

异构计算

GPU 调度概述

NVIDIA GPU

配置 NVIDIA GPU 调度

使用 DRA 实现 NVIDIA GPU 调度

自动安装 GPU 驱动

自定义安装 GPU 驱动

优化 GPU 时钟频率配置

容器共享 mGPU

配置 mGPU 调度

通过 mGPU 实现算力分配策略

通过 mGPU 实现多卡共享

通过 mGPU 实现在离线混部

高性能计算 RDMA

在集群中使用 RDMA 资源（RoCE）

在集群中使用 RDMA 资源（InfiniBand）

调度管理

任务调度

Capacity 调度

弹性资源优先级调度

负载感知调度

NUMA 拓扑感知调度

RDMA 拓扑感知调度

配置调度器自定义参数

使用 Pod CPU Burst 能力

可观测性

可观测性概述

日志管理

采集容器日志

使用环境变量采集容器日志

采集 ingress 组件日志

采集控制面组件日志

事件管理

查询和处理事件

配置和查看持久化事件

基础观测

基础观测概述

自定义指标标签

容器服务观测

控制面服务观测

使用自建 Prometheus 采集控制面组件指标

DNS 服务观测

Ingress 服务观测

CNI 网络观测

镜像加速观测

AI 资源观测

镜像仓库观测

CSI 存储观测

容器存储观测

检查自愈观测

告警管理

预置告警模版

全栈观测

全栈观测概述

开启全栈观测

资源检索

无状态负载

有状态负载

应用性能观测

注册集群观测

诊断与巡检

诊断与巡检概述

故障诊断

节点池诊断

容器组诊断

检查自愈

配置节点检查自愈

自定义节点检查项

集群巡检

配置集群巡检

巡检项说明和修复建议

使用智能助手实现智能问答和智能诊断

应用中心

创建 Helm 应用

备份中心

备份中心概述

对象存储仓库

应用备份

创建备份计划

查看备份任务

管理备份计划

创建恢复任务

部分失败问题处理

稳定性

基础稳定性能力配置

工作负载稳定性优化

Kubernetes 集群稳定性优化

大规模集群管理

大规模集群管理概述

大规模集群版本和配置

大规模集群限制和建议

大规模集群运维保障

最佳实践

授权

IAM 授权最佳实践

基于 IAM 保护 VKE 控制台访问

使用 VKE 新版 RBAC 授权系统

集群

使用 KubeCm 管理多集群 KubeConfig

集群升级最佳实践

使用共享 VPC 创建集群

Kubernetes 开发者最佳实践

为存量集群开启 API Server 私网域名访问

节点和节点池

ECS 选型最佳实践

增强容器资源可见性

自定义集群 kubelet 参数

使用生命周期挂钩实现节点缩容自定义操作

使用数据盘快照加速节点扩容

正确使用运行时与操作系统

网络

CoreDNS 最佳实践

Nginx Ingress 最佳实践

通过 Ingress 获取真实客户端 IP 地址

自定义 Nginx Ingress Controller 观测最佳实践

配置节点池级别 Pod 安全组和子网

容器网络内核参数优化

正确使用容器网络

部署并运行 DPDK 应用

存储

存储多可用区部署推荐配置

正确使用容器存储

调度

将节点 Label/Annotation 注入到 Pod

可观测性

集群监控实践和常用大盘

监控集群中的 Golang 应用

监控集群中部署的应用实例

通过 PodMonitor 配置服务发现

通过 ServiceMonitor 配置服务发现

云监控切换托管 Prometheus 告警配置最佳实践

弹性伸缩

节点弹性伸缩（CA）最佳实践

容器水平伸缩（HPA）最佳实践

安全

安全下线节点

云原生容器安全解决方案

安全组配置最佳实践

集群网络安全最佳实践

镜像加速

P2P 镜像加速方案

容器镜像懒加载方案

解决方案

大规模并发业务系统云上架构解决方案

云原生场景基础资源使用成本优化方案

基于 Argo Workflows 和 Serverless Kubernetes 搭建精细化用云工作流

节点故障负载容灾迁移方案

火山引擎云原生迁移解决方案

安全合规

VKE 安全责任共担

API 参考

API 发布历史

使用前必读

API 错误码列表

调用方式

集群管理

CreateCluster - 创建集群

ListClusters - 获取集群列表

UpdateClusterConfig - 更新集群配置

ListSupportedResourceTypes - 获取支持的资源

DeleteCluster - 删除集群

CreateKubeconfig - 生成 Kubeconfig

ListKubeconfigs - 获取 Kubeconfig

DeleteKubeconfigs - 吊销 Kubeconfig

节点池管理

CreateNodePool - 创建节点池

CreateDefaultNodePool - 创建默认节点池

UpdateNodePoolConfig - 更新节点池配置

ListNodePools - 获取节点池列表

DeleteNodePool - 删除节点池

CreateScalingPolicy - 创建伸缩规则

UpdateScalingPolicy - 更新伸缩规则

ListScalingPolicies - 获取伸缩规则列表

DeleteScalingPolicies - 删除伸缩规则

节点管理

CreateNodes - 添加已有节点

ListNodes - 获取节点列表

DeleteNodes - 删除节点

虚拟节点管理

CreateVirtualNode - 创建虚拟节点

ListVirtualNodes - 查询虚拟节点列表

DeleteVirtualNode - 删除虚拟节点

组件管理

ListSupportedAddons - 获取支持的组件列表

CreateAddon - 安装组件

UpdateAddonConfig - 更新组件配置

UpdateAddonVersion - 更新组件版本

DeleteAddon - 卸载组件

ListAddons - 获取组件列表

标签管理

TagResources - 为资源绑定标签

UntagResources - 为资源解绑标签

ListTagsForResources - 获取资源标签列表

访问策略管理

GrantPermission

ListPermissions

RevokePermission

机型镜像管理

ListSupportedImages - 获取实例规格支持的镜像列表

ListInstanceTypeLabels - 获取规格支持的标签列表

ListSupportedGpuDriverVersions - 获取 GPU 驱动列表

ListSupportedAddInstanceTypes - 获取支持添加的规格列表

弹性容器实例

VCI

CreateImageCache - 创建镜像缓存

UpdateImageCache - 更新镜像缓存

ListImageCaches - 查询镜像缓存列表

DeleteImageCache - 删除镜像缓存

UpdateImageCacheRetentionDays - 更新镜像缓存保留时间

全局配置管理

SetGlobalDefaultDeleteOption

GetGlobalDefaultDeleteOption

附录

资源状态说明

SDK 参考

开发指南

Terraform

管理通过 Terraform 创建的集群

使用 Terraform 创建无 ECS 节点的 VKE 集群

使用 Terraform 管理已有的集群

管理通过 Terraform 创建的节点池

使用 Terraform 管理默认节点池中的已有节点

使用 Terraform 管理自定义节点池中的已有节点

常见问题

通用 FAQ

使用容器服务运行应用的大致流程是怎样的？

容器服务目前使用的容器运行时是什么？

容器服务访问 RDS MySQL 数据库时如何设置白名单？

如何申请使用邀测功能？

使用命令行进行 Base64 编码的常见问题

集群 FAQ

集群管理

如何查看集群的 Kubernetes 版本？

无法删除创建失败的集群？

如何修改创建集群过程中 API Server 关联创建的 CLB 的规格？

创建集群过程中，自动创建的 CLB 有什么用途？

如何使用集群创建持续交付私有资源池？

如何获取集群节点信息

集群网络

如何手动开启集群的公网访问？

容器服务集群目前支持哪种网络方式？

如何获取集群的公网 IP？

如何获取集群公网流量出口的 EIP 地址？

集群升级

升级集群前升级网络组件会出现流量中断吗？

升级集群控制面是否会导致业务流量中断？

升级集群时正常运行的业务 Pod 是否会重启？

升级集群大概需要多长时间？

数据面节点升级的方式是什么？

升级节点时节点上的 kubelet 自定义参数会被覆盖吗？

注册集群

通过代理方式注册集群时，因缺少 Agent 导致集群失联，该怎么处理？

节点与节点池 FAQ

如何查看节点 Containerd 版本？

GPU A100/A800 多卡机型 RDMA 网络连通异常如何处理？

通过云服务器（ECS）控制台修改节点对应的 ECS 实例配置后节点未同步变更？

什么是默认节点池？

如何查询节点的可分配资源？

节点无法自动缩容？

如何查看节点资源使用情况？

如何清理已有节点数据盘残留数据？

期望节点数量是如何变化的？

授权 FAQ

如何为 IAM 用户授权 Cluster 级别资源的权限？

IAM 用户无法访问 ALB ingress

操作集群资源，提示“AccessDenied,Code:403”错误如何解决？

为什么有集群管理员权限的子用户无法创建 YAML 资源？

工作负载 FAQ

创建工作负载后 Pod 实例状态一直显示“ContainerCreating”？

如何获取容器初始化日志？

部署工作负载失败，提示“0/16 nodes are available”错误如何解决？

如何禁用 Pod 中的 IPv6 协议栈

如何更新 CoreDNS 副本数和资源配额？

Pod 异常排查

Pod 处于 Pending 状态，未被成功调度

Pod 处于 CrashLoopBackOff 状态

Pod 处于 ImagePullBackOff 状态

Pod 健康检查失败

服务与路由 FAQ

通过 Annotation 配置四层负载均衡时出现“lb is provisioning”事件

通过 Annotation 配置四层负载均衡时出现“loadbalancer for service not found”事件

删除 Service 时出现“InvalidServerGroupListener.InUse”事件

已关联工作负载的服务，解绑工作负载后，通过服务访问地址仍然能够访问到原工作负载？

如何批量创建服务？

创建 Ingress 时，Webhook 校验报错找不到 Service？

LoadBalancer 类型 Service 中的会话保持与 CLB 监听器的会话保持有什么区别？

无法访问 Ingress Controller 自身，该如何解决？

Ingress 无法访问 TCP、UDP 服务，该怎么办？

HTTPS 访问报错 “SSL_ERROR_RX_RECORD_TOO_LONG”，该怎么处理？

集群中添加或修改了 TLS 证书，但是访问时还是默认证书或旧证书

创建 Ingress 时报错 "failed calling webhook"，该如何处理？

已经添加了 Ingress，但并没有生效，该如何排查？

Ingress Pod 中无法保留源 IP

无法连接到通过 Ingress 暴露的 gRPC 服务

灰度规则不生效

灰度规则错误或影响到别的流量，该怎么处理？

无法连接到后端 HTTPS 服务

出现常见 HTTP 错误码

配置了 rewrite-target，资源访问时出现 404 报错

资源访问时报错“net::ERR_HTTP2_SERVER_REFUSED_STREAM”

业务通过 ingress-nginx 对外暴露，下载大文件超过 1 min 时会话超时断开

Ingress 配置跨域访问失效

HTTP 请求中 Header 丢失，该怎么处理？

Nginx Ingress 插件安装失败

配置修改后不生效或不完全生效

长链接断开，该怎么处理？

请求 Ingress 无响应，该如何处理？

大规模业务 ConfigMaps 导致 Ingress Nginx Controller 无法启动

存储 FAQ

集群同时存在多种规格的云服务器节点时，如何使用云盘存储卷？

Kubernetes 集群无法挂载已经存在数据的 PV/PVC 云盘，该如何处理？

PV 挂载对象存储桶的根目录后创建容器报错，该怎么处理？

如何修改 TOS 存储的挂载配置，允许其他用户读写 TOS 存储卷？

异构计算 FAQ

进程 SM 使用率和 mGPU 配置的算力比例不匹配？

GPU 实例硬件相关问题

RDMA 环境运行过程中报错，该如何解决？

弹性伸缩 FAQ

HPA 滚动发布时出现扩容多余 Pod 现象

调度 FAQ

katalyst 组件升级后的变更影响处理

可观测性 FAQ

无法查询 kube_namespace_label 指标

配额 FAQ

如何提升配额（Quota）？

组件 FAQ

如何处理组件调度失败？

如何处理组件安装失败，提示资源名称冲突？

组件长时间处于安装中/更新中/卸载中，该如何处理？

如何处理组件卸载失败？

如何确认使用了 node-local-dns 组件？

如何处理组件启动失败？

如何处理处于镜像拉取失败状态的组件？

系统必装组件处于异常状态，如何恢复？

容器镜像 FAQ

如何关闭公共镜像中的 GSP 配置？

故障排查

CentOS 6.X 镜像运行异常退出问题排查

技术服务 FAQ

AI 云原生

AI 云原生新功能发布记录

推理套件

推理套件概述

支持的推理模型列表

大语言模型应用

部署大语言模型应用（DeepSeek/Qwen）

部署 LLM 通用模板应用

ComfyUI 应用

部署 ComfyUI 应用

使用 ComfyUI 应用实现万物迁移

使用 ComfyUI 应用实现数字人对口型播客

ComfyUI 常见问题

AI 应用管理与使用

AI 应用观测

Helm 模板 AI 应用

Helm 模板部署概述

Deepseek 实践

快速部署基于 SGLang 的 DeepSeek-R1 满血版

快速部署基于 SGLang 的 DeepSeek-R1 满血版（PD 分离）

快速部署基于 xLLM 的 DeepSeek-V3/R1 满血版（PD 分离）

快速部署基于 TensorRT-LLM 的 DeepSeek-R1 量化版

快速部署基于 SGLang 的 DeepSeek-R1-0528 满血版

快速部署基于 SGLang 的 DeepSeek-R1-0528/V3-0424 满血版（PD 分离）

快速部署基于 SGLang 的 DeepSeek-R1 量化版

快速部署基于 SGLang 的 DeepSeek-V3.1

Qwen 实践

快速部署基于 Dynamo 和 vLLM 的 Qwen3-235B （PD 分离）

快速部署基于 SGlang 的 Qwen3-32B-FP8

快速部署基于 SGLang 的 Qwen3-235B-A22B-FP8

快速部署基于 SGlang 的 Qwen3-30B-A3B-FP8

Kimi 实践

快速部署基于 SGLang 的 Kimi-K2-Instruct

GPT 实践

快速部署基于 vLLM 的 gpt-oss-120b

Seed 实践

快速部署基于 vLLM 的 Seed-OSS-36B-Instruct

EIC 性能测试方法

最佳实践

通过 LLM 通用模板快速部署 DeepSeek-V4-Pro 模型

通过 LLM 通用模板快速部署 DeepSeek-V4-Flash 模型

通过 LLM 通用模板快速部署 GLM-5 模型

通过 LLM 通用模板快速部署 GLM-5.1 模型

通过 LLM 通用模板快速部署 MiniMax-M2.5 模型

通过 LLM 通用模板快速部署 Qwen3.5 模型

通过 LLM 通用模板快速部署 Kimi K2.5 模型

使用 AI 容器镜像

对话即运维：使用 MCP 服务管理您的容器服务集群

训练套件

veRL GSM8K 数据集 PPO 训练

veCCL 高性能通信实践

veRL Code Sandbox 代码生成强化学习

AI 训练任务监控

弹性容器实例 VCI

最新动态

新功能发布记录

历史功能发布记录

历史功能发布记录（2024 年）

历史功能发布记录（2023 年）

历史功能发布记录（2022 年及之前）

产品公告

【停售公告】弹性容器实例停止售卖 n1、n2i 规格族

【产品变更】VCI Pod 驱逐和防护策略对资源状态的影响说明

【产品变更】弹性容器实例日志采集能力解耦 Metadata Server 通知

【产品变更】弹性容器日志键值索引字段变更说明

【产品变更】弹性容器实例支持华南 1 (广州) 地域

【产品变更】弹性容器实例支持华东 2 (上海) 地域

【产品变更】弹性容器实例正式商业化公告

产品介绍

什么是弹性容器实例

实例规格族

VCI 实例规格介绍

地域和可用区

产品计费

计费方式

预留实例券

快速入门

VCI 入门指引

VCI 准备工作

通过 VKE 控制台使用 VCI

通过 kubectl 使用 VCI

用户指南

对接 VCI

在 VPC-CNI 网络模型集群中使用 VCI

在 Flannel 网络模型集群中使用 VCI

通过配置 vci-profile 使用 VCI

虚拟节点

VKE 集群使用虚拟节点

Virtual Kubelet 和虚拟节点

管理虚拟节点

自建/跨云集群使用虚拟节点

创建虚拟节点

自建/跨云 Kubernetes 集群弹性使用 VCI 方案

创建 VCI 实例

通用型实例

指定规格族（vCPU 和内存）创建实例

指定 VCI 规格创建通用型实例

GPU 计算型实例

指定规格族（GPU 资源）创建实例

指定 VCI 规格创建 GPU 计算型实例

支持的 GPU 驱动版本

忽略特定容器资源需求创建实例

创建实例并配置远端代理仓

创建实例时拉取自建镜像仓库的镜像

VCI Agent Sandbox

生命周期管理

数据持久化

网络

指定子网创建实例

指定安全组创建实例

配置 IPv4/IPv6 双栈网络

存储

容器 rootfs 持久化

日志

通过日志服务采集 VCI 容器日志

通过 Sidecar 方式采集 VCI 容器日志

监控

使用托管 Prometheus 监控 VCI

使用自建 Prometheus 监控 VCI

通过虚拟节点获取 VCI 监控指标

VCI GPU 监控指标

配置 VCI 磁盘使用率监控与告警

事件

VCI 事件监控概述

VCI 事件类型汇总

运维

容器 coredump 持久化

VCI Pod 驱逐及防护

调度

VCI 实例库存感知调度

容器配置

配置安全上下文

设置容器启动和退出顺序

VCI Pod 原地重启

实例元数据

实例元数据概述

实例元数据项

查看实例元数据

VCI 镜像缓存

使用自动镜像缓存创建 VCI 实例

使用手动镜像缓存创建 VCI 实例

使用 CRD 管理 VCI 镜像缓存

Pod Annotation 说明

VCI 支持的 kubectl 命令列表

最佳实践

使用 VCI 运行 Spark 数据处理任务

在容器中合理定义 Java 8 堆栈内存

VCI 故障处理最佳实践

基于 VCI 部署 OpenClaw

安全合规

VCI 安全责任共担

常见问题

集群存在多个可用区子网情况下如何处理 VCI Pod 的调度？

如何让创建的 VCI Pod 调度到指定可用区？

出现 FailedCreateSystemDisk 事件时如何处理？

使用带分区的数据盘时 Pod 无法正常运行

创建 Pod 时出现 ProviderFailed 如何处理？

创建 Pod 报错 exec user process caused: exec format error 如何处理？

使用镜像缓存后，如何避免拉取镜像？

VCI Pod 一直处于 Pending 状态且未出现拉取镜像相关事件如何处理？

相关协议

容器服务产品/服务专用条款

容器服务托管版产品服务等级协议

弹性容器实例服务等级协议

文档首页

容器服务

复制全文

下载 pdf

容器服务

复制全文

下载 pdf

文档反馈

问问助手

最近更新时间：

这个页面对您有帮助吗？

有用

有用

无用

无用