You need to enable JavaScript to run this app.
导航

安装组件

最近更新时间2023.11.16 15:58:36

首次发布时间2022.03.04 23:10:39

容器服务提供多种类型的组件,您可以根据业务需求安装、升级、卸载组件。本文主要描述各组件的安装方法。

前提条件

已创建集群,且集群处于 运行中 状态。详细操作,请参见 创建集群

操作步骤

  1. 登录 容器服务控制台,在左侧导航栏中选择 集群,单击需要配置的目标集群。
  2. 在集群管理页面的左侧导航栏中,选择 运维管理 > 组件管理
  3. 将鼠标移动到想要安装的组件上,选择该组件右上角的 ... > 安装
    alt
  4. 每个组件的安装,可能需要不同的二次配置,请根据系统提示安装完成组件。

当前如下组件支持二次配置。

说明

未列出的组件可按照上方步骤说明直接安装,无需二次配置。

ingress-nginx 组件

安装 ingress-nginx 组件时,按如下说明进行二次配置。详细的参数说明,请参见 负载均衡文档

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费
实例个数负载均衡实例个数。
Nginx 配置按需设置 CPU、内存的请求和上限。
负载均衡类型CLB 实例的网络类型,支持 公网私网
子网选择负载均衡器实例的子网。
线路类型当前仅支持 BGP 类型。
计费方式当前支持 按量计费-按带宽上限按量计费-按实际流量 两种计费方式。
带宽上限自定义设置带宽上限。
IP 版本当前仅支持 IPv4 类型的网络地址。

snapshot-controller 组件

在容器网络模型为 VPC-CNI 的集群中安装 snapshot-controller 组件时,按如下说明进行二次配置。Flannel 集群中可直接安装。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:部署于弹性容器 VCI 实例上,将使用 1 个 2 vCPU、4 GiB 规格的 VCI 实例,且会产生额外的费用。详细的费用说明,请参见 弹性容器实例产品计费

csi-ebs 组件

在容器网络模型为 VPC-CNI 的集群中安装 csi-ebs 组件时,按如下说明进行二次配置。Flannel 集群中可直接安装。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:部署于弹性容器 VCI 实例上,将使用 1 个 2 vCPU、4 GiB 规格的 VCI 实例,且会产生额外的费用。详细的费用说明,请参见 弹性容器实例产品计费

event-collector 组件

安装 event-collector 组件时,按如下说明进行二次配置。详细的参数说明,请参见 日志服务文档

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费
日志项目选择关联该用户账号在集群所处地域下,已存在的日志项目信息。
日志主题选择关联展示该日志项目下,已存在的日志主题信息。

prometheus-agent 组件

说明

托管 Prometheus 服务已在 2023 年 05 月 29 日开始正式收费,如您在集群中安装该组件,将会产生额外费用,详情请参见 计费方式

规格推荐

在容器集群中安装 prometheus-agent 组件时,会同步安装 vm-agent 采集器和 kube-state-metrics 组件,详情请参见 容器服务接入。组件的分片数和规格与集群规模相关,您可以基于集群规模,配置组件的初始(最小)分片数。本小节将为您介绍在缺省规格下,不同规模集群推荐的组件初始(最小)分片数。

vm-agent 采集器和 kube-state-metrics 组件的缺省规格如下表所示。

资源规格vm-agentkube-state-metrics
CPU 请求2 Core0.2 Core
内存请求2 GiB512 MiB
CPU 上限4 Core0.8 Core
内存上限4 GiB2 GiB

vm-agent 采集器和 kube-state-metrics 组件在不同规模集群中的推荐初始(最小)分片数如下表所示。

集群规模vm-agent 初始(最小)分片数kube-state-metrics 初始(最小)分片数
10 Node,500 Pod11
100 Node,5000 Pod22
200 Node,10000 Pod44
500 Node,25000 Pod1010

配置方式

注意

promethues-agent 组件与使用脚本安装的 VM Agent 采集器冲突,不能同时使用,安装组件前,请确认您的集群中没有使用脚本安装的 VM Agent 采集器。详情请参见 部署 VM Agent

安装 prometheus-agent 组件时,按如下说明进行二次配置。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费
vm-agent 资源配置 vm-agent 采集器的默认资源配置,包括:CPU 请求、CPU 上限、内存请求、内存上限。

kube-state-metrics 资源配置

配置 kube-state-metrics 组件的默认资源配置,包括:CPU 请求、CPU 上限、内存请求、内存上限。

说明

由于 kube-state-metrics 组件本身存在的限制(例如:每个组件实例允许采集的 Target 数量有限),在大规模集群中,建议优先使用增加分片数的方式,提升 kube-state-metrics 组件的指标采集能力。

vm-agent 初始分片数配置 vm-agent 采集器的初始分片数。
kube-state-metrics 初始分片数配置 kube-state-metrics 组件的初始分片数。

组件扩缩容

配置是否开启 vm-agent 采集器和 kube-state-metrics 组件的自动扩缩容功能。

  • 不开启:组件的分片数为配置的初始分片数。不会随着资源占用率的提升而自动扩容。
  • 开启:需要配置组件的最大分片数。组件会基于资源占用率自动扩缩容,具体逻辑如下:
    • vm-agent 扩容:任一资源(CPU 或内存)使用率 > 70% 时,自动扩容。
    • vm-agent 缩容:全部资源(CPU 和内存)使用率均 < 30% 时,自动缩容。
    • kube-state-metrics 扩容:任一资源(CPU 或内存)使用率 > 70% 时,自动扩容。
    • kube-state-metrics 缩容:全部资源(CPU 和内存)使用率均 < 70% 时,自动缩容。

注意

  • vm-agent 扩缩容冷却时间为 30 分钟。kube-state-metrics 基于 HPA 进行扩缩容量。
  • 配置组件自动扩缩容功能后,请保证集群资源充足,否则可能由于资源不足,导致组件扩容失败。
  • vm-agent 采集器和 kube-state-metrics 组件扩容时,为保证均衡负载,建议配置 kube-state-metrics 组件的分片数为 vm-agent 采集器分片数的整数倍,例如:kube-state-metrics 组件分片数vm-agent 采集器分片数1:12:1 等。

部署插件

配置是否同步安装 node-exporter 插件,默认安装插件。该插件用于采集节点操作系统的各项软硬件指标;如果不安装,则无法监控节点指标。建议您保持默认值。

说明

node-exporter 插件以 Daemonset 方式部署。因此,当您在弹性容器实例 VCI 场景中安装时,该插件会被部署在 ECS 节点上。更多信息,请参见 VCI 使用限制

注意

  • 当 Prometheus-agent 组件为 v2.0.1 及以前 版本时,您还需要配置组件的托管 Prometheus 工作区,并配置工作区的认证用户名和密码。
  • 当您配置组件的工作区时,需要保证配置的工作区与集群绑定的工作区一致。否则将无法在 Prometheus 监控 页面中,查看集群监控的指标和大盘。

prometheus-adapter 组件

安装 prometheus-adapter 组件时,按如下说明进行二次配置。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。
部署形态容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,该组件仅支持 云服务器部署 部署形态,表示在集群中的云服务器节点(Node)上部署该组件。
Prometheus 工作区组件使用集群已配置的托管 Prometheus 工作区。若集群未配置,根据页面提示,跳转到集群详情页的 运维配置 页签,配置集群的 Prometheus 工作区。详细操作,请参见 运维配置

apmplus-opentelemetry-collector 组件

安装 apmplus-opentelemetry-collector 组件时,按如下说明进行二次配置。APMPlus 指应用性能监控全链路版,是火山引擎提供的针对应用服务的品质、性能以及自定义埋点的 APM 服务。详细的介绍,请参见 应用性能监控全链路版文档

参数描述

OpenTelemetryCollector 配置

采集 OpenTelemetry 数据并发送至应用性能监控服务。您还需要配置下方参数:

  • 部署方式:OpenTelemetryCollector 的部署方式。当前该参数已固定,不可配置。
  • 实例个数:Pod 实例个数。单实例支持 1 万条 trace/秒,所需资源为 1 核 CPU 2GB 内存。一般情况下实例数为 1 可满足需求。如果集群每秒产生 3 万条 trace,请将实例数设置为 3。

PrometheusScraper 配置

采集 Prometheus 指标并发送至后端服务。您还需要配置下方参数:

  • 部署方式:PrometheusScraper 的部署方式。当前该参数已固定,不可配置。
  • 实例个数:Pod 实例个数。单实例支持 10 万条数据/分钟,所需资源为 1 核 CPU 2GB 内存。一般情况下实例数为 1 可满足需求。如果集群每分钟产生 30 万条数据,请将实例数设置为 3。

metrics-collector 组件

在容器网络模型为 VPC-CNI 的集群中安装 metrics-collector 组件时,按如下说明进行二次配置。Flannel 集群中可直接安装。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费

scheduler-plugin 组件

安装 scheduler-plugin 组件时,按如下说明进行二次配置。

注意

首次配置该组件后,在如下 Kubernetes 版本的集群中支持修改部分组件配置:

  • v1.26.6-vke.7 及以上版本
  • v1.24.15-vke.18 及以上版本
  • v1.20.15-vke.23 及以上版本

支持修改的配置,以控制台显示为准。若您的集群 Kubernetes 版本不满足要求,请先升级集群控制面。详细操作 升级集群

参数描述

节点调度策略

配置节点的 binpack 和 spread 调度策略:

  • binpack:多个 Pod 优先调度在同一节点。综合评估 CPU、内存(Memory)、GPU 算力和显存等资源得分。
  • spread:多个 Pod 分散调度在不同节点。综合评估 CPU、Memory、GPU 算力和显存等资源得分。

单击 高级配置,配置节点资源(CPU、Memory、GPU 算力和显存)的权重。详细说明,请参见 配置调度器自定义参数

拓扑打散策略权重配置原生 PodTopologySpread 调度策略的打分权重,分值越高拓扑打散调度的优先级越高,Pod 越大几率被调度到分散的拓扑区域。

GPU 卡调度策略

配置 GPU 显卡的 binpack 和 spread 调度策略:

  • binpack:多个 Pod 优先使用同一张 GPU 显卡。
  • spread:多个 Pod 分散使用不同的 GPU 显卡。

若您的工作负载中存在 GPU 计算型节点和 GPU 显卡的情况下,节点调度策略GPU 卡调度策略 的组合方式说明,请参见 配置调度器自定义参数

Gang 调度

邀测·申请试用】默认不开启。Gang 调度满足 All-or-Nothing 调度场景,即一组需要同时调度的 Pod 要么全部调度成功,要么一个都不成功。

说明

Gang 调度相关说明,请参见 Gang 调度

Capacity 调度

邀测·申请试用】默认不开启,开启后表示通过弹性配额实现多租户间的资源共享,提升整体资源的利用率。

说明

Capacity 调度相关说明,请参见 Capacity 调度

弹性资源优先级调度

邀测·申请试用】默认不开启,开启后单击 高级配置,设置工作负载 Pod 被调度到不同类型节点资源的顺序,在缩容过程中按照原调度顺序逆序缩容。

说明

弹性资源优先级调度的使用方法,请参见 弹性资源优先级调度

负载感知调度

邀测·申请试用】默认不开启。负载感知调度根据节点实际资源负载进行调度,避免出现因单个节点负载过高而导致的应用程序或节点故障。

说明

负载感知调度的使用方法,请参见 负载感知调度

拓扑感知调度

邀测·申请试用】默认不开启。拓扑感知调度提供中心调度器与单机协作的拓扑感知调度能力,为负载提供更好的性能。

说明

拓扑感知调度的使用方法,请参见 拓扑感知调度

cronhpa 组件

在容器网络模型为 VPC-CNI 的集群中安装 cronhpa 组件时,按如下说明进行二次配置。Flannel 集群中可直接安装。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费

cluster-autoscaler 组件

安装 cluster-autoscaler 组件时,按如下说明进行二次配置。详细的参数说明,请参见 节点弹性伸缩

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

管理方式

邀测·申请试用】管理 cluster-autoscaler 组件的方式:

  • 系统托管(免运维):由系统托管组件。用户无需关心组件的升级、配置管理等运维工作。使用该管理方式可避免用户侧原因导致的组件故障、性能不达预期等问题。减少用户运维成本,增强组件稳定性。
  • 自主运维:自主管理组件的升级、配置管理等运维工作。
部署形态容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,该组件仅支持 云服务器部署 部署形态,表示在集群中的云服务器节点(Node)上部署该组件。

弹性容器规则

配置弹性容器规则:

  • 扩容算法:节点池自动扩容时所采用的扩容策略类型。支持如下几种类型:
    • random:随机选择一个节点池进行扩容。
    • most-pods:选择能够调度最多 Pods 的节点池进行扩容。
    • least-waste:选择 CPU 资源最少的空闲节点池进行扩容。
    • priority:选择所设优先级最高的节点池进行扩容。
  • 自动缩容:开启后,集群中有较多空闲节点资源时会触发缩容。仅对 按量计费 的节点资源生效。

开启 自动缩容 后,您还需要根据实际需求配置以下参数:

  • 非 GPU 节点的缩容阈值:当非 GPU 类型节点的 CPU、内存资源使用率(单资源已使用量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。默认 50%。

    说明

    非 GPU 类型节点的 CPU 或内存资源中任意一个达到缩容阈值,即可触发该规则。

  • GPU 节点的缩容阈值:GPU 类型节点的缩容策略根据其是否使用 mGPU 能力,有不同的缩容策略,默认阈值为 50%:
    • 未使用 mGPU:当节点的 GPU 资源使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。
    • 已使用 mGPU:当 mGPU 的 GPU 算力、GPU 显存、内存、CPU 中任意一个资源的使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。

    注意

    • mGPU 是容器服务的 邀测 功能。功能的申请试用和详细说明,请参见 mGPU 概述

    • 仅以下版本的 cluster-autoscaler 组件支持配置该值:

      • v1.26.3-vke.6 及以上版本。
      • v1.24.2-vke.6 及以上版本。
      • v1.20.2-vke.20 及以上版本。

      cluster-autoscaler 组件的发版记录,请参见 cluster-autoscaler

  • 缩容触发时延:当节点资源使用率低于阈值,并持续该时间段后,集群将触发自动缩容。默认 10 分钟。
  • 扩容后缩容冷却时间:节点进行扩容后,能再次执行缩容所需等待的时间间隔。默认 10 分钟。
  • 缩容失败冷却时间:节点缩容失败后,能再次执行缩容所需等待的时间间隔。默认 3 分钟。
  • 最大并发缩容数:节点缩容时,允许同时进行缩容的并发数目。默认 5。
  • 不缩容节点:勾选不进行缩容的节点。可选项如下:
    • 包含本地储存 Pod 的节点。
    • 包含 kube-system 命名空间下非 DaemonSet 管理的 Pod 的节点。

dns-autoscaler 组件

在容器网络模型为 VPC-CNI 的集群中安装 dns-autoscaler 组件时,按如下说明进行二次配置。Flannel 集群中可直接安装。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费

application-inspector 组件

在容器网络模型为 VPC-CNI 的集群中安装 application-inspector 组件时,按如下说明进行二次配置。Flannel 集群中可直接安装。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费

p2p-accelerator 组件

安装 p2p-accelerator 组件时,需要进行二次配置。详细操作,请参见 P2P 镜像加速方案

说明

该组件目前处于 公测 阶段。

cr-credential-controller 组件

安装 cr-credential-controller 组件时,按如下说明进行二次配置。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:部署于弹性容器 VCI 实例上,将使用 2 个 0.25 vCPU、0.5 GiB 规格的 VCI 实例,且会产生额外的费用。详细的费用说明,请参见 弹性容器实例产品计费

镜像仓库实例

配置可以免密拉取私有镜像的目标镜像仓库实例和所在地域。

说明

  • 可选同一个地域中的一个或多个镜像仓库实例。
  • 该镜像仓库实例中,后续新推送的私有镜像也能被免密拉取。
免密配置设置容器服务侧的免密配置。
  • 命名空间:当前集群下可以免密拉取私有镜像的命名空间。默认值为*,表示所有命名空间都可以免密拉取私有镜像;您也可以输入具体的命名空间名称,可以指定多个命名空间,多个名称之间以英文逗号(,)分隔。
  • ServiceAccount:能够使用免密组件的Kubernetes 中的服务账号。默认值为*,表示已配置命名空间下的所有 ServiceAccount,都可以免密拉取私有镜像;您也可以输入具体的 ServiceAccount,可以指定多个 ServiceAccount,多个名称之间以英文逗号(,)分隔。

image-accelerator 组件

在容器网络模型为 VPC-CNI 的集群中安装 image-accelerator 组件时,按如下说明进行二次配置。Flannel 集群中可直接安装。

说明

邀测·申请试用】:该组件目前处于邀测阶段,如需使用,请提交申请。

参数描述
部署方式组件的部署方式。当前该参数已固定,不可配置。

部署形态

容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

  • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
  • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费

mgpu 组件

安装 mgpu 组件时,按如下说明进行二次配置。

说明

邀测·申请试用】:该组件目前处于邀测阶段,如需使用,请提交申请。

参数描述

部署插件

选择是否安装实现容器共享 GPU 的资源监控插件 mgpu-exporter。默认安装该插件。

说明

推荐您保持默认值。若不安装 mgpu-exporter,则无法使用 Prometheus 监控 功能监控 mGPU 相关的指标。您可以安装自己的监控 Exporter,监控 mGPU 相关的指标。

nvidia-device-plugin 组件

安装 nvidia-device-plugin 组件时,按如下说明进行二次配置。

参数描述

部署插件

选择是否安装 Nvidia GPU 资源监控插件 dcgm-exporter。默认安装该插件。

说明

推荐您保持默认值。若不安装 dcgm-exporter,则无法使用 Prometheus 监控 功能监控 Nvidia GPU 相关的指标。您可以安装自己的监控 Exporter,监控 Nvidia GPU 相关的指标。