You need to enable JavaScript to run this app.
E-MapReduce

E-MapReduce

复制全文
集群管理
弹性伸缩
复制全文
弹性伸缩

火山引擎 EMR on VKE 为您提供弹性伸缩功能,支持随业务波峰波谷的需求,自动动态扩缩容集群的计算资源。本文为您介绍如何配置资源的弹性伸缩规则并使用此功能。

背景信息

当您在使用EMR虚拟集群过程中,如果资源经常出现波峰波谷的情况,那么在计算高峰时,自动扩展一部分临时计算能力,帮助您渡过业务计算高峰;渡过业务高峰后再进行自动缩容,便可以降低您的计算资源使用成本。
EMR 虚拟集群支持节点弹性伸缩,当集群的容量规划不能满足集群调度容量时,会通过添加 ECS(Elastic Compute Service,云服务器),补充集群整体的调度容量。

注意事项
  • 节点弹性伸缩仅对 按量计费 的节点资源生效。
  • 集群需安装 karpenter 组件,如果您的集群未安装该组件,则将会在弹性伸缩生效时自动进行安装。

功能入口
  1. 登录 EMR 控制台 后,从左侧导航栏中,进入资源管理 > on VKE> 虚拟集群详情 > 弹性伸缩 页签,单击页面中的 去配置 ,开始配置集群的弹性伸缩规则。
    Image

  2. 根据界面提示选择弹性伸缩的伸缩类型,并配置对应类型的规则细节参数。
    Image
    当前EMR支持两种伸缩类型,节点即时弹性和节点自动伸缩。

    • 节点即时弹性:可通过监听事件驱动节点扩容,弹性性能更优,推荐您使用此种方式。
    • 节点自动伸缩**:​**通过轮询方式发现节点资源使用情况,自动扩缩容集群节点。
      选择不同的弹性伸缩方式,您需根据界面提示配置不同的细节参数,详情见下文。

配置弹性伸缩规则

伸缩类型:节点即时弹性

  1. 配置基本信息。节点即时弹性类型 默认开启自动缩容开关,且不支持关闭。
    Image

  2. 自动缩容配置。

    参数

    配置说明

    非GPU节点的缩容阈值

    当非 GPU 类型节点的 CPU、内存资源使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。默认 50%,可设置的数值范围0~100。

    说明

    非 GPU 类型节点的 CPU 或内存资源中任意一个达到缩容阈值,即可触发该规则。

    GPU节点的缩容阈值

    GPU 类型节点的缩容策略根据其是否使用 mGPU 能力,有不同的缩容策略,默认阈值为 50%:

    • 未使用 mGPU:当节点的 GPU 资源使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。
    • 已使用 mGPU:当 mGPU 的 GPU 算力、GPU 显存、内存、CPU 中任意一个资源的使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。

    注意

    • mGPU 目前处于 公测 阶段,功能详细说明参见 mGPU 概述
    • 若VKE集群中已安装的 cluster-autoscaler 组件版本较低时,请升级组件。详细操作,请参见 升级组件;cluster-autoscaler 组件的发版记录,请参见 cluster-autoscaler

    缩容触发延迟

    当节点资源使用率低于阈值,并持续该时间段后,集群将触发自动缩容。默认 10 分钟。

    Pod 终止超时时间

    节点排水时等待 Pod 终止的最大等待时间。整数形式,取值范围为 1~10000,单位为秒。默认为 600 秒。

伸缩类型:节点自动伸缩

  1. 配置基本信息。
    Image

    参数

    配置说明

    扩容算法

    节点池自动扩容时所采用的扩容算法类型,包括:

    • random:表示随机选择一个节点池进行扩容。
    • most-pods:表示选择能够调度最多 Pod 的节点池进行扩容。
    • least-waste:表示选择空闲 CPU 资源最少的节点池进行扩容。
    • priority:表示根据节点池启用 弹性伸缩 后设置的优先级,选择优先级最高的节点池进行扩容。

    弹性灵敏度

    用于判断集群弹性伸缩的时间间隔,支持取值:10s15s30s60s120s180s300s

    自动缩容

    是否开启节点的自动缩容:

    • 开启:当集群中有较多空闲节点资源时会触发缩容。仅对按量计费节点资源生效。
    • 不开启:节点扩容后,即使使用率下降,也不会自动缩容。

    启动污点

    单击 添加污点,配置启动污点。当节点上存在该污点时,系统认为该节点未完成初始化。

  2. (可选)自动缩容配置。当基础信息中打开了“自动缩容”开关后,您还需配置自动缩容配置。
    Image

    参数

    配置说明

    非GPU节点的缩容阈值

    当非 GPU 类型节点的 CPU、内存资源使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。默认 50%,可设置的数值范围0~100。

    说明

    非 GPU 类型节点的 CPU 或内存资源中任意一个达到缩容阈值,即可触发该规则。

    GPU节点的缩容阈值

    GPU 类型节点的缩容策略根据其是否使用 mGPU 能力,有不同的缩容策略,默认阈值为 50%:

    • 未使用 mGPU:当节点的 GPU 资源使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。
    • 已使用 mGPU:当 mGPU 的 GPU 算力、GPU 显存、内存、CPU 中任意一个资源的使用率(单资源请求量÷单资源总量*100%)低于该阈值时,可能会触发自动缩容。

    注意

    • mGPU 目前处于 公测 阶段,功能详细说明参见 mGPU 概述
    • 若VKE集群中已安装的 cluster-autoscaler 组件版本较低时,请升级组件。详细操作,请参见 升级组件;cluster-autoscaler 组件的发版记录,请参见 cluster-autoscaler

    缩容触发延迟

    当节点资源使用率低于阈值,并持续该时间段后,集群将触发自动缩容。默认 1 分钟。

    扩容后缩容冷却时间

    节点进行扩容后,能再次执行缩容所需等待的时间间隔。默认 10 分钟。

    缩容失败冷却时间

    节点缩容失败后,能再次执行缩容所需等待的时间间隔。默认 3 分钟。

    最大并发缩容数

    节点缩容时,允许同时进行缩容的并发数目。默认 5。

    Pod 终止超时时间

    节点排水时等待 Pod 终止的最大等待时间。整数形式,取值范围为 1~10000,单位为秒。默认为 600 秒。

    Pod 最小副本数

    节点排水时允许存在的最小 Pod 数量。整数形式,取值范围为 1~10000。默认为 0。

    Daemonset Pod 缩水

    节点缩容前是否驱逐节点上 DaemonSet 类型的 Pod。

    • 开启:表示节点缩容前,会首先驱逐节点上 DaemonSet 类型的 Pod。
    • 不开启:表示节点缩容前,不会驱逐节点上 DaemonSet 类型的 Pod。

    不缩容节点

    勾选不进行缩容的节点。可选项如下:

    • 包含本地储存 Pod 的节点。
    • 包含 kube-system 命名空间下非 DaemonSet 管理的 Pod 的节点。

启停弹性伸缩

配置完成弹性伸缩规则后,此规模默认“未开启”状态,您可以在弹性伸缩页签中,选择节点池启用或者关闭弹性伸缩。
Image

修改弹性伸缩配置

开启弹性伸缩规则后,您也可根据需要调整弹性伸缩规则。

  1. 进入集群的弹性伸缩配置页面后,单击节点池的弹性伸缩规则的操作列的配置按钮,进入配置修改页。
    Image

  2. 根据界面提示,修改节点数量和优先级。

    参数

    配置说明

    节点数量范围

    弹性伸缩期间允许动态调整的节点数量范围,默认为0~10

    优先级

    弹性扩容算法为Priority时,对优先级高的节点池进行扩容。数字越大,优先级越高。默认为10。

最近更新时间:2026.01.16 19:04:57
这个页面对您有帮助吗?
有用
有用
无用
无用