容器服务提供托管节点池能力,以节点池为载体,以简单高效的方式帮助用户提升 GPU 型计算资源的故障管理能力,提升节点池资源利用率,使用户能够更简单地完成节点池日常运维工作。
托管节点池支持配置检查自愈功能,并提供系统推荐规则,方便用户选用。推荐规则基于节点池是否为 GPU 节点池,采取不同的检查项和自愈动作。
GPU 节点池推荐规则的检查项和自愈动作,如下表所示。
检查项 | 是否检查 | 开启自愈 | 自愈动作 |
---|---|---|---|
GPU 掉卡故障 | 是 | 开启 | 节点封锁 |
GPU 内部故障 | 是 | 开启 | 节点封锁 |
GPU 可恢复的内存故障 | 是 | 开启 | 节点封锁 |
GPU 不可恢复的内存故障 | 是 | 开启 | 节点封锁 |
GPU 运行时故障 | 是 | 开启 | 节点封锁 |
GPU 运行时警告 | 是 | 开启 | 节点封锁 |
GPU 链路故障 | 是 | 开启 | 节点封锁 |
GPU 链路性能下降 | 是 | 开启 | 节点封锁 |
GPU 驱动故障 | 是 | 开启 | 节点封锁 |
GPU 驱动警告 | 是 | 开启 | 节点封锁 |
ECS 故障 | 否 | - | - |
节点 Not Ready | 否 | - | - |
Kubelet 故障 | 是 | 开启 | 重启 kubelet 服务 |
Runtime 故障 | 是 | 开启 | 重启 containerd 服务 |
时间同步服务异常 | 是 | 开启 | 重启 chrony 服务 |
节点文件系统只读 | 否 | - | - |
节点内核故障 | 否 | - | - |
节点内核死锁 | 否 | - | - |
非 GPU 节点池推荐规则的检查项和自愈动作,如下表所示。
检查项 | 是否检查 | 开启自愈 | 自愈动作 |
---|---|---|---|
GPU 掉卡故障 | 否 | - | - |
GPU 内部故障 | 否 | - | - |
GPU 可恢复的内存故障 | 否 | - | - |
GPU 不可恢复的内存故障 | 否 | - | - |
GPU 运行时故障 | 否 | - | - |
GPU 运行时警告 | 否 | - | - |
GPU 链路故障 | 否 | - | - |
GPU 链路性能下降 | 否 | - | - |
GPU 驱动故障 | 否 | - | - |
GPU 驱动警告 | 否 | - | - |
ECS 故障 | 否 | - | - |
节点 Not Ready | 否 | - | - |
Kubelet 故障 | 是 | 开启 | 重启 kubelet 服务 |
Runtime 故障 | 是 | 开启 | 重启 containerd 服务 |
时间同步服务异常 | 是 | 开启 | 重启 chrony 服务 |
节点文件系统只读 | 否 | - | - |
节点内核故障 | 否 | - | - |
节点内核死锁 | 否 | - | - |
已创建集群。具体操作,请参见 创建集群。
登录 容器服务控制台。
在容器服务的左侧导航栏,选择 集群。
在集群列表,单击目标集群名称。
在集群管理页面的左侧导航栏,选择 节点管理 >节点池。
单击节点池列表左上角的 创建节点池,从系统弹出的对话框中选中 托管节点池,然后单击 确定。
根据系统提示并参考以下示例,配置托管节点池相关参数。
配置项 | 说明 |
---|---|
名称 | 根据系统提示的命名规则,自定义节点池名称。同一个集群内,节点池名称须唯一。 |
计费方式 | 节点对应云服务器(ECS)资源的收费模式:
说明 云服务器(ECS)资源的计费详情,请参见 产品计费。 |
弹性伸缩 | 默认不启用。勾选启用后节点池支持弹性伸缩能力,需要配置以下参数:
注意 开启 弹性伸缩 后,您还需要配置弹性伸缩规则,才能实现节点的弹性伸缩。详细操作,请参见 节点弹性伸缩。 |
节点池标签 | 自定义的资源标签,用于从不同维度对具有相同特征的节点池进行分类、搜索和聚合,能够灵活管理节点池。 |
配置项 | 说明 |
---|---|
可用区 | 可用区是同一地域下电力、网络隔离的物理区域,可用区之间内网互通,不同可用区之间物理隔离。不同地域支持的可用区不同,详情请参见 地域和可用区。
|
子网 | 系统将根据所选可用区筛选可用的子网列表,选择可用区范围内一个和多个子网,为节点提供网络支撑。
说明
|
多子网调度策略 | 为节点池中的多个子网设置调度优先级,用于在 Worker 节点扩容时按照子网优先级顺序进行调度。有如下两种策略:
|
计算规格 | 系统会根据所选子网筛选可用的计算规格列表,并按照所选计算规格定义节点的计算资源配置。各计算规格的详细说明,请参见 实例规格清单。
注意
|
高性能计算集群 | 计算规格 选择 高性能计算 GPU 型 规格后显示该参数。 注意
|
节点数量 | 配置集群起始节点数量,为工作负载运行提供计算存储等资源。
注意 在不同业务(VKE 或 ECS)侧对节点进行操作时,期望的节点数量会有不同变化。详情请参见 FAQ。 |
ECS 实例标签 | 容器服务为新增的 ECS 实例绑定火山引擎平台标签,用于搜索、管理 ECS 实例。 说明 后续节点池扩容后新增的节点,将绑定该 ECS 实例标签。 |
项目 | 为托管节点池指定所属项目,从项目纬度管理节点池资源的运维、授权等操作。默认选择 default(默认项目)。更多项目相关操作和说明,请参见 项目管理。 |
配置项 | 说明 |
---|---|
系统镜像 | 根据实际情况,选择节点使用的系统镜像,包括:公共镜像、自定义镜像、共享镜像。
注意
|
启动时安装批量作业 Agent | 默认安装 Agent,不支持修改。托管节点池使用 Agent 进行节点管理,方便该节点池中节点的故障监测和自愈。 |
系统云盘 | 提供操作系统运行、日志存储相关工作需要使用的存储空间。 说明
|
数据盘 | 提供额外存储空间,可用于日常工作中的数据存储。单个节点最多可挂载 15 块数据盘。
|
配置项 | 说明 |
---|---|
检查和自愈 | 【邀测·申请试用】配置是否开启节点检查自愈功能。
|
检查和自愈规则 | 【邀测·申请试用】配置节点池的检查和自愈规则,包括:
说明 当节点池使用 推荐规则 时,系统会自动生成检查自愈规则,其名称格式为:
|
配置项 | 说明 |
---|---|
安全组 | 为保证集群和节点本身功能的正常运作,容器服务默认提供一个安全组(命名格式为 若需要添加自定义安全组规则,请勿与集群默认安全组规则冲突。集群默认安全组相关说明,请参见 集群默认安全组。 说明 自定义安全组时,单个节点池最多支持关联 4 个安全组。 |
登录方式 | 配置节点登录方式,以确保容器服务集群内节点可以登录。
|
安全加固 | 配置主机安全加固。
|
配置项 | 说明 |
---|---|
节点标签 (Labels) | 对应 Kubernetes 中的 Label,能够为节点定义不同的属性,方便批量筛选等需求,可为节点池中的节点批量添加相同标签。 单击 添加节点标签,根据界面提示输入 键 和 值。 注意 自定义的节点标签,不能与系统标签重复。系统标签说明,请参见 系统标签和污点。 |
节点污点 (Taints) | 污点(Taints)能够使节点排斥某些特定的 Pod,避免 Pod 调度到该节点上,可为节点池中的节点批量添加相同污点。
注意 自定义的节点污点,不能与系统污点重复。系统污点说明,请参见 系统标签和污点。 |
节点标签及污点自动更新 | 配置节点标签和污点的自动更新功能。
注意 关闭节点标签和污点自动更新功能,可能导致某些使用固定节点标签的功能异常,请谨慎操作! |
配置项 | 说明 |
---|---|
Kubelet 自定义参数 | 配置节点池中节点的 kubelet 自定义参数,用于调整节点行为。详细操作,请参见 kubelet 自定义参数。 |
节点名称自定义 | 默认不开启,开启后设置 节点名称前缀,用于在容器服务或云服务器中快速识别节点。后续该节点池中新增扩容的节点将自动使用此处定义的节点名称前缀。 |
抢占式实例补偿 | 计费方式 选择 抢占式实例 后显示该参数。开启后,在抢占式实例回收前 5 分钟左右,将主动创建新实例进行替换。更多说明,请参见 抢占式实例节点池。 |
按量实例补充抢占式容量 | 计费方式 选择 抢占式实例 后显示该参数。开启后,当抢占式实例因库存、价格等原因不足时,将使用按量实例进行补充。按量实例运行期间,即使抢占式实例符合条件也不会进行再次均衡,仅在当前节点池缩容时,优先释放这部分按量实例。更多说明,请参见 抢占式实例节点池。 |
节点分布比例策略 | 计费方式 选择 抢占式实例 后显示该参数。开启后,设置节点池中按量实例和抢占式实例的比例。更多说明,请参见 抢占式实例节点池。 |
节点元数据名称自定义 | 默认不开启,开启后设置 节点元数据名称前缀(metadata.name),用于在监控、告警等外部系统中标识资源。后续该节点池中新增扩容的节点将自动使用此处定义的节点元数据名称前缀。 |
镜像懒加载 | 【邀测·申请试用】默认不开启。开启后,节点池中的节点具备按需使用容器加速镜像的能力。更多说明,请参见 容器镜像懒加载方案。 注意 仅 Containerd 版本为 1.4.13-vke.3 及以上版本的节点才可用该功能。Containerd 版本查看方法,请参见 FAQ。 |
部署执行脚本 | 输入 Shell 格式的脚本,节点部署 Kubernetes 组件后将自动执行该脚本。需要您自行实现脚本命令,并保证脚本的可重入及重试逻辑。脚本及其日志文件可在节点的/usr/local/vke/userscripts 目录下查看。该功能常用于修改 kubelet 配置参数等场景。 |
节点自动绑定公网 IP | 是否为集群中的节点自动绑定公网 IP(EIP):
说明
|
封锁节点 | 默认不开启。开启封锁节点后,将节点池中的节点调整到已封锁且不可调用状态,新创建的 Pod 无法调度到该节点池中的节点上,已经运行在该节点上的 Pod 不受影响。可手动执行 |
单击页面右下角 下一步:确认配置,确认配置。
请仔细阅读 《容器服务专用服务条款》 并勾选同意,单击页面右下角 确定 ,完成创建节点池并添加相关配置。
托管节点池创建完成后,您可以使用资源监控功能,查看节点池资源的使用情况。