AI 套件组件管理--容器服务-火山引擎

文档中心

立即注册

导航

容器服务

AI 套件组件管理

最近更新时间：2024.08.09 15:42:27首次发布时间：2023.11.08 17:38:25

云原生 AI 套件提供独立的组件管理页面，支持统一管理 AI 套件相关组件的配置更新、卸载、升级等操作。

说明

该功能目前处于公测阶段。

前提条件

已开通云原生 AI 套件服务，并在开通服务时安装了相关组件。详细操作，请参见开通 AI 套件。

组件介绍

云原生 AI 套件中使用的组件及其说明如下所示。

组件名称	AI 套件中的作用
rdma-device-plugin	RDMA（Remote Direct Memory Access）设备插件，为 AI 套件中的 RDMA 高性能网络等各种异构资源提供接入、管理支持。
prometheus-agent	托管 Prometheus 监控组件，为 AI 套件中的 GPU 资源提供监控指标数据采集能力，提升 AI 训练任务监控性能。
scheduler-plugin	拓展调度器组件，云原生 AI 套件的必装组件，主要作用如下：为批量计算任务提供 Gang 调度、Capacity 调度、拓扑感知调度、弹性资源优先级调度、负载感知调度等原生 kube-scheduler 调度器的调度能力。为 mGPU 共享场景提供 GPU 节点和 GPU 显卡的 binpack/spread 策略配置能力。
katalyst	AI 工作负载管理组件，应用于批量计算任务的拓扑感知调度，提供更加精细化的资源管理能力。
p2p-accelerator	p2p-accelerator 为基于 P2P 技术的容器镜像加速组件，image-accelerator 为基于 Nydus 技术的镜像懒加载组件。该两个组件主要应用于 AI 套件的性能加速模块，提升 AI 模型推理和计算的镜像构建、镜像拉取、数据访问等效率。
image-accelerator
nvidia-device-plugin	AI 套件中的 GPU 设备管理组件，为面向 AI 业务的 IaaS 层的 NVIDIA GPU 资源，提供统一的 Kubernetes 原生接入和管理能力。
mgpu	AI 套件中的共享 GPU 组件，提供 AI 套件中多容器间的显存、算力隔离能力，支持多个容器间共享 GPU 卡。
commit-agent	AI 套件中的镜像构建组件，支持将通过交互式工作站对应 Jupyter Notebook 构建的镜像，快速保存为容器镜像。

组件管理

云原生 AI 套件为相关组件提供更改配置、升级、卸载等管理能力。

注意

此处的组件管理相关操作，与集群 组件管理 页面中的组件管理操作一致。因此，在执行升级、变更组件配置前请评估确认组件相关业务的影响，并了解组件变更差异。更多信息，请参见组件变更配置差异说明。

登录容器服务控制台。
单击左侧导航栏中的集群。
在集群列表页面，单击目标集群。
在集群管理页面的左侧导航栏中，选择 云原生 AI > 组件管理。
在 云原生 AI 套件 页面，管理组件。

管理操作	说明
更新配置	在支持更新配置的组件模块中单击配置，按照系统提示更新组件配置。详细的配置参数说明，请参见安装组件。
升级	在具有可升级标签的组件右上角，选择`...` > 升级，升级组件。注意组件的各个版本变更说明、变更影响、版本维护状态等不同。升级组件前，请参见组件发布记录，了解待升级组件的版本情况。需要二次配置的组件，请参见安装组件中的参数说明，配置参数并完成组件升级。
卸载	在已安装的组件右上角，选择`...` > 卸载，卸载组件。更多说明，请参见卸载组件。注意组件卸载后，可能导致集群的部分功无法正常使用，请谨慎操作。