You need to enable JavaScript to run this app.
导航

AI 套件组件管理

最近更新时间2023.11.08 17:38:25

首次发布时间2023.11.08 17:38:25

云原生 AI 套件提供独立的组件管理页面,支持统一管理 AI 套件相关组件的配置更新、卸载、升级等操作。

说明

邀测·申请试用】:该功能目前处于邀测阶段,如需使用,请提交申请。

前提条件

已开通云原生 AI 套件服务,并在开通服务时安装了相关组件。详细操作,请参见 开通 AI 套件

组件介绍

云原生 AI 套件中使用的组件及其说明如下所示。

组件名称AI 套件中的作用
rdma-device-pluginRDMA(Remote Direct Memory Access)设备插件,为 AI 套件中的 RDMA 高性能网络等各种异构资源提供接入、管理支持。
prometheus-agent托管 Prometheus 监控组件,为 AI 套件中的 GPU 资源提供监控指标数据采集能力,提升 AI 训练任务监控性能。

scheduler-plugin

拓展调度器组件,云原生 AI 套件的必装组件,主要作用如下:

  • 为批量计算任务提供 Gang 调度、Capacity 调度、拓扑感知调度、弹性资源优先级调度、负载感知调度等原生 kube-scheduler 调度器的调度能力。
  • 为 mGPU 共享场景提供 GPU 节点和 GPU 显卡的 binpack/spread 策略配置能力。
katalystAI 工作负载管理组件,应用于批量计算任务的拓扑感知调度,提供更加精细化的资源管理能力。
p2p-acceleratorp2p-accelerator 为基于 P2P 技术的容器镜像加速组件,image-accelerator 为基于 Nydus 技术的镜像懒加载组件。该两个组件主要应用于 AI 套件的性能加速模块,提升 AI 模型推理和计算的镜像构建、镜像拉取、数据访问等效率。
image-accelerator
nvidia-device-pluginAI 套件中的 GPU 设备管理组件,为面向 AI 业务的 IaaS 层的 NVIDIA GPU 资源,提供统一的 Kubernetes 原生接入和管理能力。
mgpuAI 套件中的共享 GPU 组件,提供 AI 套件中多容器间的显存、算力隔离能力,支持多个容器间共享 GPU 卡。

组件管理

云原生 AI 套件为相关组件提供更改配置、升级、卸载等管理能力。

注意

此处的组件管理相关操作,与集群 运维管理 > 组件管理 页面中的组件管理操作一致。因此,在执行升级、变更组件配置前请评估确认组件相关业务的影响,并了解组件变更差异。更多信息,请参见 组件变更配置差异说明

  1. 登录 容器服务控制台
  2. 单击左侧导航栏中的 集群
  3. 在集群列表页面,单击目标集群。
  4. 在集群管理页面的左侧导航栏中,选择 云原生 AI > 组件管理
  5. 云原生 AI 套件 页面,管理组件。
管理操作说明
更新配置在支持更新配置的组件模块中单击 配置,按照系统提示更新组件配置。详细的配置参数说明,请参见 安装组件

升级

在具有 可升级 标签的组件右上角,选择... > 升级,升级组件。

注意

  • 组件的各个版本变更说明、变更影响、版本维护状态等不同。升级组件前,请参见 组件发布记录,了解待升级组件的版本情况。
  • 需要二次配置的组件,请参见 安装组件 中的参数说明,配置参数并完成组件升级。

卸载

在已安装的组件右上角,选择... > 卸载,卸载组件。更多说明,请参见 卸载组件

注意

组件卸载后,可能导致集群的部分功无法正常使用,请谨慎操作。