You need to enable JavaScript to run this app.
容器服务

容器服务

复制全文
云原生 AI 套件
AI 套件组件管理
复制全文
AI 套件组件管理

云原生 AI 套件提供独立的组件管理页面,支持统一管理 AI 套件相关组件的配置更新、卸载、升级等操作。

说明

该功能目前处于 公测 阶段。

前提条件

已开通云原生 AI 套件服务,并在开通服务时安装了相关组件。详细操作,请参见 开通 AI 套件

组件介绍

云原生 AI 套件中使用的组件及其说明如下所示。

组件名称AI 套件中的作用
rdma-device-pluginRDMA(Remote Direct Memory Access)设备插件,为 AI 套件中的 RDMA 高性能网络等各种异构资源提供接入、管理支持。
prometheus-agent托管 Prometheus 监控组件,为 AI 套件中的 GPU 资源提供监控指标数据采集能力,提升 AI 训练任务监控性能。

scheduler-plugin

拓展调度器组件,云原生 AI 套件的必装组件,主要作用如下:

  • 为批量计算任务提供 Gang 调度、Capacity 调度、拓扑感知调度、弹性资源优先级调度、负载感知调度等原生 kube-scheduler 调度器的调度能力。
  • 为 mGPU 共享场景提供 GPU 节点和 GPU 显卡的 binpack/spread 策略配置能力。
katalystAI 工作负载管理组件,应用于批量计算任务的拓扑感知调度,提供更加精细化的资源管理能力。
p2p-acceleratorp2p-accelerator 为基于 P2P 技术的容器镜像加速组件,image-accelerator 为基于 Nydus 技术的镜像懒加载组件。该两个组件主要应用于 AI 套件的性能加速模块,提升 AI 模型推理和计算的镜像构建、镜像拉取、数据访问等效率。
image-accelerator
nvidia-device-pluginAI 套件中的 GPU 设备管理组件,为面向 AI 业务的 IaaS 层的 NVIDIA GPU 资源,提供统一的 Kubernetes 原生接入和管理能力。
mgpuAI 套件中的共享 GPU 组件,提供 AI 套件中多容器间的显存、算力隔离能力,支持多个容器间共享 GPU 卡。
commit-agentAI 套件中的镜像构建组件,支持将通过交互式工作站对应 Jupyter Notebook 构建的镜像,快速保存为容器镜像。

组件管理

云原生 AI 套件为相关组件提供更改配置、升级、卸载等管理能力。

注意

此处的组件管理相关操作,与集群 组件管理 页面中的组件管理操作一致。因此,在执行升级、变更组件配置前请评估确认组件相关业务的影响,并了解组件变更差异。更多信息,请参见 组件变更配置差异说明

  1. 登录 容器服务控制台
  2. 单击左侧导航栏中的 集群
  3. 在集群列表页面,单击目标集群。
  4. 在集群管理页面的左侧导航栏中,选择 云原生 AI > 组件管理
  5. 云原生 AI 套件 页面,管理组件。
管理操作说明
更新配置在支持更新配置的组件模块中单击 配置,按照系统提示更新组件配置。详细的配置参数说明,请参见 安装组件

升级

在具有 可升级 标签的组件右上角,选择... > 升级,升级组件。

注意

  • 组件的各个版本变更说明、变更影响、版本维护状态等不同。升级组件前,请参见 组件发布记录,了解待升级组件的版本情况。
  • 需要二次配置的组件,请参见 安装组件 中的参数说明,配置参数并完成组件升级。

卸载

在已安装的组件右上角,选择... > 卸载,卸载组件。更多说明,请参见 卸载组件

注意

组件卸载后,可能导致集群的部分功无法正常使用,请谨慎操作。

最近更新时间:2024.08.09 15:42:27
这个页面对您有帮助吗?
有用
有用
无用
无用