You need to enable JavaScript to run this app.
导航

使用托管 Prometheus 监控自建集群中的 GPU

最近更新时间2024.04.23 15:06:38

首次发布时间2023.02.28 17:57:43

您可以使用托管 Prometheus 服务来监控自建集群集群节点中的 GPU,本文为您介绍配置的步骤和注意事项。

背景信息

Kubernetes 集群中,允许使用 dcgm-exporter 组件暴露 GPU 的 metrics。因此,您可以使用托管 Prometheus 来监控自建集群内节点中的 GPU 显卡的状态信息。

前提条件

  • 已在火山引擎注册并开通 VMP 服务。
  • 已创建自建 Kubernetes 集群,且集群中存在 GPU 节点。
  • 自建集群中已经正确安装 dcgm-exporter 组件。详情请参见 官网文档
  • 已在集群中正确创建 ServiceMonitor CRD 资源,详情请参见 如何在集群中创建 ServiceMonitor 等 CRD 资源?
  • 使用脚本时,需要使用本地环境(Linux/Mac)中的 wget、echo、curl 和 sed 工具,请保证您的系统中已经正确安装上述命令行工具。

操作步骤

步骤一:创建 VMP 工作区

  1. 登录 VMP 服务控制台
  2. 单击左侧导航栏的 工作区,进入工作区列表页面。
  3. 单击 创建工作区,配置工作区的基本信息、Basic Auth 认证、工作区类型。
    alt
  4. 确认配置无误后,勾选 我已阅读并同意《托管 Prometheus 专用服务条款》
  5. 单击 立即创建,等待系统完成工作区创建。

步骤二:部署采集器

  1. 在本地环境中下载脚本,详情请参见 获取脚本
  2. 执行以下命令,部署 VM Agent 采集器。
./install.sh \
--agent vmagent \ # 采集器类型。
--region cn-beijing \ # VMP 工作区所在地域。
--namespace volcano-metrics \ # 部署采集器的命名空间。
--remote-write-url http://write.prometheus-cn-beijing.ivolces.com/workspaces/b762e1a3-37***/api/v1/write \ # VMP 工作区的 URL 地址,并添加 api/v1/write 后缀。
--basic-auth-username username-demo \ # VMP 工作区 Basic Auth 认证模式下的认证用户名。
--basic-auth-password password-demo  # VMP 工作区 Basic Auth 认证模式下的认证密码。

步骤三:配置采集规则

  1. 登录 容器服务控制台
  2. 在左侧菜单栏中选择 集群,并在右侧集群列表中选择已经部署 VM Agent 采集器的集群。
  3. 单击集群名称,进入集群配置页面。
  4. 在左侧菜单栏中选择 工作负载 > 对象浏览器。 单击 使用 Yaml 创建 ,通过 ServiceMonitor 配置采集规则。
    • 类型 下拉菜单中选择 自定义
    • Yaml 配置框内输入 Yaml 配置。
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  name: gpu-discover # 配置采集规则名称
  namespace: default # 配置命名空间。不要求与采集器或 exporter 在相同空间
spec:
  endpoints:
  - port: metrics # 配置 service.yaml 中 Port 的 name 字段的值
    relabelings: # 配置指标的 relabel。如没有需求,可省略
    - targetLabel: environment 
      action: replace # 这个例子中我们添加一个固定 label:environment="Production"
      replacement: Production
  namespaceSelector:
    matchNames:
    - kube-system # 通过命名空间进行筛选,配置为 exporter 所在的命名空间。
  selector:
    matchLabels:
      app.kubernetes.io/name: dcgm-exporter # 使用标签选择采集对象,配置为 service.yaml 中的 Label 字段值。
  1. 单击 确定,完成配置。

结果验证

登录 Grafana ,使用 GPU 相关的 PromQL 语句创建 GPU 相关大盘,可以正常看到 GPU 监控信息。

说明

GPU 相关的 PromQL 语句,请参见 DCGM 常见指标