You need to enable JavaScript to run this app.
容器服务

容器服务

复制全文
监控
使用托管 Prometheus 监控 VCI
复制全文
使用托管 Prometheus 监控 VCI

VCI 基于托管 Prometheus 服务(VMP)对 VCI 实例进行基础监控。本文主要介绍配置 VCI 监控指标采集规则和查询指标信息的方法。

前提条件

  • VCI 业务集群已开启云原生观测容器服务观测,详情请参见 开启云原生观测
  • VCI 业务集群中的 prometheus-agent 组件已经升级到 v2.2.0 及以上版本。详情请参见 组件发布记录

配置监控采集规则

当您将 VCI 业务集群正确开启云原生观测,并安装了对应的组件后,需要配置对应的采集规则,才能正确采集指标。下文主要描述 VCI 场景下配置监控采集规则的方法,详细的操作步骤和说明,请参见 容器服务观测AI 资源观测

  1. 登录 容器服务控制台
  2. 在左侧导航栏中选择 集群
  3. 在集群列表页面,单击目标集群。
  4. 在集群管理页面的左侧导航栏中,单击 观测配置
  5. 按需启用观测组件,并编辑配置 VCI 相关指标。详细的操作步骤和说明,请参见 容器服务观测AI 资源观测

    说明

    • VCI 场景下主要使用 容器服务AI 资源 观测组件。
    • 非 GPU(例如 CPU、内存、网络等)相关指标,可在 容器服务 组件中编辑配置。
    • GPU 相关指标,在 AI 资源 观测组件中编辑配置。
    • VCI 实例支持的详细监控指标,请参见 通过虚拟节点获取 VCI 监控指标VCI GPU 监控指标
    alt

查询监控指标

配置好监控采集规则后,可在托管 Prometheus 控制台查询 VCI 实例监控指标。详细的操作,请参见 指标查询

  1. 登录 VMP 服务控制台
  2. 在顶部导航栏,选择目标地域。
  3. 单击左侧导航栏的 Explore,进入 Explore 页面。
  4. 在右上角的配置项中,配置需要查询指标的 工作区查询时间段 和 数据刷新方式
  5. 使用 PromQL 查询语句查询 VCI 实例指标。
    • 通过虚拟节点查询 VCI 指标:$指标名称{node="$虚拟节点名称"},例如container_cpu_usage_seconds_total{node="vci-node1-cn-beijing-a"}
    • 查询 VCI GPU 指标:$指标名称{pod="$VCI 实例名称"},例如DCGM_FI_DEV_DEC_UTIL{pod="vci-ini2-d75d77bc5-82lch"}
  6. 单击 查询,即可查询相关的指标,并显示指标大盘。
最近更新时间:2024.09.24 18:54:44
这个页面对您有帮助吗?
有用
有用
无用
无用