You need to enable JavaScript to run this app.
导航

云监控

最近更新时间2024.03.01 14:07:17

首次发布时间2023.08.29 22:38:12

云监控 是火山引擎云上一站式监控告警解决方案。可以帮助您收集并可视化展示容器服务集群、节点、命名空间、工作负载、容器组和容器等多种资源状态。本文为您介绍容器服务接入云监控的流程和步骤。

前提条件

  • 注册火山引擎平台账号,并完成实名认证、充值账户、授权等准备工作,详情请参见 准备工作
  • 保证账号余额不低于 100 元(含代金券,且除去代金券后余额不为零),以确保能够正常创建按量计费类型的资源。
  • 已开通容器服务、云监控服务。
  • 已创建容器服务集群,详情请参见 创建集群

接入云监控

在容器服务集群中安装云监控采集器组件,即可接入云监控。

  1. 登录 容器服务控制台
  2. 在左侧导航栏中选择 集群,单击选择目标集群。
  3. 在左侧导航栏中,选择 组件管理。单击 监控 页签。
    alt
  4. 将鼠标移动到 metrics-collector 组件上,选择该组件右上角的 ... > 安装,完成采集组件安装。
    alt

查看监控信息

  1. 登录云监控控制台
  2. 在左侧导航栏中,单击 云产品监控
  3. 在产品列表中选择 容器 > 容器服务,进入容器服务监控信息页面。
    alt
  4. 在资源选择下拉列表中,选择容器服务相关资源,即可查看具体资源监控信息。
    alt

集群

集群监控大盘展示了集群纬度的监控信息,包括当前账号下已接入云监控的集群,集群资源的总量信息和单个资源信息,包括:

  • 资源总量信息:告警概况、集群 CPU 使用率分布、集群内存使用率分布等。
  • 单个资源信息:单个集群的 CPU 用量、CPU 使用率、内存用量、内存使用率、节点数量等。
  1. 在资源选择下拉列表中,选择 集群,即可查看集群的监控信息。
    alt
  2. 在集群列表中,单击目标集群名称,即可查看详细的监控信息。支持设置查询的时间段。
    alt

命名空间

命名空间监控大盘展示了命名空间纬度的监控信息,包括当前账号下所有已接入云监控的集群中,命名空间资源总量信息和单个资源信息,包括:

  • 资源总量信息:告警概况、命名空间 CPU 用量分布、命名空间内存用量分布等。
  • 单个资源信息:单个命名空间的 CPU 用量、内存用量等。
  1. 在资源选择下拉列表中,选择 命名空间,即可查看命名空间的监控信息。
    alt
  2. 在命名空间列表中,单击目标命名空间的名称,即可查看详细的监控信息。支持设置查询的时间段。
    alt

节点

节点监控大盘展示了节点纬度的监控信息,包括当前账号下所有已接入云监控的集群中,节点资源总量信息和单个资源信息,包括:

  • 资源总量信息:告警概况、节点 CPU 使用率分布、节点内存使用率分布等。
  • 单个资源信息:单个命名空间的 CPU 用量、内存用量等。
  1. 在资源选择下拉列表中,选择 节点,即可查看节点的监控信息。
    alt
  2. 在节点列表中,单击目标节点的名称,即可查看详细的监控信息。支持设置查询的时间段。
    alt

存储卷声明

存储卷声明监控大盘展示了存储卷声明纬度的监控信息,包括当前账号下所有已接入云监控的集群中,存储卷声明总量信息和单个资源信息,包括:

  • 资源总量信息:告警概况、存储卷声明 inode 使用率分布、存储卷声明容量使用率分布等。

  • 单个资源信息:单个存储卷声明的容量使用率、inode 使用率等。

    说明

    因 CSI 组件的原因,对象存储类型的存储卷声明不会被监控到数据。

  1. 在资源选择下拉列表中,选择 存储卷声明,即可查看容器的监控信息。
    alt
  2. 在存储卷声明列表中,支持通过集群、命名空间筛选存储卷声明。单击目标存储卷声明的名称,即可查看详细的监控信息。支持设置查询的时间段。
    alt

工作负载

说明

本章节以无状态负载 Deployment 为例,其他类型工作负载的监控查看方式相同。

工作负载监控大盘展示了工作负载纬度的监控信息,包括当前账号下所有已接入云监控的集群中,工作负载总量信息和单个资源信息,包括:

  • 资源总量信息:告警概况、无状态负载 CPU 使用率分布、无状态负载内存使用率分布等。
  • 单个资源信息:单个工作负载的 CPU 用量、CPU 使用率、GPU 显存用量、GPU 显存使用率、内存用量、内存使用率等。
  1. 在资源选择下拉列表中,选择 工作负载 > 无状态负载,即可查看无状态负载的监控信息。
    alt
  2. 在工作负载列表中,支持通过集群和命名空间筛选工作负载。单击目标工作负载的名称,即可查看详细的监控信息。支持设置查询的时间段。
    alt

容器组

容器组监控大盘展示了容器组纬度的监控信息,包括当前账号下所有已接入云监控的集群中,容器组总量信息和单个资源信息,包括:

  • 资源总量信息:告警概况、容器组 CPU 使用率分布、容器组内存使用率分布等。
  • 单个资源信息:单个容器组的 CPU 用量、CPU 使用率、GPU 显存用量、GPU 显存使用率、内存用量、内存使用率等。
  1. 在资源选择下拉列表中,选择 容器组,即可查看容器组的监控信息。
    alt
  2. 在容器组列表中,支持通过集群、命名空间、工作负载类型、工作负载筛选容器组。单击目标容器组的名称,即可查看详细的监控信息。支持设置查询的时间段。
    alt

容器

容器监控大盘展示了容器纬度的监控信息,包括当前账号下所有已接入云监控的集群中,容器总量信息和单个资源信息,包括:

  • 资源总量信息:告警概况、容器 CPU 使用率分布、容器内存使用率分布等。
  • 单个资源信息:单个容器的 CPU 用量、CPU 使用率、GPU 显存用量、GPU 显存使用率、内存用量、内存使用率等。
  1. 在资源选择下拉列表中,选择 容器,即可查看容器的监控信息。
    alt
  2. 在容器列表中,支持通过集群、命名空间、工作负载类型、工作负载筛选容器。单击目标容器的名称,即可查看详细的监控信息。支持设置查询的时间段。
    alt

后续操作

查看指标

您可以使用云监控的 API 来查询指标数据。详情请参见 云产品监控指标

说明

容器服务在云监控中的指标与标准 Prometheus 不兼容。您无法基于云监控中提供的指标名,在 Grafana 中查找到正确的指标。如果您有使用 Grafana 的需求,建议您接入托管 Prometheus 产品,详情请参见 接入托管 Prometheus

配置告警

您可以使用云监控的告警中心配置相关告警。详情请参见 创建告警策略