You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

使用托管 Prometheus 监控 VKE 集群

最近更新时间2023.08.29 16:55:51

首次发布时间2022.04.21 21:40:15

本文介绍如何使用托管 Prometheus 监控容器服务(VKE) 集群。

本文采用最简单的方式,介绍了如何快速地完成托管 Prometheus 工作区配置、采集器部署。相关组件均采用了默认规格,也未涉及挂载持久存储等操作。目的是方便您能够了解托管 Prometheus 的使用流程,并快速上手产品的使用。

前提条件

  • 已在火山引擎注册并开通 VMP、VKE 服务。
  • 已创建集群,详情请参见 创建集群

配置步骤

步骤一:创建托管 Prometheus 工作区

  1. 登录 VMP 服务控制台
  2. 在顶部导航栏,选择目标地域。
  3. 单击左侧导航栏的 工作区,进入工作区列表页面。
  4. 单击 创建工作区,配置工作区的基本信息、Basic Auth 认证、工作区类型。
    alt
  5. 确认配置无误后,勾选 我已阅读并同意《托管 Prometheus 专用服务条款》
  6. 单击 立即创建,等待系统完成工作区创建。

步骤二:集群绑定工作区

  1. 登录 容器服务控制台
  2. 在顶部导航栏,选择您业务所在地域。
  3. 在左侧导航栏单击 集群,找到目标集群,单击集群名称。
  4. 在集群 基本信息 页面,单击 运维配置 页签。在配置页面中单击 进行配置 链接。
    alt
  5. 在弹出的配置框内,选择与集群绑定的托管 Prometheus 工作区。
    alt

    说明

    您也可以在创建集群时,绑定托管 Prometheus 工作区,详情请参见 创建集群

步骤三:部署采集器

  1. 登录 容器服务控制台
  2. 在左侧导航栏中选择 集群,单击需要配置的目标集群,进入集群管理页面。
  3. 左侧导航栏中,选择 运维管理 > 组件管理
  4. 选择 监控 页签,找到 prometheus-agent 组件,选择该组件右上角的 ... > 安装
    alt
  5. 配置组件的相关参数。
    alt
    参数描述
    部署方式组件的部署方式。当前该参数已固定,不可配置。

    部署形态

    容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:

    • 云服务器部署:表示在集群中的云服务器节点(Node)上部署该组件。
    • 弹性容器部署:表示在集群中的弹性容器实例(VCI),即虚拟节点(VirtualNode)上部署该组件。在弹性容器实例上部署组件,会产生费用,详细的费用说明,请参见 弹性容器实例产品计费
    vm-agent 资源配置 vm-agent 采集器的默认资源配置,包括:CPU 请求、CPU 上限、内存请求、内存上限。

    kube-state-metrics 资源配置

    配置 kube-state-metrics 组件的默认资源配置,包括:CPU 请求、CPU 上限、内存请求、内存上限。

    说明

    由于 kube-state-metrics 组件本身存在的限制(例如:每个组件实例允许采集的 Target 数量有限),在大规模集群中,建议优先使用增加分片数的方式,提升 kube-state-metrics 组件的指标采集能力。

    vm-agent 初始分片数配置 vm-agent 采集器的初始分片数。
    kube-state-metrics 初始分片数配置 kube-state-metrics 组件的初始分片数。

    组件扩缩容

    配置是否开启 vm-agent 采集器和 kube-state-metrics 组件的自动扩缩容功能。

    • 不开启:组件的分片数为配置的初始分片数。不会随着资源占用率的提升而自动扩容。
    • 开启:需要配置组件的最大分片数。组件会基于资源占用率自动扩缩容,具体逻辑如下:
      • vm-agent 扩容:任一资源(CPU 或内存)使用率 > 70% 时,自动扩容。
      • vm-agent 缩容:全部资源(CPU 和内存)使用率均 < 30% 时,自动缩容。
      • kube-state-metrics 扩容:任一资源(CPU 或内存)使用率 > 70% 时,自动扩容。
      • kube-state-metrics 缩容:全部资源(CPU 和内存)使用率均 < 70% 时,自动缩容。

    注意

    • vm-agent 扩缩容冷却时间为 30 分钟。kube-state-metrics 基于 HPA 进行扩缩容量。
    • 配置组件自动扩缩容功能后,请保证集群资源充足,否则可能由于资源不足,导致组件扩容失败。
    • vm-agent 采集器和 kube-state-metrics 组件扩容时,为保证均衡负载,建议配置 kube-state-metrics 组件的分片数为 vm-agent 采集器分片数的整数倍,例如:kube-state-metrics 组件分片数vm-agent 采集器分片数1:12:1 等。

    部署插件

    配置是否同步安装 node-exporter 插件,默认安装插件。该插件用于采集节点操作系统的各项软硬件指标;如果不安装,则无法监控节点指标。建议您保持默认值。

    说明

    node-exporter 插件以 Daemonset 方式部署。因此,当您在弹性容器实例 VCI 场景中安装时,该插件会被部署在 ECS 节点上。更多信息,请参见 VCI 使用限制

    注意

    • 当 Prometheus-agent 组件为 v2.0.1 及以前 版本时,您还需要配置组件的托管 Prometheus 工作区,并配置工作区的认证用户名和密码。
    • 当您配置组件的工作区时,需要保证配置的工作区与集群绑定的工作区一致。否则将无法在 Prometheus 监控 页面中,查看集群监控的指标和大盘。
  6. 单击 确定,完成配置。

检查结果

在左侧导航栏中,选择 运维管理 > Prometheus 监控。即可查看集群、节点、容器、存储等集群资源的详细监控信息。详情请参见 Prometheus 监控
alt

说明

  • 如果您想要查询具体的指标,可以使用托管 Prometheus 的 Explore 功能,详情请参见 指标查询
  • 如果您想要自定义监控指标和大盘,可以将托管 Prometheus 工作区的数据接入自建 Grafana。详情请参见 将托管 Prometheus 数据接入自建 Grafana