You need to enable JavaScript to run this app.
导航

监控概述

最近更新时间2024.02.29 11:18:35

首次发布时间2023.08.29 22:38:12

容器服务支持通过火山引擎云监控、托管 Prometheus 或 Kubernetes 监控方案,实现集群、基础资源和应用指标(Metrics)的采集、监控和告警。

云监控

火山引擎云监控服务是火山引擎云上一站式监控告警解决方案。可以收集并可视化展示各类云产品的资源状态,帮助您全面了解其健康状况。您可以将容器服务集群接入云监控产品,帮助您收集并可视化展示容器服务集群、节点、命名空间、工作负载、容器组和容器等多种资源状态。

说明

托管 Prometheus

火山引擎托管 Prometheus(Volcengine Managed Service for Prometheus,VMP)是完全继承和对接开源 Prometheus 生态,并托管在火山引擎云端的监控产品。您可以在火山引擎上快速创建逻辑隔离或物理隔离的云端存储。

与自建 Prometheus 环境相比,您无需手工下载、配置 Prometheus 环境,无需考虑维护海量数据的存储成本。同时,托管 Prometheus 兼容开源 Prometheus 的接口以及社区 Exporter 生态,提供免搭建、免运维的 Prometheus 集成环境,减少开发及运维成本。
alt

说明

容器服务接入托管 Prometheus 的主要特性如下表所示。

分类特性说明
安装部署采集组件prometheus-agent 组件。
高可用性非托管组件,组件支持分片、自动扩缩容。
数据保存时间不同规格工作区的时间不同,包括:15 天、30 天、60 天和 90 天

监控对象

集群监控

支持,监控对象更丰富,指标更全面。包括:

  • 基础资源:包括集群、节点、容器组、容器、存储卷等。
  • 控制面组件:包括 kube-apiserver、kube-scheduler、etcd 等。
  • 其他资源:包括 GPU、P2P 镜像加速、Nydus、RDMA 等。

其他云产品监控

不支持。

说明

允许通过云监控提供的数据导出 exporter,将云监控上的云产品监控数据实时导出到托管 Prometheus,实现业务监控数据和云产品监控数据的统一。详情请参见 导出云监控数据到托管 Prometheus

自定义监控

  • 支持自定义云原生应用监控。
  • 支持通过 Prometheus SDK 暴露应用指标,实现应用监控。

自建 Exporter 监控

  • 支持 Prometheus 开源社区提供多种类型的 Exporter,用于采集各种不同服务的指标。包括:数据库、硬件、消息中间件、存储系统、HTTP 服务器等。
  • 支持基于 Prometheus 开源社区提供的 Client Library 创建自定义的 Exporter。Prometheus 社区官方提供了对 Go、Java、Python、Ruby 等语言的支持。
指标查看预置大盘支持,种类丰富。
自定义大盘支持,基于开源 Grafana 搭建。
指标查询支持通过 Explore 查询指标。
告警中心指标告警支持。
告警分级支持。
告警模版支持。
告警通知方式邮箱、电话、Webhook、飞书、钉钉。

云原生观测

云原生观测方案是针对容器服务集群提供的一体化可观测性解决方案。在基础观测能力之上,提供了基于 eBPF 实现的代码零侵入指标采集方式,实现面向 Kubernetes 集群、资源、网络、应用和服务的指标和链路监控。主要特点如下:

  • 零侵入:基于 eBPF 实现代码零侵入,无需应用变更,无需重新编译内核。支持动态扩展的数据采集。
  • 协议无关:支持多语言、多通信协议,自动感知并解析应用层具体协议,覆盖软件栈端到端可观测性需求。
  • 动态加载:能够自动发现并关联资源元数据,自动丰富数据维度。
  • 立体化监控:支持资源层、L3/L4 网络层、L7 应用协议层多维度、立体化监控。
  • 链路监控:支持应用链路监控,提供应用的 RED 指标和网络指标监控。

同时,云原生观测方案的底层储存完全复用托管 Prometheus 服务,允许您将集群中的业务监控数据和基础资源数据进行汇聚,实现统一监控。还可以借助托管 Prometheus 的 Explore 功能和告警中心功能,实现监控指标的查询和告警。
alt

说明

kubernetes 监控的主要特性如下表所示。

分类特性说明
安装部署采集组件microscope-agent 组件、otel-collector 组件。
高可用性托管组件,支持高可用性。
数据保存时间不同规格工作区的时间不同,包括:15 天、30 天、60 天和 90 天。

监控对象

集群监控

零侵入、立体化监控,监控对象更丰富,指标更全面。包括:

  • 基础资源:包括集群、节点、工作负载、容器组、容器、存储卷等。
  • 控制面组件:包括 kube-apiserver、kube-scheduler、etcd 等。
  • RED 指标:请求速率、错误、耗时等。
  • 网络指标:入流量、出流量、TCP 重传、TCP 建连数、TCP 建连耗时、丢包率等。
指标查看预置大盘支持,种类丰富。
自定义大盘支持,基于开源 Grafana 搭建。
指标查询支持通过 Explore 查询指标。
告警中心指标告警支持。
告警分级支持。
告警模版支持。
告警通知方式邮箱、电话、Webhook、飞书、钉钉。