You need to enable JavaScript to run this app.
导航
监控概述
最近更新时间:2024.07.12 17:32:21首次发布时间:2023.08.29 22:38:12

容器服务支持通过火山引擎云监控或云原生观测方案,实现集群、基础资源和应用指标(Metrics)的采集、监控和告警。

云监控

火山引擎云监控服务是火山引擎云上一站式监控告警解决方案。可以收集并可视化展示各类云产品的资源状态,帮助您全面了解其健康状况。您可以将容器服务集群接入云监控产品,帮助您收集并可视化展示容器服务集群、节点、命名空间、工作负载、容器组和容器等多种资源状态。

说明

云原生观测

基础观测

基础观测基于火山引擎托管 Prometheus 服务,兼容开源 Prometheus 的接口以及社区 Exporter 生态,能够快速实现集群基础资源和用户业务的监控。

与自建 Prometheus 环境相比,您无需手工下载、配置 Prometheus 环境,无需考虑维护海量数据的存储成本,提供免搭建、免运维的 Prometheus 集成环境,减少开发及运维成本。
alt

网络和应用观测

网络和应用观测方案是针对容器服务集群提供的一体化可观测性解决方案。在基础观测能力之上,提供了基于 eBPF 实现的代码零侵入指标采集方式,实现面向 Kubernetes 集群、资源、网络、应用和服务的指标和链路监控。主要特点如下:

  • 零侵入:基于 eBPF 实现代码零侵入,无需应用变更,无需重新编译内核。支持动态扩展的数据采集。
  • 协议无关:支持多语言、多通信协议,自动感知并解析应用层具体协议,覆盖软件栈端到端可观测性需求。
  • 动态加载:能够自动发现并关联资源元数据,自动丰富数据维度。
  • 立体化监控:支持资源层、L3/L4 网络层、L7 应用协议层多维度、立体化监控。
  • 链路监控:支持应用链路监控,提供应用的 RED 指标和网络指标监控。

alt

说明

方案对比

云原生观测中基础观测、网络和应用观测的的特性对比,如下表所示。

分类特性基础观测网络和应用观测
安装部署采集组件prometheus-agent 组件。microscope-agent 组件、otel-collector 组件。
高可用性非托管组件,组件支持分片、自动扩缩容。托管组件,支持高可用性。
数据存储基于托管 Prometheus 实现数据存储,支持不同规格的工作区,详情参见 工作区规格

监控对象

集群监控

集群基础资源、自定义应用监控。包括:

  • 基础资源:包括集群、节点、工作负载、容器组、容器、存储卷等。
  • 控制面组件:包括 kube-apiserver、kube-scheduler、etcd 等。
  • 其他资源:包括 GPU、P2P 镜像加速、Nydus、RDMA 等。

网络和应用监控,包括:

  • RED 指标:请求速率、错误、耗时等。
  • 网络指标:入流量、出流量、TCP 重传、TCP 建连数、TCP 建连耗时、丢包率等。
  • 网络拓扑:支持构建集群 Workload 资源网络拓扑。

自定义监控

  • 支持自定义云原生应用监控。
  • 支持通过 Prometheus SDK 暴露应用指标,实现应用监控。

-

自建 Exporter 监控

  • 支持 Prometheus 开源社区提供多种类型的 Exporter,用于采集各种不同服务的指标。包括:数据库、硬件、消息中间件、存储系统、HTTP 服务器等。
  • 支持基于 Prometheus 开源社区提供的 Client Library 创建自定义的 Exporter。Prometheus 社区官方提供了对 Go、Java、Python、Ruby 等语言的支持。

-

指标查看预置大盘支持,种类丰富。
自定义大盘支持,基于开源 Grafana 搭建。
指标查询支持通过 Explore 查询指标。
告警中心指标告警支持。
告警分级支持。
告警模版支持。
告警静默支持。
告警通知方式邮箱、电话、Webhook、飞书、钉钉、企业微信等。