云原生可观测服务能够提供免运维、高性能、高稳定的集群观测与告警服务。本文为您介绍如何开启集群中的云原生观测功能。
云原生可观测功能基于托管 Prometheus 服务实现,使用 prometheus-agent 组件实现集群中的基础资源观测。因此,开启云原生可观测功能时,首先需要创建托管 Prometheus 工作区,并在集群中安装 prometheus-agent 组件。
云原生可观测使用 prometheus-agent 组件作为集群基础资源观测使用的采集器,当您在集群中安装 prometheus-agent 组件时,会同时安装 vm-agent、vmoperator、kube-state-metrics 和 node-exporter 组件。每个组件的名称、类型和作用如下表所示。
组件名称 | 负载类型 | 命名空间 | 说明 |
---|---|---|---|
vmagent-prometheus-agent | StatefulSet | kube-system | 采集器组件,采集集群内 kubelet、kubelet-cadvisor 、kube-state-metrics 、node-exporter、dcgm、ingress-nginx、p2p-accelerator 等暴露的指标。 |
prometheus-agent-vmoperator | Deployment | kube-system | vm-agent 控制组件。 |
prometheus-agent-kube-state-metrics | StatefulSet | kube-system | 提供 Kubernetes 资源信息指标数据。 |
prometheus-agent-node-exporter | DaemonSet | kube-system | 提供节点资源信息指标数据。 |
prometheus-agent 组件允许您自定义其资源和分片数,组件的分片数和规格与集群规模相关,您可以基于集群规模,配置组件的初始(最小)分片数。
vm-agent 采集器和 kube-state-metrics 组件在不同规模集群中的推荐初始(最小)分片数如下表所示。
集群规模 | vm-agent 初始(最小)分片数 | kube-state-metrics 初始(最小)分片数 |
---|---|---|
10 Node,500 Pod | 1 | 1 |
100 Node,5000 Pod | 2 | 2 |
200 Node,10000 Pod | 4 | 4 |
500 Node,25000 Pod | 10 | 10 |
说明
您也可以在创建集群时,绑定托管 Prometheus 工作区,详情请参见 创建集群。
...
> 安装。参数 | 描述 |
---|---|
部署方式 | 组件的部署方式。当前该参数已固定,不可配置。 |
部署形态 | 容器网络模型为 VPC-CNI 的集群显示该参数。部署组件的节点类型,有如下两种方式:
|
vm-agent 资源 | 配置 vm-agent 采集器的默认资源配置,包括:CPU 请求、CPU 上限、内存请求、内存上限。 |
kube-state-metrics 资源配置 | 配置 kube-state-metrics 组件的默认资源配置,包括:CPU 请求、CPU 上限、内存请求、内存上限。 说明 由于 kube-state-metrics 组件本身存在的限制(例如:每个组件实例允许采集的 Target 数量有限),在大规模集群中,建议优先使用增加分片数的方式,提升 kube-state-metrics 组件的指标采集能力。 |
参数 | 描述 |
---|---|
vm-agent 初始分片数 | 配置 vm-agent 采集器的初始分片数。 |
kube-state-metrics 初始分片数 | 配置 kube-state-metrics 组件的初始分片数。 |
组件扩缩容 | 配置是否开启 vm-agent 采集器和 kube-state-metrics 组件的自动扩缩容功能。
注意
|
部署插件 | 配置是否同步安装 node-exporter 插件,默认安装插件。该插件用于采集节点操作系统的各项软硬件指标;如果不安装,则无法监控节点指标。建议您保持默认值。 说明 node-exporter 插件以 Daemonset 方式部署。因此,当您在弹性容器实例 VCI 场景中安装时,该插件会被部署在 ECS 节点上。更多信息,请参见 VCI 使用限制。 |
注意
开启云原生观测功能后,再次进入 云原生观测 > 概览 页面,您可以查看集群概况信息,包括:节点监控信息和工作负载应用性能信息。
节点监控信息提供了集群中所有节点的状态信息和资源使用信息。
工作负载应用性能概况提供了集群中所有工作负载的性能信息,包括:错误率、响应时间(P90)等。