控制面服务观测允许您监控集群控制面核心组件的工作状态。本文为您介绍如何配置控制面服务观测功能。 ## 前提条件已开启云原生观测功能，详情请参见 [开启观测](https://www.volcengine.com/docs/6460/1213992)。 ## 操作步骤 ### 步骤一：开启观测 1. 登录 [容器服务控制台](https://console.volcengine.com/vke)。 2. 在左侧导航栏单击 **集群**，找到目标集群，单击集群名称。 3. 在集群管理页面的左侧导航栏中，单击 **观测配置**，并选择 **基础观测** 页签。 4. 选择 **控制面服务** 卡片，单击 **启用**，开启控制面服务观测。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_4051681d5b42d37db2871091f827344e.png) 5. 系统自动检查开启控制面服务观测所需的必要条件。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_9cff4eb8ee8fb53e70e01fb967a68a79.png) 6. 单击 **开启**，开启控制面服务观测。 ### 步骤二：配置采集规则控制面组件监控开启后，您可以配置采集规则，选择需要采集的目标组件、具体指标项及采集间隔。可以根据实际需求丢弃一些不用的指标。 1. 在集群管理页面的左侧导航栏中，单击 **观测配置**，并选择 **基础观测** 页签。 2. 选择 **控制面服务** 卡片，单击 **编辑配置** 并选择 **指标** 页签，在组件列表 **操作** 列，单击开关，开启或关闭组件的采集规则。当关闭组件的采集规则时，系统不会采集该组件的所有指标。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_f2b33a26232c973c198fa7615032f214.png) 3. 单击 **确认**，完成配置。 ### 步骤三：配置告警您可以基于预置的告警模板，快速完成控制面服务观测的告警配置。 1. 在集群管理页面的左侧导航栏中，单击 **观测配置**，并选择 **基础观测** 页签。 2. 选择 **控制面服务** 卡片，单击 **编辑配置** 并选择 **告警** 页签，配置告警的相关参数。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_bf0562d2efc7b9ffffb4df36eec20efe.png) |配置项 |说明 | |---|---| |告警模版 |单击开启需要的告警模版。 | |告警聚合策略 |在下拉菜单中选择告警聚合策略。详情请参见 [创建告警聚合策略](https://www.volcengine.com/docs/6731/159019)。 | |告警通知策略 |在下拉菜单中选择告警通知策略。系统会使用通知策略中配置的告警等级和联系人组，将告警发送给指定的联系人。详情请参见 [创建告警通知策略](https://www.volcengine.com/docs/6731/159013)。 | 3. 单击 **确定**，完成配置。

说明

如果告警模板无法满足您的要求，也可以在托管 Prometheus 的告警中心配置自定义告警，详情请参见创建告警规则。

## 观测看板

说明

预置看板中为您提供监控数据同比对照、复制看板语句等功能，详情请参见使用看板。

### kube\-apiserver 监控配置控制平面组件监控后，您可以查看控制面组件的指标大盘。设置查询的时间段，并指定刷新方式（手动刷新、自动刷新）。 1. 在集群管理页面的左侧导航栏中，选择 **监控中心** \> **监控看板**。 2. 在左侧看板列表中选择 **核心组件监控** \> **kube\-apiserver 监控**，即可查看监控看板。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_85cd8fa25c746ded18859b84e7da430b.png) kube\-apiserver 监控看板中关于 APF 限流相关的图表说明，如下表所示。

说明

图表对应 PromQL 语句的获取方式，请参见使用看板。

|图表名称 |单位 |图表说明 | |---|---|---| |APF 当前执行请求数量（维度：FS + PL） |个 |按 FlowSchema + PriorityLevelConfiguration 维度统计请求数量的相关指标。包括以下指标：

* 当前执行：不同 FlowSchema 在对应 PriorityLevelConfiguration 中当前正在执行的请求数量。

* 待处理：不同 FlowSchema 在对应 PriorityLevelConfiguration 中当前等待执行的请求数量。 | |APF 当前在队列中待处理请求数量（维度：FS + PL） |个 || |APF 名义并发限制席位数 |个 |按 PriorityLevelConfiguration 维度统计 APF 席位数量的相关指标。包括以下指标：

* 名义并发限制：PriorityLevelConfiguration 的名义最大并发席位限制。

* 当前并发限制：不同 PriorityLevelConfiguration 中，在动态调整（借出借入）后实际允许的最大并发席位数量。

* 当前在执行：不同 PriorityLevelConfiguration 中当前正在执行的请求数对应的席位数量。

* 当前在排队：不同 PriorityLevelConfiguration 中排队中的请求数对应的席位数量。 | |APF 当前并发限制席位数 |个 || |APF 当前在执行的席位数量 |个 || |APF 当前在排队的席位数量 |个 || |APF 请求执行时间 [P90] |秒 |每个 FlowSchema 以及对应 PriorityLevelConfiguration 的请求从开始执行到最终完成所花费的时间 90 分位数。 | |APF 请求等待时间 [P90] |秒 |每个 FlowSchema 以及对应 PriorityLevelConfiguration 的请求从进入队列到开始执行之间的等待时间 90 分位数。 | |APF 成功调度并处理的请求 QPS |req/s |每个 FlowSchema 以及对应 PriorityLevelConfiguration 成功调度并处理的请求QPS。 | |APF 拒绝请求 QPS |req/s |每个 FlowSchema 以及对应 PriorityLevelConfiguration 中因超出并发限制或队列容量而被拒绝的请求QPS。 | ### etcd 监控配置控制平面组件监控后，您可以查看控制面组件的指标大盘。设置查询的时间段，并指定刷新方式（手动刷新、自动刷新）。 1. 在集群管理页面的左侧导航栏中，选择 **监控中心** \> **监控看板**。 2. 在左侧看板列表中选择 **核心组件监控** \> **etcd 监控**，即可查看监控看板。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_e2821fbc6a3ee75041ff142b548ef50d.png) ### kube\-scheduler 监控配置控制平面组件监控后，您可以查看控制面组件的指标大盘。设置查询的时间段，选择查询的实例，并指定刷新方式（手动刷新、自动刷新）。 1. 在集群管理页面的左侧导航栏中，选择 **监控中心** \> **监控看板**。 2. 在左侧看板列表中选择 **核心组件监控** \> **kube\-scheduler 监控**，即可查看监控看板。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_0142c72e6c5fbcc679228fa191eed1f7.png) ### cluster\-autoscaler 监控配置控制平面组件监控后，您可以查看控制面组件的指标大盘。设置查询的时间段，选择查询的实例，并指定刷新方式（手动刷新、自动刷新）。 1. 在集群管理页面的左侧导航栏中，选择 **监控中心** \> **监控看板**。 2. 在左侧看板列表中选择 **核心组件监控** \> **cluster\-autoscaler 监控**，即可查看监控看板。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_0311190c7d1d274210e00f7c08a0c142.png) ### kube\-controller\-manager 监控配置控制平面组件监控后，您可以查看控制面组件的指标大盘。设置查询请求的分位数（quantile） **、** 时间段，并指定刷新方式（手动刷新、自动刷新）。 1. 在集群管理页面的左侧导航栏中，选择 **监控中心** \> **监控看板**。 2. 在左侧看板列表中选择 **核心组件监控** \> **kube\-controller\-manager 监控**，即可查看监控看板。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_ccd0a835aedd7248959710aff7e2b952.png) kube\-controller\-manager 监控看板主要分为 3 个部分，分别面向 Resource（资源用量）、Workqueue（队列）和 Kube API。详细的图表说明，如下表所示。

说明

图表对应 PromQL 语句的获取方式，请参见使用看板。

|图表名称 |单位 |图表说明 | |---|---|---| |**Resource（资源用量）** ||| |存活的 kube\-controller\-manager 实例 |个 |kube\-controller\-manager 组件的健康实例数量。

* 正常情况下，集群中 kube\-controller\-manager 组件的实例数应该为 1 个，少数大规模的集群拥有 2 个实例。

* 如果实例数异常（不为 1 或 2，或实例数为 0），代表集群中 kube\-controller\-manager 实例异常。

说明

您可以使用该图表中的 PromQL 语句创建告警规则，当实例数异常时产生告警。告警配置方式，请参见创建告警规则。

| |kube\-controller\-manager 进程驻留内存 |MiB |kube\-controller\-manager 组件的常驻内存使用量。

* 正常情况下，该值仅会围绕一个 “基线值” 小幅波动，无持续上涨或突发峰值。仅在集群大规模操作（如批量创建 Pod/Service、节点扩缩容）时短暂上升，操作结束后回落至基线。

* 如果出现内存持续上涨或突发峰值等，代表 kube\-controller\-manager 实例异常。 | | kube\-controller\-manager CPU 核心使用量 |毫核 |kube\-controller\-manager 组件的 CPU 使用率。

* 正常情况下，该值仅会围绕一个 “基线值” 小幅波动，无持续高占用或突发峰值。仅在集群大规模操作（如批量创建 Pod/Service、节点扩缩容）时短暂上升，操作结束后回落至基线。

* 如果出现 CPU 持续高占用（\> 基线 2 倍且不回落）或 CPU 使用率突发尖刺等，代表 kube\-controller\-manager 实例异常。 | |**Workqueue（队列）** ||| |Workqueue 入队速率 |个 |kube\-controller\-manager 组件每个控制器（如节点、Service、端点控制器）在单位时间内的新增任务数量。

* 正常情况下，所有队列的速率值应围绕基线波动，仅在集群操作（如批量创建 Pod/Service、节点扩缩容）时短暂上升，操作结束后回落至基线。

* 如果出现单一队列速率持续冲高、多队列速率同时飙升或某核心队列速率长期为 0 等，代表 kube\-controller\-manager 实例异常。 | |Workqueue 深度 |个 |kube\-controller\-manager 组件每个控制器（如节点、Service、端点控制器）各工作队列的平均深度（即队列中待处理的任务数）。

* 正常情况下，所有队列的均值应较为稳定，且在较低水平。仅在集群操作（如批量创建 Pod/Service、节点扩缩容）时短暂上升，操作结束后回落至稳定均值。

* 如果出现队列深度长时间保持在较高水平，表明 Controller 不能及时处理队列中的任务，导致任务堆积。 | |Workqueue 处理时延 |秒 |kube\-controller\-manager 组件每个控制器（如节点、Service、端点控制器）各工作队列中，任务在队列中等待时长的分位数（例如配置`quantile`为`0.9`时，代表 90% 任务的等待时长）。

说明

Workqueue 深度 异常通常伴随 Workqueue 处理时延 分位值升高（任务积压，导致等待时长变长）。两个指标可以进行关联分析。

建议关注 0.9 分位（反映 90% 任务的等待时长）和 0.99 分位（暴露长尾延迟问题）。

| |**Kube API** ||| |请求 APIServer 的 QPS |个 |kube\-controller\-manager 组件在单位时间内向 API Server 发起的 HTTP 请求数量。基于请求方法（Method）和响应码（Code）进行分析。

* 正常情况下，GET 请求方法的占比应该大于 80%，且响应码中 99% 以上为 2xx（如 200/201），不存在 5xx 错误。

* 如果出现 4xx 错误或 5xx 错误，表示 kube\-controller\-manager 组件的资源消耗增加或控制器逻辑异常。 | |请求 APIServer 的延迟分布 |秒 |kube\-controller\-manager 组件调用 API Server 的请求耗时分位数（例如配置`quantile`为`0.9`时，代表 90% 请求的耗时）。

说明

建议关注 0.9 分位（反映 90% 任务的请求的耗时）和 0.99 分位（暴露极端慢请求问题）。

| ## 查看指标您可以使用托管 Prometheus 的 Explore 功能来快速查询和展示指标数据。详情请参见 [指标查询](https://www.volcengine.com/docs/6731/195523)。