You need to enable JavaScript to run this app.
导航

AIOps 套件概述

最近更新时间2023.08.11 10:50:27

首次发布时间2023.08.11 10:50:27

AIOps 套件是容器服务提供的集群运维管理组件,沉淀了火山引擎内部丰富的 Kubernetes 容器集群运维经验和解决方案,为您带来便捷易用的集群运维管理体验。

alt

AIOps 套件主要包括 集群巡检故障诊断 工具,满足您面向容器服务集群日常巡检和故障诊断的需求。

集群巡检

集群巡检可以帮助用户发现容器服务集群中可能存在的潜在风险,并提供解决建议。包括:配置风险、资源异常、配额不足、资源水位等。

说明

邀测·申请试用】:该功能目前处于邀测阶段,如需使用,请提交申请。

集群巡检支持 周期巡检手工巡检。主要包含的巡检内容如下表所示。

巡检对象巡检内容
集群巡检检查集群正常、稳定运行所需的必要配置,例如:删除保护、高可用性、审计日志、安全组、CoreDNS 组件等。
节点巡检检查集群节点状态,及时发现状态异常的节点,保证集群资源可用。
资源水位巡检检查集群各资源的水位情况,包括:集群水位、节点水位和 Pod 水位等。
资源配额巡检检查集群各类资源的配额使用情况,包括:CLB 配额、节点配额、节点池配额等。

故障诊断

故障诊断提供了面向集群资源的快速故障诊断能力,帮助您定位集群资源的常见问题,并给出解决建议。

说明

邀测·申请试用】:该功能目前处于邀测阶段,如需使用,请提交申请。

故障诊断支持的集群资源包括:节点池、节点和容器组。详细信息如下表所示。

诊断对象诊断内容
节点池诊断覆盖了节点池的常见问题。包括:节点池状态、节点池和相关产品配额、节点池弹性伸缩等。
节点诊断覆盖了节点的常见问题。包括:节点资源、节点内核、节点版本、节点状态、节点网络等。
容器组诊断覆盖了 Pod 的常见问题,包括:Pod 资源、Pod 状态、Pod 镜像等。

检查结果状态说明

集群巡检或诊断后,系统会生成检查报告。报告中检查结果的状态,如下表所示。

状态说明
通过通过检查,无需处理。
未通过存在问题,需尽快处理。防止由于问题引起集群或业务故障。
警告存在问题,可选择处理。一般需要与集群或业务实际结合分析。
报错检查异常。可能是服务异常,建议您重试。