You need to enable JavaScript to run this app.
导航

推荐配置的告警规则

最近更新时间2024.02.27 17:45:24

首次发布时间2024.02.27 17:45:24

云搜索服务支持配置云监控告警规则,帮助您实时关注实例、索引、节点的运行状态。本文档介绍一些告警规则配置示例,建议参考这些推荐的告警策略进行配置。

背景信息

在云监控配置告警策略后,被监控的资源数据达到告警的触发条件时,系统会通过您指定的方式推送告警通知,便于您及时发现存在异常的资源。

配置

说明

告警级别+通知方式

建议配置两种级别的告警策略。

  • 严重-电话告警:表示这类告警比较紧急,收到电话通知后需要及时处理。
  • 警告-短信告警:相对没那么紧急的告警,但也是需要处理的,不然可能演变成紧急告警。

持续周期数

需要持续监控数据的周期数。
持续周期数越短,能越早发现问题,但也有可能因瞬时抖动造成干扰告警。

告警触发阈值

根据业务场景按需配置告警触发阈值。

告警渠道

根据业务场景按需配置告警通知渠道,支持电话、短信、邮箱等通知方式。

Red 状态索引数量

当索引的主副 Shard 均未恢复,索引的状态为 Red,此时读写该 Shard 的请求都会失败。
推荐配置:在持续 3 个周期内,Red 状态索引数量的平均值大于 1 时,触发严重-电话告警。
图片

Yellow 状态索引数量

当索引的副本没有完全恢复时,索引状态显示为 Yellow
推荐配置:在持续 3 个周期内,Yellow 状态索引数量的平均值大于 1 时,触发警告-短信告警。
图片

节点 CPU 使用率

在节点维度中,支持为节点 CPU 使用率配置告警策略。
在下列场景中,建议参考以下配置:

  • 对于在线搜索的场景:在持续 1 个周期内,节点 CPU 使用率的最大值大于 60% 时触发严重-电话告警; 使用率的最大值大于 50% 时触发警告-短信告警。
  • 对于日志等场景:在持续 1 个周期内,节点 CPU 使用率的最大值大于 80% 时触发严重-电话告警; 使用率的最大值大于 70% 时触发警告-短信告警。

图片

老年代每分钟 GC 数量

一般情况下,出现老年代 GC 表示内存不足。如果短时间内出现多次老年代 GC,需要考虑是否需要升配实例。
建议配置如下两种级别告警策略:

  • 在持续 3 个周期内,老年代每分钟 GC 数量的平均值大于 1,触发严重-电话告警。
  • 在持续 3 个周期内,老年代每分钟 GC 数量的最大值大于 1,触发警告-短信告警。

图片

集群磁盘使用率

集群磁盘最大利用率达到 90% 是一种非常高风险的状态。默认磁盘最大利用率达到 95% 就会停写。
建议配置如下两种级别的告警策略:

  • 在持续 1 个周期内,集群磁盘最大利用率的平均值大于 90%,触发严重-电话告警。
  • 在持续 1 个周期内,集群磁盘最大利用率的平均值大于 80%,触发警告-短信告警。

图片

节点磁盘带宽

使用标准版-高性能云盘-pl0(ESSD-PL0)存储的实例,如果节点磁盘读和写带宽之和大于180MiB/s,将有可能触发限流。
建议按照以下配置创建两种级别的告警策略:

  • 指标类型:选择多指标,同时配置节点磁盘读和写带宽的触发条件。
  • 在持续 3 个周期内,满足节点磁盘读带宽的最小值大于 150 MiB/s,或者满足节点磁盘写带宽的最大值大于 150 MiB/s,触发严重-电话告警。
  • 在持续 3 个周期内,满足节点磁盘读带宽的最小值大于 100 MiB/s,或者满足节点磁盘写带宽的最大值大于 100 MiB/s,触发警告-短信告警。

图片