You need to enable JavaScript to run this app.
导航

创建告警策略

最近更新时间2024.01.18 09:58:31

首次发布时间2022.03.04 14:18:49

日志服务支持针对采集到的日志数据配置告警策略。日志服务后台会根据指定的检索分析条件,定时查询日志数据,当满足触发条件时将告警上报至指定的告警组中。本文介绍创建告警策略的操作步骤。

前提条件

  • 需要监控的日志主题已配置索引,相关字段已开启分析功能。
  • 已创建 IAM 用户,且 IAM 用户已在个人信息中配置了手机号码和邮箱地址,并已通过手机号和邮箱验证。详细信息请参考 IAM 文档
  • 已创建告警组。操作步骤请参考创建告警组。若未创建,您也可以在创建告警策略时根据页面提示临时创建一个告警组。

注意事项

  • 每个日志主题中,最多创建 10 个告警策略。每个日志项目中,最多创建 100 个告警策略。
  • 如果修改了告警策略,执行周期发送告警周期会重新开始计时。
  • 创建告警策略后,策略默认为启动状态,日志服务会根据告警策略持续运行监控任务并发送告警通知。

操作步骤

  1. 登录日志服务控制台

  2. 在顶部导航栏中选择日志服务所在的地域。

  3. 在左侧目录中选择日志服务 > 日志项目管理,并在日志项目列表中单击指定日志项目名称。

  4. 在左侧导航栏中选择日志告警 > 告警策略

  5. 在页面左上角单击创建告警策略

  6. 填写告警策略的基本信息

    配置

    说明

    告警策略名称

    告警策略的名称,须符合以下要求:

    • 长度为 3~63 个字符。
    • 支持小写字母、中文、数字、连字符(-)。
    • 以小写字母、中文、数字开头或结尾。

    告警级别

    告警通知的级别,即告警的严重程度。支持设置为 noticewarningcritical,严重程度递增。

  7. 配置监控任务
    设置执行任务执行周期

    配置

    说明

    执行任务

    后台定期执行的告警任务,包括执行语句查询时间范围

    • 监控对象:需要配置监控告警的日志主题。
    • 执行语句:日志检索分析语句,每个任务会定期通过该语句进行检索与分析,通过执行结果判断是否触发告警。
    • 时间查询范围:每次运行检索分析语句时,指定的数据时间范围。可指定截止任务执行时刻 1 天内的任意时段。
    • 执行预览:预览以上执行语句在指定时间范围内的查询分析结果。您可以通过执行预览功能检查并调试执行语句,例如检查其是否符合检索分析语法规范、是否可获取到预期的结果。

    集合操作

    日志服务支持将一个检索分析结果作为一个集合。配置多个执行语句时,支持多集合关联监控,即在告警监控任务重通过集合操作关联多个检索分析结果。支持最多 3 个集合关联监控。
    支持的集合操作包括笛卡尔积,即多个集合的数据互相交叉组合。

    执行周期

    告警任务的执行周期,支持如下配置:

    • 设置时间间隔:执行周期的取值范围为 1~1440 分钟/次,即最长间隔 1 天执行一次。
    • 设置执行时间:在每天的指定时间点执行一次。
    • 设置 Cron 表达式:通过 Cron 表达式指定告警任务定时执行。Cron 表达式的最小粒度为分钟,24 小时制。例如 0 18 * * * 表示每天 18 点整执行一次告警任务。
  8. 配置告警规则
    设置告警规则的触发条件发送告警周期

    配置

    说明

    触发条件

    判断是否满足触发告警的条件表达式,当满足条件时进行告警。
    触发条件支持 $N.keyname 表达式方式引用监控任务的SQL分析结果,其中$N表示当前告警策略中的第 N 个执行语句,keyname 表示对应的字段名称,例如 $1.count>=100 表示表示第 1 条查询结果的 count>=100 时触发告警。

    发送告警周期

    告警通知发送的周期,即持续几个监控周期满足触发条件,则间隔多久发送一次告警。当告警持续触发次数达到指定限额时,日志服务会根据指定的时间间隔发送告警通知。
    其中通知频率支持多渠道统一设置,或各个渠道分别设置。

    • 统一设置发送周期:即所有渠道遵循统一的发送告警周期,默认每 30 分钟告警一次。发送的时间间隔支持设置为 10~1440 分钟。
    • 分别设置发送周期:即可以为电话、短信、邮件和自定义接口回调渠道分别设置发送告警周期,电话和短信渠道的发送周期支持设置为 10~1440 分钟,邮件和自定义接口回调为 1~1440。

    说明

    • 告警的频率设置用于过滤不重要的偶发情况。例如持续 5 个监控周期满足触发条件,表示累计触发 5 次告警后才进行通知。
    • 通知频率的设置用于避免频繁发送告警通知。例如每 30 分钟告警一次,则 30 分钟内只会收到一次告警通知。
    • 电话、短信渠道的告警消息受限于日志服务通知流控,例如每个手机号码每分钟最多收到 10 条告警短信通知,详细的流控限制请参考使用限制
  9. 配置告警通知。
    选择告警组,并设置通知内容

    配置

    说明

    告警组

    告警联系人的虚拟分组,日志服务会根据告警组的通知渠道等设置,将告警通知发送给告警组中的所有人员。告警组的配置方式请参考创建告警组
    全部告警组中选择当前策略对应的告警组,并在已选告警组中确认已选择的告警组列表。

    通知内容

    告警通知的内容。除普通字符串以外,还可以通过内容语法、内容函数和内容变量设计自定义的通知内容。详细说明请参考告警通知内容

  10. 单击测试
    为方便异常场景的问题排查、提前预览告警通知效果,推荐您可以在创建告警策略时通过告警测试功能进行调试。关于告警测试功能的详细说明,请参考告警测试

  11. 单击确定
    创建告警策略后,策略默认为启动状态,日志服务会根据告警策略持续运行监控任务并发送告警通知。

常见问题

如何查看执行语句编号?

创建告警策略时,每个执行语句都有对应编号,位置在监控任务>执行任务区域中。具体位置如下所示。

图片

为什么触发了告警策略,但是没收到告警通知?

  • 问题现象:配置告警后,如果触发了告警策略,但是 IAM 用户对应的联系人未收到短信或邮件通知。告警历史页面会有该告警策略对应的告警事件记录,在其对应的操作列单击查看详情,页面会跳转到该告警策略的执行信息页面,其通知状态一栏中会显示发送失败部分发送成功
  • 可能原因
    • IAM 用户未在个人信息中配置手机号码或邮箱地址,或未通过手机号和邮箱验证。 您可以在告警组详情页面中,找到未收到告警通知的对象,并在其对应的接收渠道一列单击查看,如果该对象未通过安全验证,则会显示未配置
    • IAM 用户配置的手机号码或邮箱地址状态异常,无法正常通信。
    • 触发了消息中心某些渠道的流控限制,例如每个手机号码每分钟最多收到 10 条告警短信通知,详细的流控限制请参考使用限制
  • 处理建议
    • 建议检查 IAM 用户配置的安全手机和安全邮箱是否通过相关安全验证,且对应渠道正常触达。
    • 如果触发了流控限制,建议稍后重试。