日志服务支持基于日志主题中的数据配置告警策略。启动告警策略后,日志服务将定期分析数据,并定期将符合触发条件的告警发送给指定的通知对象。本文介绍创建告警策略的操作步骤。
前提条件
- 待监控的日志主题已配置索引,相关字段已开启统计功能。详细步骤请参考配置索引。
- 已创建 IAM 用户,且 IAM 用户已在个人信息中配置了手机号码和邮箱地址,并已通过手机号和邮箱验证。详细步骤请参考 IAM 文档。
- 已创建通知组。详细步骤请参考创建告警组。
注意事项
- 每个日志主题中,最多创建 10 个告警策略。每个日志项目中,最多创建 100 个告警策略。
- 如果修改了告警策略,执行周期、发送告警周期会重新开始计时。
- 创建告警策略后,策略默认为启动状态,日志服务会根据告警策略持续运行监控任务并发送告警通知。
操作步骤
登录日志服务控制台。
在顶部导航栏中,选择目标日志项目所在地域。
在左侧导航栏中,选择常用功能 > 日志告警 > 告警策略。
在告警策略页面,单击创建告警策略。
填写告警策略的基本信息。
配置 | 说明 |
---|
告警策略名称 | 告警策略的名称。 |
日志项目 | 待监控的日志主题所在的日志项目。 |
配置监控任务。
配置 | 说明 |
---|
执行任务 | 监控任务的相关配置信息,后台根据该配置定期执行监控任务。 - 单击编辑。
- 在执行语句对话框中,完成如下配置。
- 监控对象:待监控的日志主题。
- 查询语句:检索分析语句,每个任务会定期通过该语句进行检索与分析。检索分析语句详情请参考检索概述、分析概述。
说明 设置查询语句仅为检索语句时,后续的触发条件需设置为有数据或有特定条数据。 - 查询时间范围:每次执行检索分析语句时,数据所在的时间范围。可指定截止任务执行时刻 1 天内的任意时段。
- 单击执行预览,预览以上检索分析语句在指定时间范围内的查询分析结果。
您可以通过执行预览功能检查并调试查询语句,例如检查其是否符合检索分析语法规范、是否可获取到预期的结果。 - 单击确认。
如果您需要添加多个执行语句,可单击添加语句,重复上述配置。最多添加 3 个执行语句。 |
集合操作 | 日志服务将一个检索分析结果作为一个集合,并基于集合结果判断是否触发告警。
配置多个执行语句时,支持多集合关联监控。支持的集合操作包括笛卡尔积、左联、右联、内联和全联,详细说明请参考关联监控多个检索分析结果。 |
触发条件 | 日志服务判断检索分析的集合结果是否满足触发条件。 - 触发条件:
- 有数据:检索分析结果中存在数据时,触发告警。
- 有特定条数据:检索分析结果中存在 N 条数据时,触发告警。
- 有数据匹配:检索分析结果中存在数据满足条件表达式时,触发告警。
支持以 $N.keyname 表达式方式引用检索分析结果。表达式语法说明请参考告警触发条件表达式。例如 $1.count>=100 表示第 1 条执行语句的检索分析结果中的 count>=100 时触发告警。
$N 表示当前监控任务中的第 N 个执行语句,详细说明请参考查看执行语句编号。说明 当各个执行语句的结果中存在重复字段时,日志服务会根据执行语句编号进行判断。 keyname 表示检索分析结果中的字段名称。
- 告警级别:支持设置告警级别为通知、警告或严重。
说明 检索分析结果按照触发条件的顺序逐条匹配,检索分析结果符合第一条触发条件后,不再匹配后面的触发条件。即您在添加多条触发条件时,需按照高级别到低级别的顺序配置。
|
执行周期 | 监控任务的执行周期,支持如下配置: - 设置时间间隔:执行周期的取值范围为 1~1440 分钟,即最长间隔 1 天执行一次。
- 设置执行时间:在每天的指定时间点执行一次。
- 设置 Cron 表达式:通过 Cron 表达式指定告警任务定时执行。Cron 表达式的最小粒度为分钟,24 小时制。例如
0 18 * * * 表示每天 18 点整执行一次告警任务。
说明 - 建议将执行周期设置得比发送告警周期大。
- 合理的时间配置可提高监控任务的时效性,避免漏告警、误告警。详细说明,请参考告警监控任务时效性。
|
配置告警通知。
配置 | 说明 |
---|
发送告警周期 | 告警通知的发送周期,当告警持续触发次数达到指定限额时,日志服务会根据指定的时间间隔发送告警通知。即持续几个监控周期满足触发条件,则间隔多久发送一次告警。其中,通知频率支持多渠道统一设置,或各个渠道分别设置。 - 统一设置发送周期:所有渠道遵循统一的发送告警周期。发送的时间间隔支持设置为 10~1440 分钟,默认为每 30 分钟告警一次。
- 分别设置发送周期:可以为电话、短信、邮件和自定义 Webhook 渠道分别设置发送告警周期,电话和短信渠道的发送周期支持设置为 10~1440 分钟,邮件和自定义 Webhook 渠道的发送周期支持设置为 1~1440 分钟。
说明 - 自定义 Webhook 包括飞书、企业微信、钉钉和其他自定义 Webhook 地址。
- 告警频率的配置用于过滤不重要的偶发情况。例如持续 5 个监控周期满足触发条件,表示累计触发 5 次告警后才进行通知。
- 通知频率的配置用于避免频繁发送告警通知。例如每 30 分钟通知一次,则 30 分钟内只会收到一次告警通知。
- 电话、短信渠道的告警消息受限于日志服务通知流控,例如每个手机号码每分钟最多收到 10 条告警短信通知,详细的流控限制请参考使用限制。
|
渠道类型 | 通过告警通知组指定告警的通知渠道。通知组是告警联系人的虚拟分组,日志服务会根据通知组中的通知渠道、内容模板等配置,将告警通知发送给通知组中的所有人员。
您可以单击新建通知组,新建一个通知组,也可以单击关联通知组,添加一个已创建的通知组。通知组详情请参考创建通知组。 |
附加通知内容 | 告警通知内容,支持插入内容变量、函数,详细说明请参考内容变量、内容函数。
如果您要在实际收到的告警通知中展示该内容,则需要在内容模板中通过NotifyMsg 变量引用该内容。 |
单击测试告警策略。
为方便异常场景的问题排查、提前预览告警通知效果,推荐您在创建告警策略时通过告警测试功能进行调试。关于告警测试功能的详细说明,请参考告警测试。
说明
测试功能仅用于检查告警策略配置是否正确,并非真正执行告警监控任务。
单击确定。
创建告警策略后,策略默认为启动状态,日志服务会根据告警策略持续运行监控任务并发送告警通知。
相关操作
查看执行语句编号
创建告警策略时,每个执行语句都有对应编号,位置在监控任务>执行任务区域中。具体位置如下所示。