You need to enable JavaScript to run this app.
导航

告警管理

最近更新时间2024.04.17 11:04:16

首次发布时间2021.02.23 10:42:42

质量平台支持对接入点播 SDK 的项目进行指标监控,并根据设定的告警规则进行告警,方便您及时获取业务指标的变化情况。

配置流程

首次使用视频点播的监控告警功能,可按照如下流程进行配置。
图片

前提条件

告警规则

在告警规则页面,您可以查看、添加、编辑、启用、禁用、复制和删除告警规则。

说明

当前的应用删除后,告警任务会自动停止。

进入添加告警规则页面

  1. 选择左侧导航栏质量平台 > 告警管理,进入告警管理页面,选择告警规则页签。
  2. 单击添加告警规则按钮,进入添加告警规则页面。
  3. 根据页面提示配置告警规则。包含 5 个模块的参数信息配置:告警设定、监控规则、告警规则、告警指标预览和告警方式。

配置告警设定

详细的参数说明如下表所示。

参数

说明

告警名称

自定义告警的名称,推荐使用可以描述规则的名称,最大不能超过 64 个字符。例如,Android 小视频卡顿率 5 分钟监控。

应用

从下拉列表中选择应用,应用管理详情请参见管理应用

平台类型

包含:移动端、Web 端、微信小程序和抖音小程序。

指标类型

下拉列表,支持选择视频点播、视频上传。

说明

平台类型选择微信小程序和抖音小程序时,指标类型对应视频点播。

SDK 版本

指标类型选择视频上传,还需选择对应的上传 SDK 版本号首位,以便获取正确的上传数据。支持的选项如下所示。

  • 上传 SDK 版本号首位 < 3
  • 上传 SDK 版本号首位 ≥ 3

业务类型

指标类型选择视频点播,选择对应的视频业务类型,默认为全部业务类型。该选项与选择的应用有关。

系统类型

默认为选择全部系统。选择平台类型不同,对应支持的系统类型也不同。

  • 移动端:Android、iOS
  • Web 端:Android、iOS、Linux、Mac、Windows
  • 微信小程序:Android、iOS
  • 抖音小程序:Android、iOS

指标名称

  • 指标类型选择视频点播,那么对应的指标名称支持的选择:播放量、实际播放量、播放失败率等多种播放指标。指标的详细说明请见通用指标说明
  • 指标类型选择视频上传,那么对应的指标名称支持的选择:上传总量、成功率、上传失败率、上传平均速度、上传平均时间和上传平均文件大小。指标的详细说明请见核心指标说明

配置监控规则

详细的参数说明如下表所示。

参数

说明

监控频率

指每次告警检测相隔时间长度。支持的选择有:5 分钟、1 小时、1 天。默认为 5 分钟。

报警维度

设定后,报警维度符合告警规则时,将按照具体维度发送告警通知。支持的选择有:系统类型、业务类型、自定义标签、应用版本号、点播 SDK 版本等维度,详细维度说明请见通用维度说明

维度过滤

告警将按照设定的维度过滤数据。单击添加过滤维度按钮,选择过滤维度,对应选择判定条件。

配置告警规则

支持 2 种告警选择:智能告警、自定义告警。

  • 选择告警类型为智能告警,支持的操作如下所示:

    • 设置总量阈值:在告警设定中,选择不同的指标类型,对应设置的告警规则不同。
      • 设置播放总量阈值:指标类型选择视频点播,播放总量低于阈值的曲线不检测,不填或为 0 算法将自适应阈值。默认值为 0。
      • 设置上传总量阈值:指标类型选择视频上传,上传总量低于阈值的曲线不检测,不填或为 0 算法将自适应阈值。默认值为 0。
    • 设置生效范围:默认全选。匹配的开始时间到结束时间,默认为 00:00-23:09。支持的取值范围为[00:00,23:59]
    • 选择异常波动:向上波动只关注指标突增异常,向下波动只关注指标突降异常,上下波动突增突降都关注。支持的选项有:
      • 指标向上突增波动
      • 指标上下突增突降波动
      • 指标向下突降波动

  • 选择告警类型为自定义告警,您可以明确设置规则,配置多条告警规则,操作如下所示:

    • 选择阈值:设置告警阈值和连续周期,当设置的监控指标超过该阈值时,将触发告警;设置的连续周期的取值范围为[1,3]。例如,卡顿率选择告警阈值为 >2%,连续 3 个周期,则当连续 3 次检测卡顿率 >2% 时,将会收到告警。选择阈值时,会有指标的近 1 天的监控图,以供设定参考。
    • 选择波动:设置波动的同比、百分比和连续周期,当波动超过设置的比例时,将触发告警。对应的取值范围分别为
      • 同比:[1,3]
      • 百分比:[0,100]
      • 连续周期:[1,3]
    • 选择趋势告警:设置指标的趋势,可选择递增递减,设置的连续周期的取值范围为[1,3]。当趋势符合告警规则时,将触发告警。

预览告警指标

配置完成告警设定和告警规则后,对应展示告警指标预览图表。支持关闭或者展开的操作。

配置告警方式

详细的参数说明如下表所示。

参数

说明

告警接收人

必填项。可选择已有的告警联系人,支持按组选择。若已有的告警联系人不满足要求,支持在下拉选框中,单击新建联系人按钮,在告警联系人信息的对话框中填写基本信息。

告警方式

必选项。支持邮件、短信、飞书群和告警回调选择。

webhook 地址

如果告警方式选择飞书群,支持填写接收告警通知的 webhook 地址,就是在飞书群中添加自定义机器人时自定义生成的 webhook 地址。最多添加 5 个 webhook 地址。

说明

接收飞书告警,需要在接收告警的群中添加自定义机器人,详情可参考飞书通知使用说明

告警接收人

如果告警方式选择短信,支持选择已创建的联系人,如没有可选联系人,您可以单击新建联系人按钮,配置告警联系人信息。详情请参见下方的 告警联系人

沉默告警周期

告警发生后,如未恢复正常,则间隔一个沉默告警周期后,再次发送告警。沉默告警周期默认值为 30 分钟,支持选择 1 小时和 6 小时。

报警回调 URL请输入公网可访问的 URL,会将报警信息推送到该地址。URL 组成字符必须是英文字符(即半角字符),且 URL 的首位部不要添加空格或换行符。示例:http://example.com
邮件备注选填项。设置邮件备注信息。

配置飞书群告警

添加 webhook 地址,需要在接收告警的群中添加自定义机器人,详情请参考飞书通知使用说明

在飞书群添加 webhook 地址后,若触发告警信息,您会接收到告警消息卡片,示例样式如下:

alt

配置告警回调

当报警规则被触发时,质量平台 > 告警管理会将报警消息发送到您指定的 URL 地址,消息会以 HTTP 的 POST 请求发送。

请求的 Content-Type 是 application/json,发送的 POST 请求内容如下表所示。

参数类型描述
AppIDString报警的应用 ID。
OSString报警的系统。
PlatformString报警的平台。
RuleIDint64规则 ID。
AlertIDint64报警 ID。
NameString监控项名称。
MetricString报警指标。
SubscriberArray of String订阅人。

AggrInterval

int

监控粒度,单位为秒。取值如下:

  • 300

  • 3600

  • 86400

Filters[]*models.CommonFilter维度过滤条件。
Dimensionmap[string]string告警维度。
Timestampint64告警时间戳。
MetricValuefloat64当前时刻指标值。
Countfloat64当前时刻总量值(如果存在);如果不存在为 -1。
Predictionfloat64预测值。
Durationint已持续时长,单位为秒。
HistoryCountint连续告警数。
ReasonString告警原因。
DetailURLString详细页链接。
AlertMsgString报警信息。

告警回调示例

{
    "RuleID": 13**2,
    "AlertID": 53**26,
    "Name": "测试",
    "Metric": "cnt",
    "Subscriber": [],
    "AggrInterval": 300,
    "Filters": [],
    "Dimension": {
        "os": "Android"
    },
    "Timestamp": 1701235200,
    "MetricValue": 3233,
    "Count": -1,
    "Prediction": 1,
    "Duration": 6300,
    "HistoryCount": 21,
    "Reason": "实际值 [3233.0000] 比预期值 [1.0000] 高 3232.0000",
    "DetailURL": "https://console.volcanicengine.com/vod/quality_control/alarm/historyDetail/?ruleId=13**2&alertId=53**26&alertTime=1701235200&AppId=100***29&Service=vplay_tob_hupuvod_test&Metric=cnt&Channel=&Region=cn&OS=&ServiceType=vplay&AppName=测试&Platform=mobile",
    "AlertMsg": "【质量平台点播测试(100***29)-视频点播质量监控】测试 在 2023-11-29 13:20:00 因实际值 [3233.0000] 比预期值 [1.0000] 高 3232.0000告警,具体信息请登录<a href=\"https://console.volcanicengine.com/vod/quality_control/alarm/historyDetail/?ruleId=13**2&alertId=53**26&alertTime=1701235200&AppId=100***29&Service=vplay_tob_hupuvod_test&Metric=cnt&Channel=&Region=cn&OS=&ServiceType=vplay&AppName=测试&Platform=mobile\">火山引擎控制台</a>查看。",
    "AppID": "100***29",
    "OS": "Android",
    "Platform": "mobile"
}

管理告警规则

完成添加告警规则的参数配置后,单击保存按钮,支持在告警规则列表中查看新增的告警、当前告警规则数、启用数和禁用数量。

详细的操作说明如下表所示。

操作

说明

查询

查询告警规则:选择应用名称,可查看该业务下的告警规则;可输入规则名称进行模糊匹配查询。

启用

新建规则默认启用。若规则被禁用,可单击启用规则按钮,重新启用规则。

禁用

单击禁用规则按钮,禁用告警规则。已禁用的规则将不再发送告警。

复制

单击复制规则按钮,复制所选规则,通过修改,可快速创建新规则。

删除

单击删除规则按钮,删除后不可恢复,请谨慎操作。

查看

在告警规则列表中,单击告警信息按钮,可跳转至该规则的告警历史,快速查看告警信息。

编辑单击编辑按钮,进入编辑告警规则页面,您可根据自身需求,更新对应的告警规则。

告警历史

  1. 单击左侧导航栏质量平台 > 告警管理,进入告警管理页面。

  2. 切换告警历史页签,支持查看各业务的告警历史。

    • 支持按照应用名称进行筛选后,同时输入告警规则名称查询告警历史。

    • 支持快速查看近 1 天、近 15 天和近 30 天的告警历史。

    • 支持查看告警详情,查看该次告警的详细信息。

告警联系人

  1. 单击左侧导航栏质量平台 > 告警管理,进入告警管理页面,切换告警联系人页签。

  2. 根据自身业务需求,下拉选择应用名称

  3. 单击新增告警联系人按钮,在告警联系人信息的对话框中,根据提示填写告警联系人信息。

    详细的参数说明如下所示。

    参数

    说明

    姓名

    必填项,根据自身需求,填写对应的名称,姓名长度为 1~13 位。

    手机号码

    必填项,请填写正确的手机号码。

    邮箱

    必填项,请填写正确的邮箱格式。

    分组

    选填项,单击 按钮,填写新分组名称。

    说明

    暂不支持创建多个分组。

  4. 创建完成后,在告警联系人页签下方,显示新增的列表,支持的操作:

    • 支持按照姓名或者分组,进行模糊匹配查询。
    • 支持编辑删除操作。