You need to enable JavaScript to run this app.
导航
veImageX 监控告警方案选型推荐
最近更新时间:2024.02.02 16:31:31首次发布时间:2024.01.19 15:18:03

监控告警在日常运维中扮演着不可或缺的角色,它能帮助您及时发现线上异常问题,提高业务的稳定性和可靠性。本文将为您介绍两种常见的监控告警实现方式,并提供相应的选型建议,以帮助您实现监控告警诉求,保障业务的良好运行。

方式 1:直接使用火山引擎监控告警工具

适用场景

当您的实际业务符合以下任一场景时,建议您参考选型建议选择适合的监控告警工具。

  • 针对 veImageX 使用的服务,无自行搭建监控告警工具的需求。

  • 希望无需开发,即可快速了解线上指标大盘情况,并对指标异常变化进行告警。

工具选型建议

指标类型云端服务相关指标客户端质量相关指标
指标范围主要包括用量统计、边缘分发、镜像回源和命中率等数据指标。主要包括客户端上传、下行网络情况、客户端加载性能、内存/磁盘命中率等数据指标。

选型建议

  1. 查看指标数据:在「veImageX 控制台 - 统计与监控」查看各指标数据:用量统计数据监控命中率

  2. 配置告警规则:使用火山引擎云监控产品配置指标告警规则,具体配置指标参见指标说明

  1. 查看指标数据:在 「veImageX 控制台 - 质量监控」查看各指标数据:上传数据监控下行网络监控客户状态监控感知指标监控

  2. 配置告警规则:在 「veImageX 控制台 - 告警管理」配置指标告警规则,具体配置指标参见指标说明

使用限制

  • 适用对象:企业认证用户

  • 告警方式:电话、短信、邮箱、告警回调(支持关联飞书钉钉企业微信中的群机器人,以实现自动推送告警通知)

  • 告警粒度:服务、域名

  • 适用对象:接入 veImageX 上传/加载 SDK 的全体用户

  • 告警方式:告警回调

延迟时间告警延迟约 15-20min告警延迟约 10-15min

方式 2:自行搭建监控告警系统

适用场景

当您的实际业务符合以下任一场景时,建议您参考选型建议选择适合的监控告警工具。

  • 希望根据自身业务需求,自行对某些指标数据进行二次加工或处理。

  • veImageX 已提供的告警能力(指标完善度、延迟时间等)无法完全满足您的使用诉求。

前提条件

具备自行搭建监控告警工具的开发能力。

工具选型建议

指标类型云端服务相关指标客户端质量相关指标
指标范围主要包括用量统计、边缘分发、镜像回源和命中率等数据指标。主要包括客户端上传、下行网络情况、客户端加载性能、内存/磁盘命中率等数据指标。
选型建议方案 1:自行调用统计与监控 OpenAPI 获取数据方案 2:通过 Exporter 导出 veImageX 服务监控指标至 Prometheus 进行监控告警自行调用质量监控 OpenAPI 获取数据

方案说明

  • 优势

    • 指标覆盖全面;
    • 数据延迟时间相对较短。
  • 局限:存在一定开发量,需要自行对接 OpenAPI/SDK 获取数据。

  • 优势:适用于已使用或期望使用 Prometheus 进行监控告警的用户。

  • 局限

    • 当前仅支持部分指标;

    • 边缘分发、镜像回源和命中率等指标数据延迟较方案 1 略长。

-

延迟时间

  • 用量统计指标:20-30min(资源占用量指标延迟 1 天)

  • 边缘分发、镜像回源和命中率等指标:5-10min

  • 数据统计分析:20-30min

  • 查询数据处理服务 QPS 用量:1min

  • 用量统计指标:20-30min(不包含资源占用量指标)

  • 边缘分发、镜像回源和命中率等指标:10-20min

  • 数据统计分析:20-30min

  • 上传数据、下行网络情况、客户端加载性能、内存/磁盘命中率等数据指标:约 15min

  • 大图监控相关指标:约 4 小时