You need to enable JavaScript to run this app.
导航

数据监控

最近更新时间2024.02.01 10:55:33

首次发布时间2023.08.04 11:41:09

边缘智能通过火山引擎云监控服务,为您提供针对产品数据指标和产品特定事件的监控与告警服务。本文介绍了边缘智能数据监控与告警的相关配置。

概述

通过火山引擎云监控服务,您可以执行以下与边缘智能数据监控相关的操作:

  • 查看监控报表及配置告警策略

    边缘智能预定义了一些数据监控指标,如一体机的 CPU 使用率、温度,工作负载的 CPU 用量、内存用量等。这些指标反映了您所使用的边缘智能资源的状态。

    云监控能够帮助您监控边缘智能的相关监控指标,允许您查询指标数值的变化情况。云监控也可以在指标数值满足一定特征时向您发送告警。如需使用指标告警功能,您需要配置相应的告警策略

  • 配置事件规则

    边缘智能预定义了一些事件类型,如一体机下线、设备离线、工作负载部署失败等。当这些事件发生时,可能会影响您使用边缘智能。

    云监控能够帮助您监控边缘智能的相关事件,并在相关事件发生时向您发送通知。如需使用事件通知功能,您需要配置相应的事件规则

前提条件

  • 您已经完成企业实名认证。相关操作,请参见实名认证
    云监控仅向已完成企业实名认证的用户提供服务。

  • 您已经为一体机开启 状态监控
    只有为一体机开启 状态监控 后,您才能使用边缘智能数据监控服务。

    说明

    您可以在绑定一体机时为一体开启 状态监控,或者在一体机的 基本信息 中为一体开启 状态监控。更多信息,请参见绑定一体机查看一体机信息

查询边缘智能监控报表

边缘智能提供以项目为维度的监控报表。您可以通过云监控的 云产品监控 页面,查询边缘智能的项目监控报表。项目监控报表包含 3 部分:一体机监控报表、工作负载(应用)监控报表、推理服务监控报表。

使用限制

  • 您只能查询已经开启 状态监控 的一体机的相关数据。

    如果项目下没有已经开启 状态监控 的一体机,则对应的项目监控报表没有任何数据。

  • 云监控为仅保存近 15 天的监控数据。

操作步骤

  1. 登录边缘智能控制台

  2. 在左侧导航栏底部,单击 数据监控

    页面将自动跳转到云监控控制台的 云产品监控 菜单,并为您展示 边缘计算-边缘智能 监控页面。

  3. 边缘计算-边缘智能 监控页面的下方,找到您的项目,单击项目名称。

    您将进入项目的监控报表。

  4. 进入项目监控报表后,参考以下步骤,查询具体的监控报表:

    1. 监控 页签,选择您要查看的报表类型:

      • 一体机:一体机监控
      • 工作负载:应用工作负载监控
      • 推理服务:推理服务监控
    2. 设置查询条件:

      1. 在左侧的资源列表,选择一个资源。
      2. 在右侧图表的上方,设置时间范围。
        您可以单击具体的时间选项,查询对应时间内的数据;也可以通过时间选择器自定义一段时间。

        注意

        自定义的时间必须在近 15 天范围内。

    完成上述设置后,页面将展示对应的监控报表。每种类型的监控报表都包含多个图表。关于不同图表的介绍,请参见项目监控报表数据说明

    说明

    监控报表支持 图表联动 功能。开启该功能后,如果您将光标放置在一个图表上,可以同时查看所有图表在特定时刻的数据(如下图所示)。

    alt

项目监控报表数据说明

报表类型支持的图表及数据说明
一体机监控CPU使用率一体机 CPU 使用率(%)的变化趋势。
内存使用率一体机内存使用率(%)的变化趋势。
磁盘吞吐一体机磁盘吞吐量(bit/s)的变化趋势。
网络IO一体机网卡上行/下行带宽(bit/s)的变化趋势。
流量统计一体机网卡传输流量(Byte)的变化趋势。
温度一体机主板温度(℃)的变化趋势。
磁盘总量一体机磁盘大小(Byte)的变化趋势。
磁盘使用率一体机磁盘使用率(%)的变化趋势。
工作负载监控CPU用量工作负载占用的 CPU 核数(Core)的变化趋势。
CPU配额工作负载被分配的 CPU 配额(Core)的变化趋势。
CPU限额工作负载被分配的 CPU 限额(Core)的变化趋势。
内存用量工作负载占用的内存(Byte)的变化趋势。
内存配额工作负载被分配的内存配额(Byte)的变化趋势。
内存限额工作负载被分配的内存限额(Byte)的变化趋势。
推理服务监控GPU使用率模型服务 GPU 使用率(%)的变化趋势。
QPS模型服务 QPS 的变化趋势。
GPU显存占用模型服务占用的 GPU 显存(GB)的变化趋势。
总耗时模型服务的请求平均耗时(ms)的变化趋势。
队列调度耗时模型服务请求队列调度过程的平均耗时(ms)的变化趋势。
输入耗时模型服务输入处理过程的平均耗时(ms)的变化趋势。
输出耗时模型服务输出处理过程的平均耗时(ms)的变化趋势。
模型计算耗时模型服务计算过程的平均耗时(ms)的变化趋势。

配置告警策略

当您在云监控中配置了针对边缘智能数据指标的告警策略后,云监控将为您监控对应数据指标的数值变化,并在指标数值满足一定特征时向您发送告警。

监控对象说明

  • 云监控能够监控的边缘智能资源包含:

    • 一体机:仅限已开启 状态监控 的一体机。
    • 工作负载:仅限部署在已开启 状态监控 的一体机上的应用工作负载。
    • 推理服务:仅限部署在已开启 状态监控 的一体机上的推理服务。
    • 一体机磁盘:仅限已开启 状态监控 的一体机的磁盘。
    • 一体机网络:仅限已开启 状态监控 的一体机的网卡。
    • 一体机温度:仅限已开启 状态监控 的一体机的温度传感器。
  • 不同资源支持不同的数据指标。与边缘智能相关的所有数据监控指标,请参见云监控指标查询

操作步骤

您可以在云监控控制台的告警中心创建告警策略。具体操作,请参见云监控产品文档

创建告警策略过程中,留意以下配置:

  • 名称:为告警策略设置一个名称。建议在名称中包含“边缘智能”,以便于查找。

    示例:边缘智能一体机告警策略

  • 资源类型:选择 CDN与加速 > 边缘计算-边缘智能

  • 维度:表示监控对象的类型。支持的选项包含 一体机工作负载推理服务一体机磁盘一体机网络一体机温度

  • 资源:表示要监控的资源的范围。
    您选择的 维度 不同,支持使用的资源筛选器有差异。具体如下表所示。

    维度资源筛选器
    一体机边缘智能项目、一体机名称
    工作负载边缘智能项目、prod名称
    推理服务边缘智能项目、推理服务ID
    一体机磁盘边缘智能项目、一体机ID、磁盘名称
    一体机网络边缘智能项目、一体机ID、网卡名称
    一体机温度边缘智能项目、一体机ID、温度传感器

    每个资源筛选器的选项包含 全部部分

    • 全部:对所有符合条件的资源进行监控。
    • 部分:手动选择需要监控的资源。
  • 触发条件:定义告警的触发条件。您选择的 维度 不同,触发条件中支持使用的数据指标有差异。

    示例:当 维度一体机磁盘 时,触发条件中允许使用 磁盘吞吐磁盘使用率 指标。

    与边缘智能相关的所有数据监控指标,请参见云监控指标查询

alt

配置事件规则

当您在云监控中配置了针对边缘智能事件的事件规则后,云监控将为您监控和记录对应事件,并在事件发生时向您发送通知。

监控对象说明

  • 云监控能够监控的边缘智能事件类型包含:

    • 一体机相关事件:仅限已开启 状态监控 的一体机。
    • 设备相关事件:仅限接入到已开启 状态监控 的一体机上的设备。
    • 应用工作负载/推理服务/数据流相关事件:仅限部署在已开启 状态监控 的一体机上的应用工作负载、推理服务、数据流实例。
    • 订单相关事件
  • 不同事件类型下包含多种具体事件。与边缘智能相关的所有事件类型,请参见云监控指标查询

操作步骤

您可以在云监控控制台的事件中心创建事件规则。具体操作,请参见云监控产品文档

创建事件规则过程中,留意以下配置:

  • 资源类型:选择 边缘计算-边缘智能

  • 事件名称:选择您关注的事件。