最近更新时间:2024.02.01 10:55:33
首次发布时间:2023.08.04 11:41:09
边缘智能通过火山引擎云监控服务,为您提供针对产品数据指标和产品特定事件的监控与告警服务。本文介绍了边缘智能数据监控与告警的相关配置。
通过火山引擎云监控服务,您可以执行以下与边缘智能数据监控相关的操作:
查看监控报表及配置告警策略
边缘智能预定义了一些数据监控指标,如一体机的 CPU 使用率、温度,工作负载的 CPU 用量、内存用量等。这些指标反映了您所使用的边缘智能资源的状态。
云监控能够帮助您监控边缘智能的相关监控指标,允许您查询指标数值的变化情况。云监控也可以在指标数值满足一定特征时向您发送告警。如需使用指标告警功能,您需要配置相应的告警策略。
配置事件规则
边缘智能预定义了一些事件类型,如一体机下线、设备离线、工作负载部署失败等。当这些事件发生时,可能会影响您使用边缘智能。
云监控能够帮助您监控边缘智能的相关事件,并在相关事件发生时向您发送通知。如需使用事件通知功能,您需要配置相应的事件规则。
您已经完成企业实名认证。相关操作,请参见实名认证。
云监控仅向已完成企业实名认证的用户提供服务。
您已经为一体机开启 状态监控。
只有为一体机开启 状态监控 后,您才能使用边缘智能数据监控服务。
边缘智能提供以项目为维度的监控报表。您可以通过云监控的 云产品监控 页面,查询边缘智能的项目监控报表。项目监控报表包含 3 部分:一体机监控报表、工作负载(应用)监控报表、推理服务监控报表。
您只能查询已经开启 状态监控 的一体机的相关数据。
如果项目下没有已经开启 状态监控 的一体机,则对应的项目监控报表没有任何数据。
云监控为仅保存近 15 天的监控数据。
登录边缘智能控制台。
在左侧导航栏底部,单击 数据监控。
页面将自动跳转到云监控控制台的 云产品监控 菜单,并为您展示 边缘计算-边缘智能 监控页面。
在 边缘计算-边缘智能 监控页面的下方,找到您的项目,单击项目名称。
您将进入项目的监控报表。
进入项目监控报表后,参考以下步骤,查询具体的监控报表:
在 监控 页签,选择您要查看的报表类型:
设置查询条件:
注意
自定义的时间必须在近 15 天范围内。
完成上述设置后,页面将展示对应的监控报表。每种类型的监控报表都包含多个图表。关于不同图表的介绍,请参见项目监控报表数据说明。
说明
监控报表支持 图表联动 功能。开启该功能后,如果您将光标放置在一个图表上,可以同时查看所有图表在特定时刻的数据(如下图所示)。
报表类型 | 支持的图表及数据 | 说明 |
---|---|---|
一体机监控 | CPU使用率 | 一体机 CPU 使用率(%)的变化趋势。 |
内存使用率 | 一体机内存使用率(%)的变化趋势。 | |
磁盘吞吐 | 一体机磁盘吞吐量(bit/s)的变化趋势。 | |
网络IO | 一体机网卡上行/下行带宽(bit/s)的变化趋势。 | |
流量统计 | 一体机网卡传输流量(Byte)的变化趋势。 | |
温度 | 一体机主板温度(℃)的变化趋势。 | |
磁盘总量 | 一体机磁盘大小(Byte)的变化趋势。 | |
磁盘使用率 | 一体机磁盘使用率(%)的变化趋势。 | |
工作负载监控 | CPU用量 | 工作负载占用的 CPU 核数(Core)的变化趋势。 |
CPU配额 | 工作负载被分配的 CPU 配额(Core)的变化趋势。 | |
CPU限额 | 工作负载被分配的 CPU 限额(Core)的变化趋势。 | |
内存用量 | 工作负载占用的内存(Byte)的变化趋势。 | |
内存配额 | 工作负载被分配的内存配额(Byte)的变化趋势。 | |
内存限额 | 工作负载被分配的内存限额(Byte)的变化趋势。 | |
推理服务监控 | GPU使用率 | 模型服务 GPU 使用率(%)的变化趋势。 |
QPS | 模型服务 QPS 的变化趋势。 | |
GPU显存占用 | 模型服务占用的 GPU 显存(GB)的变化趋势。 | |
总耗时 | 模型服务的请求平均耗时(ms)的变化趋势。 | |
队列调度耗时 | 模型服务请求队列调度过程的平均耗时(ms)的变化趋势。 | |
输入耗时 | 模型服务输入处理过程的平均耗时(ms)的变化趋势。 | |
输出耗时 | 模型服务输出处理过程的平均耗时(ms)的变化趋势。 | |
模型计算耗时 | 模型服务计算过程的平均耗时(ms)的变化趋势。 |
当您在云监控中配置了针对边缘智能数据指标的告警策略后,云监控将为您监控对应数据指标的数值变化,并在指标数值满足一定特征时向您发送告警。
云监控能够监控的边缘智能资源包含:
不同资源支持不同的数据指标。与边缘智能相关的所有数据监控指标,请参见云监控指标查询。
您可以在云监控控制台的告警中心创建告警策略。具体操作,请参见云监控产品文档。
创建告警策略过程中,留意以下配置:
名称:为告警策略设置一个名称。建议在名称中包含“边缘智能”,以便于查找。
示例:边缘智能一体机告警策略。
资源类型:选择 CDN与加速 > 边缘计算-边缘智能。
维度:表示监控对象的类型。支持的选项包含 一体机、工作负载、推理服务、一体机磁盘、一体机网络、一体机温度
资源:表示要监控的资源的范围。
您选择的 维度 不同,支持使用的资源筛选器有差异。具体如下表所示。
维度 | 资源筛选器 |
---|---|
一体机 | 边缘智能项目、一体机名称 |
工作负载 | 边缘智能项目、prod名称 |
推理服务 | 边缘智能项目、推理服务ID |
一体机磁盘 | 边缘智能项目、一体机ID、磁盘名称 |
一体机网络 | 边缘智能项目、一体机ID、网卡名称 |
一体机温度 | 边缘智能项目、一体机ID、温度传感器 |
每个资源筛选器的选项包含 全部、部分。
触发条件:定义告警的触发条件。您选择的 维度 不同,触发条件中支持使用的数据指标有差异。
示例:当 维度 是 一体机磁盘 时,触发条件中允许使用 磁盘吞吐 和 磁盘使用率 指标。
与边缘智能相关的所有数据监控指标,请参见云监控指标查询。
当您在云监控中配置了针对边缘智能事件的事件规则后,云监控将为您监控和记录对应事件,并在事件发生时向您发送通知。
云监控能够监控的边缘智能事件类型包含:
不同事件类型下包含多种具体事件。与边缘智能相关的所有事件类型,请参见云监控指标查询。
您可以在云监控控制台的事件中心创建事件规则。具体操作,请参见云监控产品文档。
创建事件规则过程中,留意以下配置:
资源类型:选择 边缘计算-边缘智能。
事件名称:选择您关注的事件。