You need to enable JavaScript to run this app.
导航
监控告警
最近更新时间:2025.11.14 16:48:53首次发布时间:2024.12.09 13:06:21
复制全文
我的收藏
有用
有用
无用
无用

监控指标说明

ByteHouse 云数仓版的监控告警功能提供了多类类监控,分别是计算组、密钥和许可、任务中心、存储、连接、专属Server、计算组本地盘。每类监控的监控指标如下表所示。

说明

  • 为方便显示,监控告警图表会根据数据量自动调整单位量级,具体以显示为准。例如,在复制延迟大时,会将单位从 μs 调整为 ms;在复制延迟更大时,则会将单位从 ms 调整为 s。
  • 您可以调用 GetMetricData 接口查询各监控指标数据和告警信息。调用该查询接口时,需要获取产品的 Namespace、待查询指标所属的 SubNamespace 和待查询指标 MetricName。ByteHouse 云数仓版的 Namespace 为 VCM_ByteHouse,各指标的 MetricName 与 SubNamespace 如下表所示。
  • 您也可以在ByteHouse 云数仓版监控指标查询获取各个监控指标的详细信息。
  • 您也可以使用 SDK 查询各监控指标数据,请参见使用 SDK 查询 ByteHouse 监控数据

所属分类

指标名称

MetricName

SubNamespace

指标维度

指标单位

指标用途

指标说明

计算组

CPU占用率

VirtualWarehouse_CPU_Usage_Percentage

VirtualWarehouse

ResourceID,VWID

Percent

报警,消费

当前 CPU 使用量占已请求资源量的比例

计算组

内存占用率(RSS)

VirtualWarehouse_Memory_Usage_Percentage

VirtualWarehouse

ResourceID,VWID

Percent

报警,消费

当前内存使用量(RSS)占已请求资源量的比例

计算组

每秒查询率(QPS)

VirtualWarehouse_Query_Per_Second

VirtualWarehouse

ResourceID,VWID

Count/Second

报警,消费

5 分钟内平均每秒处理的所有类型查询条数

计算组

查询P95延迟

VirtualWarehouse_Query_P95_Latency

VirtualWarehouse

ResourceID,VWID

Millisecond

报警,消费

当前正在执行的查询中最快的 95% 平均延迟

计算组

查询成功率

VirtualWarehouse_Query_Success_Percentage

VirtualWarehouse

ResourceID,VWID

Percent

报警,消费

5 分钟内执行成功的查询所占比例

计算组

慢查询数(超过10秒)

VirtualWarehouse_Query_Slow_Queries

VirtualWarehouse

ResourceID,VWID

Count

报警,消费

当前已执行超过 10 秒的查询条数

计算组

默认查询QPS

VirtualWarehouse_Query_Per_Second_Default

VirtualWarehouse

ResourceID,VWID

Count/Second

报警,消费

5 分钟内平均每秒处理的默认类型查询条数

计算组

插入查询QPS

VirtualWarehouse_Query_Per_Second_Insert

VirtualWarehouse

ResourceID,VWID

Count/Second

报警,消费

5 分钟内平均每秒处理的插入类查询条数

计算组

系统查询QPS

VirtualWarehouse_Query_Per_Second_System

VirtualWarehouse

ResourceID,VWID

Count/Second

报警,消费

5 分钟内平均每秒处理的系统类查询条数

计算组

查询并发数

VirtualWarehouse_Concurrent_Queries

VirtualWarehouse

ResourceID,VWID

Count

报警,消费

当前处于并发执行的所有类型查询条数

计算组

默认查询并发数

VirtualWarehouse_Concurrent_Queries_Default

VirtualWarehouse

ResourceID,VWID

Count

报警,消费

当前处于并发执行的默认类查询条数

计算组

插入查询并发数

VirtualWarehouse_Concurrent_Queries_Insert

VirtualWarehouse

ResourceID,VWID

Count

报警,消费

当前处于并发执行的插入类查询条数

计算组

系统查询并发数

VirtualWarehouse_Concurrent_Queries_System

VirtualWarehouse

ResourceID,VWID

Count

报警,消费

当前处于并发执行的系统类查询条数

计算组

插入成功率

VirtualWarehouse_Insert_Success_Percentage

VirtualWarehouse

ResourceID,VWID

Percent

报警,消费

5 分钟内执行成功的插入所占比例

计算组

后台任务数量

VirtualWarehouse_Current_Manipulation

VirtualWarehouse

ResourceID,VWID,Pod(可选)

Count

报警,消费

计算组

查询P75延迟

VirtualWarehouse_Query_P75_Latency

VirtualWarehouse

ResourceID,VWID

Millisecond

报警,消费

当前正在执行的查询中最快的 75% 平均延迟

计算组

网络峰值输入速率

VirtualWarehouse_Network_Peak_Receive_Throughput

VirtualWarehouse

ResourceID,VWID,Pod(可选)

Bytes/Second(SI)

报警,消费

每秒流入的网络峰值流量

计算组

网络峰值输出速率

VirtualWarehouse_Network_Peak_Transmit_Throughput

VirtualWarehouse

ResourceID,VWID,Pod(可选)

Bytes/Second(SI)

报警,消费

每秒流入的网络峰值流量

计算组

内存占用率(WSS)

VirtualWarehouse_Memory_WorkingSet_Usage_Percentage

VirtualWarehouse

ResourceID,VWID,Pod(可选)

Percent

报警,消费

当前内存使用量(WSS)占已请求资源量的比例

密钥和许可

API Key剩余有效期

KeyAndLicense_API_Key_Expires_In_Days

KeyAndLicense

ResourceID,APIKeyMask,SubAccountID

Day

报警,消费

API Key 剩余有效期

任务中心

每小时任务完成次数

TaskCenter_Task_Completion_Rate

TaskCenter

ResourceID,TaskID

Count

报警,消费

任务每小时执行完成的次数

任务中心

每小时任务成功次数

TaskCenter_TTask_Success_Rate

TaskCenter

ResourceID,TaskID

Count

报警,消费

任务每小时执行成功的次数

任务中心

每小时任务失败次数

TaskCenter_Task_Failure_Rate

TaskCenter

ResourceID,TaskID

Count

报警,消费

任务每小时执行失败的次数

任务中心

任务成功率

TaskCenter_Task_Success_Ratio

TaskCenter

ResourceID,TaskID

Percent

报警,消费

一小时内任务执行成功的比例

存储

总占用空间

Storage_Total_Volume_Bytes

Storage

ResourceID

Bytes(IEC)

报警,消费

占用数据库存储空间的大小,精确到 byte(字节)

存储

总数据库数

Storage_Total_Databases

Storage

ResourceID

Count

报警,消费

已创建的数据库数量

存储

总表数

Storage_Total_Tables

Storage

ResourceID

Count

报警,消费

已创建的数据表数量总和

存储

总行数

Storage_Total_Rows

Storage

ResourceID

Count

报警,消费

已插入的数据行数总和

连接

当前网关连接数

Connection_Gateway_Connection_Count

Connection

ResourceID

Count

报警,消费

当前网关连接数

专属Server

CPU占用率

PrivateServer_CPU_Usage_Percentage

PrivateServer

ResourceID,Pod(可选)

Percent

报警,消费

CPU 占用率

专属Server

内存占用率(RSS)

PrivateServer_Memory_Usage_Percentage

PrivateServer

ResourceID,Pod(可选)

Percent

报警,消费

当前内存使用量(RSS)占已请求资源量的比例

专属Server

每秒综合查询率(QPS)

PrivateServer_Query_Per_Second

PrivateServer

ResourceID,Pod(可选)

Count/Second

报警,消费

5 分钟内平均每秒处理的所有类型查询条数

专属Server

每秒默认查询率(QPS)

PrivateServer_Query_Per_Second_Default

PrivateServer

ResourceID,Pod(可选)

Count/Second

报警,消费

5 分钟内平均每秒处理的默认类型查询条数

专属Server

每秒插入查询率(QPS)

PrivateServer_Query_Per_Second_Insert

PrivateServer

ResourceID,Pod(可选)

Count/Second

报警,消费

5 分钟内平均每秒处理的插入类型查询条数

专属Server

综合查询并发数

PrivateServer_Concurrent_Queries

PrivateServer

ResourceID,Pod(可选)

Count

报警,消费

当前处于并发执行的所有类型查询条数

专属Server

默认查询并发数

PrivateServer_Concurrent_Queries_Default

PrivateServer

ResourceID,Pod(可选)

Count

报警,消费

当前处于并发执行的默认类查询条数

专属Server

查询成功率

PrivateServer_Query_Success_Percentage

PrivateServer

ResourceID,Pod(可选)

Percent

报警,消费

5 分钟内执行成功的查询所占比例

专属Server

慢查询数(超过10秒)

PrivateServer_Query_Slow_Queries

PrivateServer

ResourceID,Pod(可选)

Count

报警,消费

当前已执行超过 10 秒的查询条数

专属Server

查询P95延迟

PrivateServer_Query_P95_Latency

PrivateServer

ResourceID,Pod(可选)

Millisecond

报警,消费

当前正在执行的查询中最快的 95% 平均延迟

专属Server

查询P99延迟

PrivateServer_Query_P99_Latency

PrivateServer

ResourceID,Pod(可选)

Millisecond

报警,消费

当前正在执行的查询中最快的 99% 平均延迟

专属Server

插入成功率

PrivateServer_Insert_Success_Percentage

PrivateServer

ResourceID,Pod(可选)

Percent

报警,消费

5分钟内执行成功的插入所占比例

专属Server

插入查询并发数

PrivateServer_Concurrent_Queries_Insert

PrivateServer

ResourceID,Pod(可选)

Count

报警,消费

当前处于并发执行的插入类查询条数

专属Server

查询P75延迟

PrivateServer_Query_P75_Latency

PrivateServer

ResourceID,Pod(可选)

Millisecond

报警,消费

当前正在执行的查询中最快的 75% 平均延迟

专属Server

网络峰值输入速率

PrivateServer_Network_Peak_Receive_Throughput

PrivateServer

ResourceID,Pod(可选)

Bytes/Second(SI)

报警,消费

每秒流入的网络峰值流量

专属Server

网络峰值输出速率

PrivateServer_Network_Peak_Transmit_Throughput

PrivateServer

ResourceID,Pod(可选)

Bytes/Second(SI)

报警,消费

每秒流出的网络峰值流量

专属Server

内存占用率(WSS)

PrivateServer_Memory_WorkingSet_Usage_Percentage

PrivateServer

ResourceID,Pod(可选)

Percent

报警,消费

当前内存使用量(WSS)占已请求资源量的比例

计算组本地盘

磁盘利用率

DiskCache_Spaced_Used_Percentage

DiskCache

ResourceID,VWID

Percent

报警,消费

磁盘利用率

计算组本地盘

缓存数据读写次数

DiskCache_Rows_Read_From_DiskCache_Pre_Sec

DiskCache

ResourceID,VWID

Count/Second

报警,消费

缓存数据读写次数

计算组本地盘

缓存命中率

DiskCache_Disk_Cache_Hit_Rate

DiskCache

ResourceID,VWID

Percent

报警,消费

缓存命中率

计算组本地盘

磁盘 IOPS (读)

DiskCache_Disk_Read_IOPS

DiskCache

ResourceID,VWID

Count/Second

报警,消费

磁盘 IOPS (读)

计算组本地盘

磁盘 IOPS (写)

DiskCache_Disk_Write_IOPS

DiskCache

ResourceID,VWID

Count/Second

报警,消费

磁盘 IOPS (写)

计算组本地盘

磁盘带宽(读)

DiskCache_Disk_Read_Byte

DiskCache

ResourceID,VWID

Kibibytes/Second

报警,消费

磁盘带宽(读)

计算组本地盘

磁盘带宽(写)

DiskCache_Disk_Write_Byte

DiskCache

ResourceID,VWID

Kibibytes/Second

报警,消费

磁盘带宽(写)

计算组本地盘

iNodes 占用比

DiskCache_Disk_Inode_Usage

DiskCache

ResourceID,VWID

Percent

报警,消费

iNodes 占用比

查看监控信息

本文介绍查看监控信息的操作步骤。

操作步骤

  1. 登录ByteHouse 云数仓版控制台
  2. 在顶部菜单栏的左上角,选择实例所属的地域。
  3. 在页面上方,单击 租户管理 > 监控告警 页签。您可单击查看计算组密钥和许可任务中心存储连接专属 Server本地盘的监控详情。
    Image

设置告警

ByteHouse 云数仓版已对接云监控服务,通过云监控服务进行告警策略的管理。本文介绍如何创建告警策略,更加详细的告警流程和原理,请参见告警原理--云监控-火山引擎

操作步骤

  1. 登录 云监控控制台
  2. 在左侧导航栏,选择 告警中心 > 告警策略
  3. 告警策略 页面,单击 创建告警策略,进入云监控服务的创建告警策略页面。
  4. 创建告警策略页,根据业务需要配置各参数。具体参数配置说明,请参见 创建告警策略

    说明

    创建告警策略页配置告警对象时,需要选择资源类型为 数据中台 > ByteHouse 云数仓版

推荐告警策略

计算组

  • 建议对计算组 CPU 占用率 / 内存占用率 超过 80% 进行报警。

密钥

  • 避免由于 API Key 过期导致业务程序无法连接至 ByteHouse 从而影响业务,建议当 API Key 有效期小于 7 天时进行监控报警。
    Image

任务中心

  • 对任务中心的定时任务进行监控报警,可以根据任务成功率进行监控报警,阈值可以根据业务需要进行自定义设置。
    Image

网关连接数

  • 当前 ByteHouse 网关连接数的阈值为 2000,当超过 2000 时则会触发限流操作,配置该监控报警可提前观测业务所使用的网关连接数是否在安全范围内,阈值建议可以在 1500。
    Image

相关链接