ByteHouse 云数仓版的监控告警功能提供了多类类监控,分别是计算组、密钥和许可、任务中心、存储、连接、专属Server、计算组本地盘。每类监控的监控指标如下表所示。
说明
所属分类 | 指标名称 | MetricName | SubNamespace | 指标维度 | 指标单位 | 指标用途 | 指标说明 |
|---|---|---|---|---|---|---|---|
计算组 | CPU占用率 | VirtualWarehouse_CPU_Usage_Percentage | VirtualWarehouse | ResourceID,VWID | Percent | 报警,消费 | 当前 CPU 使用量占已请求资源量的比例 |
计算组 | 内存占用率(RSS) | VirtualWarehouse_Memory_Usage_Percentage | VirtualWarehouse | ResourceID,VWID | Percent | 报警,消费 | 当前内存使用量(RSS)占已请求资源量的比例 |
计算组 | 每秒查询率(QPS) | VirtualWarehouse_Query_Per_Second | VirtualWarehouse | ResourceID,VWID | Count/Second | 报警,消费 | 5 分钟内平均每秒处理的所有类型查询条数 |
计算组 | 查询P95延迟 | VirtualWarehouse_Query_P95_Latency | VirtualWarehouse | ResourceID,VWID | Millisecond | 报警,消费 | 当前正在执行的查询中最快的 95% 平均延迟 |
计算组 | 查询成功率 | VirtualWarehouse_Query_Success_Percentage | VirtualWarehouse | ResourceID,VWID | Percent | 报警,消费 | 5 分钟内执行成功的查询所占比例 |
计算组 | 慢查询数(超过10秒) | VirtualWarehouse_Query_Slow_Queries | VirtualWarehouse | ResourceID,VWID | Count | 报警,消费 | 当前已执行超过 10 秒的查询条数 |
计算组 | 默认查询QPS | VirtualWarehouse_Query_Per_Second_Default | VirtualWarehouse | ResourceID,VWID | Count/Second | 报警,消费 | 5 分钟内平均每秒处理的默认类型查询条数 |
计算组 | 插入查询QPS | VirtualWarehouse_Query_Per_Second_Insert | VirtualWarehouse | ResourceID,VWID | Count/Second | 报警,消费 | 5 分钟内平均每秒处理的插入类查询条数 |
计算组 | 系统查询QPS | VirtualWarehouse_Query_Per_Second_System | VirtualWarehouse | ResourceID,VWID | Count/Second | 报警,消费 | 5 分钟内平均每秒处理的系统类查询条数 |
计算组 | 查询并发数 | VirtualWarehouse_Concurrent_Queries | VirtualWarehouse | ResourceID,VWID | Count | 报警,消费 | 当前处于并发执行的所有类型查询条数 |
计算组 | 默认查询并发数 | VirtualWarehouse_Concurrent_Queries_Default | VirtualWarehouse | ResourceID,VWID | Count | 报警,消费 | 当前处于并发执行的默认类查询条数 |
计算组 | 插入查询并发数 | VirtualWarehouse_Concurrent_Queries_Insert | VirtualWarehouse | ResourceID,VWID | Count | 报警,消费 | 当前处于并发执行的插入类查询条数 |
计算组 | 系统查询并发数 | VirtualWarehouse_Concurrent_Queries_System | VirtualWarehouse | ResourceID,VWID | Count | 报警,消费 | 当前处于并发执行的系统类查询条数 |
计算组 | 插入成功率 | VirtualWarehouse_Insert_Success_Percentage | VirtualWarehouse | ResourceID,VWID | Percent | 报警,消费 | 5 分钟内执行成功的插入所占比例 |
计算组 | 后台任务数量 | VirtualWarehouse_Current_Manipulation | VirtualWarehouse | ResourceID,VWID,Pod(可选) | Count | 报警,消费 | 无 |
计算组 | 查询P75延迟 | VirtualWarehouse_Query_P75_Latency | VirtualWarehouse | ResourceID,VWID | Millisecond | 报警,消费 | 当前正在执行的查询中最快的 75% 平均延迟 |
计算组 | 网络峰值输入速率 | VirtualWarehouse_Network_Peak_Receive_Throughput | VirtualWarehouse | ResourceID,VWID,Pod(可选) | Bytes/Second(SI) | 报警,消费 | 每秒流入的网络峰值流量 |
计算组 | 网络峰值输出速率 | VirtualWarehouse_Network_Peak_Transmit_Throughput | VirtualWarehouse | ResourceID,VWID,Pod(可选) | Bytes/Second(SI) | 报警,消费 | 每秒流入的网络峰值流量 |
计算组 | 内存占用率(WSS) | VirtualWarehouse_Memory_WorkingSet_Usage_Percentage | VirtualWarehouse | ResourceID,VWID,Pod(可选) | Percent | 报警,消费 | 当前内存使用量(WSS)占已请求资源量的比例 |
密钥和许可 | API Key剩余有效期 | KeyAndLicense_API_Key_Expires_In_Days | KeyAndLicense | ResourceID,APIKeyMask,SubAccountID | Day | 报警,消费 | API Key 剩余有效期 |
任务中心 | 每小时任务完成次数 | TaskCenter_Task_Completion_Rate | TaskCenter | ResourceID,TaskID | Count | 报警,消费 | 任务每小时执行完成的次数 |
任务中心 | 每小时任务成功次数 | TaskCenter_TTask_Success_Rate | TaskCenter | ResourceID,TaskID | Count | 报警,消费 | 任务每小时执行成功的次数 |
任务中心 | 每小时任务失败次数 | TaskCenter_Task_Failure_Rate | TaskCenter | ResourceID,TaskID | Count | 报警,消费 | 任务每小时执行失败的次数 |
任务中心 | 任务成功率 | TaskCenter_Task_Success_Ratio | TaskCenter | ResourceID,TaskID | Percent | 报警,消费 | 一小时内任务执行成功的比例 |
存储 | 总占用空间 | Storage_Total_Volume_Bytes | Storage | ResourceID | Bytes(IEC) | 报警,消费 | 占用数据库存储空间的大小,精确到 byte(字节) |
存储 | 总数据库数 | Storage_Total_Databases | Storage | ResourceID | Count | 报警,消费 | 已创建的数据库数量 |
存储 | 总表数 | Storage_Total_Tables | Storage | ResourceID | Count | 报警,消费 | 已创建的数据表数量总和 |
存储 | 总行数 | Storage_Total_Rows | Storage | ResourceID | Count | 报警,消费 | 已插入的数据行数总和 |
连接 | 当前网关连接数 | Connection_Gateway_Connection_Count | Connection | ResourceID | Count | 报警,消费 | 当前网关连接数 |
专属Server | CPU占用率 | PrivateServer_CPU_Usage_Percentage | PrivateServer | ResourceID,Pod(可选) | Percent | 报警,消费 | CPU 占用率 |
专属Server | 内存占用率(RSS) | PrivateServer_Memory_Usage_Percentage | PrivateServer | ResourceID,Pod(可选) | Percent | 报警,消费 | 当前内存使用量(RSS)占已请求资源量的比例 |
专属Server | 每秒综合查询率(QPS) | PrivateServer_Query_Per_Second | PrivateServer | ResourceID,Pod(可选) | Count/Second | 报警,消费 | 5 分钟内平均每秒处理的所有类型查询条数 |
专属Server | 每秒默认查询率(QPS) | PrivateServer_Query_Per_Second_Default | PrivateServer | ResourceID,Pod(可选) | Count/Second | 报警,消费 | 5 分钟内平均每秒处理的默认类型查询条数 |
专属Server | 每秒插入查询率(QPS) | PrivateServer_Query_Per_Second_Insert | PrivateServer | ResourceID,Pod(可选) | Count/Second | 报警,消费 | 5 分钟内平均每秒处理的插入类型查询条数 |
专属Server | 综合查询并发数 | PrivateServer_Concurrent_Queries | PrivateServer | ResourceID,Pod(可选) | Count | 报警,消费 | 当前处于并发执行的所有类型查询条数 |
专属Server | 默认查询并发数 | PrivateServer_Concurrent_Queries_Default | PrivateServer | ResourceID,Pod(可选) | Count | 报警,消费 | 当前处于并发执行的默认类查询条数 |
专属Server | 查询成功率 | PrivateServer_Query_Success_Percentage | PrivateServer | ResourceID,Pod(可选) | Percent | 报警,消费 | 5 分钟内执行成功的查询所占比例 |
专属Server | 慢查询数(超过10秒) | PrivateServer_Query_Slow_Queries | PrivateServer | ResourceID,Pod(可选) | Count | 报警,消费 | 当前已执行超过 10 秒的查询条数 |
专属Server | 查询P95延迟 | PrivateServer_Query_P95_Latency | PrivateServer | ResourceID,Pod(可选) | Millisecond | 报警,消费 | 当前正在执行的查询中最快的 95% 平均延迟 |
专属Server | 查询P99延迟 | PrivateServer_Query_P99_Latency | PrivateServer | ResourceID,Pod(可选) | Millisecond | 报警,消费 | 当前正在执行的查询中最快的 99% 平均延迟 |
专属Server | 插入成功率 | PrivateServer_Insert_Success_Percentage | PrivateServer | ResourceID,Pod(可选) | Percent | 报警,消费 | 5分钟内执行成功的插入所占比例 |
专属Server | 插入查询并发数 | PrivateServer_Concurrent_Queries_Insert | PrivateServer | ResourceID,Pod(可选) | Count | 报警,消费 | 当前处于并发执行的插入类查询条数 |
专属Server | 查询P75延迟 | PrivateServer_Query_P75_Latency | PrivateServer | ResourceID,Pod(可选) | Millisecond | 报警,消费 | 当前正在执行的查询中最快的 75% 平均延迟 |
专属Server | 网络峰值输入速率 | PrivateServer_Network_Peak_Receive_Throughput | PrivateServer | ResourceID,Pod(可选) | Bytes/Second(SI) | 报警,消费 | 每秒流入的网络峰值流量 |
专属Server | 网络峰值输出速率 | PrivateServer_Network_Peak_Transmit_Throughput | PrivateServer | ResourceID,Pod(可选) | Bytes/Second(SI) | 报警,消费 | 每秒流出的网络峰值流量 |
专属Server | 内存占用率(WSS) | PrivateServer_Memory_WorkingSet_Usage_Percentage | PrivateServer | ResourceID,Pod(可选) | Percent | 报警,消费 | 当前内存使用量(WSS)占已请求资源量的比例 |
计算组本地盘 | 磁盘利用率 | DiskCache_Spaced_Used_Percentage | DiskCache | ResourceID,VWID | Percent | 报警,消费 | 磁盘利用率 |
计算组本地盘 | 缓存数据读写次数 | DiskCache_Rows_Read_From_DiskCache_Pre_Sec | DiskCache | ResourceID,VWID | Count/Second | 报警,消费 | 缓存数据读写次数 |
计算组本地盘 | 缓存命中率 | DiskCache_Disk_Cache_Hit_Rate | DiskCache | ResourceID,VWID | Percent | 报警,消费 | 缓存命中率 |
计算组本地盘 | 磁盘 IOPS (读) | DiskCache_Disk_Read_IOPS | DiskCache | ResourceID,VWID | Count/Second | 报警,消费 | 磁盘 IOPS (读) |
计算组本地盘 | 磁盘 IOPS (写) | DiskCache_Disk_Write_IOPS | DiskCache | ResourceID,VWID | Count/Second | 报警,消费 | 磁盘 IOPS (写) |
计算组本地盘 | 磁盘带宽(读) | DiskCache_Disk_Read_Byte | DiskCache | ResourceID,VWID | Kibibytes/Second | 报警,消费 | 磁盘带宽(读) |
计算组本地盘 | 磁盘带宽(写) | DiskCache_Disk_Write_Byte | DiskCache | ResourceID,VWID | Kibibytes/Second | 报警,消费 | 磁盘带宽(写) |
计算组本地盘 | iNodes 占用比 | DiskCache_Disk_Inode_Usage | DiskCache | ResourceID,VWID | Percent | 报警,消费 | iNodes 占用比 |
本文介绍查看监控信息的操作步骤。
ByteHouse 云数仓版已对接云监控服务,通过云监控服务进行告警策略的管理。本文介绍如何创建告警策略,更加详细的告警流程和原理,请参见告警原理--云监控-火山引擎。
说明
在创建告警策略页配置告警对象时,需要选择资源类型为 数据中台 > ByteHouse 云数仓版。