ByteHouse 企业版的监控告警功能针对集群和节点提供了多类监控,分别是操作系统负载、ByteHouse 负载、查询负载、数据导入、Zookeeper。
说明
所属分类 | 指标名称 | MetricName | SubNamespace | 指标维度 | 指标单位 | 指标用途 |
---|---|---|---|---|---|---|
节点 ByteHouse 负载 | Parts 数 | parts | Clickhouse | Node,ResourceID,ENI(可选) | Count | 报警,消费 |
节点 ByteHouse 负载 | MergeTree 表数量 | MergeTreeTableNum | Clickhouse | ResourceID,Node,ENI(可选) | Count | 报警,消费 |
节点 ByteHouse 负载 | kafka 表数量 | KafkaTableNum | Clickhouse | ResourceID,Node,ENI(可选) | Count | 报警,消费 |
节点 ByteHouse 负载 | 最大主备同步延迟表个数 | HaQueueCount | Clickhouse | ResourceID,Node,ENI(可选) | Count | 报警,消费 |
节点 ByteHouse 负载 | 分布式表待发送文件数 | ClickHouseMetrics_DistributedFilesToInsert | Clickhouse | ResourceID,Node,ENI(可选) | Count | 报警,消费 |
节点 ByteHouse 负载 | Broken Tables 数量 | Broken_tables | Clickhouse | Node,ResourceID,ENI(可选) | Count | 报警,消费 |
节点 ByteHouse 负载 | Merge 占用内存 | ClickHouseMetrics_MergeMemoryUsage | Clickhouse | Node,ResourceID,ENI(可选) | Bytes(IEC) | 报警,消费 |
节点 ByteHouse 负载 | Merge 任务数 | ClickHouseProfileEvents_Merge | Clickhouse | ResourceID,Node,ENI(可选) | Count/Second | 报警,消费 |
节点 ByteHouse 负载 | Unique 表索引占用内存 | ClickHouseMetrics_UniqueIndexMemoryUsage | Clickhouse | Node,ResourceID,ENI(可选) | Bytes(IEC) | 报警,消费 |
节点 ByteHouse 负载 | Map Keys 数量 | ClickHouseMetricsMapKeyCount | Clickhouse | Node,ResourceID,ENI(可选) | Count | 报警,消费 |
节点 ByteHouse 负载 | 活跃part数 | ActiveParts | Clickhouse | ResourceID,Node,ENI(可选) | Count | 报警 |
节点 ByteHouse 负载 | 并发数(包含 subquery) | ClickHouseMetrics_Process_Count | Clickhouse | ResourceID,ENI,Node | Count | 报警,执行中的查询数,包含子查询 |
节点 ByteHouse 负载 | mutation 数 | ClickHouseMetrics_mutations_count | Clickhouse | ResourceID,ENI,Node | Count | 报警,执行中的mutation数量 |
节点 ByteHouse 负载 | 最长 mutation 已执行时间 | ClickHouseMetrics_mutations_max_execution_time | Clickhouse | ResourceID,ENI,Node | Second | 报警 |
集群 ByteHouse 负载 | Parts 数 | ClusterParts | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | MergeTree 表数量 | ClusterMergeTreeTableNum | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | kafka 表数量 | ClusterKafkaTableNum | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | 最大主备同步延迟表个数 | ClusterHaQueueCount | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | 分布式表待发送文件数 | ClusterClickHouseMetrics_DistributedFilesToInsert | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | Broken Tables 数量 | ClusterBroken_tables | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | Merge 占用内存 | ClusterClickHouseMetrics_MergeMemoryUsage | ClusterClickhouse | ResourceID | Bytes(IEC) | 报警,消费 |
集群 ByteHouse 负载 | Merge 任务数 | ClusterClickHouseProfileEvents_Merge | ClusterClickhouse | ResourceID | Count/Second | 报警,消费 |
集群 ByteHouse 负载 | Map Keys 数量 | ClusterClickHouseMetricsMapKeyCount | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | Unique 表索引占用内存 | ClusterClickHouseMetrics_UniqueIndexMemoryUsage | ClusterClickhouse | ResourceID | Bytes(IEC) | 报警,消费 |
集群 ByteHouse 负载 | Leader 数为 0 的 HA 表数量 | ClickHouseMetrics_no_leader_ha_table_count | ClusterClickhouse | ResourceID | Count | 报警,消费 |
集群 ByteHouse 负载 | 活跃 part 数 | ClusterActiveParts | ClusterClickhouse | ResourceID | Count | 报警 |
集群 ByteHouse 负载 | 最大节点并发数(包含 subquery) | ClusterClickHouseMetrics_Process_Count | ClusterClickhouse | ResourceID | Count | 报警,集群中并发数最高的节点的当前并发数,包含subquery |
集群 ByteHouse 负载 | 执行中的 mutation 数量 | ClusterClickHouseMetrics_mutations_count | ClusterClickhouse | ResourceID | Count | 报警,执行中的mutation数量,集群总和 |
集群 ByteHouse 负载 | 最长 mutation 已执行时间 | ClusterClickHouseMetrics_mutations_max_execution_time | ClusterClickhouse | ResourceID | Second | 报警,最长mutation已执行时间 |
集群数据导入 | kafka 消费速率(行每秒) | ClusterClickHouseMetrics_KafkaMetricsPerSecond | ClusterDataImport | ResourceID | Count/Second | 报警,消费 |
集群数据导入 | Kafka 消费速率(bytes 每秒) | ClusterClickHouseMetrics_KafkaBytesPerSecond | ClusterDataImport | ResourceID | Bytes/Second(IEC) | 报警,消费 |
集群数据导入 | kafka 错误量(count 每秒) | ClusterClickHouseMetrics_KafkaErrorsPerSecond | ClusterDataImport | ResourceID | Count/Second | 报警,消费 |
集群查询负载 | Query 并发数 | cluster_qps | ClusterQuery | ResourceID | Count/Second | 报警,消费 |
集群查询负载 | Query 成功率 | cluster_query_success_rate | ClusterQuery | ResourceID | Percent | 报警,消费 |
集群查询负载 | Query 延时 | cluster_query_latency | ClusterQuery | ResourceID | Millisecond | 报警,消费 |
集群查询负载 | Select 并发数 | cluster_select_qps | ClusterQuery | ResourceID | Count/Second | 报警,消费 |
集群查询负载 | Select 成功率 | cluster_select_query_success_rate | ClusterQuery | ResourceID | Percent | 报警,消费 |
集群查询负载 | Select 延时 | cluster_select_query_latency | ClusterQuery | ResourceID | Millisecond | 报警,消费 |
集群操作系统负载 | CPU 使用率 | cluster_cpu_usage_percentage | ClusterSystem | ResourceID | Percent | 报警,消费 |
集群操作系统负载 | 内存使用率 | cluster_memory_usage_percentage | ClusterSystem | ResourceID | Percent | 报警,消费 |
集群操作系统负载 | 内存使用量 | cluster_memory_usage | ClusterSystem | ResourceID | Gibibytes | 报警,消费 |
集群操作系统负载 | 磁盘使用率 | cluster_disk_usage_percentage | ClusterSystem | ResourceID | Percent | 报警,消费 |
集群操作系统负载 | 磁盘剩余空间 | cluster_disk_free_space | ClusterSystem | ResourceID | Gibibytes | 报警,消费 |
集群操作系统负载 | 磁盘读 IOPS | cluster_disk_read_iops | ClusterSystem | ResourceID | Count/Second | 报警,消费 |
集群操作系统负载 | 磁盘写 IOPS | cluster_disk_write_iops | ClusterSystem | ResourceID | Count/Second | 报警,消费 |
集群操作系统负载 | 磁盘读带宽 | cluster_disk_read_byte | ClusterSystem | ResourceID | Kibibytes/Second | 报警,消费 |
集群操作系统负载 | 磁盘写带宽 | cluster_disk_write_byte | ClusterSystem | ResourceID | Kibibytes/Second | 报警,消费 |
集群操作系统负载 | inode 占用比 | cluster_inode_usage | ClusterSystem | ResourceID | Percent | 报警,消费 |
集群操作系统负载 | 节点宕机数 | bad_node_count | ClusterSystem | ResourceID | Count | 报警,消费 |
集群操作系统负载 | Shard 故障数 | bad_shard_num | ClusterSystem | ResourceID | Count | 报警,消费 |
集群 Zookeeper | Client 侧 watch个数 | ClusterClickHouseMetrics_ZooKeeperWatch | ClusterZookeeper | ResourceID | Count | 报警,消费 |
集群 Zookeeper | ZK 会话创建次数 | ClusterClickHouseProfileEvents_ZooKeeperInit | ClusterZookeeper | ResourceID | Count | 报警,消费 |
节点数据导入 | kafka 消费速率(行每秒) | ClickHouseMetrics_KafkaMetricsPerSecond | DataImport | Node,ResourceID,ENI(可选) | Count/Second | 报警,消费 |
节点数据导入 | Kafka 消费速率(bytes 每秒) | ClickHouseMetrics_KafkaBytesPerSecond | DataImport | Node,ResourceID,ENI(可选) | Bytes/Second(IEC) | 报警,消费 |
节点数据导入 | kafka 错误量(count 每秒) | ClusterClickHouseMetrics_KafkaErrorsPerSecond | DataImport | Node,ResourceID,ENI(可选) | Count/Second | 报警,消费 |
节点查询负载 | Query 并发数 | qps | Query | Node,ResourceID,ENI(可选) | Count/Second | 报警,消费 |
节点查询负载 | Query 成功率 | query_success_rate | Query | Node,ResourceID,ENI(可选) | Percent | 报警,消费 |
节点查询负载 | Query 延时 | QueryLatency | Query | Node,ResourceID,ENI(可选) | Millisecond | 报警,消费 |
节点查询负载 | Select 并发数 | select_qps | Query | Node,ResourceID,ENI(可选) | Count/Second | 报警,消费 |
节点查询负载 | Select 成功率 | select_query_success_rate | Query | Node,ResourceID,ENI(可选) | Percent | 报警,消费 |
节点查询负载 | Select 延时 | SelectQueryLatency | Query | Node,ResourceID,ENI(可选) | Millisecond | 报警,消费 |
节点操作系统负载 | CPU 使用率 | cpu_usage_percentage | System | ResourceID,Node,ENI(可选) | Percent | 报警,消费 |
节点操作系统负载 | 内存使用率 | node_memory_usage_percentage | System | Node,ResourceID,ENI(可选) | Percent | 报警,消费 |
节点操作系统负载 | 内存使用量 | memory_usage | System | Node,ResourceID,ENI(可选) | Gibibytes | 报警,消费 |
节点操作系统负载 | 磁盘使用率 | disk_usage_percentage | System | Node,ResourceID,ENI(可选) | Percent | 报警,消费 |
节点操作系统负载 | 磁盘剩余空间 | node_disk_free_space | System | Node,ResourceID,ENI(可选) | Bytes(IEC) | 报警,消费 |
节点操作系统负载 | 磁盘读 IOPS | disk_read_iops | System | Node,ResourceID,ENI(可选) | Count/Second | 报警,消费 |
节点操作系统负载 | 磁盘写 IOPS | disk_write_iops | System | Node,ResourceID,ENI(可选) | Count/Second | 报警,消费 |
节点操作系统负载 | 磁盘读带宽 | disk_read_byte | System | Node,ResourceID,ENI(可选) | Kibibytes/Second | 报警,消费 |
节点操作系统负载 | 磁盘写带宽 | disk_write_byte | System | Node,ResourceID,ENI(可选) | Kibibytes/Second | 报警,消费 |
节点操作系统负载 | inode占用比 | inode_usage | System | Node,ResourceID,ENI(可选) | Percent | 报警,消费 |
节点 Zookeeper | Client 侧 watch个数 | ClickHouseMetrics_ZooKeeperWatch | Zookeeper | Node,ResourceID,ENI(可选) | Count | 报警,消费 |
节点 Zookeeper | ZK 会话创建次数 | ClickHouseProfileEvents_ZooKeeperInit | Zookeeper | Node,ResourceID,ENI(可选) | Count | 报警,消费 |
ByteHouse 企业版已对接云监控服务,通过云监控服务进行告警策略的管理。本文介绍如何创建告警策略,更加详细的告警流程和原理,请参见告警原理--云监控-火山引擎。
说明
在创建告警策略页配置告警对象时,需要选择资源类型为 数据中台 > ByteHouse 企业版。
您可以根据业务场景和实际需求,为集群或节点配置告警策略,推荐配置的告警策略如下:
监控指标 | 支持配置的维度 | 推荐告警策略 |
---|---|---|
Query 成功率 |
| 建议对 Query 成功率小于 97% 进行报警。 |
CPU 成功率 |
| 建议对 CPU 使用率超过 95% 进行报警。 |
内存使用率 |
| 建议对内存使用率超过 85% 进行报警。 |
磁盘使用率 |
| 建议对磁盘使用率超过 95% 进行报警。 |
节点宕机数 |
| 建议对节点宕机数大于 0 进行报警。 |