You need to enable JavaScript to run this app.
导航
监控告警
最近更新时间:2025.05.22 14:04:28首次发布时间:2025.05.22 14:04:28
我的收藏
有用
有用
无用
无用

监控指标说明

ByteHouse 企业版的监控告警功能针对集群和节点提供了多类监控,分别是操作系统负载、ByteHouse 负载、查询负载、数据导入、Zookeeper。

说明

  • 为方便显示,监控告警图表会根据数据量自动调整单位量级,具体以显示为准。例如,在复制延迟大时,会将单位从 μs 调整为 ms;在复制延迟更大时,则会将单位从 ms 调整为 s。
  • 您可以调用 GetMetricData 接口查询各监控指标数据和告警信息。调用该查询接口时,需要获取产品的 Namespace、待查询指标所属的 SubNamespace 和待查询指标 MetricName。ByteHouse 企业版版的 Namespace 为 VCM_ByteHouse_Ce,各指标的 MetricName 与 SubNamespace 如下表所示。
  • 您也可以在ByteHouse 企业版监控指标查询获取各个监控指标的详细信息。
  • 您也可以使用 SDK 查询各监控指标数据,详情请参见使用 SDK 查询 Bytehouse 监控数据

所属分类

指标名称

MetricName

SubNamespace

指标维度

指标单位

指标用途

节点 ByteHouse 负载

Parts 数

parts

Clickhouse

Node,ResourceID,ENI(可选)

Count

报警,消费

节点 ByteHouse 负载

MergeTree 表数量

MergeTreeTableNum

Clickhouse

ResourceID,Node,ENI(可选)

Count

报警,消费

节点 ByteHouse 负载

kafka 表数量

KafkaTableNum

Clickhouse

ResourceID,Node,ENI(可选)

Count

报警,消费

节点 ByteHouse 负载

最大主备同步延迟表个数

HaQueueCount

Clickhouse

ResourceID,Node,ENI(可选)

Count

报警,消费

节点 ByteHouse 负载

分布式表待发送文件数

ClickHouseMetrics_DistributedFilesToInsert

Clickhouse

ResourceID,Node,ENI(可选)

Count

报警,消费

节点 ByteHouse 负载

Broken Tables 数量

Broken_tables

Clickhouse

Node,ResourceID,ENI(可选)

Count

报警,消费

节点 ByteHouse 负载

Merge 占用内存

ClickHouseMetrics_MergeMemoryUsage

Clickhouse

Node,ResourceID,ENI(可选)

Bytes(IEC)

报警,消费

节点 ByteHouse 负载

Merge 任务数

ClickHouseProfileEvents_Merge

Clickhouse

ResourceID,Node,ENI(可选)

Count/Second

报警,消费

节点 ByteHouse 负载

Unique 表索引占用内存

ClickHouseMetrics_UniqueIndexMemoryUsage

Clickhouse

Node,ResourceID,ENI(可选)

Bytes(IEC)

报警,消费

节点 ByteHouse 负载

Map Keys 数量

ClickHouseMetricsMapKeyCount

Clickhouse

Node,ResourceID,ENI(可选)

Count

报警,消费

节点 ByteHouse 负载

活跃part数

ActiveParts

Clickhouse

ResourceID,Node,ENI(可选)

Count

报警

节点 ByteHouse 负载

并发数(包含 subquery)

ClickHouseMetrics_Process_Count

Clickhouse

ResourceID,ENI,Node

Count

报警,执行中的查询数,包含子查询

节点 ByteHouse 负载

mutation 数

ClickHouseMetrics_mutations_count

Clickhouse

ResourceID,ENI,Node

Count

报警,执行中的mutation数量

节点 ByteHouse 负载

最长 mutation 已执行时间

ClickHouseMetrics_mutations_max_execution_time

Clickhouse

ResourceID,ENI,Node

Second

报警

集群 ByteHouse 负载

Parts 数

ClusterParts

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

MergeTree 表数量

ClusterMergeTreeTableNum

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

kafka 表数量

ClusterKafkaTableNum

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

最大主备同步延迟表个数

ClusterHaQueueCount

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

分布式表待发送文件数

ClusterClickHouseMetrics_DistributedFilesToInsert

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

Broken Tables 数量

ClusterBroken_tables

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

Merge 占用内存

ClusterClickHouseMetrics_MergeMemoryUsage

ClusterClickhouse

ResourceID

Bytes(IEC)

报警,消费

集群 ByteHouse 负载

Merge 任务数

ClusterClickHouseProfileEvents_Merge

ClusterClickhouse

ResourceID

Count/Second

报警,消费

集群 ByteHouse 负载

Map Keys 数量

ClusterClickHouseMetricsMapKeyCount

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

Unique 表索引占用内存

ClusterClickHouseMetrics_UniqueIndexMemoryUsage

ClusterClickhouse

ResourceID

Bytes(IEC)

报警,消费

集群 ByteHouse 负载

Leader 数为 0 的 HA 表数量

ClickHouseMetrics_no_leader_ha_table_count

ClusterClickhouse

ResourceID

Count

报警,消费

集群 ByteHouse 负载

活跃 part 数

ClusterActiveParts

ClusterClickhouse

ResourceID

Count

报警

集群 ByteHouse 负载

最大节点并发数(包含 subquery)

ClusterClickHouseMetrics_Process_Count

ClusterClickhouse

ResourceID

Count

报警,集群中并发数最高的节点的当前并发数,包含subquery

集群 ByteHouse 负载

执行中的 mutation 数量

ClusterClickHouseMetrics_mutations_count

ClusterClickhouse

ResourceID

Count

报警,执行中的mutation数量,集群总和

集群 ByteHouse 负载

最长 mutation 已执行时间

ClusterClickHouseMetrics_mutations_max_execution_time

ClusterClickhouse

ResourceID

Second

报警,最长mutation已执行时间

集群数据导入

kafka 消费速率(行每秒)

ClusterClickHouseMetrics_KafkaMetricsPerSecond

ClusterDataImport

ResourceID

Count/Second

报警,消费

集群数据导入

Kafka 消费速率(bytes 每秒)

ClusterClickHouseMetrics_KafkaBytesPerSecond

ClusterDataImport

ResourceID

Bytes/Second(IEC)

报警,消费

集群数据导入

kafka 错误量(count 每秒)

ClusterClickHouseMetrics_KafkaErrorsPerSecond

ClusterDataImport

ResourceID

Count/Second

报警,消费

集群查询负载

Query 并发数

cluster_qps

ClusterQuery

ResourceID

Count/Second

报警,消费

集群查询负载

Query 成功率

cluster_query_success_rate

ClusterQuery

ResourceID

Percent

报警,消费

集群查询负载

Query 延时

cluster_query_latency

ClusterQuery

ResourceID

Millisecond

报警,消费

集群查询负载

Select 并发数

cluster_select_qps

ClusterQuery

ResourceID

Count/Second

报警,消费

集群查询负载

Select 成功率

cluster_select_query_success_rate

ClusterQuery

ResourceID

Percent

报警,消费

集群查询负载

Select 延时

cluster_select_query_latency

ClusterQuery

ResourceID

Millisecond

报警,消费

集群操作系统负载

CPU 使用率

cluster_cpu_usage_percentage

ClusterSystem

ResourceID

Percent

报警,消费

集群操作系统负载

内存使用率

cluster_memory_usage_percentage

ClusterSystem

ResourceID

Percent

报警,消费

集群操作系统负载

内存使用量

cluster_memory_usage

ClusterSystem

ResourceID

Gibibytes

报警,消费

集群操作系统负载

磁盘使用率

cluster_disk_usage_percentage

ClusterSystem

ResourceID

Percent

报警,消费

集群操作系统负载

磁盘剩余空间

cluster_disk_free_space

ClusterSystem

ResourceID

Gibibytes

报警,消费

集群操作系统负载

磁盘读 IOPS

cluster_disk_read_iops

ClusterSystem

ResourceID

Count/Second

报警,消费

集群操作系统负载

磁盘写 IOPS

cluster_disk_write_iops

ClusterSystem

ResourceID

Count/Second

报警,消费

集群操作系统负载

磁盘读带宽

cluster_disk_read_byte

ClusterSystem

ResourceID

Kibibytes/Second

报警,消费

集群操作系统负载

磁盘写带宽

cluster_disk_write_byte

ClusterSystem

ResourceID

Kibibytes/Second

报警,消费

集群操作系统负载

inode 占用比

cluster_inode_usage

ClusterSystem

ResourceID

Percent

报警,消费

集群操作系统负载

节点宕机数

bad_node_count

ClusterSystem

ResourceID

Count

报警,消费

集群操作系统负载

Shard 故障数

bad_shard_num

ClusterSystem

ResourceID

Count

报警,消费

集群 Zookeeper

Client 侧 watch个数

ClusterClickHouseMetrics_ZooKeeperWatch

ClusterZookeeper

ResourceID

Count

报警,消费

集群 Zookeeper

ZK 会话创建次数

ClusterClickHouseProfileEvents_ZooKeeperInit

ClusterZookeeper

ResourceID

Count

报警,消费

节点数据导入

kafka 消费速率(行每秒)

ClickHouseMetrics_KafkaMetricsPerSecond

DataImport

Node,ResourceID,ENI(可选)

Count/Second

报警,消费

节点数据导入

Kafka 消费速率(bytes 每秒)

ClickHouseMetrics_KafkaBytesPerSecond

DataImport

Node,ResourceID,ENI(可选)

Bytes/Second(IEC)

报警,消费

节点数据导入

kafka 错误量(count 每秒)

ClusterClickHouseMetrics_KafkaErrorsPerSecond

DataImport

Node,ResourceID,ENI(可选)

Count/Second

报警,消费

节点查询负载

Query 并发数

qps

Query

Node,ResourceID,ENI(可选)

Count/Second

报警,消费

节点查询负载

Query 成功率

query_success_rate

Query

Node,ResourceID,ENI(可选)

Percent

报警,消费

节点查询负载

Query 延时

QueryLatency

Query

Node,ResourceID,ENI(可选)

Millisecond

报警,消费

节点查询负载

Select 并发数

select_qps

Query

Node,ResourceID,ENI(可选)

Count/Second

报警,消费

节点查询负载

Select 成功率

select_query_success_rate

Query

Node,ResourceID,ENI(可选)

Percent

报警,消费

节点查询负载

Select 延时

SelectQueryLatency

Query

Node,ResourceID,ENI(可选)

Millisecond

报警,消费

节点操作系统负载

CPU 使用率

cpu_usage_percentage

System

ResourceID,Node,ENI(可选)

Percent

报警,消费

节点操作系统负载

内存使用率

node_memory_usage_percentage

System

Node,ResourceID,ENI(可选)

Percent

报警,消费

节点操作系统负载

内存使用量

memory_usage

System

Node,ResourceID,ENI(可选)

Gibibytes

报警,消费

节点操作系统负载

磁盘使用率

disk_usage_percentage

System

Node,ResourceID,ENI(可选)

Percent

报警,消费

节点操作系统负载

磁盘剩余空间

node_disk_free_space

System

Node,ResourceID,ENI(可选)

Bytes(IEC)

报警,消费

节点操作系统负载

磁盘读 IOPS

disk_read_iops

System

Node,ResourceID,ENI(可选)

Count/Second

报警,消费

节点操作系统负载

磁盘写 IOPS

disk_write_iops

System

Node,ResourceID,ENI(可选)

Count/Second

报警,消费

节点操作系统负载

磁盘读带宽

disk_read_byte

System

Node,ResourceID,ENI(可选)

Kibibytes/Second

报警,消费

节点操作系统负载

磁盘写带宽

disk_write_byte

System

Node,ResourceID,ENI(可选)

Kibibytes/Second

报警,消费

节点操作系统负载

inode占用比

inode_usage

System

Node,ResourceID,ENI(可选)

Percent

报警,消费

节点 Zookeeper

Client 侧 watch个数

ClickHouseMetrics_ZooKeeperWatch

Zookeeper

Node,ResourceID,ENI(可选)

Count

报警,消费

节点 Zookeeper

ZK 会话创建次数

ClickHouseProfileEvents_ZooKeeperInit

Zookeeper

Node,ResourceID,ENI(可选)

Count

报警,消费

查看监控信息

操作步骤

  1. 登录 ByteHouse 企业版控制台,单击集群管理,在集群列表中单击目标集群,进入集群详情页。
  2. 单击监控告警,查看当前集群及集群所在节点的监控详情。
    Image

设置告警

ByteHouse 企业版已对接云监控服务,通过云监控服务进行告警策略的管理。本文介绍如何创建告警策略,更加详细的告警流程和原理,请参见告警原理--云监控-火山引擎

操作步骤

  1. 登录 ByteHouse 企业版控制台,单击集群管理,在集群列表中单击目标集群,进入集群详情页。
  2. 单击创建告警策略,系统将自动跳转至云监控服务的创建告警策略页面。
    Image
  3. 创建告警策略页,根据业务需要配置各参数。具体参数配置说明,请参见 创建告警策略
    Image

    说明

    创建告警策略页配置告警对象时,需要选择资源类型为 数据中台 > ByteHouse 企业版

推荐告警策略

您可以根据业务场景和实际需求,为集群或节点配置告警策略,推荐配置的告警策略如下:

监控指标

支持配置的维度

推荐告警策略

Query 成功率

  • 集群查询负载
  • 节点查询负载

建议对 Query 成功率小于 97% 进行报警。

CPU 成功率

  • 集群操作系统负载
  • 节点操作系统负载

建议对 CPU 使用率超过 95% 进行报警。

内存使用率

  • 集群操作系统负载
  • 节点操作系统负载

建议对内存使用率超过 85% 进行报警。

磁盘使用率

  • 集群操作系统负载
  • 节点操作系统负载

建议对磁盘使用率超过 95% 进行报警。

节点宕机数

  • 集群操作系统负载

建议对节点宕机数大于 0 进行报警。

相关链接