You need to enable JavaScript to run this app.
导航
智能巡检
最近更新时间:2025.05.13 10:01:58首次发布时间:2025.05.13 10:01:58
我的收藏
有用
有用
无用
无用

智能巡检是一种预防性维护措施,用于定期检查系统和集群的状态,及时发现潜在问题。智能巡检会按照巡检项输出报告,您可以提前发现和解决问题,减少系统故障和停机时间,保障系统的稳定性和可靠性。

功能概述

智能巡检功能情况说明如下。

细项

说明

巡检项

当前智能巡检从系统负载和集群负载两方面执行巡检,巡检具体内容如下:
Image

巡检类型

  • 即时巡检:手动触发。
  • 周期巡检:定时执行,可选择按天/周/月执行巡检任务。

巡检结果

巡检任务执行完成后,系统将输出巡检报告,从巡检项及其严重等级、异常影响程度等角度,帮助用户分析集群问题,并提供处理建议。

资源占用

智能巡检将占用当前集群资源,影响性能,建议在使用低峰期进行操作,避免影响业务。

创建巡检任务

  1. 登录 ByteHouse 控制台,在诊断优化页签下,进入智能巡检页面,单击巡检任务页签,单击创建巡检任务
    Image

  2. 在创建巡检任务页面,填写任务基本信息,选择巡检类型,查看巡检内容。
    Image

    注意

    智能巡检将占用当前集群资源,建议在使用低峰期进行操作,避免影响业务。

    • 巡检任务配置信息

      参数项

      参数说明

      巡检任务名称

      支持自定义巡检任务名称。

      集群

      选择巡检的集群。

      巡检类型

      支持手动巡检和定期巡检。

      • 手动巡检:您可在创建巡检任务后,需在巡检任务列表中,手动触发执行。
      • 定期巡检:您可配置巡检周期,在巡检周期内,系统将自动执行巡检任务。
    • 巡检内容说明

      类别

      巡检项

      巡检项说明及风险等级判断规则

      系统负载

      节点宕机数

      巡检周期内是否存在节点宕机。风险等级判断规则如下:

      • 正常:0
      • 高风险:宕机数 ≥1

      分片宕机数

      巡检周期内是否存在分片宕机。风险等级判断规则如下:

      • 正常:0
      • 高风险:宕机数 ≥1

      磁盘异常数

      巡检周期内是否存在磁盘异常。风险等级判断规则如下:

      • 正常:0
      • 高风险:异常数 ≥1

      平均 CPU 使用率

      巡检周期内 CPU 实际工作时间占总时间的百分比。风险等级判断规则如下:

      • 正常:[0,80%)
      • 中风险:[80,90%)
      • 高风险:平均 CPU 使用率超过 90% 且持续超 30 分钟

      IO 使用率

      巡检周期内 IO 实际工作时间占总时间的百分比。风险等级判断规则如下:

      • 正常:[0,90%)
      • 高风险:IO 使用率超过 90% 且持续超 1 分钟

      平均内存使用率%

      巡检周期内内存占用总量与内存总容量的百分比平均值。风险等级判断规则如下:

      • 正常:[0,80%)
      • 中风险:[80,90%)
      • 高风险:[90,100%)

      平均磁盘使用率%

      磁盘中已用空间占总容量百分比的平均值。风险等级判断规则如下:

      • 正常:[0,80%)
      • 中风险:[80,90%)
      • 高风险:[90,100%)

      平均 iNode 占用比%

      文件系统中 iNode(索引节点)的已用量与总量的百分比。风险等级判断规则如下:

      • 正常:[0,80%)
      • 中风险:[80,90%)
      • 高风险:[90,100%)

      系统盘使用率%

      操作系统所在磁盘分区的存储空间占用比例。风险等级判断规则如下:

      • 正常:[0,80%)
      • 中风险:持续超过 80%

      集群负载

      Part 数

      集群中 parts 总数,符合以下任意一条标准则判断为高风险:

      1. 判断实例级别 parts 数是否过多的标准:
        • 最近一次巡检的 parts 数 ≥250,000。
        • 最近一次巡检的 parts 数与 7 天内最低 parts 数相比,增长率 ≥30%。
      2. 判断单表级别 parts 数是否过多的标准:
        • 单表 parts 数最近一次巡检结果 ≥30,000。
        • 该实例该表 parts 最近一次巡检结果与最近 3 天内的巡检平均值相比,增长率 >10%。

      查询成功率

      成功完成的查询请求数占总查询请求数的百分比。风险等级判断规则如下:

      • 中风险:成功率小于 95%。

      写入成功率

      成功写入数据的请求数占总写入请求数的百分比。风险等级判断规则如下:

      • 中风险:成功率小于 95%。

      mutation 执行时间过长

      数据变更操作的执行时间超过预设阈值。风险等级判断规则如下:

      • 高风险:存在执行超过 6 小时的 mutation。

      Broken table

      集群中是否存在表损坏。风险等级判断规则如下:

      • 正常:集群中不存在 broken table。
      • 高风险:存在 broken table。

      没有 leader 的表

      集群中是否存在无 leader 的表。风险等级判断规则如下:

      • 正常:集群中不存在无 leader 的表。
      • 高风险:存在无 leader 的表且超过 30 分钟。

      并发数

      集群中所有类型请求的并行执行数量总和。风险等级判断规则如下:

      • 高风险:并发数达到最大值 200 且持续超 30 分钟。
  3. 单击确定。系统将创建巡检任务。

  4. 您可在巡检任务列表查看已创建的任务。也可在巡检任务列表中选择集群或输入任务名称,查看巡检任务。

手动执行巡检任务

对于巡检类型设置为手动巡检的任务,您可按需手动触发执行任务。
在巡检任务列表中,单击操作列的立即执行按钮,在弹窗中单击确定,系统将针对集群执行巡检。
Image
系统提示“执行巡检任务成功”后,您可在巡检报告页面查看巡检任务执行结果。

管理巡检报告

您可在巡检报告页面查看生成的巡检报告,查看巡检结果、对集群的影响及处理建议。

查看巡检报告

在巡检报告页面,您可查看已生成的巡检报告列表,并根据集群名称和巡检报告名称进行筛选。
您可单击巡检报告 ID 或操作列查看报告按钮,查看报告详情。
Image
巡检报告展示了巡检明细,包括巡检项、巡检值、严重等级、巡检类别、异常影响、处理建议等信息。您可根据巡检值、严重等级、异常影响等信息,判断是否需要处理该异常。
Image

下载巡检报告

在巡检报告页面,单击操作列下载报告按钮,将下载当前报告。
Image
也可单击巡检报告 ID,进入详情页,单击下载报告
Image

(可选)删除巡检报告

如需删除巡检报告,可在巡检报告页面,单击操作列删除按钮,删除当前报告。