You need to enable JavaScript to run this app.
导航
智能巡检
最近更新时间:2025.06.18 10:17:19首次发布时间:2025.06.05 17:48:03
我的收藏
有用
有用
无用
无用

智能巡检是一种预防性维护措施,用于检查系统的状态,及时发现潜在问题。智能巡检会按照巡检项输出报告,您可以提前发现和解决问题,减少系统故障和停机时间,保障系统的稳定性和可靠性。

使用限制

该功能为 Beta 功能,请提交工单或联系 ByteHouse 团队获取白名单权限。

功能概述

智能巡检功能情况说明如下。

细项

说明

巡检项

当前智能巡检从计算组系统负载、查询负载、专属 Server 等方面执行巡检,巡检具体内容如下:
Image

巡检类型

  • 即时巡检:手动触发。
  • 周期巡检:定时执行,可选择按天/周/月执行巡检任务。

巡检结果

巡检任务执行完成后,系统将输出巡检报告,从巡检项及其严重等级、异常影响程度等角度,帮助用户分析系统问题,并提供处理建议。

资源占用

智能巡检将占用当前环境资源,影响性能,建议在使用低峰期进行操作,避免影响业务。

创建巡检任务
  1. 登录 ByteHouse 控制台,切换至目标环境,在诊断优化页签下,进入智能巡检页面,单击巡检任务页签,单击创建巡检任务
    Image

  2. 在创建巡检任务页面,填写任务基本信息,选择巡检类型,查看巡检内容。
    Image

    注意

    智能巡检将占用当前环境资源,建议在使用低峰期进行操作,避免影响业务。

    • 巡检任务配置信息

      参数项

      参数说明

      巡检任务名称

      支持自定义巡检任务名称。

      巡检类型

      支持手动巡检和定期巡检。

      • 手动巡检:您可在创建巡检任务后,需在巡检任务列表中,手动触发执行。
      • 定期巡检:您可配置巡检周期,在巡检周期内,系统将自动执行巡检任务。
    • 巡检内容说明

      类别

      巡检项

      巡检项说明及风险等级判断规则

      计算组系统负载

      VW 过期时间

      包年包月计算组过期前天数。风险等级判断规则如下,单位为天:

      • 正常:[365, 7]
      • 中风险:[7, 3]
      • 高风险:[3, 0]

      近 1 天 CPU 使用峰值

      统计过去 1 天中,每 30 分钟 CPU 使用率的平均值,取其中的最大值。风险等级判断规则如下:

      • 正常:[0, 90%]
      • 中风险:[90%, 95%]
      • 高风险:[95%, 100%]

      近 1 天内存使用峰值

      统计过去 1 天中,每 30 分钟内存使用率的平均值,取其中的最大值。风险等级判断规则如下:

      • 正常:[0, 80%]
      • 中风险:[80%, 85%]
      • 高风险:[85%, 100%]

      近 1 天 iNodes 使用峰值

      统计过去 1 天中,每分钟 iNode 使用率的平均值,取其中的最大值。风险等级判断规则如下:

      • 正常:[0, 90%]
      • 中风险:[90%, 95%]
      • 高风险:[95%, 100%]

      近 1 天缓存使用峰值

      统计过去 1 天中,每分钟缓存使用率的平均值,取其中的最大值。风险等级判断规则如下:

      • 正常:[0, 90%]
      • 中风险:[90%, 93%]
      • 高风险:[93%, 100%]

      计算组查询负载

      近 1 天 insert 成功率

      计算公式:insert 成功查询/所有 insert 查询。风险等级判断规则如下:

      • 正常:[100%, 98%]
      • 中风险:[98%, 95%]
      • 高风险:[95%, 0]

      近 1 天 select 成功率%

      计算公式:成功查询/所有查询。风险等级判断规则如下:

      • 正常:[100%, 98%]
      • 中风险:[98%, 95%]
      • 高风险:[95%, 0]

      专属 Server

      专属 Server 过期时间

      包年包月专属 Server 过期日期前的天数。风险等级判断规则如下,单位为天:

      • 正常:[365, 7]
      • 中风险:[7, 3]
      • 高风险:[3, 0]

      近 1 天 CPU 使用峰值

      统计过去 1 天中,每 10 分钟专属 Server CPU 使用率的平均值,取其中的最大值。风险等级判断规则如下:

      • 正常:[0, 90%]
      • 中风险:[90%, 95%]
      • 高风险:[95%, 100%]

      近 1 天内存使用峰值

      统计过去 1 天中,每 10 分钟专属 Server 内存使用率的平均值,取其中的最大值。风险等级判断规则如下:

      • 正常:[0, 80%]
      • 中风险:[80%, 85%]
      • 高风险:[85%, 100%]

      数据表

      不健康分区表的数量

      统计当前环境中包含有多少张表包含不健康分区。风险等级判断规则如下:

      • 正常:[0, 0]
      • 中风险:[0, 100,000]
      • 高风险:[100,000, 100,000]

      ByteHouse 提供了专门的分区健康度诊断功能,数据表分区健康度详情请参见分区健康度诊断

      网关连接数

      近 1 天网关连接数

      计算公式:现有 TCP 连接/TCP 连接限制。风险等级判断规则如下:

      • 正常:[0, 90%]
      • 中风险:[90%, 95%]
      • 高风险:[95%, 100%]

      API Key

      剩余有效期

      所有用户 API 密钥到期前的天数。风险等级判断规则如下,单位为天:

      • 正常:[365, 7]
      • 中风险:[7, 3]
      • 高风险:[3, 0]
  3. 单击确定。系统将创建巡检任务。

  4. 您可在巡检任务列表查看已创建的任务。也可在巡检任务列表中输入任务名称,查看巡检任务。

手动执行巡检任务

对于巡检类型设置为手动巡检的任务,您可按需手动触发执行任务。
在巡检任务列表中,单击操作列的立即执行按钮,在弹窗中单击确定,系统将执行巡检。
Image
系统提示“执行巡检任务成功”后,您可在巡检报告页面查看巡检任务执行结果。

管理巡检报告

您可在巡检报告页面查看生成的巡检报告,查看巡检结果、异常影响及处理建议。

查看巡检报告

在巡检报告页面,您可查看已生成的巡检报告列表。单击巡检报告 ID 或操作列查看报告按钮,查看报告详情。
Image
巡检报告展示了巡检明细,包括巡检项、巡检值、严重等级、巡检类别、异常影响、处理建议等信息。您可根据巡检值、严重等级、异常影响等信息,判断是否需要处理该异常。
Image

下载巡检报告

在巡检报告页面,单击操作列下载报告按钮,将下载当前报告。
Image
也可单击巡检报告 ID,进入详情页,单击下载报告
Image

(可选)删除巡检报告

如需删除巡检报告,可在巡检报告页面,单击操作列删除按钮,删除当前报告。