智能巡检是一种预防性维护措施,用于检查系统的状态,及时发现潜在问题。智能巡检会按照巡检项输出报告,您可以提前发现和解决问题,减少系统故障和停机时间,保障系统的稳定性和可靠性。
该功能为 Beta 功能,请提交工单或联系 ByteHouse 团队获取白名单权限。
智能巡检功能情况说明如下。
细项 | 说明 |
---|---|
巡检项 | 当前智能巡检从计算组系统负载、查询负载、专属 Server 等方面执行巡检,巡检具体内容如下: |
巡检类型 |
|
巡检结果 | 巡检任务执行完成后,系统将输出巡检报告,从巡检项及其严重等级、异常影响程度等角度,帮助用户分析系统问题,并提供处理建议。 |
资源占用 | 智能巡检将占用当前环境资源,影响性能,建议在使用低峰期进行操作,避免影响业务。 |
登录 ByteHouse 控制台,切换至目标环境,在诊断优化页签下,进入智能巡检页面,单击巡检任务页签,单击创建巡检任务。
在创建巡检任务页面,填写任务基本信息,选择巡检类型,查看巡检内容。
注意
智能巡检将占用当前环境资源,建议在使用低峰期进行操作,避免影响业务。
巡检任务配置信息
参数项 | 参数说明 |
---|---|
巡检任务名称 | 支持自定义巡检任务名称。 |
巡检类型 | 支持手动巡检和定期巡检。
|
巡检内容说明
类别 | 巡检项 | 巡检项说明及风险等级判断规则 |
---|---|---|
计算组系统负载 | VW 过期时间 | 包年包月计算组过期前天数。风险等级判断规则如下,单位为天:
|
近 1 天 CPU 使用峰值 | 统计过去 1 天中,每 30 分钟 CPU 使用率的平均值,取其中的最大值。风险等级判断规则如下:
| |
近 1 天内存使用峰值 | 统计过去 1 天中,每 30 分钟内存使用率的平均值,取其中的最大值。风险等级判断规则如下:
| |
近 1 天 iNodes 使用峰值 | 统计过去 1 天中,每分钟 iNode 使用率的平均值,取其中的最大值。风险等级判断规则如下:
| |
近 1 天缓存使用峰值 | 统计过去 1 天中,每分钟缓存使用率的平均值,取其中的最大值。风险等级判断规则如下:
| |
计算组查询负载 | 近 1 天 insert 成功率 | 计算公式:insert 成功查询/所有 insert 查询。风险等级判断规则如下:
|
近 1 天 select 成功率% | 计算公式:成功查询/所有查询。风险等级判断规则如下:
| |
专属 Server | 专属 Server 过期时间 | 包年包月专属 Server 过期日期前的天数。风险等级判断规则如下,单位为天:
|
近 1 天 CPU 使用峰值 | 统计过去 1 天中,每 10 分钟专属 Server CPU 使用率的平均值,取其中的最大值。风险等级判断规则如下:
| |
近 1 天内存使用峰值 | 统计过去 1 天中,每 10 分钟专属 Server 内存使用率的平均值,取其中的最大值。风险等级判断规则如下:
| |
数据表 | 不健康分区表的数量 | 统计当前环境中包含有多少张表包含不健康分区。风险等级判断规则如下:
ByteHouse 提供了专门的分区健康度诊断功能,数据表分区健康度详情请参见分区健康度诊断。 |
网关连接数 | 近 1 天网关连接数 | 计算公式:现有 TCP 连接/TCP 连接限制。风险等级判断规则如下:
|
API Key | 剩余有效期 | 所有用户 API 密钥到期前的天数。风险等级判断规则如下,单位为天:
|
单击确定。系统将创建巡检任务。
您可在巡检任务列表查看已创建的任务。也可在巡检任务列表中输入任务名称,查看巡检任务。
对于巡检类型设置为手动巡检的任务,您可按需手动触发执行任务。
在巡检任务列表中,单击操作列的立即执行按钮,在弹窗中单击确定,系统将执行巡检。
系统提示“执行巡检任务成功”后,您可在巡检报告页面查看巡检任务执行结果。
您可在巡检报告页面查看生成的巡检报告,查看巡检结果、异常影响及处理建议。
在巡检报告页面,您可查看已生成的巡检报告列表。单击巡检报告 ID 或操作列查看报告按钮,查看报告详情。
巡检报告展示了巡检明细,包括巡检项、巡检值、严重等级、巡检类别、异常影响、处理建议等信息。您可根据巡检值、严重等级、异常影响等信息,判断是否需要处理该异常。
在巡检报告页面,单击操作列下载报告按钮,将下载当前报告。
也可单击巡检报告 ID,进入详情页,单击下载报告。
如需删除巡检报告,可在巡检报告页面,单击操作列删除按钮,删除当前报告。