智能巡检是一种预防性维护措施,用于定期检查系统和集群的状态,及时发现潜在问题。智能巡检会按照巡检项输出报告,您可以提前发现和解决问题,减少系统故障和停机时间,保障系统的稳定性和可靠性。
智能巡检功能情况说明如下。
细项 | 说明 |
---|---|
巡检项 | 当前智能巡检从系统负载和集群负载两方面执行巡检,巡检具体内容如下: |
巡检类型 |
|
巡检结果 | 巡检任务执行完成后,系统将输出巡检报告,从巡检项及其严重等级、异常影响程度等角度,帮助用户分析集群问题,并提供处理建议。 |
资源占用 | 智能巡检将占用当前集群资源,影响性能,建议在使用低峰期进行操作,避免影响业务。 |
登录 ByteHouse 控制台,在诊断优化页签下,进入智能巡检页面,单击巡检任务页签,单击创建巡检任务。
在创建巡检任务页面,填写任务基本信息,选择巡检类型,查看巡检内容。
注意
智能巡检将占用当前集群资源,建议在使用低峰期进行操作,避免影响业务。
巡检任务配置信息
参数项 | 参数说明 |
---|---|
巡检任务名称 | 支持自定义巡检任务名称。 |
集群 | 选择巡检的集群。 |
巡检类型 | 支持手动巡检和定期巡检。
|
巡检内容说明
类别 | 巡检项 | 巡检项说明及风险等级判断规则 |
---|---|---|
系统负载 | 节点宕机数 | 巡检周期内是否存在节点宕机。风险等级判断规则如下:
|
分片宕机数 | 巡检周期内是否存在分片宕机。风险等级判断规则如下:
| |
磁盘异常数 | 巡检周期内是否存在磁盘异常。风险等级判断规则如下:
| |
平均 CPU 使用率 | 巡检周期内 CPU 实际工作时间占总时间的百分比。风险等级判断规则如下:
| |
IO 使用率 | 巡检周期内 IO 实际工作时间占总时间的百分比。风险等级判断规则如下:
| |
平均内存使用率% | 巡检周期内内存占用总量与内存总容量的百分比平均值。风险等级判断规则如下:
| |
平均磁盘使用率% | 磁盘中已用空间占总容量百分比的平均值。风险等级判断规则如下:
| |
平均 iNode 占用比% | 文件系统中 iNode(索引节点)的已用量与总量的百分比。风险等级判断规则如下:
| |
系统盘使用率% | 操作系统所在磁盘分区的存储空间占用比例。风险等级判断规则如下:
| |
集群负载 | Part 数 | 集群中 parts 总数,符合以下任意一条标准则判断为高风险:
|
查询成功率 | 成功完成的查询请求数占总查询请求数的百分比。风险等级判断规则如下:
| |
写入成功率 | 成功写入数据的请求数占总写入请求数的百分比。风险等级判断规则如下:
| |
mutation 执行时间过长 | 数据变更操作的执行时间超过预设阈值。风险等级判断规则如下:
| |
Broken table | 集群中是否存在表损坏。风险等级判断规则如下:
| |
没有 leader 的表 | 集群中是否存在无 leader 的表。风险等级判断规则如下:
| |
并发数 | 集群中所有类型请求的并行执行数量总和。风险等级判断规则如下:
|
单击确定。系统将创建巡检任务。
您可在巡检任务列表查看已创建的任务。也可在巡检任务列表中选择集群或输入任务名称,查看巡检任务。
对于巡检类型设置为手动巡检的任务,您可按需手动触发执行任务。
在巡检任务列表中,单击操作列的立即执行按钮,在弹窗中单击确定,系统将针对集群执行巡检。
系统提示“执行巡检任务成功”后,您可在巡检报告页面查看巡检任务执行结果。
您可在巡检报告页面查看生成的巡检报告,查看巡检结果、对集群的影响及处理建议。
在巡检报告页面,您可查看已生成的巡检报告列表,并根据集群名称和巡检报告名称进行筛选。
您可单击巡检报告 ID 或操作列查看报告按钮,查看报告详情。
巡检报告展示了巡检明细,包括巡检项、巡检值、严重等级、巡检类别、异常影响、处理建议等信息。您可根据巡检值、严重等级、异常影响等信息,判断是否需要处理该异常。
在巡检报告页面,单击操作列下载报告按钮,将下载当前报告。
也可单击巡检报告 ID,进入详情页,单击下载报告。
如需删除巡检报告,可在巡检报告页面,单击操作列删除按钮,删除当前报告。