You need to enable JavaScript to run this app.
导航
ByteHouse CDW 计算资源容量规划最佳实践
最近更新时间:2025.11.10 11:37:05首次发布时间:2025.11.10 11:34:14
复制全文
我的收藏
有用
有用
无用
无用

本文旨在提供 ByteHouse 云数仓版计算资源的推荐用量标准,并介绍如何根据这些标准进行监控和调整,以保障业务稳定运行。

推荐用量标准

ByteHouse 云数仓版的计算资源主要有:计算组、专属 Server、计算组本地盘等。购买这些计算资源进行使用时,需对资源用量保持关注,当资源用量超过风险阈值时,读写成功率会下降。因此,推荐针对资源用量,设置对应的监控告警策略,并对处于风险水位的计算资源及时做规格调整。
以下是各计算资源的用量标准,其中,

  • 核心用量指标:使用该计算资源时,需重点关注的指标,可在租户管理 > **** 监控告警模块获取指标数据。
  • 推荐资源水位:资源用量的安全水位线,推荐稳定保持在该安全水位线以下。
  • 低风险阈值:资源用量达到低风险阈值时,需保持重点关注主要关注用量趋势业务读写流量成功率。偶发触发阈值时,保持持续关注即可;频次较高时(如每天出现),需规划对应计算资源的扩容。
  • 高风险阈值:资源用量达到高风险阈值时,需立即扩容,以防导致业务受损。

资源类型

核心用量指标

推荐资源水位

低风险阈值

高风险阈值

计算组

CPU占用率

稳定小于 70%

满足任一条件:

  1. 连续 10 min(分钟)大于 80%
  2. 连续 30 min 大于 70%

满足任一条件:

  1. 连续 10 min 大于 90%
  2. 连续 30 min 大于 80%

内存占用率

稳定小于 70%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

满足任一条件:

  1. 连续 10 min 大于 90%
  2. 连续 30 min 大于 80%

专属 Server

CPU 占用率

稳定小于 60%

满足任一条件:

  1. 连续 10 min 大于 70%
  2. 连续 30 min 大于 60%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

内存占用率

稳定小于 60%

满足任一条件:

  1. 连续 10 min 大于 70%
  2. 连续 30 min 大于 60%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

计算组本地盘

磁盘利用率

稳定低于 70%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

满足任一条件:

  1. 连续 10 min 大于 90%
  2. 连续 30 min 大于 80%

磁盘 IOPS(读)+ 磁盘 IOPS(写)

读写 IOPS 合计,稳定低于 60% * min{1800+50×容量(GiB), 50000}

满足任一条件:

  1. 连续 10 min 大于 70% * min{1800+50×容量(GiB), 50000}
  2. 连续 30 min 大于 60% * min{1800+50×容量(GiB), 50000}

满足任一条件:

  1. 连续 10 min 大于 80% * min{1800+50×容量(GiB), 50000}
  2. 连续 30 min 大于 70% * min{1800+50×容量(GiB), 50000}

磁盘带宽(读)+ 磁盘带宽(写)

读/写带宽合计,稳定低于60% * min{120+0.5×容量(GiB),350},单位MB/s

满足任一条件:

  1. 连续 10 min 大于 70% * min{120+0.5×容量(GiB),350}
  2. 连续 30 min 大于 60% * min{120+0.5×容量(GiB),350}

满足任一条件:

  1. 连续 10 min 大于 80% * min{120+0.5×容量(GiB),350}
  2. 连续 30 min 大于 70% * min{120+0.5×容量(GiB),350}

用量监控告警与常用调整方式
  1. ByteHouse 资源用量数据全部推送至火山引擎云监控产品,您可通过火山引擎云监控控制台进行观测,也可通过 ByteHouse 云数仓版控制台上的租户管理 > 监控告警页面进行观测。

  2. 配置告警方式。您可通过 ByteHouse 云数仓版控制台配置,配置详情请参见监控告警。同时您也可以在火山引擎云监控控制台上,参考「ByteHouse 云数仓版本预置告警模板」进行配置,操作详情请参见编辑告警模板

  3. 当用量指标超过阈值时,您可参考下表的调整方式按需调整。

    规则

    调整方式

    计算组

    CPU 占用率 或 CPU/内存占用率,触发风险阈值

    1. 同类型规格扩容:如 2XL -> 3XL
    2. 扩容大小根据「扩容后达到推荐资源水位线」预估

    计算组扩容操作请参见编辑计算组配置

    仅内存占用率,触发风险阈值

    1. 规格类型调整为性能型:如 2XL -> 2XL_PLUS
    2. 扩容大小根据「扩容后达到推荐资源水位线」预估

    计算组扩容操作请参见编辑计算组配置

    CPU/内存占用率,按时间周期型存在波谷波峰

    在 ByteHouse 控制台,通过任务中心 > 新建定时任务,创建计算组伸缩任务,实现定时弹性,操作详情请参见定时任务

    CPU/内存占用率,存在因为业务负载处于波动的情况

    可使用 ByteHouse 负载弹性功能,详情请参见负载弹性

    专属 Server

    CPU 占用率 或 内存占用率,触发风险阈值

    向上调整规格:如 32 Core 128 GiB * 2 节点 -> 64 Core 256 GiB * 2 节点,如有更高的规格要求,可联系 ByteHouse 团队获取。
    专属 Server 扩容操作请参见专属 Server 扩容

    计算组本地盘

    磁盘空间利用率,触发风险阈值

    扩容计算组本地盘,大小按照「扩容后达到推荐资源水位线」预估。
    本地盘扩容操作请参见编辑计算组配置

    磁盘带宽(读 + 写),触发风险阈值

    1. 低于 350MB/s 时,可自行扩容计算组本地盘,本地盘扩容操作请参见编辑计算组配置
    2. 达到 350MB/s 时,可联系 ByteHouse 团队进行额外扩容

    磁盘IOPS(读 + 写),触发风险阈值

    1. 低于 50000 时,可自行扩容计算组本地盘,本地盘扩容操作请参见编辑计算组配置
    2. 达到 50000 时,可联系 ByteHouse 团队进行额外扩容