You need to enable JavaScript to run this app.
文档中心
ByteHouse云数仓版

ByteHouse云数仓版

复制全文
下载 pdf
系统运维
ByteHouse CDW 计算资源容量规划最佳实践
复制全文
下载 pdf
ByteHouse CDW 计算资源容量规划最佳实践

本文旨在提供 ByteHouse 云数仓版计算资源的推荐用量标准,并介绍如何根据这些标准进行监控和调整,以保障业务稳定运行。

推荐用量标准

ByteHouse 云数仓版的计算资源主要有:计算组、专属 Server、计算组本地盘等。购买这些计算资源进行使用时,需对资源用量保持关注,当资源用量超过风险阈值时,读写成功率会下降。因此,推荐针对资源用量,设置对应的监控告警策略,并对处于风险水位的计算资源及时做规格调整。
以下是各计算资源的用量标准,其中,

  • 核心用量指标:使用该计算资源时,需重点关注的指标,可在租户管理 > **** 监控告警模块获取指标数据。
  • 推荐资源水位:资源用量的安全水位线,推荐稳定保持在该安全水位线以下。
  • 低风险阈值:资源用量达到低风险阈值时,需保持重点关注主要关注用量趋势业务读写流量成功率。偶发触发阈值时,保持持续关注即可;频次较高时(如每天出现),需规划对应计算资源的扩容。
  • 高风险阈值:资源用量达到高风险阈值时,需立即扩容,以防导致业务受损。

资源类型

核心用量指标

推荐资源水位

低风险阈值

高风险阈值

计算组

CPU占用率

稳定小于 70%

满足任一条件:

  1. 连续 10 min(分钟)大于 80%
  2. 连续 30 min 大于 70%

满足任一条件:

  1. 连续 10 min 大于 90%
  2. 连续 30 min 大于 80%

内存占用率

稳定小于 70%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

满足任一条件:

  1. 连续 10 min 大于 90%
  2. 连续 30 min 大于 80%

专属 Server

CPU 占用率

稳定小于 60%

满足任一条件:

  1. 连续 10 min 大于 70%
  2. 连续 30 min 大于 60%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

内存占用率

稳定小于 60%

满足任一条件:

  1. 连续 10 min 大于 70%
  2. 连续 30 min 大于 60%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

计算组本地盘

磁盘利用率

稳定低于 70%

满足任一条件:

  1. 连续 10 min 大于 80%
  2. 连续 30 min 大于 70%

满足任一条件:

  1. 连续 10 min 大于 90%
  2. 连续 30 min 大于 80%

磁盘 IOPS(读)+ 磁盘 IOPS(写)

读写 IOPS 合计,稳定低于 60% * min{1800+50×容量(GiB), 50000}

满足任一条件:

  1. 连续 10 min 大于 70% * min{1800+50×容量(GiB), 50000}
  2. 连续 30 min 大于 60% * min{1800+50×容量(GiB), 50000}

满足任一条件:

  1. 连续 10 min 大于 80% * min{1800+50×容量(GiB), 50000}
  2. 连续 30 min 大于 70% * min{1800+50×容量(GiB), 50000}

磁盘带宽(读)+ 磁盘带宽(写)

读/写带宽合计,稳定低于60% * min{120+0.5×容量(GiB),350},单位MB/s

满足任一条件:

  1. 连续 10 min 大于 70% * min{120+0.5×容量(GiB),350}
  2. 连续 30 min 大于 60% * min{120+0.5×容量(GiB),350}

满足任一条件:

  1. 连续 10 min 大于 80% * min{120+0.5×容量(GiB),350}
  2. 连续 30 min 大于 70% * min{120+0.5×容量(GiB),350}

用量监控告警与常用调整方式
  1. ByteHouse 资源用量数据全部推送至火山引擎云监控产品,您可通过火山引擎云监控控制台进行观测,也可通过 ByteHouse 云数仓版控制台上的租户管理 > 监控告警页面进行观测。

  2. 配置告警方式。您可通过 ByteHouse 云数仓版控制台配置,配置详情请参见监控告警。同时您也可以在火山引擎云监控控制台上,参考「ByteHouse 云数仓版本预置告警模板」进行配置,操作详情请参见编辑告警模板

  3. 当用量指标超过阈值时,您可参考下表的调整方式按需调整。

    规则

    调整方式

    计算组

    CPU 占用率 或 CPU/内存占用率,触发风险阈值

    1. 同类型规格扩容:如 2XL -> 3XL
    2. 扩容大小根据「扩容后达到推荐资源水位线」预估

    计算组扩容操作请参见编辑计算组配置

    仅内存占用率,触发风险阈值

    1. 规格类型调整为性能型:如 2XL -> 2XL_PLUS
    2. 扩容大小根据「扩容后达到推荐资源水位线」预估

    计算组扩容操作请参见编辑计算组配置

    CPU/内存占用率,按时间周期型存在波谷波峰

    在 ByteHouse 控制台,通过任务中心 > 新建定时任务,创建计算组伸缩任务,实现定时弹性,操作详情请参见定时任务

    CPU/内存占用率,存在因为业务负载处于波动的情况

    可使用 ByteHouse 负载弹性功能,详情请参见负载弹性

    专属 Server

    CPU 占用率 或 内存占用率,触发风险阈值

    向上调整规格:如 32 Core 128 GiB * 2 节点 -> 64 Core 256 GiB * 2 节点,如有更高的规格要求,可联系 ByteHouse 团队获取。
    专属 Server 扩容操作请参见专属 Server 扩容

    计算组本地盘

    磁盘空间利用率,触发风险阈值

    扩容计算组本地盘,大小按照「扩容后达到推荐资源水位线」预估。
    本地盘扩容操作请参见编辑计算组配置

    磁盘带宽(读 + 写),触发风险阈值

    1. 低于 350MB/s 时,可自行扩容计算组本地盘,本地盘扩容操作请参见编辑计算组配置
    2. 达到 350MB/s 时,可联系 ByteHouse 团队进行额外扩容

    磁盘IOPS(读 + 写),触发风险阈值

    1. 低于 50000 时,可自行扩容计算组本地盘,本地盘扩容操作请参见编辑计算组配置
    2. 达到 50000 时,可联系 ByteHouse 团队进行额外扩容
最近更新时间:2025.11.10 11:37:05
这个页面对您有帮助吗?
有用
有用
无用
无用