You need to enable JavaScript to run this app.
导航
EMR Serverless Doris集群资源规划
最近更新时间:2025.11.07 22:55:59首次发布时间:2025.11.07 22:55:59
复制全文
我的收藏
有用
有用
无用
无用

概述

本文旨在为您介绍如何评估和规划 EMR Serverless Doris 集群的资源配置。EMR Serverless Doris 集群资源规划是企业或组织通过合理配置、动态管理计算、存储、网络等核心资源,实现系统可靠性、可用性与运行效率提升,最终精准匹配并支撑业务需求的管理过程,适用于首次创建集群或需要对现有集群进行扩容的场景。

关键考量维度

  1. 业务需求:以业务特性(如峰值流量、数据处理量、服务类型)为核心,确定集群资源的基础规模与配置标准,确保资源与业务目标直接对齐。
  2. 可用性:通过冗余设计、故障自动切换等手段,保障集群资源持续可用,避免单点故障,支撑业务无间断运行。
  3. 性能表现:依据业务响应时效、并发处理能力等要求,配置资源性能参数(如 CPU 算力、存储 IOPS、网络带宽),满足业务高效运行需求。
  4. 成本控制:在满足业务需求的前提下,平衡硬件采购、云资源租赁、运维管理等成本,确保资源投入在企业预算范围内,实现性价比最优。
  5. 可扩展性:预留资源扩容接口或采用弹性架构,支持业务增长时快速扩展资源(如增加节点、扩容存储),避免因资源瓶颈限制业务发展。

方案架构

Image

  • FE:Doris 的前端接入节点,集群元数据存储在 FE 中的 Catalog 中,FE 负责接收 SQL,解析 SQL,进行优化,并产生对应的执行计划,提交执行计划给 BE,由 BE 负责任务的具体执行。
  • BE: Doris 的后端执行节点,负责具体 SQL 任务执行,BE 节点会在本地存储数据。

说明

Doris 主要由两种类型的组件组成:FE 节点和 BE 节点。每个节点必须单独部署在物理机或虚拟机上。

存算一体版

在存算一体版本中,实例仅包含前端(FE)和后端(BE)节点。以下将分别对两者的规格提出建议。

注意

公式估算不一定足够准确,因不同 SQL 复杂度不同,会产生差异。实际生产环境还需要结合实际业务的压力测试结果,评估最终所需资源。

BE 节点规格评估

在存算一体版本中,BE 节点负责实际数据存储以及计算任务。
预估公式

CU总数 = 扫描数据总行数 / CPU处理能力 / 预期响应时间*QPS(每秒查询次数)
所需的总存储空间 = 原始数据大小 * 数据副本数/数据压缩算法压缩比

参数说明

  • 扫描数据总行数:每个 SQL 预期扫描的数据总行数,需注意该数据量并非指单表的总数据量,而仅限于实际需要扫描的数据量。
  • CPU 处理能力:该值会根据不同 SQL 的复杂度动态变化,通常在 1000 万行/秒~10000 万行/秒之间。SQL 复杂度越高,处理的行数则越低。
  • 预期响应时间:预期 SQL 的执行时间,例如,希望 SQL 在 1 秒内完成返回。
  • QPS(Queries Per Second):每秒并发提交的 SQL 数量,例如每秒 30 次。

BE 节点参考资源配置

扫描数据总行数

SQL 复杂度

预估 CPU 处理能力(行/秒)

预期响应时间(秒)

QPS(每秒查询次数)

预估所需 CU 总数

预估 BE 规格

5000 万行

2000 万行

2

50

63

16CU*4 个

5000 万行

5000 万行

1.5

100

67

16CU*5 个

5000 万行

10000 万行

1

200

100

32CU*3 个

10 亿行

2000 万行

5

20

200

32CU*7 个

10 亿行

5000 万行

3

50

333

64CU*6 个

10 亿行

10000 万行

1

80

800

64CU*13 个

300 亿行

2000 万行

30

10

500

64CU*8 个

300 亿行

5000 万行

15

20

800

64CU*13 个

300 亿行

10000 万行

15

20

400

64CU*6 个

3000 亿行

2000 万行

60

5

1250

64CU*20 个

3000 亿行

5000 万行

45

10

1333

64CU*21 个

3000 亿行

10000 万行

45

10

667

64CU*11 个

FE 节点规格评估

FE 节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。
FE 规格可按照 BE 的 CU 数量进行粗略预估,具体建议如下表所示。FE 节点的数据盘通常只需 100 GB,如后续存储空间不足,可再进行单独扩容。
FE 节点参考资源配置:

BE 总 CU 数量

场景类型

FE 建议规格

< 120CU

普通场景

8CU * 3

120CU ~ 1000CU

普通场景

16CU * 3

1000CU ~ 3000CU

普通场景

32CU * 3

=3000CU

普通场景

64CU * 3

说明

  • 上表仅为建议值,实际生产环境还需要结合实际业务的压力测试结果,评估最终所需资源。
  • 在高并发点查场景下,建议适当增加 FE 节点的数量,例如增加至 5 个。

资源扩容评估标准

说明

本说明旨在让客户更好的评估当前集群的健康状况,避免因突发导入/大查询致使集群资源紧张而导致业务不可用。

FE 资源水位

资源类型

健康水位

相关性说明

CPU

60%

通常与集群 QPS/RPS 正相关

内存

80%

通常与集群副本元数据、缓存正相关

磁盘容量

80%

通常与元数据正相关

BE 资源水位

资源类型

健康水位

相关性说明

CPU

60%

通常与集群写入数据量、查询数据量、查询复杂度、QPS 正相关

内存

70%

通常与集群写入数据量、缓存、查询复杂度、QPS 正相关

磁盘带宽

300MB/s

通常与集群写入数据量、查询数据量、副本克隆正相关

磁盘容量

80%

通常与集群数据量正相关

扩容参考

  • 当 FE 存在 CPU/内存任一维度超过健康水位时,可考虑 FE 升配。

  • 当 BE 存在 CPU/内存任一维度超过健康水位时,可考虑 BE 升配或横向扩容。

  • 当 BE 存在磁盘带宽/容量任一维度超过健康水位时,可考虑磁盘升配或 BE 横向扩容。