You need to enable JavaScript to run this app.
导航
产品架构
最近更新时间:2025.11.06 17:47:07首次发布时间:2021.09.01 17:27:33
复制全文
我的收藏
有用
有用
无用
无用

EMR on ECS

产品架构如图:
Image
基础设施: 基于火山引擎云服务器(ECS)、公网IP(EIP)、弹性块存储(EBS)、对象存储(TOS)、私有网络(VPC)为EMR提供弹性扩展、高可靠、高性能、安全隔离的部署环境。
数据存储: HDFS分布式文件系统支持海量结构化和非结构化数据存储,支持多种高效格式满足不同分析引擎要求,同时对接TOS对象存储,实现高可用低成本数据存储。支持Hudi、Iceberg、Delta Lake等多种数据湖存储格式,助力企业构建数据湖解决方案。
资源调度: 基于hadoop资源管理组件Yarn和Kubernetes,为上层应用提供统一的资源管理和调度。
开源引擎: 提供丰富的主流开源生态组件,100%兼容开源,并基于字节内部实践持续深度优化,覆盖离线分析、实时计算、交互式分析、OLAP数据库、NoSQL数据库、云搜索、数据科学、数据开发、权限管控等领域,满足各类大数据应用场景需求。
管控运维: 支持集群创建发放、一键部署、统一运维管理能力,支持集群弹性扩容、弹性伸缩、以及对各组件的监控、告警、配置、日志查看等一站式运维能力。

EMR on VKE

产品架构如图:
Image

  • 基础设施: 基于火山引擎容器服务器(VKE)、弹性容器(VCI)、对象存储(TOS)为EMR提供弹性扩展、高可靠、高性能、安全隔离的部署环境。
  • 开源引擎: 100%兼容开源,提供Spark、Hive、Celeborn、Volcano等组件集成和管理,覆盖离线分析、交互式查询、数据科学、数据开发、权限管控等领域,满足各类大数据应用场景需求。
  • 管控运维: 支持集群创建发放、一键部署、统一运维管理能力,支持集群弹性伸缩、以及对各组件的监控、告警、配置、日志查看、作业管理等一站式运维能力。

EMR Serverless

产品架构如图:
Image
EMR Serverless 分为 Serverless 队列与 Serverless 实例。

EMR Serverless 队列

EMR Serverless 队列涵盖了 Spark、Presto、Hive、Ray 等引擎,采用高性能存算分离架构,实现了湖/仓/AI一体化,具有成本优势、数据可靠性和多负载统一调度等特点。
存算分离架构的核心优势

  • 比存算一体架构成本下降2倍+
  • 计算与存储可细粒度按需弹性
  • 对象存储提供12个9的可靠性
  • 多负载统一资源池调度
  • 多负载统一透明存储与互访

EMR Serverless 队列的架构分为四个层次:

  • 存储层
    • 火山引擎对象存储TOS(标准存储、低频存储、归档存储)
    • 支持文件桶、对象桶等统一格式存储
    • 支持多种湖表格式:Hudi、Iceberg、DeltaLake、Paimon
  • 计算层
    • 基于K8S的统一调度
    • 支持批/离线负载、AI负载、交互/实时负载
    • 多负载统一资源池调度
  • 加速层
    • 自研存储加速引擎Proton:优化对象存储访问性能
    • 自研计算加速引擎Bolt:向量化执行提升计算性能
    • AI数据预处理加速优化
  • 服务层
    • 湖/仓/AI 构建服务 LAS
    • 统一元数据管理
    • 统一权限管理
    • 湖表管理与优化

EMR Serverless 实例

EMR Serverless 实例涵盖了 StarRocks、Doris 引擎,提供存算一体存算分离两种部署方式,可灵活支持业务的各种场景与选型。