You need to enable JavaScript to run this app.
导航
EMR Serverless 应用场景
最近更新时间:2025.10.13 15:35:21首次发布时间:2024.11.19 15:39:43
复制全文
我的收藏
有用
有用
无用
无用

EMR Serverless 队列应用场景

云数据仓库建设

云数据仓库
企业在高速发展的业务驱动下构建数据仓库,能够帮助企业敏捷迭代,通过开源系统与旧系统低成本适配,打破数据孤岛,满足海量数据处理场景。

  • 专业迁移上云: 迁移方案工具化,支持多源数据上云、搬站、同步。
  • 高效数据建设: 打通DataLeap实现集成、开发、运维治理等全套建设。
  • 丰富数仓应用: 对接内部生态,实现BI报表、OLAP分析、数据探索。

Image

日志大数据分析

帮助企业更好地了解业务运行情况,发现问题和优化机会,从而提高运营效率和决策质量,例如:网络安全分析、应用性能分析、业务分析、市场营销分析等。

  • 成本极致优化: 存算分离&冷热分层的云原生湖仓架构,精准控制成本。
  • 降低运维消耗: 解决日志采集、实时和离线处理分析,无需多余运维。

Image

精细化运营

支持电商/金融/汽车/游戏等行业,挖掘数据资产,发挥数据价值,帮助企业提升运营效率、决策质量、精准服务、客户满意度,同时大大降低运营成本。

  • 业务数据深挖掘: 支持EB级海量数据分析,上亿DAU精细分析&运营。
  • 业务洞察高时效: 实时弹性扩展,高性能计算引擎,满足突发业务增长。
  • 业务需求快响应: 无缝对接,生态丰富,满足业务快速迭代的多样诉求。

混合云架构解决方案

背景说明

混合云是指同时采用公有云和私有云来部署应用程序和数据平台的架构,这种架构允许企业根据发展阶段和特定的业务形态来管理集群水位,在业务高峰期将负载路由到公有云来实现灵活扩展和按需支付IT费用。
通过这种架构升级,不但实现了灵活的资源分配和扩展,还能保证敏感数据和关键工作负载控制在私有云中,帮助企业降低私有基础设施的规模和成本,并且巧妙的实现了IT的高可用和灾难恢复能力。

场景介绍

客户是中国领先的在线教育科技公司,数据中台部门致力于构建一个统一的数据服务平台,在IDC内有超过1万核机器提供数据服务。随着新兴业务的兴起和海外业务的发展,数据平台的计算资源在每天早上9点到11点期间严重超水位运行,任务排队积压情况严重。在2023年底到2024年Q1,客户与火山EMR团队紧密合作,经过调研、适配、试运行、正式运行等几个阶段的落地实施,目前已经顺利上线,预计到4月底,客户每日提交到云上的算力峰值为2000核,每日使用弹性算力的时间超过8个小时,极大的缩短了客户IDC的建设周期,提高了平台稳定性,降低算力成本。

  • 客户Hadoop基础设施:Hadoop:3.3.4,Spark:3.3.3,Kyuubi:1.7.3
  • 核心诉求:降低成本,弹性扩展,监控/日志等生态对接能力

Image

主要能力体现

  1. 统一的作业提交接口
  • Web服务:提供统一的API及服务,用户可以从不同的云环境包括私有云提交作业。
  • 客户端库:提供Java及其他编程语言的客户端库,简化作业提交的过程。
  • 身份验证和授权:集成OAuth、Kerberos等机制,确保只有授权用户可以提交作业。
  1. 网络通信层
  • VPN/VPC:通过云基础设施建立跨云的虚拟私有网络,确保数据传输的安全和隔离。
  • 数据传输优化:采用压缩、加密等技术,提高数据传输效率和安全性。
  1. 数据管理层
  • 数据同步服务:提供跨云数据同步功能,确保数据的一致性。
  • 数据湖集成:支持多种数据湖解决方案,如Amazon S3、Azure Data Lake等。
  1. 作业调度器
  • Kyuubi Server:作为作业调度的核心,接收作业提交请求,并将作业分发到相应的计算资源上。
  • 多租户支持:Kyuubi的多租户特性允许不同用户或团队共享计算资源,同时保持隔离。
  • 高可用性:通过服务发现和负载均衡机制,确保Kyuubi Server的高可用性。
  1. 监控和日志系统
  • 监控界面:提供实时的作业监控界面,展示作业状态、资源使用情况和性能指标。
  • 日志收集:收集作业执行日志,便于问题排查和性能分析。
  • 告警机制:设置告警规则,当作业执行异常或资源使用超限时发送通知。

产品优势

  • 分布式和多租户支持:Kyuubi的设计使得它可以很好地支持分布式环境和多租户场景,每个租户可以有自己的资源配置和隔离策略。
  • 高可用性和负载均衡:Kyuubi Server和Engine之间的通信支持服务发现和负载均衡,确保了系统的高可用性和良好的性能。
  • 灵活的资源共享级别:Kyuubi支持不同的资源共享级别,如每个连接或每个用户独占一个引擎,或者所有用户共享一个引擎,这为不同的业务场景提供了灵活的选择。
  • 字节域内引擎能力: EMR Serverless底层采用字节域内持续优化的Spark等引擎,相比开源引擎有2.7倍的性能提升,并默认集成字节域内的Native Engine Bolt,在原有Java版本上有额外近40%的性能提升。

解决方案价值

  • 开箱即用
  • 弹性扩展,秒级资源响应
  • 资源无限扩展,按量付费比采买更灵活
  • 技术栈与IDC内对齐,业务无感,体验与自建一致

实时 SQL 分析

在大数据技术高速迭代的当下,SQL 凭借其通用性与易用性,始终是大规模数据处理与分析的核心工具。而在大数据 SQL 生态中,Hive 作为经典技术底座,通过类 SQL 的 HiveQL 接口,让用户无需深入理解分布式计算细节,即可对 HDFS 及兼容存储系统中的海量数据进行汇总、即席查询与离线分析,至今仍是企业构建数据仓库的重要基石。
然而,当数据规模突破 TB 甚至达到 PB 级,且业务对查询响应速度提出 “实时化”“交互式” 需求时,传统 Hive 的批处理模式已难以满足。正是基于这一痛点,Presto作为专为大数据实时查询优化的 SQL 引擎应运而生,通过技术创新在保留 SQL 易用性的同时,实现了大规模数据的高效分析,成为实时 SQL 场景的核心选择。

Image

EMR Serverless 实例应用场景

StarRocks/Doris 能够使用一套系统解决多维分析、高并发查询、预计算、实时分析查询等场景,降低系统复杂度和多技术栈开发与维护成本。StarRocks/Doris 采用 MPP(大规模并行处理)架构,能够充分利用所有节点资源,显著提升查询性能。

实时数仓

实时数仓对数据实时性、数据服务(data serving)、并发量等有较高要求,离线分析系统无法满足这类需求。StarRocks 支持实时数据更新与删除,适用于需频繁更新数据的场景:

  • 支持流式入仓,数据秒级可见;
  • 支持高并发数据服务,支持万级 QPS;
  • 秒级或亚秒级数据查询性能;
  • 支持实时指标聚合,支持多维分析。

企业可基于 EMR Doris/StarRocks 构建实时数仓。数据入仓后,经过流式计算,明细数据进入 Doris/StarRocks 集群 ODS层,数据聚合计算后进入 DWS 层,数据指标经计算后存入 ADS 层。数据支撑在线更新。由 Doris/StarRocks 对数据应用层提供服务,支持在线、离线查询分析,支持几十万级 QPS。
Image

OLAP 多维分析

StarRocks 是一款高性能的分析型数据库,专为 OLAP(在线分析处理)查询设计,它能够与多种 BI(商业智能)工具集成,这意味着可以将 StarRocks 作为数据源,直接在这些工具中进行数据查询和分析。这种集成能力使得企业能够利用 StarRocks 的强大分析能力,结合 BI 工具的可视化和报告功能,更有效地洞察数据,做出决策。
StarRocks 支持标准的 SQL 接口,这使得它能够轻松地与各种 BI 工具连接,如 Tableau、Power BI、Looker 等。这些工具通常提供图形界面,让用户能够通过拖放的方式构建复杂的查询和仪表板,而无需编写复杂的 SQL 代码。StarRocks 的高性能查询引擎确保了即使在处理大规模数据集时,BI 工具也能快速响应用户的查询请求,提供实时的数据分析结果。StarRocks 的兼容性不仅限于传统的 BI 工具,它还支持与现代的、基于云的 BI 平台集成,如火山引擎智能数据洞察平台ABI等。这种广泛的兼容性使得 StarRocks 能够适应不同的业务场景和技术栈,为用户提供灵活的数据访问和分析选项。
借助StarRocks 与多种 BI 工具标准化集成的能力,能够支持企业用户的数据分析平台场景,使得管理决策及数据分析人员可以更直观、更快速地从数据中提取价值,支持业务决策。