文章来源|ByConity 开源社区GitHub|github.com/ByConity/ByConity/releases 各位的社区小伙伴们大家好,我们很高兴的宣布,ByConity 0.2.0 版本正式发布了,这个版本提供多项有用的新特性,同时修复了若干已知的问题,进一步提升了系统的性能和稳定性。 **重要新特性:**1. 冷读优化,包括 IOScheduler 和 Preload 能力2. 数据湖支持,包括 Hive,Hudi,Multi-Catalog 等支持3. ELT 长时任务支持,包括异步执行,队列,算...
针对算法场景也实现了一系列工具:- **ray.data** 集合了数据读写、流式处理、shuffle 等功能,给离线推理、数据预处理等场景提供了灵活 API 和异构的调度功能- **ray.train** 和 **ray.tune** 可以将 xgboost、pytorch 等训练代码快速改写成基于 Ray 的分布式训练应用- **ray.serve** 是一套在线服务的部署调用框架,支持复杂模型编排,可以灵活扩缩实例可以说,**Ray 的生态打破了过去 AI 工程中每个模块都是固定范式的...
将集群释放。例如如果用户的数据生产 ETL 作业集中在凌晨执行,那么可以在当日的数据生产任务执行前将集群创建出来,然后用这个集群执行一系列的 ETL 作业,而在所有作业都成功执行完成后,再把这个集群释放掉。而到第... 针对火山引擎 EMR 的核心功能,进一步展开讲一下,就是提供了企业级的大数据生态组件,例如:Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等,100% 开源兼容,快速构建企业级大数据平台,降低...
云原生大数据平台的功能架构可以总结为“三大平台和一大支撑体系”。三大平台分别是 **平台服务层、核心引擎层**和 **资源调度层** **。*** 平台服务层由开源组件插件化集成,支持灵活配置选用;* 核心引擎层... 在离线作业共享集群资源+ 只关注作业资源的额度和并行度+ **平滑演进**:YARN 作业和 K8s 作业混部* **第三阶段**+ **虚拟队列** **:** 支持跨集群和机房作业自动调度+ **利用闲置资源** **:** 利用超发和...
将集群释放。例如如果用户的数据生产 ETL 作业集中在凌晨执行,那么可以在当日的数据生产任务执行前将集群创建出来,然后用这个集群执行一系列的 ETL 作业,而在所有作业都成功执行完成后,再把这个集群释放掉。而到第... 针对火山引擎 EMR 的核心功能,进一步展开讲一下,就是提供了企业级的大数据生态组件,例如:Hadoop、Spark、Flink、Hive、Presto、Kafka、ClickHouse、Hudi、Iceberg 等,100% 开源兼容,快速构建企业级大数据平台,降低...
云原生大数据平台的功能架构可以总结为“三大平台和一大支撑体系”。三大平台分别是 **平台服务层、核心引擎层**和 **资源调度层** **。*** 平台服务层由开源组件插件化集成,支持灵活配置选用;* 核心引擎层... 在离线作业共享集群资源+ 只关注作业资源的额度和并行度+ **平滑演进**:YARN 作业和 K8s 作业混部* **第三阶段**+ **虚拟队列** **:** 支持跨集群和机房作业自动调度+ **利用闲置资源** **:** 利用超发和...
实现机制存在缺陷,在大规模生产环境下经常因为 Shuffle 问题影响作业稳定性。在此背景下,字节跳动自研了 Cloud Shuffle Service,提供比原生方案稳定性更好、性能更高、更弹性的数据 Shuffle 能力,同时也为存算分离/在离线混部等场景提供了 Remote Shuffle 解决方案。今天,字节跳动宣布,**正式开源 Cloud Shuffle Service。**Cloud Shuffle Service(以下简称CSS) 是字节自研的通用 Remote Shuffle Service 框架,支...
并编写了Flink任务承担这部分工作,比较好的解决了扩展性和性能问题。然而,到2021年年中,团队开始重点投入私有化部署和火山公有云支持,对于Flink集群的依赖引入了可维护性的痛点。在仔细的分析了使用场景和需求,并调研了现成的解决方案后,我们决定投入人力自研一个消息处理框架。当前这个框架很好的支持了字节内部以及ToB场景中Data Catalog对于消息消费和处理的场景。本文会详细介绍框架解决的问题,整体的设计,以及实现中的关...
针对算法场景也实现了一系列工具:* **ray.data** 集合了数据读写、流式处理、shuffle 等功能,给离线推理、数据预处理等场景提供了灵活 API 和异构的调度功能* **ray.train** 和 **ray.tune** 可以将 xgboost、pytorch 等训练代码快速改写成基于 Ray 的分布式训练应用* **ray.serve**是一套在线服务的部署调用框架,支持复杂模型编排,可以灵活扩缩实例可以说, **Ray 的生态打破了过去 AI 工程中每个模块都是固定范...
上图通过举例在秒杀活动中的利用消息队列实现流量削峰。通过在后台启动若干个队列处理程序,消费消息队列中的消息,再执行校验库存、下单等逻辑。因为只有有限个队列处理线程在执行,所以落入后端数据库上的并发请求是有限的 。而请求是可以在消息队列中被短暂地堆积, 当库存被消耗完之后,消息队列中堆积的请求就可以被丢弃了。**消息队列发展历程**言归正传,先看看有哪些主流消息队列可选。* **ActiveMQ...
额外支持Hudi Bucket Index索引功能,提供轻量且高效的索引方式,优化Hudi数据插入时的TagLocation效率。 新增Spark子组件Ksana替换Spark Thrift Server 支持兼容Hive 客户端访问Ksana。 支持SparkSQL跨队列提交... 新增访问链接功能,支持在EMR控制台的访问链接页面跳转到HDFS、Hive、Spark等开源组件的Web UI。 更改、增强和解决的问题Airflow全面支持Celery调度,并部署多Scheduler,能够更加充分利用集群资源的同时增强服务组...
开源社区提供该能力后,再发布支持 Spark on GPU 的组件。 【组件】Hive组件集成 HBase 执行聚合函数时不支持tez引擎。 EMR-3.10.0发布说明 华南、柔佛、华北、华东 2024年3月EMR 2024年3月14日上线,重点功能更... 支持元数据自动同步功能; ObjectInputStream连接复用优化; 优化Cache模式下随机读性能,Cache miss场景下追平RawFs; RawFs支持Fuse; 解决若干bug; 【组件】Flink 集成Bytehouse CE Connector,实现数据写入能...
发布日期: 2022 年 07 月 08 日 新增功能【集群】新增Pulsar集群类型,可以提供云原生消息队列服务,Apache Pulsar版本为2.9.1。 【组件】支持CloudFS ,在TOS基础上提供兼容HDFS语义,同时可基于业务需要,开启缓存加... 不指定Schma时Hudi源表Schema变化时Doris可自动感知。 Doris支持查询分析Hudi COW和MOR表:支持COW表的Snapshot Queries,支持MOR表的Snapshot Queries和Read Optimized Queries。 更改、增强和解决的问题【通用】...