> 在字节跳动内部,Presto 主要支撑了Ad-hoc查询、BI可视化分析、近实时查询分析等场景,日查询量接近100万条。本文是字节跳动数据平台Presto团队-软件工程师常鹏飞在PrestoCon 2021大会上的分享整理。![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/3fd94ee2a1d24122afd9526e5ceb5682~tplv-k3u1fbpfcp-5.jpeg?)图注:PrestoCon 2021在字节跳动内部,Presto主要支撑了Ad-hoc查询、BI可视化分析、近实时查询分...
[picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/e803df555cb44660be5e60e2b026c510~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1715358042&x-signature=GjpNoRiH8DH80SLDDCsVUWKbrq0%3D)在字节跳动内部,Presto 主要支撑了Ad-hoc查询、BI可视化分析、近实时查询分析等场景,日查询量接近100万条。本文是字节跳动数据平台Presto团队-软件工程师常鹏飞在PrestoCon 2021大会上的分...
为了尊重现有用户使用习惯,将用户习惯使用的开源组件以插件化的形式进行了集成。**现有主流的大数据工作场景主要包括信息门户、数据工程和数据科学**三种,每个场景下都有许多用户常用的开源组件:- **信息门户:** 一般是 BI 报表类,如 Superset、Apache Ranger 等;- **数据工程:** 一般是大数据开发工程师、数仓工程师,做数据开发、数据 ETL、数据处理、清洗所用到的组件,如使用 Zeppelin Notebook 做数据开发,对接数据治理...
BI可视化分析、近实时查询分析等场景,日查询量接近100万条。本文是《Presto在字节跳动的内部实践与优化》系列文章的连载之二,由字节跳动 **数据平台Presto团队** 软件工程师常鹏飞在PrestoCon 2021大会上的分享整理,核心提炼了三个场景中的优化与实践。[第一部分可以点击阅读](http://mp.weixin.qq.com/s?__biz=MzkwMzMwOTQwMg==&mid=2247484996&idx=1&sn=bb10c830c4ef81b31b68f2626c8e6d9f&chksm=c0997771f7eefe67dae14a...
=&rk3s=8031ce6d&x-expires=1715358031&x-signature=oq3wZi5oT2R4HBiliAr94yD67D0%3D)Kubernetes 观测 VKO(全称 Volcengine Kubernetes Observability)是火山引擎推出的一套面向 Kubernetes 的一体化、全栈式可观... 拓扑可视化让工程师得以在全栈活动的上下文中查看来自网络、基础设施、应用程序和其他领域的遥测数据;它还提供了重要的背景信息,方便工程师了解发生故障时业务会受到怎样的影响。![picture.image](https://p6...
> 本文来源于火山引擎 EMR 团队大数据工程师琚克俭在【DataFunSummit 2023:OLAP 引擎架构峰会 - OLAP 最佳实践论坛】的同名主题分享。# EMR产品概述首先分享一下EMR产品的优势,以及可服务的场景。![picture... Kylin还对接了BI系统,相关数据主要提供BI工具使用,相关架构的替换还需要考虑BI兼容性问题。相关架构升级后,SR与MySQL及BI工具的适配性好;性能好,无物化视图的情况已经比kylin的场景要好,在创建物化视图之后性能更...
角色涵盖数据工程师,数据分析师,产品经理,项目经理,销售和数据科学家等等,需要完成的数据工作任务差异也比较大,比如数据开发,数据治理,BI,数据分析和机器学习等等,因此个性化对Data Catalog的搜索尤为重要。- **支持各种业务** **元数据** **的高级筛选**。数据资产除了名称/别名/描述等字段,通常还会有一些业务元数据,如项目/业务域/负责人/负责人部门/标签/业务术语/生命周期状态等。通过支持指定业务元数据进行筛选,帮助用...
字节跳动火山引擎 EMR 研发工程师# 1. EMR 产品概述 首先分享一下 EMR 产品的优势,以及可服务的场景。## **EMR 产品优势与面向场景**![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-... =&rk3s=8031ce6d&x-expires=1715358031&x-signature=smabhBI%2BtZ%2BhKi8yexCpBpO0gmQ%3D)这方面的优化包括列裁剪、filter下推、Agg下推等。这其中,重点介绍RuntimeFilter join优化。Doris与ES关联列表的查询场景...
火山引擎高级研发工程师 什么是数据质量 广义上来说,数据质量的定义是数据满足一组固有特性(质量维度)要求的程度。业界通常有 6 个维度:* **完整性**:指数据的记录和信息是否... =&rk3s=8031ce6d&x-expires=1715358056&x-signature=vlLmpup91t%2Bc7zpZbIi8MA97qMo%3D)上图是数据质量平台的系统架构图,主要分为 5 个部分:* **Scheduler**:外部调度器,触发离线监控。主要分两种类型:+ 对...
字节跳动云原生工程师薛英才分享了 基于分布式 KV 存储引擎的高性能 K8s 元数据存储项目 KubeBrain。KubeBrain 是字节跳动针对 Kubernetes 元信息存储的使用需求,基于分布式 KV 存储引擎设计并实现的、可以... =&rk3s=8031ce6d&x-expires=1715358053&x-signature=oIz8QW%2B%2BliCPQyDlGklvPl9abi8%3D)KubeBrain 系统实现了 APIServer 所使用的元信息存储 API ,整体采用主从架构,主节点负责处理写操作和事件分发,从节点负...
集中展示 BI 工具,ETL 工具和开发者工具的使用说明- 正式发布 MaterializedMySQL 支持从 MySQL 数据源中实时同步数据- 优化 OpenAPI 参数和文档体验,便于客户更好地进行调用- 优化升级 Go driver,优化客户... 第二位嘉宾 管梓越 I 字节跳动推荐架构工程师 为大家讲解《基于数据湖的样本存储与样本生成》。## **案例推荐 & 技术干货**![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82...
基础架构的工程师们在底层计算引擎上封装了一套 Python 的接口,各业务作业通过 Python 框架使用流式计算引擎。 得益于 Python 框架的存在,底层引擎从 JStorm 变更为 Flink 的工作得以在业务用户无感知... 数据 Binlog 同步等业务场景的支持,目前每天大概有10w+ Flink Batch 作业运行。 **消息处理峰值90亿 QPS**![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/f...
角色涵盖数据工程师,数据分析师,产品经理,项目经理,销售和数据科学家等等,需要完成的数据工作任务差异也比较大,比如数据开发,数据治理,BI,数据分析和机器学习等等,因此个性化对Data Catalog的搜索尤为重要。- **支持各种业务** **元数据** **的高级筛选**。数据资产除了名称/别名/描述等字段,通常还会有一些业务元数据,如项目/业务域/负责人/负责人部门/标签/业务术语/生命周期状态等。通过支持指定业务元数据进行筛选,帮助用...