> 23年8月16日~18日,由IT168联合旗下 ITPUB、ChinaUnix 两大技术社区主办的第14届中国数据库技术大会(DTCC2023)在北京国际会议中心隆重召开。火山引擎开源大数据平台 EMR 技术专家杜军令受邀参加【数据湖与实时数仓技术应用实践】专场,并进行了名为《字节基于开源 OLAP 引擎的探索与实践》主题分享。本文总结了此次分享的关键内容和分享材料。目前 OLAP 引擎在用户的报表分析,用户行为分析,市场预测与决策支持,用户画像与推荐等...
## 开篇想必大家都有一个疑问?何为**OLTP**,**OLAP**?它又能够给我们带来什么?![image.png](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/645ebe45d53945399ac78c50f7703656~tplv-k3u1fbpfcp-5.jpeg?)引入 | 图解那些OLAP分析引擎中的DBMS![DB-Engines Ranking.jpg](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/88980f084ca04d0db247dfa6c168342b~tplv-k3u1fbpfcp-5.jpeg?)## 资讯元宇宙(Metaverse)...
随着实时分析报表等 OLAP 市场的扩大,地理空间分析也作为新的增值特性被业界几大 OLAP 主流产品所推广。OLAP+GIS 能力在满足用户地理空间数据分析的基础上,还能在数据体量大、实效性要求高的情况下,满足业务高性能查询的需求。作为火山引擎推出的一款 OLAP 引擎,ByteHouse 近期发布了高性能地理空间分析 GIS 能力,为位置洞察、人群圈选等场景提供高性能地理数据分析服务。在功能层面,ByteHouse 兼容 OGC 标准,支持导入标准 G...
这是一个典型的 OLAP 的架构,分成两部分,一部分是离线,一部分是实时。在 **离线场景** 中,我们使用 DataX 把 Kafka 的数据集成到 Hive 数仓,再生成 BI 报表。BI 报表使用了 Superset 组件来进行结果展示;在 **实时场景** 中,一条线使用 GoSink 进行数据集成,把 GoSink 的数据集成到 ClickHouse,另外一条线使用 CnchKafka 把数据集成到 ByConity。最后通过 OLAP 查询平台获取数据进行查询。**ByConity 和 ClickHouse 功...
这是一个典型的 OLAP 的架构,分成两部分,一部分是离线,一部分是实时。在**离线场景**中,我们使用 DataX 把 Kafka 的数据集成到 Hive 数仓,再生成 BI 报表。BI 报表使用了 Superset 组件来进行结果展示;在**实时场景**中,一条线使用 GoSink 进行数据集成,把 GoSink 的数据集成到 ClickHouse,另外一条线使用 CnchKafka 把数据集成到 ByConity。最后通过 OLAP 查询平台获取数据进行查询。## ByConity 和 ClickHouse 功能对比...
> 传统OLAP架构,解决的更多是离线分析场景的需求,随着大规模数据服务场景的增多,业务侧不断有新的诉求提出,对数据分析的时效性要求变高,当前架构中存储和计算资源耦合,不同业务、时段及用户对二者要求往往不同,导致... 用于在线报表查询;在线和离线数据存储在不同地方,读取离线数据需要先读取到在线存储中。客户核心痛点:实时性及查询性能问题,原有Gp模式需每15分钟批量写入最新数据到在线数据存储;实时更新能力;在线报表业务的联...
这是一个典型的 OLAP 的架构,分成两部分,一部分是离线,一部分是实时。在**离线场景**中,我们使用 DataX 把 Kafka 的数据集成到 Hive 数仓,再生成 BI 报表。BI 报表使用了 Superset 组件来进行结果展示;在 **实时场景** 中,一条线使用 GoSink 进行数据集成,把 GoSink 的数据集成到 ClickHouse,另外一条线使用 CnchKafka 把数据集成到 ByConity。最后通过 OLAP 查询平台获取数据进行查询。 ...
> **导读**:传统 OLAP 架构,解决的更多是离线分析场景的需求,随着大规模数据服务场景的增多,业务侧不断有新的诉求提出,对数据分析的时效性要求变高,当前架构中存储和计算资源耦合,不同业务、时段及用户对二者要求往... 用于在线报表查询;在线和离线数据存储在不同地方,读取离线数据需要先读取到在线存储中。客户核心痛点:实时性及查询性能问题,原有Gp模式需每15分钟批量写入最新数据到在线数据存储;实时更新能力;在线报表业务的联...
1.概述 本文档提供火山引擎增长分析中统计数据导出的说明。可导出的统计数据包括: 用户看板列表,用户能看到的所有看板,包括公共看板和私有看板; 指定看板中的报表信息; 指定报表的数据。 2.API 公共参数 Context-path: /datafinderPath-parameters: Parameter Type Description Required app_id int 应用id true Response: json { "code": 200, "message": "success" "data": xxx}code 状态码,200...
1.概述 本文档提供火山引擎增长分析中统计数据导出的说明。可导出的统计数据包括: 用户看板列表,用户能看到的所有看板,包括公共看板和私有看板; 指定看板中的报表信息; 指定报表的数据。 2.API 公共参数 Context-path: /datafinderPath-parameters: Parameter Type Description Required app_id int 应用id true Response: json { "code": 200, "message": "success" "data": xxx}code 状态码,200...
1.概述 本文档提供火山引擎增长分析中统计数据导出的说明。可导出的统计数据包括: 用户看板列表,用户能看到的所有看板,包括公共看板和私有看板; 指定看板中的报表信息; 指定报表的数据。 2.API 公共参数 Context-path: /datafinderPath-parameters: Parameter Type Description Required app_id int 应用id true Response: json { "code": 200, "message": "success" "data": xxx}code 状态码,200 表示成...
EMR Serverless OLAP是开源Doris、StarRocks在火山引擎上的全托管服务,您可以通过EMR Serverless OLAP灵活的创建和管理Doris或StarRocks实例以及数据。 1 StarRocksStarRocks 是新一代极速全场景 MPP (Massively P... 例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。 2.1 Doris 产品特性特性 说明 MySQL 协议兼容 Doris 兼容 MySQL 连接协议,用户可直接使用 MySQL 的相关库或者工具对Doris集群进行连接访问。兼...
覆盖 SQL 99 和 2003 的核心部分以及 OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值有倾斜,与真实数据一致。可以说 TPC-DS 是一个与真实场景非常接近的测试集,难度较大,覆盖场景广,能有效反应不同业务的需求。TPC-DS 的这个特点与大数据的分析挖掘应用非常类似。Hadoop 等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用...