You need to enable JavaScript to run this app.
导航

数据导入简介

最近更新时间2023.11.09 11:02:11

首次发布时间2021.10.22 10:06:12

您可以将已有的外部数据加载到 ByteHouse 表中。数据导入在 ByteHouse 中称为 导入任务。您可以在前端控制台中创建导入任务,并通过前端或 API 触发。

1 支持的数据源

ByteHouse 目前支持以下数据源:

  • 火山引擎对象存储 TOS
  • AWS 对象存储 S3
  • Apache Kafka / Confluent Cloud (0.10+)
  • 本地文件

2 离线导入

离线导入适用于希望将已准备好的数据一次性加载到 ByteHouse 的场景,根据是否对目标数据表进行分区,ByteHouse 提供了不同的加载模式。操作详见离线导入

2.1 全量加载

全量将用最新的数据替换全表数据。

2.2 增量加载

增量加载将根据其分区将新的数据添加到现有的目标数据表。ByteHouse 将替换现有分区,而非进行合并。

3 支持的文件类型

ByteHouse的离线导入支持以下文件格式:

  • Delimited files (CSV, TSV, etc.)
  • Json (multiline)
  • Avro
  • Parquet
  • Excel (xls)

4 实时导入

ByteHouse 能够连接到 Kafka,并将数据持续传输到目标数据表中。与离线导入不同,Kafka 任务一旦启动将持续运行。ByteHouse 的 Kafka 导入任务能够提供 exactly-once 语义。您可以停止/恢复消费任务,ByteHouse 将记录 offset 信息,确保数据不会丢失。操作详见流式导入

4.1 支持的消息格式

ByteHouse 在流式导入中支持以下消息格式:

  • Protobuf
  • JSON