You need to enable JavaScript to run this app.
导航
数据导入/导出简介
最近更新时间:2025.09.16 19:43:10首次发布时间:2021.10.22 10:06:12
复制全文
我的收藏
有用
有用
无用
无用

ByteHouse 云数仓支持通过多种方式实现数据导入/导出,包括本地小文件导入、离线导入、流式导入、DataSail、离线导出、实时导出等,为您提供便捷的数据传输功能。本文介绍 ByteHouse 的数据导入/导出能力。

功能概述

Bytehouse 云数仓具备丰富的数据导入/导出能力,您在开通 ByteHouse 服务后,可快速接入业务数据并体验使用。
在导入层面,ByteHouse 云数仓提供了多种内置的数据导入能力,以支持从不同来源快速、便捷地加载数据到数据仓库中,方便您快速上手来体验 ByteHouse 核心功能:

  • 丰富的数据源
    • ByteHouse 云数仓依托火山引擎全域数据集成 DataSail,可对接丰富的数据源,包括 MySQL、VeDB、MongoDB、PostgreSQL、SQLServer、Oracle 等数据源。
  • 实时流式导入
    • Kafka 引擎实时导入:适用于对实时性要求较高的场景,数据规模中等,字段 ELT 较少的场景,例如实时业务数据采集、日志数据导入等,不支持实时数据的直接聚合。
    • 依托 Flink 实现导入:适用于对实时性要求较高的场景,数据流量很大,ELT 复杂的场景,例如一些大流量的业务数据导入。可以依托 Flink SQL 的能力对实时数据直接聚合。
  • 批量导入
    • 支持本地文件、TOS/S3 等数据文件的导入,文件格式包括 CSV、JSON、Parquet 等常用格式,支持通过命令行或 ByteHouse 控制台上传文件并加载到目标表。
    • 本地文件导入适用于小量但频繁的数据导入,TOS/S3 等对象存储导入适用于大批量数据导入。
  • 数据迁移能力
    • ByteHouse 云数仓提供了搬站工具,基于自研的迁移脚本和对象存储服务,支持将数仓类型数据从 ClickHouse、Doris 等数据源迁移至 ByteHouse 云数仓,帮助您快速完成数据搬站。
  • 在导出层面,ByteHouse 云数仓提供了 Binlog、CLI、IDE 工具、丰富的 API 接口、外表,满足您的数据导出需求,帮助您更好地管理和利用数据资产。

数据导入

支持的数据源

类别

数据源

导入方式

文档链接

数据库

RDS MySQL

DataSail

数据集成流程引导
配置 MySQL 数据源
配置 ByteHouse 云数仓版数据源

更多数据源

DataSail

DataSail 支持的数据源

存储

对象存储

本地小文件导入

本地小文件导入

离线导入

离线导入

外表

使用 S3/TOS 外表导入数据

DataSail

配置 OSS 数据源

消息队列

Kafka

【推荐】Flink

Flink Connector Driver

Kafka 引擎

流式导入

DataSail

配置 Kafka 数据源

日志类数据

日志数据

DataSail

配置 TLS 数据源

搬站工具

ByteHouse 支持通过搬站工具将数仓类型数据从 ClickHouse、Doris 等数据源导入 ByteHouse 云数仓。

支持导入的文件格式

导入方式

文件格式

本地文件导入

  • CSV 文件
  • JSON 文件
  • AVRO 文件
  • PARQUET 文件
  • GZ 文件

对象存储导入

  • CSV 文件
  • JSON 文件
  • AVRO 文件
  • PARQUET 文件

流式导入

  • JSON_KAFKA
  • AVRO_KAFKA

数据导出

ByteHouse 数据支持通过以下方式导出:

导出方式

工具

文档链接

离线导出

CLI

使用 ByteHouse CLI 导出

OpenAPI

使用 OpenAPI 导出

IDE

使用 IDE 工具导出数据

TOS

通过 SQL 导出

实时导出

Binlog

订阅 ByteHouse CDW Binlog
Flink 实时消费 ByteHouse CDW Binlog

Connector

ByteHouse 支持 Spark Connector 和 Flink Connector,将数据加载至 ByteHouse,便于您处理数据。