You need to enable JavaScript to run this app.
导航
数据导入/导出简介
最近更新时间:2025.10.20 15:02:07首次发布时间:2022.10.28 16:31:58
复制全文
我的收藏
有用
有用
无用
无用

ByteHouse 企业版支持通过多种方式实现数据导入/导出,包括小文件导入、批式导入、流式导入、DataSail、离线导出等,为您提供便捷的数据传输功能。本文介绍 ByteHouse 的数据导入/导出能力。

功能概述

Bytehouse 企业版具备丰富的数据导入/导出能力,您在开通 ByteHouse 企业版服务后,可快速接入业务数据并体验使用。
在导入层面,ByteHouse 企业版提供了多种内置的数据导入能力,以支持从不同来源快速、便捷地加载数据到数据仓库中,方便您快速上手来体验 ByteHouse 核心功能:

  • 丰富的数据源
    • ByteHouse 企业版依托火山引擎全域数据集成 DataSail,可对接丰富的数据源,包括 MySQL、VeDB、MongoDB、PostgreSQL、SQLServer、TiDB 等数据源。
  • 实时流式导入
    • Kafka 引擎实时导入:ByteHouse 企业版控制台支持连接至 Kafka,并将数据持续传输到目标数据表中。与批式导入不同,Kafka 导入任务一旦启动将持续运行。ByteHouse 的 Kafka 导入任务能够提供 at-least-once 语义。您可以停止/恢复消费任务,ByteHouse 将记录 offset 信息,确保数据不会丢失。适用于对实时性要求较高的场景,数据规模中等,字段 ELT 较少的场景,例如实时业务数据采集、日志数据导入等,不支持实时数据的直接聚合。
    • 依托 Flink 实现导入:适用于对实时性要求较高的场景,数据流量很大,ELT 复杂的场景,例如一些大流量的业务数据导入。可以依托 Flink SQL 的能力对实时数据直接聚合。
  • 批式导入
    • 又叫离线导入,适用于希望将已准备好的数据一次性加载到 ByteHouse 的场景,您可以将对象存储(S3 协议)、ClickHouse 和 Hive 中的数据,通过 ByteHouse 企业版控制台批量导入到 ByteHouse 表中。
  • 小文件导入
    • 支持通过 INSERT 语句,将小文件从本地文件、对象存储、ClickHouse、Hive、HDFS 等数据源导入数据。
  • 在导出层面,ByteHouse 企业版控制台提供了数据导出功能,支持将数据导出至火山引擎对象存储服务(Torch Object Storage,TOS),满足您的数据导出需求,帮助您更好地管理和利用数据资产。

数据导入

支持的数据源

数据源

导入方式

文档链接

数据库

RDS MySQL

DataSail

数据集成流程引导
配置 MySQL 数据源
配置 ByteHouse 企业版数据源

ClickHouse

批式导入

批式导入

MaterializedMySQL

创建 MaterializedMySQL 数据库

通过 MaterializedMySQL 导入

更多数据源

DataSail

DataSail 支持的数据源

存储

对象存储

小文件导入

从对象存储导入

批式导入

批式导入

DataSail

配置 OSS 数据源

HDFS

小文件导入

从 HDFS 导入

数据仓库

Hive

批式导入

批式导入

消息队列

Kafka

【推荐】Flink

Flink Connector

Kafka 引擎

流式导入

DataSail

配置 Kafka 数据源

日志类数据

日志数据

DataSail

配置 TLS 数据源

支持导入的数据格式

导入方式

文件格式

批式导入

支持的文件类型包括:CSV,JSON,Parquet 等。

流式导入

常用格式为 JSONEachRow。

小文件导入

当前支持的格式请参见输入和输出数据的格式

数据导出

ByteHouse 支持创建数据导出任务,一次性或定期导出数据至 TOS,便于您进行数据分析,操作详情请参见数据导出

Connector

ByteHouse 支持 Spark Connector 和 Flink Connector,将数据加载至 ByteHouse,便于您处理数据。