ByteHouse 支持通过对象存储服务(如 S3、火山引擎对象存储服务 TOS、阿里云 OSS)实现离线数据导入,适用于大量数据的批量加载,当前支持导入 CSV、JSON、AVRO、PARQUET 文件类型。
从 2025年10月开始,ByteHouse 控制台执行数据导入任务需配置计算组,开始导入前,请确认您具有需使用的计算组的使用(USE)权限。您可通过权限管理 > 用户 > 用户列表路径,单击用户名,在用户详情页中的资源权限下查看获得的计算组权限。如果尚未获得授权,请联系管理员配置,详情请参考资源权限管理。
在 ByteHouse 控制台,单击数据加载页签,单击新建导入任务按钮,进入任务创建界面。
填写导入任务基本信息,自定义任务名称和任务描述。
选择数据源类型为对象存储,选择供应商,并从下拉列表中选择已创建的数据源。
如果您尚未创建数据源,可单击连接新的数据源,新建并配置数据源,单击连接。不同供应商所需配置的数据源连接信息不同,请以实际界面为准。
配置项 | TOS | S3 | Alibaba OSS |
|---|---|---|---|
源名称 | 自定义数据源名称。 | ||
开启路径访问模式 | 无 | 启用后,支持通过路径访问模式访问指定存储桶。如果不启用,将使用虚拟主机风格(Virtual Hosted Style)。 | |
访问密钥 | 配置为火山引擎 TOS 服务的访问密钥(Access Key),获取方式请参见 AccessKey(密钥)管理。 | 配置为 S3 服务的访问密钥(Access Key),您可登录 S3 服务控制台或联系管理员获取。 | 配置为 Alibaba OSS 服务的 AccessKey ID,获取方式请参见创建 AccessKey。 |
密钥 | 配置为火山引擎 TOS 服务的密钥(Secret Key),获取方式请参见 AccessKey(密钥)管理。 | 配置为 S3 服务的密钥(Secret Key),您可登录 S3 服务控制台或联系管理员获取。 | 配置为 Alibaba OSS 服务的 AccessKey Secret,获取方式请参见创建 AccessKey。 |
默认地域 | 配置为 TOS 服务所在的地域,详情请参见地域和访问域名(Endpoint)。 | 无 | 配置为 Alibaba OSS 服务所在的地域,详情请参见 OSS 地域和访问域名。 |
选择数据源后,配置数据源详细信息,包括存储桶、schema 样例文件路径、存储桶路径、格式等。不同数据源类型,所需配置的数据源详细信息不同,请以实际界面为准。以下是全量参数配置说明:
参数项 | 配置说明 |
|---|---|
地域 | 配置为对象存储数据源所在的地域。 |
存储桶 | 选择数据源所在的存储桶。 |
Schema 样例文件路径 | 设置 schema 样例文件,用于后续 schema 解析及生成导入配置。 |
存储桶路径 | 设置导入任务的文件路径前缀,该任务可以导入在该文件路径前缀下任意与样例文件 schema 相同的文件。 |
格式 | ByteHouse 支持的文件格式有 CSV、JSON、AVRO、Parquet,系统将根据您选择的 schema 样例文件格式自动匹配。 |
如果您上传的是 CSV 或 JSON 格式的文件,需配置对应的格式参数。
格式 | 配置项 | 配置说明 |
|---|---|---|
CSV | 表头 | 支持设置为无表头或有表头。
|
CSV 格式 | 支持设置分隔符、引用字符、跳过行数、Null Value、编码、转义符、多行支持、忽略空格等。 | |
JSON | 多行支持 | 设置是否启用多行支持。启用多行支持表示文件中的每个 JSON 对象(代表一行)都按单独的行进行格式化。这与'JSON Lines'不同,其中 JSON 对象被展平为每个对象的一行。 |
允许注释 | 设置是否允许在文件中使用注释。 |
选择导入的目标数据库和表。
定义 Schema 映射。设置数据源和目标表后,系统会自动填充 Schema 映射表,生成数据源与目标表的映射关系。ByteHouse 当前支持以下 Schema 映射配置操作,您可按需调整生成的 Schema 映射。
yyyy-MM-dd'T'HH:mm:ss ( Java 默认的时间格式),注意年月日和十份秒中间用常量 T 隔开。如果您的数据使用其他格式,则需要手动配置,配置操作请参见如何配置日期解析格式?。配置导入任务的加载类型,您可按需选择增量写入或全量覆盖写。
注意
如果您选择新建一个同步表,则该表和导入任务会依次进行创建,因此可能会出现导入任务创建失败但是表创建成功的场景。如果您遇到了类似情况,请退回至步骤 6,选择导入至已有表中进行导入。
单击创建,即可生成导入任务。导入任务创建后,系统将跳转至任务详情页面,此时任务将处于暂停状态,您可单击开启,启动任务。
在启动作业弹窗中,确认需上传的文件名,单击确定,系统将执行数据加载任务。
如果您有新文件需上传,您可从下拉列表中选择并替换。以下为 TOS 为导入数据源时的界面示例:
对象存储作业支持启用通配搜索,启用后,模糊搜索文件并导入多个文件,支持情况如下:
在数据加载页面,您可以通过任务视图查看已创建的所有任务。
您也可以通过执行视图查看任务执行状态,查看任务执行日志和配置。当任务类型为成功状态时,即可进行数据查询。
如果您需要通过 OpenAPI 导入数据,可复制任务配置作为配置参考。
操作步骤:
在任务列表中,单击目标任务行的 ... 按钮,单击删除任务,确认后即可删除当前任务。