ByteHouse 云数仓版控制台支持以可视化的方式导入本地文件,帮助您更新替换数据,适用于小批量数据补录或功能测试等场景。当前支持导入 CSV、JSON、AVRO、PARQUET 文件类型。本文将详细介绍如何通过控制台创建、查看和管理本地文件导入任务。
通过 ByteHouse 云数仓版控制台导入本地文件最大支持 200.00 MB。如需导入大量数据,请使用离线导入或流式导入方式。
从 2025年10月开始,ByteHouse 控制台执行数据导入任务需配置计算组,开始导入前,请确认您具有需使用的计算组的使用(USE)权限。您可通过权限管理 > 用户 > 用户列表路径,单击用户名,在用户详情页中的资源权限下查看获得的计算组权限。如果尚未获得授权,请联系管理员配置,详情请参考资源权限管理。
登录 ByteHouse 云数仓版控制台,单击顶部数据加载,单击新建导入任务,进入新建数据导入任务界面。
填写导入任务基本信息,自定义任务名称和任务描述。
选择数据源类型为文件上传,并上传示例文件用于定义任务和解析 Schema。
单击点击这里或拖动文件到上传区域,上传文件。上传后,系统将自动读取格式,您可再次确认格式是否正确。
注意
ByteHouse 当前仅支持上传 CSV、JSON、AVRO、PARQUET 类型的文件,且文件大小不能超过 200.00 MB。
(可选)如果您上传的是 CSV 或 JSON 格式的文件,可配置对应的格式参数。
格式 | 配置项 | 配置说明 | 界面示意图 |
|---|---|---|---|
CSV | 表头 | 支持设置为无表头或有表头。
| |
CSV 格式 | 支持设置分隔符、引用字符、跳过行数、Null Value、编码、转义符、多行支持、忽略空格等。 | ||
JSON | 多行支持 | 设置是否启用多行支持。启用多行支持表示文件中的每个 JSON 对象(代表一行)都按单独的行进行格式化。这与'JSON Lines'不同,其中 JSON 对象被展平为每个对象的一行。 | |
允许注释 | 设置是否允许在文件中使用注释。 |
选择导入的目标数据库和表。
定义 Schema 映射。设置数据源和目标表后,系统会自动填充 Schema 映射表,生成数据源与目标表的映射关系。ByteHouse 当前支持以下 Schema 映射配置操作,您可按需调整生成的 Schema 映射。
yyyy-MM-dd'T'HH:mm:ss ( Java 默认的时间格式),注意年月日和十份秒中间用常量 T 隔开。如果您的数据使用其他格式,则需要手动配置,配置操作请参见如何配置日期解析格式?。配置导入任务的加载类型和计算组,您可按需选择增量写入或全量覆盖写。
单击创建,即可创建导入任务。创建完成后,您需要继续执行任务,将数据导入到 ByteHouse 的目标表中。
在数据加载页面,您可以通过任务视图查看已创建的所有任务。
您也可以通过执行视图查看任务执行状态,查看任务执行日志和配置。当任务类型为成功状态时,即可进行数据查询。
如果您需要通过 OpenAPI 导入数据,可复制任务配置作为配置参考。
操作步骤:
在任务列表中,单击目标任务行的 ... 按钮,单击删除任务,确认后即可删除当前任务。