You need to enable JavaScript to run this app.
导航
本地小文件导入
最近更新时间:2025.11.17 18:54:05首次发布时间:2021.10.22 10:06:12
复制全文
我的收藏
有用
有用
无用
无用

ByteHouse 云数仓版控制台支持以可视化的方式导入本地文件,帮助您更新替换数据,适用于小批量数据补录或功能测试等场景。当前支持导入 CSV、JSON、AVRO、PARQUET 文件类型。本文将详细介绍如何通过控制台创建、查看和管理本地文件导入任务。

注意事项

通过 ByteHouse 云数仓版控制台导入本地文件最大支持 200.00 MB。如需导入大量数据,请使用离线导入流式导入方式。

准备工作

从 2025年10月开始,ByteHouse 控制台执行数据导入任务需配置计算组,开始导入前,请确认您具有需使用的计算组的使用(USE)权限。您可通过权限管理 > 用户 > 用户列表路径,单击用户名,在用户详情页中的资源权限下查看获得的计算组权限。如果尚未获得授权,请联系管理员配置,详情请参考资源权限管理

创建任务
  1. 登录 ByteHouse 云数仓版控制台,单击顶部数据加载,单击新建导入任务,进入新建数据导入任务界面。
    Image

  2. 填写导入任务基本信息,自定义任务名称和任务描述。
    Image

  3. 选择数据源类型为文件上传,并上传示例文件用于定义任务和解析 Schema。
    单击点击这里或拖动文件到上传区域,上传文件。上传后,系统将自动读取格式,您可再次确认格式是否正确。
    Image

    注意

    ByteHouse 当前仅支持上传 CSV、JSON、AVRO、PARQUET 类型的文件,且文件大小不能超过 200.00 MB。

  4. (可选)如果您上传的是 CSV 或 JSON 格式的文件,可配置对应的格式参数。

    格式

    配置项

    配置说明

    界面示意图

    CSV

    表头

    支持设置为无表头或有表头。

    • 无表头:ByteHouse 将使用 "_c0,_c1" 作为源列名来映射模式与目标表。
    • 有表头:ByteHouse 将分离表头来映射模式到目标表上。

    Image

    CSV 格式

    支持设置分隔符、引用字符、跳过行数、Null Value、编码、转义符、多行支持、忽略空格等。

    JSON

    多行支持

    设置是否启用多行支持。启用多行支持表示文件中的每个 JSON 对象(代表一行)都按单独的行进行格式化。这与'JSON Lines'不同,其中 JSON 对象被展平为每个对象的一行。

    Image

    允许注释

    设置是否允许在文件中使用注释。

  5. 选择导入的目标数据库和表。
    Image

  6. 定义 Schema 映射。设置数据源和目标表后,系统会自动填充 Schema 映射表,生成数据源与目标表的映射关系。ByteHouse 当前支持以下 Schema 映射配置操作,您可按需调整生成的 Schema 映射。
    Image

    • 调整 Schema 映射逻辑
      如果生成的 Schema 不符合预期或者您需要调整源列与目标列的映射关系,您可单击解析,系统将重新解析。
    • 调整目标表
      您可打开新的浏览器标签页,进入数据库页面并调整目标表,调整后,在数据导入页面中定义 Schema 映射模块单击刷新目标表,系统将自动读取目标表的调整并更新 Schema 映射表。
    • 日期解析格式配置
      ByteHouse 数据导入默认支持自动解析的日期格式为:yyyy-MM-dd'T'HH:mm:ss ( Java 默认的时间格式),注意年月日和十份秒中间用常量 T 隔开。如果您的数据使用其他格式,则需要手动配置,配置操作请参见如何配置日期解析格式?
    • 时区配置
      如果您需要导入的数据包含带有日期的字段且该日期包含时区信息,请参考导入文件时如何配置时区?调整数据格式,避免时区导入异常。
  7. 配置导入任务的加载类型和计算组,您可按需选择增量写入或全量覆盖写。
    Image

    • 增量写入:在每次执行作业中,数据将被增量写入到目标表,存量数据不会被覆盖。
    • 覆盖写入:用最新的数据替换整个目标表,可以选分区覆盖或者全量覆盖。选择分区覆盖写前,需确认目标表定义了分区键。
    • 计算组:从下拉列表选择导入任务使用的计算组。请确保您拥有该计算组的使用权限。
  8. 单击创建,即可创建导入任务。创建完成后,您需要继续执行任务,将数据导入到 ByteHouse 的目标表中。

执行任务
  1. 导入任务创建后,系统将跳转至任务详情页面,此时任务将处于暂停状态,您可单击开启,启动任务。
    Image
  2. 在启动文件上传作业弹窗中,选择文件上传路径,单击确定,系统将执行数据加载任务。
    Image
    • 采样文件路径:使用创建导入任务时已上传的文件导入数据。
    • 上传新文件:如果您有新数据需要上传,可选择上传新文件,需确保文件类型和 table schema 与原有任务配置相同。

查看任务

在数据加载页面,您可以通过任务视图查看已创建的所有任务。
Image
您也可以通过执行视图查看任务执行状态,查看任务执行日志和配置。当任务类型为成功状态时,即可进行数据查询。
Image

  • 查看任务执行日志
    单击目标任务行的日志按钮,查看当前任务的执行日志,您可单击复制或下载日志。
    Image
  • 查看配置
    单击目标任务行的配置按钮,查看当前任务的执行配置,您可单击复制或下载配置 JSON 文件,可用作通过 OpenAPI 导入数据的配置参考。
    Image
  • 排查导入任务
    如果要对已经导入的任务进行排查,可单击任务名称,单击同步历史记录下的执行 ID,查看导入状态、错误详情、日志等详细信息,便于对导入情况进行判断和优化。
    Image

开启/停止任务
  1. 在任务列表中,单击源类型下拉列表,选择文件上传,筛选导入任务。
  2. 单击目标任务行的开启按钮,启动当前导入任务。
    Image
  3. 单击任务名称,进入任务详情页面,可查看任务同步历史记录和当前配置的 Schema 映射、日志、配置。
    Image
  4. 如果需要停止导入任务,可单击停止

编辑任务
  1. 在任务列表中,单击源类型下拉列表,选择文件上传,筛选导入任务。
  2. 单击目标任务行的编辑按钮,进入文件上传任务配置页面。
    Image
  3. 按需调整任务配置,编辑完成后,单击更新

复制任务配置

如果您需要通过 OpenAPI 导入数据,可复制任务配置作为配置参考。
操作步骤

  1. 在任务列表中,单击源类型下拉列表,选择文件上传,筛选导入任务。
  2. 单击目标任务行的 ... 按钮,单击复制配置,系统将复制当前导入任务的配置。
    Image

删除任务

在任务列表中,单击目标任务行的 ... 按钮,单击删除任务,确认后即可删除当前任务。
Image