You need to enable JavaScript to run this app.
导航
数据导出
最近更新时间:2025.09.05 10:34:36首次发布时间:2025.06.25 11:32:49
复制全文
我的收藏
有用
有用
无用
无用

ByteHouse 支持创建数据导出任务,一次性或定期导出数据至火山引擎对象存储服务(Torch Object Storage,TOS),便于您进行数据分析。

前提条件

使用 ByteHouse 数据导出功能前,请准备好以下资源:

  • TOS 数据源:先在 ByteHouse 创建数据源,创建一个 TOS 数据源,详情请参见批式导入
  • 请在火山引擎 TOS 中创建好数据导出后的存储桶,操作详情请参见创建存储桶

创建任务
  1. 登录 ByteHouse 控制台,单击顶部任务中心,单击定时任务,在定时任务页面单击新建定时任务,选择数据导出任务
    Image

  2. 配置数据导出任务详情。
    Image

    参数

    配置说明

    集群

    选择您需要导出数据所在的集群。

    任务名称

    自定义任务名称。名称只能包含字母数字,汉字,空格,下划线和中划线。

    执行类型

    支持按指定周期导出和一次性导出任务。

    描述

    自定义任务描述。

    Cron 表达式

    使用 Cron 表达式配置导出任务的执行时间。配置后,您可在预览区查看 Cron 表达式对应的执行时间。

    注意

    若导出时系统资源不足,周期任务在指定执行时间点因待执行任务过多导致排队,实际导出任务的开始时间将延迟。

  3. 填写查询 SQL,用于查询您需要导出的数据。
    Image

  4. 配置数据导出任务。
    Image

    参数

    配置说明

    导出文件名

    可选配置,支持自定义文件名、不指定文件名两种方式。

    • 自定义文件名:系统将仅导出一个文件。
    • 不指定文件名:适用于导出文件较大的场景。系统将导出的文件拆分为若干个小文件,并按照 clickhouse_outfile_n.format 格式为文件命名。导出文件名示例如下:
      clickhouse_outfile_1.csv、clickhouse_outfile_2.csv、clickhouse_outfile_3.csv、...、clickhouse_outfile_n.csv
      

    注意

    • 自定义文件名时,请避免使用相同名称命名不同的导出文件。若同一导出路径下,两次导出任务的导出文件名相同,系统将自动覆盖已有文件,原文件数据将无法恢复。
    • 对于周期性导出任务,由于导出文件名、导出路径配置相同,下一周期生成的导出文件将自动覆盖上一周期的文件,请及时处理已导出文件。

    源类型

    选择导出目标数据源类型,当前仅支持 S3。

    数据源

    选择 ByteHouse 中已添加的 TOS 数据源,建立与导出目标数据源的连接。
    如果您尚未创建数据源,可单击创建按钮,系统将自动跳转至新建数据源页面,您可参考批式导入配置数据源相关信息。

    选择需将数据导出至的目标存储桶。

    路径

    选择需将数据导出至的目标存储路径。

    格式

    数据导出的格式,支持 CSV、Parquet 和 JSON。

    注意

    当前 ByteHouse 导出 Parquet 文件暂不支持 Date 数据类型导出为日期类型,导出时该类型会自动转换为 Int 类型。若您的数据表中包含 Date 类型列,可在导出 SQL 语句中添加 toString 手动转换,示例如下:

    SELECT xx, xx, toString(toDate(xx)) FROM xx
    

    自定义参数

    用于定义导出参数,支持通过单行编辑和脚本编辑。ByteHouse 内置了默认参数,说明如下:

    • s3_use_virtual_hosted_style:用于设置存储桶的访问方式,默认值为 1,表示使用虚拟主机风格(Virtual Hosted Style)访问存储桶。当前 TOS 仅支持 Virtual Hosted Style,不支持路径访问模式(path style),使用时无需调整该参数。
    • enable_optimizer:是否启用优化器,此处用于控制文件拆分,默认值 0,使用时无需调整该参数。
    • max_threads:导出任务处理线程的最大数量,默认值 1,可避免性能不足导致的导出失败。推荐使用默认值,您也可按需调整。
    • max_block_size:控制单次写入/传输数据块大小的参数,默认值 1024,单位为行。推荐使用默认值,您也可按需调整。
    • max_execution_time:导出任务执行超时时间,单位为秒,您可按需设置,默认值 1800,表示 30 分钟。推荐使用默认值,您也可按需调整。
  5. 配置完成后,单击保存。系统将自动创建任务,并提示“创建定时任务成功”。您可单击提示页面的任务详情查看任务配置。

  6. 任务执行后,您可单击任务名称,查看任务执行状态及详情。

    • 如果状态显示为“成功”,表示任务执行成功,您可单击导出文件名后的链接按钮,系统将自动跳转到 TOS 对应的文件夹,您可通过文件名查看已导出的文件。
      Image
    • 如果状态显示为“失败”,您可将鼠标悬浮至“失败”字样上方,查看失败原因。确认原因后,可再次编辑任务,对应调整任务配置,再次尝试执行任务。

编辑任务

在定时任务列表中,单击目标任务所在行的编辑按钮,调整任务配置,您可参考创建任务中的参数说明进行配置。
Image
您也单击任务 ID,进入任务详情页面,单击编辑按钮,调整任务配置。
Image

暂停任务

如果您创建的是周期性任务,您可暂停执行该任务。
在定时任务列表中,单击目标任务名称,进入任务详情页面,单击暂停
Image

删除任务

在定时任务列表中,单击目标任务所在行的删除按钮,单击删除,即可删除当前任务。
Image
您也单击任务名称,进入任务详情页面,单击删除按钮,删除当前任务。
Image