You need to enable JavaScript to run this app.
导航
离线导入
最近更新时间:2024.06.06 16:55:23首次发布时间:2021.10.22 10:06:12

当你的数据在数据源已经准备完毕,ByteHouse 支持通过数据导入来进行数据加载。
当前 ByteHouse 支持从 S3 中进行离线导入。

支持的文件格式

  • CSV
  • JSON
  • Arvo
  • Parquet
  • Excel (xls)

创建任务

不同的数据源类型有会略有差异,但一般来说都需要4个步骤:
图片
请登录 ByteHouse,进入到 数据加载 页面,点击 新建数据加载
图片

步骤1:选择数据源

数据源是指包含待导入数据的文件夹/路径(S3/TOS/OSS)。连接时通常需要提供给存储系统一些信息,包括校验凭证、集群地址等。我们使用数据源一词来存储此类信息。您的连接信息已加密,即使是我们也无法读取。一旦存储,您就无法检索此类信息,只能更新或删除信息。每个连接都需要确保在账户之间也是唯一名称。因为除了源类型和连接名称之外,所有的细节都是隐藏的,所以您应该为您的连接设置一个名称,以帮助您直观地了解导入任务所需的数据源。
在选择 对象存储, 并选择相应的数据源,下面以 S3 为例。
图片

创建连接

S3 连接只需要访问密钥和密钥,我们可以具有(读取)访问权限的有效凭证链接。
您可以点击这里了解如何获取 AK 和 SK 信息。
图片

选择文件夹

我们提供了方便您选择S3文件夹的功能,也可以支持手动输入。

注意:文件名中的文件用于分析数据源模式,当导入开始时,系统会询问您要导入的文件。

步骤2:选择目标表

您可以导入到现有表或创建新表。如果您选择创建新表,用户界面将类似于数据库管理中的创建表,事实上,我们使用同一个后台处理这两种情况。区别在于此界面存在字段映射设置,您可以逐个指定从源列到目标列的映射。我们通过比较列名来预填充映射,但建议您根据需要进行检查和自定义。
图片

步骤3: 解析 Schema

我们提供 Schema 解析功能,以帮助您检索数据 Schema。该功能的工作原理是,对于有 Schema 的格式(如avro、parquet),从元数据中读取 Schema;对于没有 Schema 的格式(如csv、json),则从前几百条记录中进行推断。如果源数据没有表头,则设列名为_c0_cN格式。
该功能只是为了提供便捷解析的能力,可能存在一定解析错误的情况,建议您在处理之前再进行检查。
图片

步骤4:选择加载类型

加载类型说明了如何将数据加载到目标表:

  • 增量写入:根据表的分区,将新批次添加的数据加载到现有表。备注:ByteHouse将替换现有分区,而非进行合并。
  • 覆盖写入:用最新的数据替换整个目标表,可以选分区覆盖或者全量覆盖。

图片

请注意:如果你选择新建一个同步表,则该表和导入任务会依次进行创建,因此可能会出现导入任务创建失败但是表创建成功的场景。如果您遇到了类似情况,请退回至第三步,选择导入至已有表中进行导入。

查看任务

我们在数据导入页面上会显示两个列表:导入任务和执行计划列表,用以展示了导入任务和执行计划的全局视图,包括名称、类型、状态、每个导入任务和执行计划的导入行数。单击任意导入任务和执行计划,可分别进入详细信息页面
图片

操作任务

成功创建导入任务后,您将被重定向到任务详细信息页面。您也可以通过点击对应任务进入该页面。在该页面上,您可以深入了解各个导入任务的具体信息,如同步历史、导入图、配置等。你也可以在这里操作任务。

开始/停止任务

导入任务在创建后不会自动启动,如果需要启动它,您可以单击右上角的开启按钮。

图片
如果导入任务处于运行中,那么开启 按键会被替换为 停止。

编辑导入任务

在很多场景下,可能都会需要编辑修改任务,例如 Schema 变更,映射关系修改等。编辑操作步骤和新建导入任务比较相似,您可以通过在展开的菜单列表中选择编辑
图片