You need to enable JavaScript to run this app.
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
Web 连接器
火山云TOS
复制全文
火山云TOS

1.概述

数据连接支持接入火山云 TOS。

2.快速入门

下面介绍两种方式创建火山云TOS数据连接。

2.1 从数据连接新建

(1)进入火山引擎,点击进入到某个具体项目下,点击数据准备,在下拉列表找到数据连接,新建数据连接。
Image
(2)在页面中选择火山云TOS。
Image
(3)填写所需的基本信息,并进行测试连接,连接成功后点击保存。
Image
数据连接参数说明:

  • 服务器:对应 S3Endpoint的访问域名,并在前面加上 https://,例如TOS北京对应 https://tos-s3-cn-beijing.volces.com
  • 用户名:对应accessId
  • 密码:对应accessKey
  • 桶名:即桶名
  • 文件格式:可选csv、txt
  • 表类型:可选分区表(分为yyyMMdd和yyyy-MM-dd两种)、非分区表
  • 文件目录:即表对应的路径,注意这里填写时不要以 / 开头

(4)确认数据连接的基本信息无误后即完成数据连接。

(5)可使用该连接创建数据集:点击数据准备-->数据集,选择左上角「新建」按钮进行数据集的新建。
Image
Image
(6)输入关键词搜索,选择之前新建好的数据连接。

2.2 从数据集新建

(1)进入火山引擎,点击数据准备-->数据集,选择左上角「新建」按钮,新建数据集。

(2)选择数据连接的时候,点击其他按钮。

之后的步骤与上述 2.1 的(2)、(3)步一致,在完成配置之后会停在数据集选择数据连接的弹出框中,即可直接进行下一步的数据集创建。

2.3 目录结构说明

  • 非分区表

表名:student_np

student_np              // 表名对应的目录
├── student.txt         // 数据文件,类型在数据连接中指定,会读取到文件夹下所有该类型的数据文件
├── student2.txt 
└── student_np.yml      // schema文件,名字需要和表名一致
  • 分区表

表名:student_p1

student_p1              // 表名对应的目录
├── 20240909            // 分区
│   ├── _SUCCESS        // 成功标志文件
│   ├── student.csv     // 数据文件,类型在数据连接中指定,会读取到文件夹下所有该类型的数据文件
│   ├── student2.csv
│   └── student3.csv    
├── 20240910
│   ├── _SUCCESS
│   ├── student.csv
│   ├── student2.csv
│   └── student3.csv
└── student_p1.yml      // schema文件,名字需要和表名一致

2.4 规则详细描述

  1. 文件目录格式:必填,如 data/student
    1. 规则1:最后一级目录名称必须和表名一致,格式为 data/{tableName},如 data/student
    2. 规则2:不支持多级目录解析,请勿在数据文件所在目录下定义子目录,如有系统会自动跳过
    3. 规则3:文件目录不建议变化,变化前请先更新【DataWind-数据连接】配置项,避免数据查询异常
    4. 规则4:一个文件目录表示一张表,不支持多表共用一个文件目录,也不支持一张表有多个目录
  2. 文件目录内容:
    1. 数据文件:必填,只支持CSV、TXT,可以有多个文件,名称也不做限制
      1. 规则:数据文件列(字段)顺序必须和元信息文件保持一致,且数据文件不包含表头(字段名行)
      2. 规则:每次查询时,根据文件目录地址拉取全部数据 (不包含子目录文件)
      3. 规则:单文件目录下文件总大小建议小于500G
      4. 规则:CSV最好为数据库等系统直接导出的文件,不要二次编辑,可能会导致日期类型异常
    2. 元信息文件:必填,{tableName}.yml (如果有结构变动需要改这个文件),直接放在表名对应的目录下
      1. 规则1:用于解析数据文件映射为结构化表
      2. 规则2:{tableName}为表名,不支持表名变更,{tableName}需要和该目录名称一致
      3. 规则3:如果是分区表,分区字段无需写在元信息文件里,系统会自动添加aeolus_partition字段为分区
      4. 规则4:文件格式见附录
    3. 同步成功标志文件:分区表必填,非分区表不要填,文件名为 _SUCCESS,无后缀,放在对应的分区目录下
      1. 逻辑:用于标记数据是否推送完成,用于构建对S3任务的依赖逻辑
      2. 规则1:文件必须存在,任务执行时读取对应分区下的_SUCCESS判断相应业务日期的数据是否已准备就绪
最近更新时间:2025.10.16 17:12:05
这个页面对您有帮助吗?
有用
有用
无用
无用