You need to enable JavaScript to run this app.
导航
数据集管理
最近更新时间:2025.09.24 13:30:39首次发布时间:2025.04.22 17:00:31
复制全文
我的收藏
有用
有用
无用
无用

数据集 ( Dataset ) 是按照一定结构和格式组织起来的数据集合,可用于分析、研究、训练、测试。AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集,支持创建通用数据集推理数据集

创建数据集

创建通用数据集

通用数据集:​用于对齐模型行为的人类偏好数据,通过 SFT 等方式调整模型输出。

操作步骤

  1. 登录 LAS 控制台
  2. 在顶部左上角根据实际情况选择地域。
  3. 在左侧导航栏选择数据集 > 通用数据集,进入数据集列表页面。
  4. 点击创建数据集

Image

参数

描述

数据集英文名称

数据集的唯一标识。
长度1-100个字符
仅支持中文、大小写字母、数字开头
仅支持横线"-"及下划线"_"符号,不支持特殊字符

数据集中文名称

数据集的别名。

  • 长度1-100个字符
  • 仅支持中文、大小写字母、数字开头
  • 仅支持横线"-"及下划线"_"符号,不支持特殊字符。

是否公开

是否让同租户内的其他用户可见。

  • 非公开数据集:主账号和本人可见,并能够操作此数据集
  • 公开数据集:主账号下所有子账号可见,但只有主账号和本人能够操作此数据集

数据集格式

数据集的读取方式。

  • Lance: 一种数据湖格式。支持翻页预览、SQL 查询、编辑/删除数据项、全文搜索等高级功能。
  • Iceberg: 一种数据湖格式。支持翻页预览、SQL 查询等功能。
  • CSV: 选择此格式,会读取 数据来源 路径下,以 .csv, .tsv 为后缀的文件
  • JSONL: 选择此格式,会读取 数据来源 路径下,以 .jsonl, .json 为后缀的文件
  • Parquet: 选择此格式,会读取 数据来源 路径下,以 .parquet 为后缀的文件
  • Image: 选择此格式,会读取 数据来源 路径下,以 .png, .jpg, .jpeg, .gif, .tiff, .bmp 为后缀的文件
  • Audio: 选择此格式,会读取 数据来源 路径下,以 .mp3, .wav, .flac, .ogg, .m4a, .aac, .pcm, .aiff, .aif 为后缀的文件
  • Video: 选择此格式,会读取 数据来源 路径下,以 .mp4, .mkv, .avi, .mov, .webm, .h264, .h265, .hevc 为后缀的文件
  • Text: 选择此格式,会读取 数据来源 路径下,以 .txt 为后缀的文件

数据来源

当前支持从对象存储 TOS 中读取数据并创建数据集

说明

对于 Image、 Audio、 Video、Text 这四种格式,如果数据来源的一级目录下有以 metadata 为文件名,且以 json、 jsonl、 csv、parquet 为后缀的文件,我们将约定此文件为该数据集的描述文件,在描述文件中,约定 file_name 为对应文件的路径。

以 audio 格式为例,假设数据来源路径为: tos://dataset/audio,目录结构为:

.
└── dataset
    └── audio
        ├── audio_1.mp3
        ├── audio_2.mp3
        ├── audio_3.mp3
        ├── desc
        │   └── metadata.csv -- 只会读取一级目录下的描述文件,所以此文件不会被识别为描述文件
        └── metadata.jsonl -- 只会读取一级目录下的描述文件,所以此文件会被识别为描述文件

在描述文件中,您可以以 file_name 来表示文件路径(需要是相对路径),然后用其他列来表示该路径此文件的一些元信息,例如:

{"file_name":"audio_1.mp3","size":1000,"length":11}
{"file_name":"audio_2.mp3","size":1000,"length":29}
{"file_name":"audio_3.mp3","size":1000,"length":99}

创建推理数据集

推理数据集是大模型实际应用场景中的用户输入数据集合,反映真实用户需求分布。
LAS AI 数据集与火山方舟协同支持大模型推理数据回流。您可在火山方舟中将指定的自定义推理接入点的数据,以加密的形式投递至您的专属私有 AI 数据湖中,未经授权时您的数据唯您所有、仅您可见、仅您可用。 由此借助 LAS 强大的多模态数据处理能力,开展包括预训练、评测、DPO 偏好对齐、SFT 微调、回流等下游任务,持续优化大模型训练效果,以契合业务场景需求。
发起数据回流服务为例,若需获取详细说明,请查看下列视频。


前提条件

  • 已创建火山方舟账户,且具备火山方舟 Standard 或以上权限。
  • 在火山方舟内完成创建自定义推理接入点,详见查看并管理推理接入点,在配置页面须开启数据投递至私有数据湖

操作步骤

  1. 登录 LAS 控制台
  2. 在顶部左上角根据实际情况选择地域。
  3. 在左侧导航栏选择数据集 > 推理数据集,进入推理结果数据集列表页面。
  4. 点击前往创建,跳转至火山方舟 > 数据集 > 我的数据湖
  1. 单击管理数据投递,在弹出的列表中激活指定的自定义推理接入点作为您的数据来源。或者进入接入点详情页开启此项设置。

Image
Image

  1. 在接入点详情页,单击对话体验即可快速调用模型进行对话,也可以通过 API 调用当前推理接入点进行访问。对话或者推理数据将自动以结构化形式入库。
  1. 单击前往 AI 数据湖服务编辑数据,返回 LAS 控制台 > 数据集 > 推理数据集,查看对应推理数据集
  2. 您可通过工作流对推理数据集进行处理,处理完成后单击导出可将数据保存为通用数据集

管理数据集

数据查询

数据集创建完成后,您可以点击数据集名称在数据详情中查看基本信息,同时也支持数据内容的在线预览和查询。

数据详情

此页面会展示数据集内的具体数据项。不同格式,支持展示程度不同:

  1. 单击目标数据集的名称进入数据详情页面,单击列名右侧的图标展开筛选。

Image

说明

  • LAS 当前支持通过文本字符数筛选表内容,筛选关系可选择等于/不等于为空/不为空包含/不包含以及正则表达式
  • 当前仅支持 Lance/Iceberg 格式的数据集,通过另存为方式将数据集回流至火山方舟。

SQL查询

  1. 单击目标数据集的名称进入详情页面,选择 SQL 查询进行数据筛查。
  2. 在左侧控制台编写 SQL 语句,点击开始查询按钮执行检索任务,右侧显示查询结果。如需重置SQL语句请单击重置按钮。

说明

您可在左下角回顾历史查询,也可选择 SQL 模板进行快速查询。您只需选择相应模板并运行查询,即可轻松获得准确结果。同时,点击页面右上角的全屏预览可进入沉浸式浏览。

文件管理

在此 Tab 页可以查看该路径下的所有文件,并允许上传、预览、删除、下载文件,以及新建文件夹。

操作记录

此 Tab 页会记录数据集的变更操作。

数据新增

支持对数据集新增数据,但新增数据的格式需要与当前数据集的格式相同。

  1. 在目标数据集右侧功能项选择新增,进入新增数据页面。
  2. 参数配置会自动依据当前数据集的数据集名称、数据类型、格式进行配置,您只需要添加新增数据的 TOS 路径即可完成新增。

数据导出

支持数据集的导出能力,支持导出至对象存储、火山方舟以及新的版本数据集,用于后续的模型训练。
LAS AI目前支持如下两种方式导出数据。

  • LAS 控制台 > 数据集 > 数据详情页面,单击导出数据,导出指定数据集。
  • LAS 控制台 > 数据集 > SQL查询页面,将 SQL 查询结果导出。

数据集日志

数据集创建完成后,支持查看数据集的所有操作变更记录,您可以在数据集-操作记录中查看。

数据集权限

数据集的权限体系主要围绕账户角色可见性设置进行定义。权限分为两个核心类别:可见性(读取/使用)操作权(管理)
通过公开数据集功能,您可将您的数据集及所包含的所有数据集版本共享给同一主账号下的其他子用户使用。

说明

仅创建数据集的子账号及其主账号拥有该数据集操作权。

账户角色

可见性 (读取/使用权限)

操作权 (管理权限)

创建者(该子账号)

  • 始终拥有权限,不受“公开”或“私有”设置影响。
  • 拥有完整的管理权限(编辑、删除、更改可见性等)。

主账号

  • 始终拥有权限,不受“公开”或“私有”设置影响。
  • 拥有与创建者同等的完整管理权限。

同一主账号下的其他子账号

  • 公开设置:可见并可使用此数据集。
  • 私有设置:不可见,无法访问。
  • 始终无任何管理权限。