You need to enable JavaScript to run this app.
导航
数据集管理
最近更新时间:2025.05.08 19:58:21首次发布时间:2025.04.22 17:00:31
我的收藏
有用
有用
无用
无用

AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集,支持创建通用数据集推理数据集

创建数据集

创建通用数据集

通用数据集用于对齐模型行为的人类偏好数据,通过 SFT 等方式调整模型输出。

操作步骤

  1. 登陆 LAS 控制台
  2. 在顶部左上角根据实际情况选择地域。
  3. 在左侧导航栏选择数据集 > 通用数据集,进入数据集列表页面。
  4. 点击创建数据集

参数

描述

数据集名称

长度1-100个字符
仅支持中文、大小写字母、数字开头
仅支持横线"-"及下划线"_"符号,不支持特殊字符

数据类型

选择数据格式,支持结构化数据、文本、图像以及开放格式。如果选择了特定格式,则会在后续的场景中进行数据集的类型筛选。

数据格式

选择数据格式,后续将根据选择的格式进行数据的读取

数据来源

当前支持从对象存储 TOS 中读取数据并创建数据集

TOS路径

可以选择或者输入文件的存储位置,以 tos:// 开头,请确保路径的准确性

创建推理数据集

推理数据集是大模型实际应用场景中的用户输入数据集合,反映真实用户需求分布。
LAS AI 数据集与火山方舟协同支持大模型推理数据回流。您可在火山方舟中将指定的自定义推理接入点的数据,以加密的形式投递至您的专属私有 AI 数据湖中,未经授权时您的数据唯您所有、仅您可见、仅您可用。 由此借助 LAS 强大的多模态数据处理能力,开展包括预训练、评测、DPO 偏好对齐、SFT 微调、蒸馏等下游任务,持续优化大模型训练效果,以契合业务场景需求。
发起模型蒸馏服务为例,若需获取详细说明,请查看下列视频。


前提条件

  • 已创建火山方舟账户,且具备火山方舟 Standard 或以上权限。
  • 在火山方舟内完成创建自定义推理接入点,详见查看并管理推理接入点,在配置页面须开启数据投递至私有数据湖

操作步骤

  1. 登陆 LAS 控制台
  2. 在顶部左上角根据实际情况选择地域。
  3. 在左侧导航栏选择数据集 > 推理数据集,进入推理结果数据集列表页面。
  4. 点击前往创建,跳转至火山方舟 > 数据集 > 我的数据湖
  1. 单击管理数据投递,在弹出的列表中激活指定的自定义推理接入点作为您的数据来源。或者进入接入点详情页开启此项设置。

Image
Image

  1. 在接入点详情页,单击对话体验即可快速调用模型进行对话,也可以通过 API 调用当前推理接入点进行访问。对话或者推理数据将自动以结构化形式入库。
  1. 单击前往 AI 数据湖服务编辑数据,返回 LAS 控制台 > 数据集 > 推理数据集,查看对应推理数据集
  2. 您可通过工作流对推理数据集进行处理,处理完成后单击导出可将数据保存为通用数据集

管理数据集

数据查询

数据集创建完成后,您可以点击数据集名称在数据详情中查看基本信息,同时也支持数据内容的在线预览和查询。

标签筛选

  1. 单击目标数据集的名称进入数据详情页面,单击列名右侧的图标展开筛选。

Image

说明

LAS 当前支持通过文本字符数筛选表内容,筛选关系可选择等于/不等于为空/不为空包含/不包含以及正则表达式

SQL查询

  1. 单击目标数据集的名称进入详情页面,选择 SQL 查询进行数据筛查。
  2. 在左侧控制台编写 SQL 语句,点击开始查询按钮执行检索任务,右侧显示查询结果。如需重置SQL语句请单击重置按钮。

说明

您可在左下角回顾历史查询,也可选择 SQL 模板进行快速查询。您只需选择相应模板并运行查询,即可轻松获得准确结果。同时,点击页面右上角的全屏预览可进入沉浸式浏览。

数据新增

支持对数据集新增数据,但新增数据的格式需要与当前数据集的格式相同。

  1. 在目标数据集右侧功能项选择新增,进入新增数据页面。
  2. 参数配置会自动依据当前数据集的数据集名称、数据类型、格式进行配置,您只需要添加新增数据的 TOS 路径即可完成新增。

数据导出

支持数据集的导出能力,支持导出至对象存储、火山方舟以及新的版本数据集,用于后续的模型训练。
LAS AI目前支持如下两种方式导出数据。

  • LAS 控制台 > 数据集 > 数据详情页面,单击导出数据,导出指定数据集。
  • LAS 控制台 > 数据集 > SQL查询页面,将 SQL 查询结果导出。

数据集日志

数据集创建完成后,支持查看数据集的所有操作变更记录,您可以在数据集-操作记录中查看。