数据集 概述数据集 ( Dataset ) 是按照一定结构和格式组织起来的数据集合,可用于分析、研究、训练、测试。AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集,支持创建通用数据集 与推理数据集 。
通用数据集 :面向AI开发人员的多模态数据集合,为模型训练、评估或研究等场景提供数据支撑。推理数据集 :支持方舟平台大模型推理数据一键回流,为模型精调等场景提供数据支撑,协同方舟,构建模型持续迭代的增强回路。
数据集核心优势 覆盖场景广 :端到端数据处理+训练链路 各个节点、各种格式的数据,均可以数据集的形式进行组织和管理。既支持单模态数据集,也支持构建多模态数据集。使用效率高 :数据集和数据处理模块无缝联动,可以在线可视化探查数据处理各个阶段的数据。针对 Lance 格式数据集,提供高效的在线增删改查、sql查询等能力,面向标注场景,人工校验更高效。多模存储性能优 :Lance格式数据集,支持多模数据混合存储。row_id 行级索引和标量/向量/全文等二级索引机制,支持高效的随机点查和混合检索。支持零成本加列,面向机器学习训练场景友好。开放生态: 数据集可纳管存储在 TOS 上的各类数据,可与火山方舟无缝对接,支持模型推理数据回流。支持将las平台加工好的高质量数据集导出到方舟,支持模型训练、精调等场景。
操作步骤
创建通用数据集 通用数据集: 用于对齐模型行为的人类偏好数据,通过 SFT 等方式调整模型输出。
操作步骤 登录 LAS 控制台 。 在顶部左上角根据实际情况选择地域。 在左侧导航栏选择数据集 > 通用数据集 ,进入数据集列表页面。 点击创建数据集 。
参数
描述
数据集英文名称
数据集的唯一标识。
长度1-100个字符
仅支持中文、大小写字母、数字开头
仅支持横线"-"及下划线"_"符号,不支持特殊字符
数据集中文名称
数据集的别名。
长度1-100个字符 仅支持中文 、大小写字母、数字开头 仅支持横线"-"及下划线"_"符号,不支持特殊字符。 是否公开
是否让同租户内的其他用户可见。
非公开数据集:主账号和本人可见,并能够操作此数据集 公开数据集:主账号下所有子账号可见,但只有主账号和本人能够操作此数据集 数据集格式
数据集的读取方式。
Lance: 一种数据湖格式。支持翻页预览、SQL 查询、编辑/删除数据项、全文搜索等高级功能。 Iceberg: 一种数据湖格式。支持翻页预览、SQL 查询等功能。 CSV: 选择此格式,会读取 数据来源 路径下,以 .csv, .tsv 为后缀的文件 JSONL: 选择此格式,会读取 数据来源 路径下,以 .jsonl, .json 为后缀的文件 Parquet: 选择此格式,会读取 数据来源 路径下,以 .parquet 为后缀的文件 Image: 选择此格式,会读取 数据来源 路径下,以 .png, .jpg, .jpeg, .gif, .tiff, .bmp 为后缀的文件 Audio: 选择此格式,会读取 数据来源 路径下,以 .mp3, .wav, .flac, .ogg, .m4a, .aac, .pcm, .aiff, .aif 为后缀的文件 Video: 选择此格式,会读取 数据来源 路径下,以 .mp4, .mkv, .avi, .mov, .webm, .h264, .h265, .hevc 为后缀的文件 Text: 选择此格式,会读取 数据来源 路径下,以 .txt 为后缀的文件 数据来源
当前支持从对象存储 TOS 中读取数据并创建数据集
说明
对于 Image、 Audio、 Video、Text 这四种格式,如果数据来源 的一级目录下有以 metadata 为文件名,且以 json、 jsonl、 csv、parquet 为后缀的文件,我们将约定此文件为该数据集的描述文件 ,在描述文件 中,约定 file_name 为对应文件的路径。
以 audio 格式为例,假设数据来源路径为: tos://dataset/audio,目录结构为:
.
└── dataset
└── audio
├── audio_1.mp3
├── audio_2.mp3
├── audio_3.mp3
├── desc
│ └── metadata.csv -- 只会读取一级目录下的描述文件,所以此文件不会被识别为描述文件
└── metadata.jsonl -- 只会读取一级目录下的描述文件,所以此文件会被识别为描述文件
在描述文件中,您可以以 file_name 来表示文件路径(需要是相对路径),然后用其他列来表示该路径此文件的一些元信息,例如:
{"file_name":"audio_1.mp3","size":1000,"length":11}
{"file_name":"audio_2.mp3","size":1000,"length":29}
{"file_name":"audio_3.mp3","size":1000,"length":99}
创建推理数据集 推理数据集 是大模型实际应用场景中的用户输入数据集合,反映真实用户需求分布。
LAS AI 数据集与火山方舟协同支持大模型推理数据回流。您可在火山方舟中将指定的自定义推理接入点 的数据,以加密的形式投递至您的专属私有 AI 数据湖中,未经授权时您的数据唯您所有、仅您可见、仅您可用。 由此借助 LAS 强大的多模态数据处理能力,开展包括预训练、评测、DPO 偏好对齐、SFT 微调、回流等下游任务,持续优化大模型训练效果,以契合业务场景需求。
以发起数据回流服务 为例,若需获取详细说明,请查看下列视频。
前提条件 已创建火山方舟账户,且具备火山方舟 Standard 或以上权限。 在火山方舟内完成创建自定义推理接入点 ,详见查看并管理推理接入点 ,在配置页面须开启数据投递至私有数据湖 。
操作步骤 登录 LAS 控制台 。 在顶部左上角根据实际情况选择地域。 在左侧导航栏选择数据集 > 推理数据集 ,进入推理结果数据集列表页面。 点击前往创建 ,跳转至火山方舟 > 数据集 > 我的数据湖 。 单击管理数据投递 ,在弹出的列表中激活指定的自定义推理接入点 作为您的数据来源。或者进入接入点详情页开启此项设置。
在接入点详情页,单击对话体验 即可快速调用模型进行对话,也可以通过 API 调用当前推理接入点 进行访问。对话或者推理数据将自动以结构化形式入库。 单击前往 AI 数据湖服务编辑数据 ,返回 LAS 控制台 > 数据集 > 推理数据集 ,查看对应推理数据集 。 您可通过工作流对推理数据集 进行处理,处理完成后单击导出 可将数据保存为通用数据集 。
管理数据集
数据查询 数据集创建完成后,您可以点击数据集名称在数据详情中查看基本信息,同时也支持数据内容的在线预览和查询。
数据详情 此页面会展示数据集内的具体数据项。不同格式,支持展示程度不同:
单击目标数据集的名称进入数据详情 页面,单击列名右侧的图标展开筛选。
说明
LAS 当前支持通过文本 、字符数 筛选表内容,筛选关系可选择等于 /不等于 、为空 /不为空 、包含 /不包含 以及正则表达式 。 当前仅支持 Lance/Iceberg 格式的数据集,通过另存为 方式将数据集回流至火山方舟。
SQL查询 单击目标数据集的名称进入详情页面,选择 SQL 查询 进行数据筛查。 在左侧控制台编写 SQL 语句,点击开始查询 按钮执行检索任务,右侧显示查询结果。如需重置SQL语句请单击重置 按钮。 说明
您可在左下角回顾历史查询 ,也可选择 SQL 模板 进行快速查询。您只需选择相应模板并运行查询,即可轻松获得准确结果。同时,点击页面右上角的全屏预览 可进入沉浸式浏览。
文件管理 在此 Tab 页可以查看该路径下的所有文件,并允许上传、预览、删除、下载文件,以及新建文件夹。
操作记录 此 Tab 页会记录数据集的变更操作。
数据新增 支持对数据集新增数据,但新增数据的格式需要与当前数据集的格式相同。
在目标数据集右侧功能项选择新增 ,进入新增数据 页面。 参数配置会自动依据当前数据集的数据集名称、数据类型、格式 进行配置,您只需要添加新增数据的 TOS 路径即可完成新增。
数据导出 支持数据集的导出能力,支持导出至对象存储、火山方舟以及新的版本数据集,用于后续的模型训练。
LAS AI目前支持如下两种方式导出数据。
在 LAS 控制台 > 数据集 > 数据详情 页面,单击导出数据 ,导出指定数据集。 在 LAS 控制台 > 数据集 > SQL查询 页面,将 SQL 查询结果 导出。
数据集日志 数据集创建完成后,支持查看数据集的所有操作变更记录,您可以在数据集-操作记录中查看。
数据集权限 数据集的权限体系主要围绕账户角色 和可见性设置 进行定义。权限分为两个核心类别:管理权限 和只读权限 。
操作步骤 在数据集详情页的右上角点击权限管理 ,进入到当前数据集的权限管理页面。
配置管理权限 与只读权限 。
权限名称
说明
None
无权限,只能查看数据集列表及数据集摘要信息
Read
读取数据集数据
Edit
编辑数据集数据
Manage
管理数据集元信息、权限,分享与删除数据集
说明
授权主体分为两类:指定用户 与 组织内所有人 。指定用户目前支持用户 / 用户组,可进行模糊搜索;组织内所有人指授权给当前租户内所有用户,后续新增或删除用户依然适用。 授权给指定用户支持批量操作,您可同时新增与取消多个授权主体:新增授权时,点击主体前的方框打对勾即可;删除授权时,点击主体前的方框取消对勾即可。 数据集创建者与主账号拥有该数据集的管理权限,且不可被剥夺,所以两者无需被授权。