数据集 ( Dataset ) 是按照一定结构和格式组织起来的数据集合,可用于分析、研究、训练、测试。AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集,支持创建通用数据集与推理数据集。
通用数据集:用于对齐模型行为的人类偏好数据,通过 SFT 等方式调整模型输出。
参数 | 描述 |
|---|---|
数据集英文名称 | 数据集的唯一标识。 |
数据集中文名称 | 数据集的别名。
|
是否公开 | 是否让同租户内的其他用户可见。
|
数据集格式 | 数据集的读取方式。
|
数据来源 | 当前支持从对象存储 TOS 中读取数据并创建数据集 |
说明
对于 Image、 Audio、 Video、Text 这四种格式,如果数据来源的一级目录下有以 metadata 为文件名,且以 json、 jsonl、 csv、parquet 为后缀的文件,我们将约定此文件为该数据集的描述文件,在描述文件中,约定 file_name 为对应文件的路径。
以 audio 格式为例,假设数据来源路径为: tos://dataset/audio,目录结构为:
. └── dataset └── audio ├── audio_1.mp3 ├── audio_2.mp3 ├── audio_3.mp3 ├── desc │ └── metadata.csv -- 只会读取一级目录下的描述文件,所以此文件不会被识别为描述文件 └── metadata.jsonl -- 只会读取一级目录下的描述文件,所以此文件会被识别为描述文件
在描述文件中,您可以以 file_name 来表示文件路径(需要是相对路径),然后用其他列来表示该路径此文件的一些元信息,例如:
{"file_name":"audio_1.mp3","size":1000,"length":11} {"file_name":"audio_2.mp3","size":1000,"length":29} {"file_name":"audio_3.mp3","size":1000,"length":99}
推理数据集是大模型实际应用场景中的用户输入数据集合,反映真实用户需求分布。
LAS AI 数据集与火山方舟协同支持大模型推理数据回流。您可在火山方舟中将指定的自定义推理接入点的数据,以加密的形式投递至您的专属私有 AI 数据湖中,未经授权时您的数据唯您所有、仅您可见、仅您可用。 由此借助 LAS 强大的多模态数据处理能力,开展包括预训练、评测、DPO 偏好对齐、SFT 微调、回流等下游任务,持续优化大模型训练效果,以契合业务场景需求。
以发起数据回流服务为例,若需获取详细说明,请查看下列视频。
数据集创建完成后,您可以点击数据集名称在数据详情中查看基本信息,同时也支持数据内容的在线预览和查询。
此页面会展示数据集内的具体数据项。不同格式,支持展示程度不同:
说明
说明
您可在左下角回顾历史查询,也可选择 SQL 模板进行快速查询。您只需选择相应模板并运行查询,即可轻松获得准确结果。同时,点击页面右上角的全屏预览可进入沉浸式浏览。
在此 Tab 页可以查看该路径下的所有文件,并允许上传、预览、删除、下载文件,以及新建文件夹。
此 Tab 页会记录数据集的变更操作。
支持对数据集新增数据,但新增数据的格式需要与当前数据集的格式相同。
支持数据集的导出能力,支持导出至对象存储、火山方舟以及新的版本数据集,用于后续的模型训练。
LAS AI目前支持如下两种方式导出数据。
数据集创建完成后,支持查看数据集的所有操作变更记录,您可以在数据集-操作记录中查看。
数据集的权限体系主要围绕账户角色和可见性设置进行定义。权限分为两个核心类别:可见性(读取/使用) 和 操作权(管理)。
通过公开数据集功能,您可将您的数据集及所包含的所有数据集版本共享给同一主账号下的其他子用户使用。
说明
仅创建数据集的子账号及其主账号拥有该数据集操作权。
账户角色 | 可见性 (读取/使用权限) | 操作权 (管理权限) |
|---|---|---|
创建者(该子账号) |
|
|
主账号 |
|
|
同一主账号下的其他子账号 |
|
|