AI 数据集可用于组织、可视化文本或多模态数据样本,还能用于批量清洗、数据标注和探查。在进行模型训练、评测及 AI 数据工作流之前,您需要依据业务类型来创建特定的数据集。
操作步骤
创建通用数据集 登录 LAS 控制台 。 在顶部左上角根据实际情况选择地域。 在左侧导航栏选择数据集 > 通用数据集 ,进入数据集列表页面。 点击创建数据集 。
参数
描述
数据集英文名称
数据集的唯一标识。
长度1-100个字符
仅支持中文、大小写字母、数字开头
仅支持横线"-"及下划线"_"符号,不支持特殊字符
数据集中文名称
数据集的别名。
长度1-100个字符 仅支持中文 、大小写字母、数字开头 仅支持横线"-"及下划线"_"符号,不支持特殊字符。 是否公开
是否让同租户内的其他用户可见。
非公开数据集:主账号和本人可见,并能够操作此数据集 公开数据集:主账号下所有子账号可见,但只有主账号和本人能够操作此数据集 数据集格式
数据集的读取方式。
Lance: 一种数据湖格式。支持翻页预览、SQL 查询、编辑/删除数据项、全文搜索等高级功能。 Iceberg: 一种数据湖格式。支持翻页预览、SQL 查询等功能。 CSV: 选择此格式,会读取 数据来源 路径下,以 .csv, .tsv 为后缀的文件 JSONL: 选择此格式,会读取 数据来源 路径下,以 .jsonl, .json 为后缀的文件 Parquet: 选择此格式,会读取 数据来源 路径下,以 .parquet 为后缀的文件 Image: 选择此格式,会读取 数据来源 路径下,以 .png, .jpg, .jpeg, .gif, .tiff, .bmp 为后缀的文件 Audio: 选择此格式,会读取 数据来源 路径下,以 .mp3, .wav, .flac, .ogg, .m4a, .aac, .pcm, .aiff, .aif 为后缀的文件 Video: 选择此格式,会读取 数据来源 路径下,以 .mp4, .mkv, .avi, .mov, .webm, .h264, .h265, .hevc 为后缀的文件 Text: 选择此格式,会读取 数据来源 路径下,以 .txt 为后缀的文件 数据来源
当前支持从对象存储 TOS 中读取数据并创建数据集
说明
对于 Image、 Audio、 Video、Text 这四种格式,如果数据来源 的一级目录下有以 metadata 为文件名,且以 json、 jsonl、 csv、parquet 为后缀的文件,我们将约定此文件为该数据集的描述文件 ,在描述文件 中,约定 file_name 为对应文件的路径。
以 audio 格式为例,假设数据来源路径为: tos://dataset/audio,目录结构为:
.
└── dataset
└── audio
├── audio_1.mp3
├── audio_2.mp3
├── audio_3.mp3
├── desc
│ └── metadata.csv -- 只会读取一级目录下的描述文件,所以此文件不会被识别为描述文件
└── metadata.jsonl -- 只会读取一级目录下的描述文件,所以此文件会被识别为描述文件
在描述文件中,您可以以 file_name 来表示文件路径(需要是相对路径),然后用其他列来表示该路径此文件的一些元信息,例如:
{"file_name":"audio_1.mp3","size":1000,"length":11}
{"file_name":"audio_2.mp3","size":1000,"length":29}
{"file_name":"audio_3.mp3","size":1000,"length":99}
创建推理数据集 推理数据集 是大模型实际应用场景中的用户输入数据集合,反映真实用户需求分布。
LAS AI 数据集与火山方舟协同支持大模型推理数据回流。您可在火山方舟中将指定的自定义推理接入点 的数据,以加密的形式投递至您的专属私有 AI 数据湖中,未经授权时您的数据唯您所有、仅您可见、仅您可用。 由此借助 LAS 强大的多模态数据处理能力,开展包括预训练、评测、DPO 偏好对齐、SFT 微调、回流等下游任务,持续优化大模型训练效果,以契合业务场景需求。
以发起数据回流服务 为例,若需获取详细说明,请查看下列视频。
前提条件 已创建火山方舟账户,且具备火山方舟 Standard 或以上权限。 在火山方舟内完成创建自定义推理接入点 ,详见查看并管理推理接入点 ,在配置页面须开启数据投递至私有数据湖 。
操作步骤 登录 LAS 控制台 。 在顶部左上角根据实际情况选择地域。 在左侧导航栏选择数据集 > 推理数据集 ,进入推理结果数据集列表页面。 点击前往创建 ,跳转至火山方舟 > 数据集 > 我的数据湖 。 单击管理数据投递 ,在弹出的列表中激活指定的自定义推理接入点 作为您的数据来源。或者进入接入点详情页开启此项设置。
在接入点详情页,单击对话体验 即可快速调用模型进行对话,也可以通过 API 调用当前推理接入点 进行访问。对话或者推理数据将自动以结构化形式入库。 单击前往 AI 数据湖服务编辑数据 ,返回 LAS 控制台 > 数据集 > 推理数据集 ,查看对应推理数据集 。 您可通过工作流对推理数据集 进行处理,处理完成后单击导出 可将数据保存为通用数据集 。