You need to enable JavaScript to run this app.
导航
数据集介绍
最近更新时间:2024.11.25 22:43:23首次发布时间:2024.10.29 02:40:47

数据集(Dataset)用于统一管理数据集,支持数据集创建、多版本管理和共享功能,可在模型精调中使用。

前置条件

创建数据集之前,用户需确保账户已启用火山引擎对象存储 TOS 服务

创建数据集

打开数据集页面后,进入数据集列表。点击数据集列表页面左上角的【创建数据集】按钮,进入创建数据集页面。

填写创建数据集表单,包括数据集名称、数据集描述,选择数据用途、数据格式、上传文件等。具体填写说明见下表。

创建数据集表单配置字段填写说明

字段名是否必填描述及填写规范
数据集名称自定义数据集名称,方便记录检索;支持1~200位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。
数据集描述给数据集添加除名称以外的其他描述信息,方便多次迭代版本,重要信息记录;支持1~300位可见字符,且只包含大小写字母、中文、数字、中划线、下划线。
数据用途目前平台仅支持数据集用于模型精调,其他用途敬请期待。

数据格式

数据格式可根据模态和场景分为以下类型:

  • 文本生成-SFT精调:对话角色和文本组成的单轮或多轮的对话数据。

  • 文本生成-继续预训练:未标注的文本字符串数据,常用于继续预训练。

  • 文本向量化-SFT精调:用户问题和正负例文本数据。

详情可见模型精调数据集格式说明

版本号数据集版本号,从V1开始,每次新建版本自动递增。
文件上传具体文件格式可参考页面说明,或按照页面提示下载样例文件到本地,填充信息后再上传;支持上传数据集、从TOS导入两种文件上传方式。

注意

  1. 数据上传后将保存至用户账号下的火山引擎对象存储 TOS ,费用详情可见对象存储-计费概述

  2. 为保障您的数据安全,

    1. 若您选择从本地上传数据集,平台会在您的账号下创建存储桶(Bucket)以存储上传数据,并为该存储桶开启TOS服务端加密,加密方式为SSE-TOS

    2. 若您将本账号下TOS服务中存储桶内数据导入至火山方舟数据集内,建议您为数据所在的存储桶启用服务端加密,推荐使用SSE-TOS加密方式,详情可见 TOS-服务端加密概述

查看与管理数据集

通过数据集列表页,可以查看数据集的信息,包括数据集名称/ ID、数据格式、最新版本、状态、数据量等关键信息。

数据集版本管理

创建完成的数据集,可以在数据集列表中,选择希望查看的数据集,点击【数据集名称】进入该数据集的版本列表页。

查看数据集版本

通过数据集版本列表,可以查看该数据集所有版本的信息,包括版本号、版本描述、状态、数据量、预估 Tokens等关键信息。
其中,预估Tokens表示精调时数据集预计消耗的 token 数,不同模型的实际消耗数可能存在一定偏差。

新建数据集版本

点击数据集列表的【新建版本】操作,或点击数据集详情页右上角【新建版本】按钮,可在当前数据集基础上新增版本。填写新增版本表单,包括版本描述和文件上传。

删除数据集版本

用户可以删除不再需要的数据集版本,删除后不可恢复。
注意,删除操作可能带来不良影响,详见删除数据集
入口:在数据集详情页中,将鼠标悬停在数据集列表中需要删除的数据集版本记录操作中的【···】,点击【删除】操作,按照弹窗提示完成操作。

删除数据集

删除数据集将删除该数据集下的所有数据集版本数据,删除后不可恢复。

注意

  1. 数据集或数据集的某个版本删除成功后:

    1. 该条数据记录不可见且不可恢复,请谨慎操作。

    2. 该条数据记录被删除不影响 TOS 存储的数据文件。如需同步删除,可前往 TOS

  2. 请确保被删除数据集未被共享给其他用户,以避免影响其他用户使用。如该数据集为共享资源,请先前往资源管理-由我共享删除共享单元。更多说明请参考:资源共享-共享给我管理

入口1:在数据集列表页面,将鼠标悬停在需要删除数据集记录操作中的【···】,点击【删除】操作,按照弹窗提示完成操作。

入口2:在数据集详情页中,将鼠标悬停在右上角的【···】,点击【删除】提示,同样可以触发删除弹窗。