You need to enable JavaScript to run this app.
导航
模型精调数据集格式说明
最近更新时间:2025.04.27 17:33:01首次发布时间:2023.06.27 23:50:07
我的收藏
有用
有用
无用
无用

当前模型精调支持上传或导入jsonl格式数据集文件,以下为详细格式说明。

SFT精调

文本生成模型

格式示例:

{"messages": [{"role": "user", "content": "孤灯照不寐,风雨满西林。下一句是?"}, {"role": "assistant", "content": "多少关心事,书灰到夜深。"}]}
{"messages": [{"role": "system", "content": "请根据古诗内容,仅回复作者的名字。"}, {"role": "user", "content": "孤灯照不寐,风雨满西林。多少关心事,书灰到夜深。"}, {"role": "assistant", "content": "李群玉", "loss_weight": 1.0}]}

下载样例文件
格式说明:
每行一条JSON格式的数据:

  • messages (list, required): 描述一个对话列表
    • role (str, required): 角色,system、user、assistant中的一个
    • content (str, required): 对话内容文本
    • loss_weight (float, optional): 对于内容的loss训练权重。当role=system/user,loss_weight默认值为0.0且不可修改;当role=assistant,loss_weight默认值为1.0。通过loss_weight字段,可以在训练数据中修改默认值,取值范围是[0.0, 1.0]

说明

特别说明:如希望提升模型的Function Calling能力,需选择支持Function Calling训练的模型并提供包含Function Calling格式数据的训练集用于精调,具体模型和格式可参考精调

文本向量化模型

格式示例:

{"query":"乐清市珍俊服装店","docs":[{"text":"标题:先跪着把钱挣了.才能站着做选择.一定要好好赚钱.人这一生.","label":0},{"text":"标题:看来彩礼是要高了些..CCC#服装人#抖音助手#做个快乐的女孩#实体店#穿搭#实体王府大酒店","label":1},{"text":"标题:最近很喜欢一段话:照顾好自己的健康和情绪,这场人生,你就赢了一大半,其余的其余,人生自有","label":0}]}

下载样例文件
格式说明:
每行一条JSON格式的数据:

  • query*(str, required)*:检索问题文本
  • docs (list, required):与检索问题文本对应的正负例目标文本列表
    • text*(text, required)*:正负例文本内容
    • label*(bool, required)*:label值为1表示该样本为正例,一条数据中需要有1个正例;label值为0表示该样本为负例,一条数据中可包含0-5个负例

直接偏好学习

文本生成模型

基础格式
支持两个回答正负例的偏好对比学习

{
  "messages": [
    {
      "role": "system",
      "content":"This is a system"
    },
    {
      "role": "user",
      "content": "What your name?" 
    },
    {
      "role": "assistant",
      "content": "My name is doubao."
    },
    {
      "role": "user",
      "content": "How to learn Python?"
    },
    {
      "role":"assistant",
      "chosen": "It's so easy. First, you need to learn Python syntax...",
      "rejected":"Check python doc yourself"
    }
   ]
}

下载样例文件
格式说明:
每行一条JSON格式的数据:

  • messages (list, required): 描述一个对话列表
    • role (str, required): 角色,取值为system、user、assistant中的一个。最后一个message的role必须是assistant
    • content (str, required): 对话内容文本,最后一个message不包含
    • chosen (str, required)**:**偏好的内容正例,最后一个message必须包含
    • rejected (str, required):不偏好的内容负例,最后一个message必须包含

高级格式

{
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "text": "This is a system"
        }
      ]
    },
    {
      "role": "user",
      "content": [
        {
          "text": "What your name?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "My name is doubao."
        }
      ]
    },
    {
      "role": "user",
      "content": [
        {
          "text": "How to learn Python?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "I don't know!",
          "score": 0.5
        },
        {
          "text": "Check python doc yourself",
          "score": 0.1
        },
        {
          "text": "It's so easy. First, you need to learn Python syntax...",
          "score": 1,
          "lm_loss_mask": 1
        }
      ],
      "loss_weight": 1
    }
  ]
}

dpo.yaml
高级格式支持提供多个模型回复列表,通过 score 来指定对回复的偏好。训练过程将根据 score 的大小自动生成两两对比的偏序对进行训练,注意:score 相同的两个回复不会生成相应的偏序对。
格式说明:
每行一条JSON格式的数据:

  • messages (list, required): 描述一个对话列表
    • role (str, required): 角色,system、user、assistant中的一个。最后一个message的role必须是assistant,且仅最后一个 message 可以携带多个回复的偏许对
    • content (list, required): 对话内容文本或者一个list对象。最后一个message的content必须为list类型,且list长度在2~5之间。list的元素为dict,包含以下字段:
      • text (str, required):文本内容
      • score (float, required):偏好值,范围在0~1的浮点数,越高表示越偏好
      • lm_loss_mask (float, required):该条消息是否计算 sft loss,默认为 0,即不计算 sft loss
    • loss_weight (float, optional): 该条 message loss 的加权系数,默认为 1

继续预训练

文本生成模型

格式示例:

{"text":"火山引擎机器学习平台是面向机器学习应用开发者,提供【开发机】和【自定义训练】等丰富建模工具、多框架高性能模型推理服务的企业级开发平台,支持从数据托管、代码开发、模型训练、模型部署的全生命周期工作流。"}
{"text":"支持运行超大规模的分布式任务,包含多种预置算法框架和自定义算法框架。提供稳定、灵活、高性能的机器学习训练环境。"}
{"text":"支持多种框架的模型在异构硬件上的一键部署,具有高吞吐、低延时、实时扩缩容等特点,使推理服务更具弹性和容错性。"}

下载样例文件
格式说明:
每行一条JSON格式的数据:

  • text (str, required): 想要训练的字符串文本。每条样本不限制text长度,如果超长将自动根据模型最大能支持的token拆成多个样本,因此样本总数可能会超过数据的行数