当前模型精调支持上传或导入jsonl格式数据集文件,所有样例需确保一个样本一行。
请参考下面的具体格式示例,每个示例后提供了样例文件。
需确保样例一个样本一行,您也可以下载样例文件阅读,以下是展开后效果。
{ "messages": [ { "role": "user", "content": "孤灯照不寐,风雨满西林。下一句是?" }, { "role": "assistant", "content": "多少关心事,书灰到夜深。" } ] } { "messages": [ { "role": "system", "content": "请根据古诗内容,仅回复作者的名字。" }, { "role": "user", "content": "姑苏城外寒山寺,夜半钟声到客船" }, { "role": "assistant", "reasoning_content": "用户让我根据古诗内容回复作者名字,诗句是 “姑苏城外寒山寺,夜半钟声到客船”。首先,我需要确定这句诗出自哪首诗。这句诗很有名,应该是张继的《枫桥夜泊》。记得以前学过,这首诗的作者是唐代诗人张继。用户要求仅回复作者名字,所以不需要其他内容。检查一下搜索到的信息,虽然这里显示没有具体资源,但根据已有的知识,确定作者是张继没错。所以直接回复名字即可,不用多余的解释。", "content": "张继", "loss_weight": 1 } ] }
每行一条JSON格式的数据:
说明
特别说明:如希望提升模型的Function Calling能力,需选择支持Function Calling训练的模型并提供包含Function Calling格式数据的训练集用于精调,具体模型和格式可参考精调。
需确保样例一个样本一行,您可以下载样例文件阅读,以下是展开后效果。
{ "query": "乐清市珍俊服装店", "docs": [ { "text": "标题:先跪着把钱挣了.才能站着做选择.一定要好好赚钱.人这一生.", "label": 0 }, { "text": "标题:看来彩礼是要高了些..CCC#服装人#抖音助手#做个快乐的女孩#实体店#穿搭#实体王府大酒店", "label": 1 }, { "text": "标题:最近很喜欢一段话:照顾好自己的健康和情绪,这场人生,你就赢了一大半,其余的其余,人生自有", "label": 0 } ] }
每行一条JSON格式的数据:
数据集文件大小:单数据集文件大小需控制在 2G 以下。
图片规格:单张图片大小限制在 10M 以内,长宽比要小于 200。单图最大支持 5120 tokens,若超出此数值则会被采样到最大值(图片 token = 长像素 * 宽像素 / 784)。
样本长度:单样本长度若超过模型训练窗口会被截断,图片按单张整体截断。不同模型的窗口大小如下:
支持的图片格式:参见下表。
图片格式 | 文件扩展名 | 内容格式 Content Type |
---|---|---|
JPEG | .jpg, .jpeg | image/jpeg |
PNG | .apng, .png | image/png |
GIF | .gif | image/gif |
WEBP | .webp | image/webp |
BMP | .bmp | image/bmp |
TIFF | .tiff, .tif | image/tiff |
ICO | .ico | image/x-icon |
DIB | .dib | image/bmp |
ICNS | .icns | image/icns |
SGI | .sgi | image/sgi |
JPEG2000 | .j2c, .j2k, .jp2, .jpc, .jpf, .jpx | image/jp2 |
将图片进行 base64 编码后填入 jsonl 文件中,具体可下载样例文件参考。
{ "messages": [ { "role": "system", "content": "You are a large model with visual recognition capabilities." }, { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": "data:image/{image_extension};base64,{image_base64}" } }, { "type": "text", "text": "What’s in this image?" } ] }, { "role": "assistant", "content": "It is a cat." } ] }
以下是Python对图片进行 base64 编码的代码示例。
import base64 # 将结果填入 url 字段内 def encode_image(image_path): extension = image_path.split(".")[-1] with open(image_path, "rb") as image_file: base64_image = base64.b64encode(image_file.read()).decode('utf-8') return f"data:image/{extension};base64,{base64_image}"
以下为 jsonl 文件中使用图片相对路径的格式示例。
vlm ├── data.jsonl └── image ├── doubao_app_logo.jpeg └── doubao_logo.jpeg
Jsonl 文件中需确保样例一个样本一行,以下是展开后效果示例。
{ "messages": [ { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": "file:./image/doubao_logo.jpeg" } }, { "type": "text", "text": "What’s in this image?" } ] }, { "role": "assistant", "content": "It is the logo of Doubao LLM model." } ] }
注意:这种格式仅支持文件夹内图片数量少于 1000 张,大于该规模仍建议使用 base64 格式。
用户若处理视频,可将视频抽帧为图片,然后把时间戳和图片按顺序编排到训练集中,抽帧可参考对视频内容进行内容理解。
{ "messages": [ { "role": "user", "content": [ { "type":"text", "text":"你觉得这个恐怖吗?" }, { "type":"text", "text":"[0.0 second]" }, { "type":"image_url", "image_url":{ "url":"base64/相对路径" }, { "type":"text", "text":"[1.0 second]" }, { "type":"image_url", "image_url":{ "url":"base64/相对路径" }, { "type":"text", "text":"[2.0 second]" }, { "type":"image_url", "image_url":{ "url":"base64/相对路径" } ] } ] }
支持两个回答正负例的偏好对比学习,需确保样例一个样本一行,您可以下载样例文件阅读。
以下是展开后效果。
{ "messages": [ { "role": "system", "content": "This is a system" }, { "role": "user", "content": "What your name?" }, { "role": "assistant", "content": "My name is doubao." }, { "role": "user", "content": "How to learn Python?" }, { "role": "assistant", "chosen": "It's so easy. First, you need to learn Python syntax...", "rejected": "Check python doc yourself" } ] }
每行一条JSON格式的数据:
高级格式支持提供多个模型回复列表,通过 score 来指定对回复的偏好。训练过程将根据 score 的大小自动生成两两对比的偏序对进行训练,注意:score 相同的两个回复不会生成相应的偏序对。
需确保样例一个样本一行,您也可以下载样例文件阅读。
{ "messages": [ { "role": "system", "content": [ { "text": "This is a system" } ] }, { "role": "user", "content": [ { "text": "What your name?" } ] }, { "role": "assistant", "content": [ { "text": "My name is doubao." } ] }, { "role": "user", "content": [ { "text": "How to learn Python?" } ] }, { "role": "assistant", "content": [ { "text": "I don't know!", "score": 0.5 }, { "text": "Check python doc yourself", "score": 0.1 }, { "text": "It's so easy. First, you need to learn Python syntax...", "score": 1, "lm_loss_mask": 1 } ], "loss_weight": 1 } ] }
每行一条JSON格式的数据:
需确保样例一个样本一行,您可以下载样例文件阅读。
以下是展开后效果。
{ "text": "火山引擎机器学习平台是面向机器学习应用开发者,提供【开发机】和【自定义训练】等丰富建模工具、多框架高性能模型推理服务的企业级开发平台,支持从数据托管、代码开发、模型训练、模型部署的全生命周期工作流。" } { "text": "支持运行超大规模的分布式任务,包含多种预置算法框架和自定义算法框架。提供稳定、灵活、高性能的机器学习训练环境。" } { "text": "支持多种框架的模型在异构硬件上的一键部署,具有高吞吐、低延时、实时扩缩容等特点,使推理服务更具弹性和容错性。" }
每行一条JSON格式的数据: