模型精调泛指 基于基础模型 通过各种训练方法 优化模型提升效果的过程,精调的主要适用场景包括:
您可以参考以下条件进行精调模型选型:
下面将从选择模型、选择精调类型、数据准备以及选择精调后推理方式四个维度展开详细说明。
模型 | 支持特性 | 精调方法 | 精调后推理 | |||||
|---|---|---|---|---|---|---|---|---|
模型分类 | 模型版本 | thinking模式 | SFT(LoRA&全量) | DPO(LoRA&全量) | 模型单元 | 批量推理任务 | Lora 精调后按token付费推理 | |
多模态 | Doubao-seed-1.6-250615 | 支持 | 支持 | ✅支持LoRA | ✅支持LoRA | 256k窗口 | 256k窗口 | 128k窗口 |
Doubao-seed-1.6-flash-250828 | 支持 | 支持 | ✅支持LoRA | ✅支持LoRA | 256k窗口 | 256k窗口 | 128k窗口 | |
文本生成 | Doubao-1.5-pro-32k-250115 | 不支持,仅disabled | 支持 | ✅已支持 | ✅已支持 | 32k窗口 | 32k窗口 | 32k窗口 |
Doubao-1.5-lite-32k-250115 | 不支持,仅disabled | 支持 | ✅已支持 | ✅已支持 | 32k窗口 | 32k窗口 | 32k窗口 | |
继续预训练、强化学习以及更多模型的精调需求,请提交工单进行咨询。
方法 | 最小数据需求 | 训练成本 | 难度 | 优势&场景 |
|---|---|---|---|---|
SFT 有监督微调 | 数百条以上标注数据(promp+response问答对) | 中 | 低 | 拟合样本回答,针对性强,效果可控。 |
DPO 直接偏好优化 | 百条以上偏好对比数据(如 A/B 选择) | 中 | 中 | 基于用户反馈,低成本拟合用户偏好提升用户体验。 |
RL 强化学习 | 百条以上prompt集 + 可选标注数据 | 高 | 高 | 效果上限高 ,泛化好。 |
CPT 继续预训练 | 未标注数据一千万tokens以上 | 高 | 中 | 增强行业/垂直领域知识,提升基础效果。 |
针对不同精调方法及模型能力,数据集的具体格式规范与要求,请参考模型精调数据集格式说明。
精调后推理方式 | 使用条件 | 性能 稳定性 | 价格 | 适用场景 | |
|---|---|---|---|---|---|
在线推理 | 模型单元 | 库存紧张,可能买不到。 | 使用独占资源,稳定性有保障。 | 根据使用模型单元数量及型号计价 (方舟模型单元A/B/C/D型)。 | 小流量效果测试用小规格模型单元; |
按token后付费 | 仅部分模型lora训练后支持,不用压缩。 | 使用公共资源池,性能及稳定性保障较弱。 | 基础模型推理价格2-2.5倍。 | 小流量效果测试优选; | |
离线推理 | 批量推理任务 | 全量精调产物可以直接发起推理,lora精调产物压缩后才能发起。 | 使用每日夜间闲时资源推理,白天在线高峰期可能无进度。 | 同基础模型批量推理。 | 离线效果测试;离线刷数。 |
在完成选型后,可使用控制台进行精调训练,详细使用信息请参考创建并查看模型精调任务。
方舟平台使用潮汐闲时资源训练,主要在夜间训练,日间高峰期会被在线负载抢占。
当训练任务较多时,可能会出现一整天都没有训练进度的情况。如有高优重保需求,请提交工单处理。
具体进度可参考 精调任务详情页-时间线。
SFT、DPO、CPT 默认启用 dyn_bsz参数(Dynamic Batch Size),会将多个样本组合尽量填满seq_len以加快训练效率,实际一个batch训练token数约等于seq_len*batch_size。
如有明确的关闭dyn_bsz需求(如样本量过小且无法获取更多样本),请提交工单处理。
影响因素较多,常见的包括但不限于:
若排查后怀疑为系统或镜像问题,请提交工单,我们将安排研发协助排查。
请查看报错信息,如为系统原因请提交工单处理。