本文介绍使用自定义模型(平台精调后模型或用户上传的自定义模型)进行推理的流程。自定义模型支持的完整操作(包括体验、增量训练、量化压缩等内容),请参见管理自定义模型。
支持上传符合下列模型架构和精度的模型文件,实际支持范围以控制台为准
模型架构 | 量化精度 |
|---|---|
BF16(原始精度),W8A8_FP8 | |
BF16(原始精度),W8A8_FP8 | |
BF16(原始精度),W8A8_FP8 | |
BF16(原始精度),W8A8_FP8 | |
BF16(原始精度),W8A8_FP8 | |
BF16(原始精度),W8A8_FP8 |
请上传符合 Hugging Face 格式的模型文件,为了确保模型能够正常解析与部署,目录中请包含以下文件:
config.json*.safetensors / *.bin / *.ckpttokenizer.json、tokenizer_config.json 或 tokenizer.model*.index.json上传模型当前仅支持部署模型单元进行在线推理,暂不支持批量推理
支持从火山引擎对象存储(TOS)上传模型文件,注意符合支持的模型架构和模型文件要求。支持上传原始精度的模型或量化压缩后的模型,具体支持的量化精度以控制台为准。
上传完成后进入 准备中 状态,大约需要等待5-10分钟,当状态变成 健康 后,可进行下一步操作。
每一个精度会唯一对应此自定义模型下的一个可部署版本。未量化的原始精度模型上传完成后,部分模型
支持通过平台提供的量化功能生成其他精度的可部署版本。
上传模型当前仅支持通过模型单元进行部署和在线推理。
基于 Doubao 模型进行精调
对于全量精调后模型:
对于Lora精调后模型:
如果创建精调任务时已配置 导出自动量化,则系统会自动对精调产物进行量化压缩,无需再手动进行此步骤;若未配置,可按如下步骤进行量化压缩操作。
注意
对于Lora精调后模型,部署普通在线推理或批量推理前,必须先量化压缩。