使用自定义模型进行推理--火山方舟大模型服务平台-火山引擎

文档中心

立即注册

火山方舟大模型服务平台

高级能力

使用自定义模型进行推理

本文介绍使用自定义模型（平台精调后模型或用户上传的自定义模型）进行推理的流程。自定义模型支持的完整操作（包括体验、增量训练、量化压缩等内容），请参见管理自定义模型。

基本概念

自定义模型：指用户在平台上创建的非系统预置模型，包括用户上传的 Hugging Face 格式模型，或者通过平台精调任务产出的模型。
量化压缩：量化是压缩的一种方式，统称为量化或者量化压缩。将模型的参数与计算从高精度（如 BF16）转换为低精度（如 INT8、INT4、FP8），可以减少显存占用、提升吞吐率。W8A8_FP8 表示把模型的权重（Weights）和激活值（Activations）量化成8位浮点数格式（Floating Point 8）得到的精度。
可部署版本：是自定义模型下可用于推理部署的版本；每一个精度会唯一对应此自定义模型下的一个可部署版本。

上传模型

支持的模型范围

支持上传符合下列模型架构和精度的模型文件，实际以控制台为准

模型架构	量化精度
Qwen3-0.6B	BF16（原始精度），W8A8_FP8
Qwen3-8B	BF16（原始精度），W8A8_FP8
Qwen3-14B	BF16（原始精度），W8A8_FP8
Qwen3-32B	BF16（原始精度），W8A8_FP8
Qwen2.5-72B	BF16（原始精度），W8A8_FP8
GLM-4.5-Air	BF16（原始精度），W8A8_FP8

模型文件要求

请上传符合 Hugging Face 格式的模型文件，为了确保模型能够正常解析与部署，目录中请包含以下文件：

配置文件（必需，有且仅有一个）：config.json
模型权重文件（必需，至少一个）：*.safetensors
Tokenizer 文件（必需，至少一个）：tokenizer.json、tokenizer_config.json 或 tokenizer.model
权重索引文件（可选，推荐）：*.index.json

使用流程

上传模型当前仅支持部署模型单元进行在线推理，暂不支持批量推理

1 上传模型

支持从火山引擎对象存储（TOS）上传模型文件，注意符合支持的模型架构和模型文件要求。支持上传原始精度的模型或量化压缩后的模型，具体支持的量化精度以控制台为准。

将您的模型文件上传至火山引擎对象存储（TOS），确保按照指定的格式和要求完成上传。
访问模型仓库页面，切换至 自定义模型 页签，单击 上传模型，将 TOS 存储的模型文件上传至火山方舟。

上传完成后进入 准备中 状态，大约需要等待5-10分钟，当状态变成健康后，可进行下一步操作。

2（可选）量化压缩

原始精度模型上传完成后，支持通过平台提供的量化压缩功能生成其他精度的可部署版本。

注意

量化前后的模型效果可能有差异，建议部署前进行评测。
量化压缩预计耗时 1-2 小时，具体时长受模型大小和平台负载影响。

访问模型仓库页面，切换至 自定义模型 页签。
单击目标模型名称，进入基本信息页面。
在可部署版本区域，单击 创建可部署版本，选择目标量化精度，系统将根据所选精度生成对应的可部署版本。

3 使用模型单元部署推理

上传模型当前仅支持通过模型单元进行部署和在线推理。

访问模型仓库页面，切换至 自定义模型 页签。
单击目标模型名称，进入基本信息页面。
在可部署版本区域，选择要部署的目标版本，单击 在线推理，使用模型单元进行部署推理。模型单元具体配置和调用示例可参见创建模型单元。

平台精调后模型

基于 Doubao 模型进行精调

使用说明

不同类型的精调后模型在推理方式及部署要求上存在差异，具体支持推理方式以控制台为准

对于全量精调后模型：

在线推理：当前仅支持使用模型单元部署推理。
批量推理：支持按Token后付费方式进行部署推理。

对于LoRA精调后模型：

在线推理：
- 量化压缩后，支持普通在线推理（按Token付费）
- 原始精度和量化精度一般均支持部署模型单元。
批量推理：量化压缩后，支持批量推理（按Token付费）。

使用流程

1 创建精调任务

访问模型精调页面，单击 创建精调任务，进入精调任务创建流程。精调选型、参数配置等详细内容可参见模型精调概述。
将精调产物导出至模型仓库。如果上一步已自动选择导出模型，可跳过该步骤。
1. 在模型精调页面选择目标精调任务，进入概览信息页面。
2. 切换至模型产出页面，勾选目标产物并导出。导出完成后，可在模型仓库中查看并使用该精调产物进行后续的推理。

2 （可选）量化压缩

如果创建精调任务时已配置 导出自动量化，则系统会自动对精调产物进行量化压缩，无需再手动进行此步骤；若未配置，可按如下步骤进行量化压缩操作。

注意

对于LoRA精调后模型，部署普通在线推理或批量推理前，必须先量化压缩。
量化前后的模型效果可能有差异，建议部署前进行评测。
量化压缩预计耗时 1-2 小时，具体时长受模型大小和平台负载影响。

访问模型仓库页面，切换至 自定义模型 页签。
单击上一步导出的模型名称，进入基本信息页面。
在可部署版本区域，单击 创建可部署版本，选择目标量化精度，系统将根据所选精度生成对应的可部署版本。

3 部署推理

访问模型仓库页面，切换至 自定义模型 页签。
单击目标模型名称，进入基本信息页面。
在可部署版本区域，选择要部署的目标版本，
- 单击 在线推理，配置常规在线推理或创建模型单元。
- 单击 批量推理，配置批量推理任务。详情参见批量推理（控制台）和批量推理（SDK教程）。

最近更新时间：2025.12.18 12:40:14

这个页面对您有帮助吗？

有用

无用

火山方舟大模型服务平台

支持的模型范围 #

模型文件要求 #

使用流程 #

1 上传模型 #

2（可选）量化压缩 #

3 使用模型单元部署推理 #

使用说明 #

使用流程 #

1 创建精调任务 #

2 （可选）量化压缩 #

3 部署推理 #

#

支持的模型范围

模型文件要求

使用流程

1 上传模型

2（可选）量化压缩

3 使用模型单元部署推理

使用说明

使用流程

1 创建精调任务

2 （可选）量化压缩

3 部署推理