You need to enable JavaScript to run this app.
导航
使用自定义模型进行推理
最近更新时间:2025.12.17 01:32:50首次发布时间:2025.12.16 23:39:51
复制全文
我的收藏
有用
有用
无用
无用

本文介绍使用自定义模型(平台精调后模型或用户上传的自定义模型)进行推理的流程。自定义模型支持的完整操作(包括体验、增量训练、量化压缩等内容),请参见管理自定义模型

上传模型

支持的模型范围

支持上传符合下列模型架构和精度的模型文件,实际支持范围以控制台为准

模型架构

量化精度

Qwen3-0.6B

BF16(原始精度),W8A8_FP8

Qwen3-8B

BF16(原始精度),W8A8_FP8

Qwen3-14B

BF16(原始精度),W8A8_FP8

Qwen3-32B

BF16(原始精度),W8A8_FP8

Qwen2.5-72B

BF16(原始精度),W8A8_FP8

GLM-4.5-Air

BF16(原始精度),W8A8_FP8

模型文件要求

请上传符合 Hugging Face 格式的模型文件,为了确保模型能够正常解析与部署,目录中请包含以下文件:

  • 配置文件(必需,有且仅有一个)config.json
  • 模型权重文件(必需,至少一个)*.safetensors / *.bin / *.ckpt
  • Tokenizer 文件(必需,至少一个)tokenizer.jsontokenizer_config.jsontokenizer.model
  • 权重索引文件(可选,推荐)*.index.json

使用流程

上传模型当前仅支持部署模型单元进行在线推理,暂不支持批量推理

1 上传模型

支持从火山引擎对象存储(TOS)上传模型文件,注意符合支持的模型架构模型文件要求。支持上传原始精度的模型或量化压缩后的模型,具体支持的量化精度以控制台为准。

  1. 将您的模型文件上传至火山引擎对象存储(TOS),确保按照指定的格式和要求完成上传。
  2. 访问模型仓库页面,切换至 自定义模型 页签,单击 上传模型,将 TOS 存储的模型文件上传至火山方舟。

上传完成后进入 准备中 状态,大约需要等待5-10分钟,当状态变成 健康 后,可进行下一步操作。

2(可选)量化压缩

每一个精度会唯一对应此自定义模型下的一个可部署版本。未量化的原始精度模型上传完成后,部分模型
支持通过平台提供的量化功能生成其他精度的可部署版本。

  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击目标模型名称,进入基本信息页面。
  3. 在可部署版本区域,单击 创建可部署版本,选择目标量化精度,系统将根据所选精度生成对应的可部署版本。

3 使用模型单元部署推理

上传模型当前仅支持通过模型单元进行部署和在线推理。

  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击目标模型名称,进入基本信息页面。
  3. 在可部署版本区域,选择要部署的目标版本,单击 在线推理,使用模型单元进行部署推理。模型单元具体配置和调用示例可参见创建模型单元

平台精调后模型

基于 Doubao 模型进行精调

使用说明

对于全量精调后模型

  • 在线推理:当前仅支持使用模型单元部署推理。
  • 批量推理:支持按Token后付费方式进行部署推理。

对于Lora精调后模型

  • 在线推理:
    • 量化压缩后,支持普通在线推理(按Token付费)
    • 原始精度和量化精度均支持模型单元。
  • 批量推理:量化压缩后,支持批量推理(按Token付费)。

使用流程

1 创建精调任务

  1. 访问 模型精调 页面,单击 创建精调任务,进入精调任务创建流程。精调选型、参数配置等详细内容可参见 模型精调概述
  2. 将精调产物导出至模型仓库。如果上一步已自动选择导出模型,可跳过该步骤。
    1. 模型精调 页面选择目标精调任务,进入概览信息页面。
    2. 切换至模型产出页面,勾选目标产物并导出。导出完成后,可在模型仓库中查看并使用该精调产物进行后续的推理操作。

2 (可选)量化压缩

如果创建精调任务时已配置 导出自动量化,则系统会自动对精调产物进行量化压缩,无需再手动进行此步骤;若未配置,可按如下步骤进行量化压缩操作。

注意

对于Lora精调后模型,部署普通在线推理或批量推理前,必须先量化压缩。

  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击上一步导出的模型名称,进入基本信息页面。
  3. 在可部署版本区域,单击 创建可部署版本,选择目标量化精度,系统将根据所选精度生成对应的可部署版本。

3 部署推理

  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击目标模型名称,进入基本信息页面。
  3. 在可部署版本区域,选择要部署的目标版本,