You need to enable JavaScript to run this app.
火山方舟大模型服务平台

火山方舟大模型服务平台

复制全文
高级能力
使用自定义模型进行推理
复制全文
使用自定义模型进行推理

本文介绍使用自定义模型(平台精调后模型或用户上传的自定义模型)进行推理的流程。自定义模型支持的完整操作(包括体验、增量训练、量化压缩等内容),请参见管理自定义模型

基本概念
  • 自定义模型:​指用户在平台上创建的非系统预置模型,包括用户上传的 Hugging Face 格式模型,或者通过平台精调任务产出的模型。
  • 量化压缩:​量化是压缩的一种方式,统称为量化或者量化压缩。将模型的参数与计算从高精度(如 BF16)转换为低精度(如 INT8、INT4、FP8),可以减少显存占用、提升吞吐率。W8A8_FP8 表示把模型的权重(Weights)和激活值(Activations)量化成8位浮点数格式(Floating Point 8)得到的精度。
  • 可部署版本:​是自定义模型下可用于推理部署的版本;每一个精度会唯一对应此自定义模型下的一个可部署版本。

上传模型

支持的模型范围

支持上传符合下列模型架构和精度的模型文件,实际以控制台为准

模型架构

量化精度

Qwen3-0.6B

BF16(原始精度),W8A8_FP8

Qwen3-8B

BF16(原始精度),W8A8_FP8

Qwen3-14B

BF16(原始精度),W8A8_FP8

Qwen3-32B

BF16(原始精度),W8A8_FP8

Qwen2.5-72B

BF16(原始精度),W8A8_FP8

GLM-4.5-Air

BF16(原始精度),W8A8_FP8

模型文件要求

请上传符合 Hugging Face 格式的模型文件,为了确保模型能够正常解析与部署,目录中请包含以下文件:

  • 配置文件(必需,有且仅有一个)config.json
  • 模型权重文件(必需,至少一个)*.safetensors
  • Tokenizer 文件(必需,至少一个)tokenizer.jsontokenizer_config.jsontokenizer.model
  • 权重索引文件(可选,推荐)*.index.json

使用流程

上传模型当前仅支持部署模型单元进行在线推理,暂不支持批量推理

1 上传模型

支持从火山引擎对象存储(TOS)上传模型文件,注意符合支持的模型架构模型文件要求。支持上传原始精度的模型或量化压缩后的模型,具体支持的量化精度以控制台为准。

  1. 将您的模型文件上传至火山引擎对象存储(TOS),确保按照指定的格式和要求完成上传。
  2. 访问模型仓库页面,切换至 自定义模型 页签,单击 上传模型,将 TOS 存储的模型文件上传至火山方舟。

上传完成后进入 准备中 状态,大约需要等待5-10分钟,当状态变成 健康 后,可进行下一步操作。

2(可选)量化压缩

原始精度模型上传完成后,支持通过平台提供的量化压缩功能生成其他精度的可部署版本。

注意

  • 量化前后的模型效果可能有差异,建议部署前进行评测。
  • 量化压缩预计耗时 1-2 小时,具体时长受模型大小和平台负载影响。
  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击目标模型名称,进入基本信息页面。
  3. 在可部署版本区域,单击 创建可部署版本,选择目标量化精度,系统将根据所选精度生成对应的可部署版本。

3 使用模型单元部署推理

上传模型当前仅支持通过模型单元进行部署和在线推理。

  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击目标模型名称,进入基本信息页面。
  3. 在可部署版本区域,选择要部署的目标版本,单击 在线推理,使用模型单元进行部署推理。模型单元具体配置和调用示例可参见创建模型单元

平台精调后模型

基于 Doubao 模型进行精调

使用说明

不同类型的精调后模型在推理方式及部署要求上存在差异,具体支持推理方式以控制台为准

对于全量精调后模型

  • 在线推理:当前仅支持使用模型单元部署推理。
  • 批量推理:支持按Token后付费方式进行部署推理。

对于LoRA精调后模型

  • 在线推理:
    • 量化压缩后,支持普通在线推理(按Token付费)
    • 原始精度和量化精度一般均支持部署模型单元。
  • 批量推理:量化压缩后,支持批量推理(按Token付费)。

使用流程

1 创建精调任务

  1. 访问 模型精调 页面,单击 创建精调任务,进入精调任务创建流程。精调选型、参数配置等详细内容可参见 模型精调概述
  2. 将精调产物导出至模型仓库。如果上一步已自动选择导出模型,可跳过该步骤。
    1. 模型精调 页面选择目标精调任务,进入概览信息页面。
    2. 切换至模型产出页面,勾选目标产物并导出。导出完成后,可在模型仓库中查看并使用该精调产物进行后续的推理。

2 (可选)量化压缩

如果创建精调任务时已配置 导出自动量化,则系统会自动对精调产物进行量化压缩,无需再手动进行此步骤;若未配置,可按如下步骤进行量化压缩操作。

注意

  • 对于LoRA精调后模型,部署普通在线推理或批量推理前,必须先量化压缩。
  • 量化前后的模型效果可能有差异,建议部署前进行评测。
  • 量化压缩预计耗时 1-2 小时,具体时长受模型大小和平台负载影响。
  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击上一步导出的模型名称,进入基本信息页面。
  3. 在可部署版本区域,单击 创建可部署版本,选择目标量化精度,系统将根据所选精度生成对应的可部署版本。

3 部署推理

  1. 访问模型仓库页面,切换至 自定义模型 页签。
  2. 单击目标模型名称,进入基本信息页面。
  3. 在可部署版本区域,选择要部署的目标版本,

最近更新时间:2025.12.18 12:40:14
这个页面对您有帮助吗?
有用
有用
无用
无用