您可以在 开通管理 页中查看各模型定价与使用限制,开通后使用各模型服务,不同模型的单价不同。其中,大语言模型费用计算方式如下: 费用 = tokens使用量 ✖️ 模型tokens单价
Tokens定义说明: 通常1个中文词语、英文单词、数字、符号计为 1 个token,由于不同模型采用的分词器不同,同一段文本可能会分为不同的tokens数量。您可通过管控台中的 在线体验工具 了解tokens定义
在线体验工具入口:开通管理 页面中 定价 标题的提示文案
按tokens使用量(输入文本+输出文本)计费,每小时出账,按量后付费。
按Token使用量付费适用于访问豆包大模型以及访问基于豆包大模型精调后的模型。
模型提供方 | 模型 | 上下文长度 | 服务类型 | 定价(单位:元/千tokens) | 计费方式 | 免费额度 |
---|---|---|---|---|---|---|
字节跳动 | Doubao-lite-4k | 4K | 推理服务(输入) | 0.0003 | 后付费 | 50万tokens |
推理服务(输出) | 0.0006 | 后付费 | ||||
Doubao-lite-32k | 32K | 推理服务(输入) | 0.0003 | 后付费 | 50万tokens | |
推理服务(输出) | 0.0006 | 后付费 | ||||
Doubao-lite-128k | 128K | 推理服务(输入) | 0.0008 | 后付费 | 50万tokens | |
推理服务(输出) | 0.0010 | 后付费 | ||||
Doubao-pro-4k | 4K | 推理服务(输入) | 0.0008 | 后付费 | 50万tokens | |
推理服务(输出) | 0.0020 | 后付费 | ||||
Doubao-pro-32k | 32K | 推理服务(输入) | 0.0008 | 后付费 | 50万tokens | |
推理服务(输出) | 0.0020 | 后付费 | ||||
Doubao-pro-128k | 128K | 推理服务(输入) | 0.0050 | 后付费 | 50万tokens | |
推理服务(输出) | 0.0090 | 后付费 | ||||
Doubao-pro-256k | 256K | 推理服务(输入) | 0.0050 | 后付费 | 50万tokens | |
推理服务(输出) | 0.0090 | 后付费 | ||||
智谱AI | GLM3-130B | 8K | 推理服务 | 0.001 | 后付费 | 50万tokens |
GLM3-130B金融模型 | 8K | 推理服务 | 0.001 | 后付费 | 50万tokens | |
月之暗面 | Moonshot-v1-8K | 8K | 推理服务 | 0.012 | 后付费 | 50万tokens |
Moonshot-v1-32K | 32K | 推理服务 | 0.024 | 后付费 | 50万tokens | |
Moonshot-v1-128K | 128K | 推理服务 | 0.06 | 后付费 | 50万tokens | |
Meta | Llama3-8B(开源) | 8K | 推理服务 | 免费限量测试 | ||
Llama3-70B(开源) | 8K | 推理服务 | 免费限量测试 | |||
Mistral AI | Mistral-7B(开源) | 32K | 推理服务 | 免费限量测试 |
火山方舟于2024年9月对模型单元的产品形态进行了调整,新的模型单元为用户提供
独占的算力资源,更加独立可控
支持按月售卖和按小时售卖两种模式,两种模式可以叠加购买,方便用户依据自己的流量灵活采购。
说明
模型单元当前支持白名单内购买
原有模型单元依然可以续费或退费
模型单元适用场景为:
a. 适合生产级别业务,对算力资源确定性要求很高
b. Lora 精调后的模型在推理时获得更低延迟
c. 使用全量精调后的模型推理
模型单元预计可承载性能(Tokens Per Second,TPS)是按照输入:输出 = 10:1 的数据进行压测得到,实际用户的输入输出比例对性能的影响较大,建议您通过实际业务流量压测,准确判断需要的模型单元数量。注意:Lora精调后的模型推理性能相较平台预置模型的推理会有一定程度的降低
模型提供方 | 模型 | 计费项 | 预计可承载性能(TPS) | 定价(单位:元/个) | 计费方式 |
---|---|---|---|---|---|
字节跳动 | Doubao-lite-4k | 模型单元(按小时) | 3000 | 60 | 后付费 |
模型单元(包月) | 3000 | 28000 | 预付费 | ||
Doubao-lite-32k | 模型单元(按小时) | 3000 | 60 | 后付费 | |
模型单元(包月) | 3000 | 28000 | 预付费 | ||
Doubao-lite-128k | 模型单元(按小时) | 4500 | 240 | 后付费 | |
模型单元(包月) | 4500 | 112000 | 预付费 | ||
Doubao-pro-4k | 模型单元(按小时) | 3200 | 160 | 后付费 | |
模型单元(包月) | 3200 | 80000 | 预付费 | ||
Doubao-pro-32k | 模型单元(按小时) | 3200 | 160 | 后付费 | |
模型单元(包月) | 3200 | 80000 | 预付费 | ||
Doubao-pro-128k | 模型单元(按小时) | 3500 | 1200 | 后付费 | |
模型单元(包月) | 3500 | 550000 | 预付费 |
说明
Stable-Diffusion和Stable-Diffusion-XL模型卡片暂未完全公开,如需申请使用,请联系与您对接的火山引擎销售人员
模型提供方 | 模型 | 计费项 | 支持并发 | 定价 | 计费方式 |
---|---|---|---|---|---|
字节跳动 | 豆包-文生图模型-智能绘图 | 推理服务 | 详见控制台 | 0.2 元/次 | 后付费 (免费额度 200次) |
RunwayML | Stable-Diffusion-1.5 | 模型单元(包天) | 详见控制台 | 175 元/个 | 预付费 |
模型单元(包月) | 详见控制台 | 4200 元/个 | 预付费 | ||
Stability AI | Stable-Diffusion-XL | 模型单元(包天) | 详见控制台 | 175 元/个 | 预付费 |
模型单元(包月) | 详见控制台 | 4200 元/个 | 预付费 |
模型提供方 | 模型 | 服务类型 | 定价(单位:元/万字符) | 计费方式 | 免费额度 |
---|---|---|---|---|---|
字节跳动 | Doubao-语音合成 | 推理服务 | 5 | 后付费 | 5000 字符 |
Doubao-声音复刻 | 推理服务 | 8 | 后付费 | 5000 字符 |
模型提供方 | 模型 | 最长输入长度 | 服务类型 | 定价(单位:元/千tokens) | 计费方式 | 免费额度 |
---|---|---|---|---|---|---|
字节跳动 | Doubao-embedding | 4K | 推理服务(输入) | 0.0005 | 后付费 | 50万tokens |
Doubao-embedding-large | 4K | 推理服务(输入) | 0.0007 | 后付费 | 50万tokens |
按tokens使用量(训练文本*训练迭代次数)计费,训练完成后出账,按量后付费
模型提供方 | 模型 | 服务类型 | 定价(单位:元/千tokens) | 计费方式 |
---|---|---|---|---|
字节跳动 | Doubao-lite-4k | 模型精调(LoRA) | 0.03 | 后付费 |
Doubao-lite-32k | 模型精调(LoRA) | 0.03 | 后付费 | |
Doubao-lite-128k | 模型精调(LoRA) | 0.03 | 后付费 | |
Doubao-pro-4k | 模型精调(LoRA) | 0.05 | 后付费 | |
Doubao-pro-32k | 模型精调(LoRA) | 0.05 | 后付费 | |
Doubao-pro-128k | 模型精调(LoRA) | 0.05 | 后付费 |
当前对每个模型设置了RPM(Requests Per Minute,每分钟请求数)及TPM(Tokens Per Minute,每分钟tokens数量)的调用限制,每个账号(含主账号下的所有子账号,合并计算)的具体限制可在 开通管理 页中查看。
如需提升,可提交工单联系我们
每个账号会有最多可同时创建运行中的精调任务数的限制,具体限制请见控制台报错提示,若到达上限的,请耐心等待精调任务完成并释放额度后重试,或在 配额中心 中提交申请更多额度。
点击方舟平台右上角 费用 可查看账户总览和账单详情