AI数据湖服务支持在计算环节调用模型服务,目前支持以下模型:
推理类型 | 模型名称 |
---|---|
在线推理 | doubao-1.5-pro-32k |
doubao-1.5-pro-256k | |
doubao-1.5-lite-32k | |
doubao-1.5-vision-pro-32k | |
doubao-embedding | |
doubao-embedding-large | |
doubao-embedding-vision | |
deepseek-r1 | |
deepseek-r1-distill-qwen-32b | |
deepseek-r1-distill-qwen-7b | |
deepseek-v3 | |
离线推理 | doubao-1.5-pro-32k |
doubao-1.5-lite-32k |
大模型在处理数据时,以 Token 作为基本单位。Token 是模型推理过程中文本的最小意义单元,它可以是一个单词、汉语里的词语 / 短句、标点符号或数字等。一般来说,一段常规的中文文本中,1 个 Token 大约对应 1.5-2 个汉字。这种划分方式让模型能够高效地理解和处理语言结构,无论是短句还是复杂文本,都能通过 Token 的组合来解析语义。
如语言大模型推理服务费用的一种较为常见的计算方式如下:
费用 = token 使用数量 * token 单价
按 token 使用量付费(后付费)
content
字段)以及深度思考模型的思维链(reasoning_content
字段)内容。模型名称 | 服务类型 | 定价 | 计费方式 |
---|---|---|---|
deepseek-r1 | 推理服务(输入) | 4 元 / 百万 Tokens | 后付费 |
推理服务(输出) | 16 元 / 百万 Tokens | 后付费 | |
deepseek-r1-distill-qwen-32b | 推理服务(输入) | 1.5 元 / 百万 Tokens | 后付费 |
推理服务(输出) | 6 元 / 百万 Tokens | 后付费 | |
deepseek-r1-distill-qwen-7b | 推理服务(输入) | 0.6 元 / 百万 Tokens | 后付费 |
推理服务(输出) | 2.4 元 / 百万 Tokens | 后付费 |
按 token 使用量付费(后付费)
模型名称 | 服务类型 | 定价 | 计费方式 |
---|---|---|---|
doubao-1.5-pro-32k | 推理服务(输入) | 0.8 元 / 百万 Tokens | 后付费 |
推理服务(输出) | 2 元 / 百万 Tokens | 后付费 | |
精调模型推理服务(输入) | 2 元 / 百万 Tokens | 后付费 | |
精调模型推理服务(输出) | 5 元 / 百万 Tokens | 后付费 | |
doubao-1.5-pro-256k | 推理服务(输入) | 5 元 / 百万 Tokens | 后付费 |
推理服务(输出) | 9 元 / 百万 Tokens | 后付费 | |
doubao-1.5-lite-32k | 推理服务(输入) | 0.3 元 / 百万 Tokens | 后付费 |
推理服务(输出) | 0.6 元 / 百万 Tokens | 后付费 | |
精调模型推理服务(输入) | 0.75 元 / 百万 Tokens | 后付费 | |
精调模型推理服务(输出) | 1.5 元 / 百万 Tokens | 后付费 | |
deepseek-v3 | 推理服务(输入) | 2 元 / 百万 Tokens | 后付费 |
推理服务(输出) | 8 元 / 百万 Tokens | 后付费 |
与普通的在线推理有所不同,使用了Session 缓存后,计费项会变更为下面几个计费项:
说明
LAS 不支持使用免费额度抵扣使用上下文缓存命中缓存的token、未命中缓存的token、输出产生的token 以及上下文产生的存储费用。
模型名称 | 输入价格 | 缓存存储 | 缓存命中 | 输出价格 |
---|---|---|---|---|
doubao-1.5-pro-32k | 0.8 | 0.017 | 0.16 | 2 |
doubao-1.5-lite-32k | 0.3 | 0.017 | 0.06 | 0.6 |
deepseek-r1-distill-qwen-32b | 1.5 | 0.017 | 0.3 | 6 |
deepseek-r1 | 4 | 0.017 | 0.8 | 16 |
deepseek-v3 | 2 | 0.017 | 0.4 | 8 |
批量推理计费单价与在线推理后付费价格一致,您仅需为已处理的请求消耗的 token 量付费。
当您的任务计算量大,但又无需即时返回结果,如分析当日汇总新闻信息、翻译长文本、用户反馈分析等大规模数据处理任务,您可使用批量推理发送异步请求,来获得更高的配额(至少10B token/天)及更低的单价(5折甚至更低)。同时,依赖批量推理更灵活的任务调度,即使高峰期,您仍有机会享受可观的任务处理速率。
说明
批量推理将在 2025 年 4 月 14 日 21:00 开始支持透明前缀缓存能力,您无需任何配置,即可在批量推理服务上享受前缀缓存技术应用带来的至多40%的费用降低(输入的 token 会命中缓存,命中缓存的 token 费用会是未命中缓存 token 费用的 4 折,详细计费说明见下文)。
应用透明前缀缓存的批量推理的 40% 费用降低,在方舟的 beachmark 上运行得出。实际降本效果会因为用户任务 token 的缓存命中率不同,有所变动。
注意
模型名称 | 免费额度抵扣 | 输入 | 输出 | 缓存命中 | 每天 Token 处理数 | 单任务最大超时时间 |
---|---|---|---|---|---|---|
doubao-1.5-pro-32k | 不支持 | 0.4 元 / 百万 Token | 1 元 / 百万 Token | 0.16 元 / 百万 Token | 10B Tokens / 天 | <28天 |
doubao-1.5-lite-32k | 不支持 | 0.15 元 / 百万 Token | 0.3 元 / 百万 Token | 0.06 元 / 百万 Token | 10B Tokens / 天 | <28天 |
doubao-pro-32k-***
所有版本)汇总计算。
- 举例说明:您主账号下,doubao-pro-32k 模型,a、b、c 3个的批量推理任务,d、e 2个在线推理任务。则您每天a、b、c 批量推理共用 10 B token 配额,d 、e 共用在线推理任务 TPM、RPM 限流额度。