| 商品服务 | 有效期 | 资源包规格 | 资源包价格(元) | 折算单价 |
|---|---|---|---|---|
| 豆包语音合成模型2.0 | 1年 | 10万字 | 28 | 2.8元/万字符 |
| 2000万字 | 5400 | 2.7元/万字符 | ||
| 20000万字 | 48000 | 2.4元/万字符 | ||
| 200000万字 | 420000 | 2.1元/万字符 | ||
| 豆包声音复刻模型2.0 | 1年 | 10万字 | 28 | 2.8元/万字符 |
| 2000万字 | 5400 | 2.7元/万字符 | ||
| 20000万字 | 48000 | 2.4元/万字符 | ||
| 200000万字 | 420000 | 2.1元/万字符 | ||
| 豆包流式语音识别模型2.0 | 1年 | 1000小时 | 900 | 0.9元/小时 |
| 10000小时 | 8800 | 0.88元/小时 | ||
| 100000小时 | 85000 | 0.85元/小时 | ||
| 300000小时 | 240000 | 0.8元/小时 | ||
| 豆包录音文件识别模型2.0 | 1年 | 1000小时 | 750 | 0.75元/小时 |
| 10000小时 | 7200 | 0.72元/小时 | ||
| 100000小时 | 70000 | 0.7元/小时 | ||
| 300000小时 | 200000 | 0.67元/小时 | ||
| 大模型语音合成 | 1年 | 10万字符 | 45 | 4.5元/万字符 |
| 200万字符 | 800 | 4元/万字符 | ||
| 2000万字符 | 7000 | 3.5元/万字符 | ||
| 20000万字符 | 60000 | 3元/万字符 | ||
| 100000万字符 | 200000 | 2元/万字符 | ||
| 300000万字符 | 480000 | 1.6元/万字符 | ||
| 大模型声音复刻 | 1年 | 10万字符 | 75 | 7.5元/万字符 |
| 200万字符 | 1400 | 7元/万字符 | ||
| 2000万字符 | 13000 | 6.5元/万字符 | ||
| 20000万字符 | 110000 | 5.5元/万字符 | ||
| 100000万字符 | 450000 | 4.5元/万字符 | ||
| 大模型流式语音识别 | 1年 | 1000小时 | 4000 | 4元/小时 |
| 10000小时 | 32000 | 3.2元/小时 | ||
| 100000小时 | 280000 | 2.8元/小时 | ||
| 300000小时 | 720000 | 2.4元/小时 | ||
| 大模型录音文件识别(标准版) | 1年 | 1000小时 | 2000 | 2元/小时 |
| 10000小时 | 18000 | 1.8元/小时 | ||
| 100000小时 | 140000 | 1.4元/小时 | ||
| 300000小时 | 360000 | 1.2元/小时 | ||
| 大模型录音文件识别(极速版) | 1年 | 1000小时 | 4300 | 4.3元/小时 |
| 10000小时 | 36000 | 3.6元/小时 | ||
| 100000小时 | 280000 | 2.8元/小时 | ||
| 300000小时 | 660000 | 2.2元/小时 | ||
| 大模型录音文件识别(闲时版) | 1年 | 10000小时 | 10000 | 1元/小时 |
| 100000小时 | 80000 | 0.8元/小时 | ||
| 300000小时 | 210000 | 0.7元/小时 | ||
| 1000000小时 | 500000 | 0.5元/小时 | ||
| 豆包同声传译大模型 | 1年 | 10亿token | 56000 | 56元/百万token |
| 50亿token | 240000 | 48元/百万token | ||
| 100亿token | 400000 | 40元/百万token | ||
| 豆包语音播客大模型 | 1年 | 10亿token | 70000 | 70元/百万token |
| 50亿token | 250000 | 50元/百万token | ||
| 100亿token | 400000 | 40元/百万token | ||
| 语音合成 | 1年 | 12500千次 | 50000 | 4元/千次 |
| 30000千次 | 90000 | 3元/千次 | ||
| 100000千次 | 200000 | 2元/千次 | ||
| 300000千次 | 500000 | 1.67元/千次 | ||
| 精品长文本语音合成 | 1年 | 100万字符 | 100 | 1元/万字符 |
| 2000万字符 | 1800 | 0.9元/万字符 | ||
| 5000万字符 | 3500 | 0.7元/万字符 | ||
| 10000万字符 | 5000 | 0.5元/万字符 | ||
| 精品长文本语音合成(情感版) | 1年 | 100万字符 | 200 | 2元/万字符 |
| 2000万字符 | 3600 | 1.8元/万字符 | ||
| 5000万字符 | 7000 | 1.4元/万字符 | ||
| 10000万字符 | 10000 | 1元/万字符 | ||
| 录音文件识别(标准版) | 1年 | 500小时 | 850 | 1.7元/小时 |
| 1000小时 | 1300 | 1.3元/小时 | ||
| 10000小时 | 10000 | 1元/小时 | ||
| 50000小时 | 40000 | 0.8元/小时 | ||
| 100000小时 | 65000 | 0.65元/小时 | ||
| 300000小时 | 120000 | 0.4元/小时 | ||
| 录音文件识别(极速版) | 1年 | 500小时 | 1150 | 2.3元/小时 |
| 1000小时 | 1800 | 1.8元/小时 | ||
| 10000小时 | 14000 | 1.4元/小时 | ||
| 50000小时 | 55000 | 1.1元/小时 | ||
| 100000小时 | 95000 | 0.95元/小时 | ||
| 流式语音识别 | 1年 | 500小时 | 1500 | 3元/小时 |
| 1000小时 | 1800 | 1.8元/小时 | ||
| 10000小时 | 15000 | 1.5元/小时 | ||
| 100000小时 | 120000 | 1.2元/小时 | ||
| 300000小时 | 300000 | 1元/小时 | ||
| 500000小时 | 500000 | 1元/小时 | ||
| 一句话识别 | 1年 | 500千次 | 1500 | 3元/千次 |
| 1000千次 | 2200 | 2.2元/千次 | ||
| 10000千次 | 16000 | 1.6元/千次 | ||
| 100000千次 | 130000 | 1.3元/千次 | ||
| 500000千次 | 500000 | 1元/千次 | ||
| 音视频字幕生成 | 1年 | 500小时 | 2500 | 5元/小时 |
| 1000小时 | 4500 | 4.5元/小时 | ||
| 5000小时 | 20000 | 4元/小时 | ||
| 10000小时 | 35000 | 3.5元/小时 | ||
| 50000小时 | 160000 | 3.2元/小时 | ||
| 自动字幕打轴 | 1年 | 1000小时 | 4000 | 4元/小时 |
| 5000小时 | 18000 | 3.6元/小时 | ||
| 10000小时 | 30000 | 3元/小时 | ||
| 50000小时 | 130000 | 2.6元/小时 |
| 商品服务 | 后付费阶梯 | 单价 |
|---|---|---|
| 豆包语音合成模型2.0 | 不限 | 3元/万字符 |
| 豆包声音复刻模型2.0 | 不限 | 3元/万字符 |
| 豆包流式语音识别模型2.0 | 不限 | 1元/小时 |
| 豆包录音文件识别模型2.0 | 不限 | 0.8元/小时 |
| 大模型语音合成 | 不限 | 5元/万字符 |
| 大模型声音复刻 | 不限 | 8元/万字符 |
| 大模型流式语音识别 | 不限 | 4.5元/小时 |
| 大模型录音文件识别(标准版) | 不限 | 2.3元/小时 |
| 大模型录音文件识别(极速版) | 不限 | 4.5元/小时 |
| 大模型录音文件识别(闲时版) | 不限 | 1.2元/小时 |
| 商品服务 | 后付费计费项 | 单价 |
| 豆包端到端实时语音大模型 | 推理服务-输入-文本 | 10元/百万token |
| 推理服务-输入-音频 | 80元/百万token | |
| 推理服务-输入-文本cached | 5元/百万token | |
| 推理服务-输入-音频cached | 5元/百万token | |
| 推理服务-输出-文本 | 80元/百万token | |
| 推理服务-输出-音频 | 300元/百万token | |
| 豆包同声传译大模型 | 推理服务-输入 | 80元/百万token |
| 推理服务-输出-文本 | 80元/百万token | |
| 推理服务-输出-音频 | 300元/百万token | |
| 豆包语音播客大模型 | API调用token-输入-文本 | 120元/百万token |
| API调用token-输出-音频 | 100元/百万token | |
| 豆包语音妙记模型 | 音频文件转写 | 1.8元/小时 |
| 音频结构-单功能 | 0.11元/小时 | |
| 音频结构-集合 | 0.5元/小时 | |
| 商品服务 | 后付费阶梯 | 单价 |
| 语音合成 | 0~1000千次 | 5.5元/千次 |
| 1001~5000千次 | 5元/千次 | |
| 5001~10000千次 | 4.5元/千次 | |
| 10001~千次 | 4元/千次 | |
| 精品长文本语音合成 | 不限 | 1元/万字符 |
| 精品长文本语音合成(情感版) | 不限 | 2元/万字符 |
| 录音文件识别(标准版) | 0~300小时 | 1.8元/小时 |
| 301~1000小时 | 1.5元/小时 | |
| 1001~3000小时 | 1.2元/小时 | |
| 3001~5000小时 | 1元/小时 | |
| 5001~小时 | 0.9元/小时 | |
| 录音文件识别(极速版) | 0~300小时 | 3元/小时 |
| 301~1000小时 | 2.6元/小时 | |
| 1001~3000小时 | 2.1元/小时 | |
| 3001~5000小时 | 1.8元/小时 | |
| 5001~小时 | 1.2元/小时 | |
| 流式语音识别 | 0~300小时 | 3.5元/小时 |
| 301~1000小时 | 3元/小时 | |
| 1001~3000小时 | 2.4元/小时 | |
| 3001~5000小时 | 1.8元/小时 | |
| 5001~小时 | 1.2元/小时 | |
| 一句话识别 | 0~300千次 | 3.5元/千次 |
| 301~1000千次 | 3元/千次 | |
| 1001~3000千次 | 2.4元/千次 | |
| 3001~5000千次 | 1.6元/千次 | |
| 5001~千次 | 1.2元/千次 | |
| 音视频字幕生成 | 0~300小时 | 6.5元/小时 |
| 301~1000小时 | 6元/小时 | |
| 1001~3000小时 | 5.6元/小时 | |
| 3001~5000小时 | 5元/小时 | |
| 5001~小时 | 4元/小时 | |
| 自动字幕打轴 | 0~1000小时 | 5元/小时 |
| 1001~3000小时 | 4元/小时 | |
| 3001~5000小时 | 3.2元/小时 | |
| 5001~小时 | 2.8元/小时 |
说明
文档中“字”都是指字符,字符是指计算机中使用的文字和符号,1个汉字算1个字符,英文字母、希腊字母、标点符号、特殊符号、空格、回车等算1个字符;
调用字符需要使用UTF-8编码,该编码每个汉字通常占三个字节,计费使用字符数,与字节数无关;
语音合成标记语言(SSML:Speech Synthesis Markup Language)中的标签按照正常字符进行计费;
按时长计费的,累加每次调用的语音时长,精确至毫秒,最终折算为小时计费。
按次数计费的,返回失败的调用不计入次数。
语音合成实际计费时按次计费,一次送入文本不超过1024字节,对应UTF8约300个汉字;
一句话识别实际计费时按次计费,单次送入音频时长不超过60秒。
语音识别相关能力,双声道计费模式,按单声道计费,即音频时长进行计费。
豆包端到端实时语音大模型模型按服务用量token计费,该模型token的概念:
在调用模型推理服务时,会将输入内容转化为模型可以理解的 token ,经过模型处理后,同样输出 token,并转化为您需要的文本或者音频等内容载体。而模型处理(包括输入、输出)的 token 数量会被作为模型推理服务用量的一个重要计量单位;
输入token:包含本轮对话的输入音频、语音合成文本,以及上下文、system prompt、克隆音频等中的音频和文本token;
输出token:包含本轮对话的模型合成的播报音频,音频对应的文本内容,以及语音识别后返回的文本token;
音频和 token 数折算逻辑:输入每1秒的音频大致对应6.25个Token,输出音频每1秒大致对应25个token;
文本token折算类似文本大模型token概念,由于不同模型采用的分词策略不同,同一段文本可能会被转化为不同数量的 token;
文本/音频cached:对于交互中输入的上下文的内容、system prompt等(包含文本及音频内容),如命中了前轮重复输入的部分,则会按照cahed方式计费,计费费率会低于输入,使多轮对话更具成本效益;
由于模型会有动态更新,token折算比例会有变动,实际每轮对话中不同类别准确的 token 用量,以账单计量的token数量为准;
免费额度可以抵扣使用上下文缓存命中缓存的token、未命中缓存的token、输出产生的token;
QPM/TPM限制:当前对模型设置了 QPM(Queries Per Minute,每分钟请求数)及 TPM(Tokens Per Minute,每分钟 token 数量)的调用限制,QPM限制为60,TPM限制为100000,后续会根据市场需求情况上线TPM付费保障包。
豆包语音播客大模型按服务用量token计费,该模型token的概念:
输入-文本token:输入文本字符数对应token数量,文本token折算类似文本大模型token概念,由于不同模型采用的分词策略不同,同一段文本可能会被转化为不同数量的 token;
输出-音频token:输出音频折算token,1秒大致对应25个token;
每轮对话中不同类别准确的 token 用量,以账单计量的token数量为准;
资源包抵扣:音频token按照1:1比例抵扣,文本token按照1.2:1比例抵扣;
QPM/TPM限制:当前对模型设置了 QPM(Queries Per Minute,每分钟请求数)及 TPM(Tokens Per Minute,每分钟 token 数量)的调用限制,QPM限制为60,TPM限制为100000。
豆包同声传译大模型按服务用量token计费,该模型token的概念:
音频和 token 数折算逻辑:输入每1秒的音频大致对应6.25个Token,输出音频每1秒大致对应25个token;
输出-文本token:输入文本字符数对应token数量,文本token折算类似文本大模型token概念,由于不同模型采用的分词策略不同,同一段文本可能会被转化为不同数量的 token;
每次请求不同类别准确的 token 用量,以账单计量的token数量为准;
资源包抵扣:输入token&输出-文本token按照1:1比例抵扣,输出-音频token按照3.75:1比例抵扣;
QPM/TPM限制:当前对模型设置了 QPM(Queries Per Minute,每分钟请求数)及 TPM(Tokens Per Minute,每分钟 token 数量)的调用限制,QPM限制为60,TPM限制为100000。
豆包语音妙记模型计费说明:
妙记-音频文件识别是必选功能,不支持单独售卖,必须选择音频结构中的至少一项能力,计费项可以选择音频结构-单功能,或者音频结构-集合;
音频结构-单功能和者音频结构-集合二选一:
如果选择音频结构-单功能,可按照需要的功能数量灵活选择,按照选择的能力进行叠加计费,比如选择了全文总结+章节总结,则10小时音频的费用=10小时*1.8元+0.11元*2*10小时=20.2元;
如果选择音频结构-集合,则全部的音频结构能力都可以使用,10小时音频的费用=10小时*1.8元+0.5元*10小时=23元;
| 商品服务 | 计费项 | 数量阶梯 | 单价 |
|---|---|---|---|
豆包声音复刻模型2.0 | 音色 | 0~50 | 138元/音色 |
| 51~100 | 88元/音色 | ||
| 101~200 | 58元/音色 | ||
| 201~2000 | 38元/音色 | ||
| 模型存储费 | 不限 | 1元/音色/月 | |
| 语音合成 | 付费精品音库 | 不限 | 1000元/音色/月 |
说明
大模型声音复刻/豆包端到端实时语音大模型:
音色:按单次下单数量全额累进单价,不累计过往下单数量,如:需复刻80个音色,则音色费用为80*88=7040元;
音色:单次下单最多支持2000个,超出2000个建议分批下单,如果更大批量的下单需求,可以可以立即咨询我们;
音色:每个音色id可支持10次音频上传训练,最新训练效果会覆盖上次训练效果,您可以按需重新训练进行效果调优;
模型存储费用:首次下单需购买12个月,如:需调用复刻的80个音色1年,则需额外支付80*12=960元。
语音合成:赠送多款火山引擎语音合成精品音色,实际赠送音色以语音合成控制台为准;
大模型语音合成:火山引擎大模型语音合成超自然音色可免费接入,实际赠送音色以大模型语音合成控制台为准。
如需在免费额度之外进一步提升服务的并发或 QPS,可选择购买语音识别产品 QPS 或并发叠加包,计费标准如下:
| 商品服务 | 计费项 | 单价(元/并发或QPS/月) | 说明(默认并发/QPS数量以控制台为准) |
|---|---|---|---|
| 豆包语音合成模型2.0 | 并发 | 100 | 正式版默认支持10并发,超出部分按需增购 |
| 豆包声音复刻模型2.0 | 并发 | 100 | 正式版默认支持10并发,超出部分按需增购 |
| 豆包流式语音识别模型2.0 | 并发 | 100 | 正式版默认支持50并发,超出部分按需增购 |
| 大模型语音合成 | 并发 | 100 | 正式版默认支持10并发,超出部分按需增购 |
| 大模型声音复刻 | 并发 | 100 | 正式版默认支持10并发,超出部分按需增购 |
| 大模型流式语音识别 | 并发 | 100 | 正式版默认支持10并发,超出部分按需增购 |
| 大模型录音文件识别(极速版) | 并发 | 400 | 正式版默认支持5并发,超出部分按需增购 |
| 语音合成 | 并发 | 100 | 正式版默认支持100并发,超出部分按需增购 |
| 流式语音识别 | 并发 | 100 | 正式版默认支持10并发,超出部分按需增购 |
| 一句话识别 | 并发 | 100 | 正式版默认支持10并发,超出部分按需增购 |
| 音视频字幕生成 | QPS | 2000 | 正式版默认支持5QPS,超出部分按需增购 |
| 自动字幕打轴 | QPS | 2000 | 正式版默认支持5QPS,超出部分按需增购 |
特殊商务模式:
大模型语音合成-并发版: 支持按照纯并发计费模式,该模式只需购买并发,不再收取字符调用费用。无默认支持并发,购买并发单价2000元/并发/月;
大模型声音复刻-并发版: 支持按照纯并发计费模式,该模式只需购买并发,不再收取字符调用费用,音色和模型存储费正常计费。无默认支持并发,购买并发单价2000元/并发/月;
大模型流式语音识别-并发版: 按照纯并发计费模式,该模式只需购买并发,不再收取按小时调用费用。无默认支持并发,购买并发单价1500元/并发/月。
豆包流式语音识别模型2.0-并发版: 按照纯并发计费模式,该模式只需购买并发,不再收取按小时调用费用。无默认支持并发,购买并发单价500元/并发/月。
说明
豆包录音文件识别模型2.0、大模型录音文件识别(含闲时版)、录音文件识别默认最大支持20QPS,半小时内提交的音频时长不超过500小时,豆包语音妙记模型默认最大支持3QPS,精品长文本语音合成默认最大支持10QPS,默认容量一般无需扩容,如需扩容可以立即咨询我们;
并发定义:同一时刻请求服务的数量,是某一个时刻后端服务同时处理的请求数,计数周期为点。举例,您新建一个语音合成请求,服务端在持续进行合成处理或音频流返回,此时并发是1;在该请求处理的同时,又新建了一个请求发送文本数据,这时服务端同时处理该应用的2个请求,并发数就变为2;
QPS定义:QPS (query per second) 是一秒内查询服务接口的次数。
示例一:后付费超额累进
用户一天内调用一句话识别1200千次,未购买资源包,默认后付费模式,费用按照后付费梯度计算:300*3.5+(1000-300)*3+(1200-1000)*2.4=3630元
示例二:资源包+后付费+增购并发 用户一年内调用流式识别1300小时,并发25路(默认并发10路),超出的15路并发购买12个月,购买1000小时资源包,超出资源包部分转入后付费模式,计量阶梯落在0-300小时档位,费用: 1800+(1300-1000)*3.5+(25-10)*100*12=20850元
示例三:大模型声音复刻/豆包端到端实时语音大模型音色
用户一次性购买1000个音色,对应201~2000阶梯,单价为38元,此外每音色首年有1*12元的模型存储费,则费用:
1000*38+1000*1*12=50000元
示例四: 豆包端到端实时语音大模型模
某次请求输入了250 Token 的音频,输入内容中(包括上下文、system prompt等)还包含50文本token+400文本cached token +2500音频cached token,输出了200音频token+80文本token。则费用:
250*80/1000000(输入-音频)+ 50*10/1000000(输入-文本) + 400*5/1000000(输入-文本cached) + 2500*5/1000000(输入-音频cached)+ 200*300/1000000(输出-音频) + 80*30/1000000(输出-文本)=0.0974元