You need to enable JavaScript to run this app.
扣子

扣子

复制全文
计费项
音视频费用
复制全文
音视频费用

在使用扣子编程智能音视频相关的服务(音色复刻、语音输入、朗读、音视频通话等)时,会产生相应的语音费用,包括声音复刻、语音合成、语音识别、音频通话、视频通话费用。

计费项

计费项概览

计费项单价与免费额度

在扣子中,所有按量付费的扣子资源的消耗默认通过资源点进行抵扣。当账户或资源包内的资源点余额不足时,系统将自动从你的现金账户中扣除对应的金额。采用预付费方式的计费项(例如增购声音复刻-音色数量)不支持资源点抵扣。

说明

  • 扣子为每个扣子账号提供总价值约 300 元的免费额度,用于音视频功能试用。各计费项的具体免费额度如下表所示。
  • 声音复刻的免费额度仅限团队版、企业版用户专享,不包含在 300 元通用免费额度内。
  • 仅个人进阶版、团队版和企业版套餐提供免费额度,免费版套餐不提供免费额度。

分类

计费项

免费额度

单价

资源点结算

现金结算

智能设备语音通话

增购AI智能通话许可(复刻音色)

不支持

7.5 元/小时*台

增购AI智能通话许可(系统音色)

不支持

5 元/小时*台

声音复刻

增购声音复刻-音色数量

1 个

不支持

138 元/个

音色模型存储数

1 个

1000 资源点/个/月

1 元/个/月

声纹识别

声纹识别

600 次

5 资源点/次

0.005 元/次

语音合成

复刻音色文字转语音字数

50,000 字符

0.8 资源点/字符

0.0008 元/字符

系统音色文字转语音字数

50,000 字符

0.5 资源点/字符

0.0005 元/字符

豆包语音合成2.0-系统音色文字转语音字数

0.3 资源点/字符

0.0003 元/字符

小模型合成次数

1500 次

5.5 资源点/次

语音合成阶梯价

语音识别

小模型流式语音识别时长

180 分钟

58.4 资源点/分钟

语音识别阶梯价

大模型流式语音识别时长

180 分钟

75 资源点/分钟

0.075 元/分钟

大模型录音文件识别时长

180 分钟

39 资源点/分钟

0.039 元/分钟

录音文件识别(极速版)

180 分钟

50 资源点/分钟

录音文件识别(极速版)阶梯价

音频通话

对话式AI-音频时长

180 分钟

9 资源点/分钟

0.009 元/分钟

语音通话时长

180 分钟

7 资源点/分钟

0.007 元/分钟

小程序语音通话

180 分钟

9 资源点/分钟

0.0090 元/分钟

视频通话

视频通话时长-4K

180 分钟

252 资源点/分钟

0.252 元/分钟

视频通话时长-2K

180 分钟

112 资源点/分钟

0.112 元/分钟

视频通话时长-1080P

180 分钟

63 资源点/分钟

0.063 元/分钟

视频通话时长-720P

180 分钟

28 资源点/分钟

0.028 元/分钟

视频通话时长-360P

180 分钟

14 资源点/分钟

0.014 元/分钟

语音合成阶梯价

小模型合成次数为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

小模型合成次数档位

单价

费用计算公式
(Y 为每月的小模型合成总次数)

0~1000,000 次

0.0055 元/次

Y ✖️ 0.0055 元

1000,001~5000,000 次

0.0050 元/次

1000,000 ✖️ 0.0055
➕ (Y ➖ 1000,000) ✖️ 0.0050 元

5000,001~10,000,000 次

0.0045 元/次

1000,000 ✖️ 0.0055
➕ (5000,000 ➖ 1000,000) ✖️ 0.0050
➕ (Y ➖ 5000,000) ✖️ 0.0045 元

10,000,001 次及以上

0.0040 元/次

1000,000 ✖️ 0.0055
➕ (5000,000 ➖ 1000,000) ✖️ 0.0050
➕ (10,000,000 ➖ 5000,000) ✖️ 0.0045
➕ (Y ➖ 10,000,000) ✖️ 0.0040 元

语音识别阶梯价

小模型流式语音识别时长为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

小模型流式语音识别时长档位

单价

费用计算公式
(Y 为每月小模型流式语音识别总时长)

0~18,000 分钟

0.0584 元/分钟

Y ✖️ 0.0584 元

18,001~60,000 分钟

0.0500 元/分钟

18,000 ✖️ 0.0584
➕ (Y ➖ 18,000) ✖️ 0.0500 元

60,001~180,000 分钟

0.0400 元/分钟

18,000 ✖️ 0.0584
(60,000 18,000) ✖️ 0.0500
➕ (Y ➖ 60,000) ✖️ 0.0400 元

180,001~300,000 分钟

0.0300 元/分钟

18,000 ✖️ 0.0584
(60,000 18,000) ✖️ 0.0500
(180,000 60,000) ✖️ 0.0400
➕ (Y ➖ 180,000) × 0.0300 元

300,001 分钟及以上

0.0200 元/分钟

18,000 ✖️ 0.0584
(60,000 18,000) ✖️ 0.0500
(180,000 60,000) ✖️ 0.0400
(300,000 180,000) ✖️ 0.0300
➕ (Y ➖ 300,000) ✖️ 0.0200 元

录音文件识别(极速版)阶梯价

录音文件识别(极速版)为超额累进模式的阶梯计费,按日统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

录音文件识别(极速版)时长档位

单价

费用计算公式
(Y 为每日录音文件识别(极速版)总时长)

0~300 分钟

0.05 元/分钟

Y ✖️ 0.05 元

301~1,000 分钟

0.043 元/分钟

300 ✖️ 0.05
➕ (Y ➖ 300) ✖️ 0.043 元

1,001~3,000 分钟

0.035 元/分钟

300 ✖️ 0.05
➕ (1,000 ➖ 300) ✖️ 0.043
➕ (Y ➖ 1,000) ✖️ 0.035 元

3,001~5,000 分钟

0.03 元/分钟

300 ✖️ 0.05
➕ (1,000 ➖ 300) ✖️ 0.043
➕ (3,000 ➖ 1,000) ✖️ 0.035
➕ (Y ➖ 3,000) ✖️ 0.03 元

5,001 分钟及以上

0.02 元/分钟

300 ✖️ 0.05
➕ (1,000 ➖ 300) ✖️ 0.043
➕ (3,000 ➖ 1,000) ✖️ 0.035
➕ (5,000 ➖ 3,000) ✖️ 0.03
➕ (Y ➖ 5,000) ✖️ 0.02 元

智能设备语音通话

扣子支持将智能体集成到智能设备上,当用户在与智能设备进行语音通话时,会产生语音识别、语音合成、模型 token、语音通话等费用。 上报设备的操作,请参考上报设备信息
默认情况下,与智能设备进行语音通话时产生的费用采用按量付费(先用后付)方式。企业版套餐支持购买增购 AI 智能通话许可(复刻音色)和增购 AI 智能通话许可(系统音色)服务,抵扣相应费用。

计费项

计费项

说明

时长计算规则

示例

增购AI智能通话许可(复刻音色)

用于抵扣企业内所有上报设备的语音识别、语音合成(复刻音色)和文本模型费用。文本模型费用是指使用大模型文本模态所产生的费用,图像等其他模态所产生的费用不支持抵扣。
增购AI智能通话许可(复刻音色)​服务按照通话时长计费。

在与设备通话过程中,语音识别、语音合成(复刻音色)和文本模型处理的总时长为整个通话时长,单位为小时,精确到小数点后三位。

例如,企业购买 10,000 小时的增购 AI 智能通话许可(复刻音色)服务后,在服务有效期内,企业所有上报设备的累计通话时长中,10000 小时内产生的语音识别、语音合成(复刻音色)和文本模型费用均可通过该服务抵扣。

增购AI智能通话许可(系统音色)

用于抵扣企业内所有上报设备的语音识别、语音合成(系统音色)和文本模型费用。 文本模型费用是指使用大模型文本模态所产生的费用,图像等其他模态所产生的费用不支持抵扣。
增购AI智能通话许可(系统音色)​服务按照通话时长计费。

在与设备通话过程中,语音识别、语音合成(复刻音色)和文本模型处理的总时长为整个通话时长,单位为小时,精确到小数点后三位。

例如,企业购买了 10,000 小时的增购 AI 智能通话许可(系统音色)服务后,在服务有效期内,企业所有上报设备的累计通话时长中,10000 小时产生内的语音识别、语音合成(系统音色)和文本模型费用均可通过该服务抵扣。

注意事项

在特殊场景下,增购 AI 智能通话许可(复刻音色)服务也支持抵扣设备语音通话中的语音合成(系统音色)费用。

  • 如果购买了增购 AI 智能通话许可(复刻音色)服务,但未购买增购AI智能通话许可(系统音色)服务或实际使用时长超过系统音色购买时长了,此时将通过增购 AI 智能通话许可(复刻音色) 服务抵扣语音合成(系统音色)费用。
  • 如果在通话过程中,用户先使用了复刻音色,又切换到系统音色,两种音色使用时长统一通过增购 AI 智能通话许可(复刻音色)服务进行时长抵扣。

购买规则

规则

说明

付费方式

购买时需一次性支付相应的费用。

订阅套餐限制

仅企业版套餐支持购买。

账号权限

主账号或具备火山引擎扣子服务购买权限(如 CozeFullAccess 权限)的 IAM 用户,均可购买 AI 智能通话许可(复刻音色)、 AI 智能通话许可(系统音色)。

购买时长

购买时长为当前企业内所有上报设备共用额度,不是指每台设备的时长额度。

降配、到期影响

  • 企业版套餐降配或到期后,增购AI智能通话许可(系统音色)服务、增购AI智能通话许可(复刻音色)服务将不可用,后续与智能设备进行语音通话将采用按量付费方式计费。
  • 增购AI智能通话许可(系统音色)服务、增购AI智能通话许可(复刻音色)服务到期后,后续与智能设备进行语音通话将采用按量付费方式计费。

退订、续费、更配限制

不支持退订、续费、更配。

超额处理

当实际的设备通话时长超过购买的增购AI智能通话许可(系统音色)、增购AI智能通话许可(复刻音色)时,超出部分将采用按量付费方式计费。

购买操作

扣子编程团队与企业管理 > 设备管理用量明细及管控页签下,单击购买语音通话时长

  • 语音通话时长-系统音色:当你在通话过程中,需要使用系统音色进行语音合成时,请选择语音通话时长-系统音色。
  • 语音通话时长-复刻音色:当你在通话过程中,需要使用复刻音色进行语音合成时,请选择语音通话时长-复刻音色。

Image

Image

查看购买记录

购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)​服务后,你可以在扣子编程团队与企业管理 > 设备管理用量明细及管控页签下,单击购买明细,查看购买记录,包括已购买的通话时长、已使用的通话时长、购买时间、有效期等信息。
Image

查看余量

购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)​服务后,你可以在当前计划页面查看对应的时长余量。
扣子编程的左下角,单击扣子资源点,然后在当前计划页面的语音通话时长-系统音色语音通话时长-复刻音色区域,查看未使用的通话时长(①)、已购买的通话时长(②)。例如 9999 表示未使用的时长,10000 表示已购买的时长。
Image

声音复刻

扣子为企业版和团队版提供了音色复刻功能,支持用户上传音频文件或直接录制声音,以复刻特定的音色。更多信息,请参考音色
使用声音复刻功能时,将基于增购声音复刻-音色数量音色模型存储数这两个计费项计算费用。

计费项

计费项

说明

增购声音复刻-音色数量

用于增加可创建的自定义复刻音色数量,企业或团队可创建的音色总数,由购买的音色数量决定。
需先购买增购声音复刻-音色数量,才能创建音色。

音色模型存储数

根据复刻音色的实际个数收取对应的音色模型存储费。
音色模型存储数按小时统计用量,按月扣费,根据当月的最大值在自然月月底结算出账。

购买规则

规则

说明

付费方式

购买时需一次性支付相应的费用。

订阅套餐限制

仅团队版或企业版套餐支持购买。
购买后,团队或企业所有成员均可以创建并使用音色。

账号权限

主账号或具备火山引擎扣子服务购买权限(如 CozeFullAccess 权限)的 IAM 用户,均可增购声音复刻-音色数量 。

有效期

购买音色后,有效期为 99 年。

降配、到期影响

团队版或企业版套餐降配到个人版或到期后,购买的音色将不可用,即不再支持团队或企业新建音色。

退订、续费、更配限制

购买的音色不支持退订、续费、更配。

购买操作

火山扣子控制台概览页面的声音复刻-音色数量区域,单击增购,然后选择音色数量,根据页面提示,完成购买。
Image

查看音色数量

火山扣子控制台概览页面的声音复刻-音色数量区域,查看未使用的声音复刻-音色数量(①)、已购买的声音复刻-音色数和声音复刻-音色免费额度总和(②)。例如 11 表示音色免费额度 1 个以及购买的音色 10 个。
Image

声纹识别

启用声纹识别功能后,用户在进行音视频通话时,扣子能够自动识别说话人身份,并会产生声纹识别费用。如何使用声纹识别,请参考声纹识别

计费项

说明

声纹识别

开启声纹识别功能后,用户与智能体进行音视频通话时,每输入一次语音对话,系统将识别一次声纹,并计算一次声纹识别费用。

语音合成

使用语音合成功能将文本内容转为语音片段时,扣子将根据音色类型(复刻音色/系统音色)及对应规则收取语音合成费用。

  • 复刻音色:​复刻音色均由大模型生成。
  • 系统音色:分为大模型 1.0 系统音色、大模型 2.0 系统音色和小模型系统音色。系统音色列表详情,请参考系统音色列表

说明

  • 字符是指计算机中使用的文字和符号等,1 个汉字、英文字母、希腊字母、标点符号、特殊符号、空格、回车等都算 1 个字符。
  • 在企业版套餐中使用语音合成功能时,支持扩容并发数。详情请参考资源扩容费用

计费项

说明

复刻音色文字转语音字数

使用复刻音色将文字内容转换为语音输出时,根据文字内容的字符数收费。

系统音色文字转语音字数

使用系统预设的大模型 1.0 音色将文字内容转换为语音输出时,根据文字内容的字符数收费。

豆包语音合成2.0-系统音色文字转语音字数

使用系统预设的大模型 2.0 音色将文字内容转换为语音输出时,根据文字内容的字符数收费。

小模型合成次数

使用系统预设的小模型音色将文字内容转换为语音输出时,根据语音合成的次数收费。

说明

默认扣减资源点,固定单价。如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。

语音识别

使用语音识别功能将音频转为文本时,会产生语音识别费用,按音频时长计费。不同的音频类型和模型类型,对应的计费项不同。

  • 流式语音:处理实时语音流时,根据小模型流式语音识别时长计费项或大模型流式语音识别时长计费项计费。

    说明

    在企业版套餐中使用大模型或小模型处理流式语音时,支持扩容并发数。详情请参考资源扩容费用

  • 语音文件:处理离线语音文件时,根据录音文件识别(极速版)​计费项或大模型录音文件识别时长计费项计费。

计费项

说明

时长统计规则

小模型流式语音识别时长

通过小模型实时识别语音流,将语音内容转换为文字时,根据音频时长收费。

说明

默认扣减资源点,固定单价。 如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。

累加每次语音转文字的总时长,最小单位为毫秒,最终会转换为分钟,并四舍五入保留两位小数。
与音频是单声道还是双声道无关。

大模型流式语音识别时长

通过大模型实时识别语音流,将语音内容转换为文字时,根据音频时长收费。

大模型录音文件识别时长

通过大模型对上传的录音文件进行语音识别,将语音内容转换为文字时,根据音频时长收费。

录音文件识别(极速版)

通过小模型对上传的录音文件进行语音识别,将语音内容转换为文字时,根据音频时长收费。

说明

默认扣减资源点,固定单价。如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为日,次日将从最低档位重新开始累计。

音频通话

用户与智能体进行音视频通话时,会产生音频通话费用。实时音视频功能的音频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详情请参考如何统计实时音视频通话中的音视频时长?

说明

  • 在房间内开启与智能体通话后,系统会每小时计算一次费用并提供账单。当用户退出房间时,系统会再次提供一次账单。
  • 由于音视频通话功能的数据计算量较大,其相关账单出账时间可能会延迟 3~5 小时。
  • 音视频通话功能对应的 API,请参考 RTC 语音WebSocket 语音

计费项

说明

时长计算规则

对话式Al-音频时长

智能体处理用户音视频流时产生的 AI 计算资源费用,根据时长计费。

计费时长为智能体在房间内的时长,即从用户调用创建房间接口开始,直到智能体退出房间结束。

语音通话时长

在小程序以外的发布渠道中进行音视频通话,采用语音通话时长计费项收取语音通话费用。根据通话时长计费。

因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的语音通话费用,但通话时长不同。

  • 智能体语音通话时长:智能体处于房间内的时长。用户调用创建房间接口时,智能体同时进入房间;用户退出房间后,智能体随之退出。
  • 用户语音通话时长:用户处于房间内的时长,从用户进入房间开始,直到退出房间结束。

小程序语音通话

在小程序发布渠道中进行音视频通话,采用小程序语音通话计费项收取语音通话费用。根据通话时长计费。

因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的小程序语音通话费用,但通话时长不同。

  • 智能体语音通话时长:智能体处于房间内的时长。用户调用创建房间接口时,智能体同时进入房间;用户退出房间后,智能体随之退出。
  • 用户语音通话时长:用户处于房间内的时长,从用户进入房间开始,直到退出房间结束。

视频通话

在使用实时音视频功能时,如果开启视频通话功能,系统将根据视频分辨率和视频通话时长,在语音通话费用的基础上另外收取视频费用。

计费项

说明

时长计算规则

视频通话时长-4K

视频分辨率处于 2K ~ 4K 范围时,根据 4K 视频分辨率的通话时长收取视频通话费用。

从开启视频到结束视频之间的时长。

视频通话时长-2K

视频分辨率处于 1080P ~ 2K 范围时,根据 2K 视频分辨率的通话时长收取视频通话费用。

视频通话时长-1080P

视频分辨率处于 720P ~ 1080P 范围时,根据 1080P 视频分辨率的通话时长收取视频通话费用。

视频通话时长-720P

视频分辨率处于 360P ~ 720P 范围时,根据 720P 视频分辨率的通话时长收取视频通话费用。

视频通话时长-360P

视频分辨率不高于 360P 时,根据 360P 视频分辨率的通话时长收取视频通话费用。

计费场景

使用智能语音功能时,需要根据实际的使用场景和使用量支付一定费用。在扣子中常见的计费场景如下:

调试智能体/扣子商店

操作

操作说明

计费项

计费用量

操作示例

语音输入

单击语音输入,按键开始说话,向智能体发送语音消息。

  • 大模型录音文件识别时长

音频时长为从按住说话到松手发送的总时长。

Image

语音通话

单击编辑语音,设置音色后,单击通话,和智能体进行语音通话。

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 语音通话
  • 对话式Al-音频

开始时间为单击通话时,结束时间为单击挂断时。
用量计算规则,请参考如何统计实时音视频通话中的音视频时长?如何统计实时音视频通话中的语音合成和语音识别用量?

Image
Image

朗读

单击编辑语音,设置音色后,设置了自动播放声音或主动单击智能体回复消息中的朗读,即开始朗读消息

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数

朗读是通过调用双向流式语音合成 API 实现的。用量计算规则,请参考如何统计双向流式语音合成的用量?

Image
Image

调用插件

操作

操作说明

费用

计费用量

操作示例

调用语音识别插件

在智能体、工作流中调用语音识别插件,通过小模型将语音文件转换为文本。

录音文件识别(极速版)

根据音频文件的时长统计。

Image

调用大模型语音识别插件

在智能体、工作流中调用大模型语音识别插件,通过大模型将语音文件转换为文本。

大模型录音文件识别时长

根据音频文件的时长统计。

Image

调用语音合成插件

在智能体、工作流中调用语音合成插件,将文本转换为音频。

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数
  • 使用小模型系统音色时,按次数计费,每次调用计为一次。
  • 使用大模型系统音色或复刻音色时,根据传入的文本字数统计。

Image

管理音色资源

操作

操作说明

费用

计费用量

操作示例

复刻音色

企业团队管理员购买音色扩容包。

声音复刻计费项,包括:

  • 音色数量
  • 音色模型存储数
  • 音色数量:根据购买的音色数量统计。
  • 音色模型存储数:根据使用的音色数量统计。

Image

语音合成

在输入框中输入文本,单击合成

复刻音色文字转语音字数

根据输入框中的文字字数统计

Image

试运行工作流

操作

操作说明

费用

计费用量

操作示例

语音输入

单击语音输入,按键开始说话,向智能体发送语音消息,松开结束说话。

大模型录音文件识别时长

音频时长为从按住说话到松手发送语音的总时长。

Image

OpenAPI

说明

目前,仅通过 API 方式使用语音合成时,可以选择豆包语音合成大模型 2.0 音色。

操作

操作说明

费用

计费用量

操作示例

语音合成

调用语音合成 API

不同的音色计费项如下:

  • 系统音色:
    • 大模型 1.0:系统音色文字转语音字数
    • 大模型 2.0:豆包语音合成2.0-系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数
  • 使用小模型系统音色时,按次数计费,每次调用计为一次。
  • 使用大模型系统音色或复刻音色时,根据传入的文本字数统计。

Image

调用双向流式语音合成 API

不同的音色计费项如下:

  • 系统音色:
    • 大模型 1.0:系统音色文字转语音字数
    • 大模型 2.0:豆包语音合成2.0-系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数

用量计算规则,请参考如何统计双向流式语音合成的用量?

示例请参考集成 WebSocket 实时语音 SDK

语音识别

调用语音识别 API。

大模型录音文件识别时长

根据上传的音频文件的音频时长统计。

Image

调用双向流式语音识别事件 API

大模型流式语音识别时长

根据语音时长统计。

示例请参考集成 WebSocket 实时语音 SDK

实时音视频对话

基于 WebSocket OpenAPI 实现音频通话(暂不支持视频)

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型 1.0:系统音色文字转语音字数
      • 大模型 2.0:豆包语音合成2.0-系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数

用量计算规则,请参考如何统计实时音视频通话中的语音合成和语音识别用量?

Image

基于 RTC 实现音视频通话

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型 1.0:系统音色文字转语音字数
      • 大模型 2.0:豆包语音合成2.0-系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 语音通话
  • 对话式Al-音频

用量计算规则,请参考如何统计实时音视频通话中的音视频时长?如何统计实时音视频通话中的语音合成和语音识别用量?

Image

语音消息

调用发起对话 API 发送语音消息

说明

通过发起对话 API 发送语音消息的功能已停止迭代,推荐使用 WebSocket 语音通话,其具备更优性能、更低延迟,具体请参见基于 WebSocket OpenAPI 实现音频通话

  • 大模型录音文件识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型 1.0:系统音色文字转语音字数
      • 大模型 2.0:豆包语音合成2.0-系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 根据语音消息时长计算大模型录音文件识别时长费用。
  • 根据智能体的回复内容计算语音合成费用。

常见问题

超额累进和全额累进有什么区别?

扣子智能语音功能中多个计费项采用阶梯计价方式,用量越大,单价越低。
阶梯计费分为超额累进和全额累进,其详细对比如下:

/

超额累进计费

全额累进计费

定义

只对超出某个阶梯的部分按照该阶梯的单价计算费用,而之前的用量仍按较上一个阶梯的单价计算。

一旦用量达到某个阶梯,所有用量(包括之前的用量)都按照该阶梯的单价计算费用。

样例

例如,用户 A 在 2025 年 3 月累计产生小模型合成次数 100 万次,4 月产生 300 万次。则每月的小模型合成次数费用如下:

  • 3 月:1000,000 × 0.0055 = 5,500 元
  • 4 月:1000,000 × 0.0055 + (3000,000 - 1000,000) × 0.0050 = 15,500 元

例如,用户 A 在 2025 年 3 月复刻音色 11 个,4 月复刻 52 个,则音色数量费用如下:

  • 3 月:(11-1) × 138 = 1380 元
  • 4 月:(52-1) × 88 = 4480 元

图示

Image

Image

如何统计双向流式语音合成的用量?

使用语音合成功能时,系统会根据音色模型和音色类型收取。

  • 小模型的系统音色
    采用小模型的系统音色时,会对流式上传的文本进行分句,每个分句会产生一次调用。当识别到剩余文本字符数小于 1024 时,会一次性合成剩余所有文本的音频。分句规则为正则匹配,表达式为 [,:。?!;]+
    例如 "你下班打算干啥呀?是去看电影,还是约朋友吃饭;或者直接回家休息?有家火锅店味道超棒!我们周末去试试吧。",根据分句规则,会分成如下 5 句。

    你下班打算干啥呀?
    是去看电影,还是约朋友吃饭;
    或者直接回家休息?
    有家火锅店味道超棒!
    我们周末去试试吧。
    

    首次调用合成第一个分句的音频 你下班打算干啥呀?,识别到剩余字符数不足 1024,第二次调用合成剩余所有文本的音频,总计 2 次调用。

  • 大模型系统音色或复刻音色。
    采用复刻音色或大模型的系统音色时,系统会根据文本的字数进行计算。如果客户端主动断开链接,则按照已播放的音频对应的字数统计。例如用户上传的文本字符数为 500 字符,服务端已生成了 300 字符,返回给客户端了 280 字符播放,此时客户端主动断开链接,会按照 300 字符数进行统计。

如何统计实时音视频通话中的语音合成和语音识别用量?

语音合成

在使用实时通话时,如果使用了复刻音色和大模型系统音色,那么会产生语音合成费用,默认根据通话过程中大模型返回的文本字符数(包含开场白)计费。如果在使用过程中,用户主动打断智能体说话,会按照服务端已生成的音频对应的字符数进行计费。
例如一轮对话中,大模型返回了 500 字符,服务端已生成了 200 字符的音频,由于用户打断对话,客户端只播放了 100 字符,实际仍按照服务端已生成的 200 字符计费。

语音识别

在使用实时通话时,语音识别服务统计的音频时长约等于用户说话的总时长,不同语音检测模式统计音频时长的方式略有差异,具体说明如下:

模式

说明

按键说话模式

在按键说话模式下,语音识别服务时长为客户端统计的用户侧音频总时长,即客户端识别到用户说话时开始计时,识别到用户停止说话时停止计时。

自由对话模式

自由对话模式下的音频时长统计逻辑如下:

  • VAD 检测人声时启动语音识别服务,并自动获取服务启动前的一段音频,以避免错过语音的起始部分。该音频时长由 prefix_padding_ms 参数决定,默认值为 600 毫秒。
  • VAD 检测到无人声的状态持续 15 秒后,系统自动关闭语音识别服务,结束时长统计。

关于 WebSocket 场景和 RTC 场景下的语音检测模式说明,请参考如何设置扣子的语音检测模式
不同语音检测模式对应的语音时长统计图示如下:

说明

在自由对话模式中,VAD 检测到背景音中的人声并会启动语音识别服务,并不一定是用户开始说话。例如在使用实时通话功能时,即使用户没有说话,周围人的聊天声也可能被 VAD 检测到,从而启动语音识别服务。

Image

如何统计实时音视频通话中的音视频时长?

实时音视频功能的音频通话时长、视频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详细说明如下:

  1. 创建房间
    用户调用创建房间接口时,智能体自动进入房间处于等待状态,此时开始计算智能体的对话式 Al-音频费用和语音通话费用。

    说明

    智能体进入房间后,会等待用户 3 分钟,如果 3 分钟后用户仍未加入房间,智能体会退出房间。

  2. 用户进入房间
    开始计算用户语音通话费用,即从此时开始语音通话费用包括用户语音通话时长和智能体语音通话时长。
  3. 用户开启视频
    开始计算视频通话时长。
  4. 用户关闭视频
    用户关闭视频时,结束视频通话时长的计算。
  5. 用户退出房间
    用户退出房间时,智能体会随即退出房间,此时结束所有音视频时长的计算。

Image
例如小明使用实时音视频功能时,在 10:30 调用创建房间接口获取到进房凭证,在 10:32 进入房间开始和智能体对话,在 10:35 开启视频通话功能,在 10:40 关闭了视频通话功能(1080P),然后一直和智能体聊天到 11:30 退出房间。音视频通话时长及对应费用明细如下:

项目

时长

计费公式

对话式 Al-音频

智能体进房开始计算,即 10:30 到 11:30,共计 60 分钟。

60 分钟 × 9 点/分钟 = 540 点

语音通话

通话是双向的,用户侧和智能体侧两份语音通话时长单独计算:

  • 用户侧语音通话时长:从 10:32 到 11:30,一共 58 分钟。
  • 智能体侧语音通话时长:从 10:30 到 11:30,一共 60 分钟。

( 58 分钟 + 60 分钟 ) × 7 点/分钟 = 826 点

视频通话(1080P)

从 10:35 到 10:40,一共 5 分钟。

5 分钟 × 63 点/分钟 = 375 点

实时音视频通话时,创建房间就开始收费吗?

是的,调用创建房间 API 之后,智能体随即进房,开始收取智能体的语音通话费用、对话式 Al-音频费用,即使此时用户可能尚未加入房间。当用户拿到 Token 后没有进入房间,智能体也会在房间中等待,直到检测到用户 3 分钟后仍未进入房间,智能体才会退出房间。
因此,创建房间之后,即使没有实际的对话或语音通话,也会产生相应的费用。为避免这种情况,请合理控制建房接口的调用频率。

实时音视频通话时,为什么智能体没有说话,语音通话时长仍很长?

智能体未说话时,语音通话时长仍很长,可能是因为如下场景:
创建房间的用户进入房间与智能体聊天后退出房间,智能体也会随之退出。随后,用户可以使用创建房间时的凭证再次进入房间,但是智能体不会重新进入。此时,用户无法与智能体对话,但只有用户处在房间中,就仍会计算语音通话时长。
Image

为什么对话式 AI-音频时长和语音通话时长差别较大?

根本原因是出账延迟。例如用户在 10:30~10:40 期间使用了实时音视频功能,产生的对话式 AI-音频时长费用和语音通话时长费用,理论上会统计在 10:00~11:00 的账单上。但因为计算量大导致的出账延迟,两条账单分别有不同的偏移,对话式 AI-音频时长费用可能偏移到 11:00~12:00 的账单中,语音通话时长可能偏移到 12:00~13:00 的账单中,因此导致账单中两种时长差别较大。理论上,正常的实时音视频通话产生的时长比例约为 对话式AI-音频时长 : 语音通话时长 ≈ 1 : 2。你可以将时间段扩大到 3~5 小时,再次查看时长是否符合预期。

没有开启视频通话为何也有视频通话费用?

如果你没有开启视频通话,但仍然产生了视频通话费用,可能是由于使用了旧版的嵌入式 RTC SDK。旧版的嵌入式 RTC SDK 默认会打开视频开关,并产生视频通话费用。为避免这种情况,你可以重新安装 RTC SDK 以使用最新版 SDK,具体操作,请参考基于 RTC 实现音视频通话

使用 RTC 服务时是否会重复扣除智能语音的费用?

实时音视频与智能语音是独立计费项。实时音视频按通话、流媒体时长计费,智能语音中的语音识别按照时长计费、语音合成按照字符数计费。如果在 RTC 通话中同时使用语音识别或合成功能,会产生叠加计费。不同场景下的资源点消耗不同,如小程序语音通话为 9点/分钟,对话式 AI 音频为 9点/分钟。

最近更新时间:2025.12.18 18:39:15
这个页面对您有帮助吗?
有用
有用
无用
无用