You need to enable JavaScript to run this app.
导航
音视频费用
最近更新时间:2025.11.17 18:53:20首次发布时间:2025.06.05 16:36:45
复制全文
我的收藏
有用
有用
无用
无用

在使用扣子智能音视频相关的服务(音色复刻、语音输入、朗读、音视频通话等)时,会产生相应的语音费用,包括声音复刻、语音合成、语音识别、音频通话、视频通话费用。

说明

自2025年8月5日起,声音复刻将调整为预购买音色模式。仅团队版或企业版套餐支持购买,且不再支持通过资源点抵扣费用。音色的定价固定为每个 138 元。

音视频服务

说明

智能设备语音通话

扣子支持将智能体集成到智能设备上,当用户在与智能设备进行语音通话时,会产生语音识别、语音合成、模型 token、语音通话等费用。
默认情况下,与智能设备进行语音通话时产生的费用采用按量付费(先用后付)方式,企业版套餐在此基础上支持购买增购 AI 智能通话许可(复刻音色)和增购 AI 智能通话许可(系统音色)服务。购买后,在通话时系统会根据购买的通话时长抵扣企业内所有上报设备的语音识别、语音合成和文本模型费用。其中,文本模型费用是指使用大模型文本模态所产生的费用,图像等其他模态所产生的费用不支持抵扣。购买 AI 智能通话许可的操作,请参考购买 AI 智能通话许可;上报设备的操作,请参考上报设备信息

声音复刻

用户可以上传音频文件或直接录制声音,以复刻特定的音色。
团队版或企业版套餐支持购买声音复刻-音色。购买后,团队或企业所有成员均可以创建并使用音色。购买音色的操作,请参考购买音色

声纹识别

启用声纹识别功能后,用户在进行音视频通话时,扣子能够自动识别说话人身份,并会产生声纹识别费用。如何使用声纹识别,请参考声纹识别

语音合成

使用语音合成功能将文本内容转为语音片段时,会产生语音合成费,收费方式取决于音色类型。

  • 复刻音色:​复刻音色均由大模型生成。使用复刻音色合成语音时,根据文字转语音的字符数收费。
  • 系统音色:使用大模型系统音色时,按文字转语音的字符数收费;使用小模型系统音色时,按语音合成次数计费,每次调用计为一次。返回失败的调用不计入次数。系统音色列表详情,请参考系统音色列表

说明

字符是指计算机中使用的文字和符号等,1 个汉字、英文字母、希腊字母、标点符号、特殊符号、空格、回车等都算 1 个字符。

语音识别

使用语音识别功能将音频转为文本时,会产生语音识别费用。语音识别服务按音频时长计费,累加每次语音转文字的总时长。统计计费时长的最小单位为毫秒,最终会转换为分钟,并四舍五入保留两位小数。在使用语音识别服务时,计费依据是音频的总时长,与音频是单声道还是双声道无关。
不同的音频类型和模型类型,对应的计费项不同。

  • 流式语音:处理实时语音流时,根据小模型流式语音识别时长计费项或大模型流式语音识别时长计费项计费。
  • 语音文件:处理离线语音文件时,根据录音文件识别(极速版)计费项或大模型录音文件识别时长计费项计费。

音频通话

用户与智能体进行音视频通话时,会产生音频通话费用。实时音视频功能的音频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详情请参考如何统计实时音视频通话中的音视频时长?
在音视频通话过程中,还会产生语音合成费用和语音识别费用。

说明

  • 在房间内开启与智能体通话后,系统会每小时计算一次费用并提供账单。当用户退出房间时,系统会再次提供一次账单。
  • 由于音视频通话功能的数据计算量较大,其相关账单出账时间可能会延迟 3~5 小时。
  • 音视频通话功能对应的 API,请参考 RTC 语音WebSocket 语音

视频通话

在使用实时音视频功能时,如果开启视频通话功能,系统将根据视频分辨率和视频通话时长,在语音通话费用的基础上另外收取视频费用。

计费项

在扣子平台,所有按量付费的扣子资源的消耗默认通过资源点进行抵扣。当账户或资源包内的资源点余额不足时,系统将自动从你的现金账户中扣除对应的金额。采用预付费方式的计费项(例如增购声音复刻-音色数量)不支持资源点抵扣。

说明

  • 扣子平台为每个扣子账号提供总价值约 300 元的免费额度,用于音视频功能试用。各计费项的具体免费额度如下表所示。
  • 声音复刻的免费额度仅限团队版、企业版用户专享,不包含在 300 元通用免费额度内。
  • 仅个人进阶版、团队版和企业版套餐提供免费额度,免费版套餐不提供免费额度。

计费项列表

分类

计费项

说明

免费额度

单价

资源点结算

现金结算

智能设备语音通话

增购AI智能通话许可(复刻音色)

购买增购AI智能通话许可(复刻音色)服务后,在通话时系统会根据购买的通话时长抵扣企业内所有上报设备的语音识别、语音合成(复刻音色)和文本模型费用。
在与设备通话过程中,语音识别、语音合成(复刻音色)和文本模型处理的总时长为整个通话时长,单位为小时,精确到小数点后三位。例如企业购买了 10000 小时的增购 AI 智能通话许可(复刻音色)服务,则表示在该服务有效期内,企业内所有上报设备的通话时长累计在 10000 小时内的部分,其语音识别、语音合成(复刻音色)和文本模型费用均可通过该服务抵扣。

  • 仅企业版套餐支持购买增购AI智能通话许可(复刻音色),购买时需一次性支付相应的费用。
  • 企业版套餐降配或到期后,增购AI智能通话许可(复刻音色)服务将不可用,后续将采用按量付费方式计费。
  • 增购AI智能通话许可(复刻音色)服务到期后,后续将采用按量付费方式计费。
  • 当实际的设备通话时长超过购买的增购AI智能通话许可(复刻音色)时,超出部分将采用按量付费方式计费。
  • 购买的增购 AI 智能通话许可(复刻音色)服务不支持退订、续费、更配。
  • 在特殊场景下,增购 AI 智能通话许可(复刻音色)服务也支持抵扣设备语音通话中的语音合成(系统音色)费用。
    • 如果购买了增购 AI 智能通话许可(复刻音色)服务,但未购买增购AI智能通话许可(系统音色)服务或实际使用时长超过系统音色购买时长了,此时将通过增购 AI 智能通话许可(复刻音色) 服务抵扣语音合成(系统音色)费用。
    • 如果在通话过程中,用户先使用了复刻音色,又切换到系统音色,两种音色使用时长统一通过增购 AI 智能通话许可(复刻音色)服务进行时长抵扣。

不支持

7.5 元/小时*台

增购AI智能通话许可(系统音色)

购买增购AI智能通话许可(系统音色)服务后,在通话时系统会根据购买的通话时长抵扣企业内所有上报设备的语音识别、语音合成(系统音色)和文本模型费用。
在与设备通话过程中,语音识别、语音合成(复刻音色)和文本模型处理的总时长为整个通话时长,单位为小时,精确到小数点后三位。例如企业购买了 10000 小时的增购 AI 智能通话许可(系统音色)服务,则表示在该服务有效期内,企业内所有上报设备的通话时长累计在 10000 小时内的部分,其语音识别、语音合成(系统音色)和文本模型费用均可通过该服务抵扣。

  • 仅企业版套餐支持购买增购AI智能通话许可(系统音色),购买时需一次性支付相应的费用。
  • 企业版套餐降配或到期后,增购AI智能通话许可(系统音色)服务将不可用,后续将采用按量付费方式计费。
  • 增购AI智能通话许可(系统音色)服务到期后,后续将采用按量付费方式计费。
  • 当实际的设备通话时长超过购买的增购AI智能通话许可(系统音色)时,超出部分将采用按量付费方式计费。
  • 购买的增购 AI 智能通话许可(系统音色)服务不支持退订、续费、更配。

不支持

5 元/小时*台

声音复刻

增购声音复刻-音色数量

使用声音复刻功能能够复刻出自定义的音色。声音复刻采用预购买音色的计费方式,仅团队或企业版套餐支持购买,购买时需一次性支付相应的费用。即需要先购买,再使用。购买说明,请参考购买音色

  • 团队版或企业版套餐降配到个人版或到期后,购买的音色将不可用,即不再支持团队或企业新建音色。
  • 有效期:99 年。
  • 购买的音色不支持退订、续费。

1 个

不支持

138 元/个

音色模型存储数

每个复刻音色收取对应的音色模型存储费,按音色模型的个数收费。
音色模型存储数按小时统计用量,按月扣费,根据当月的最大值在自然月月底结算出账。

1 个

1000 资源点/个/月

1 元/个/月

声纹识别

声纹识别

开启声纹识别功能后,用户与智能体进行音视频通话时,每输入一次语音对话,系统将识别一次声纹,并计算一次声纹识别费用。

600 次

5 资源点/次

0.005 元/次

语音合成

复刻音色文字转语音字数

使用复刻音色将文字内容转换为语音输出,根据字符数收费。

50,000 字符

0.8 资源点/字符

0.0008 元/字符

系统音色文字转语音字数

使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用大模型音色,根据字符数收费。

50,000 字符

0.5 资源点/字符

0.0005 元/字符

小模型合成次数

使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用小模型音色,则根据小模型音色合成语音的次数收费。默认扣减资源点,固定单价。

说明

如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。

1500 次

5.5 资源点/次

语音合成阶梯价

语音识别

小模型流式语音识别时长

通过小模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。
默认扣减资源点,固定单价。

说明

如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。

180 分钟

58.4 资源点/分钟

语音识别阶梯价

大模型流式语音识别时长

通过大模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。

180 分钟

75 资源点/分钟

0.075 元/分钟

大模型录音文件识别时长

通过大模型对上传的录音文件进行语音识别,将语音内容转换为文字,适用于离线语音处理。

180 分钟

39 资源点/分钟

0.039 元/分钟

录音文件识别(极速版)

通过小模型对上传的录音文件进行语音识别,将语音内容转换为文字,适用于离线语音处理。
默认扣减资源点,固定单价。

说明

如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为日,次日将从最低档位重新开始累计。

180 分钟

50 资源点/分钟

录音文件识别(极速版)阶梯价

音频通话

对话式Al-音频时长

智能体处理用户音视频流时产生的 AI 计算资源费用,其计费时长为智能体在房间内的时长,即从用户调用创建房间接口开始,直到智能体退出房间结束。

180 分钟

9 资源点/分钟

0.009 元/分钟

语音通话时长

在小程序以外的发布渠道产生的智能语音通话,根据通话时长收取语音通话费用。因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的语音通话费用,但通话时长不同。

  • 智能体语音通话时长:智能体处于房间内的时长。用户调用创建房间接口时,智能体同时进入房间;用户退出房间后,智能体随之退出。
  • 用户语音通话时长:用户处于房间内的时长,从用户进入房间开始,直到退出房间结束。

180 分钟

7 资源点/分钟

0.007 元/分钟

小程序语音通话

在小程序发布渠道产生的音视频通话,采用小程序语音通话计费项收取费用,同样会收取智能体和用户的双向语音通话费用。

180 分钟

9 资源点/分钟

0.0090 元/分钟

视频通话

视频通话时长-4K

根据 4K 视频分辨率的通话时长收取视频通话费用。

180 分钟

252 资源点/分钟

0.252 元/分钟

视频通话时长-2K

根据 2K 视频分辨率的通话时长收取视频通话费用。

180 分钟

112 资源点/分钟

0.112 元/分钟

视频通话时长-1080P

根据 1080P 视频分辨率的通话时长收取视频通话费用。

180 分钟

63 资源点/分钟

0.063 元/分钟

视频通话时长-720P

根据 720P 视频分辨率的通话时长收取视频通话费用。

180 分钟

28 资源点/分钟

0.028 元/分钟

视频通话时长-360P

根据 360P 视频分辨率的通话时长收取视频通话费用。

180 分钟

14 资源点/分钟

0.014 元/分钟

语音合成阶梯价

小模型合成次数为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

小模型合成次数档位

单价

费用计算公式
(Y 为每月的小模型合成总次数)

0~1000,000 次

0.0055 元/次

Y ✖️ 0.0055 元

1000,001~5000,000 次

0.0050 元/次

1000,000 ✖️ 0.0055
➕ (Y ➖ 1000,000) ✖️ 0.0050 元

5000,001~10,000,000 次

0.0045 元/次

1000,000 ✖️ 0.0055
➕ (5000,000 ➖ 1000,000) ✖️ 0.0050
➕ (Y ➖ 5000,000) ✖️ 0.0045 元

10,000,001 次及以上

0.0040 元/次

1000,000 ✖️ 0.0055
➕ (5000,000 ➖ 1000,000) ✖️ 0.0050
➕ (10,000,000 ➖ 5000,000) ✖️ 0.0045
➕ (Y ➖ 10,000,000) ✖️ 0.0040 元

语音识别阶梯价

小模型流式语音识别时长为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

小模型流式语音识别时长档位

单价

费用计算公式
(Y 为每月小模型流式语音识别总时长)

0~18,000 分钟

0.0584 元/分钟

Y ✖️ 0.0584 元

18,001~60,000 分钟

0.0500 元/分钟

18,000 ✖️ 0.0584
➕ (Y ➖ 18,000) ✖️ 0.0500 元

60,001~180,000 分钟

0.0400 元/分钟

18,000 ✖️ 0.0584
(60,000 18,000) ✖️ 0.0500
➕ (Y ➖ 60,000) ✖️ 0.0400 元

180,001~300,000 分钟

0.0300 元/分钟

18,000 ✖️ 0.0584
(60,000 18,000) ✖️ 0.0500
(180,000 60,000) ✖️ 0.0400
➕ (Y ➖ 180,000) × 0.0300 元

300,001 分钟及以上

0.0200 元/分钟

18,000 ✖️ 0.0584
(60,000 18,000) ✖️ 0.0500
(180,000 60,000) ✖️ 0.0400
(300,000 180,000) ✖️ 0.0300
➕ (Y ➖ 300,000) ✖️ 0.0200 元

录音文件识别(极速版)阶梯价

录音文件识别(极速版)为超额累进模式的阶梯计费,按日统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

录音文件识别(极速版)时长档位

单价

费用计算公式
(Y 为每日录音文件识别(极速版)总时长)

0~300 分钟

0.05 元/分钟

Y ✖️ 0.05 元

301~1,000 分钟

0.043 元/分钟

300 ✖️ 0.05
➕ (Y ➖ 300) ✖️ 0.043 元

1,001~3,000 分钟

0.035 元/分钟

300 ✖️ 0.05
➕ (1,000 ➖ 300) ✖️ 0.043
➕ (Y ➖ 1,000) ✖️ 0.035 元

3,001~5,000 分钟

0.03 元/分钟

300 ✖️ 0.05
➕ (1,000 ➖ 300) ✖️ 0.043
➕ (3,000 ➖ 1,000) ✖️ 0.035
➕ (Y ➖ 3,000) ✖️ 0.03 元

5,001 分钟及以上

0.02 元/分钟

300 ✖️ 0.05
➕ (1,000 ➖ 300) ✖️ 0.043
➕ (3,000 ➖ 1,000) ✖️ 0.035
➕ (5,000 ➖ 3,000) ✖️ 0.03
➕ (Y ➖ 5,000) ✖️ 0.02 元

计费场景

使用智能语音功能时,需要根据实际的使用场景和使用量支付一定费用。在扣子平台中常见的计费场景如下:

调试智能体/扣子商店

操作

操作说明

计费项

计费用量

操作示例

语音输入

单击语音输入,按键开始说话,向智能体发送语音消息。

  • 大模型录音文件识别时长

音频时长为从按住说话到松手发送的总时长。

Image

语音通话

单击编辑语音,设置音色后,单击通话,和智能体进行语音通话。

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 语音通话
  • 对话式Al-音频

开始时间为单击通话时,结束时间为单击挂断时。
用量计算规则,请参考如何统计实时音视频通话中的音视频时长?如何统计实时音视频通话中的语音合成和语音识别用量?

Image
Image

朗读

单击编辑语音,设置音色后,设置了自动播放声音或主动单击智能体回复消息中的朗读,即开始朗读消息

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数

朗读是通过调用双向流式语音合成 API 实现的。用量计算规则,请参考如何统计双向流式语音合成的用量?

Image
Image

调用插件

操作

操作说明

费用

计费用量

操作示例

调用语音识别插件

在智能体、工作流中调用语音识别插件,通过小模型将语音文件转换为文本。

录音文件识别(极速版)

根据音频文件的时长统计。

Image

调用大模型语音识别插件

在智能体、工作流中调用大模型语音识别插件,通过大模型将语音文件转换为文本。

大模型录音文件识别时长

根据音频文件的时长统计。

Image

调用语音合成插件

在智能体、工作流中调用语音合成插件,将文本转换为音频。

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数
  • 使用小模型系统音色时,按次数计费,每次调用计为一次。
  • 使用大模型系统音色或复刻音色时,根据传入的文本字数统计。

Image

管理音色资源

操作

操作说明

费用

计费用量

操作示例

复刻音色

企业团队管理员购买音色扩容包。

声音复刻计费项,包括:

  • 音色数量
  • 音色模型存储数
  • 音色数量:根据购买的音色数量统计。
  • 音色模型存储数:根据使用的音色数量统计。

Image

语音合成

在输入框中输入文本,单击合成

复刻音色文字转语音字数

根据输入框中的文字字数统计

Image

试运行工作流

操作

操作说明

费用

计费用量

操作示例

语音输入

单击语音输入,按键开始说话,向智能体发送语音消息,松开结束说话。

大模型录音文件识别时长

音频时长为从按住说话到松手发送语音的总时长。

Image

OpenAPI

操作

操作说明

费用

计费用量

操作示例

语音合成

调用语音合成 API

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数
  • 使用小模型系统音色时,按次数计费,每次调用计为一次。
  • 使用大模型系统音色或复刻音色时,根据传入的文本字数统计。

Image

调用双向流式语音合成 API

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数

用量计算规则,请参考如何统计双向流式语音合成的用量?

示例请参考集成 WebSocket 实时语音 SDK

语音识别

调用语音识别 API。

大模型录音文件识别时长

根据上传的音频文件的音频时长统计。

Image

调用双向流式语音识别事件 API

大模型流式语音识别时长

根据语音时长统计。

示例请参考集成 WebSocket 实时语音 SDK

实时音视频对话

基于 WebSocket OpenAPI 实现音频通话(暂不支持视频)

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数

用量计算规则,请参考如何统计实时音视频通话中的语音合成和语音识别用量?

Image

基于 RTC 实现音视频通话

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 语音通话
  • 对话式Al-音频

用量计算规则,请参考如何统计实时音视频通话中的音视频时长?如何统计实时音视频通话中的语音合成和语音识别用量?

Image

语音消息

调用发起对话 API 发送语音消息

说明

通过发起对话 API 发送语音消息的功能已停止迭代,推荐使用 WebSocket 语音通话,其具备更优性能、更低延迟,具体请参见基于 WebSocket OpenAPI 实现音频通话

  • 大模型录音文件识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 根据语音消息时长计算大模型录音文件识别时长费用。
  • 根据智能体的回复内容计算语音合成费用。

相关操作

购买声音复刻-音色

说明

  • 购买的增购声音复刻-音色数量不支持退订、续费。
  • 主账号或具备火山引擎扣子服务购买权限(如 CozeFullAccess 权限)的 IAM 用户,均可购买声音复刻-音色数量。
  1. 登录火山扣子控制台
  2. 概览页面的声音复刻-音色数量区域,单击增购
    Image
  3. 在购买页面,选择音色数量,然后根据页面提示,完成购买。

查看声音复刻-音色数量

火山扣子控制台概览页面的声音复刻-音色数量区域,查看未使用的声音复刻-音色数量(①)、已购买的声音复刻-音色数和声音复刻-音色免费额度总和(②)。例如 11 表示音色免费额度 1 个以及购买的音色 10 个。
Image

购买 AI 智能通话许可

说明

  • 购买的增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)服务不支持退订、续费、更配。
  • 主账号或具备火山引擎扣子服务购买权限(如 CozeFullAccess 权限)的 IAM 用户,均可购买 AI 智能通话许可(复刻音色)、 AI 智能通话许可(系统音色)。
  1. 扣子开发平台组织管理 > 设备管理用量明细及管控页签下,单击购买语音通话时长
    Image
  2. 购买语音通话时长对话框中,选择要购买的服务及小时数量,单击去购买

    说明

    购买的时长为当前企业内所有上报设备共用额度,不是指每台设备的时长额度。每次购买的时长需为 10,000 的倍数。

    • 语音通话时长-系统音色:当你在通话过程中,需要使用系统音色进行语音合成时,请选择语音通话时长-系统音色。
    • 语音通话时长-复刻音色:当你在通话过程中,需要使用复刻音色进行语音合成时,请选择语音通话时长-复刻音色。
      Image
  3. 欢迎购买扣子服务页面,确认购买数量,然后根据页面提示,完成购买。

查看 AI 智能通话许可购买记录

购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)服务后,你可以在扣子开发平台组织管理 > 设备管理用量明细及管控页签下,单击购买明细,包括已购买的通话时长、已使用的通话时长、购买时间、有效期等信息。
Image

查看 AI 智能通话许可的时长余量

购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)服务后,你可以通过语音通话时长-系统音色语音通话时长-复刻音色查看对应的时长余量。

  1. 扣子开发平台的左下角,单击扣子资源点
  2. 当前计划页面的语音通话时长-系统音色语音通话时长-复刻音色区域,查看未使用的通话时长(①)、已购买的通话时长(②)。例如 9999 表示未使用的时长,10000 表示已购买的时长。
    Image

常见问题

超额累进和全额累进有什么区别?

扣子智能语音功能中多个计费项采用阶梯计价方式,用量越大,单价越低。
阶梯计费分为超额累进和全额累进,其详细对比如下:

/

超额累进计费

全额累进计费

定义

只对超出某个阶梯的部分按照该阶梯的单价计算费用,而之前的用量仍按较上一个阶梯的单价计算。

一旦用量达到某个阶梯,所有用量(包括之前的用量)都按照该阶梯的单价计算费用。

样例

例如,用户 A 在 2025 年 3 月累计产生小模型合成次数 100 万次,4 月产生 300 万次。则每月的小模型合成次数费用如下:

  • 3 月:1000,000 × 0.0055 = 5,500 元
  • 4 月:1000,000 × 0.0055 + (3000,000 - 1000,000) × 0.0050 = 15,500 元

例如,用户 A 在 2025 年 3 月复刻音色 11 个,4 月复刻 52 个,则音色数量费用如下:

  • 3 月:(11-1) × 138 = 1380 元
  • 4 月:(52-1) × 88 = 4480 元

图示

Image

Image

如何统计双向流式语音合成的用量?

使用语音合成功能时,系统会根据音色模型和音色类型收取。

  • 小模型的系统音色
    采用小模型的系统音色时,会对流式上传的文本进行分句,每个分句会产生一次调用。当识别到剩余文本字符数小于 1024 时,会一次性合成剩余所有文本的音频。分句规则为正则匹配,表达式为 [,:。?!;]+
    例如 "你下班打算干啥呀?是去看电影,还是约朋友吃饭;或者直接回家休息?有家火锅店味道超棒!我们周末去试试吧。",根据分句规则,会分成如下 5 句。

    你下班打算干啥呀?
    是去看电影,还是约朋友吃饭;
    或者直接回家休息?
    有家火锅店味道超棒!
    我们周末去试试吧。
    

    首次调用合成第一个分句的音频 你下班打算干啥呀?,识别到剩余字符数不足 1024,第二次调用合成剩余所有文本的音频,总计 2 次调用。

  • 大模型系统音色或复刻音色。
    采用复刻音色或大模型的系统音色时,系统会根据文本的字数进行计算。如果客户端主动断开链接,则按照已播放的音频对应的字数统计。例如用户上传的文本字符数为 500 字符,服务端已生成了 300 字符,返回给客户端了 280 字符播放,此时客户端主动断开链接,会按照 300 字符数进行统计。

如何统计实时音视频通话中的语音合成和语音识别用量?

语音合成

在使用实时通话时,如果使用了复刻音色和大模型系统音色,那么会产生语音合成费用,默认根据通话过程中大模型返回的文本字符数(包含开场白)计费。如果在使用过程中,用户主动打断智能体说话,会按照服务端已生成的音频对应的字符数进行计费。
例如一轮对话中,大模型返回了 500 字符,服务端已生成了 200 字符的音频,由于用户打断对话,客户端只播放了 100 字符,实际仍按照服务端已生成的 200 字符计费。

语音识别

在使用实时通话时,语音识别服务统计的音频时长约等于用户说话的总时长,不同语音检测模式统计音频时长的方式略有差异,具体说明如下:

模式

说明

按键说话模式

在按键说话模式下,语音识别服务时长为客户端统计的用户侧音频总时长,即客户端识别到用户说话时开始计时,识别到用户停止说话时停止计时。

自由对话模式

自由对话模式下的音频时长统计逻辑如下:

  • VAD 检测人声时启动语音识别服务,并自动获取服务启动前的一段音频,以避免错过语音的起始部分。该音频时长由 prefix_padding_ms 参数决定,默认值为 600 毫秒。
  • VAD 检测到无人声的状态持续 15 秒后,系统自动关闭语音识别服务,结束时长统计。

关于 WebSocket 场景和 RTC 场景下的语音检测模式说明,请参考如何设置扣子的语音检测模式
不同语音检测模式对应的语音时长统计图示如下:

说明

在自由对话模式中,VAD 检测到背景音中的人声并会启动语音识别服务,并不一定是用户开始说话。例如在使用实时通话功能时,即使用户没有说话,周围人的聊天声也可能被 VAD 检测到,从而启动语音识别服务。

Image

如何统计实时音视频通话中的音视频时长?

实时音视频功能的音频通话时长、视频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详细说明如下:

  1. 创建房间
    用户调用创建房间接口时,智能体自动进入房间处于等待状态,此时开始计算智能体的对话式 Al-音频费用和语音通话费用。

    说明

    智能体进入房间后,会等待用户 3 分钟,如果 3 分钟后用户仍未加入房间,智能体会退出房间。

  2. 用户进入房间
    开始计算用户语音通话费用,即从此时开始语音通话费用包括用户语音通话时长和智能体语音通话时长。
  3. 用户开启视频
    开始计算视频通话时长。
  4. 用户关闭视频
    用户关闭视频时,结束视频通话时长的计算。
  5. 用户退出房间
    用户退出房间时,智能体会随即退出房间,此时结束所有音视频时长的计算。

Image
例如小明使用实时音视频功能时,在 10:30 调用创建房间接口获取到进房凭证,在 10:32 进入房间开始和智能体对话,在 10:35 开启视频通话功能,在 10:40 关闭了视频通话功能(1080P),然后一直和智能体聊天到 11:30 退出房间。音视频通话时长及对应费用明细如下:

项目

时长

计费公式

对话式 Al-音频

智能体进房开始计算,即 10:30 到 11:30,共计 60 分钟。

60 分钟 × 9 点/分钟 = 540 点

语音通话

通话是双向的,用户侧和智能体侧两份语音通话时长单独计算:

  • 用户侧语音通话时长:从 10:32 到 11:30,一共 58 分钟。
  • 智能体侧语音通话时长:从 10:30 到 11:30,一共 60 分钟。

( 58 分钟 + 60 分钟 ) × 7 点/分钟 = 826 点

视频通话(1080P)

从 10:35 到 10:40,一共 5 分钟。

5 分钟 × 63 点/分钟 = 375 点

实时音视频通话时,创建房间就开始收费吗?

是的,调用创建房间 API 之后,智能体随即进房,开始收取智能体的语音通话费用、对话式 Al-音频费用,即使此时用户可能尚未加入房间。当用户拿到 Token 后没有进入房间,智能体也会在房间中等待,直到检测到用户 3 分钟后仍未进入房间,智能体才会退出房间。
因此,创建房间之后,即使没有实际的对话或语音通话,也会产生相应的费用。为避免这种情况,请合理控制建房接口的调用频率。

实时音视频通话时,为什么智能体没有说话,语音通话时长仍很长?

智能体未说话时,语音通话时长仍很长,可能是因为如下场景:
创建房间的用户进入房间与智能体聊天后退出房间,智能体也会随之退出。随后,用户可以使用创建房间时的凭证再次进入房间,但是智能体不会重新进入。此时,用户无法与智能体对话,但只有用户处在房间中,就仍会计算语音通话时长。
Image

为什么对话式 AI-音频时长和语音通话时长差别较大?

根本原因是出账延迟。例如用户在 10:30~10:40 期间使用了实时音视频功能,产生的对话式 AI-音频时长费用和语音通话时长费用,理论上会统计在 10:00~11:00 的账单上。但因为计算量大导致的出账延迟,两条账单分别有不同的偏移,对话式 AI-音频时长费用可能偏移到 11:00~12:00 的账单中,语音通话时长可能偏移到 12:00~13:00 的账单中,因此导致账单中两种时长差别较大。理论上,正常的实时音视频通话产生的时长比例约为 对话式AI-音频时长 : 语音通话时长 ≈ 1 : 2。你可以将时间段扩大到 3~5 小时,再次查看时长是否符合预期。

没有开启视频通话为何也有视频通话费用?

如果你没有开启视频通话,但仍然产生了视频通话费用,可能是由于使用了旧版的嵌入式 RTC SDK。旧版的嵌入式 RTC SDK 默认会打开视频开关,并产生视频通话费用。为避免这种情况,你可以重新安装 RTC SDK 以使用最新版 SDK,具体操作,请参考基于 RTC 实现音视频通话

使用 RTC 服务时是否会重复扣除智能语音的费用?

实时音视频与智能语音是独立计费项。实时音视频按通话、流媒体时长计费,智能语音中的语音识别按照时长计费、语音合成按照字符数计费。如果在 RTC 通话中同时使用语音识别或合成功能,会产生叠加计费。不同场景下的资源点消耗不同,如小程序语音通话为 9点/分钟,对话式 AI 音频为 9点/分钟。