You need to enable JavaScript to run this app.
导航
音视频费用
最近更新时间:2025.06.05 16:36:45首次发布时间:2025.06.05 16:36:45
我的收藏
有用
有用
无用
无用

在使用扣子智能音视频相关的服务(音色复刻、语音输入、朗读、音视频通话等)时,会产生相应的语音费用,包括声音复刻、语音合成、语音识别、音频通话、视频通话费用。

音视频服务

说明

声音复刻

用户可以上传音频文件或直接录制声音,以复刻特定的音色。
购买团队版或企业版套餐后,团队版或企业版套餐的超级管理员可以购买音色扩容包,团队或企业所有成员均可以创建并使用音色。如何购买音色扩容包,请参考扩容音色

语音合成

调用语音合成 API 将文本内容转为语音片段时,会产生语音合成费,收费方式取决于音色类型。

  • **复刻音色:**复刻音色均由大模型生成。使用复刻音色合成语音时,根据文字转语音的字符数收费。
  • 系统音色:使用大模型系统音色时,按文字转语音的字符数收费;使用小模型系统音色时,按语音合成次数计费,每次调用计为一次。返回失败的调用不计入次数。系统音色列表详情,请参考系统音色列表

说明

字符是指计算机中使用的文字和符号等,1 个汉字、英文字母、希腊字母、标点符号、特殊符号、空格、回车等都算 1 个字符。

语音识别

调用语音识别 API 将音频文件转录为文本时,会产生语音识别费。语音识别服务按音频时长计费,累加每次语音转文字的总时长。统计计费时长的最小单位为毫秒,最终会转换为分钟,并四舍五入保留两位小数。
在使用语音识别服务时,计费依据是音频的总时长,与音频是单声道还是双声道无关。

音频通话

用户与智能体进行音视频通话时,会产生音频通话费用。实时音视频功能的音频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详情请参考如何统计实时音视频通话中的音视频时长?
在音视频通话过程中,还会产生语音合成费用和语音识别费用。

说明

  • 在房间内开启与智能体通话后,系统会每小时计算一次费用并提供账单。当用户退出房间时,系统会再次提供一次账单。
  • 由于音视频通话功能的数据计算量较大,其相关账单出账时间可能会延迟 3~5 小时。
  • 音视频通话功能对应的 API,请参考 RTC 语音WebSocket 语音

视频通话

在使用实时音视频功能时,如果开启视频通话功能,系统将根据视频分辨率和视频通话时长,在语音通话费用的基础上另外收取视频费用。

计费项

计费项列表

分类

计费项

说明

资源点

单价

声音复刻

音色数量

使用音色复刻功能复刻出的自定义音色数量。默认扣减资源点,固定单价。

说明

  • 音色数量采用预付费计费方式,在团队或企业的超级管理员购买音色扩容包时需一次性支付相应的费用。
  • 如果账户中足够的无资源点余额,则采用按量计费模式从现金账户扣款。此时享受全额累进的阶梯价,用量越大、单价越低。

138000 点/个

音色数量阶梯价

音色模型存储数

每个复刻音色收取对应的音色模型存储费,按音色模型的个数收费。
音色模型存储数按小时统计用量,按月扣费,根据当月的最大值在自然月月底结算出账。

1000 资源点/个/月

1 元/个/月

语音合成

复刻音色文字转语音字数

使用复刻音色将文字内容转换为语音输出,根据字符数收费。

0.8点/字符

0.0008元/字符

系统音色文字转语音字数

使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用大模型音色,根据字符数收费。

0.5点/字符

0.0005元/字符

小模型合成次数

使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用小模型音色,则根据小模型音色合成语音的次数收费。默认扣减资源点,固定单价。

说明

如果账户中足够的无资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次日将从最低档位重新开始累计。

5.5 资源点

语音合成阶梯价

语音识别

小模型流式语音识别时长

通过小模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。
默认扣减资源点,固定单价。

说明

如果账户中足够的无资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。

58.4 资源点/次

语音识别阶梯价

大模型流式语音识别时长

通过大模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。

75点/分钟

0.0750元/分钟

大模型录音文件识别时长

通过大模型对上传的录音文件进行语音识别,将语音内容转换为文字,适用于离线语音处理。

39点/分钟

0.0390元/分钟

音频通话

对话式Al-音频

智能体处理用户音视频流时产生的 AI 计算资源费用,其计费时长为智能体在房间内的时长,即从用户调用创建房间接口开始,直到智能体退出房间结束。

9点/分钟

0.0090元/分钟

语音通话

在小程序以外的发布渠道产生的智能语音通话,根据通话时长收取语音通话费用。因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的语音通话费用,但通话时长不同。

  • 智能体语音通话时长:智能体处于房间内的时长。用户调用创建房间接口时,智能体同时进入房间;用户退出房间后,智能体随之退出。
  • 用户语音通话时长:用户处于房间内的时长,从用户进入房间开始,直到退出房间结束。

7点/分钟

0.0070元/分钟

小程序语音通话

在小程序发布渠道产生的音视频通话,采用小程序语音通话计费项收取费用,同样会收取智能体和用户的双向语音通话费用。

9点/分钟

0.0090元/分钟

视频通话

视频通话时长-4K

根据 4K 视频分辨率的通话时长收取视频通话费用。

252点/分钟

0.2520元/分钟

视频通话时长-2K

根据 2K 视频分辨率的通话时长收取视频通话费用。

112点/分钟

0.1120元/分钟

视频通话时长-1080P

根据 1080P 视频分辨率的通话时长收取视频通话费用。

63点/分钟

0.0630元/分钟

视频通话时长-720P

根据 720P 视频分辨率的通话时长收取视频通话费用。

28点/分钟

0.0280元/分钟

视频通话时长-360P

根据 360P 视频分辨率的通话时长收取视频通话费用。

14点/分钟

0.0140元/分钟

音色数量阶梯价

音色数量为全额累进模式的阶梯计费,即实时计费、自动跨档,跨档后当月所有音色数量按新阶梯价重新计算。各档位的单价如下:

音色数量档位

单价

费用计算公式

0~50 个

138 元/个

音色数量 × 138 元

51~100 个

88 元/个

音色数量 × 88 元

101~200 个

58 元/个

音色数量 × 58 元

201~5000 个

38 元/个

音色数量 × 38 元

5001 个及以上

28 元/个

音色数量 × 28 元

语音合成阶梯价

小模型合成次数为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

小模型合成次数档位

单价

费用计算公式
(X 为每月的小模型合成总次数)

0~1000,000 次

0.0055 元/次

X × 0.0055 元

1000,001~5000,000 次

0.0050 元/次

1000,000 × 0.0055

  • (X - 1000,000) × 0.0050 元

5000,001~10,000,000 次

0.0045 元/次

1000,000 × 0.0055

  • (5000,000 - 1000,000) × 0.0050
  • (X - 5000,000) × 0.0045 元

10,000,001 次及以上

0.0040 元/次

1000,000 × 0.0055

  • (5000,000 - 1000,000) × 0.0050
  • (10,000,000 - 5000,000) × 0.0045
  • (X - 10,000,000) × 0.0040 元

语音识别阶梯价

小模型流式语音识别时长为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:

小模型流式语音识别时长档位

单价

费用计算公式
(Y 为每月小模型流式语音识别总时长)

0~18,000 分钟

0.0584 元/次

Y × 0.0584 元

18,001~60,000 分钟

0.0500 元/次

18,000 × 0.0584

  • (Y - 18,000) × 0.0500 元

60,001~180,000 分钟

0.0400 元/次

18,000 × 0.0584
+ (60,000 - 18,000) × 0.0500

  • (Y - 60,000) × 0.0400 元

180,001~300,000 分钟

0.0300 元/次

18,000 × 0.0584
+ (60,000 - 18,000) × 0.0500

  • (180,000 - 60,000) × 0.0400
  • (Y - 180,000) × 0.0300 元

300,001 分钟及以上

0.0200 元/次

18,000 × 0.0584
+ (60,000 - 18,000) × 0.0500

  • (180,000 - 60,000) × 0.0400
  • (300,000 - 180,000) × 0.0300
  • (Y - 300,000) × 0.0200 元

免费额度

声音复刻中的音色数量计费项会提供免费额度。

说明

免费额度仅涵盖音色数量,不包含音色模型存储费用,音色模型存储仍会产生相应费用。例如购买团队版套餐后,将拥有一个音色的免费额度。当你仅复刻一个音色时,不会扣费 138000 资源点。但是在自然月月底将被收取音色模型存储费用 1000 资源点。

订阅套餐

音色数量免费额度

团队版

1 个

企业版

1 个

计费场景

使用智能语音功能时,需要根据实际的使用场景和使用量支付一定费用。在扣子平台中常见的计费场景如下:

调试智能体/扣子商店

操作

操作说明

计费项

计费用量

操作示例

语音输入

单击语音输入,按键开始说话,向智能体发送语音消息。

  • 大模型录音文件识别时长

音频时长为从按住说话到松手发送的总时长。

Image

语音通话

单击编辑语音,设置音色后**,单击通话**,和智能体进行语音通话。

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 语音通话
  • 对话式Al-音频

开始时间为单击通话时,结束时间为单击挂断时。
用量计算规则,请参考如何统计实时音视频通话中的音视频时长?如何统计实时音视频通话中的语音合成和语音识别用量?

Image
Image

朗读

单击编辑语音,设置音色后,设置了自动播放声音或主动单击智能体回复消息中的朗读,即开始朗读消息

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数

朗读是通过调用双向流式语音合成 API 实现的。用量计算规则,请参考如何统计双向流式语音合成的用量?

Image
Image

管理音色资源

操作

操作说明

费用

计费用量

操作示例

复刻音色

企业团队管理员购买音色扩容包。

声音复刻计费项,包括:

  • 音色数量
  • 音色模型存储数
  • 音色数量:根据购买的音色数量统计。
  • 音色模型存储数:根据使用的音色数量统计。

Image

语音合成

在输入框中输入文本,单击合成

复刻音色文字转语音字数

根据输入框中的文字字数统计

Image

试运行工作流

操作

操作说明

费用

计费用量

操作示例

语音输入

单击**语音输入,**按键开始说话,向智能体发送语音消息,松开结束说话。

大模型录音文件识别时长

音频时长为从按住说话到松手发送语音的总时长。

Image

OpenAPI

操作

操作说明

费用

计费用量

操作示例

语音合成

调用语音合成 API

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数
  • 使用小模型系统音色时,统计为 1 次调用。
  • 使用大模型系统音色或复刻音色时,根据传入的文本字数统计。

Image

调用双向流式语音合成 API

不同的音色计费项如下:

  • 系统音色:
    • 大模型:系统音色文字转语音字数
    • 小模型:小模型合成次数
  • 复刻音色:复刻音色文字转语音字数

用量计算规则,请参考如何统计双向流式语音合成的用量?

示例请参考集成 WebSocket 实时语音 SDK

语音识别

调用语音识别 API。

大模型录音文件识别时长

根据上传的音频文件的音频时长统计。

Image

调用双向流式语音识别事件 API

大模型录音文件识别时长

根据上传的音频文件的音频时长统计。

示例请参考集成 WebSocket 实时语音 SDK

实时音视频对话

基于 WebSocket OpenAPI 实现音频通话(暂不支持视频)

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数

用量计算规则,请参考如何统计实时音视频通话中的语音合成和语音识别用量?

Image

基于 RTC 实现音视频通话

  • 大模型流式语音识别时长
  • 不同的音色计费项如下:
    • 系统音色:
      • 大模型:系统音色文字转语音字数
      • 小模型:小模型合成次数
    • 复刻音色:复刻音色文字转语音字数
  • 语音通话
  • 对话式Al-音频

用量计算规则,请参考如何统计实时音视频通话中的音视频时长?如何统计实时音视频通话中的语音合成和语音识别用量?

Image

常见问题

超额累进和全额累进有什么区别?

扣子智能语音功能中多个计费项采用阶梯计价方式,用量越大,单价越低。
阶梯计费分为超额累进和全额累进,其详细对比如下:

/

超额累进计费

全额累进计费

定义

只对超出某个阶梯的部分按照该阶梯的单价计算费用,而之前的用量仍按较上一个阶梯的单价计算。

一旦用量达到某个阶梯,所有用量(包括之前的用量)都按照该阶梯的单价计算费用。

样例

例如,用户 A 在 2025 年 3 月累计产生小模型合成次数 100 万次,4 月产生 300 万次。则每月的小模型合成次数费用如下:

  • 3 月:1000,000 × 0.0055 = 5,500 元
  • 4 月:1000,000 × 0.0055 + (3000,000 - 1000,000) × 0.0050 = 15,500 元

例如,用户 A 在 2025 年 3 月复刻音色 11 个,4 月复刻 52 个,则音色数量费用如下:

  • 3 月:(11-1) × 138 = 1380 元
  • 4 月:(52-1) × 88 = 4480 元

图示

Image

Image

如何统计双向流式语音合成的用量?

使用语音合成功能时,系统会根据音色模型和音色类型收取。

  • 小模型的系统音色
    采用小模型的系统音色时,会对流式上传的文本进行分句,每个分句会产生一次调用。当识别到剩余文本字符数小于 1024 时,会一次性合成剩余所有文本的音频。分句规则为正则匹配,表达式为 [,:。?!;]+
    例如 "你下班打算干啥呀?是去看电影,还是约朋友吃饭;或者直接回家休息?有家火锅店味道超棒!我们周末去试试吧。",根据分句规则,会分成如下 5 句。

    你下班打算干啥呀?
    是去看电影,还是约朋友吃饭;
    或者直接回家休息?
    有家火锅店味道超棒!
    我们周末去试试吧。
    

    首次调用合成第一个分句的音频 你下班打算干啥呀?,识别到剩余字符数不足 1024,第二次调用合成剩余所有文本的音频,总计 2 次调用。

  • 大模型系统音色或复刻音色。
    采用复刻音色或大模型的系统音色时,系统会根据文本的字数进行计算。如果客户端主动断开链接,则按照已播放的音频对应的字数统计。例如用户上传的文本字符数为 500 字符,服务端已生成了 300 字符,返回给客户端了 280 字符播放,此时客户端主动断开链接,会按照 300 字符数进行统计。

如何统计实时音视频通话中的语音合成和语音识别用量?

语音合成

在使用实时通话时,如果使用了复刻音色和大模型系统音色,那么会产生语音合成费用,默认根据通话过程中大模型返回的文本字符数(包含开场白)计费。如果在使用过程中,用户主动打断智能体说话,会按照服务端已生成的音频对应的字符数进行计费。
例如一轮对话中,大模型返回了 500 字符,服务端已生成了 200 字符的音频,由于用户打断对话,客户端只播放了 100 字符,实际仍按照服务端已生成的 200 字符计费。

语音识别

在使用实时通话时,语音识别服务统计的音频时长约等于用户说话的总时长,不同语音检测模式统计音频时长的方式略有差异,具体说明如下:

模式

说明

按键说话模式

在按键说话模式下,语音识别服务时长为客户端统计的用户侧音频总时长,即客户端识别到用户说话时开始计时,识别到用户停止说话时停止计时。

自由对话模式

在自由对话模式下,扣子服务端会在每一段用户说话音频前后分别增加一段额外音频,以保证语音识别的准确性。

  • VAD 检测人声时启动语音识别服务,并增加一段 prefix_padding_ms 时长,以避免错过语音的起始部分,默认值为 600 毫秒。
  • VAD 检测未检测到人声后,增加 15 秒静音持续时间,以免切掉语音的最后一部分。

关于 WebSocket 场景和 RTC 场景下的语音检测模式说明,请参考如何设置扣子的语音检测模式
不同语音检测模式对应的语音时长统计图示如下:

说明

在自由对话模式中,VAD 检测到背景音中的人声并会启动语音识别服务,并不一定是用户开始说话。例如在使用实时通话功能时,即使用户没有说话,周围人的聊天声也可能被 VAD 检测到,从而启动语音识别服务。

Image

如何统计实时音视频通话中的音视频时长?

实时音视频功能的音频通话时长、视频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详细说明如下:

  1. 创建房间
    用户调用创建房间接口时,智能体自动进入房间处于等待状态,此时开始计算智能体的对话式 Al-音频费用和语音通话费用。

    说明

    智能体进入房间后,会等待用户 3 分钟,如果 3 分钟后用户仍未加入房间,智能体会退出房间。

  2. 用户进入房间
    开始计算用户语音通话费用,即从此时开始语音通话费用包括用户语音通话时长和智能体语音通话时长。
  3. 用户开启视频
    开始计算视频通话时长。
  4. 用户关闭视频
    用户关闭视频时,结束视频通话时长的计算。
  5. 用户退出房间
    用户退出房间时,智能体会随即退出房间,此时结束所有音视频时长的计算。

Image
例如小明使用实时音视频功能时,在 10:30 调用创建房间接口获取到进房凭证,在 10:32 进入房间开始和智能体对话,在 10:35 开启视频通话功能,在 10:40 关闭了视频通话功能(1080P),然后一直和智能体聊天到 11:30 退出房间。音视频通话时长及对应费用明细如下:

项目

时长

计费公式

对话式 Al-音频

智能体进房开始计算,即 10:30 到 11:30,共计 60 分钟。

60 分钟 × 9 点/分钟 = 540 点

语音通话

通话是双向的,用户侧和智能体侧两份语音通话时长单独计算:

  • 用户侧语音通话时长:从 10:32 到 11:30,一共 58 分钟。
  • 智能体侧语音通话时长:从 10:30 到 11:30,一共 60 分钟。

( 58 分钟 + 60 分钟 ) × 7 点/分钟 = 826 点

视频通话(1080P)

从 10:35 到 10:40,一共 5 分钟。

5 分钟 × 63 点/分钟 = 375 点

实时音视频通话时,创建房间就开始收费吗?

是的,调用创建房间 API 之后,智能体随即进房,开始收取智能体的语音通话费用、对话式 Al-音频费用,即使此时用户可能尚未加入房间。当用户拿到 Token 后没有进入房间,智能体也会在房间中等待,直到检测到用户 3 分钟后仍未进入房间,智能体才会退出房间。
因此,创建房间之后,即使没有实际的对话或语音通话,也会产生相应的费用。为避免这种情况,请合理控制建房接口的调用频率。

实时音视频通话时,为什么智能体没有说话,语音通话时长仍很长?

智能体未说话时,语音通话时长仍很长,可能是因为如下场景:
创建房间的用户进入房间与智能体聊天后退出房间,智能体也会随之退出。随后,用户可以使用创建房间时的凭证再次进入房间,但是智能体不会重新进入。此时,用户无法与智能体对话,但只有用户处在房间中,就仍会计算语音通话时长。
Image

为什么对话式 AI-音频时长和语音通话时长差别较大?

根本原因是出账延迟。例如用户在 10:30~10:40 期间使用了实时音视频功能,产生的对话式 AI-音频时长费用和语音通话时长费用,理论上会统计在 10:00~11:00 的账单上。但因为计算量大导致的出账延迟,两条账单分别有不同的偏移,对话式 AI-音频时长费用可能偏移到 11:00~12:00 的账单中,语音通话时长可能偏移到 12:00~13:00 的账单中,因此导致账单中两种时长差别较大。理论上,正常的实时音视频通话产生的时长比例约为 对话式AI-音频时长 : 语音通话时长 ≈ 1 : 2。你可以将时间段扩大到 3~5 小时,再次查看时长是否符合预期。

没有开启视频通话为何也有视频通话费用?

如果你没有开启视频通话,但仍然产生了视频通话费用,可能是由于使用了旧版的嵌入式 RTC SDK。旧版的嵌入式 RTC SDK 默认会打开视频开关,并产生视频通话费用。为避免这种情况,你可以重新安装 RTC SDK 以使用最新版 SDK,具体操作,请参考基于 RTC 实现音视频通话

使用 RTC 服务时是否会重复扣除智能语音的费用?

实时音视频与智能语音是独立计费项。实时音视频按通话、流媒体时长计费,智能语音中的语音识别按照时长计费、语音合成按照字符数计费。如果在 RTC 通话中同时使用语音识别或合成功能,会产生叠加计费。不同场景下的资源点消耗不同,如小程序语音通话为 7点/分钟,对话式 AI 音频为 9点/分钟。