在使用扣子智能音视频相关的服务(音色复刻、语音输入、朗读、音视频通话等)时,会产生相应的语音费用,包括声音复刻、语音合成、语音识别、音频通话、视频通话费用。
音视频服务 | 说明 |
---|---|
声音复刻 | 用户可以上传音频文件或直接录制声音,以复刻特定的音色。 |
语音合成 | 调用语音合成 API 将文本内容转为语音片段时,会产生语音合成费,收费方式取决于音色类型。
说明 字符是指计算机中使用的文字和符号等,1 个汉字、英文字母、希腊字母、标点符号、特殊符号、空格、回车等都算 1 个字符。 |
语音识别 | 调用语音识别 API 将音频文件转录为文本时,会产生语音识别费。语音识别服务按音频时长计费,累加每次语音转文字的总时长。统计计费时长的最小单位为毫秒,最终会转换为分钟,并四舍五入保留两位小数。 |
音频通话 | 用户与智能体进行音视频通话时,会产生音频通话费用。实时音视频功能的音频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详情请参考如何统计实时音视频通话中的音视频时长?。 说明
|
视频通话 | 在使用实时音视频功能时,如果开启视频通话功能,系统将根据视频分辨率和视频通话时长,在语音通话费用的基础上另外收取视频费用。 |
分类 | 计费项 | 说明 | 资源点 | 单价 |
---|---|---|---|---|
声音复刻 | 音色数量 | 使用音色复刻功能复刻出的自定义音色数量。默认扣减资源点,固定单价。 说明
| 138000 点/个 | |
音色模型存储数 | 每个复刻音色收取对应的音色模型存储费,按音色模型的个数收费。 | 1000 资源点/个/月 | 1 元/个/月 | |
语音合成 | 复刻音色文字转语音字数 | 使用复刻音色将文字内容转换为语音输出,根据字符数收费。 | 0.8点/字符 | 0.0008元/字符 |
系统音色文字转语音字数 | 使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用大模型音色,根据字符数收费。 | 0.5点/字符 | 0.0005元/字符 | |
小模型合成次数 | 使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用小模型音色,则根据小模型音色合成语音的次数收费。默认扣减资源点,固定单价。 说明 如果账户中足够的无资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次日将从最低档位重新开始累计。 | 5.5 资源点 | ||
语音识别 | 小模型流式语音识别时长 | 通过小模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。 说明 如果账户中足够的无资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。 | 58.4 资源点/次 | |
大模型流式语音识别时长 | 通过大模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。 | 75点/分钟 | 0.0750元/分钟 | |
大模型录音文件识别时长 | 通过大模型对上传的录音文件进行语音识别,将语音内容转换为文字,适用于离线语音处理。 | 39点/分钟 | 0.0390元/分钟 | |
音频通话 | 对话式Al-音频 | 智能体处理用户音视频流时产生的 AI 计算资源费用,其计费时长为智能体在房间内的时长,即从用户调用创建房间接口开始,直到智能体退出房间结束。 | 9点/分钟 | 0.0090元/分钟 |
语音通话 | 在小程序以外的发布渠道产生的智能语音通话,根据通话时长收取语音通话费用。因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的语音通话费用,但通话时长不同。
| 7点/分钟 | 0.0070元/分钟 | |
小程序语音通话 | 在小程序发布渠道产生的音视频通话,采用小程序语音通话计费项收取费用,同样会收取智能体和用户的双向语音通话费用。 | 9点/分钟 | 0.0090元/分钟 | |
视频通话 | 视频通话时长-4K | 根据 4K 视频分辨率的通话时长收取视频通话费用。 | 252点/分钟 | 0.2520元/分钟 |
视频通话时长-2K | 根据 2K 视频分辨率的通话时长收取视频通话费用。 | 112点/分钟 | 0.1120元/分钟 | |
视频通话时长-1080P | 根据 1080P 视频分辨率的通话时长收取视频通话费用。 | 63点/分钟 | 0.0630元/分钟 | |
视频通话时长-720P | 根据 720P 视频分辨率的通话时长收取视频通话费用。 | 28点/分钟 | 0.0280元/分钟 | |
视频通话时长-360P | 根据 360P 视频分辨率的通话时长收取视频通话费用。 | 14点/分钟 | 0.0140元/分钟 |
音色数量为全额累进模式的阶梯计费,即实时计费、自动跨档,跨档后当月所有音色数量按新阶梯价重新计算。各档位的单价如下:
音色数量档位 | 单价 | 费用计算公式 |
---|---|---|
0~50 个 | 138 元/个 | 音色数量 × 138 元 |
51~100 个 | 88 元/个 | 音色数量 × 88 元 |
101~200 个 | 58 元/个 | 音色数量 × 58 元 |
201~5000 个 | 38 元/个 | 音色数量 × 38 元 |
5001 个及以上 | 28 元/个 | 音色数量 × 28 元 |
小模型合成次数为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
小模型合成次数档位 | 单价 | 费用计算公式 |
---|---|---|
0~1000,000 次 | 0.0055 元/次 | X × 0.0055 元 |
1000,001~5000,000 次 | 0.0050 元/次 | 1000,000 × 0.0055
|
5000,001~10,000,000 次 | 0.0045 元/次 | 1000,000 × 0.0055
|
10,000,001 次及以上 | 0.0040 元/次 | 1000,000 × 0.0055
|
小模型流式语音识别时长为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
小模型流式语音识别时长档位 | 单价 | 费用计算公式 |
---|---|---|
0~18,000 分钟 | 0.0584 元/次 | Y × 0.0584 元 |
18,001~60,000 分钟 | 0.0500 元/次 | 18,000 × 0.0584
|
60,001~180,000 分钟 | 0.0400 元/次 | 18,000 × 0.0584
|
180,001~300,000 分钟 | 0.0300 元/次 | 18,000 × 0.0584
|
300,001 分钟及以上 | 0.0200 元/次 | 18,000 × 0.0584
|
声音复刻中的音色数量计费项会提供免费额度。
说明
免费额度仅涵盖音色数量,不包含音色模型存储费用,音色模型存储仍会产生相应费用。例如购买团队版套餐后,将拥有一个音色的免费额度。当你仅复刻一个音色时,不会扣费 138000 资源点。但是在自然月月底将被收取音色模型存储费用 1000 资源点。
订阅套餐 | 音色数量免费额度 |
---|---|
团队版 | 1 个 |
企业版 | 1 个 |
使用智能语音功能时,需要根据实际的使用场景和使用量支付一定费用。在扣子平台中常见的计费场景如下:
操作 | 操作说明 | 计费项 | 计费用量 | 操作示例 |
---|---|---|---|---|
语音输入 | 单击语音输入,按键开始说话,向智能体发送语音消息。 |
| 音频时长为从按住说话到松手发送的总时长。 | |
语音通话 | 单击编辑语音,设置音色后**,单击通话**,和智能体进行语音通话。 |
| 开始时间为单击通话时,结束时间为单击挂断时。 | |
朗读 | 单击编辑语音,设置音色后,设置了自动播放声音或主动单击智能体回复消息中的朗读,即开始朗读消息 | 不同的音色计费项如下:
| 朗读是通过调用双向流式语音合成 API 实现的。用量计算规则,请参考如何统计双向流式语音合成的用量?。 |
操作 | 操作说明 | 费用 | 计费用量 | 操作示例 |
---|---|---|---|---|
复刻音色 | 企业团队管理员购买音色扩容包。 | 声音复刻计费项,包括:
|
| |
语音合成 | 在输入框中输入文本,单击合成。 | 复刻音色文字转语音字数 | 根据输入框中的文字字数统计 |
操作 | 操作说明 | 费用 | 计费用量 | 操作示例 |
---|---|---|---|---|
语音输入 | 单击**语音输入,**按键开始说话,向智能体发送语音消息,松开结束说话。 | 大模型录音文件识别时长 | 音频时长为从按住说话到松手发送语音的总时长。 |
操作 | 操作说明 | 费用 | 计费用量 | 操作示例 |
---|---|---|---|---|
语音合成 | 调用语音合成 API | 不同的音色计费项如下:
|
| |
调用双向流式语音合成 API | 不同的音色计费项如下:
| 用量计算规则,请参考如何统计双向流式语音合成的用量?。 | 示例请参考集成 WebSocket 实时语音 SDK。 | |
语音识别 | 调用语音识别 API。 | 大模型录音文件识别时长 | 根据上传的音频文件的音频时长统计。 | |
调用双向流式语音识别事件 API | 大模型录音文件识别时长 | 根据上传的音频文件的音频时长统计。 | 示例请参考集成 WebSocket 实时语音 SDK。 | |
实时音视频对话 | 基于 WebSocket OpenAPI 实现音频通话(暂不支持视频) |
| 用量计算规则,请参考如何统计实时音视频通话中的语音合成和语音识别用量? | |
| 用量计算规则,请参考如何统计实时音视频通话中的音视频时长?、如何统计实时音视频通话中的语音合成和语音识别用量? |
扣子智能语音功能中多个计费项采用阶梯计价方式,用量越大,单价越低。
阶梯计费分为超额累进和全额累进,其详细对比如下:
/ | 超额累进计费 | 全额累进计费 |
---|---|---|
定义 | 只对超出某个阶梯的部分按照该阶梯的单价计算费用,而之前的用量仍按较上一个阶梯的单价计算。 | 一旦用量达到某个阶梯,所有用量(包括之前的用量)都按照该阶梯的单价计算费用。 |
样例 | 例如,用户 A 在 2025 年 3 月累计产生小模型合成次数 100 万次,4 月产生 300 万次。则每月的小模型合成次数费用如下:
| 例如,用户 A 在 2025 年 3 月复刻音色 11 个,4 月复刻 52 个,则音色数量费用如下:
|
图示 |
使用语音合成功能时,系统会根据音色模型和音色类型收取。
小模型的系统音色
采用小模型的系统音色时,会对流式上传的文本进行分句,每个分句会产生一次调用。当识别到剩余文本字符数小于 1024 时,会一次性合成剩余所有文本的音频。分句规则为正则匹配,表达式为 [,:。?!;]+
。
例如 "你下班打算干啥呀?是去看电影,还是约朋友吃饭;或者直接回家休息?有家火锅店味道超棒!我们周末去试试吧。"
,根据分句规则,会分成如下 5 句。
你下班打算干啥呀? 是去看电影,还是约朋友吃饭; 或者直接回家休息? 有家火锅店味道超棒! 我们周末去试试吧。
首次调用合成第一个分句的音频 你下班打算干啥呀?
,识别到剩余字符数不足 1024,第二次调用合成剩余所有文本的音频,总计 2 次调用。
大模型系统音色或复刻音色。
采用复刻音色或大模型的系统音色时,系统会根据文本的字数进行计算。如果客户端主动断开链接,则按照已播放的音频对应的字数统计。例如用户上传的文本字符数为 500 字符,服务端已生成了 300 字符,返回给客户端了 280 字符播放,此时客户端主动断开链接,会按照 300 字符数进行统计。
在使用实时通话时,如果使用了复刻音色和大模型系统音色,那么会产生语音合成费用,默认根据通话过程中大模型返回的文本字符数(包含开场白)计费。如果在使用过程中,用户主动打断智能体说话,会按照服务端已生成的音频对应的字符数进行计费。
例如一轮对话中,大模型返回了 500 字符,服务端已生成了 200 字符的音频,由于用户打断对话,客户端只播放了 100 字符,实际仍按照服务端已生成的 200 字符计费。
在使用实时通话时,语音识别服务统计的音频时长约等于用户说话的总时长,不同语音检测模式统计音频时长的方式略有差异,具体说明如下:
模式 | 说明 |
---|---|
按键说话模式 | 在按键说话模式下,语音识别服务时长为客户端统计的用户侧音频总时长,即客户端识别到用户说话时开始计时,识别到用户停止说话时停止计时。 |
自由对话模式 | 在自由对话模式下,扣子服务端会在每一段用户说话音频前后分别增加一段额外音频,以保证语音识别的准确性。
|
关于 WebSocket 场景和 RTC 场景下的语音检测模式说明,请参考如何设置扣子的语音检测模式。
不同语音检测模式对应的语音时长统计图示如下:
说明
在自由对话模式中,VAD 检测到背景音中的人声并会启动语音识别服务,并不一定是用户开始说话。例如在使用实时通话功能时,即使用户没有说话,周围人的聊天声也可能被 VAD 检测到,从而启动语音识别服务。
实时音视频功能的音频通话时长、视频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详细说明如下:
说明
智能体进入房间后,会等待用户 3 分钟,如果 3 分钟后用户仍未加入房间,智能体会退出房间。
例如小明使用实时音视频功能时,在 10:30 调用创建房间接口获取到进房凭证,在 10:32 进入房间开始和智能体对话,在 10:35 开启视频通话功能,在 10:40 关闭了视频通话功能(1080P),然后一直和智能体聊天到 11:30 退出房间。音视频通话时长及对应费用明细如下:
项目 | 时长 | 计费公式 |
---|---|---|
对话式 Al-音频 | 智能体进房开始计算,即 10:30 到 11:30,共计 60 分钟。 | 60 分钟 × 9 点/分钟 = 540 点 |
语音通话 | 通话是双向的,用户侧和智能体侧两份语音通话时长单独计算:
| ( 58 分钟 + 60 分钟 ) × 7 点/分钟 = 826 点 |
视频通话(1080P) | 从 10:35 到 10:40,一共 5 分钟。 | 5 分钟 × 63 点/分钟 = 375 点 |
是的,调用创建房间 API 之后,智能体随即进房,开始收取智能体的语音通话费用、对话式 Al-音频费用,即使此时用户可能尚未加入房间。当用户拿到 Token 后没有进入房间,智能体也会在房间中等待,直到检测到用户 3 分钟后仍未进入房间,智能体才会退出房间。
因此,创建房间之后,即使没有实际的对话或语音通话,也会产生相应的费用。为避免这种情况,请合理控制建房接口的调用频率。
智能体未说话时,语音通话时长仍很长,可能是因为如下场景:
创建房间的用户进入房间与智能体聊天后退出房间,智能体也会随之退出。随后,用户可以使用创建房间时的凭证再次进入房间,但是智能体不会重新进入。此时,用户无法与智能体对话,但只有用户处在房间中,就仍会计算语音通话时长。
根本原因是出账延迟。例如用户在 10:30~10:40 期间使用了实时音视频功能,产生的对话式 AI-音频时长费用和语音通话时长费用,理论上会统计在 10:00~11:00 的账单上。但因为计算量大导致的出账延迟,两条账单分别有不同的偏移,对话式 AI-音频时长费用可能偏移到 11:00~12:00 的账单中,语音通话时长可能偏移到 12:00~13:00 的账单中,因此导致账单中两种时长差别较大。理论上,正常的实时音视频通话产生的时长比例约为 对话式AI-音频时长 : 语音通话时长 ≈ 1 : 2
。你可以将时间段扩大到 3~5 小时,再次查看时长是否符合预期。
如果你没有开启视频通话,但仍然产生了视频通话费用,可能是由于使用了旧版的嵌入式 RTC SDK。旧版的嵌入式 RTC SDK 默认会打开视频开关,并产生视频通话费用。为避免这种情况,你可以重新安装 RTC SDK 以使用最新版 SDK,具体操作,请参考基于 RTC 实现音视频通话。
实时音视频与智能语音是独立计费项。实时音视频按通话、流媒体时长计费,智能语音中的语音识别按照时长计费、语音合成按照字符数计费。如果在 RTC 通话中同时使用语音识别或合成功能,会产生叠加计费。不同场景下的资源点消耗不同,如小程序语音通话为 7点/分钟,对话式 AI 音频为 9点/分钟。