在使用扣子智能音视频相关的服务(音色复刻、语音输入、朗读、音视频通话等)时,会产生相应的语音费用,包括声音复刻、语音合成、语音识别、音频通话、视频通话费用。
说明
自2025年8月5日起,声音复刻将调整为预购买音色模式。仅团队版或企业版套餐支持购买,且不再支持通过资源点抵扣费用。音色的定价固定为每个 138 元。
音视频服务 | 说明 |
|---|---|
智能设备语音通话 | 扣子支持将智能体集成到智能设备上,当用户在与智能设备进行语音通话时,会产生语音识别、语音合成、模型 token、语音通话等费用。 |
声音复刻 | 用户可以上传音频文件或直接录制声音,以复刻特定的音色。 |
声纹识别 | 启用声纹识别功能后,用户在进行音视频通话时,扣子能够自动识别说话人身份,并会产生声纹识别费用。如何使用声纹识别,请参考声纹识别。 |
语音合成 | 使用语音合成功能将文本内容转为语音片段时,会产生语音合成费,收费方式取决于音色类型。
说明 字符是指计算机中使用的文字和符号等,1 个汉字、英文字母、希腊字母、标点符号、特殊符号、空格、回车等都算 1 个字符。 |
语音识别 | 使用语音识别功能将音频转为文本时,会产生语音识别费用。语音识别服务按音频时长计费,累加每次语音转文字的总时长。统计计费时长的最小单位为毫秒,最终会转换为分钟,并四舍五入保留两位小数。在使用语音识别服务时,计费依据是音频的总时长,与音频是单声道还是双声道无关。
|
音频通话 | 用户与智能体进行音视频通话时,会产生音频通话费用。实时音视频功能的音频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详情请参考如何统计实时音视频通话中的音视频时长?。 说明
|
视频通话 | 在使用实时音视频功能时,如果开启视频通话功能,系统将根据视频分辨率和视频通话时长,在语音通话费用的基础上另外收取视频费用。 |
在扣子平台,所有按量付费的扣子资源的消耗默认通过资源点进行抵扣。当账户或资源包内的资源点余额不足时,系统将自动从你的现金账户中扣除对应的金额。采用预付费方式的计费项(例如增购声音复刻-音色数量)不支持资源点抵扣。
说明
分类 | 计费项 | 说明 | 免费额度 | 单价 | |
|---|---|---|---|---|---|
资源点结算 | 现金结算 | ||||
智能设备语音通话 | 增购AI智能通话许可(复刻音色) | 购买增购AI智能通话许可(复刻音色)服务后,在通话时系统会根据购买的通话时长抵扣企业内所有上报设备的语音识别、语音合成(复刻音色)和文本模型费用。
| 无 | 不支持 | 7.5 元/小时*台 |
增购AI智能通话许可(系统音色) | 购买增购AI智能通话许可(系统音色)服务后,在通话时系统会根据购买的通话时长抵扣企业内所有上报设备的语音识别、语音合成(系统音色)和文本模型费用。
| 无 | 不支持 | 5 元/小时*台 | |
声音复刻 | 增购声音复刻-音色数量 | 使用声音复刻功能能够复刻出自定义的音色。声音复刻采用预购买音色的计费方式,仅团队或企业版套餐支持购买,购买时需一次性支付相应的费用。即需要先购买,再使用。购买说明,请参考购买音色。
| 1 个 | 不支持 | 138 元/个 |
音色模型存储数 | 每个复刻音色收取对应的音色模型存储费,按音色模型的个数收费。 | 1 个 | 1000 资源点/个/月 | 1 元/个/月 | |
声纹识别 | 声纹识别 | 开启声纹识别功能后,用户与智能体进行音视频通话时,每输入一次语音对话,系统将识别一次声纹,并计算一次声纹识别费用。 | 600 次 | 5 资源点/次 | 0.005 元/次 |
语音合成 | 复刻音色文字转语音字数 | 使用复刻音色将文字内容转换为语音输出,根据字符数收费。 | 50,000 字符 | 0.8 资源点/字符 | 0.0008 元/字符 |
系统音色文字转语音字数 | 使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用大模型音色,根据字符数收费。 | 50,000 字符 | 0.5 资源点/字符 | 0.0005 元/字符 | |
小模型合成次数 | 使用系统预设音色将文字内容转换为语音输出,语音合成时选择使用小模型音色,则根据小模型音色合成语音的次数收费。默认扣减资源点,固定单价。 说明 如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。 | 1500 次 | 5.5 资源点/次 | ||
语音识别 | 小模型流式语音识别时长 | 通过小模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。 说明 如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为月,次月将从最低档位重新开始累计。 | 180 分钟 | 58.4 资源点/分钟 | |
大模型流式语音识别时长 | 通过大模型实时识别语音流,快速将语音内容转换为文字,适用于实时交互场景。 | 180 分钟 | 75 资源点/分钟 | 0.075 元/分钟 | |
大模型录音文件识别时长 | 通过大模型对上传的录音文件进行语音识别,将语音内容转换为文字,适用于离线语音处理。 | 180 分钟 | 39 资源点/分钟 | 0.039 元/分钟 | |
录音文件识别(极速版) | 通过小模型对上传的录音文件进行语音识别,将语音内容转换为文字,适用于离线语音处理。 说明 如果账户中无足够的资源点余额,则采用按量计费模式,按小时统计用量并从现金账户扣款。此时享受超额累进的阶梯价,用量越大、单价越低。累进周期为日,次日将从最低档位重新开始累计。 | 180 分钟 | 50 资源点/分钟 | ||
音频通话 | 对话式Al-音频时长 | 智能体处理用户音视频流时产生的 AI 计算资源费用,其计费时长为智能体在房间内的时长,即从用户调用创建房间接口开始,直到智能体退出房间结束。 | 180 分钟 | 9 资源点/分钟 | 0.009 元/分钟 |
语音通话时长 | 在小程序以外的发布渠道产生的智能语音通话,根据通话时长收取语音通话费用。因为通话是双向的,所以扣子会同时收取智能体侧和用户侧的语音通话费用,但通话时长不同。
| 180 分钟 | 7 资源点/分钟 | 0.007 元/分钟 | |
小程序语音通话 | 在小程序发布渠道产生的音视频通话,采用小程序语音通话计费项收取费用,同样会收取智能体和用户的双向语音通话费用。 | 180 分钟 | 9 资源点/分钟 | 0.0090 元/分钟 | |
视频通话 | 视频通话时长-4K | 根据 4K 视频分辨率的通话时长收取视频通话费用。 | 180 分钟 | 252 资源点/分钟 | 0.252 元/分钟 |
视频通话时长-2K | 根据 2K 视频分辨率的通话时长收取视频通话费用。 | 180 分钟 | 112 资源点/分钟 | 0.112 元/分钟 | |
视频通话时长-1080P | 根据 1080P 视频分辨率的通话时长收取视频通话费用。 | 180 分钟 | 63 资源点/分钟 | 0.063 元/分钟 | |
视频通话时长-720P | 根据 720P 视频分辨率的通话时长收取视频通话费用。 | 180 分钟 | 28 资源点/分钟 | 0.028 元/分钟 | |
视频通话时长-360P | 根据 360P 视频分辨率的通话时长收取视频通话费用。 | 180 分钟 | 14 资源点/分钟 | 0.014 元/分钟 | |
小模型合成次数为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
小模型合成次数档位 | 单价 | 费用计算公式 |
|---|---|---|
0~1000,000 次 | 0.0055 元/次 | Y ✖️ 0.0055 元 |
1000,001~5000,000 次 | 0.0050 元/次 | 1000,000 ✖️ 0.0055 |
5000,001~10,000,000 次 | 0.0045 元/次 | 1000,000 ✖️ 0.0055 |
10,000,001 次及以上 | 0.0040 元/次 | 1000,000 ✖️ 0.0055 |
小模型流式语音识别时长为超额累进模式的阶梯计费,按月统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
小模型流式语音识别时长档位 | 单价 | 费用计算公式 |
|---|---|---|
0~18,000 分钟 | 0.0584 元/分钟 | Y ✖️ 0.0584 元 |
18,001~60,000 分钟 | 0.0500 元/分钟 | 18,000 ✖️ 0.0584 |
60,001~180,000 分钟 | 0.0400 元/分钟 | 18,000 ✖️ 0.0584 |
180,001~300,000 分钟 | 0.0300 元/分钟 | 18,000 ✖️ 0.0584 |
300,001 分钟及以上 | 0.0200 元/分钟 | 18,000 ✖️ 0.0584 |
录音文件识别(极速版)为超额累进模式的阶梯计费,按日统计,单价被划分为不同的阶梯区间,每个阶梯对应不同的单价,但仅对超出部分按该阶梯的单价计算费用,而之前的用量仍按较低阶梯的单价计算。各档位的单价如下:
录音文件识别(极速版)时长档位 | 单价 | 费用计算公式 |
|---|---|---|
0~300 分钟 | 0.05 元/分钟 | Y ✖️ 0.05 元 |
301~1,000 分钟 | 0.043 元/分钟 | 300 ✖️ 0.05 |
1,001~3,000 分钟 | 0.035 元/分钟 | 300 ✖️ 0.05 |
3,001~5,000 分钟 | 0.03 元/分钟 | 300 ✖️ 0.05 |
5,001 分钟及以上 | 0.02 元/分钟 | 300 ✖️ 0.05 |
使用智能语音功能时,需要根据实际的使用场景和使用量支付一定费用。在扣子平台中常见的计费场景如下:
操作 | 操作说明 | 计费项 | 计费用量 | 操作示例 |
|---|---|---|---|---|
语音输入 | 单击语音输入,按键开始说话,向智能体发送语音消息。 |
| 音频时长为从按住说话到松手发送的总时长。 | |
语音通话 | 单击编辑语音,设置音色后,单击通话,和智能体进行语音通话。 |
| 开始时间为单击通话时,结束时间为单击挂断时。 | |
朗读 | 单击编辑语音,设置音色后,设置了自动播放声音或主动单击智能体回复消息中的朗读,即开始朗读消息 | 不同的音色计费项如下:
| 朗读是通过调用双向流式语音合成 API 实现的。用量计算规则,请参考如何统计双向流式语音合成的用量?。 |
操作 | 操作说明 | 费用 | 计费用量 | 操作示例 |
|---|---|---|---|---|
调用语音识别插件 | 在智能体、工作流中调用语音识别插件,通过小模型将语音文件转换为文本。 | 录音文件识别(极速版) | 根据音频文件的时长统计。 | |
在智能体、工作流中调用大模型语音识别插件,通过大模型将语音文件转换为文本。 | 大模型录音文件识别时长 | 根据音频文件的时长统计。 | ||
调用语音合成插件 | 在智能体、工作流中调用语音合成插件,将文本转换为音频。 | 不同的音色计费项如下:
|
|
操作 | 操作说明 | 费用 | 计费用量 | 操作示例 |
|---|---|---|---|---|
复刻音色 | 企业团队管理员购买音色扩容包。 | 声音复刻计费项,包括:
|
| |
语音合成 | 在输入框中输入文本,单击合成。 | 复刻音色文字转语音字数 | 根据输入框中的文字字数统计 |
操作 | 操作说明 | 费用 | 计费用量 | 操作示例 |
|---|---|---|---|---|
语音输入 | 单击语音输入,按键开始说话,向智能体发送语音消息,松开结束说话。 | 大模型录音文件识别时长 | 音频时长为从按住说话到松手发送语音的总时长。 |
操作 | 操作说明 | 费用 | 计费用量 | 操作示例 |
|---|---|---|---|---|
语音合成 | 调用语音合成 API | 不同的音色计费项如下:
|
| |
调用双向流式语音合成 API | 不同的音色计费项如下:
| 用量计算规则,请参考如何统计双向流式语音合成的用量?。 | 示例请参考集成 WebSocket 实时语音 SDK。 | |
语音识别 | 调用语音识别 API。 | 大模型录音文件识别时长 | 根据上传的音频文件的音频时长统计。 | |
调用双向流式语音识别事件 API | 大模型流式语音识别时长 | 根据语音时长统计。 | 示例请参考集成 WebSocket 实时语音 SDK。 | |
实时音视频对话 | 基于 WebSocket OpenAPI 实现音频通话(暂不支持视频) |
| 用量计算规则,请参考如何统计实时音视频通话中的语音合成和语音识别用量? | |
| 用量计算规则,请参考如何统计实时音视频通话中的音视频时长?、如何统计实时音视频通话中的语音合成和语音识别用量? | |||
语音消息 | 调用发起对话 API 发送语音消息 说明 通过发起对话 API 发送语音消息的功能已停止迭代,推荐使用 WebSocket 语音通话,其具备更优性能、更低延迟,具体请参见基于 WebSocket OpenAPI 实现音频通话。 |
|
| 无 |
说明
在火山扣子控制台概览页面的声音复刻-音色数量区域,查看未使用的声音复刻-音色数量(①)、已购买的声音复刻-音色数和声音复刻-音色免费额度总和(②)。例如 11 表示音色免费额度 1 个以及购买的音色 10 个。
说明
说明
购买的时长为当前企业内所有上报设备共用额度,不是指每台设备的时长额度。每次购买的时长需为 10,000 的倍数。
购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)服务后,你可以在扣子开发平台的组织管理 > 设备管理的用量明细及管控页签下,单击购买明细,包括已购买的通话时长、已使用的通话时长、购买时间、有效期等信息。
购买增购 AI 智能通话许可(复刻音色)、增购 AI 智能通话许可(系统音色)服务后,你可以通过语音通话时长-系统音色或语音通话时长-复刻音色查看对应的时长余量。
扣子智能语音功能中多个计费项采用阶梯计价方式,用量越大,单价越低。
阶梯计费分为超额累进和全额累进,其详细对比如下:
/ | 超额累进计费 | 全额累进计费 |
|---|---|---|
定义 | 只对超出某个阶梯的部分按照该阶梯的单价计算费用,而之前的用量仍按较上一个阶梯的单价计算。 | 一旦用量达到某个阶梯,所有用量(包括之前的用量)都按照该阶梯的单价计算费用。 |
样例 | 例如,用户 A 在 2025 年 3 月累计产生小模型合成次数 100 万次,4 月产生 300 万次。则每月的小模型合成次数费用如下:
| 例如,用户 A 在 2025 年 3 月复刻音色 11 个,4 月复刻 52 个,则音色数量费用如下:
|
图示 |
使用语音合成功能时,系统会根据音色模型和音色类型收取。
小模型的系统音色
采用小模型的系统音色时,会对流式上传的文本进行分句,每个分句会产生一次调用。当识别到剩余文本字符数小于 1024 时,会一次性合成剩余所有文本的音频。分句规则为正则匹配,表达式为 [,:。?!;]+。
例如 "你下班打算干啥呀?是去看电影,还是约朋友吃饭;或者直接回家休息?有家火锅店味道超棒!我们周末去试试吧。",根据分句规则,会分成如下 5 句。
你下班打算干啥呀? 是去看电影,还是约朋友吃饭; 或者直接回家休息? 有家火锅店味道超棒! 我们周末去试试吧。
首次调用合成第一个分句的音频 你下班打算干啥呀?,识别到剩余字符数不足 1024,第二次调用合成剩余所有文本的音频,总计 2 次调用。
大模型系统音色或复刻音色。
采用复刻音色或大模型的系统音色时,系统会根据文本的字数进行计算。如果客户端主动断开链接,则按照已播放的音频对应的字数统计。例如用户上传的文本字符数为 500 字符,服务端已生成了 300 字符,返回给客户端了 280 字符播放,此时客户端主动断开链接,会按照 300 字符数进行统计。
在使用实时通话时,如果使用了复刻音色和大模型系统音色,那么会产生语音合成费用,默认根据通话过程中大模型返回的文本字符数(包含开场白)计费。如果在使用过程中,用户主动打断智能体说话,会按照服务端已生成的音频对应的字符数进行计费。
例如一轮对话中,大模型返回了 500 字符,服务端已生成了 200 字符的音频,由于用户打断对话,客户端只播放了 100 字符,实际仍按照服务端已生成的 200 字符计费。
在使用实时通话时,语音识别服务统计的音频时长约等于用户说话的总时长,不同语音检测模式统计音频时长的方式略有差异,具体说明如下:
模式 | 说明 |
|---|---|
按键说话模式 | 在按键说话模式下,语音识别服务时长为客户端统计的用户侧音频总时长,即客户端识别到用户说话时开始计时,识别到用户停止说话时停止计时。 |
自由对话模式 | 自由对话模式下的音频时长统计逻辑如下:
|
关于 WebSocket 场景和 RTC 场景下的语音检测模式说明,请参考如何设置扣子的语音检测模式。
不同语音检测模式对应的语音时长统计图示如下:
说明
在自由对话模式中,VAD 检测到背景音中的人声并会启动语音识别服务,并不一定是用户开始说话。例如在使用实时通话功能时,即使用户没有说话,周围人的聊天声也可能被 VAD 检测到,从而启动语音识别服务。
实时音视频功能的音频通话时长、视频通话时长从用户调用创建房间接口开始计算,到用户退出房间结束。详细说明如下:
说明
智能体进入房间后,会等待用户 3 分钟,如果 3 分钟后用户仍未加入房间,智能体会退出房间。
例如小明使用实时音视频功能时,在 10:30 调用创建房间接口获取到进房凭证,在 10:32 进入房间开始和智能体对话,在 10:35 开启视频通话功能,在 10:40 关闭了视频通话功能(1080P),然后一直和智能体聊天到 11:30 退出房间。音视频通话时长及对应费用明细如下:
项目 | 时长 | 计费公式 |
|---|---|---|
对话式 Al-音频 | 智能体进房开始计算,即 10:30 到 11:30,共计 60 分钟。 | 60 分钟 × 9 点/分钟 = 540 点 |
语音通话 | 通话是双向的,用户侧和智能体侧两份语音通话时长单独计算:
| ( 58 分钟 + 60 分钟 ) × 7 点/分钟 = 826 点 |
视频通话(1080P) | 从 10:35 到 10:40,一共 5 分钟。 | 5 分钟 × 63 点/分钟 = 375 点 |
是的,调用创建房间 API 之后,智能体随即进房,开始收取智能体的语音通话费用、对话式 Al-音频费用,即使此时用户可能尚未加入房间。当用户拿到 Token 后没有进入房间,智能体也会在房间中等待,直到检测到用户 3 分钟后仍未进入房间,智能体才会退出房间。
因此,创建房间之后,即使没有实际的对话或语音通话,也会产生相应的费用。为避免这种情况,请合理控制建房接口的调用频率。
智能体未说话时,语音通话时长仍很长,可能是因为如下场景:
创建房间的用户进入房间与智能体聊天后退出房间,智能体也会随之退出。随后,用户可以使用创建房间时的凭证再次进入房间,但是智能体不会重新进入。此时,用户无法与智能体对话,但只有用户处在房间中,就仍会计算语音通话时长。
根本原因是出账延迟。例如用户在 10:30~10:40 期间使用了实时音视频功能,产生的对话式 AI-音频时长费用和语音通话时长费用,理论上会统计在 10:00~11:00 的账单上。但因为计算量大导致的出账延迟,两条账单分别有不同的偏移,对话式 AI-音频时长费用可能偏移到 11:00~12:00 的账单中,语音通话时长可能偏移到 12:00~13:00 的账单中,因此导致账单中两种时长差别较大。理论上,正常的实时音视频通话产生的时长比例约为 对话式AI-音频时长 : 语音通话时长 ≈ 1 : 2。你可以将时间段扩大到 3~5 小时,再次查看时长是否符合预期。
如果你没有开启视频通话,但仍然产生了视频通话费用,可能是由于使用了旧版的嵌入式 RTC SDK。旧版的嵌入式 RTC SDK 默认会打开视频开关,并产生视频通话费用。为避免这种情况,你可以重新安装 RTC SDK 以使用最新版 SDK,具体操作,请参考基于 RTC 实现音视频通话。
实时音视频与智能语音是独立计费项。实时音视频按通话、流媒体时长计费,智能语音中的语音识别按照时长计费、语音合成按照字符数计费。如果在 RTC 通话中同时使用语音识别或合成功能,会产生叠加计费。不同场景下的资源点消耗不同,如小程序语音通话为 9点/分钟,对话式 AI 音频为 9点/分钟。