You need to enable JavaScript to run this app.
导航
对话式 AI 功能咨询
最近更新时间:2025.06.19 13:27:45首次发布时间:2025.05.22 21:32:08
我的收藏
有用
有用
无用
无用

实时对话 AI 是否支持输入文本来触发AI对话?

目前 AI 方案不支持文字触发 AI 问答,目前仅支持语音麦克风采集问答。

实时对话 AI 支持给用户打电话吗?

不支持传统运营商电话,只支持类似微信语音电话类型的网络电话(SIP)。运营商的电话拨打需要业务自行和运营商沟通集成,RTC 不提供支持。网络电话支持通过 RTC Linux SDK 服务器版 接入业务自有网络电话系统实现音频流中转,但具体方案需要业务自行实现。

实时对话式 AI 如何记忆对话内容?

调用 StartVoiceChat 接口时,配置参数 LLMConfig.HistoryLength,可以记忆对话内容。

实时对话式 AI 可以基于 WebSocket 的接入吗?

实时对话式 AI 目前暂不支持 WebSocket 接入,需使用通过火山引擎 RTC SDK 接入。

实时对话式 AI 支持几人通话?

目前仅支持 1v1,即一个客户端用户、一个智能体。

启动智能体的 AppId、RoomId、UserId 是随机定义的吗?

  • AppId:每个应用(App)的唯一标识符,AppId 由火山分配,不可自定义。
  • RoomId:智能体与真人通话的房间 ID,必须与真人用户使用客户端 SDK 进房时使用的 RoomId 保持一致。
  • UserId:智能体 ID,用于标识智能体。由你自行定义,支持由大小写字母(A-Z、a-z)、数字(0-9)、下划线(_)、短横线(-)、句点(.)和 @ 组成,最大长度为 128 个字符。

实时对话式 AI 是否可以把图片信息传递给多模态的大模型?

暂不不支持传入图片。

房间只有一个用户,没有智能体,会自动关闭房间吗?

如果没有主动退出房间,在 Token 过期前不会自动关闭房间。

启动智能体后,可以远程控制智能体说话吗?

不支持。

实时对话式 AI 互动支持多少并发?

RTC 关于并发目前没有限制。

实时对话式 AI 是否支持使用第三方服务(比如TTS、ASR)?

部分服务支持使用第三方的,具体支持情况如下:

  • LLM:支持使用第三方大模型或 Agent,但是需要满足火山引擎规范。具体请参见接入第三方大模型或 Agent
  • TTS:支持使用 MiniMax 语音合成服务。
  • ASR:不支持使用第三方服务,仅支持火山引擎的 ASR 服务。

实时对话式 AI 音色是否可以直接集成?

可以。在语音技术控制台可以购买音色,获取 voice_type 值后填入 StartVoiceChat 接口。不同服务下具体支持的音色不同,支持音色详情参看不同服务下的音色列表

实时对话式 AI 支持自定义音色吗?

支持。可参看火山声音复刻大模型(非流式输入流式输出)自定义音色。

能否获得 ASR、TTS 和 LLM 模块的内容?

可以。可通过字幕功能接收,具体请参见字幕功能

是否可以实现对话中查询天气等能力?

可以。可参看 Function Calling功能实现。

是否支持获取大模型的推理过程?

不支持。

如何存储真人用户和智能体的音频对话内容?

可使用云端录制功能存储,详情参看关于云端录制

如何调节房间内智能体和真人用户的说话音量?

可通过 setRemoteAudioPlaybackVolume 接口调节本地播放的所有音频的音量。

不同房间模式下,智能体的声音高低不同?

不同房间模式下,对声音的处理策略不同,会导致不同场景下的声音高低不同。

智能体能否存储上一次对话内容?

可在启动智能体任务前,将上一次对话内容传入 LLMConfig.UserPrompts 作为对话上下文。

智能体启动后,ASR、TTS、LLM 和 Agent 配置能否修改?

无法在任务启动时修改。需要先结束当前任务,再使用新的配置重新启动任务。

QPS 限制是主账号和子账号共用的吗?

是的。单用户 QPS 限制是指火山引擎主账号及其子账号每秒调用特定 API 的频率上限。例如,StartVoiceChat接口的单用户 QPS 限制为 60 次/秒,假设用户有 1 个主账号,该主账号有 4 个子账号,如果这 5 个账号同时调用StartVoiceChat接口,则这 5 个账号的调用频率加起来不能超过 60 次/秒。

是否支持语音唤醒?

不支持。

如何暂时关闭智能体?

可以使用打断功能 组合静音麦克风暂停与智能体的交互。

是否可以设置智能体人设?

可以。可以通过大模型配置中的 SystemMessages 配置。详情可参看大模型配置

能否设置人说话不自动打断智能体回复?

可以使用配置对话触发模式功能手动判断新一轮对话触发的时机。

对话式 AI 能否接入知识库?

可以。具体操作请参看对话式 AI 如何接入知识库 RAG?

对话过程中能否人工介入修改智能体的回复?

可以。具体操作请参看自定义语音播放

是否可以多个智能体设备 ASR、TTS、LLM 使用相同账号和配置?

可以。单需要注意并发数,具体 QPS 限制请参考各个服务官网。

调用 StartVoiceChat 智能体接口时,是否支持海外请求地址?

不支持。

Function Calling(流式返回结果) 和 Function Calling(非流式返回结果) 有什么区别?

Function Calling(流式返回结果) 是指在调用 Function Calling 接口时,返回结果是流式返回的。Function Calling(非流式返回结果) 是指在调用 Function Calling 接口时,返回结果是一次性返回的。不同模型下返回的方式不同,只有在使用 doubao-1.5 代系模型和 DeepSeek 模型时,按照流式返回 Function Calling 结果,使用 doubao 非1.5 代系模型时,按照非流式返回 Function Calling 结果。

大模型推理内容能否保存?

不支持。

如何实现等待模型返回内容时,智能体不被新的语音输入打断?

可以使用配置对话触发模式选择手动触发新一轮对话,智能体未接受触发新一轮对话开始信令时,不会被新的语音输入打断。