You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
FAQ
对话式 AI 功能咨询
复制全文
对话式 AI 功能咨询

实时对话式 AI 是否支持输入文本来触发 AI 对话?

支持。可通过 UpdateVoiceChat 来实现(字段 Command 需设置为 ExternalTextToLLM)。具体操作,请参见传入文本直接提问(立即回复)

实时对话式 AI 支持给用户打电话吗?

支持。不支持传统运营商电话,但可以通过 SIP2RTC 方式和 PSTN 公共电话网络互通,需要自集成 RTC Linux SDK,以接入你的网络电话系统做流中转的方式自行实现。

实时对话式 AI 如何记忆对话内容?

  • 短期记忆(上下文):在启动任务时,通过 LLMConfig.HistoryLength 配置保留的历史对话轮数。
  • 长期记忆(跨会话)接入记忆库(长期记忆),让智能体记住用户的偏好、历史信息等,实现跨会话的持久记忆。

实时对话式 AI 可以基于 WebSocket 的接入吗?

在 IoT 场景,实时对话式 AI 支持通过 WebSocket 接入。详细说明,请参见什么是硬件对话智能体

实时对话式 AI 支持几人通话?

目前仅支持 1v1,即一个客户端用户、一个智能体。

启动智能体的 AppId、RoomId、UserId 是随机定义的吗?

  • AppId:每个应用(App)的唯一标识符,AppId 由火山分配,不可自定义。
  • RoomId:智能体与真人通话的房间 ID,必须与真人用户使用客户端 SDK 进房时使用的 RoomId 保持一致。
  • UserId:智能体 ID,用于标识智能体。由你自行定义,支持由大小写字母(A-Z、a-z)、数字(0-9)、下划线(_)、短横线(-)、句点(.)和 @ 组成,最大长度为 128 个字符。

实时对话式 AI 是否可以把图片信息传递给多模态的大模型?

支持。具体实现方式,请参见外部图片理解

房间只有一个用户,没有智能体,会自动关闭房间吗?

如果没有主动退出房间,在 Token 过期前不会自动关闭房间。

启动智能体后,可以远程控制智能体说话吗?

支持。可以通过 UpdateVoiceChat 接口发送 ExternalTextToSpeech 指令,让智能体主动播报指定的文本(如安抚语、引导话术)。具体操作,请参见自定义语音播放

实时对话式 AI 互动支持多少并发?

RTC 关于并发目前没有限制。

实时对话式 AI 是否支持使用第三方服务(比如TTS、ASR)?

实时对话式 AI 音色是否可以直接集成?

可以。在豆包语音控制台可以购买音色,获取 voice_type 值后填入 StartVoiceChat 接口。不同服务下具体支持的音色不同,支持音色详情参看不同服务下的音色列表

实时对话式 AI 支持自定义音色吗?

支持。你可以使用火山引擎声音复刻大模型。详细说明,请参见语音合成配置

能否获得 ASR、TTS 和 LLM 模块的内容?

可以。可通过字幕功能接收,具体请参见字幕功能

是否可以实现对话中查询天气等能力?

可以。可参看 Function Calling 功能实现。

是否支持获取大模型的推理过程?

不支持。

如何存储真人用户和智能体的音频对话内容?

可使用云端录制功能存储,详情参看关于云端录制

如何调节房间内智能体和真人用户的说话音量?

可通过 setRemoteAudioPlaybackVolume 接口调节本地播放的所有音频的音量。

不同房间模式下,智能体的声音高低不同?

不同房间模式下,对声音的处理策略不同,会导致不同场景下的声音高低不同。

智能体能否存储上一次对话内容?

可在启动智能体任务前,将上一次对话内容传入 LLMConfig.UserPrompts 作为对话上下文。

智能体启动后,ASR、TTS、LLM 和 Agent 配置能否修改?

部分配置可以。可通过 UpdateVoiceChat 接口在对话过程中实时更新配置(如更换 Prompt、更换音色、调整语速),无需重启任务。具体支持修改的配置,以 UpdateVoiceChatParameters 对象为准。

QPS 限制是主账号和子账号共用的吗?

是的。单用户 QPS 限制是指火山引擎主账号及其子账号每秒调用特定 API 的频率上限。例如,StartVoiceChat接口的单用户 QPS 限制为 60 次/秒,假设用户有 1 个主账号,该主账号有 4 个子账号,如果这 5 个账号同时调用StartVoiceChat接口,则这 5 个账号的调用频率加起来不能超过 60 次/秒。

是否支持语音唤醒?

智能体不具备语音唤醒算法能力,但可以和外部语音唤醒联动,在收到语音唤醒后启动任务并进房。

如何暂时关闭智能体?

可以使用打断功能 组合静音麦克风暂停与智能体的交互。

是否可以设置智能体人设?

可以。可以通过大模型配置中的 SystemMessages 配置。详情可参看大模型配置

能否设置人说话不自动打断智能体回复?

可以。根据业务需求,支持通过以下三种方式实现:

方式

说明

相关文档

禁用语音打断

智能体说话期间,用户的任何语音输入都会被系统忽略,不会触发打断。此时只能通过 API 发送 interrupt 指令来实现手动打断。

打断智能体

仅关键词打断

只有当用户说出特定关键词时才会打断,普通说话或背景人声不会触发打断。

通过关键词打断

手动触发对话模式

系统不再自动判定一句话的结束,需业务层通过信令手动触发新一轮对话,从而避免因用户随意的插话而打断智能体。

手动触发新一轮对话

对话式 AI 能否接入知识库?

可以。具体操作,请参见接入知识库 RAG

对话过程中能否人工介入修改智能体的回复?

可以。具体操作请参看自定义语音播放

是否可以多个智能体设备 ASR、TTS、LLM 使用相同账号和配置?

可以。但需要注意并发数,具体 QPS 限制请参考各个服务官网。

调用 StartVoiceChat 智能体接口时,是否支持海外请求地址?

火山引擎服务不支持海外请求地址,需使用 BytePlus 服务。接口说明请参考对应的 BytePlus 文档 StartVoiceChat

Function Calling(流式返回结果) 和 Function Calling(非流式返回结果) 有什么区别?

对比维度

(推荐)流式 Function Calling

非流式 Function Calling

结果返回方式

逐步返回工具调用信息,更快收到 Function Calling 结果。

大模型分析后,一次性返回完整的工具调用指令。

用户体验

更流畅自然。可通过播报“安抚语”(如“正在查询...”)填充等待时间,消除静默感。

在等待工具执行时,有明显静默停顿,用户感知延迟较高。

模型支持

Doubao 1.5 及之后代系模型、DeepSeek 模型。具体支持的模型,请参见支持模型

所有支持Function Calling的模型均支持此方式。

Doubao 1.5 代系之前的模型仅支持非流式。

大模型推理内容能否保存?

不支持直接保存推理过程,但对话结果(字幕)可以保存。

如何实现等待模型返回内容时,智能体不被新的语音输入打断?

可以使用配置对话触发模式选择手动触发新一轮对话,智能体未接收触发新一轮对话开始信令时,不会被新的语音输入打断。

最近更新时间:2025.12.02 13:53:57
这个页面对您有帮助吗?
有用
有用
无用
无用