You need to enable JavaScript to run this app.
文档中心
实时音视频

实时音视频

复制全文
FAQ
功能咨询
复制全文
功能咨询

是否支持输入文本来触发 AI 对话?

支持。可通过 UpdateVoiceChat 来实现(字段 Command 需设置为 ExternalTextToLLM)。具体操作,请参见传入文本直接提问

支持给用户打电话吗?

支持。不支持传统运营商电话,但可以通过 SIP2RTC 方式和 PSTN 公共电话网络互通,需要自集成 RTC Linux SDK,以接入你的网络电话系统做流中转的方式自行实现。

如何记忆对话内容?

  • 短期记忆(上下文):在启动任务时,通过 LLMConfig.HistoryLength 配置保留的历史对话轮数。
  • 长期记忆(跨会话)接入记忆库(长期记忆),让 AI 记住用户的偏好、历史信息等,实现跨会话的持久记忆。

可以基于 WebSocket 的接入吗?

在 IoT 场景,支持通过 WebSocket 接入。详细说明,请参见什么是硬件对话智能体

支持几人通话?

目前仅支持 1v1,即一个客户端用户、一个 AI 。

启动任务的 AppId、RoomId、UserId 是随机定义的吗?

  • AppId:每个应用(App)的唯一标识符,AppId 由火山分配,不可自定义。
  • RoomId: AI 与真人通话的房间 ID,必须与真人用户使用客户端 SDK 进房时使用的 RoomId 保持一致。
  • UserId: AI 的标识 ID。由你自行定义,支持由大小写字母(A-Z、a-z)、数字(0-9)、下划线(_)、短横线(-)、句点(.)和 @ 组成,最大长度为 128 个字符。

是否可以把图片信息传递给多模态的大模型?

支持。具体实现方式,请参见外部图片理解

房间只有一个用户,没有 AI,会自动关闭房间吗?

如果没有主动退出房间,在 Token 过期前不会自动关闭房间。

启动对话任务后,可以远程控制 AI 说话吗?

支持。可以通过 UpdateVoiceChat 接口发送 ExternalTextToSpeech 指令,让 AI 主动播报指定的文本(如安抚语、引导话术)。具体操作,请参见自定义语音播放

支持多少并发?

RTC 关于并发目前没有限制。

是否支持使用第三方服务(比如TTS、ASR)?

支持自定义音色吗?

支持。你可以使用火山引擎声音复刻大模型。详细说明,请参见火山声音复刻大模型

能否获得 ASR、TTS 和 LLM 模块的内容?

可以。可通过字幕功能接收,具体请参见实时字幕(对话记录)

是否可以实现在对话中查询天气等能力?

可以。支持通过以下三种方式实现联网能力,以回答天气、新闻、股价等时效性问题。

  • 函数调用 Function Calling:调用您自行开发的外部函数(例如,一个调用第三方天气 API 的函数)。
  • 接入联网问答 Agent:由火山引擎 Agent 内部完成搜索、信息抽取和内容总结的全流程。
  • 接入 MCP:遵循 MCP 标准,将联网搜索能力封装为一个独立的工具服务,供大模型调用。

是否支持获取大模型的推理过程?

不支持。

如何存储真人用户和 AI 的音频对话内容?

可使用云端录制功能存储,详情参看关于云端录制

如何调节房间内 AI 和真人用户的说话音量?

可通过 setRemoteAudioPlaybackVolume 接口调节本地播放的所有音频的音量。

不同房间模式下,AI 的声音高低不同?

不同房间模式下,对声音的处理策略不同,会导致不同场景下的声音高低不同。

能否存储上一次对话内容?

可在启动任务前,将上一次对话内容传入 LLMConfig.UserPrompts 作为对话上下文。

对话任务启动后,ASR、TTS、LLM 和 Agent 配置能否修改?

部分配置可以。可通过 UpdateVoiceChat 接口在对话过程中实时更新配置(如更换 Prompt、更换音色、调整语速),无需重启任务。具体支持修改的配置,以 UpdateVoiceChatParameters 对象为准。

QPS 限制是主账号和子账号共用的吗?

是的。单用户 QPS 限制是指火山引擎主账号及其子账号每秒调用特定 API 的频率上限。例如,StartVoiceChat接口的单用户 QPS 限制为 60 次/秒,假设用户有 1 个主账号,该主账号有 4 个子账号,如果这 5 个账号同时调用StartVoiceChat接口,则这 5 个账号的调用频率加起来不能超过 60 次/秒。

是否支持语音唤醒?

不具备语音唤醒算法能力,但可以和外部语音唤醒联动,在收到语音唤醒后启动任务并进房。

如何暂时关闭 AI?

可以使用打断功能 组合静音麦克风暂停与 AI 的交互。

是否可以为 AI 设置人设?

可以。可以通过大模型配置中的 SystemMessages 配置。详情可参看配置大模型 LLM

能否设置人说话不自动打断 AI 回复?

可以。根据业务需求,支持通过以下三种方式实现:

方式

说明

相关文档

禁用语音打断

AI 说话期间,用户的任何语音输入都会被系统忽略,不会触发打断。此时只能通过 API 发送 interrupt 指令来实现手动打断。

打断 AI

仅关键词打断

只有当用户说出特定关键词时才会打断,普通说话或背景人声不会触发打断。

通过关键词打断

手动触发对话模式

系统不再自动判定一句话的结束,需业务层通过信令手动触发新一轮对话,从而避免因用户随意的插话而打断 AI。

手动触发

是否接入知识库?

可以。具体操作,请参见接入知识库 RAG

对话过程中能否人工介入修改 AI 的回复?

可以。具体操作请参看自定义语音播放

调用 StartVoiceChat 接口时,是否支持海外请求地址?

火山引擎服务不支持海外请求地址,需使用 BytePlus 服务。接口说明请参考对应的 BytePlus 文档 StartVoiceChat

Function Calling(流式返回结果) 和 Function Calling(非流式返回结果) 有什么区别?

对比维度

(推荐)流式 Function Calling

非流式 Function Calling

结果返回方式

逐步返回工具调用信息,更快收到 Function Calling 结果。

大模型分析后,一次性返回完整的工具调用指令。

用户体验

更流畅自然。可通过播报“安抚语”(如“正在查询...”)填充等待时间,消除静默感。

在等待工具执行时,有明显静默停顿,用户感知延迟较高。

模型支持

Doubao 1.5 及之后代系模型、DeepSeek 模型。具体支持的模型,请参见支持模型

所有支持Function Calling的模型均支持此方式。

Doubao 1.5 代系之前的模型仅支持非流式。

大模型推理内容能否保存?

不支持直接保存推理过程,但对话结果(字幕)可以保存。

如何实现等待模型返回内容时,AI 不被新的语音输入打断?

可以使用配置对话触发模式选择手动触发新一轮对话,AI 未接收触发新一轮对话开始信令时,不会被新的语音输入打断。

最近更新时间:2026.01.08 20:27:39
这个页面对您有帮助吗?
有用
有用
无用
无用