You need to enable JavaScript to run this app.
导航
如何降低对话延迟?
最近更新时间:2025.11.19 11:47:51首次发布时间:2025.07.29 11:44:16
复制全文
我的收藏
有用
有用
无用
无用

在实时对话式 AI 场景中,流畅、低延迟的对话是用户体验的关键。如果你的智能体回复存在较高的延迟,可以尝试通过以下几种方法解决。

1. 优化 ASR 配置

设置合适的 VAD 时长

智能体通过 VAD(语音活动检测)来判断用户何时结束说话。一个过长的判停时间会导致智能体响应迟缓。你可以适当降低 ASRConfig.VADConfig.SilenceTime 的值来减少判停时间。

示例:将 SilenceTime 设置为 600 (ms),则当用户说话停顿超过 600 毫秒时,智能体会认为用户说话完成,开始回复播报内容。

提升打断灵敏度

当开启语音自动打断时 (InterruptMode 设置为 0),你还可以通过降低 InterruptConfig.InterruptSpeechDuration 的值来进一步提升语音打断的灵敏性。
示例

  • InterruptSpeechDuration 设为 100 (ms),表示用户持续说话 100 毫秒后,智能体就会停止输出。
  • InterruptSpeechDuration 设为 0,则表示一旦检测到用户发出包含真实语义的声音,智能体便会立刻停止输出。

2. 优化 LLM 配置

选择合适的 LLM/VLM 模型

如果你的业务场景任务复杂度不高、但对实时性要求很高,建议选择轻量级模型(如 Doubao-lite)来替代大参数模型(如Doubao-pro)。当前,更推荐使用 Doubao-seed-1.6-flash(关闭深度思考模式)。

关闭深度思考模式

部分深度思考模型(例如 doubao-seed-1.6、doubao-seed-1.6-flash 等)支持关闭深度思考能力。在实时对话式 AI 场景中,如果你接入了上述深度思考模型,我们强烈推荐你关闭深度思考模式,以减少模型推理延迟,让对话更流畅。
配置方法:将 LLMConfig.ThinkingType 设置为 disabled来关闭思考能力。

开启 Prefill 策略

你可以将 LLMConfig.Prefill 设置为 true 来开启 Prefill 策略,允许将 ASR 识别中间结果提前发送给大模型进行处理,以降低延迟。

注意

开启 Prefill 后会产生额外模型消耗。

优化 Prompt 和上下文

  • 简化 Prompt:过于复杂或冗长的系统提示词会增加 LLM 的处理负担,延长推理时间。尽量让 Prompt 简洁、清晰、明确。
  • 平衡上下文长度:对话历史(HistoryLength 值更大)能让 LLM 更好地理解对话背景,但同时也会增加每次请求的 token 数量,从而可能增加推理耗时。请根据业务需求,在“对话记忆能力”和“响应速度”之间找到一个平衡点。

3. 优化 TTS 配置

选择合适的语音合成模型

火山引擎提供了语音合成、语音合成大模型、声音复刻大模型等多种 TTS 接入方案,合成速度从快到慢为:语音合成 > 语音合成大模型 > 声音复刻大模型。

如果你对延迟要求特别高,且音色、情感色彩等要求不高,可以选择火山引擎语音合成。

优化 LLM 的 TPOT

TTS 需要持续接收文本攒句到语义完整后,才会开始语音合成,以保障语音合成的情感和流畅度。因此,优化 LLM 的平均 token 生成时间(TPOT),可以显著减少 TTS 的内容等待时间,从而降低整体延迟。

4. 硬件场景专属配置

开启 Burst 策略

你可以将 AgentConfig.Burst.Enable 的值设置为 true,以开启“音频快速发送配置”。开启后,该功能可通过快速发送音频数据包,有效保障弱网环境下的传输稳定性和播报速度。

注意

Burst 策略仅在嵌入式硬件场景下支持,且嵌入式 Linux SDK 版本不低于 1.57。

编解码优化

硬件本身采集编码、解码会产生耗时,如果在链路中有缓存,耗时还会增加,从而影响整体延迟。建议外挂使用火山引擎 RTC 的 G711A 编解码库进行优化联系技术支持,同时至 RTC 控制台_功能配置 启用硬件场景配置。

5. 增加算力保障

通过增强算力保障,可以使模型的输出耗时更稳定,提升首个 token 生成时间(TTFT)和平均 token 生成时间(TPOT),从而降低整体延迟。

使用 TPM 保障包

如果你希望对高流量业务提供资源保障,或者希望线上业务的请求延迟更低,可以使用 TPM 保障包。相比按 Token 计费,TPM 保障包的延迟更低(如 Doubao-1.5-pro 模型的TPM 保障包,TPOT(Time per Output Token)可低至 20 ms)。

注意

TPM 保障包仅支持部分模型(实际支持模型以控制台显示为准)。计费说明及如何购买,请参见 TPM保障包

使用模型单元

如果你对线上业务的资源确定性要求较高,或者希望模型的推理延迟更低,你可以使用模型单元,它能提供专属算力,对精调后模型表现更优。

注意

模型单元支持 doubao 1.5 及之后版本的模型(实际支持模型情况以控制台显示为准)。详细说明及如何购买,请参见模型单元

6. 配合使用安抚策略

如果你在实时对话式 AI 场景中使用了一些高耗时的功能,比如 Function Calling、联网检索、知识库检索等造成智能体回复延迟偏大时,你可以使用“延时安抚”来引导客户耐心等待(如“正在为你检索哦,请稍等”),提升用户的使用体验。
具体操作,可参见自定义语音播放