集成实时对话式 AI（软件应用）--实时音视频-火山引擎

文档中心

实时音视频

请输入

集成实时对话式 AI

集成实时对话式 AI（软件应用）

本文介绍如何结合火山引擎 RTC SDK 和服务端 OpenAPI，快速构建具备超低延时、实时交互能力的对话式 AI 应用。

适用平台

此集成方案适用于 Android、iOS、Windows、macOS、Linux、Web、Electron、Flutter、微信小程序、Unity、抖音小游戏、React Native 平台。

AI 实时互动的实现流程如下图所示：

首先，需要在你的应用中集成 RTC SDK，实现基础的音视频通话能力，为 AI 智能体的加入创建环境。主要分为以下三个核心环节：

请根据您的客户端平台（iOS、Android、Web 等），集成 RTC SDK 实现音视频通话能力。

订阅与发布流：推荐使用默认配置，即自动订阅音频流和自动发布音频流。
若有高音质要求：若你搭建的 AI 对话场景对音频质量有更高要求，如需要播放音乐，可调用 setAudioScenario 将手机音量类型切换为媒体音量。
若需静音真人用户：使用 muteAudioCapture 静音麦克风以保证最低的切换延迟。不建议使用 stopAudioCapture，该操作可能会导致声音卡顿或变声。

构建音视频通话后，在服务端调用 StartVoiceChat 接入智能体，实现用户与智能体通话。

OpenAPI 调用方法（必须鉴权）：如何调用 OpenAPI。
快速获取请求体：前往控制台_跑通 Demo 按照界面提示完成各项配置进行调试。调试成功后，点击页面右上角的接入代码示例，在配置服务端参数区域获取请求体代码。

说明

如果发起 OpenAPI 接口请求时返回 200，但是智能体未进入房间或进入房间未正常工作，可参考智能体未进房或未正常工作?。

至此，你已实现房间内真人用户和智能体的实时对话。

除了基本的 AI 对话能力，你还可以集成更多高级功能来提升用户体验，例如实时字幕、打断智能体、接收智能体状态、视觉理解等。支持的功能及具体实现，可参看进阶功能。

默认情况下，若真人用户退房，180 s 后智能体任务会自动停止，但该 180s 内仍会计费。对话结束后，为避免不必要的资源消耗和计费，你可以：

可通过降低音量增益值，减少噪音引起的 ASR 错误识别。具体参看如何提升语音识别准确性？。

可以。在发起新一轮对话时，你可以将上一轮对话的上下文信息作为 UserPrompts 参数的值传入。

最近更新时间：2025.12.22 13:12:17

这个页面对您有帮助吗？

有用

无用