AI 音视频互动方案（原实时对话式 AI）赋予了 AI “能听、会说、能看、懂思考”的能力，让人与 AI 的交互不再局限于文字，还能进行自然流畅、真人感的实时音视频对话，适用于 AI 智能助手、AI 客服、AI 陪伴、AI 教学、AI 游戏、智能硬件等场景。 > 访问 [体验馆](https://demo.volcvideo.com/aigc) 快速体验。 ## 与实时对话式 AI 的差异 AI 音视频互动方案，是实时对话式 AI 的 2.0 全面升级版，在以下方面进行了升级： |纬度 |说明 | |---|---| |集成方式 |使用火山方舟或火山 TTS/ASR 服务时，无需再单独开通和配置多个服务。 | |计费逻辑 |简化计费逻辑，按交互过程消耗的 Tokens 用量进行计费。不再需要分别计算大模型、语音识别、语音合成、实时音视频等多个服务的费用， | ## 技术架构 ![图片](https://p9-arcosite.byteimg.com/obj/tos-cn-i-goo7wpa0wc/e7121b62564447598bed2990273a08d8) ## 功能特性 |功能 |说明 | |---|---| |**多模态交互** || |实时语音对话 |与 AI 进行自然流畅的实时语音对话，如同与真人交流，支持随时插话打断。

> ASR+TTS+LLM 服务支持模块化和端到端两种接入方案，详情请参见[集成到软件应用](https://www.volcengine.com/docs/6348/1310560)。且支持接入自定义 ASR、TTS、LLM 模型，详情请参见[接入第三方大模型或 Agent](https://www.volcengine.com/docs/6348/1399966)和[接入自定义 ASR 或 TTS](https://www.volcengine.com/docs/6348/1798100)。 | |视频互动或图片提问 |在与 AI 进行实时交互时，除了语音互动外，还可以通过视觉理解让 AI 能够感知用户周围的环境以及用户的行为，实现与 AI 进行实时视频互动。具体实现方式，请参见 [视觉理解能力](https://www.volcengine.com/docs/6348/1408245)。 | |**对话流控制** || |智能打断 |提供手动、自动打断多种方法。在对话过程中，用户可以随时打断 AI 的语音输出，实现双向互动。 | |配置对话触发模式 |提供手动触发和自动触发两种触发方式，可灵活配置新一轮对话的触发时机，实现更精细的交互体验。具体实现方式，请参见 [配置对话触发模式](https://www.volcengine.com/docs/6348/1544164)。 | |控制播放内容 |需要 AI 将 LLM 返回的内容处理后进行播报，如过滤细节信息，过滤 Markdown 标签，将 LaTeX 公式转换为自然语言等。具体实现方式，请参见 [过滤指定内容](https://www.volcengine.com/docs/6348/1350596)。 | |自定义语音播放 |驱动 AI 主动播报自定义文本内容，播放安抚语、引导客户互动等。具体实现方式，请参见 [自定义语音播放](https://www.volcengine.com/docs/6348/1449206)。 | |**记忆与拓展工具** || |上下文管理（短期记忆） |传入自定义上下文信息代替用户输入或增加背景信息，以帮助大模型更准确地理解用户状态。具体实现方式，请参见[上下文管理（短期记忆）](https://www.volcengine.com/docs/6348/1511926)。 | |接入记忆库（长期记忆） |通过接入火山记忆库（基于向量数据库 VikingDB），赋予 AI 长期记忆能力，使其能够 “记住” 历史对话，提供更具个性化和连续性的交互体验。具体实现方式，请参见 [接入记忆库（长期记忆）](https://www.volcengine.com/docs/6348/1899860)。 | |Function calling |引入您已实现的外部函数，让大模型识别用户说话中的特定意图，并触发外部函数调用，以完成其自身无法独立完成的任务。例如：查询实时信息（如天气）、操作业务系统（如查询订单状态）、控制 App 功能（播放音乐、关灯）等。具体实现方式，请参见 [Function calling](https://www.volcengine.com/docs/6348/1554654)。 | |联网搜索 |接入火山引擎联网问答 Agent，让 AI 具备获取实时互联网信息的能力（如查询天气、新闻、股价）。具体请参见[接入联网问答 Agent](https://www.volcengine.com/docs/6348/1856161)。 | |MCP 协议支持 |支持通过模型上下文协议（MCP）标准化接入复杂的外部工具生态（如 RAG、搜索、业务 API）。具体请参见[接入 MCP](https://www.volcengine.com/docs/6348/1856160)。 | |**开放与运维** || |实时字幕 |实时接收真人用户和 AI 语音对话对应的文本内容，可用于应用终端实时显示字幕，保存对话记录用于分析、根据字幕返回时机手动触发新一轮对话等场景。具体实现方式，请参见 [实时字幕（对话记录）](https://www.volcengine.com/docs/6348/1337284)。 | |接收 AI 任务状态 |实时获取 AI 任务的状态变化消息，以便在业务端及时进行后续处理或保证业务的稳定性。具体实现方式，请参见[获取 AI 对话任务事件](https://www.volcengine.com/docs/6348/1798101)。 | |接收 AI 状态 |实时推送 AI 的运行状态（如思考中、说话中），便于业务端监控和前端 UI 联动。具体实现方式，请参见[获取 AI 状态](https://www.volcengine.com/docs/6348/1415216)。 | ## 方案优势 * **交流自然、随时打断** * **智能打断**：支持全双工通信及音频帧级别的人声检测（VAD），随时插话打断，交流更自然。 * **端上降噪**：通过 RTC SDK 实现对复杂环境的音频降噪能力，有效降低背景噪音、背景音乐的干扰，提高用户语音打断的准确性。 * **实时秒回、通话流畅** * **超低时延**：基于全链路流式处理，RTC+ASR+LLM+TTS 整体链路时延缩短至 1 秒。 * **抗弱网**：通过智能接入、RTC 云端协同优化，在复杂和弱网环境下确保低延时和传输可靠性，避免因丢包引起大模型理解错误。 * **灵活扩展** * **多人交互**：从 1v1 交互扩展至 1v多的 AI 实时交互。 * **视频交互**：从纯音频对话扩展至音视频 AI 实时交互。 * **快速接入、易集成** 一站式集成，企业只需调用标准的 OpenAPI 接口即可配置所需的 ASR、LLM 和 TTS 服务，快速实现 AI 实时交互应用。 * **跨端兼容** * **多平台支持**：支持 iOS、Android、Windows、Linux、macOS、Web、Flutter、Unity、Electron 和微信小程序多端，满足不同场景的应用需求。 * **多语种互动** * **多语种支持**：支持中、英、日、西等多种语言实时对话。 ## 应用场景 |应用场景 |说明 | |---|---| |智能客服 |提供 7x24 小时自动化客户服务，支持自然流畅的多轮对话、随时打断与智能转接，有效降低人力成本，提升客户满意度。 | |口语教学与陪练 |模拟真实对话环境，提供多语种的实时发音评估、语法纠错和互动式教学，帮助用户高效提升口语能力。 | |虚拟社交 |提供拟人化的情感交流和心理疏导，通过自然对话缓解用户孤独感，满足日益增长的情感支持需求。 | |智能硬件 |AI 嵌入各类智能硬件，实现便捷的语音控制、智能看护、智能陪伴互动和基于用户习惯的个性化服务。 | ## 计费说明 AI 音视频互动方案按 Tokens 进行计量和计费。具体说明，请参见 [AI 音视频互动方案计费](https://www.volcengine.com/docs/6348/2123214)。 > 原实时对话式 AI 的计费说明，请参见[对话式 AI 实时计费](https://www.volcengine.com/docs/6348/1392584)。 ## 快速使用 * [快速体验](https://www.volcengine.com/docs/6348/1310559) * [集成 AI 音视频互动方案](https://www.volcengine.com/docs/6348/2137641)