AI 音视频互动方案(原实时对话式 AI)赋予了 AI “能听、会说、能看、懂思考”的能力,让人与 AI 的交互不再局限于文字,还能进行自然流畅、真人感的实时音视频对话,适用于 AI 智能助手、AI 客服、AI 陪伴、AI 教学、AI 游戏、智能硬件等场景。
访问 体验馆 快速体验。
AI 音视频互动方案,是实时对话式 AI 的 2.0 全面升级版,在以下方面进行了升级:
纬度 | 说明 |
|---|---|
集成方式 | 使用火山方舟或火山 TTS/ASR 服务时,无需再单独开通和配置多个服务。 |
计费逻辑 | 简化计费逻辑,按交互过程消耗的 Tokens 用量进行计费。不再需要分别计算大模型、语音识别、语音合成、实时音视频等多个服务的费用, |
功能 | 说明 |
|---|---|
多模态交互 | |
实时语音对话 | 与 AI 进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。
|
视频互动或图片提问 | 在与 AI 进行实时交互时,除了语音互动外,还可以通过视觉理解让 AI 能够感知用户周围的环境以及用户的行为,实现与 AI 进行实时视频互动。具体实现方式,请参见 视觉理解能力。 |
与数字人对话 | 为 AI 赋予具象的视觉形象,支持精准的口型驱动与面部表情同步。具体操作,请参见赋予 AI 数字人形象。 |
对话流控制 | |
智能打断 | 提供手动、自动打断多种方法。在对话过程中,用户可以随时打断 AI 的语音输出,实现双向互动。 |
配置对话触发模式 | 提供手动触发和自动触发两种触发方式,可灵活配置新一轮对话的触发时机,实现更精细的交互体验。具体实现方式,请参见 配置对话触发模式。 |
控制播放内容 | 需要 AI 将 LLM 返回的内容处理后进行播报,如过滤细节信息,过滤 Markdown 标签,将 LaTeX 公式转换为自然语言等。具体实现方式,请参见 过滤指定内容。 |
自定义语音播放 | 驱动 AI 主动播报自定义文本内容,播放安抚语、引导客户互动等。具体实现方式,请参见 自定义语音播放。 |
记忆与拓展工具 | |
上下文管理(短期记忆) | 传入自定义上下文信息代替用户输入或增加背景信息,以帮助大模型更准确地理解用户状态。具体实现方式,请参见上下文管理(短期记忆)。 |
接入记忆库(长期记忆) | 通过接入火山记忆库(基于向量数据库 VikingDB),赋予 AI 长期记忆能力,使其能够 “记住” 历史对话,提供更具个性化和连续性的交互体验。具体实现方式,请参见 接入记忆库(长期记忆)。 |
Function calling | 引入您已实现的外部函数,让大模型识别用户说话中的特定意图,并触发外部函数调用,以完成其自身无法独立完成的任务。例如:查询实时信息(如天气)、操作业务系统(如查询订单状态)、控制 App 功能(播放音乐、关灯)等。具体实现方式,请参见 Function calling。 |
联网搜索 | 接入火山引擎联网问答 Agent,让 AI 具备获取实时互联网信息的能力(如查询天气、新闻、股价)。具体请参见接入联网问答 Agent。 |
MCP 协议支持 | 支持通过模型上下文协议(MCP)标准化接入复杂的外部工具生态(如 RAG、搜索、业务 API)。具体请参见接入 MCP。 |
开放与运维 | |
实时字幕 | 实时接收真人用户和 AI 语音对话对应的文本内容,可用于应用终端实时显示字幕,保存对话记录用于分析、根据字幕返回时机手动触发新一轮对话等场景。具体实现方式,请参见 实时字幕(对话记录)。 |
接收 AI 任务状态 | 实时获取 AI 任务的状态变化消息,以便在业务端及时进行后续处理或保证业务的稳定性。具体实现方式,请参见获取 AI 对话任务状态及报错信息。 |
接收 AI 状态 | 实时推送 AI 的运行状态(如思考中、说话中),便于业务端监控和前端 UI 联动。具体实现方式,请参见获取 AI 状态。 |
应用场景 | 说明 |
|---|---|
智能客服 | 提供 7x24 小时自动化客户服务,支持自然流畅的多轮对话、随时打断与智能转接,有效降低人力成本,提升客户满意度。 |
口语教学与陪练 | 模拟真实对话环境,提供多语种的实时发音评估、语法纠错和互动式教学,帮助用户高效提升口语能力。 |
虚拟社交 | 提供拟人化的情感交流和心理疏导,通过自然对话缓解用户孤独感,满足日益增长的情感支持需求。 |
智能硬件 | AI 嵌入各类智能硬件,实现便捷的语音控制、智能看护、智能陪伴互动和基于用户习惯的个性化服务。 |
AI 音视频互动方案按 Tokens 进行计量和计费。具体说明,请参见 AI 音视频互动方案计费。
原实时对话式 AI 的计费说明,请参见对话式 AI 实时计费。