实时对话式 AI 赋予了智能体“能听、会说、能看、懂思考”的能力,让人与 AI 的交互不再局限于文字,还能进行自然流畅、真人感的实时语音对话,适用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、AI 游戏 NPC、智能硬件等场景。
你可直接访问 Web Demo 快速体验实时对话式 AI 交互能力。
火山引擎实时对话式 AI场景方案,通过火山引擎 RTC 实现音视频数据的高效采集、自定义处理和超低时延传输。在云端,提供了智能音视频处理模块,包括音频 3A、AI降噪和抽帧截图等能力,以减少环境噪音和设备性能对对话式 AI 体验的影响。此外,方案搭载火山方舟大模型服务平台,深度整合语音识别(ASR)、语音合成(TTS)、大语言模型(LLM)和知识库 RAG 等服务,简化语音到文本及文本到语音的转换过程,提供强大的智能对话、自然语言处理和多模态交互能力,助力应用快速实现用户与云端大模型之间的实时语音通话和多模态交互。
功能 | 说明 |
|---|---|
多模态交互 | |
实时语音对话 | 与 AI 进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。
|
视频互动或图片提问 | 在与 AI 进行实时交互时,除了语音互动外,还可以通过视觉理解让智能体能够感知用户周围的环境以及用户的行为,实现与 AI 进行实时视频互动。具体实现方式,请参见 视觉理解能力。 |
与数字人对话 | 为智能体赋予具象的视觉形象,支持精准的口型驱动与面部表情同步。具体操作,请参见与数字人对话。 |
对话流控制 | |
智能打断 | 提供手动、自动打断多种方法。在对话过程中,用户可以随时打断 AI 的语音输出,实现双向互动。 |
配置对话触发模式 | 提供手动触发和自动触发两种触发方式,可灵活配置新一轮对话的触发时机,实现更精细的交互体验。具体实现方式,请参见 配置对话触发模式。 |
控制播放内容 | 需要智能体将 LLM 返回的内容处理后进行播报,如过滤细节信息,过滤 Markdown 标签,将 LaTeX 公式转换为自然语言等。具体实现方式,请参见 过滤指定内容。 |
自定义语音播放 | 驱动智能体主动播报自定义文本内容,播放安抚语、引导客户互动等。具体实现方式,请参见 自定义语音播放。 |
记忆与拓展工具 | |
上下文管理(短期记忆) | 传入自定义上下文信息代替用户输入或增加背景信息,以帮助大模型更准确地理解用户状态。具体实现方式,请参见上下文管理(短期记忆)。 |
接入记忆库(长期记忆) | 通过接入火山记忆库(基于向量数据库 VikingDB),赋予智能体长期记忆能力,使其能够 “记住” 历史对话,提供更具个性化和连续性的交互体验。具体实现方式,请参见 接入记忆库(长期记忆)。 |
Function calling | 使大模型识别用户对话中的特定需求,并调用外部函数来实现特定功能,例如天气查询、数学计算、股票行情查询等。具体实现方式,请参见 Function calling。 |
联网搜索 | 接入火山引擎联网问答 Agent,让智能体具备获取实时互联网信息的能力(如查询天气、新闻、股价)。具体请参见接入联网问答 Agent。 |
MCP 协议支持 | 支持通过模型上下文协议(MCP)标准化接入复杂的外部工具生态(如 RAG、搜索、业务 API)。具体请参见接入 MCP。 |
开放与运维 | |
实时字幕 | 实时接收真人用户和智能体语音对话对应的文本内容,可用于应用终端实时显示字幕,保存对话记录用于分析、根据字幕返回时机手动触发新一轮对话等场景。具体实现方式,请参见 实时字幕(对话记录)。 |
接收智能体任务状态 | 实时获取智能体任务的状态变化消息,以便在业务端及时进行后续处理或保证业务的稳定性。具体实现方式,请参见接收智能体任务状态及报错信息。 |
接收智能体状态 | 实时推送智能体的运行状态(如思考中、说话中),便于业务端监控和前端 UI 联动。具体实现方式,请参见接收智能体状态。 |
应用场景 | 说明 |
|---|---|
智能客服 | 提供 7x24 小时自动化客户服务,支持自然流畅的多轮对话、随时打断与智能转接,有效降低人力成本,提升客户满意度。 |
口语教学与陪练 | 模拟真实对话环境,提供多语种的实时发音评估、语法纠错和互动式教学,帮助用户高效提升口语能力。 |
虚拟社交 | 提供拟人化的情感交流和心理疏导,通过自然对话缓解用户孤独感,满足日益增长的情感支持需求。 |
智能硬件 | AI 嵌入各类智能硬件,实现便捷的语音控制、智能看护、智能陪伴互动和基于用户习惯的个性化服务。 |
实时对话式 AI 费用由多个计费项组成,每个计费项均提供了免费试用额度。详细说明,请参见对话式 AI 实时计费。