火山引擎的实时对话式 AI场景方案,让人与 AI 的交互不再局限于文字,还能进行自然、流畅、真人感的实时语音对话,可应用于 AI 智能助手、AI 客服、AI 陪伴、AI 口语教学、AI 游戏 NPC、智能硬件等场景。
你可直接访问 Web Demo 快速体验实时对话式 AI 交互能力。
火山引擎实时对话式 AI场景方案,通过火山引擎 RTC 实现音视频数据的高效采集、自定义处理和超低时延传输。在云端,提供了智能音视频处理模块,包括音频 3A、AI降噪和抽帧截图等能力,以减少环境噪音和设备性能对对话式 AI 体验的影响。此外,方案搭载火山方舟大模型服务平台,深度整合语音识别(ASR)、语音合成(TTS)、大语言模型(LLM)和知识库 RAG 等服务,简化语音到文本及文本到语音的转换过程,提供强大的智能对话、自然语言处理和多模态交互能力,助力应用快速实现用户与云端大模型之间的实时语音通话和多模态交互。
基础功能
功能 | 说明 |
---|---|
AI 实时语音对话 | 与 AI 进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。 |
智能打断 | 提供手动、自动打断多种方法。在对话过程中,用户可以随时打断 AI 的语音输出,实现双向互动。 |
降噪 | 结合 RTC 先进的音频 3A 技术和深度学习的 AI 降噪算法,能够兼顾强降噪与高保真,确保在嘈杂的环境中有效去除背景噪音,保留清晰的人声。 |
语音识别 | 将用户语音实时转写为文本,供大模型分析理解、生成字幕等。 |
大模型处理 | 解析输入文本,并生成语义响应,驱动智能体对话逻辑。 |
语音合成 | 将大模型生成的文字回复转化为语音,供 RTC 播放。 |
进阶功能
功能 | 说明 |
---|---|
实时字幕 | 实时将用户和 AI 的对话内容转化为文字,显示在终端界面上。具体实现方式,请参见 实时字幕。 |
控制播放内容 | 需要智能体将 LLM 返回的内容处理后进行播报,如过滤细节信息,过滤 Markdown 标签,将 Latex 公式转换为自然语言等。具体实现方式,请参见 过滤指定内容。 |
Function calling | 允许大模型识别用户对话中的特定需求,并在内容的过程中调用外部函数或 API,来执行它自身无法独立完成的任务,如处理实时数据检索、文件处理、数据库查询等。通过这种方式,AI 智能体能够精确回答特定领域的问题,如天气查询、股票行情查询、数学计算等,扩展了 AI 智能体的服务能力和应用场景。具体实现方式,请参见 Function calling。 |
集成自研或第三方大模型 | 如果需要实现更贴合特定需求的对话效果,可以将自研或第三方大模集成到对话式 AI 工作流中。具体实现方式,请参见 对话式 AI 第三方大模型接口验证。 |
实时视频互动 | 在与 AI 进行实时交互时,除了语音互动外,还可以通过视觉理解让智能体能够感知用户周围的环境以及用户的行为,实现与 AI 进行实时视频互动。具体实现方式,请参见 视觉理解能力。 |
接收状态变化消息 | 实时获取智能体任务的状态变化消息,以便在业务端及时进行后续处理或保证业务的稳定性。具体实现方式,请参见 接收状态变化消息。 |
自定义语音播放 | 驱动智能体主动播报自定义文本内容,播放安抚语、引导客户互动等。具体实现方式,请参见 自定义语音播放。 |
自定义大模型上下文 | 传入自定义上下文信息代替用户输入或增加背景信息,以帮助大模型更准确地理解用户状态。具体实现方式,请参见 自定义大模型上下文。 |
配置对话触发模式 | 提供手动触发和自动触发两种触发方式,可灵活配置新一轮对话的触发时机,实现更精细的交互体验。具体实现方式,请参见 配置对话触发模式。 |
应用场景 | 说明 |
---|---|
智能客服 | 提供 7x24 小时自动化客户服务,支持自然流畅的多轮对话、随时打断与智能转接,有效降低人力成本,提升客户满意度。 |
口语教学与陪练 | 模拟真实对话环境,提供多语种的实时发音评估、语法纠错和互动式教学,帮助用户高效提升口语能力。 |
虚拟社交 | 提供拟人化的情感交流和心理疏导,通过自然对话缓解用户孤独感,满足日益增长的情感支持需求。 |
智能硬件 | AI 嵌入各类智能硬件,实现便捷的语音控制、智能看护、智能陪伴互动和基于用户习惯的个性化服务。 |
实时对话式 AI 费用由多个计费项组成,每个计费项均提供了免费试用额度。详细说明,请参见对话式 AI 实时计费。