You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
开始使用
产品简介
复制全文
产品简介

AI 音视频互动方案(原实时对话式 AI)赋予了 AI “能听、会说、能看、懂思考”的能力,让人与 AI 的交互不再局限于文字,还能进行自然流畅、真人感的实时音视频对话,适用于 AI 智能助手、AI 客服、AI 陪伴、AI 教学、AI 游戏、智能硬件等场景。

访问 体验馆 快速体验。

与实时对话式 AI 的差异

AI 音视频互动方案,是实时对话式 AI 的 2.0 全面升级版,在以下方面进行了升级:

纬度

说明

集成方式

使用火山方舟或火山 TTS/ASR 服务时,无需再单独开通和配置多个服务。

计费逻辑

简化计费逻辑,按交互过程消耗的 Tokens 用量进行计费。不再需要分别计算大模型、语音识别、语音合成、实时音视频等多个服务的费用,

技术架构

Image

功能特性

功能

说明

多模态交互

实时语音对话

与 AI 进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。

ASR+TTS+LLM 服务支持模块化和端到端两种接入方案,详情请参见集成到软件应用。且支持接入自定义 ASR、TTS、LLM 模型,详情请参见接入第三方大模型或 Agent接入自定义 ASR 或 TTS

视频互动或图片提问

在与 AI 进行实时交互时,除了语音互动外,还可以通过视觉理解让 AI 能够感知用户周围的环境以及用户的行为,实现与 AI 进行实时视频互动。具体实现方式,请参见 视觉理解能力

与数字人对话

为 AI 赋予具象的视觉形象,支持精准的口型驱动与面部表情同步。具体操作,请参见赋予 AI 数字人形象

对话流控制

智能打断

提供手动、自动打断多种方法。在对话过程中,用户可以随时打断 AI 的语音输出,实现双向互动。

配置对话触发模式

提供手动触发和自动触发两种触发方式,可灵活配置新一轮对话的触发时机,实现更精细的交互体验。具体实现方式,请参见 配置对话触发模式

控制播放内容

需要 AI 将 LLM 返回的内容处理后进行播报,如过滤细节信息,过滤 Markdown 标签,将 LaTeX 公式转换为自然语言等。具体实现方式,请参见 过滤指定内容

自定义语音播放

驱动 AI 主动播报自定义文本内容,播放安抚语、引导客户互动等。具体实现方式,请参见 自定义语音播放

记忆与拓展工具

上下文管理(短期记忆)

传入自定义上下文信息代替用户输入或增加背景信息,以帮助大模型更准确地理解用户状态。具体实现方式,请参见上下文管理(短期记忆)

接入记忆库(长期记忆)

通过接入火山记忆库(基于向量数据库 VikingDB),赋予 AI 长期记忆能力,使其能够 “记住” 历史对话,提供更具个性化和连续性的交互体验。具体实现方式,请参见 接入记忆库(长期记忆)

Function calling

引入您已实现的外部函数,让大模型识别用户说话中的特定意图,并触发外部函数调用,以完成其自身无法独立完成的任务。例如:查询实时信息(如天气)、操作业务系统(如查询订单状态)、控制 App 功能(播放音乐、关灯)等。具体实现方式,请参见 Function calling

联网搜索

接入火山引擎联网问答 Agent,让 AI 具备获取实时互联网信息的能力(如查询天气、新闻、股价)。具体请参见接入联网问答 Agent

MCP 协议支持

支持通过模型上下文协议(MCP)标准化接入复杂的外部工具生态(如 RAG、搜索、业务 API)。具体请参见接入 MCP

开放与运维

实时字幕

实时接收真人用户和 AI 语音对话对应的文本内容,可用于应用终端实时显示字幕,保存对话记录用于分析、根据字幕返回时机手动触发新一轮对话等场景。具体实现方式,请参见 实时字幕(对话记录)

接收 AI 任务状态

实时获取 AI 任务的状态变化消息,以便在业务端及时进行后续处理或保证业务的稳定性。具体实现方式,请参见获取 AI 对话任务状态及报错信息

接收 AI 状态

实时推送 AI 的运行状态(如思考中、说话中),便于业务端监控和前端 UI 联动。具体实现方式,请参见获取 AI 状态

方案优势

  • 交流自然、随时打断
    • 智能打断:支持全双工通信及音频帧级别的人声检测(VAD),随时插话打断,交流更自然。
    • 端上降噪:通过 RTC SDK 实现对复杂环境的音频降噪能力,有效降低背景噪音、背景音乐的干扰,提高用户语音打断的准确性。
  • 实时秒回、通话流畅
    • 超低时延:基于全链路流式处理,RTC+ASR+LLM+TTS 整体链路时延缩短至 1 秒。
    • 抗弱网:通过智能接入、RTC 云端协同优化,在复杂和弱网环境下确保低延时和传输可靠性,避免因丢包引起大模型理解错误。
  • 灵活扩展
    • 多人交互:从 1v1 交互扩展至 1v多的 AI 实时交互。
    • 视频交互:从纯音频对话扩展至音视频 AI 实时交互。
  • 快速接入、易集成
    一站式集成,企业只需调用标准的 OpenAPI 接口即可配置所需的 ASR、LLM 和 TTS 服务,快速实现 AI 实时交互应用。
  • 跨端兼容
    • 多平台支持:支持 iOS、Android、Windows、Linux、macOS、Web、Flutter、Unity、Electron 和微信小程序多端,满足不同场景的应用需求。
  • 多语种互动
    • 多语种支持:支持中、英、日、西等多种语言实时对话。

应用场景

应用场景

说明

智能客服

提供 7x24 小时自动化客户服务,支持自然流畅的多轮对话、随时打断与智能转接,有效降低人力成本,提升客户满意度。

口语教学与陪练

模拟真实对话环境,提供多语种的实时发音评估、语法纠错和互动式教学,帮助用户高效提升口语能力。

虚拟社交

提供拟人化的情感交流和心理疏导,通过自然对话缓解用户孤独感,满足日益增长的情感支持需求。

智能硬件

AI 嵌入各类智能硬件,实现便捷的语音控制、智能看护、智能陪伴互动和基于用户习惯的个性化服务。

计费说明

AI 音视频互动方案按 Tokens 进行计量和计费。具体说明,请参见 AI 音视频互动方案计费

原实时对话式 AI 的计费说明,请参见对话式 AI 实时计费

快速使用

最近更新时间:2026.01.08 20:27:39
这个页面对您有帮助吗?
有用
有用
无用
无用