## 2026 年 * 2026 年 05 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |实时字幕 |* StartVoiceChat 接口新增 SubtitleMode=2（音频帧对齐字幕），音频帧可携带字幕位置信息，实现逐字级精准对齐。

* 该功能与音频快速发送（Burst）功能不能同时启用。 |`2025-06-01`

`2024-12-01` |2026\-05\-07 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163)

* [实时字幕（对话记录）](https://www.volcengine.com/docs/6348/1337284) | |暂停/恢复 AI 播报 |在 AI 进行语音播报时，您可以通过服务端 API 或客户端发送指令，随时暂停或恢复其音频播放，实现类似音乐播放器的暂停/继续效果。

开启音频快速发送（Burst）功能后，该功能不生效。 |`2025-06-01`

`2024-12-01` |2026\-05\-07 |* [UpdateVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123350)

* [UpdateVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/2011497)

* [暂停或恢复 AI 播报](https://www.volcengine.com/docs/6348/2389913) | * 2026 年 03 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |语音合成大模型2.0、声音复刻大模型 2.0 |支持字幕对齐音频时间戳（`SubtitleConfig.SubtitleMode:0`) ，但有以下限制：

* 直传 TTS 参数时：`SubtitleMode: 0`（对齐音频时间戳）与 `enable_latex_tn`（LaTeX 公式朗读）不可同时开启。

* 透传 TTS 参数时：`SubtitleMode: 0`（对齐音频时间戳）与`req_params.additions.cache_config`、`req_params.additions.enable_latex_tn` 不可同时启用。 |`2025-06-01`

`2024-12-01` |2026\-03\-19 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [UpdateVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123350)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163)

* [UpdateVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/2011497)

* [实时字幕（对话记录）](https://www.volcengine.com/docs/6348/1337284)

* [播报时过滤或转译 LLM 指定内容](https://www.volcengine.com/docs/6348/1350596)

* [配置语音合成 TTS](https://www.volcengine.com/docs/6348/1581713) | * 2026 年 02 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |任务用量回调 |通过服务端监听 VoiceChat 事件，RunStage 字段新增状态 `taskUsage`（表示用量统计），用量明细通过 ExtraInfo 字段返回，新旧版本用量明细不同。 |`2025-06-01`

`2024-12-01` |2026\-02\-28 |* [获取 AI 对话任务事件](https://www.volcengine.com/docs/6348/1798101)

* [事件和错误码](https://www.volcengine.com/docs/6348/1928198) | |AI 音视频互动方案 |即 StartVoiceChat（2025\-06\-01）支持接入端到端语音识别大模型。该模型需自行开通服务，独立计费，由豆包语音收取。 |`2025-06-01` |2026\-02\-28 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [接入端到端实时语音大模型](https://www.volcengine.com/docs/6348/1902994) | |自定义 ASR |新增字段 `ExtraHeader`（自定义透传 Header），一个 JSON 对象，其键值对将作为额外的 HTTP Header 字段，透传到您的自定义 ASR 服务请求中，可用于鉴权或其他自定义逻辑。 |`2025-06-01`

`2024-12-01` |2026\-02\-28 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163) | |视觉理解 |`SnapshotConfig` 中新增 `AutoSelect` 开关，开启后可智能选取高清视频帧送给 LLM，解决画面移动、失焦导致的识别不准问题。 |`2025-06-01`

`2024-12-01` |2026\-02\-28 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163) | * 2026 年 01 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |联网问答 Agent |支持图搜。模型开启视觉理解后，AI 可自动结合实时视频截图或外部图片进行联网检索，单次支持最多 10 张图片。 |`2025-06-01`

`2024-12-01` |2026\-01\-23 |* [接入联网问答 Agent](https://www.volcengine.com/docs/6348/1856161)

* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163) | |VAD 打断与判停优化 |新增 `ForceBeginThreshold` 和 `ForceEnd` 参数，支持基于 VAD 时长的极速打断及辅助 VAD 强制判停，提升交互灵敏度。 |`2025-06-01`

`2024-12-01` |2026\-01\-23 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163) | |TTS 预下发控制 |新增 `TTSConfig.Prefill` 参数。支持在开启 LLM 预思考的同时单独关闭 TTS 预合成，有效降低在 ASR 中间结果修正过程中的 TTS 字符消耗成本。 |`2025-06-01`

`2024-12-01` |2026\-01\-23 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163) | |ASR 强制判停 |新增 `ExpireTime` 参数。

在 ASR 识别到最后一段有效文字后，若系统在 SilenceTime 结束后仍未下发判停信号，将额外等待 ExpireTime 时长，若仍无信号则强制判定用户本轮说话已结束。适用于背景噪声大、环境干扰严重（导致 VAD/ASR 无法准确判断静音）的场景。 |`2025-06-01`

`2024-12-01` |2026\-01\-23 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163) | |远场人声抑制 |通过抑制距离麦克风 3\-5 米以外的背景人声，解决远场场景下的 AI 误触发、误识别及判停延迟等问题。该功能适用于耳机、手机等收音效果较好的设备。

* 使用须知：

* 仅在使用火山流式语音识别大模型和火山复刻大模型时生效。

* 由于不同硬件设备的收音特性差异较大，若参数设置不当（如抑制过强），可能会导致正常用户的声音也被抑制。建议根据实际业务场景进行细致调试。

* 配置方式：

* 启动时：在 `StartVoiceChat` 接口的 `ASRConfig` 中配置 `FarfieldConfig`。

* 会话中：通过 `UpdateVoiceChat` 接口动态更新（command 为 UpdateFarfieldConfig）。 |`2025-06-01`

`2024-12-01` |2026\-01\-13 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [UpdateVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123350)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163)

* [UpdateVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/2011497) | |声纹降噪功能增强 |* 新增自定义注册声纹所需的语音时长（`VoiceDuration`）。

* 支持对实时注册的声纹进行验证（`EnableSV`）。

配置方式：两者支持通过 `StartVoiceChat` 接口开启和配置，也支持通过 `UpdateVoiceChat` 更新（command 为 UpdateVoicePrintSV）。 |`2025-06-01`

`2024-12-01` |2026\-01\-13 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [UpdateVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123350)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163)

* [UpdateVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/2011497) | ## 2025 年 * 2025 年 12 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |情绪识别与生成 |您可以通过指令标签（由 LLM 自动生成或业务实时注入），来控制 AI 播报的语气（如欢快、伤心）、语速和音量等。同时，可将用户问题作为上下文传递给 TTS，能让 AI 的回复情感更贴合对话场景，实现富有情感的拟人化交互。 |`2025-06-01`

`2024-12-01` |2025\-12\-31 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163)

* [情绪识别与生成](https://www.volcengine.com/docs/6348/2139328) | |AI 音乐 Agent |启用后， AI 可根据用户指令，为用户播放音乐或控制音乐播放（如：上一首、下一首、暂停播放、停止播放、继续播放等）。

注意

*

仅具备 Function Calling 功能的方舟或第三方大模型支持该功能，建议使用 doubao\-seed\-1.6。

*

该功能目前为限时免费公测阶段。音乐来源于火山引擎内部 AI 音乐曲库，不包含有明确版权的明星歌曲。

|`2025-06-01`

`2024-12-01` |2025\-12\-31 |* [StartVoiceChat（2025-06-01）](https://www.volcengine.com/docs/6348/2123348)

* [StartVoiceChat（2024-12-01）](https://www.volcengine.com/docs/6348/1558163) | |AI 音视频互动方案 |AI 音视频互动方案，是实时对话式 AI 的 2.0 全面升级版。

* 两者差异：[与实时对话式 AI 的差异](https://www.volcengine.com/docs/6348/1310537#fdc378f7)

* 快速体验：[快速体验](https://www.volcengine.com/docs/6348/1310559)

* 如何集成：[集成 AI 音视频互动方案](https://www.volcengine.com/docs/6348/2137641) |`2025-06-01` |2025\-12\-25 |* [与实时对话式 AI 的差异](https://www.volcengine.com/docs/6348/1310537#fdc378f7)

* [快速体验](https://www.volcengine.com/docs/6348/1310559)

* [集成 AI 音视频互动方案](https://www.volcengine.com/docs/6348/2137641) | |ASR 配置 |新增支持火山流式语音识别大模型 2.0。 |`2024-12-01` |2025\-12\-11 |* [配置语音识别 ASR](https://www.volcengine.com/docs/6348/1581712)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | | Function calling |支持并行函数调用。模型返回是否允许包含多个待调用的工具（对应字段 `EnableParallelToolCalls`），即当用户问题需要调用多个工具时，模型会一次性返回所有工具的调用指令。 |`2024-12-01` |2025\-12\-11 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [函数调用 Function Calling](https://www.volcengine.com/docs/6348/1554654)

| * 2025 年 11 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |自定义 TTS/第三方 LLM |新增支持自定义数据透传：在单轮对话过程中，支持将端侧的自定义数据（如业务数据、算法检测结果等）透传给第三方 LLM 或自定义 TTS，且这些数据不会被 TTS 直接朗读。 |`2024-12-01` |2025\-11\-27 |* LLM：[方式二：通过客户端动态透传](https://www.volcengine.com/docs/6348/1399966#4e20f454)

* TTS：[透传自定义数据（单轮对话）](https://www.volcengine.com/docs/6348/1798100#45a87e14)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |更新 AI 对话任务 |启动一个任务后，支持通过 [UpdateVoiceChat](https://www.volcengine.com/docs/6348/2011497) 接口，更新该任务配置（如TTS、LLM 等）。具体支持更新的配置项，以 `Parameters` 对象为准。 |`2024-12-01` |2025\-11\-27 | [UpdateVoiceChat](https://www.volcengine.com/docs/6348/2011497) | |记忆库（长期记忆） |新增参数 `Score`，即召回记忆的置信度阈值，可用于过滤与当前问题相关性较低的记忆。一次检索可能召回多条记忆，系统会为每条记忆计算一个“相关性得分”，只有得分不低于设定阈值的记忆会被采纳；低于设定阈值的记忆会被丢弃。 |`2024-12-01` |2025\-11\-22 | [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |声纹降噪 |新增字段 `EnableSV`，在使用预注册声纹进行声纹降噪时，可对说话人进行声纹验证。仅当匹配成功时，才将 ASR 识别结果送入 LLM 并生成回复；否则将丢弃该段语音内容，避免非目标说话人（如背景人声）干扰对话。 |`2024-12-01` |2025\-11\-18 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [方式 1：使用预上传的声纹数据](https://www.volcengine.com/docs/6348/2122016#5b44eeea) | |第三方大模型/Agent |新增支持 FC、联网问答 Agent、接入 MCP。 |`2024-12-01` |2025\-11\-05 |* [函数调用 Function Calling](https://www.volcengine.com/docs/6348/1554654)

* [接入 MCP](https://www.volcengine.com/docs/6348/1856160)

* [接入联网问答 Agent](https://www.volcengine.com/docs/6348/1856161)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |启动对话任务 |在任务启动时对 StartVoiceChat 接口的参数进行校验，并通过回调返回未定义或错误的参数信息。 |`2024-12-01` |2025\-11\-05 |[事件和错误码](https://www.volcengine.com/docs/6348/1928198) | |对话任务状态回调 |服务端任务状态回调新增状态：`llmOutput`（大模型输出首个 token）、`answerStart`（AI 开始说话）、`interrupted`（ AI 被打断）、`reasoningStart`（大模型开始深度思考）。 |`2024-12-01` |2025\-11\-05 |* [获取 AI 状态](https://www.volcengine.com/docs/6348/1415216)

* [事件和错误码](https://www.volcengine.com/docs/6348/1928198) | * 2025 年 10 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |豆包语音端到端模型 |新增支持豆包语音端到端模型：整合了 ASR、LLM、TTS 的全链路能力，显著降低闲聊场景的响应延迟。支持两种模式：

* **纯端到端模式**：适用于纯闲聊场景，获得极致的低延迟体验。

* **混合编排模式**：默认使用端到端模型进行闲聊。当识别到 Function Calling 等需要外部工具的意图时，会自动将任务交由 LLMConfig 中配置的大模型进行处理，实现意图仲裁和复杂任务执行。 |`2024-12-01` |2025\-10\-23 |* [接入端到端实时语音大模型](https://www.volcengine.com/docs/6348/1902994)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |流式语音识别大模型

火山语音合成大模型（流式输入流式输出） |支持参数透传，提供了更大灵活性。 |`2024-12-01` |2025\-10\-17 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |记忆库 |新增支持接入火山记忆库（VikingDB）：通过 MemoryConfig 参数，可为 AI 接入长期记忆能力，使其能够检索并利用历史对话信息，提供更具个性化和连续性的交互体验。 |`2024-12-01` |2025\-10\-17 |* [接入记忆库](https://www.volcengine.com/docs/6348/1899860)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | * 2025 年 9 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |接入联网问答 Agent |新增支持接入火山联网问答 Agent：让 AI 具备实时从互联网检索信息并进行总结回答的能力。例如查询最新资讯、获取天气信息、询问实时股价等。

> 仅具备 Function calling 的火山方舟模型支持该功能。 |`2024-12-01` |2025\-09\-29 |[接入联网问答 Agent](https://www.volcengine.com/docs/6348/1856161) | |接入 MCP |新增支持接入 MCP，以将知识库问答（RAG）、信息搜索、数据分析等复杂能力，作为独立的工具接入到实时对话流中，扩展 AI 的能力。

> 仅具备 Function calling 的火山方舟模型支持该功能。 |`2024-12-01` |2025\-09\-29 |[接入 MCP](https://www.volcengine.com/docs/6348/1856160) | |声纹降噪 |新增 `Score` 参数，用于自定义声纹匹配阈值。只有当实时语音与注册声纹的相似度分数大于等于该阈值时，才会被识别为目标用户。具体参数参见 [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) 中的 `AgentConfig.VoicePrint.Score`。 |`2024-12-01` |2025\-09\-25 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |火山语音识别大模型 |新增支持双向流式优化版（`StreamMode: 2`），同时支持在双向流式优化版的基础上开启二遍识别，满足客户实时上屏需求（快）的同时，又可以保证识别准确率（准）。 |`2024-12-01` |2025\-09\-09 | [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |Coze 平台模型 |新增字段 `ResponseTimeout`（Coze 智能体回复超时时间）。如果 Coze 智能体内部配置了复杂流程（如 MCP、插件调用），其响应时间可能会变长。此参数用于设定一个合理的等待上限，避免因智能体长时间无响应而影响用户体验。 |`2024-12-01` |2025\-09\-09 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | * 2025 年 8 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |AI 降噪 |新增 AI 降噪能力（对应字段 `AgentConfig.AnsMode`），对音频进行智能降噪处理，可根据实际噪声环境选择不同级别的降噪模式。 |`2024-12-01` |2025\-08\-27 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [方式 2：AI 降噪（滤除环境噪声）](https://www.volcengine.com/docs/6348/1806620#ai-%E9%99%8D%E5%99%AA) | |智能语义断句 |新增智能语义断句（对应字段 `ASRConfig.VADConfig.AIVAD`），启用后系统会结合 AI 模型对语义完整性的判断和 `SilenceTime` 来进行断句，能更准确地处理长句中的自然停顿。 |`2024-12-01` |2025\-08\-27 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [判停与对话触发](https://www.volcengine.com/docs/6348/1544164) | |声纹降噪 |新增声纹降噪功能，可用于提升在多人环境下的语音识别准确率。启用后，系统将识别人声并保留目标用户（TargetUserID）的声纹，同时抑制环境中的其他无关人声（旁人噪音）。

> 声纹降噪功能目前为限时免费公测阶段，目前针对远场人声屏蔽效果较好。 |`2024-12-01` |2025\-08\-27 |* [方式 3：声纹降噪（公测中）](https://www.volcengine.com/docs/6348/1806620#%E5%A3%B0%E7%BA%B9%E9%99%8D%E5%99%AA%EF%BC%88%E5%85%AC%E6%B5%8B%E4%B8%AD%EF%BC%89)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |图片理解 |新增支持图片理解。对话过程中，通过客户端或服务端随时向 AI 发送一张或多张图片并提问。支持多图上传、图片分片上传。 |`2024-12-01` |2025\-08\-25 |* [视频和图片理解](https://www.volcengine.com/docs/6348/1408245)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |Coze 平台模型 |新增以下字段：

* `CustomVariables`：为 Coze 智能体 Prompt 中定义的变量 {{key}} 动态赋值。

* `MetaData`：为对话附加信息，比如业务标识（如订单号、用户来源等）。

* `Parameters`：为 Coze 对话流起始节点中定义的自定义参数赋值。 |`2024-12-01` |2025\-08\-14 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |第三方大模型 |新增字段 `EnableRoundId`，用于控制请求第三方模型/Agent 接口时，是否在请求体中携带字段 `round_id`（对话轮次 ID）。 |`2024-12-01` |2025\-08\-13 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | * 2025 年 7 月 |功能 |说明 |接口版本 |发布时间 |说明 | |---|---|---|---|---| |自定义 TTS 服务 |新增支持自定义 TTS 服务。具体参数参见 [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) 中的 `TTSConfig.ProviderParams（自定义语音合成）`。 |`2024-12-01` |2025\-07\-11 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [接入自定义 TTS](https://www.volcengine.com/docs/6348/1798100#%E8%AF%B7%E6%B1%82%E7%A4%BA%E4%BE%8B) | |火山方舟大模型 |支持设置模型的深度思考模式（关闭、启用深度思考等）。具体参数参见 [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) 中的 `LLMConfig.ThinkType`。 |`2024-12-01` |2025\-07\-11 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |第三方大模型 |新增支持视觉理解。具体参数参见 [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) 中的 `LLMConfig.VisionConfig`。 |`2024-12-01` |2025\-07\-01 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [视频和图片理解](https://www.volcengine.com/docs/6348/1408245) | * 2025 年 6 月 |功能 |说明 |接口版本 |发布 |相关文档 | |---|---|---|---|---| |嵌入式硬件 |嵌入式硬件场景下，支持标识是否为 License 用户。参看字段 `AgentConfig.UseLicense`. |`2024-12-01` |2025\-06\-30 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | * 2025 年 5 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |嵌入式硬件 |嵌入式硬件场景下支持音频快速发送，实现更好的抗弱网能力。参看字段 `AgentConfig.Burst`。 |`2024-12-01` |2025\-05\-28 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | * 2025 年 4 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |火山引擎语音识别大模型 |* 新增支持服务热词功能，若存在部分词汇识别效果不好的情况，可考虑通过添加热词，提高该类词语的识别效果。具体参看 `boosting_table_id` 字段。

* 新增支持替换词功能，若存在部分词汇存在多音字的情况，可考虑通过添加替换词，提高该类词语的识别效果。具体参看 `correct_table_id` 字段。 |`2024-12-01` |2025\-04\-14 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |配置对话触发模式 |新增选择是否自动触发新一轮对话。参看 `ASRConfig.TurnDetectionMode` 字段。 |`2024-12-01` |2025\-04\-14 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |打断 AI |新增支持关键词打断，若用户说话内容开头包含任一传入打断词， AI 则立刻停止输出。参看 `ASRConfig.InterruptConfig.InterruptKeywords` 字段。 |`2024-12-01` |2025\-04\-14 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [通过关键词打断](https://www.volcengine.com/docs/6348/1511927#keywords) | |LLM 模块 |移出 `UserMessage` 字段，使用 `UserPrompts` 字段替换，大模型效果更稳定。 |`2024-12-01` |2025\-04\-14 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | | Coze 模型 |新增支持 Coze 平台模型。 |`2024-12-01` |2025\-04\-11 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [Coze 智能体](https://www.volcengine.com/docs/6348/1581714#9a6f16e0) | * 2025 年 1 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |AI 对话任务状态回调 |新增支持任务执行期间回调状态变化，以便你在业务端及时进行后续处理或保证业务的稳定性。 |`2024-12-01` |2025\-01\-09 |[获取 AI 对话任务事件](https://www.volcengine.com/docs/6348/1798101) | |火山方舟平台 |新增支持使用视觉理解模型。 |`2024-12-01`

`2024-06-01` |2025\-01\-06 |[视频和图片理解](https://www.volcengine.com/docs/6348/1408245) | ## 2024 年 * 2024 年 12 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |更新 AI 对话任务 |* 支持传入文本信息供 TTS 音频播放。

* 支持传入自定义文本结合用户问题送入 LLM。

* 支持传入外部问题，送入 LLM。 |`2024-12-01` |2024\-12\-31 |* [传入自定义文本让 AI 播报](https://www.volcengine.com/docs/6348/1449206)

* [动态传入上下文](https://www.volcengine.com/docs/6348/1511926#%E5%8A%A8%E6%80%81%E4%BC%A0%E5%85%A5%E4%B8%8A%E4%B8%8B%E6%96%87) | |Function calling |支持使用通过配置的 URL 接收 function calling 函数工具调用的信息指令。 |`2024-12-01` |2024\-12\-31 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [函数调用 Function Calling](https://www.volcengine.com/docs/6348/1554654) | |实时字幕 |支持字幕返回无需对齐 TTS 音频时间戳。 |`2024-12-01` |2024\-12\-31 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |AI 配置 |* 移除最外层 `UserId`，使用 `TaskId` 做任务标识。

* 新增 `AgentConfig`，支持基本配置。

* 将 `LLMConfig.WelcomeSpeech`移入 `AgentConfig` 结构下。

* 移除 `Config.BotName`，使用 `AgentConfig.UserId` 标识 AI。 |`2024-12-01` |2024\-12\-31 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |火山引擎语音合成大模型 |新增支持火山引擎双向流式语音合成 |`2024-06-01` |2024\-12\-25 |[配置语音合成 TTS](https://www.volcengine.com/docs/6348/1581713) | |语音合成 |* 新增 `ASRConfig.VolumeGain` 字段，支持降低采集音量，以减少噪音引起的 ASR 错误识别。

* 新增 `ASRConfig.VADConfig` 字段，支持 VAD 配置。 |`2024-06-01` |2024\-12\-25 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |火山方舟平台模型 |新增 `LLMConfig.prefill` 字段，支持将 ASR 中间结果提前送入大模型进行处理以降低延时。 |`2024-06-01` |2024\-12\-25 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | * 2024 年 11 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |MiniMax 语音合成 |TTS 新增接入 MiniMax 服务提供商。

`Config.TTSConfig` 结构已重构，原有结构短期内仍会支持，建议使用新结构调用实时对话式 AI 服务。 |`2024-06-01` |2024\-11\-08 |[配置语音合成 TTS](https://www.volcengine.com/docs/6348/1581713)

| |Function calling |火山方舟平台模型新增支持 Function calling 功能，可使大模型识别用户对话中的特定需求，并调用外部函数实现天气查询、数学计算等功能。流式返回可实现逐步获取工具调用信息，更快收到 Function Calling 结果，从而提升响应效率。 |`2024-06-01` |2024\-11\-05 |[函数调用 Function Calling](https://www.volcengine.com/docs/6348/1554654) | * 2024 年 10 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |语音合成 |新增支持 TTS 倍速、音量和音高调节。 |`2024-06-01` |2024\-10\-18 |[StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |打断 AI |新增支持自动打断功能开关。 |`2024-06-01` |2024\-10\-14 |* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163)

* [发声即打断](https://www.volcengine.com/docs/6348/1511927#default) | * 2024 年 8 月 |功能 |说明 |接口版本 |发布时间 |相关文档 | |---|---|---|---|---| |实时字幕 |新增支持房间内字幕功能 |`2024-06-01` |2024\-08\-30 |* [实时字幕（对话记录）](https://www.volcengine.com/docs/6348/1337284)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |火山引擎语音合成大模型

火山引擎声音复刻大模型 |新增支持大模型语音合成服务和大模型声音复刻 2.0 服务，下线大模型声音复刻 1.0 服务。

|`2024-06-01` |2024\-08\-22 |* [配置语音合成 TTS](https://www.volcengine.com/docs/6348/1581713)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |第三方大模型 |新增支持接入第三方大模型或 Agent（如 Dify Agent），以满足特定业务需求。 |`2024-06-01` |2024\-08\-22 |* [接入第三方大模型或 Agent](https://www.volcengine.com/docs/6348/1399966)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) | |方舟平台模型 |下线方舟 1.0 大模型，新增支持方舟 2.0 模型。 |`2024-06-01` |2024\-08\-22 |* [火山方舟模型](https://www.volcengine.com/docs/6348/1581714#%E7%81%AB%E5%B1%B1%E6%96%B9%E8%88%9F%E5%B9%B3%E5%8F%B0)

* [StartVoiceChat](https://www.volcengine.com/docs/6348/1558163) |

实时音视频