You need to enable JavaScript to run this app.
导航
发版说明
最近更新时间:2025.12.03 16:30:53首次发布时间:2025.04.23 12:58:05
复制全文
我的收藏
有用
有用
无用
无用

2025 年

  • 2025 年 11 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    自定义 TTS/第三方 LLM

    新增支持自定义数据透传:在单轮对话过程中,支持将端侧的自定义数据(如业务数据、算法检测结果等)透传给第三方 LLM 或自定义 TTS,且这些数据不会被 TTS 直接朗读。

    2024-12-01

    2025-11-27

    更新智能体

    启动一个智能体任务后,支持通过 UpdateVoiceChat 接口,更新该任务配置(如TTS、LLM 等)。具体支持更新的配置项,以 Parameters 对象为准。

    2024-12-01

    2025-11-27

    UpdateVoiceChat

    记忆库(长期记忆)

    新增参数 Score,即召回记忆的置信度阈值,可用于过滤与当前问题相关性较低的记忆。一次检索可能召回多条记忆,系统会为每条记忆计算一个“相关性得分”,只有得分不低于设定阈值的记忆会被采纳;低于设定阈值的记忆会被丢弃。

    2024-12-01

    2025-11-22

    StartVoiceChat

    声纹降噪

    新增字段 EnableSV,在使用预注册声纹进行声纹降噪时,可对说话人进行声纹验证。仅当匹配成功时,才将 ASR 识别结果送入 LLM 并生成回复;否则将丢弃该段语音内容,避免非目标说话人(如背景人声)干扰对话。

    2024-12-01

    2025-11-18

    第三方大模型/Agent

    新增支持 FC、联网问答、MCP。

    2024-12-01

    2025-11-05

    启动智能体

    在任务启动时对 StartVoiceChat 接口的参数进行校验,并通过回调返回未定义或错误的参数信息。

    2024-12-01

    2025-11-05

    事件和错误码

    智能体任务状态回调

    服务端任务状态回调新增状态:llmOutput(大模型输出首个 token)、answerStart(智能体开始说话)、interrupted(智能体被打断)、reasoningStart(大模型开始深度思考)。

    2024-12-01

    2025-11-05

  • 2025 年 10 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    豆包语音端到端模型

    新增支持豆包语音端到端模型:整合了 ASR、LLM、TTS 的全链路能力,显著降低闲聊场景的响应延迟。支持两种模式:

    • 纯端到端模式:适用于纯闲聊场景,获得极致的低延迟体验。
    • 混合编排模式:默认使用端到端模型进行闲聊。当识别到 Function Calling 等需要外部工具的意图时,会自动将任务交由 LLMConfig 中配置的大模型进行处理,实现意图仲裁和复杂任务执行。

    2024-12-01

    2025-10-23

    流式语音识别大模型
    火山语音合成大模型(流式输入流式输出)

    支持参数透传,提供了更大灵活性。

    2024-12-01

    2025-10-17

    记忆库

    新增支持接入火山记忆库(VikingDB):通过 MemoryConfig 参数,可为智能体接入长期记忆能力,使其能够检索并利用历史对话信息,提供更具个性化和连续性的交互体验。

    2024-12-01

    2025-10-17

    数字人

    新增支持接入火山引擎数字人,为智能体赋予具象形态,同时实现精准口型同步,有效增强交互过程的生动性。

    2024-12-01

    2025-10-10

  • 2025 年 9 月

    功能

    说明

    发布时间

    相关文档

    火山方舟平台模型

    新增支持接入火山联网问答 Agent:可以让智能体具备实时从互联网检索信息并进行总结回答的能力。例如查询最新资讯、获取天气信息、询问实时股价等。

    2024-12-01

    2025-09-29

    接入联网问答 Agent

    火山方舟平台模型

    新增支持接入 MCP,以将知识库问答(RAG)、信息搜索、数据分析等复杂能力,作为独立的工具接入到实时对话流中,扩展智能体的能力。

    仅火山方舟平台模型支持。

    2024-12-01

    2025-09-29

    接入 MCP

    声纹降噪

    新增 Score 参数,用于自定义声纹匹配阈值。只有当实时语音与注册声纹的相似度分数大于等于该阈值时,才会被识别为目标用户。具体参数参见 StartVoiceChat 中的 AgentConfig.VoicePrint.Score

    2024-12-01

    2025-09-25

    StartVoiceChat

    火山引擎语音识别大模型

    新增支持双向流式优化版(StreamMode: 2),同时支持在双向流式优化版的基础上开启二遍识别,满足客户实时上屏需求(快)的同时,又可以保证识别准确率(准)。

    2024-12-01

    2025-09-09

    StartVoiceChat

    Coze 平台模型

    新增字段 ResponseTimeout(Coze 智能体回复超时时间)。如果 Coze 智能体内部配置了复杂流程(如 MCP、插件调用),其响应时间可能会变长。此参数用于设定一个合理的等待上限,避免因智能体长时间无响应而影响用户体验。

    2024-12-01

    2025-09-09

    StartVoiceChat

  • 2025 年 8 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    AI 降噪

    新增 AI 降噪能力(对应字段 AgentConfig.AnsMode),对音频进行智能降噪处理,可根据实际噪声环境选择不同级别的降噪模式。

    2024-12-01

    2025-08-27

    智能语义断句

    新增智能语义断句(对应字段 ASRConfig.VADConfig.AIVAD),启用后系统会结合 AI 模型对语义完整性的判断和 SilenceTime 来进行断句,能更准确地处理长句中的自然停顿。

    2024-12-01

    2025-08-27

    声纹降噪

    新增声纹降噪功能,可用于提升在多人环境下的语音识别准确率。启用后,系统将识别人声并保留目标用户(TargetUserID)的声纹,同时抑制环境中的其他无关人声(旁人噪音)。

    声纹降噪功能目前为限时免费公测阶段,目前针对远场人声屏蔽效果较好。

    2024-12-01

    2025-08-27

    图片理解

    新增支持图片理解。对话过程中,通过客户端或服务端随时向智能体发送一张或多张图片并提问。支持多图上传、图片分片上传。

    2024-12-01

    2025-08-25

    Coze 平台模型

    新增以下字段:

    • CustomVariables:为 Coze 智能体 Prompt 中定义的变量 {{key}} 动态赋值。
    • MetaData:为对话附加信息,比如业务标识(如订单号、用户来源等)。
    • Parameters:为 Coze 对话流起始节点中定义的自定义参数赋值。

    2024-12-01

    2025-08-14

    StartVoiceChat

    第三方大模型

    新增字段 EnableRoundId,用于控制请求第三方模型/Agent 接口时,是否在请求体中携带字段 round_id(对话轮次 ID)。

    2024-12-01

    2025-08-13

    StartVoiceChat

  • 2025 年 7 月

    功能

    说明

    接口版本

    发布时间

    说明

    自定义 TTS 服务

    新增支持自定义 TTS 服务。具体参数参见 StartVoiceChat 中的 TTSConfig.ProviderParams(自定义语音合成)

    2024-12-01

    2025-07-11

    火山方舟大模型

    支持设置模型的深度思考模式(关闭、启用深度思考等)。具体参数参见 StartVoiceChat 中的 LLMConfig.ThinkType

    2024-12-01

    2025-07-11

    StartVoiceChat

    第三方大模型

    新增支持视觉理解。具体参数参见 StartVoiceChat 中的 LLMConfig.VisionConfig

    2024-12-01

    2025-07-01

  • 2025 年 6 月

    功能

    说明

    接口版本

    发布

    相关文档

    嵌入式硬件

    嵌入式硬件场景下,支持标识是否为 License 用户。

    2024-12-01

    2025-06-30

    StartVoiceChat

  • 2025 年 5 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    嵌入式硬件

    嵌入式硬件场景下支持音频快速发送,实现更好的抗弱网能力。

    2024-12-01

    2025-05-28

    StartVoiceChat

  • 2025 年 4 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    火山引擎语音识别大模型

    • 新增支持服务热词功能,若存在部分词汇识别效果不好的情况,可考虑通过添加热词,提高该类词语的识别效果。
    • 新增支持火山引擎语音识别大模型服务替换词功能,若存在部分词汇存在多音字的情况,可考虑通过添加替换词,提高该类词语的识别效果。

    2024-12-01

    2025-04-14

    StartVoiceChat

    配置对话触发模式

    新增选择是否自动触发新一轮对话。

    2024-12-01

    2025-04-14

    StartVoiceChat

    打断智能体

    新增支持关键词打断,若用户说话内容开头包含任一传入打断词,智能体则立刻停止输出。

    2024-12-01

    2025-04-14

    LLM 模块

    移出 UserMessage 字段,使用 UserPrompts 字段替换,大模型效果更稳定。

    2024-12-01

    2025-04-14

    StartVoiceChat

    Coze 模型

    新增支持 Coze 平台模型。

    2024-12-01

    2025-04-11

  • 2025 年 1 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    智能体任务状态回调

    新增支持智能体任务执行期间回调状态变化,以便你在业务端及时进行后续处理或保证业务的稳定性。

    2024-12-01

    2025-01-09

    接收智能体任务状态及报错信息

    火山方舟平台

    新增支持使用视觉理解模型。

    2024-12-01
    2024-06-01

    2025-01-06

    视频和图片理解

2024 年

  • 2024 年 12 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    更新智能体

    • 支持传入文本信息供 TTS 音频播放。
    • 支持传入自定义文本结合用户问题送入 LLM。
    • 支持传入外部问题,送入 LLM。

    2024-12-01

    2024-12-31

    Function calling

    支持使用通过配置的 URL 接收 function calling 函数工具调用的信息指令。

    2024-12-01

    2024-12-31

    实时字幕

    支持字幕返回无需对齐 TTS 音频时间戳。

    2024-12-01

    2024-12-31

    StartVoiceChat

    智能体配置

    • 移除最外层 UserId,使用 TaskId 做任务标识。
    • 新增 AgentConfig,支持智能体基本配置。
    • LLMConfig.WelcomeSpeech移入 AgentConfig 结构下。
    • 移除 Config.BotName,使用 AgentConfig.UserId 标识智能体。

    2024-12-01

    2024-12-31

    StartVoiceChat

    火山引擎语音合成大模型

    新增支持火山引擎双向流式语音合成

    2024-06-01

    2024-12-25

    语音合成配置

    语音合成

    • 新增 ASRConfig.VolumeGain 字段,支持降低采集音量,以减少噪音引起的 ASR 错误识别。
    • 新增 ASRConfig.VADConfig 字段,支持 VAD 配置。

    2024-06-01

    2024-12-25

    StartVoiceChat

    火山方舟平台模型

    新增 LLMConfig.prefill 字段,支持将 ASR 中间结果提前送入大模型进行处理以降低延时。

    2024-06-01

    2024-12-25

    StartVoiceChat

  • 2024 年 11 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    MiniMax 语音合成

    TTS 新增接入 MiniMax 服务提供商。
    Config.TTSConfig 结构已重构,原有结构短期内仍会支持,建议使用新结构调用实时对话式 AI 服务。

    2024-06-01

    2024-11-08

    语音合成配置

    Function calling

    火山方舟平台模型新增支持 Function calling 功能,可使大模型识别用户对话中的特定需求,并调用外部函数实现天气查询、数学计算等功能。流式返回可实现逐步获取工具调用信息,更快收到 Function Calling 结果,从而提升响应效率。

    2024-06-01

    2024-11-05

    Function Calling(流式返回结果)

  • 2024 年 10 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    语音合成

    新增支持 TTS 倍速、音量和音高调节。

    2024-06-01

    2024-10-18

    StartVoiceChat

    打断智能体

    新增支持自动打断功能开关。

    2024-06-01

    2024-10-14

  • 2024 年 8 月

    功能

    说明

    接口版本

    发布时间

    相关文档

    实时字幕

    新增支持房间内字幕功能

    2024-06-01

    2024-08-30

    火山引擎语音合成大模型
    火山引擎声音复刻大模型

    新增支持大模型语音合成服务和大模型声音复刻 2.0 服务,下线大模型声音复刻 1.0 服务。

    2024-06-01

    2024-08-22

    第三方大模型

    新增支持接入第三方大模型或 Agent(如 Dify Agent),以满足特定业务需求。

    2024-06-01

    2024-08-22

    方舟平台模型

    下线方舟 1.0 大模型,新增支持方舟 2.0 模型。

    2024-06-01

    2024-08-22