You need to enable JavaScript to run this app.
导航
发版说明
最近更新时间:2025.11.27 19:17:34首次发布时间:2025.04.23 12:58:05
复制全文
我的收藏
有用
有用
无用
无用

2025 年

  • 2025 年 11 月

    时间

    接口版本

    变更类型

    说明

    2025-11-27

    2024-12-01

    新增功能

    自定义 TTS/第三方 LLM:在单轮对话过程中,支持将端侧的自定义数据(如业务数据、算法检测结果等)透传给第三方 LLM 或自定义 TTS,且这些数据不会被 TTS 直接朗读。具体实现方式,请参见方式二:单轮对话中动态透传

    2025-11-27

    2024-12-01

    新增功能

    启动一个智能体任务后,支持通过 UpdateVoiceChat 接口,更新该任务配置(如TTS、LLM 等)。具体支持更新的配置项,以 Parameters 对象为准。

    2025-11-22

    2024-12-01

    新增功能

    记忆库(长期记忆):新增参数 Score,即召回记忆的置信度阈值,可用于过滤与当前问题相关性较低的记忆。一次检索可能召回多条记忆,系统会为每条记忆计算一个“相关性得分”,只有得分不低于设定阈值的记忆会被采纳;低于设定阈值的记忆会被丢弃。参数详细说明,请参见 StartVoiceChat

    2025-11-18

    2024-12-01

    新增功能

    声纹降噪:新增字段 EnableSV,在使用预注册声纹进行声纹降噪时,可对说话人进行声纹验证。仅当匹配成功时,才将 ASR 识别结果送入 LLM 并生成回复;否则将丢弃该段语音内容,避免非目标说话人(如背景人声)干扰对话。参数详细说明,请参见 StartVoiceChat

    2025-11-05

    2024-12-01

    新增功能

    第三方大模型/Agent:新增支持 Function CallingMCP联网问答 Agent

    2025-11-03

    2024-12-01

    新增功能

    1. 参数校验增强:在任务启动时对 StartVoiceChat 接口的参数进行校验,并通过回调返回未定义或错误的参数信息。详情请参见错误码说明
    1. 状态回调增强:服务端任务状态回调新增状态:llmOutput(大模型输出首个 token)、answerStart(智能体开始说话)、interrupted(智能体被打断)、reasoningStart(大模型开始深度思考)。详情请参见接收智能体任务状态
  • 2025 年 10 月

    时间

    接口版本

    变更类型

    说明

    2025-10-23

    2024-12-01

    新增功能

    新增支持豆包语音端到端模型:整合了 ASR、LLM、TTS 的全链路能力,显著降低闲聊场景的响应延迟。支持两种模式:

    • 纯端到端模式:适用于纯闲聊场景,获得极致的低延迟体验。
    • 混合编排模式:默认使用端到端模型进行闲聊。当识别到 Function Calling 等需要外部工具的意图时,会自动将任务交由 LLMConfig 中配置的大模型进行处理,实现意图仲裁和复杂任务执行。

    具体接入方式,请参见接入端到端实时语音大模型

    2025-10-17

    2024-12-01

    新增功能

    流式语音识别大模型、火山语音合成大模型(流式输入流式输出):支持参数透传,提供了更大灵活性。

    2024-12-01

    新增功能

    新增支持接入火山记忆库(VikingDB):通过 MemoryConfig 参数,可为智能体接入长期记忆能力,使其能够检索并利用历史对话信息,提供更具个性化和连续性的交互体验。具体接入方式,请参见接入记忆库

    2025-10-10

    2024-12-01

    新增功能

    新增支持接入火山引擎数字人,为智能体赋予具象形态,同时实现精准口型同步,有效增强交互过程的生动性。具体实现方式,请参见与数字人对话

  • 2025 年 9 月

    时间

    接口版本

    变更类型

    说明

    2025-09-29

    2024-12-01

    新增功能

    1. 新增支持接入火山联网问答 Agent:可以让智能体具备实时从互联网检索信息并进行总结回答的能力。例如查询最新资讯、获取天气信息、询问实时股价等。接入方法,请参见接入联网问答 Agent
    1. 新增支持接入 MCP:通过 MCP 可以将知识库问答(RAG)、信息搜索、数据分析等复杂能力,作为独立的工具接入到实时对话流中,扩展智能体的能力。接入方式,请参见使用 MCP 扩展智能体能力

    2025-09-25

    2024-12-01

    新增功能

    离线声纹降噪:新增 Score 参数,用于自定义声纹匹配阈值。只有当实时语音与注册声纹的相似度分数大于等于该阈值时,才会被识别为目标用户。具体参数参看 StartVoiceChat 中的 AgentConfig.VoicePrint.Score

    2025-09-09

    2024-12-01

    新增功能

    1. 火山引擎语音识别大模型:新增支持双向流式优化版StreamMode: 2),同时支持在双向流式优化版的基础上开启二遍识别,满足客户实时上屏需求(快)的同时,又可以保证识别准确率(准)。具体参数参看 StartVoiceChat 中的 ASRConfig.StreamModeASRConfig.enable_nonstream
    1. Coze 平台配置,新增字段 ResponseTimeout(Coze 智能体回复超时时间)。如果 Coze 智能体内部配置了复杂流程(如 MCP、插件调用),其响应时间可能会变长。此参数用于设定一个合理的等待上限,避免因智能体长时间无响应而影响用户体验。具体参数说明参看 StartVoiceChat 中的 LLMConfig.CozeBotConfig.ResponseTimeout
  • 2025 年 8 月

    时间

    接口版本

    变更类型

    说明

    2025-08-27

    2024-12-01

    新增功能

    1. 新增 AI 降噪:对音频进行智能降噪处理,可根据实际噪声环境选择不同级别的降噪模式。具体参数参看 StartVoiceChat 中的 AgentConfig.AnsMode
    1. 新增智能语义断句:启用后系统会结合 AI 模型对语义完整性的判断和 SilenceTime 来进行断句,能更准确地处理长句中的自然停顿。具体参数参看 StartVoiceChat 中的 ASRConfig.VADConfig.AIVAD
    1. 新增声纹降噪:可用于提升在多人环境下的语音识别准确率。启用后,系统将识别人声并保留目标用户(TargetUserID)的声纹,同时抑制环境中的其他无关人声(旁人噪音)。具体使用,请参见 StartVoiceChat

    2025-08-25

    2024-12-01

    新增功能

    视觉理解新增支持图片理解。具体使用说明,请参见 视觉理解能力

    2025-08-14

    2024-12-01

    新增功能

    Coze 平台配置,新增以下字段:

    • CustomVariables:为 Coze 智能体 Prompt 中定义的变量 {{key}} 动态赋值。
    • MetaData:为对话附加信息,比如业务标识(如订单号、用户来源等)。
    • Parameters:为 Coze 对话流起始节点中定义的自定义参数赋值。

    具体参数说明参看 StartVoiceChat 中的 LLMConfig.CozeBotConfig

    2025-08-13

    2024-12-01

    新增功能

    第三方模型配置,新增字段 EnableRoundId,用于控制请求第三方模型/Agent 接口时,是否在请求体中携带字段 round_id(对话轮次 ID)。具体参数参看 StartVoiceChat 中的 LLMConfig.EnableRoundId

  • 2025 年 7 月

    时间

    接口版本

    变更类型

    说明

    2025-07-11

    2024-12-01

    新增功能

    语音合成 TTS,支持接入自定义 TTS 服务。具体参数参看 StartVoiceChat 中的 TTSConfig.ProviderParams(自定义语音合成)

    2025-07-11

    2024-12-01

    新增功能

    火山方舟大模型,支持设置模型的深度思考模式(关闭、启用深度思考等)。具体参数参看 StartVoiceChat 中的 LLMConfig.ThinkType

    2025-07-01

    2024-12-01

    新增功能

    第三方大模型支持视觉模型。具体参数参看 StartVoiceChat 中的 LLMConfig.VisionConfig

  • 2025 年 6 月

    时间

    接口版本

    变更类型

    说明

    2025-06-30

    2024-12-01

    新增功能

    嵌入式硬件场景下,支持标识是否为 License 用户。具体说明参看 StartVoiceChat.AgentConfig.UseLicense

  • 2025 年 5 月

    时间

    接口版本

    变更类型

    说明

    2025-05-28

    2024-12-01

    新增功能

    嵌入式硬件场景下支持音频快速发送,实现更好的抗弱网能力。具体参数参看 StartVoiceChat.AgentConfig.Burst

  • 2025 年 4 月

    时间

    接口版本

    变更类型

    说明

    2025-04-14

    2024-12-01

    新增功能

    • ASR 模块:
      • 新增支持火山引擎语音识别大模型服务热词功能,若存在部分词汇识别效果不好的情况,可考虑通过添加热词,提高该类词语的识别效果。具体参看 boosting_table_id 字段。
      • 新增支持火山引擎语音识别大模型服务替换词功能,若存在部分词汇存在多音字的情况,可考虑通过添加替换词,提高该类词语的识别效果。参看 correct_table_id 字段。
      • 新增支持打断词设定功能,若用户说话内容开头包含任一传入打断词,智能体则立刻停止输出。参看 ASRConfig.InterruptConfig.InterruptKeywords 字段。
      • 新增选择是否自动触发新一轮对话,参看 ASRConfig.TurnDetectionMode 字段。
    • LLM 模块:移出 UserMessage 字段,使用 UserPrompts 字段替换,大模型效果更稳定。

    2025-04-11

    2024-12-01

    新增功能

    大模型新增支持 Coze 平台。

  • 2025 年 1 月

    时间

    接口版本

    变更类型

    说明

    2025-01-09

    2024-12-01

    新增功能

    新增支持智能体任务执行期间回调状态变化,以便你在业务端及时进行后续处理或保证业务的稳定性。详情参看接收状态变化消息

    2025-01-06

    2024-12-01
    2024-06-01

    新增功能

    大模型配置选择火山方舟平台时,支持使用视觉理解模型,详情参看视觉理解能力

2024 年

  • 2024 年 12 月

    时间

    接口版本

    变更类型

    说明

    2024-12-31

    2024-12-01

    新增功能

    支持传入文本信息供 TTS 音频播放,参看 UpdateVoiceChat.Command
    支持传入自定义文本结合用户问题送入 LLM,参看 UpdateVoiceChat.Command
    支持传入外部问题,送入 LLM,参看 UpdateVoiceChat.Command
    支持使用通过配置的 URL 接收 function calling 函数工具调用的信息指令,参看配置 FunctionCallingConfig 接收信息指令
    支持字幕返回无需对齐 TTS 音频时间戳,参看 StartVoiceChat.SubtitleConfig.SubtitleMode

    升级改动

    移除最外层 UserId,使用 TaskId 做任务标识。
    新增 AgentConfig,支持智能体基本配置。
    LLMConfig.WelcomeSpeech移入 AgentConfig 结构下。
    移除 Config.BotName,使用 AgentConfig.UserId 标识智能体。

    2024-12-25

    2024-06-01

    新增功能

    TTS 新增支持火山引擎双向流式语音合成

    2024-12-25

    2024-06-01

    新增功能

    新增 ASRConfig.VolumeGain 字段,支持降低采集音量,以减少噪音引起的 ASR 错误识别。
    新增 ASRConfig.VADConfig 字段,支持 VAD 配置。
    新增 LLMConfig.prefill 字段,支持将 ASR 中间结果提前送入大模型进行处理以降低延时。

  • 2024 年 11 月

    时间

    接口版本

    变更类型

    说明

    2024-11-08

    2024-06-01

    新增功能

    TTS 新增接入 MiniMax 服务提供商,具体参看 Config.TTSConfig
    Config.TTSConfig 结构已重构,原有结构短期内仍会支持,建议使用新结构调用实时对话式 AI 服务。

    2024-11-05

    2024-06-01

    新增功能

    新增支持 Function calling 功能,可将将大模型与外部工具和 API 相连,具体参看ARKLLMConfig.Tools

  • 2024 年 10 月

    时间

    接口版本

    变更类型

    说明

    2024-10-18

    2024-06-01

    新增功能

    新增支持 TTS 倍速、音量和音高调节,具体参看TTSConfig

    2024-10-14

    2024-06-01

    新增功能

    新增支持自动打断功能开关,具体参看Config.InterruptMode

  • 2024 年 8 月

    时间

    接口版本

    变更类型

    说明

    2024-08-30

    2024-06-01

    新增功能

    新增支持房间内字幕功能,具体参看Config.SubtitleConfig

    2024-08-22

    2024-06-01

    新增功能

    TTS 新增支持大模型语音合成服务和大模型声音复刻 2.0 服务,下线大模型声音复刻 1.0 服务,具体参看Config.TTSConfig
    下线方舟 1.0 大模型,新增支持接入第三方大模型,方舟 2.0 模型,具体参看Config.LLMConfig