You need to enable JavaScript to run this app.
实时音视频

实时音视频

复制全文
用户指南
智能体管理
复制全文
智能体管理

本文介绍了如何创建、使用和管理智能体。
智能体定义了用户与设备进行 AI 对话的主要配置,包括语音识别(ASR)、大模型(LLM)和语音合成(TTS)等基础能力,以及视觉理解、Function Calling 等丰富的扩展能力。通过灵活配置,您可以创建适用于不同场景的智能体。

前提条件

已经开通硬件对话智能体服务并完成授权。更多信息,请参见第一步:开通服务与授权

创建智能体

  1. 登录硬件对话智能体控制台
  2. 在左侧导航栏,单击 智能体管理
  3. 单击 +创建智能体
  4. 创建智能体 对话框,根据智能体配置说明完成智能体配置。
  5. 单击 保存配置

创建成功后,您可以在 智能体管理 页面查看和管理智能体。
要在您的设备上应用新建的智能体,必须先将智能体关联到产品上。具体操作,请参见为智能体关联产品

智能体配置说明

智能体配置包括:

  • 基础配置:智能体的基本信息、大模型、语音识别、语音合成及欢迎语。
  • 高级配置:可选配置,方便您优化语音交互体验和启用扩展功能。

基础配置

Image

类别

配置项

说明

基础信息

智能体名称

设置智能体的名称,建议使用易于识别的业务名称。

角色模板

选择预设角色模板或自定义角色。

  • 预设角色模板:系统提供 智能助手可爱玩偶情感陪伴儿童百科翻译助手 等模板,预置了适配相应场景的 LLM、Prompt、音色及欢迎语等配置。
  • 自定义:从零开始配置所有参数。

大模型 (LLM)

大模型类型

选择驱动智能体对话能力的大模型类型。可选项:

  • 方舟大模型:使用火山引擎方舟平台提供的模型。
  • 扣子 (Coze):接入 Coze 平台的 Bot。
  • 第三方大模型 / Agent:接入自建或其他第三方模型。

注意

使用扣子平台、第三方大模型 / Agent 时,产生的 LLM Tokens 无法通过 License 或扩展资源抵扣。

  • 扣子平台计费方式,请参见扣子_模型费用
  • 第三方大模型 / Agent计费方式,以第三方模型提供商为准。

(方舟大模型相关配置)

如果选择 方舟大模型,需要配置以下参数:

  • ModelName:选择一个具体的模型。

    示例:“Doubao-Seed-1.6-flash | 250715 深度思考 视觉理解 文本生成”。其中,250615 指模型的时间版本,“深度思考 视觉理解 文本生成”为模型支持的能力。

  • 视觉理解模型(仅适用于支持 视觉理解 能力的模型):
    开启后,智能体可理解实时视频画面或外部图片,实现感知环境、理解真人行为、图像问答等。

    注意

    使用视觉理解会消耗视频处理扩展资源。您必须为产品分配相应的扩展资源。更多信息,请参见管理 License 和扩展资源

    说明

    Doubao-1.5 及之前系列的模型,不支持同时使用视觉理解能力和 Function Calling 功能。

  • 深度思考模式(仅适用于支持 深度思考 能力的模型):
    设置是否启用深度思考。

    说明

    实时对话场景建议关闭深度思考,以减少模型推理延迟,让对话更流畅。

  • Prompt:输入用于指导模型生成回应的提示词,定义智能体的人设、语气和回复格式等。

扣子(Coze)相关配置

如果选择 扣子 (Coze),需配置以下参数:

  • URL:固定为 http://api.coze.cn
  • 扣子智能体 BotID:填写已发布的 Coze Bot ID(发布渠道 必须包含 API )。
  • APIKey:填写您在 Coze 平台的个人访问令牌

    说明

    在生产环境建议选择更安全的认证方式,如 OAuth

第三方模型/Agent相关配置

如果选择 第三方大模型 / Agent,需配置以下参数:

  • URL:填写 HTTPS 服务地址,需支持公网访问。

    说明

    • URL 必须符合火山引擎 接口标准。您可参考 验证接口 检查 URL 是否符合标准。
    • 如需传递非敏感业务信息(如 session_id),可直接拼接在 URL 查询参数中,格式:https://<API地址>?<参数名>=<参数值>
  • ModelName:填写模型名称。
  • APIKey:填写访问模型的 API Key。
  • 视觉理解模型(仅适用于支持 视觉理解 能力的第三方模型,不适用于第三方智能体):
    开启后,智能体可理解实时视频画面或外部图片,实现感知环境、理解真人行为、图像问答等。
  • Prompt:输入用于指导模型生成回应的提示词,定义智能体的人设、语气和回复格式等。

语音识别 (ASR)

ASR 服务

选择语音识别服务。可选项:

流式语音识别相关配置

如果选择 流式语音识别,需配置以下参数:

  • 选择识别语言:手动指定识别场景及语言(如 客服场景 / 流式语音识别-客服-中文)。

语音合成 (TTS)

TTS 服务

选择语音合成服务。可选项:

  • 火山引擎语音合成大模型:流式输入输出,支持多种情感/方言音色,表现力更生动。详细特性参见大模型语音合成
  • 火山引擎语音合成:生成速度快,满足常规语音播报需求,适合短语或标准回复(如提醒、系统反馈)。
  • 火山引擎声音复刻:流式输入输出,支持复刻真人音色,语音合成效果更自然。

选择合成声音

根据业务场景选择合适的音色。

  • 语音合成大模型与语音合成支持的音色不同,具体以控制台为准。
  • 声音复刻音色需要先定义后使用。更多信息,请参见使用声音复刻

欢迎语

欢迎语 WelcomeMessage

设置智能体在对话开始时主动发送的问候语。

高级配置

Image

配置项

说明

语音打断

开启后,用户在设备播报时说话可打断播报,实现“插话”效果。

关键词打断

开启后,只有当用户说出特定关键词(如“停止”、“闭嘴”)时可打断播报。
仅在 语音打断 开启时生效。

VAD

开启语音活动检测 (Voice Activity Detection),由服务端自动检测用户说话的开始和结束,决定回复的时机。
若不开启,则需要由设备端自行控制语音输入的开始和结束(例如通过按键触发)。

语义判停

开启后,服务端将结合语义理解来判断用户是否说完整句话,避免误打断用户说话(如因说话停顿等情形)。

音频快速发送

开启后,可优化弱网环境下语音对话的流畅度。
具体机制如下:服务端在每轮对话回复开始时,先将特定时长的音频数据一次性发送给客户端。客户端使用首段音频数据在本地建立播放缓冲区,用于对抗网络抖动。随后,服务端按照指定的时间间隔发送后续音频数据包。

说明

该功能需要嵌入式 Linux SDK 版本不低于 1.57 才能使用。

AI 降噪

开启后,服务端将对输入音频进行 AI 降噪处理(如过滤空调、风扇、敲键盘等环境噪声),以提升语音识别准确率。
该功能适用于设备端未运行端上 AI 降噪功能的场景。

字幕显示

开启后,可通过客户端接收字幕回调,实现在设备屏幕上显示字幕。
开关只影响是否开启客户端字幕回调。如需通过服务端接收字幕回调,需要配置以下参数:

  • ServerMessageUrl:设置接收字幕结果的 URL 地址。
  • ServerMessageSignature:设置鉴权签名。

详细使用说明,请参见接收实时字幕

上下文历史轮次

设置智能体记忆的对话轮数,用于维持对话上下文。例如,设置为 10,智能体会基于最近的 10 轮对话来理解上下文。
默认值:10

语速音量音高

  • 当语音合成服务是 火山引擎语音合成大模型火山引擎声音复刻 时,仅支持设置 语速
    语速取值范围:[-50, 100]0 代表正常语速,100 代表 2.0 倍速,-50 代表 0.5 倍速。
  • 当语音合成服务是 火山引擎语音合成 ,支持设置 语速音量音高
    语速、音量和音高都是由 [0.0~3.0] 范围内的小数(保留一位)表示。数值越大,语速越快、音量越高、音高越高。

Function calling

为智能体配置调用外部工具来获取信息或执行操作(如调节设备音量、查询天气等)的能力。

说明

适用于所有支持 Function calling 的方舟大模型(推荐 Doubao-Seed-1.6)及第三方大模型 / Agent。

配置方式:

  • 由客户端调用:仅需单击 创建工具 添加工具定义,工具执行逻辑由设备端实现。
  • 由服务端调用:需单击 创建工具 添加工具定义,并配置 接收消息 URL(接收函数调用请求的 HTTPS 地址)和 接收消息签名(用于验证请求来源的签名)。

详细使用说明,请参见使用 Function Calling

管理智能体

创建智能体后,您可以在 智能体管理 页面将其关联到具体产品,以及查看、编辑或删除智能体。

查看智能体信息

您可以在 智能体管理 页面查看智能体信息。支持 卡片视图列表视图 两种展示方式。
通过页面右上角的下拉框可筛选 智能体类型

  • 平台设置:通过控制台创建的智能体均为平台设置类型,可与产品绑定,应用于产品下所有设备。
  • 用户自定义:当前仅支持通过 OpenAPI 创建(需调用 创建智能体 AibotCreate 接口),仅支持与单个设备绑定。

Image

基本信息

智能体管理 页面展示了智能体的以下基本信息:

  • ID:即 BotId,是智能体的唯一标识符。在通过 SDK 或 OpenAPI 使用智能体时,需提供该 ID。
  • 代码示例:提供了 JSON 格式的智能体配置,方便您在 SDK 和 OpenAPI 中使用。
  • 使用模型:显示当前智能体配置的大模型信息。
  • 音色:显示当前智能体配置的 TTS 合成音色名称。
  • 已关联产品:显示已关联当前智能体的产品。
  • 已绑定设备:显示已绑定当前智能体的设备数量。
  • 更新:显示智能体最后一次保存配置的时间。

查看详情

单击智能体卡片上的 ... > 查看详情,可跳转至智能体详情页。
在详情页中,除了可查看上述基本信息外,还可查看 智能体功能,即当前智能体的详细配置。
Image

为智能体关联产品

将智能体关联到产品后,产品下的设备便可绑定该智能体,即使用该智能体与用户进行 AI 对话。

说明

设备仅能绑定与其所属产品关联的智能体。

操作步骤

  1. 智能体管理 页面,找到目标智能体,单击 关联产品
  2. 在弹出的对话框中,选择一个或多个产品,然后单击 确定
    Image

编辑智能体

通过编辑智能体,可以修改智能体配置。

注意

如果设备已绑定该智能体,您在编辑智能体配置后,必须重启设备才能使新配置生效。

  1. 智能体管理 页面,找到目标智能体,单击 编辑
  2. 配置智能体 对话框修改智能体配置,然后单击 保存配置

删除智能体

如果不再需要使用某个智能体,可以将其删除。

注意

删除智能体后,绑定该智能体的所有设备将无法与用户进行 AI 对话。请谨慎操作。

  1. 智能体管理 页面,找到目标智能体,单击 ... > 删除
  2. 在弹出的对话框中,单击 确定

Image

最近更新时间:2026.01.09 15:09:12
这个页面对您有帮助吗?
有用
有用
无用
无用