硬件对话智能体是一个端到端的智能硬件对话开发平台,兼容主流 IoT 芯片,可快速帮助开发者将低延迟、高自然的 AI 对话能力集成到智能硬件中,让智能硬件会听、会看、会说话,适用于 AI 玩具、智能穿戴设备、陪伴机器人、智能家居、教育硬件、具身智能设备等场景。
本产品采用先进的端云一体化架构,将设备的实时交互能力与云端强大的服务管理能力无缝结合,确保了服务的低延迟、高可用和易于管理。

| 功能 | 说明 |
|---|---|
| AI 实时语音对话 | 与智能体进行自然流畅的实时语音对话,如同与真人交流,支持随时插话打断。 |
| 语音识别 | 将用户语音实时转写为文本,供大模型分析理解、生成字幕等。 |
| 大模型处理 | 解析输入文本,并生成语义响应,驱动智能体对话逻辑。 |
| 语音合成 | 将大模型生成的文字回复转化为语音。 |
| 降噪 | 结合音频 3A 技术和 AI 降噪算法,能够兼顾强降噪与高保真,确保在嘈杂的环境中有效去除背景噪音,保留清晰的人声。 |
| 打断智能体 | 在对话过程中,用户可以随时打断智能体的语音输出,实现双向互动。 |
| 视觉理解 | 接入视觉理解模型,使智能体能够理解实时视频画面或指定外部图片,从而实现感知环境、理解真人行为、图像问答等视觉交互。 |
| Function calling | 允许大模型识别用户对话中的特定需求,并在对话的过程中调用外部函数实现天气查询、数学计算等功能。如处理实时数据检索、文件处理、数据库查询等,从而扩展智能体的服务能力和应用场景。 |
| 实时字幕 | 实时将用户和智能体的对话内容转化为文字,可用于字幕渲染或存储。 |
实时对话式 AI 和硬件对话智能体是不同的 AI 语音对话智能体方案,拥有不同的产品 SDK 和 OpenAPI,不能混合使用。两者适用场景不同,功能上也存在差异,你可以根据不同场景进行灵活选择:
实时对话式AI:适用于 AI 智能助手、AI 客服、AI 陪伴、AI 游戏 NPC 等智能软件场景。
硬件对话智能体: 适用于 AI 玩具、智能眼镜、智能家居、具身智能等智能硬件场景。
硬件对话智能体为智能硬件接入提供高质量和低负载两种方案:
| 对比项 | 高质量方案 | 低负载方案 |
|---|---|---|
| 传输层协议 | 基于 UDP 协议 | 基于 TCP 协议 |
| 延时分析 | ||
| 建连延时 | 相对较高 | 更低(略优) |
| 传输延时 | 更低(更优) | 相对较高 |
| 整体延时 | 无明显差异 | |
| 稳定性 | ||
| 弱网环境 | 抗弱网能力强(带宽估计、纠错重传等),显著更优 | 稳定性较差 |
| 优质网络 | 高可靠性,无明显差异 | 高可靠性,无明显差异 |
| 大文件场景 | 显著更优,适合音视频等多媒体场景 | 表现较差,建议仅用于音频场景 |
| 资源消耗 | 相对较高(RAM < 300KB) | 更低(更优),适合低配置硬件(RAM < 100KB) |
| 接入成本 | 无明显差异 | |
快速搭建一个硬件对话智能体:快速入门。