实时音视频
默认情况下,AI 无法区分不同说话人的声音。在多人交谈的环境中,它可能误将他人的语音当作有效指令,从而导致误识别或错误响应。您可启用声纹识别功能,对说话人身份进行验证,使 AI 仅响应一个或多个已授权用户的指令,从而提升语音交互的准确性与安全性。
声纹识别与声纹降噪的区别,可参见声纹识别与声纹降噪的区别?
VoicePrintId。StartVoiceChat 接口时,配置 AgentConfig.VoicePrint:
Mode:设置为 2,代表启用声纹识别验证模式。IdList:传入已注册的声纹 ID,最多支持传入 3 个。Score(可选):设置声纹匹配的置信度阈值,取值范围 [1, 100],推荐值为 40-60,默认 50。系统会计算实时语音与注册声纹的“相似度分数”。只有当分数不低于此阈值时,才判定为匹配成功,AI 才会响应。请求示例:
"VoicePrint": { "Mode": 2, "IdList": ["vp_id_user_A", "vp_id_user_B"], "Score": 50 }
功能 | 原理 | 适用场景 |
|---|---|---|
声纹识别 | 只响应特定用户的指令。 | 需要对操作者身份进行验证的场景,如车载语音助手、智能家居控制,以防止儿童或乘客的误操作。 |
只听清特定用户的声音。 | 提升在嘈杂环境下(如办公室、咖啡馆、家庭客厅)的语音识别准确率。 |