模型效果FAQ--豆包语音-火山引擎

文档中心

豆包语音

常见问题

模型效果FAQ

Q：语音识别的准确率是如何衡量的，目前火山引擎的准确率大概是在什么水平？

A：语音识别的准确率用字/词错误率（Char / Word Error Rate，CER / WER）来衡量，准确率 = 1 - 字错率。目前火山引擎的语音识别，在大部分的场景可以达到 85%~95% 的准确率。

Q：如何测试我的业务场景的识别准确率？

A：您可以标注真实场景的测试音频（最好 > 3h），根据标注结果和识别结果计算 CER / WER；您也可以提供音频给我们，由我们进行标注和测试（将额外收取费用）。

Q：流式语音识别和录音文件转写的区别？

A：流式语音识别是指边说话边识别，而录音文件转写是已有录音文件进行离线转写。前者适用于语音输入、语音搜索、会议字幕等场景；后者适用于电话录音转写、视频字幕生成等。
通常情况下，录音文件转写的效果要优于流式语音识别。

Q：如何优化指定业务场景的识别准确率？

A：可以通过以下两种方案优化指定场景的识别准确率。

方案一：添加热词优化
如果您的识别结果中存在部分词汇识别效果不好的情况，可考虑通过添加热词，提高该类词语的识别效果。您可以在控制台-豆包语音-自学习平台-热词管理中自主添加、使用、管理热词。详细使用方法可见：自学习平台-热词
方案二：语言模型优化
若您已添加热词，但仍对识别效果不满意，且有指定场景的大量文本语料（话术、文章、会议纪要、工单等），可以立即咨询我们的销售专家，我们可协助您进行语言模型的优化，提高该场景的识别准确率。

Q：如何判断我该接入哪个场景的模型？

A：目前，火山引擎语音识别提供了娱乐、办公、客服和通用四个场景，您可以根据自己的业务需要，有针对性地选择。如果业务场景是娱乐、办公、客服中的一个，推荐优先接入对应场景；如果通用场景的识别效果已经符合您的预期，可以接入通用场景。
如您有优化需求，一般娱乐、办公、客服场景可以做针对性的优化，但通用场景不会提供定制优化。
如您的接入量级很大，并且有优化需求，也不建议接入通用场景，可联系火山引擎的商务同学沟通方案。

Q：录音中多人说话，且存储为单声道，识别结果会把说话人分开吗？

A：支持，说话人识别为可选能力，可根据配置返回说话人信息。

Q：遇到了识别效果问题，我该如何反馈？

A：如果遇到了识别结果不符合预期的问题，您可以创建工单，选择 [豆包语音] - [豆包语音场景大模型相关产品反馈]，提供问题音频、接入的具体场景、预期的识别结果，反馈给技术人员优化。

Q：服务是否支持私有化部署？

A：如有需求，您可以通过火山引擎官网，进一步商务咨询。

最近更新时间：2025.07.03 13:21:00

这个页面对您有帮助吗？

有用

无用

豆包语音

Q：语音识别的准确率是如何衡量的，目前火山引擎的准确率大概是在什么水平？ #

Q：如何测试我的业务场景的识别准确率？ #

Q：流式语音识别和录音文件转写的区别？ #

Q：如何优化指定业务场景的识别准确率？ #

方案一：添加热词优化

方案二：语言模型优化

Q：如何判断我该接入哪个场景的模型？ #

Q：录音中多人说话，且存储为单声道，识别结果会把说话人分开吗？ #

Q：遇到了识别效果问题，我该如何反馈？ #

Q：服务是否支持私有化部署？ #