You need to enable JavaScript to run this app.
导航

模型效果FAQ

最近更新时间2022.11.10 16:58:13

首次发布时间2022.05.18 11:40:56

Q:语音识别的准确率是如何衡量的,目前火山引擎的准确率大概是在什么水平?

A:语音识别的准确率用字/词错误率(Char / Word Error Rate,CER / WER)来衡量,准确率 = 1 - 字错率。目前火山引擎的语音识别,在大部分的场景可以达到 85%~95% 的准确率。

Q:如何测试我的业务场景的识别准确率?

A:您可以标注真实场景的测试音频(最好 > 3h),根据标注结果和识别结果计算 CER / WER;您也可以提供音频给我们,由我们进行标注和测试(将额外收取费用)。

Q:流式语音识别和录音文件转写的区别?

A:流式语音识别是指边说话边识别,而录音文件转写是已有录音文件进行离线转写。前者适用于语音输入、语音搜索、会议字幕等场景;后者适用于电话录音转写、视频字幕生成等。
通常情况下,录音文件转写的效果要优于流式语音识别。

Q:如何优化指定业务场景的识别准确率?

A:可以通过以下两种方案优化指定场景的识别准确率。

  • 方案一:添加热词优化

    如果您的识别结果中存在部分词汇识别效果不好的情况,可考虑通过添加热词,提高该类词语的识别效果。您可以在 控制台-语音技术-自学习平台-热词管理中自主添加、使用、管理热词。详细使用方法可见:自学习平台-热词

  • 方案二:语言模型优化

    若您已添加热词,但仍对识别效果不满意,且有指定场景的大量文本语料(话术、文章、会议纪要、工单等),可以立即咨询我们的销售专家,我们可协助您进行语言模型的优化,提高该场景的识别准确率。

Q:如何判断我该接入哪个场景的模型?

A:目前,火山引擎语音识别提供了娱乐、办公、客服和通用四个场景,您可以根据自己的业务需要,有针对性地选择。如果业务场景是娱乐、办公、客服中的一个,推荐优先接入对应场景;如果通用场景的识别效果已经符合您的预期,可以接入通用场景。
如您有优化需求,一般娱乐、办公、客服场景可以做针对性的优化,但通用场景不会提供定制优化。
如您的接入量级很大,并且有优化需求,也不建议接入通用场景,可联系火山引擎的商务同学沟通方案。

Q:录音中多人说话,且存储为单声道,识别结果会把说话人分开吗?

A:支持,说话人识别为可选能力,可根据配置返回说话人信息。

Q:遇到了识别效果问题,我该如何反馈?

A:如果遇到了识别结果不符合预期的问题,您可以创建工单,选择 [语音技术] - [语音技术相关产品反馈],提供问题音频、接入的具体场景、预期的识别结果,反馈给技术人员优化。

Q:服务是否支持私有化部署?

如有需求,您可以通过火山引擎官网,进一步商务咨询。