Q：如果人耳听不清音频，模型识别效果也不符合预期，该如何优化？

A：建议录音时，靠近录音设备，控制录音环境的噪音，避免多人同时说话；可以降低语速，避免吞音和变形；尽量避免儿童不清晰的说话声，以及模型不支持的语种和方言。

Q：如果人耳可以听清音频，但出现识别字准问题，该如何优化？

A：识别效果问题分为以下几类：

部分词汇识别不准
如果您的识别结果中存在部分词汇识别效果不好的情况，可考虑通过添加热词，提高该类词语的识别效果。您可以在控制台-豆包语音-自学习平台-热词管理中自主添加、使用、管理热词。详细使用方法可见：自学习平台-热词
丢字问题
建议您录音时，尽量避免说话和唱歌混合，或噪声明显的情况，尽量使用模型支持的语种或方言。
识别结果与听到的内容相差很大
一般是音频信息不满足字幕识别要求导致的，建议通过 cooledit、Adobe Audition 或者 FFmpeg 等软件，查看音频的详细信息。
目前仅支持单通道、16kHz采样率的录音文件。
说话和唱歌混合时，识别效果不好
建议您将caption_type设置为auto，模型会自动判断音频类别，切分后送到对应的语音/唱歌模型。
单独的说话，建议将caption_type设置为speech，模型将只识别说话部分；
单独的唱歌，建议将caption_type设置为singing，模型将只识别唱歌部分。
很短的音频片段，没有识别结果
识别音频时长需要在1s以上，过短的音频可能会存在漏识别情况。

A：后处理问题分为以下几类：

分句过长、过碎
建议您通过调整参数words_per_line（每行最长字符）来控制每个分句的最大长度。
"words_per_line" 会受到语言影响，中文默认值是16个字，英文是60个字母。值越小，分句越短；值越大，分句越长。
有的分句会在句中断开
分句会综合考虑音频的停顿、文本的语义以及说话人转换等信息，同时也受限于每句最长字数的限制，因此存在句中断开的情况。
开启ITN后，有些中文未转成阿拉伯数字
一般情况下，会根据书面文本中常用的形态进行转换，并不是所有数字都需要转成阿拉伯数字。如果仍出现“应转未转”的问题，您可以通过创建工单，选择 [豆包语音] - [豆包语音场景大模型相关产品反馈]，将问题和对应音频反馈给我们优化。

A：支持中文普通话、英语、粤语方言。如果有其他语种或方言需求，您可以通过创建工单，选择 [豆包语音] - [豆包语音场景大模型相关产品反馈]，与我们联系。

A：可以，支持识别中英文混合的音频。

A：支持16000 Hz的采样率。其他格式文件会被转换至16000 Hz，再进行语音识别。需注意，使用其他采样率或格式，可能会出现转换问题。

A：建议您通过调整参数adjust_endtime（每句的尾字延迟参数）来控制字幕展示的时长。
"adjust_endtime" 的取值范围是0～500ms，语音字幕默认值是 300ms，歌词字幕 500ms。值越小，字幕持续时间越短；值越大，字幕持续时间越长。

最近更新时间：2025.07.03 13:26:56

这个页面对您有帮助吗？

有用

无用