火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑,识别准确率进一步提升。
双向流式模式: 支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。
流式输入模式: 支持将音频以流式方式送入,语音识别引擎处理完后返回句级的识别结果,适用于智能体对话、IM语音消息转写、语音输入法等场景。
支持将音频文件(≤5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。
| 功能项 | 豆包流式语音识别模型 | 豆包录音文件识别模型 | |
|---|---|---|---|
| 识别模式 | 双向流式(含优化版本) | 流式输入 | 录音文件识别 |
返回时效 | 实时,即边说话边出文字 | 流式输入,分句返回 | 一般接到任务立即识别; |
| 敏感词过滤 | ✅ | ✅ | ✅ |
| 智能分句 | ✅ | ✅ | ✅ |
| 字/词时间戳 | ✅ | ✅ | ✅ |
| 标点符号预测 | ✅ | ✅ | ✅ |
语义顺滑(目前支持中文、英文) | ✅ | ✅ | ✅ |
| 数字规整ITN | ✅ | ✅ | ✅ |
| 启用双声道识别 | 不支持 | 不支持 | ✅ |
| 使用vad分句 | ✅ | 不支持 | ✅ |
| 自动说话人分离(中英文) | ✅ | ✅ | ✅ |
上下文(文本、图片) | ✅ | ✅ | ✅ |
| 强制判停时间 | ✅ | ✅ | ✅ |
输出语音停顿、分句、分词信息 | ✅ | ✅ | ✅ |
| 性别检测 | ✅ | ✅ | ✅ |
| 分句信息携带语速 | ✅ | ✅ | ✅ |
| 分句信息携带音量 | ✅ | ✅ | ✅ |
| 语种检测 | ✅ | ✅ | ✅ |
| 情绪检测 | ✅ | ✅ | ✅ |
热词纠错-平台级别 | ✅ | ✅ | ✅ |
| 热词纠错-请求级别 | ✅ | ✅ | ✅ |
| 正则替换词 | ✅ | ✅ | ✅ |
是否启动首字返回加速 | ✅ | 不支持 | 不涉及 |
| 首字返回加速率 | ✅ | 不支持 | 不涉及 |
| 并发限制 | 正式版默认10并发,以控制台为准 支持购买并发扩容 | 正式版默认最大支持 20QPS,半小时内提交的音频时长不超过 500小时 | |
| 输入音频格式 | 支持 pcm、opus、mp3格式 | 支持pcm、opus、mp3、wav、spx、ogg、amr、aac、m4a格式 | |
| 采样率 | 采样率无要求 | 采样率无要求 | |
音频大小 | / | 音频时长<5小时,且文件大小<512M | |
| 开启音乐 function call | 双向流式优化版-开启二遍支持 | ✅ | ✅ |
| 开启 POI function call | 双向流式优化版-开启二遍支持 | ✅ | ✅ |
支持语种 |
(双向流式只支持中英文、二遍支持中英文及方言) |
| |
应用场景 | 场景描述及价值 |
|---|---|
语音交互 | 为人机交互提供语音输入渠道,通过实时将语音转成文字作为输入,达到和设备/硬件/应用快速&便捷交互的目的 |
内容审核质检 | 将录音识别为文字,通过质检规则对文本进行分析,及时发现违规内容并干预处理;或对内容进行监控分析,发掘潜在商机 |
会议访谈转写 | 将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率 |
游戏语音输入 | 针对游戏语音输入、手机输入法场景,支持用户“边说边出文字”的效果,极大降低用户文字沟通的精力、提升沟通效率 |
课堂内容分析 | 将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量 |
音视频字幕 | 支持自动将音/视频中的语音、歌词识别转换为文本,一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景。 |