You need to enable JavaScript to run this app.
文档中心
豆包语音

豆包语音

复制全文
语音识别大模型
产品简介
复制全文
产品简介

产品说明

火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑,识别准确率进一步提升。

大模型流式语音识别

双向流式模式: 支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。
流式输入模式: 支持将音频以流式方式送入,语音识别引擎处理完后返回句级的识别结果,适用于智能体对话、IM语音消息转写、语音输入法等场景。

大模型录音文件识别

支持将音频文件(≤5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。

产品优势

  • 超高的准确率:相比传统模型识别错误率降低30%,在音乐,科技,教育,医疗等垂直领域识别错误率降低50%以上。
  • 复杂场景识别效果提升:支持多语种多方言语音识别,口音错误率降低60%,噪声和背景人声下降30%-50%。
  • 更类真人的交互体验:大模型能根据上下文、用户输入、背景信息输入等,让“耳朵”能思考,给出更贴合语境的识别效果。

功能特性

功能项豆包流式语音识别模型豆包录音文件识别模型
识别模式双向流式(含优化版本)流式输入录音文件识别

返回时效

实时,即边说话边出文字

流式输入,分句返回

一般接到任务立即识别;
标准版:3 小时内;
闲时版:24小时内;
极速版:30分钟音频一般10秒左右返回(不含音频传输时间)

敏感词过滤
智能分句
字/词时间戳
标点符号预测

语义顺滑(目前支持中文、英文)

数字规整ITN
启用双声道识别不支持不支持
使用vad分句不支持
自动说话人分离(中英文)

上下文(文本、图片)


2.0支持图片


2.0支持图片


2.0支持图片

强制判停时间

输出语音停顿、分句、分词信息

性别检测
分句信息携带语速
分句信息携带音量
语种检测
情绪检测

热词纠错-平台级别

热词纠错-请求级别
正则替换词

是否启动首字返回加速

不支持

不涉及

首字返回加速率不支持不涉及
并发限制正式版默认10并发,以控制台为准 支持购买并发扩容正式版默认最大支持 20QPS,半小时内提交的音频时长不超过 500小时
输入音频格式支持 pcm、opus、mp3格式支持pcm、opus、mp3、wav、spx、ogg、amr、aac、m4a格式
采样率采样率无要求采样率无要求

音频大小

/

音频时长<5小时,且文件大小<512M

开启音乐 function call双向流式优化版-开启二遍支持
开启 POI function call双向流式优化版-开启二遍支持

支持语种

  • 中英文

(双向流式只支持中英文、二遍支持中英文及方言)

  • 中英文

  • 方言:

    • 方言文本输出:粤语、四川、陕西、冀鲁、兰银、江淮;

    • 普通话文本输出:上海话、闽南语,山西话、客家话;

    • 国内口音普通话(东北话、北京话等)

  • 外语:中英+23种

    日语、印尼语、西班牙语、葡萄牙语、德语、法语、韩语、菲律宾语、马来语、泰语、阿拉伯语、意大利语、孟加拉语 、希腊语、荷兰语、俄语 、土耳其语 、越南语 、波兰语、罗马尼亚语 、尼泊尔语 、乌克兰语、粤语

应用场景

应用场景

场景描述及价值

语音交互

为人机交互提供语音输入渠道,通过实时将语音转成文字作为输入,达到和设备/硬件/应用快速&便捷交互的目的

内容审核质检

将录音识别为文字,通过质检规则对文本进行分析,及时发现违规内容并干预处理;或对内容进行监控分析,发掘潜在商机

会议访谈转写

将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率

游戏语音输入

针对游戏语音输入、手机输入法场景,支持用户“边说边出文字”的效果,极大降低用户文字沟通的精力、提升沟通效率

课堂内容分析

将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量

音视频字幕

支持自动将音/视频中的语音、歌词识别转换为文本,一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景。

最近更新时间:2026.03.19 21:40:14
这个页面对您有帮助吗?
有用
有用
无用
无用