You need to enable JavaScript to run this app.
导航
产品简介
最近更新时间:2025.11.04 18:09:33首次发布时间:2024.10.15 10:59:11
复制全文
我的收藏
有用
有用
无用
无用

产品说明

火山引擎语音团队基于大模型语音识别能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,语音识别大模型拥有更加灵敏的耳朵+更加聪明的大脑,识别准确率进一步提升。

大模型流式语音识别

双向流式模式: 支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。
流式输入模式: 支持将音频以流式方式送入,语音识别引擎处理完后返回句级的识别结果,适用于智能体对话、IM语音消息转写、语音输入法等场景。

大模型录音文件识别

支持将音频文件(≤5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。

产品优势

  • 超高的准确率:相比传统模型识别错误率降低30%,在音乐,科技,教育,医疗等垂直领域识别错误率降低50%以上。
  • 复杂场景识别效果提升:支持多语种多方言语音识别,口音错误率降低60%,噪声和背景人声下降30%-50%。
  • 更类真人的交互体验:大模型能根据上下文、用户输入、背景信息输入等,让“耳朵”能思考,给出更贴合语境的识别效果。

功能特性

大模型流式语音识别

大模型录音文件识别

适用场景

双向流式模式:​豆包打电话模式,实时语音通话
流式输入模式:​iM消息(输入法)

剪映:字幕创作
飞书:会议纪要

基础能力

语音识别

智能分句

字/词时间戳

可选能力

自动标点

语义顺滑

说话人识别

数字规整ITN

热词纠错

平台级别

支持通过自学习平台添加中英文热词

支持通过自学习平台添加中英文热词

请求级别

返回时效

双向流式模式:​实时,即边说话边出文字
流式输入模式:​流式输入,分句返回

承诺 3 小时内返回识别文本
submit后,需要在7天内query结果

并发限制

正式版默认10并发
支持购买并发扩容

正式版默认最大支持 20QPS,半小时内提交的音频时长不超过 500小时

输入音频格式

支持PCM、OPUS格式;

支持OPUS、WAV、MP3、SPX、OGG、AMR、AAC、M4A格式;

采样率

单声道,采样率 16000

单声道/双声道,采样率无要求
音频时长<5小时,且文件大小<512M

接入方式

Websocket API / 在线SDK

HTTP

支持语种

  • 双向流式模式:中英文
  • 流式输入模式:中英文、上海话、闽南语,四川、陕西、粤语
    • 多语种:日语、韩语、印尼语、菲律宾语、马来语、泰语、法语、德语、西班牙语、葡萄牙语、沙特阿拉伯语
  • 中英文、上海话、闽南语,四川、陕西、粤语
  • 多语种:日语、韩语、印尼语、菲律宾语、马来语、泰语、法语、德语、西班牙语、葡萄牙语、沙特阿拉伯语

应用场景

应用场景

场景描述及价值

语音交互

为人机交互提供语音输入渠道,通过实时将语音转成文字作为输入,达到和设备/硬件/应用快速&便捷交互的目的

内容审核质检

将录音识别为文字,通过质检规则对文本进行分析,及时发现违规内容并干预处理;或对内容进行监控分析,发掘潜在商机

会议访谈转写

将会议、访谈音频实时或异步识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率

游戏语音输入

针对游戏语音输入、手机输入法场景,支持用户“边说边出文字”的效果,极大降低用户文字沟通的精力、提升沟通效率

课堂内容分析

将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量

音视频字幕

支持自动将音/视频中的语音、歌词识别转换为文本,一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景。