语音识别(Automatic Speech Recognition,ASR)采用业内领先的端到端算法模型,准确地将语音内容转写成文字。产品支持时间戳,区分讲话人,数字格式智能转换,智能标点等功能。适用于录音质检、会议总结、音频内容分析、课堂内容分析等场景。
支持将短语音(≤60秒)实时识别成文字,达到“边说话边出文字”的效果。适用于音频小于60秒,需要实时出结果的场景,如语音消息转写、语音搜索、语音弹幕、语音评论、智能语音交互等。
支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。
支持将音频文件(≤5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。
支持将音频文件(≤5小时)极速转写,半实时返回识别结果;内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能,可根据需要任意搭配。适用于准实时外呼质检、及时会议记录、有声内容转写等场景。
一句话识别 | 流式语音识别 | 录音文件识别标准版 | 录音文件识别极速版 | |
---|---|---|---|---|
支持场景 | 办公、教育、通用 | 办公、客服、通用 | 办公、客服、娱乐、通用 | 办公、客服、娱乐、通用 |
基础能力 | 语音识别、时间戳 | 语音识别、智能分句、时间戳 | 语音识别、智能分句、时间戳 | 语音识别、智能分句、时间戳 |
可选能力 | 自动标点 | 自动标点、数字规整、语义顺滑、音量、语速 | 自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感(客服) | 自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感(客服) |
扩展能力 | 支持通过自学习平台添加中英文热词 | 支持通过自学习平台添加中英文热词 | 支持通过自学习平台添加中英文热词 | 支持通过自学习平台添加中英文热词 |
返回时效 | 实时,即边说话边出文字 | 实时,即边说话边出文字 | 承诺 3 小时内返回识别文本; 通常非忙时1小时音频可在12分钟返回识别结果,其他时长等比估算 | 通常1小时音频可在3分钟内返回识别结果,其他时长等比估算; 短音频受系统调度影响,或忙时任务排队情况下,返回时长可能上浮 |
并发限制 | 正式版默认10并发 支持购买并发扩容 | 正式版默认10并发 支持购买并发扩容 | 正式版默认最大支持 50QPS,半小时内提交的音频时长不超过 500小时 | 正式版默认最大支持 50QPS,半小时内提交的音频时长不超过 500小时 |
输入音频格式 | 支持PCM、WAV、MP3、OPUS格式; 单声道,采样率无要求; 音频时长<60秒 | 支持PCM、WAV、MP3、OPUS格式; 单声道,采样率无要求; 不限时长 | 支持WAV、MP3、MP4、m4a格式; 单声道,采样率无要求; 音频时长<5小时,且文件大小<512M | 支持WAV、MP3、MP4、m4a格式; 单声道,采样率无要求; 音频时长<5小时,且文件大小<512M |
接入方式 | SDK / Websocket API | SDK / Websocket API | HTTP | HTTP |
说明:
场景选择 | 场景说明 | 一句话识别 | 流式语音识别 | 录音文件识别标准版&极速版 |
---|---|---|---|---|
办公(16K) | 适用于企业办公、政府会议/访谈内容转写 | 中文、英文、日语、韩语、法语、 西班牙语、葡萄牙语、俄语、印尼语、马来语 | 中文、英文、日语、韩语、法语、 西班牙语、葡萄牙语、俄语、印尼语、马来语 | 中文、英文、日语、韩语、法语、 西班牙语、葡萄牙语、俄语、印尼语、马来语 |
客服(8K) | 适用于智能客服、质检内容转写,建议8K音频 | 无 | 中文 | 中文 |
娱乐(16K) | 适用于长短视频、小说综艺、直播带货内容转写 | 无 | 无 | 中文、英文、日语、韩语、法语、 西班牙语、葡萄牙语、俄语、印尼语、马来语 |
通用(16K) | 适用于输入法场景或以上场景均不属于时 | 中文、粤语、川渝方言 | 中文、粤语、川渝方言 | 中文、粤语、川渝方言、 吴语(上海话) |
教育(16K) | 适用于中英文语言教育内容转写 | 中文、英文 | 无 | 无 |
其中方言: 中文默认支持识别八大官话,包括 东北官话、北京官话、冀鲁官话、胶辽官话、中原官话、兰银官话、江淮官话、西南官话。