You need to enable JavaScript to run this app.
导航
产品概述
最近更新时间:2024.02.26 15:40:49首次发布时间:2022.04.28 14:48:09

产品简介

语音识别(Automatic Speech Recognition,ASR)采用业内领先的端到端算法模型,准确地将语音内容转写成文字。产品支持时间戳,区分讲话人,数字格式智能转换,智能标点等功能。适用于录音质检、会议总结、音频内容分析、课堂内容分析等场景。

一句话识别

支持将短语音(≤60秒)实时识别成文字,达到“边说话边出文字”的效果。适用于音频小于60秒,需要实时出结果的场景,如语音消息转写、语音搜索、语音弹幕、语音评论、智能语音交互等。

流式语音识别

支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。

录音文件识别标准版

支持将音频文件(≤5小时)转写成文本数据,内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能,可根据需要任意搭配。适用于非实时的语音识别场景,如会议记录总结、智能外呼质检、课后教辅和学情分析等。

录音文件识别极速版

支持将音频文件(≤5小时)极速转写,半实时返回识别结果;内置自动标点、语义顺滑、数字规整、智能分句、说话人识别等功能,可根据需要任意搭配。适用于准实时外呼质检、及时会议记录、有声内容转写等场景。


功能特性

一句话识别
流式语音识别
录音文件识别标准版
录音文件识别极速版
支持场景办公、教育、通用办公、客服、通用办公、客服、娱乐、通用办公、客服、娱乐、通用
基础能力语音识别、时间戳语音识别、智能分句、时间戳语音识别、智能分句、时间戳语音识别、智能分句、时间戳
可选能力自动标点自动标点、数字规整、语义顺滑、音量、语速自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感(客服)自动标点、数字规整、语义顺滑、说话人识别、双通道分离、音量、语速、情感(客服)
扩展能力支持通过自学习平台添加中英文热词支持通过自学习平台添加中英文热词支持通过自学习平台添加中英文热词支持通过自学习平台添加中英文热词
返回时效实时,即边说话边出文字实时,即边说话边出文字承诺 3 小时内返回识别文本;
通常非忙时1小时音频可在12分钟返回识别结果,其他时长等比估算
通常1小时音频可在3分钟内返回识别结果,其他时长等比估算;
短音频受系统调度影响,或忙时任务排队情况下,返回时长可能上浮
并发限制正式版默认10并发
支持购买并发扩容
正式版默认10并发
支持购买并发扩容
正式版默认最大支持 50QPS,半小时内提交的音频时长不超过 500小时
正式版默认最大支持 50QPS,半小时内提交的音频时长不超过 500小时
输入音频格式支持PCM、WAV、MP3、OPUS格式;
单声道,采样率无要求;
音频时长<60秒
支持PCM、WAV、MP3、OPUS格式;
单声道,采样率无要求;
不限时长
支持WAV、MP3、MP4、m4a格式;
单声道,采样率无要求;
音频时长<5小时,且文件大小<512M
支持WAV、MP3、MP4、m4a格式;
单声道,采样率无要求;
音频时长<5小时,且文件大小<512M
接入方式SDK / Websocket APISDK / Websocket APIHTTPHTTP

说明:

  • 语义顺滑:该能力目前支持中文、英文识别的语义顺滑。
  • 标点:语音识别中的自动标点包含中文全角(逗号、句号、问号、叹号、顿号)和英文半角(逗号、句号、问号、叹号)标点。
  • QPS (query per second) 是一秒内查询服务接口的次数。
  • 并发:并发数是服务端在一个时刻同时处理单个用户(appid)的请求个数。语音请求一般持续时间比较长,比如用户发起了一条 ASR 请求,还未结束前,又发起了另一条请求,则并发数是 2。
  • 录音文件识别标准版&极速版如有一次性识别大规模数据需求(半小时内上传超过500小时时长的录音),请联系销售专家立即咨询

场景&语种支持

场景选择
场景说明
一句话识别
流式语音识别
录音文件识别标准版&极速版
办公(16K)适用于企业办公、政府会议/访谈内容转写中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语
中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语
中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语
客服(8K)适用于智能客服、质检内容转写,建议8K音频中文中文
娱乐(16K)适用于长短视频、小说综艺、直播带货内容转写中文、英文、日语、韩语、法语、
西班牙语、葡萄牙语、俄语、印尼语、马来语
通用(16K)适用于输入法场景或以上场景均不属于时中文、粤语、川渝方言中文、粤语、川渝方言中文、粤语、川渝方言、
吴语(上海话)
教育(16K)适用于中英文语言教育内容转写中文、英文

其中方言: 中文默认支持识别八大官话,包括 东北官话、北京官话、冀鲁官话、胶辽官话、中原官话、兰银官话、江淮官话、西南官话。