You need to enable JavaScript to run this app.
导航
智能字幕
最近更新时间:2023.04.20 16:33:09首次发布时间:2021.02.23 10:42:39

本文为您介绍了智能字幕模板的功能介绍、整体流程、使用场景和操作等。

功能介绍

智能字幕即 ASR(Automatic Speech Recognition)自动语音识别,支持通过识别客户音视频媒资文件中的音频流内容,实时生成字幕文本。支持字幕导出或与视频内容结合输出,目前支持读取中英两种语言。

 • 智能快速、精准地生成视频字幕、提取字幕流。
 • 通过语音转写为视频增加字幕。
 • 通过机器翻译生成中文/英文字幕。

说明

 • 字幕流提取主要应用于源视频包含字幕流(如 MKV)的场景;
 • 若源视频无字幕或无法识别到字幕语言,则无字幕效果输出。

使用场景

视频点播的智能字幕模板支持对视频、音频文件的多语音识别生成字幕以及实时语音识别的功能。使用的场景如下表所示。

场景说明
实时直播/赛事/演唱会生成单语/多语字幕。
视频/音频录制资料生成单语/多语字幕。
短视频 Vlog通过语音识别能力,实现了用户边拍边说,将语音内容直接显示在视频上。
会议记录总结对会议记录的音频文件进行识别,然后通过人工或者自动的方法,对会议记录作出总结。
网课培训导入课程即可快速加入课程字幕,沉淀教育文档素材。
医院病历录入门诊/手术时,通过音频记录医生的操作,通过录音文件识别得到文本,提高病例录入的效率。
游戏娱乐将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率和交互体验。
庭审数据库录入上传庭审记录的录音文件,进行识别之后,将识别文本录入数据库。
智能客服质检上传呼叫中心的录音文件,通过录音文件识别得到文本,进一步通过文本检索,检查有无违规话术、敏感词等信息。

优势特性

 • 实时字幕识别场景超低延时,获取 1 分钟语音的字幕结果只需等待 3-5 秒。
 • 支持普通话和英文自动识别。
 • 结合语音停顿和自然语言的语义信息的智能分句,输出最流畅自然的分句结果。
 • 歌词识别(仅普通话)专门针对歌词进行了优化,识别准确率接近说话场景的准确率。
 • 脏词过滤自动对敏感用词进行过滤展示,维护网络文明。

使用流程

智能字幕功能的整体使用流程如下图所示。

alt

操作步骤

智能字幕功能的具体操作步骤如下:

配置智能字幕模板

点播控制台创建智能字幕模板,如下图所示。根据自身业务需求,支持选择系统内置模板;也支持自定义配置模板参数。具体操作请参见智能字幕模板

创建工作流模板

点播控制台创建工作流模板。如下图所示。具体操作请参见工作流模板

发起处理任务

您可以在上传视频时设置工作流模板发起处理任务,也可以对已上传的视频发起处理任务。

 • 通过以下方式使用已创建好的工作流模板上传视频,在上传时自动触发处理任务:
 • 通过以下方式对已上传的视频发起处理任务。
  • 点播控制台:具体操作请参见视频处理
  • OpenAPI 或服务端 SDK:调用 StartWorkflow 接口发起工作流,您需要传入工作流模板 ID。

查看处理结果

发起处理任务后,获取结果的方式如下所示。

控制台

 1. 登录视频点播控制台,进入空间。

 2. 选择左侧导航栏任务管理 > 工作流任务,查看工作流任务状态。

 3. 工作流任务状态变为成功后,单击查看详情按钮,进入工作流任务详情页面。

 4. 单击查看产物按钮,进入视频详情页面。在字幕文件页签下,您可以查看字幕文件内容。

事件通知

查看工作流执行完成事件。