You need to enable JavaScript to run this app.
导航
OCR 文本识别
最近更新时间:2025.11.12 11:00:02首次发布时间:2025.11.12 11:00:02
复制全文
我的收藏
有用
有用
无用
无用

OCR 文本识别功能可以自动识别视频帧中的文字内容,将视觉文本(如硬字幕、海报文字、LOGO 文字等)转换为带有时间戳的结构化文本,便于后续的内容分析和处理。本文指导您如何通过调用 OpenAPI 实现视频点播的 OCR 文本识别功能。

适用场景

  • 视频内容索引与检索:提取视频中的所有文字信息,建立内容索引库,实现通过关键词快速检索视频片段。
  • 内容审核与合规:快速识别视频中的文字内容,用于敏感词检测、版权信息核查等内容合规审查场景。
  • 字幕提取与再创作:从无字幕轨的视频中提取硬字幕,作为生成 SRT/WebVTT 字幕或进行二次创作的基础。
  • 数据分析与挖掘:将海量视频中的视觉文本数据化,用于市场分析、品牌曝光统计等商业智能应用。

使用限制

  • 视频格式:支持 MP4、FLV、ASF、RM、RMVB、MPEG、MOV、AVI、MPEGTS、M4S、WMV、3GP、TS、MPG、WEBM、MKV、WM、MPE、VOB、DAT、MP4V、M4V、F4V、MXF、QT 等格式。
  • 视频分辨率:支持 240p~4k。
  • 输入视频时长:单个文件时长最长不超过 2 小时

    说明

    任务处理时长约为输入时长的 1.5 倍。例如,处理一段 10 分钟的视频,约需 15 分钟。

  • 支持语言:支持中文和英文。

计费说明

使用 OCR 文本识别功能会产生以下费用:

  • OCR 文本识别费用:按输入视频文件时长计费,单价为 0.25 元/分钟。假设处理一段 100 分钟的视频,OCR 费用为 100 分钟 × 0.25 元/分钟 = 25 元。
  • 媒资存储费用:您上传用于转写的原始视频文件,需要存储在视频点播空间中,这将根据存储量和存储时长产生费用。详见媒资存储计费

前提条件

调用 OpenAPI 实现 OCR 文本识别

步骤 1:提交 OCR 文本识别任务

调用 StartExecution 接口提交 OCR 文本识别任务。核心参数:

  • Input: 指定输入视频的来源,支持 VidDirectUrl 模式。
  • Operation.Task.Type: 必须设置为 Ocr

以下为提交任务的示例:

POST https://vod.volcengineapi.com?Action=StartExecution&Version=2025-01-01
{
  "Input": {
    "Type": "Vid",
    "Vid": "your_video_id"
  },
  "Operation": {
    "Type": "Task",
    "Task": {
      "Type": "Ocr",
      "Ocr": {}
    }
  }
}

成功提交后,系统将返回任务的唯一标识 RunId。请务必保存好此 ID,以便后续查询结果。

步骤 2:获取 OCR 文本识别结果

任务提交后,系统会在后台进行异步处理。您可通过以下方式获取任务结果:

  • 主动查询:轮询 GetExecution 接口并传入步骤 1 中获取的 RunId 来获取任务结果。当返回结果中的 Status 字段值为 Success 时,表示任务已成功完成。
  • 配置事件通知:
    1. 参考事件通知概述文档,配置一个用于接收回调的服务地址。在订阅事件时,勾选 媒体处理任务执行完成事件
    2. 当任务完成时,您的服务将收到一个 EventTypeExecutionComplete 的 HTTP POST 请求。请求体中的 Data 对象即为任务结果。您可以根据 Data.Status 字段判断任务是否成功,并解析 Data.Output.Task.Ocr 获取产物信息。

核心结果字段解析:

  • Duration: 处理的视频总时长(秒)。
  • Texts: 识别出的文本片段数组。每个片段都是一个对象,包含了:
    • Text: 识别出的文本内容。如果画面上有多行文本,将用换行符 \n 分隔。
    • Start / End: 该文本在视频中出现的起止时间(秒)。

GetExecution 获取成功结果的示例:

{
  "ResponseMetadata": {
    "RequestId": "20251110210932ABCDE****FGHIJ",
    "Action": "GetExecution",
    "Version": "2025-01-01",
    "Service": "vod",
    "Region": "cn-north-1"
  },
  "Result": {
    "RunId": "qb:f26953726eb6****ff0431e7b",
    "Status": "Success",
    "Input": {
      "Type": "Vid",
      "Vid": "v02399g10001xxxxxxxxxxxxxxxxxxxx"
    },
    "Operation": {
      "Type": "Task",
      "Task": {
        "Type": "Ocr",
        "Ocr": {}
      }
    },
    "Output": {
      "Type": "Task",
      "Task": {
        "Type": "Ocr",
        "Ocr": {
          "Duration": 152.085,
          "Texts": [
            {
              "Text": "从车马邮路",
              "Start": 1.44,
              "End": 2.64
            },
            {
              "Text": "到万物互联",
              "Start": 3.12,
              "End": 4.0
            },
            {
              "Text": "信息传递改变着我们的生活方式",
              "Start": 8.08,
              "End": 10.36
            }
            // ... more texts
          ]
        }
      }
    }
  }
}