视频点播大模型视频理解功能基于豆包系列大模型,通过对视频内容的多模态理解,帮助用户从海量视频数据中快速提取有价值的信息,将视频从简单的数据资产转化为可支持业务决策的知识资产。本文为您介绍大模型视频理解的优势特性、工作原理,并指导您如何通过 API 和控制台完成视频理解任务。
优势特性
- 支持调用火山方舟豆包视觉、语言和语音大模型,批量完成视频内容理解。
- 可单模型或多模型组合调用,实现视频图像与语音的多模态融合理解。
- 支持灵活配置视频截图策略和分辨率参数,客户无需手动缩放截图或者对视频转码。
- 输入视频无文件大小限制,最长支持 2 小时,轻松应对长视频理解任务。
- 为视频存储于视频点播的客户节省公网访问流出流量费用和音频提取费用。
- 提供提示词编写辅助,助力大模型遵循复杂指令,完成预期视频分析。
适用场景
- 视频批量预处理:适用于需要对大量视频数据进行批量预处理和理解,生成适用于大模型训练的数据集,可联合视频点播基础服务与大模型视频理解服务使用。
- 内容梗概:适用于需要快速了解视频核心内容的场景,例如用户快速浏览视频摘要或视频编辑人员对视频内容进行初步筛选。
- 爆点分析:适用于分析爆款视频的传播机制,帮助内容创作者、营销团队或平台运营人员理解视频爆火的原因,以优化内容策略。
- 情节解析:适用于需要对视频内容进行详细分析的场景,例如教育培训视频的内容拆解或短剧的情节分析。
- 标签提取:适用于视频内容的分类、标签化和检索场景,例如视频库的管理、内容推荐系统的优化或用户通过标签快速查找相关视频。
工作原理

视频点播大模型视频理解功能支持画面理解、音频理解和多模态理解三种模式,具体区别详见下表。
特性 | 画面理解 | 音频理解 | 多模态理解 |
|---|
核心原理 | 对视频按照设定的帧率进行周期性截图,并使用豆包视觉理解大模型 (VLM) 分析视频的画面内容。 | 抽取视频中的音频后,通过流式语音识别大模型服务将视频中的语音转换成文字稿,最后调用豆包语言大模型 (LLM) 分析文字稿结果。 | - 抽取视频中的音频后,通过大模型流式语音识别服务将视频中的语音转换成文字稿。
- 将长视频切分成多个片段,使用豆包视觉理解大模型 (VLM) 分别理解每个片段的画面内容。
- 最后调用豆包语言大模型 (LLM) 汇总和分析各片段视觉理解结果和文字稿结果。
|
涉及模型 | 豆包视觉理解大模型 (VLM) | | - 流式语音识别大模型
- 豆包视觉理解大模型 (VLM)
- 豆包语言大模型 (LLM)
|
适用场景 | 侧重分析视频画面信息的场景,如体育集锦、产品展示、风景记录等。 | 侧重分析视频语音内容的场景,如会议记录、课程讲座、人物访谈等。 | 需要对长视频进行全面、综合性分析的场景。 |
使用建议 | - 视频时长建议不超过 10 分钟。
- 截图分辨率与帧率设置越高,画面的信息越丰富,产生的费用越高。
| 针对视频音频里的人声部分进行识别和分析,不涉及背景纯音乐。 | - 视频时长最长支持 2 小时。
- 截图分辨率与帧率设置越高,画面的信息越丰富,产生的费用越高。
|
推荐模型(推荐使用上下文支持 256k 的模型) | 视觉理解大模型 (VLM) - doubao-seed-1.6(高性能)
- doubao-seed-1.6-flash(高性价比)
| - 流式语音识别大模型
- 语言大模型 (LLM)
- doubao-seed-1.6-thinking(推荐)
| - 流式语音识别大模型
- 视觉理解大模型 (VLM)
- doubao-seed-1.6(高性能)
- doubao-seed-1.6-flash(高性价比)
- 语言大模型 (LLM)
- doubao-seed-1.6-thinking(推荐)
|
注意
- 当前控制台仅支持多模态视频理解模式。
- 用户需自行开通豆包大模型和语音识别服务,获取豆包大模型的 Endpoint ID 以及语音识别服务的 APP ID,在调用 OpenAPI 时传入上述信息,即可使用大模型视频理解功能。
案例展示
流程 | 示例 |
|---|
输入视频 | |
自定义配置 | 调用 OpenAPI 进行视频理解,并通过设置 SnapshotParam.Area 配置截图区域,在同等帧率和分辨率的情况下,可节省 65% 的输入 token 费用。请求参数展示: {
"Input": {
"Type": "Vid",
"Vid": "v0d25cg1000***cvqljht8dj05mde0"
},
"Operation": {
"Type": "Task",
"Task": {
"Type": "Vision",
"Vision": {
"Prompt": "# 角色\n你是一个视频理解的专家,擅长理解和分析视频。\n\n# 任务\n输入的内容是从视频中总结的视频分段描述文本和视频音频转译的文本,请根据输入的内容理解视频,并查看这段视频里有什么人,在干什么,情绪如何,状态怎么样\n\n# 视频分段描述文本\n{{PLACEHOLDER_VIDEO_CLIP_RESULT}}\n\n# 视频转音频文本\n{{PLACEHOLDER_ASR_RESULT}}",
"Model": {
"DoubaoVisionEndpoint": "ep-202412***175335-cg2p7",
"DoubaoTextEndpoint": "ep-202412***175335-cg2p7",
"AsrAppId": "3500***054",
"AsrAppType": "volc.bigasr.sauc.duration"
},
"SnapshotParam": {
"Resolution": "480p",
"Fps": 10,
"Area": {
"TopLeftX": 0.3,
"TopLeftY": 0.07,
"BottomRightX": 0.75,
"BottomRightY": 0.85
}
}
}
}
}
}
|
视频理解结果 | 视频中的人物为一名婴幼儿,其正坐在室内地面上专注地与一款黄色玩具进行互动。婴幼儿穿着浅青色带白色波点的连帽连体衣 ,通过一系列手部精细动作,如抓握、转动、轻触以及调整玩具位置等,不断探索玩具。其眼神专注,尽显强烈的探索欲,注意力始终聚焦在玩具上。
从情绪上看,婴幼儿对眼前的玩具充满好奇,在摆弄玩具的过程中展现出积极探索的热情。这种好奇和探索欲反映出其在认知阶段对周围事物的浓厚兴趣,情绪状态较为平稳且积极。
状态方面,婴幼儿全身心投入到对玩具的探索中,手部动作连贯,体现出较好的身体协调能力。整个过程中,婴幼儿沉浸在自我探索的世界里,反映出在温馨居家环境下其自在、放松的状态,符合该年龄段对世界充满好奇并积极实践认知的特点。
|
计费说明
大模型视频理解会产生以下费用:
- 截图费用:视频理解处理过程中会对视频进行截图,产生截图费用,具体价格请见视频截图计费。
- 大模型流式语音识别费用:视频理解处理过程中会将音频转译为文字,产生大模型流式语音识别服务费用,具体价格请见流式语音识别服务计费。
- 豆包大模型费用:豆包会将输入的信息(包括图片)转化为 token 后进行计费,具体价格见模型服务价格。
前提条件
开通相关服务
开通豆包大模型并获取 Endpoint ID
视频点播内部调用豆包大模型。因此,您需要开通豆包大模型,创建推理接入点(方舟基于模型及其配置抽象的概念),并获取推理接入点 ID(Endpoint ID)。具体步骤如下:
- 前往火山方舟控制台在线推理页面。
- 在自定义推理接入点页签下,单击创建推理接入点。
- 根据页面提示完成以下配置:

- 填写接入点名称。
- 选择模型。推荐选择
doubao-seed-1.6-thinking 模型以获得最佳效果。
说明
- 如页面出现“该模型未开通,开通后可创建推理接入点”的提示,单击立即开通,前往开通相应的模型。
- 更多信息,请见配置参数说明。
- 配置完成后,单击页面右侧确认接入按钮。
- 推理接入点创建完成后,返回在线推理页面,保存 Endpoint ID,如下图所示。

开通大模型流式语音识别服务并获取 APP ID
视频理解过程中会使用火山引擎语音识别 (ASR) 产品的大模型流式语音识别服务,将视频中的音频内容转译为文字,从而辅助大模型更全面地理解视频内容。因此,您需要在语音识别控制台创建应用,开通大模型流式语音识别服务并获取 APP ID。步骤如下:
- 前往语音识别控制台应用管理页面。
- 单击创建应用。
- 在创建应用弹窗中,填写应用名称和简介,并勾选流式语音识别大模型服务,如下图所示。

- 应用创建完成后,返回应用管理页面,保存 APP ID,如下图所示。

调用 OpenAPI 进行视频理解
提交视频理解任务
调用 StartExecution 接口提交大模型视频理解任务。您可基于 Vid 或 FileName 提交审核任务,并设置 Vision 参数配置大模型视频理解任务:
- 传入流式语音识别大模型服务的 APP ID 和豆包大模型的 Endpoint ID。
- 设置
Model 参数来选择不同的视频理解模式。 - 设置
Prompt 参数传入大模型提示词。需要根据不同的视频理解模式包含相应的占位符:
- 多模态视频理解模式:需包含以下两个占位符:
{{PLACEHOLDER_ASR_RESULT}}:控制是否启用 ASR(语音识别)。{{PLACEHOLDER_VIDEO_CLIP_RESULT}}:控制是否进行视频切片。
- 视频画面理解或视频音频理解模式:只需包含
{{PLACEHOLDER_ASR_RESULT}} 占位符。
- 设置
SnapshotParam 参数配置截图策略。支持自定义配置截图分辨率、帧率和区域。
请求示例
{
"Input": {
"Type": "Vid",
"Vid": "v0d25cg10001c****vqljht8dj05mde0"
},
"Operation": {
"Type": "Task",
"Task": {
"Type": "Vision",
"Vision": {
"Prompt": "# 角色
你是一个视频理解的专家,擅长理解和分析视频。
# 任务
输入的内容是视频抽帧图片信息,请根据输入的内容理解视频,并详细描述一下视频的内容。
# 视频转音频文本
{{PLACEHOLDER_ASR_RESULT}}",
"Model": {
"DoubaoVisionEndpoint": "ep-202412***175335-cg2p7",
"AsrAppId": "3500***054",
"AsrAppType": "volc.bigasr.sauc.duration"
},
"SnapshotParam": {
"Resolution": "240p",
"Fps": 1
}
}
}
}
}
{
"Input": {
"Type": "Vid",
"Vid": "v0d25cg1000***jcvqljht8dj05mde0"
},
"Operation": {
"Type": "Task",
"Task": {
"Type": "Vision",
"Vision": {
"Prompt": "# 角色
你是一个视频理解的专家,擅长理解和分析视频。
# 任务
输入的内容是视频音频转译的文本,请根据输入的内容理解视频,并详细描述一下视频的内容。
# 视频转音频文本
{{PLACEHOLDER_ASR_RESULT}}",
"Model": {
"DoubaoTextEndpoint": "ep-202412***175335-cg2p7",
"AsrAppId": "3500***054",
"AsrAppType": "volc.bigasr.sauc.duration"
}
}
}
}
}
{
"Input": {
"Type": "Vid",
"Vid": "v0d25cg10001cu7jcvqljht8dj05mde0"
},
"Operation": {
"Type": "Task",
"Task": {
"Type": "Vision",
"Vision": {
"Prompt": "基于输入的视频抽帧图片信息和音频转译文本,深度理解视频内容。首先,撰写一段视频总结,需涵盖视频的核心主题、主要情节、关键人物及其关系及核心观点或情感;其次,抽取能精准概括视频内容、突出视频特色的主要标签。
# 视频分段描述文本
{{PLACEHOLDER_VIDEO_CLIP_RESULT}}
# 视频转音频文本
{{PLACEHOLDER_ASR_RESULT}}",
"Model": {
"DoubaoVisionEndpoint": "ep-202412***175335-cg2p7",
"DoubaoTextEndpoint": "ep-202412***175335-cg2p7",
"AsrAppId": "3500***054",
"AsrAppType": "volc.bigasr.sauc.duration"
}
}
}
}
}
获取视频理解结果
调用 GetExecution 接口传入 StartExecution 接口返回的 RunId 获取大模型视频理解结果。接口调用成功后,通过返回参数 Output.Task.Vision 获取到大模型视频理解结果。示例如下:
{
"Output": {
"Type": "Task",
"Task": {
"Type": "Vision",
"Vision": {
"Duration": 152.085,
"SnapshotsNumber": 50,
"Model": {
"DoubaoInputTokens": 7037,
"DoubaoOutputTokens": 574,
"DoubaoTotalTokens": 7611
},
"Content": "这是一个关于火山引擎视频云的宣传视频,主要介绍了其功能、特点以及所带来的便利和优势。以下是详细的视频总结和主要标签:\n\n### 视频总结\n- **核心主题**\n 视频主要介绍了火山引擎视频云的功能、技术优势及其在各个领域的应用和带来的便利。通过展示其强大的技术支持和多样化的服务,强调其在数字化转型中的重要性。\n\n- **主要情节**\n 1. **数字化转型背景**\n - 视频从传统的车马邮路发展到视频直播的时代背景入手,展示了技术的飞速发展和对人们生活的巨大影响。\n 2. **火山引擎视频云的功能与特点**\n - **广泛应用**:支持抖音、头条、西瓜等业务,还面向各行各业用户提供视频化服务,全面升级客户的视频使用体验。\n - **技术优势**\n - **高稳定性**:亿级DAU,每天数千亿次播放,具有1/100,000崩溃率和“0”首帧播放延迟,体现了其强大的稳定性和性能。\n - **顶尖技术**:融合视频云技术和AI能力架构矩阵,全面赋能视频创作,提供极致性能体验。\n - **智能应用**:具备国际领先的VQScore算法、BVC等,提供滤镜等智能应用套件,带来趣味互动体验。\n - **全球覆盖**:覆盖全球的RTC网络,让每次视频通话毫秒间抵达。\n - **高清画质与互动体验**:提供HD高清画质,带来身临其境的大片质感和尽情超清震撼,以及丰富的互动体验。\n 3. **未来展望**\n - 视频最后提到火山引擎视频云持续打磨,深挖新技术,将超流畅的极致视频体验带到各处,打开云服务的新格局,让远方不再遥远。\n\n- **关键人物及关系**\n 视频中未涉及具体人物,主要以动画和文字信息展示技术和服务内容。\n\n- **核心观点或情感**\n 视频传达的核心观点是火山引擎视频云凭借其强大的技术实力和丰富的功能,为用户提供了卓越的视频体验,助力各行各业的数字化转型,并且不断创新和进步,带来更多的便利和可能。\n\n### 主要标签\n- **火山引擎视频云**\n- **数字化转型**\n- **高稳定性**\n- **顶尖技术**\n- **智能应用**\n- **全球覆盖**\n- **高清画质**\n- **互动体验**\n- **极致性能**\n- **云服务新格局**\n\n\n\n",
"Prompt": "基于输入的视频抽帧图片信息和音频转译文本,深度理解视频内容。首先,撰写一段视频总结,需涵盖视频的核心主题、主要情节、关键人物及其关系及核心观点或情感;其次,抽取能精准概括视频内容、突出视频特色的主要标签。 \n\n# 限制\n 输出的长度不要超过2000字"
}
}
}
}
通过控制台进行视频理解
触发视频理解任务
- 登录视频点播控制台,进入指定空间。
- 在视频管理页面,勾选您上传的视频后,单击豆包视频理解。

- 在豆包视频理解处理弹窗中,进行以下操作:

- 确认您已开通并授权相关服务。若您为首次使用,需要开通流式语音识别大模型服务和 Doubao-vision 模型并获取 APP ID 和 Endpoint ID。具体操作请见开通相关服务。开通完毕后,单击已完成,继续。
- 配置模型参数。您需要填写您在上一步获取到的 Endpoint ID 和 APP ID。配置完毕后,单击已完成,继续。
- 填写大模型指令 Prompt。您可以自定义 Prompt 或选择系统提供的模板。
- 单击开始处理。可前往媒体处理 > 媒体处理任务页面查看视频理解任务。
查看视频理解结果
- 登录视频点播控制台,进入指定空间。
- 单击左侧导航栏媒体处理 > 媒体处理任务。
- 查看视频理解任务状态。任务状态变为处理完成后,单击操作列的查看详情按钮。
- 在媒体处理任务详情页面查看视频理解结果。
