视频点播-智能应用 Aideo Agent 是视频点播与大模型结合的视频 AI 应用智能体。本文为您介绍 Aideo Agent 的核心能力、方案优势、快速上手指南和计费说明,帮助您快速了解并使用 Aideo Agent。
什么是 Aideo Agent
Aideo Agent(发音为 /eɪˈdioʊ/,是 AI 与 Video 的合成词)是一款视频 AI 应用智能体,深度整合火山引擎视频云的专业音视频处理能力与方舟先进的多模态大模型技术,将强大的模型能力转化为开箱即用的 Agent 工具,为企业提供视频大模型落地的最佳实践。
您无需学习繁琐的操作界面或编写复杂的代码,只需通过日常对话的方式,用自然语言向 Aideo Agent 下达指令,即可一站式地完成视频翻译、高光剪辑、字幕擦除、视频理解、智能剪辑等多种视频处理任务。Aideo Agent 旨在将强大的视频 AI 能力普惠化,让每一位创作者都能轻松驾驭,极大地提升视频生产和处理效率。
快速体验
仅需几步即可体验 Aideo Agent 的强大功能:
- 登录视频点播控制台。
- 单击左侧导航栏视频 AI 应用 > 智能处理 Agent。
- 阅读并同意相关服务协议,一键开通 Aideo Agent 功能。
- 在智能视频 Agent 对话框中,您需要:
- 单击 + 图标,选择一个用于存放和选用素材的存储空间。您可以通过输入关键字快速筛选和查找目标空间。
- 选定空间后,您需要再单击 + 图标,从视频库或素材库中选择待处理的视频或图片。
- 在指令输入框中,使用自然语言描述您的视频处理需求。例如,您可以输入:“帮我翻译这个视频,视频中源语言是中文,希望翻译成英语。视频中的字幕+语音都需要翻译,字幕需要压制到视频中”。
说明
系统提供多种常见的视频处理场景的 Prompt 模板,方便您快速发起任务。
- 单击发送按钮。
- 发送指令后,Agent 会与您进行交互式对话,分析您的意图、确认任务配置,并在得到您的许可后开始执行任务。任务完成后,处理结果将清晰地呈现在对话窗口中。
方案优势
- 对话即创作,一句话驾驭专业视频工作流:通过自然语言交互,您可以零代码完成音视频能力的试用、评估和对接。简单的一句话指令即可串联多个音视频处理工具。Aideo Agent 会深度理解您的意图并自动执行,极大降低使用门槛,显著提升业务推进效率。
- 深度工程融合,突破大模型视频处理瓶颈:Aideo Agent 将专业的多媒体处理能力与大模型能力进行工程化结合,有效解决了原生大模型处理视频的限制:
- 超长视频理解:文件大小无限制,处理视频时长可达 90 分钟甚至 2 小时以上,同时保持高精度理解。
- 精准局部处理:实现精细化的字幕擦除、视频翻译口型对齐等专项技能,对原视频内容无幻觉风险。
- 沉淀最佳实践,提供开箱即用的垂类场景方案:Aideo Agent 不仅提供通用的 AI 能力,更针对剧情类视频等垂直场景进行深度微调和优化。例如,剧本还原功能可以更精准、详尽地分析人物、分镜、对话及情绪。您无需额外探索,即可获得经过海量评测和调优的最佳实践效果。
- 普惠定价,成本可控且透明:Aideo Agent 致力于通过技术降本,让您以更低成本享受高质量的视频处理服务。主要计费项均按分钟计费,而非复杂的 Tokens 换算,让您能轻松、准确地预估业务费用,实现成本的清晰可控。
核心 AI 能力
Aideo Agent 将一系列视频 AI 原子能力封装为易于调用的工具。您只需通过自然语言,即可驱动这些 AI 工具,高效完成各类视频处理任务。
功能名称 | 功能说明 | 典型应用场景 | 技术亮点与优势 |
|---|
高光剪辑 | 从短剧视频中智能提取包含剧情冲突和悬念的精彩片段,快速生成高光集锦。 | 短剧广告投放素材制作、剧集宣传片、内容营销、单集摘要生成。 | - 基于大模型的多模态高光提取算法,深度理解剧情。
- 高效解决营销素材制作效率低、成本高的痛点。
|
视频翻译 | 提供从文本、语音到口型的一站式 AI 视频翻译解决方案,助力内容全球化与本土化。 | 短剧出海、跨境电商商品介绍、在线教育课程、海外内容引进。 | - 文本级:智能语音识别与多语言字幕翻译。
- 语音级:精准复刻原说话人音色、语调与情感。
- 面容级:根据目标语言语音,智能驱动口型匹配,实现逼真视觉体验。
|
字幕擦除 | 高质量无痕地去除视频画面中内嵌的硬字幕,最大程度还原纯净画面。 | 短剧二次创作、教学视频本地化、影视素材再利用、海外内容引进。 | - 高帧率 OCR 精准检测:智能区分字幕与非字幕文本,避免误擦。
- AI 图像修复:无缝重建擦除区域,修复效果自然。
|
智能剪辑 | 通过自然语言对话,完成多素材拼接、截取、合成及添加特效等专业剪辑操作。 | 图片/视频拼接成片、为视频添加画中画或背景音乐。 | - 基于大语言模型 LLM 与模型上下文协议 MCP,精准理解剪辑意图。
- 支持时域拼接、空域合成等复杂指令,极大降低剪辑门槛。
|
视频理解 | 对视频内容进行深度多模态理解,自动生成摘要、标题、关键词、情节分析等,将视频转化为可利用的知识资产。 | 内容梗概生成、爆点/情节分析、视频标签提取、海量视频数据预处理、内容库管理与检索。 | - 融合视觉、语言、语音多模态大模型,理解更全面。
- 支持最长 2 小时的长视频处理,无文件大小限制。
- 与点播存储无缝集成,节省公网流量与音频提取成本。
|
计费说明
使用 Aideo Agent 产生的费用由两部分组成:Aideo Agent 费用和点播基础服务费用。
Aideo Agent 费用
Aideo Agent 采用按量付费模式,根据您调用的不同 AI 工具和处理的媒体时长进行计费。
计费项 | 计费规则 | 单价(元/分钟) |
|---|
AI 剪辑 | 按输出文件时长计费 | 单价由输出视频的分辨率决定,详见下方AI 剪辑计费换算系数。 |
视频理解 | 按输入文件时长计费 | 0.08 |
高光智剪 | 按输入文件时长计费 | 1 |
AI 视频翻译(字幕翻译) | 按输出文件时长计费 | 3 |
AI 视频翻译(语音翻译) | 按输出文件时长计费 | 4 |
AI 视频翻译(面容翻译) | 按输出文件时长计费 | 7 |
AI 字幕擦除 | 按输出文件时长计费 | 1 |
AI 剪辑计费换算系数
AI 剪辑功能的基础计费单元为“720P (1280 x 720) 及以下”规格,单价为 0.018 元/分钟。其他分辨率规格的费用将乘以相应的换算系数。
AI 剪辑输出规格 | 计费换算系数 | 换算后单价(元/分钟) |
|---|
4K (3840 x 2160) 及以下 | 8 | 0.144 |
2K (2560 x 1440) 及以下 | 4 | 0.072 |
1080P (1920 x 1080) 及以下 | 2 | 0.036 |
720P (1280 x 720) 及以下 | 1(基础计费单元) | 0.018 |
540P (720 x 540) 及以下 | 0.66 | 0.01188 |
480P (640 x 480) 及以下 | 0.5 | 0.009 |
360P (480 x 360) 及以下 | 0.33 | 0.00594 |
纯音频 | 0.33 | 0.00594 |
计费示例
假设您使用 AI 剪辑功能,最终输出了两段视频:
- 视频一:时长 10 分钟,分辨率为 1080P。
- 视频二:时长 5 分钟,分辨率为 480P。
产生的 Aideo Agent 功能费用计算如下:
- 视频一的费用 = 10 (分钟) × 0.018 (元/分钟) × 2 = 0.36 (元)
- 视频二的费用 = 5 (分钟) × 0.018 (元/分钟) × 0.5 = 0.045 (元)
- 功能费用合计 = 0.36 + 0.045 = 0.405 (元)
点播基础服务费用
Aideo Agent 运行在视频点播服务之上,因此在处理过程中会使用到底层的云资源,这些资源将按照视频点播产品的标准价格进行计费。主要包括:
- 媒资存储费用:您上传的原始视频、以及 Agent 处理后生成的视频产物,都需要存储在视频点播空间中,这将根据存储量和存储时长产生费用。详情请参考媒资存储计费。
- 视频分发费用:如果您对 Agent 生成的视频进行播放或下载,将会产生 CDN 流量,从而产生视频分发费用。详情请参考分发加速计费。
- 其他服务费用:如果您在 Agent 之外还对视频进行了其他操作(如普通转码、视频加密等),也会产生相应的费用。详情请参考媒体处理计费。
通过 API 接入
除了在控制台通过对话交互,您还可以调用 API,将 Aideo Agent 的强大能力无缝集成到您自己的业务系统中。API 接入的核心流程分为两步:
- 提交任务:调用
SubmitAideoTaskAsync 接口,提交一个异步的智能处理任务。 - 获取结果:轮询
GetAideoTaskResult 接口,获取任务的处理结果。
前提条件
步骤 1:提交任务
调用 SubmitAideoTaskAsync 接口,提交一个异步的智能处理任务。该接口提供以下两种调用方式。
任务提交方式 | 核心参数 | 说明 |
|---|
自然语言驱动 | Prompt(必填) | 您只需通过 Prompt 参数提供简单的自然语言指令,Agent 将自动理解您的意图,分析并调用底层的 AI 能力(如视频翻译、字幕擦除等)来完成任务。 |
指定技能驱动 | - SkillType(必填)
- SkillParams(是否必填取决于 SkillType)
| 您可以通过 SkillType 明确指定调用哪个具体的 AI 能力,并通过 SkillParams 传入该能力所需的精确参数。 |
请求示例 1:使用自然语言驱动 AI 视频翻译任务
通过 Prompt 让 Agent 自动分析并执行一个包含字幕翻译、语音翻译和口型对齐的复杂视频翻译任务。
POST https://vod.volcengineapi.com?Action=SubmitAideoTaskAsync&Version=2025-03-03
{
"SpaceName": "your_space_name",
"MultiInputs": [
{ "Type": "Vid", "Vid": "your_video_id" }
],
"Prompt": "帮我翻译这个视频从中文翻译成英语。字幕和语音都要翻译,字幕压制到视频中。"
}
请求示例 2:使用指定技能驱动 AI 高光分析任务
直接调用“高光剪辑”技能,对输入的视频进行故事线维度的分析,并自动剪辑生成一个时长在 1-3 分钟、且开头包含最精彩片段的高光集锦视频。
POST https://vod.volcengineapi.com?Action=SubmitAideoTaskAsync&Version=2025-03-03
{
"SpaceName": "your_space_name",
"MultiInputs": [
{"Type": "Vid", "Vid": "your_drama_vid_1"}
],
"SkillType": "Highlight",
"SkillParams": "{\"HighlightCuts\":{\"MinDuration\":60,\"MaxDuration\":180},\"OpeningHook\":{\"WithOpeningHook\":true}}"
}
步骤 2:获取结果
- 轮询
GetAideoTaskResult 接口并传入步骤 1 中获取的 TaskId 获取任务结果。 - 检查返回结果中的顶层
Status 字段。当其值为 Completed 时,表示任务已完成。 - 在
ApiResponses 数组中查找与您指定的 SkillType 对应的结果。解析逻辑如下:
- 遍历
ApiResponses 数组。 - 找到
VodTaskType 字段与您提交时 SkillType 同名的那个对象。 - 解析该对象内部与
VodTaskType 同名的结果数据(如 AITranslation, Highlight)。
参考信息
技能参数 SkillParams 详解
当您调用 SubmitAideoTaskAsync 接口通过指定技能驱动(SkillType + SkillParams)时,SkillParams 字符串需要根据不同的 SkillType 构造成对应的 JSON 结构。
SkillType | SkillParams 是否必填 | SkillParams 内部结构 | SkillParams 示例 |
|---|
AITranslation | 必填 | 包含以下对象: | 将一个中文视频,通过 ASR 识别出语音,翻译成英文字幕和英文语音,并生成一个带英文硬字幕的新视频。 {
"SpaceName": "your_space_name",
"MultiInputs": [
{ "Type": "Vid", "Vid": "your_video_id" }
],
"SkillType": "AITranslation",
"SkillParams": "{\"TranslationConfig\":{\"SourceLanguage\":\"zh\",\"TargetLanguage\":\"en\",\"TranslationTypeList\":[\"SubtitleTranslation\",\"VoiceTranslation\"]},\"OperatorConfig\":{\"SubtitleRecognitionConfig\":{\"RecognitionType\":\"ASR\"}},\"SubtitleConfig\":{\"IsHardSubtitle\":true,\"IsEraseSource\":false,\"FontSize\":24,\"MarginV\":0.1}}"
}
|
Highlight | 必填 | 包含以下对象: | 对输入视频进行故事线维度的分析,并自动剪辑生成一个时长在 1-3 分钟、且开头包含最精彩片段的高光集锦。 {
"SpaceName": "your_space_name",
"MultiInputs": [
{"Type": "Vid", "Vid": "your_drama_vid_1"}
],
"SkillType": "Highlight",
"SkillParams": "{\"HighlightCuts\":{\"MinDuration\":60,\"MaxDuration\":180},\"OpeningHook\":{\"WithOpeningHook\":true}}"
}
|
Vision | 必填 | 结构同 OperationTaskVision 对象。 | 利用多模态大模型,结合视频画面和语音内容,对整个视频进行深度理解,并根据 Prompt 的要求生成一段详细的文字描述。 {
"SpaceName": "your_space_name",
"MultiInputs": [
{ "Type": "Vid", "Vid": "your_video_id" }
],
"SkillType": "Vision",
"SkillParams": "{\"Prompt\":\"[角色]\\n假设你是一个专业的视频内容分析专家,擅长通过视频抽帧图片和音频转译文本,精准把握视频核心内容。\\n[任务目标]\\n请根据输入的视频抽帧图片信息以及音频转译文本,撰写视频内容梗概。要求涵盖视频主要情节、关键人物以及核心事件,语言简洁流畅,逻辑清晰。\\n[限制]\\n视频内容梗概需要限制在1000字\\n输入内容\\n视频音频转译文本\\n{{PLACEHOLDER_ASR_RESULT}}\\n视频分段描述文本\\n{{PLACEHOLDER_VIDEO_CLIP_RESULT}}\\n输出格式\\n请严格按照以下 JSON 格式输出,不要输出其他额外内容:\\n{\"视频内容梗概\":\"[在此处填写概括后的视频内容,包含主要情节、关键人物、核心事件]\"}"}"
}
|
VCreative | 必填 | 包含 Text(剪辑提示词)字段。 | 将输入的多张图片,按顺序拼接成一个指定总时长的视频。 {
"SpaceName": "your_space_name",
"MultiInputs": [
{ "Type": "Vid", "Vid": "your_image_mid_1" }, // 此处传入图片的 Mid
{ "Type": "Vid", "Vid": "your_image_mid_2" }, // 此处传入图片的 Mid
{ "Type": "Vid", "Vid": "your_image_mid_3" } // 此处传入图片的 Mid
],
"SkillType": "VCreative",
"SkillParams": "{\"Text\":\"将图片1、2、3拼接为10s的视频\"}"
}
|
将输入的多个视频素材拼接生成一个新视频。 {
"SpaceName": "your_space_name",
"MultiInputs": [
{ "Type": "Vid", "Vid": "your_video_id_1" },
{ "Type": "Vid", "Vid": "your_video_id_2" }
],
"SkillType": "VCreative",
"SkillParams": "{\"Text\":\"将视频1、2拼接到一起\"}"
}
|
将一个视频素材的画面和一个独立的音频素材合并,生成一个音画合一的新视频。 {
"SpaceName": "your_space_name",
"MultiInputs": [
{ "Type": "Vid", "Vid": "your_video_id_for_visuals" }, // 用于画面的视频
{ "Type": "Vid", "Vid": "your_audio_id_for_sound" } // 用于声音的音频
],
"SkillType": "VCreative",
"SkillParams": "{\"Text\":\"将输入视频和音频合成到一起\"}"
}
|
Erase | 可选 | 结构同 OperationTaskErase 对象 | 自动检测并擦除视频画面中的硬字幕,并生成一个不带字幕的、干净的新视频。 {
"SpaceName": "your_space_name",
"MultiInputs": [
{ "Type": "Vid", "Vid": "your_video_id" }
],
"SkillType": "Erase",
"SkillParams": "{\"Mode\":\"Auto\",\"Auto\":{\"Type\":\"Subtitle\"},\"NewVid\":true}"
}
|