本文面向开发者,详细介绍如何通过 API 调用 Aideo Agent,将强大的视频 AI 能力无缝集成到您的业务系统或应用中。您将了解到 API 的核心调用流程、参数配置,并通过丰富的代码示例快速上手。
说明
在开始之前,建议您先阅读 Aideo Agent 快速开始,了解 Aideo Agent 的核心功能、应用场景和计费规则,并通过控制台操作体验各项 AI 能力的实际效果。
API 接入的核心流程分为两步:
SubmitAideoTaskAsync 接口,提交一个异步的智能处理任务。GetAideoTaskResult 接口,获取任务的处理结果。调用 SubmitAideoTaskAsync 接口,提交一个异步的智能处理任务。该接口提供以下两种调用方式。
任务提交方式 | 核心参数 | 说明 |
|---|---|---|
自然语言驱动 | Prompt(必填) | 您只需通过 Prompt 参数提供简单的自然语言指令,Agent 将自动理解您的意图,分析并调用底层的 AI 能力(如视频翻译、字幕擦除等)来完成任务。 |
指定技能驱动 |
| 您可以通过 SkillType 明确指定调用哪个具体的 AI 能力,并通过 SkillParams 传入该能力所需的精确参数。 |
以下 HTTP 示例仅展示核心的业务参数,省略了 Authorization 请求头中的签名计算等鉴权细节。在实际发起请求前,请参考如何调用 OpenAPI 文档,了解如何在线测试接口、获取可运行的 curl 命令以及完整的 HTTP 请求构造方法与签名机制。
通过 Prompt 让 Agent 自动分析并执行一个包含字幕翻译、语音翻译和口型对齐的复杂视频翻译任务。
POST https://vod.volcengineapi.com?Action=SubmitAideoTaskAsync&Version=2025-03-03 { "SpaceName": "your_space_name", "MultiInputs": [ { "Type": "Vid", "Vid": "your_video_id" } ], "Prompt": "帮我翻译这个视频从中文翻译成英语。字幕和语音都要翻译,字幕压制到视频中。" }
GetAideoTaskResult 接口并传入步骤 1 中获取的 TaskId 获取任务结果。Status 字段。当其值为 Completed 时,表示任务已完成。ApiResponses 数组中查找与您指定的 SkillType 对应的结果。解析逻辑如下:
ApiResponses 数组。VodTaskType 字段与您提交时 SkillType 同名的那个对象。VodTaskType 同名的结果数据(如 AITranslation, Highlight)。说明
ApiResponses 的结构较为复杂。每种技能返回结果的完整字段详情,请参考 GetAideoTaskResult API 文档。
当您调用 SubmitAideoTaskAsync 接口通过指定技能驱动(SkillType + SkillParams)时,SkillParams 字符串需要根据不同的 SkillType 构造成对应的 JSON 结构。
SkillType | SkillParams 是否必填 | SkillParams 内部结构 | SkillParams 示例 |
|---|---|---|---|
AITranslation | 必填 | 包含以下对象: | 将一个中文视频,通过 ASR 识别出语音,翻译成英文字幕和英文语音,并生成一个带英文硬字幕的新视频。
|
Highlight | 必填 | 包含以下对象: | 对输入视频进行故事线维度的分析,并自动剪辑生成一个时长在 1-3 分钟、且开头包含最精彩片段的高光集锦。
|
Vision | 必填 | 结构同 OperationTaskVision 对象。 | 利用多模态大模型,结合视频画面和语音内容,对整个视频进行深度理解,并根据
|
VCreative | 必填 | 包含 | 将输入的多张图片,按顺序拼接成一个指定总时长的视频。
|
将输入的多个视频素材拼接生成一个新视频。
| |||
将一个视频素材的画面和一个独立的音频素材合并,生成一个音画合一的新视频。
| |||
Erase | 可选 | 结构同 OperationTaskErase 对象 | 自动检测并擦除视频画面中的硬字幕,并生成一个不带字幕的、干净的新视频。
|