- 文档首页
AI 数据湖服务
算子总览
支持的算子列表:在线算子
支持的算子列表:在线算子
方舟大模型系列
视觉理解
算子名称 | 使用方式 | 算子简介 |
|---|
LAS 视频精细理解 | | - LAS 视频精细理解 API 面向各类视频内容,提供多维度、精细化的结构化理解。无论是短视频、电影片段还是长时会议录像,用户上传视频即可获得可搜索、可问答的内容数据和精细摘要。
- 核心功能
- 全局精细理解:支持小时级(最大支持3h、10G)视频,生成连贯时间线与章节总结。
- 事件与行为识别:精准检测关键事件、人物动作、场景变化和逻辑关系。
- 视频问答:基于视频内容的自然语言问答,快速定位答案及时间戳。
- 高效摘要与标签:自动生成章节摘要、主题标签和人物关系,便于知识管理。
- 结构化输出:提供 JSON 格式 timeline、事件列表,方便二次处理或知识库构建。
|
视频内容理解(豆包系列)增强版 | | - 视频内容理解算子,支持对视频文件使用豆包模型进行理解,包括视频内容的解析与自然语言描述生成。
- 将视频压缩到50M以内,再使用豆包模型进行视频理解;
- 支持视频格式:mp4、wmv、webm、mkv、m4v、flv、avi、mov,因视频文件格式变种较多,不能保证所有文件都能被识别,请通过测试验证文件能够被正常识别。
|
图像生成
算子名称 | 使用方式 | 算子简介 |
|---|
图片生成(Seedream 系列模型) | | - 图片生成( Seedream 系列模型)算子,可根据用户输入的文本或参考图像生成高质量图片,支持组图与流式输出。
- 核心功能
- 文生图/图生图/组图生成
- 支持流式输出(SSE)与非流式输出
- 输出格式支持 url 与 b64_json
|
视频生成
算子名称 | 使用方式 | 算子简介 |
|---|
seedance视频生成(豆包系列) | | Seedance是字节跳动豆包大模型团队最新推出的视频生成基础模型,可根据用户输入的文本、图片等内容,快速生成优质的视频片段 |
多模态向量化
算子名称 | 使用方式 | 算子简介 |
|---|
图文 embedding(豆包系列模型) | | - 多模态向量生成处理器,支持图像/视频与文本的联合向量生成,实现跨模态检索能力。
- 核心功能
- 多模态向量化支持:支持图像/视频与文本的联合向量生成,实现跨模态检索能力,参考文档。
- 输入格式自适应:
- 原生支持图像/视频的base64编码、二进制数据、URL等输入格式
- 自动处理媒体格式转换(JPEG/PNG/MP4/AVI等)
|
多模态深度思考
算子名称 | 使用方式 | 算子简介 |
|---|
多模态深度思考(Doubao-seed-2.0) | | - 多模态场景下提供大模型的深度思考能力,使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
- 核心功能
- 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
- 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
- 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
- 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡
|
多模态深度思考(Doubao-seed-1.8) | |
音频
音频处理
算子名称 | 使用方式 | 算子简介 |
|---|
音频格式转换(在线) | | - ”音频格式转换“算子。音频格式转换用于将音频或视频文件统一转换为指定的音频格式,并输出到指定的存储路径。
- 该算子主要用于数据处理流水线中的音频格式标准化、视频抽音频、训练数据准备等场景,支持批量并发处理与可配置的音频编码参数
- 核心功能
- 音频 / 视频统一转换为音频
- 支持自定义输出音频格式
- 支持自定义输出路径(TOS)
- 支持音频编码参数扩展
- 批量并发处理能力
|
音频切分 | | - ”音频切分“算子,用于从音频或视频文件中提取音频,并按照指定规则将音频切分为多个片段,输出到用户指定的存储路径。
该算子主要用于长音频或视频的结构化处理场景,如音频预处理、数据切分、训练数据构建等,支持批量并发处理以及灵活的输出路径组织方式。 - 核心功能
- 音频/视频提取与切分
- 支持自定义切分规则
- 支持自定义输出音频格式
- 支持输出路径模板
- 支持音频编码参数扩展
|
音频识别
算子名称 | 使用方式 | 算子简介 |
|---|
语音转文字(豆包语音ASR) | | - 语音转文字(豆包系列)算子,为语音识别模块,基于 LAS ASR 服务的录音转写解决方案。
- 核心功能
- 接入火山引擎LAS ASR接口
- 支持自动断句、数字规整、说话人或通道分离(可选)
- 并发处理多个音频文件,提供结构化 JSON 与可读文本两种输出
- 适合转写最长2小时的录音文件,支持标点补全、智能断句、说话人分离等高级功能。
|
语音转文字(Doubao-录音文件识别)增强版 | | - LAS语音转文字(Doubao-录音文件识别)增强版算子基于豆包录音文件识别大模型,能够将输入音频/视频文件中的语音,转写为文本输出。支持多种音/视频格式、多语种、音频降噪及大文件处理,适用于内容质检审核、音视频字幕生成、语音搜索、课堂内容分析等场景。
- 核心功能
- 多格式音频/视频输入识别:
- 除音频外,新增支持视频文件输入,las算子可自动提取视频音轨进行识别。
- 除raw/wav/mp3/ogg外,扩展支持mp4/mov/mkv/flac等容器格式。
- las算子对于输入的音视频文件无文件大小/时长限制。
- 除公网https url访问外,也支持tos内网路径访问(tos://bucket-name/路径名/文件名)。
- 音频前处理增强,提升模型效果:
- 内置音频降噪模块,可有效降低背景噪声对识别的影响,提升录音文件转写的准确率。
- 多语种支持:
- 可自动识别语种或按用户指定语言进行识别。
- 扩充识别语种至 99 种,满足多语种、多区域的音频数据处理需求。
|
视频
视频剪辑
算子名称 | 使用方式 | 算子简介 |
|---|
视频智能剪辑 | | - 视频智能剪辑算子,基于多模态大模型实现视频智能剪辑能力,帮助用户从长视频中快速提取有价值的内容片段。支持自然语言描述的剪辑需求理解、参考图像辅助识别(角色、物品、场景等)、多维度视频内容分析(视觉、字幕、剧情),并输出标准化的剪辑决策信息(时间戳、描述、标签等)。
- 核心功能:
- 支持多种剪辑场景:角色片段提取、高光片段检测、产品片段检测、自定义剪辑等。
- 基于自然语言描述的灵活剪辑需求理解,支持用户自定义需求。
- 支持参考图像辅助识别(角色、物品、场景等)。
- 多维度视频内容分析(视觉、字幕、剧情)。
- 支持 ASR 增强的语义理解,适用于对话内容丰富、无字幕的视频,提升片段边界流畅性。
- 支持短剧三要素渲染(标题、提示语、角标),适合短剧竖屏场景。
- 支持精彩前置功能,自动提取 10-15 秒具有吸引力的片段作为开场。
- 标准化的剪辑决策输出(时间戳、描述、标签等)。
- 自动生成视频片段文件并上传至 TOS。
|
视频处理
算子名称 | 使用方式 | 算子简介 |
|---|
视频分辨率调整(在线) | | 视频分辨率调整算子,核心功能: - 智能分辨率调整到指定范围内
- 支持多种宽高比保持策略
- 可控制视频质量和编码参数
- 保持音频流不受影响
|
音视频合并 | | - 音视频合并算子,基于 FFmpeg 对输入的视频和音频素材进行顺序拼接、时长调整和最终合成。算子支持 1 对 1、1 对多、多对 1、多对多等多种输入组合;当视频和音频总时长不一致时,会根据配置自动选择变速对齐或按较短时长裁剪,并将结果视频与处理映射文件上传到 TOS。
- 核心功能:
- 支持多段视频顺序拼接。
- 支持多段音频顺序拼接。
- 支持视频、音频分别按目标时长预处理后再合成。
- 支持自动选择对齐策略:优先变速,超出阈值时自动裁剪。
- 支持输出最终视频文件和映射文件,便于追踪每次合并的输入、时长和对齐策略。
- 输出目录自动按账号、请求链路和输入哈希隔离,避免不同任务结果互相覆盖。
|
视频分析
算子名称 | 使用方式 | 算子简介 |
|---|
视频分镜 | | - 视频分镜算子,基于多模态大模型对输入视频进行镜头/场景切分、全局角色识别、场景级人物关联以及人物图片抽取。算子会输出场景汇总结果、人物注册表、每个场景的切片视频,以及按人物归档的图片文件,便于后续检索、剪辑和内容理解。
- 核心功能:
- 支持基于 VLM 的场景切分,也支持
min_segment_duration == max_segment_duration 时的等时长切分。 - 支持全局角色提取与去重聚合,生成角色注册表。
- 支持场景内人物关联,输出人物在场景中的出现时间区间、关键帧时间点与 bbox 信息。
- 支持自动切出每个场景的独立视频文件。
- 支持为每个角色抽取并筛选代表性图片,按人物归档输出。
- 支持输出 token 用量与 LLM 请求次数,便于评估成本。
|
视频修复
算子名称 | 使用方式 | 算子简介 |
|---|
视频修复 | | - 视频智能修复算子,基于多模态大模型实现视频水印和字幕智能擦除能力。支持自动检测和擦除视频中的水印、字幕、滚动字幕等不需要的内容,输出修复后的视频文件。
- 核心功能:
- 支持多种目标擦除:水印、字幕、滚动字幕等。
- 基于多模态大模型的智能检测,精准定位需要修复的区域。
- 支持精确 mask 生成,保留边缘细节。
- 支持视频分段处理,处理长视频更稳定。
- 自动处理音频保留,无需额外操作。
- 支持输出 TOS 地址,结果自动上传。
|
图片
图片处理
算子名称 | 使用方式 | 算子简介 |
|---|
图片重采样 | | - 图像重采样算子用于对输入图像进行尺寸重采样(仅支持降采样),并将结果保存到用户指定的 TOS 目录。支持 4 种插值算法(nearest/bilinear/bicubic/lanczos)与
.jpg / .png 输出格式,适用于图像预处理、数据标准化、离线数据集构建等场景。 - 核心功能
- 多种插值算法
- nearest:速度最快,适合像素风格图像
- bilinear:速度与质量平衡
- bicubic:更平滑的高质量缩放
- lanczos:抗锯齿效果更好,适合照片
- URL / TOS 输入支持
image_src_type=image_url:输入公网 URLimage_src_type=image_tos:输入 tos:// 地址
- 输出到 TOS
tos_dir 必填,指定输出目录(文件夹级别)- 输出文件名由服务端生成(可通过
image_name 辅助命名),并追加 _resample 后缀标识
- 输出格式与 DPI 控制
- 输出格式支持
.jpg / .png - 支持设置输出 DPI(
target_dpi)
|
文档
文档解析
算子名称 | 使用方式 | 算子简介 |
|---|
PDF 文档解析(豆包) | | - PDF 内容解析算子,支持对 PDF 文件进行视觉模型解析与 Markdown 结构化输出。
- 核心功能
- 支持 PDF 页面渲染与视觉模型解析,输出高保真 Markdown,完整还原原文结构(标题层级、表格、公式、图片区域)。
- 自动识别图片区域并返回 boundingbox 信息及图片预签名 URL。
- 支持逐页和整书 Markdown 汇总,便于后续内容处理和展示。
|
最近更新时间:2026.03.31 20:34:00