- 文档首页
AI 数据湖服务
算子总览
支持的算子列表:在线算子
支持的算子列表:在线算子
方舟大模型系列
视觉理解
算子名称 | 使用方式 | 算子简介 |
|---|
视频内容理解(豆包系列)增强版 | | - 视频内容理解算子,支持对视频文件使用豆包模型进行理解,包括视频内容的解析与自然语言描述生成。
- 将视频压缩到50M以内,再使用豆包模型进行视频理解;
- 支持视频格式:mp4、wmv、webm、mkv、m4v、flv、avi、mov,因视频文件格式变种较多,不能保证所有文件都能被识别,请通过测试验证文件能够被正常识别。
|
图像生成
算子名称 | 使用方式 | 算子简介 |
|---|
图片生成(Seedream 系列模型) | | - 图片生成( Seedream 系列模型)算子,可根据用户输入的文本或参考图像生成高质量图片,支持组图与流式输出。
- 核心功能
- 文生图/图生图/组图生成
- 支持流式输出(SSE)与非流式输出
- 输出格式支持 url 与 b64_json
|
视频生成
算子名称 | 使用方式 | 算子简介 |
|---|
seedance视频生成(豆包系列) | | Seedance是字节跳动豆包大模型团队最新推出的视频生成基础模型,可根据用户输入的文本、图片等内容,快速生成优质的视频片段 |
多模态向量化
算子名称 | 使用方式 | 算子简介 |
|---|
图文 embedding(豆包系列模型) | | - 多模态向量生成处理器,支持图像/视频与文本的联合向量生成,实现跨模态检索能力。
- 核心功能
- 多模态向量化支持:支持图像/视频与文本的联合向量生成,实现跨模态检索能力,参考文档。
- 输入格式自适应:
- 原生支持图像/视频的base64编码、二进制数据、URL等输入格式
- 自动处理媒体格式转换(JPEG/PNG/MP4/AVI等)
|
多模态深度思考
算子名称 | 使用方式 | 算子简介 |
|---|
多模态深度思考(Doubao-seed-1.8) | | - 多模态场景下提供大模型的深度思考能力,使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
核心功能 - 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
- 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
- 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
- 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡
|
音频
音频处理
算子名称 | 使用方式 | 算子简介 |
|---|
音频格式转换(在线) | | - ”音频格式转换“算子。音频格式转换用于将音频或视频文件统一转换为指定的音频格式,并输出到指定的存储路径。
- 该算子主要用于数据处理流水线中的音频格式标准化、视频抽音频、训练数据准备等场景,支持批量并发处理与可配置的音频编码参数
- 核心功能
- 音频 / 视频统一转换为音频
- 支持自定义输出音频格式
- 支持自定义输出路径(TOS)
- 支持音频编码参数扩展
- 批量并发处理能力
|
音频切分 | | - ”音频切分“算子,用于从音频或视频文件中提取音频,并按照指定规则将音频切分为多个片段,输出到用户指定的存储路径。
该算子主要用于长音频或视频的结构化处理场景,如音频预处理、数据切分、训练数据构建等,支持批量并发处理以及灵活的输出路径组织方式。 - 核心功能
- 音频/视频提取与切分
- 支持自定义切分规则
- 支持自定义输出音频格式
- 支持输出路径模板
- 支持音频编码参数扩展
|
音频识别
算子名称 | 使用方式 | 算子简介 |
|---|
语音转文字(LAS ASR服务) | | - 语音转文字(豆包系列)算子,为语音识别模块,基于 LAS ASR 服务的录音转写解决方案。
- 核心功能
- 接入火山引擎LAS ASR接口
- 支持自动断句、数字规整、说话人或通道分离(可选)
- 并发处理多个音频文件,提供结构化 JSON 与可读文本两种输出
- 适合转写最长2小时的录音文件,支持标点补全、智能断句、说话人分离等高级功能。
|
视频
视频剪辑
算子名称 | 使用方式 | 算子简介 |
|---|
视频智能剪辑 | | - 视频智能剪辑算子,基于多模态大模型实现视频智能剪辑能力,帮助用户从长视频中快速提取有价值的内容片段。支持自然语言描述的剪辑需求理解、参考图像辅助识别(角色、物品、场景等)、多维度视频内容分析(视觉、字幕、剧情),并输出标准化的剪辑决策信息(时间戳、描述、标签等)。
- 核心功能:
- 支持多种剪辑场景:角色片段提取、高光片段检测、产品片段检测、自定义剪辑等。
- 基于自然语言描述的灵活剪辑需求理解,支持用户自定义需求。
- 支持参考图像辅助识别(角色、物品、场景等)。
- 多维度视频内容分析(视觉、字幕、剧情)。
- 标准化的剪辑决策输出(时间戳、描述、标签等)。
- 自动生成视频片段文件并上传至 TOS。
|
文档
文档解析
算子名称 | 使用方式 | 算子简介 |
|---|
PDF 文档解析(豆包) | | - PDF 内容解析算子,支持对 PDF 文件进行视觉模型解析与 Markdown 结构化输出。
- 核心功能
- 支持 PDF 页面渲染与视觉模型解析,输出高保真 Markdown,完整还原原文结构(标题层级、表格、公式、图片区域)。
- 自动识别图片区域并返回 boundingbox 信息及图片预签名 URL。
- 支持逐页和整书 Markdown 汇总,便于后续内容处理和展示。
|
最近更新时间:2026.02.10 15:51:19