You need to enable JavaScript to run this app.
AI 数据湖服务

AI 数据湖服务

复制全文
算子总览
支持的算子列表:在线算子
复制全文
支持的算子列表:在线算子

方舟大模型系列

视觉理解

算子名称

使用方式

算子简介

视频内容理解(豆包系列)增强版

  • 在线
  • 视频内容理解算子,支持对视频文件使用豆包模型进行理解,包括视频内容的解析与自然语言描述生成。
  • 将视频压缩到50M以内,再使用豆包模型进行视频理解;
  • 支持视频格式:mp4、wmv、webm、mkv、m4v、flv、avi、mov,因视频文件格式变种较多,不能保证所有文件都能被识别,请通过测试验证文件能够被正常识别。

图像生成

算子名称

使用方式

算子简介

图片生成(Seedream 系列模型)

  • 在线
  • 图片生成( Seedream 系列模型)算子,可根据用户输入的文本或参考图像生成高质量图片,支持组图与流式输出。
  • 核心功能
    • 文生图/图生图/组图生成
    • 支持流式输出(SSE)与非流式输出
    • 输出格式支持 url 与 b64_json

视频生成

算子名称

使用方式

算子简介

seedance视频生成(豆包系列)

  • 在线

Seedance是字节跳动豆包大模型团队最新推出的视频生成基础模型,可根据用户输入的文本、图片等内容,快速生成优质的视频片段

多模态向量化

算子名称

使用方式

算子简介

图文 embedding(豆包系列模型)

  • 在线
  • 离线
  • 多模态向量生成处理器,支持图像/视频与文本的联合向量生成,实现跨模态检索能力。
  • 核心功能
    • 多模态向量化支持:支持图像/视频与文本的联合向量生成,实现跨模态检索能力,参考文档
    • 输入格式自适应:
      • 原生支持图像/视频的base64编码、二进制数据、URL等输入格式
      • 自动处理媒体格式转换(JPEG/PNG/MP4/AVI等)

多模态深度思考

算子名称

使用方式

算子简介

多模态深度思考(Doubao-seed-1.8)

  • 在线
  • 多模态场景下提供大模型的深度思考能力,使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。

核心功能

  • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
  • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
  • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
  • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

音频

音频处理

算子名称

使用方式

算子简介

音频格式转换(在线)

  • 在线
  • ”音频格式转换“算子。音频格式转换用于将音频或视频文件统一转换为指定的音频格式,并输出到指定的存储路径。
  • 该算子主要用于数据处理流水线中的音频格式标准化、视频抽音频、训练数据准备等场景,支持批量并发处理与可配置的音频编码参数
  • 核心功能
    • 音频 / 视频统一转换为音频
    • 支持自定义输出音频格式
    • 支持自定义输出路径(TOS)
    • 支持音频编码参数扩展
    • 批量并发处理能力

音频切分

  • 在线
  • ”音频切分“算子,用于从音频或视频文件中提取音频,并按照指定规则将音频切分为多个片段,输出到用户指定的存储路径。
    该算子主要用于长音频或视频的结构化处理场景,如音频预处理、数据切分、训练数据构建等,支持批量并发处理以及灵活的输出路径组织方式。
  • 核心功能
    • 音频/视频提取与切分
    • 支持自定义切分规则
    • 支持自定义输出音频格式
    • 支持输出路径模板
    • 支持音频编码参数扩展

音频识别

算子名称

使用方式

算子简介

语音转文字(LAS ASR服务)

  • 在线
  • 语音转文字(豆包系列)算子,为语音识别模块,基于 LAS ASR 服务的录音转写解决方案。
  • 核心功能
    • 接入火山引擎LAS ASR接口
    • 支持自动断句、数字规整、说话人或通道分离(可选)
    • 并发处理多个音频文件,提供结构化 JSON 与可读文本两种输出
  • 适合转写最长2小时的录音文件,支持标点补全、智能断句、说话人分离等高级功能。

视频

视频剪辑

算子名称

使用方式

算子简介

视频智能剪辑

  • 在线
  • 视频智能剪辑算子,基于多模态大模型实现视频智能剪辑能力,帮助用户从长视频中快速提取有价值的内容片段。支持自然语言描述的剪辑需求理解、参考图像辅助识别(角色、物品、场景等)、多维度视频内容分析(视觉、字幕、剧情),并输出标准化的剪辑决策信息(时间戳、描述、标签等)。
  • 核心功能:
    • 支持多种剪辑场景:角色片段提取、高光片段检测、产品片段检测、自定义剪辑等。
    • 基于自然语言描述的灵活剪辑需求理解,支持用户自定义需求。
    • 支持参考图像辅助识别(角色、物品、场景等)。
    • 多维度视频内容分析(视觉、字幕、剧情)。
    • 标准化的剪辑决策输出(时间戳、描述、标签等)。
    • 自动生成视频片段文件并上传至 TOS。

文档

文档解析

算子名称

使用方式

算子简介

PDF 文档解析(豆包)

  • 在线
  • PDF 内容解析算子,支持对 PDF 文件进行视觉模型解析与 Markdown 结构化输出。
  • 核心功能
    • 支持 PDF 页面渲染与视觉模型解析,输出高保真 Markdown,完整还原原文结构(标题层级、表格、公式、图片区域)。
    • 自动识别图片区域并返回 boundingbox 信息及图片预签名 URL。
    • 支持逐页和整书 Markdown 汇总,便于后续内容处理和展示。
最近更新时间:2026.02.10 15:51:19
这个页面对您有帮助吗?
有用
有用
无用
无用