You need to enable JavaScript to run this app.
文档中心
AI 数据湖服务

AI 数据湖服务

复制全文
下载 pdf
多模态向量化
图文 embedding(豆包系列模型)
复制全文
下载 pdf
图文 embedding(豆包系列模型)

算子介绍

描述

多模态向量生成处理器

核心功能

  • 多模态向量化支持:支持图像/视频与文本的联合向量生成,实现跨模态检索能力,参考文档
  • 输入格式自适应:
    • 原生支持图像/视频的base64编码、二进制数据、URL等输入格式
    • 自动处理媒体格式转换(JPEG/PNG/MP4/AVI等)
  • 模型名称:doubao-embedding-vision

输入输出规范

  • 输入格式:
    • 图片/视频数据/文本数据:string类型,支持base64编码/url地址
  • 输出格式:
    • 默认模式:float数组类型的向量表示

注意与前提

细分项

注意与前提

开通 LAS

  • 如果您是一个全新的火山引擎用户,此前未开通过 LAS 产品,您可先开通 LAS,不使用 LAS 的计费功能仅开通 LAS 产品不会产生费用。开通操作请参见准备工作
  • 开通完成后可查看算子介绍文档,了解算子能力、上手引导等,详情可参见:LAS 智能数据处理算子

费用

调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费

鉴权(API Key)

调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置

BaseURL

调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。
详情请参见获取 Base URL,下文中的调用示例仅作为参考,实际调用时需替换为您对应地域的路径取值。

在线体验

LAS 为您提供了“在线体验”的能力,并为您提供了一定的免费体验额度,您无需任何配置,即可在在线体验 LAS 算子的数据处理效果。

注意

当前算子在线体验可免费解使用 50万 token 的模型消耗额度,超出部分会依据算子的计费项进行计费,各算子的计费项及计费逻辑请参见大模型调用计费

在线体验入口

登录并进入 LAS 控制台LAS 控制台 后,查找到当前算子卡片,鼠标悬浮于算子卡片上,单击“在线体验”按钮。
Image

在线体验操作演示

  • LAS 为您提供了多个示例图文、视频文件,您也可以删除示例文件,手动上传。
  • 在线体验时,可灵活设置算子的处理参数。

API调用

POST https://operator.las.cn-beijing.volces.com/api/v1/embeddings/multimodal

接口说明

调用该算子进行图文向量化。

请求参数

参数

类型

必填

示例值

说明

model

string

doubao-embedding-vision

模型名称,仅支持 doubao-embedding-vision

input

list of object

需要向量化的内容列表。具体信息请参考 多模态向量化 API 请求参数里的input参数

encoding_format

string

float

embedding 返回的格式。取值范围: floatbase64null。默认为 float

dimensions

integer

2048

用于指定输出的向量维度。此参数仅doubao-embedding-vision-250615及后续版本支持。
取值范围:10242048 。默认为 2048

instructions

string

推理提示词,用户传入时直接使用,未传入时按输入模态生成默认值。详情请参见配置instructions

sparse_embedding

object

稀疏向量开关配置,仅纯文本输入支持配置此字段。取值范围:

  • type="disabled":仅输出稠密向量,不输出稀疏向量;
  • type="enabled":同时输出稠密向量和稀疏向量。

返回数据

参数
类型
示例值
说明
id
string
021743575029461acbe49a31755bec77b2f09448eb15fa9a88e47
本次请求的唯一标识。
model
string
doubao-embedding-vision-250615
本次请求实际使用的模型名称和版本。
created
integer
1743575029
本次请求创建时间的 Unix 时间戳(秒)。
object
string
list
固定为 list。
data
embedding_result
本次请求的算法输出内容。
usage
token_usage
本次请求的 token 用量。

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/embeddings/multimodal" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "model": "doubao-embedding-vision-250615",
    "encoding_format": "float",
    "input": [
        {
            "type": "image_url",
            "image_url": {
                "url": "https://las-ai-cn-beijing-baseline.tos-cn-beijing.volces.com/operator_cards_serving/public/baseline/doubao_embedding_vision/cat_ip_adapter.jpeg"
            }
        },
        {
            "type": "text",
            "text": "图片里有什么"
        }
    ]
}'

返回示例

{
    "id": "021764041607868c64dcafb5669f61b8aa56083c290255748bdbb",
    "created": "1764041608",
    "model": "doubao-embedding-vision-250615",
    "object": "list",
    "data": {
        "object": "embedding",
        "embedding": [
            0.0002918243408203125,
            -0.0189208984375,
            -0.003814697265625,
            0.058349609375,
            -0.002838134765625,
            0.032958984375,
            "..."
        ]
    },
    "usage": {
        "prompt_tokens": 1335,
        "total_tokens": 1335,
        "prompt_tokens_details": {
            "text_tokens": 23,
            "image_tokens": 1312
        }
    }
}

Daft 调用

算子参数

输入

输入列名

说明

media_datas

传入待处理的图片或视频数据、文本数据。图片或视频数据支持传入base64编码或url、bytes;文本数据支持传入文本数据。输入文本数据,则对文本数据进行向量化。

text_contents

图文向量化场景下,通过media_datas字段传入图片或者视频,通过text_contents字段传入文本数据。 输入给模型的文本内容,需要满足一下条件 单条文本以 utf-8 编码,长度不超过 100,000 字节。 单条文本不超过模型的最大输入 token 数为 8k。

输出

返回模型处理后的向量化数组。类型为list[float]

参数

如参数没有默认值,则为必填参数

参数名称

类型

默认值

描述

model

str

doubao-embedding-vision

version

str or None

模型版本 输入模型对应的版本信息。示例 250115

api_key

str or None

multimodal_type

str

image

媒体内容类型 指定处理的是图像还是视频,默认是 image。可选值: - image: 图片 - video: 视频 - text: 文本

image_format

str

jpeg

图片编码格式 支持格式有:JPEG、PNG、WEBP、BMP、TIFF、ICO、DIB、ICNS、SGI、JPEG2000。其中,TIFF、 SGI、ICNS、JPEG2000 格式图片。

video_format

str

mp4

视频编码格式 配置视频格式,默认是mp4。支持的视频格式:MP4、AVI、MOV。 可以参考官网文档给定的格式。

source_type

str

url

数据来源类型 指定媒体数据的来源格式,默认 url。可选值: - binary: 原始二进制数据 - base64: Base64编码数据 - url: 网络资源地址(支持 http/https/tos)

encoding_format

str or None

embedding的编码格式 支持的编码格式有: float、base64

dimensions

int

2048

embedding的维度 用于指定输出的向量维度。此参数仅doubao-embedding-vision-250615及后续版本支持,历史版本可以参见向量降维. 取值范围: 1024 或 2048。默认值 2048

request_timeout

int

1200

超时时间 单次请求的超时时间(秒)

max_concurrency

int

100

并发数 每个进程的最大并发数.

调用示例

下面的代码展示了如何使用 daft访问火山方舟图像向量化模型进行向量化计算。

from __future__ import annotations

import os

import daft
from daft import col
from daft.las.functions.ark_llm.doubao_embedding_vision import DoubaoEmbeddingVision
from daft.las.functions.udf import las_udf

if os.getenv("DAFT_RUNNER", "native") == "ray":
    import logging

    import ray

    def configure_logging():
        logging.basicConfig(
            level=logging.INFO,
            format="%(asctime)s - %(name)s - %(levelname)s - %(message)s",
            datefmt="%Y-%m-%d %H:%M:%S.%s".format(),
        )
        logging.getLogger("tracing.span").setLevel(logging.WARNING)
        logging.getLogger("daft_io.stats").setLevel(logging.WARNING)
        logging.getLogger("DaftStatisticsManager").setLevel(logging.WARNING)
        logging.getLogger("DaftFlotillaScheduler").setLevel(logging.WARNING)
        logging.getLogger("DaftFlotillaDispatcher").setLevel(logging.WARNING)

    ray.init(dashboard_host="0.0.0.0", runtime_env={"worker_process_setup_hook": configure_logging})
    daft.set_runner_ray()

daft.set_execution_config(min_cpu_per_task=0)

if __name__ == "__main__":
    # 需配置环境变量 LAS_API_KEY : LAS_API_KEY 通过在 LAS 服务页面上创建获取
    tos_dir_url = os.getenv("TOS_DIR_URL", "las-cn-beijing-public-online.tos-cn-beijing.volces.com")
    samples = {
        "image_path": [
            f"https://{tos_dir_url}/public/shared_image_dataset/cat_ip_adapter.jpeg"
        ],
        "text": ["猫"],
    }

    df = daft.from_pydict(samples)
    # 计算图片和文本的向量化数据
    df = df.with_column(
        "embeeding_for_image_text",
        las_udf(
            DoubaoEmbeddingVision,
            construct_args={
                "image_format": "jpeg",
            },
        )(col("image_path"), col("text")),
    )

    # 计算图片向量化数据
    df = df.with_column(
        "embeeding_for_image",
        las_udf(
            DoubaoEmbeddingVision,
            construct_args={
                "image_format": "jpeg",
            },
        )(col("image_path")),
    )

    # 计算文本向量化数据
    df = df.with_column(
        "embeeding_for_text",
        las_udf(
            DoubaoEmbeddingVision,
            construct_args={
                "multimodal_type": "text",
            },
        )(col("text")),
    )
    df.show()

    #  输出(每次大模型推理结果可能不同)
    # ╭────────────────────────────────┬────────┬────────────────────────────────┬────────────────────────────────┬────────────────────────────────╮
    # │ image_path                     ┆ text   ┆ embeeding_for_image_text       ┆ embeeding_for_image            ┆ embeeding_for_text             │
    # │ ---                            ┆ ---    ┆ ---                            ┆ ---                            ┆ ---                            │
    # │ String                         ┆ String ┆ List[Float32]                  ┆ List[Float32]                  ┆ List[Float32]                  │
    # ╞════════════════════════════════╪════════╪════════════════════════════════╪════════════════════════════════╪════════════════════════════════╡
    # │ https://las-public-data-qa.to… ┆ 猫     ┆ [0.010437012, -0.009399414, -… ┆ [0.0076293945, -0.014404297, … ┆ [0.019165039, 0.007598877, -0… │
    # ╰────────────────────────────────┴────────┴────────────────────────────────┴────────────────────────────────┴────────────────────────────────╯
最近更新时间:2026.04.08 18:31:51
这个页面对您有帮助吗?
有用
有用
无用
无用