文本向量化生成处理器
输入列名 | 说明 |
|---|---|
text_contents | 传入待处理的文本数据。 |
返回模型处理后的向量化数组。类型为list[float]
如参数没有默认值,则为必填参数
参数名称 | 类型 | 默认值 | 描述 |
|---|---|---|---|
model | str | doubao-embedding-large | 模型名称,示例:doubao-embedding、doubao-embedding-large |
version | str or None | 模型版本 输入模型对应的版本信息。示例 text-250515 | |
api_key | str or None | ||
encoding_format | str or None | embedding的编码格式 支持的编码格式有: float、base64 | |
request_timeout | int | 1200 | 超时时间 单次请求的超时时间(秒) |
max_concurrency | int | 100 | 并发数 每个进程的最大并发数. |
下面的代码展示了如何使用 daft访问火山方舟 文本向量化 模型进行批量推理。请注意每次大模型推理结果可能不同。
from __future__ import annotations import os import daft from daft import col from daft.las.functions.ark_llm.doubao_embedding_text import DoubaoEmbeddingText from daft.las.functions.udf import las_udf if os.getenv("DAFT_RUNNER", "native") == "ray": import logging import ray def configure_logging(): logging.basicConfig( level=logging.INFO, format="%(asctime)s - %(name)s - %(levelname)s - %(message)s", datefmt="%Y-%m-%d %H:%M:%S.%s".format(), ) logging.getLogger("tracing.span").setLevel(logging.WARNING) logging.getLogger("daft_io.stats").setLevel(logging.WARNING) logging.getLogger("DaftStatisticsManager").setLevel(logging.WARNING) logging.getLogger("DaftFlotillaScheduler").setLevel(logging.WARNING) logging.getLogger("DaftFlotillaDispatcher").setLevel(logging.WARNING) ray.init(dashboard_host="0.0.0.0", runtime_env={"worker_process_setup_hook": configure_logging}) daft.context.set_runner_ray() daft.set_execution_config(min_cpu_per_task=0) if __name__ == "__main__": # 需配置环境变量 LAS_API_KEY : LAS_API_KEY 通过在 LAS 服务页面上创建获取 samples = {"text": ["Hello World!", None]} df = daft.from_pydict(samples) # 计算文本的向量化数据 df = df.with_column( "embeddings", las_udf( DoubaoEmbeddingText, construct_args={ "model": "doubao-embedding", }, )(col("text")), ) df.show() # 输出(每次大模型推理结果可能不同) # ╭────────┬────────────────────╮ # │ text ┆ embeddings │ # │ --- ┆ --- │ # │ Utf8 ┆ List[Float32] │ # ╞════════╪═══════════════════╡ # │ Hello World! ┆ [-3.90625, -1.4921875, -2.031… │ # ├╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤ # │ None ┆ None │ # ╰────────┴────────────────────╯