You need to enable JavaScript to run this app.
导航

embedding

最近更新时间2023.12.05 19:48:25

首次发布时间2023.11.09 18:59:55

概述

embedding 用于将非结构化数据向量化,通过深度学习神经网络提取文本、图片、音视频等非结构化数据里的内容和语义,把文本、图片、音视频等变成特征向量。

说明

  • 当前 Embedding 服务仅支持将文本生成向量。
  • 当前 Embedding 服务接口不支持承载高并发请求,请求数量过多时请求会被丢弃。

请求参数

参数

子参数

类型

是否必选

说明

emb_model

说明

EmbModel 实例。

model_name

string

指定模型名称,当前支持的模型有 bge-large-zh。

  • 不同模型能够处理的 token 数量有限制,bge-large-zh 最多能处理 512 个 token,数量超长时会截断,数量不足时会做 padding。
  • bge-large-zh 输出 embedding 维度是 1024,类型是 float。

raw_data

说明

RawData 实例或者列表,最大 100 个。

data_type

string

指定数据类型,当前仅支持文本 text。

text

string

当 data_type=text 时,直接传入类型为 string 的文本。

示例

请求参数

list = [RawData("text","hello1"), RawData("text","hello2")]
res = vikingdb_service.embedding(EmbModel("bge-large-zh"), list)

返回值

Python 调用执行上面的任务,返回 list<float> 、list<list<float>> 类型的向量。