视觉提示目标检测-OWLv2-Ensemble--边缘智能-火山引擎

文档中心

边缘智能

官方模型

视觉提示目标检测-OWLv2-Ensemble

视觉提示目标检测-OWLv2 是一个官方模型组。本模型组具备基于 OWLv2 结构的开放目标检测能力，并且支持视觉提示；每次只能检测一种类型的目标，还会为每个检测到的目标生成边界框和置信度分数。

基本信息

视觉提示目标检测-OWLv2 模型组有 4 个模型。其中，Ensemble 模型里集成了前处理模型（Pre-Processing）、推理模型（Backbone）和后处理模型（Post-Processing），它规定了模型组的整体工作流程。在使用时，您只需部署 Ensemble 模型，不用关心中间的处理过程。

alt

您可以在边缘智能控制台的 官方模型 列表访问 Ensemble 模型。下图展示了本模型的基本信息。

alt

Ensemble 模型输入

名称	类型	形状
image_np	UINT8	[-1,-1,3]
image_np_ref	UINT8	[-1,-1,3]
gbs	FP32	[-1,-1]

输入说明：

image_np
要测试的图像，是 numpy.uint8 类型的数组。尺寸是[高,宽,3]，这里的 3 代表通道数，通道顺序是 RGB。
image_np_ref
目标参考图像，它的格式和 image_np 一样。
gbs
是 numpy.float32 类型的数组，格式是[[x1,y1,x2,y2],...]。其中[x1,y1,x2,y2]是目标边界框左上角点的水平像素坐标、左上角点的垂直像素坐标、右下角点的水平像素坐标、右下角点的垂直像素坐标。

可以用下面两种方式给出视觉提示：

方式一：只给出目标参考图像（image_np_ref）
方式二：给出目标参考图像（image_np_ref）以及目标在图像里的边界框坐标（gbs）

Ensemble 模型输出

名称	类型	形状
scores	FP32	[-1]
boxes	FP32	[-1,-1]
labels	FP32	[-1]

输出说明：

结果是一个字典类型的数据，包含 3 个键 ["boxes","scores","labels"]，每个键对应的值都是 numpy.float32 类型的数组。

boxes 的值是一个形状为 (num, 4) 的二维数组。
scores 的值是一个长度为 num 的一维数组。
labels 的值是一个长度为 num 的一维数组。

这里的 num 指的是检测到的目标数量。

如果没有检测到目标，这 3 个键对应的值都为 []。
labels 的值中的元素都为 0，这意味着只能进行单类视觉目标检测。

Ensemble 模型部署

视觉提示目标检测-OWLv2-Ensemble 模型提供一个可部署版本。

alt

参考部署模型服务来部署模型服务。在 部署模型服务 参数配置页面，修改以下配置：

说明

下表中未包含的配置项无需修改，建议使用默认值。

类型	配置项	说明
基本信息	节点	选择一个边缘节点。
基本信息	服务名称	设置一个服务名称。该名称不能与节点上其他服务的名称重复。
模型信息	模型	选择官方 \| 视觉提示目标检测-OWLv2-Ensemble。
模型信息	模型版本	选择 v1。
服务配置	HTTP端口	指定节点上的一个空闲端口。
服务配置	GRPC端口	指定节点上的一个空闲端口。

调用示例

模型服务部署成功后，您可以下载以下客户端调用示例，用来验证模型服务的效果。

client-demo-owlv2_vp.zip

3.02KB

最近更新时间：2025.06.09 14:13:33

这个页面对您有帮助吗？

有用

无用

边缘智能

基本信息 #

Ensemble 模型输入 #

Ensemble 模型输出 #

Ensemble 模型部署 #

调用示例 #

基本信息

Ensemble 模型输入

Ensemble 模型输出

Ensemble 模型部署

调用示例