You need to enable JavaScript to run this app.
导航
视觉提示目标检测-OWLv2-Ensemble
最近更新时间:2025.06.09 14:13:33首次发布时间:2025.06.06 10:22:44
我的收藏
有用
有用
无用
无用

视觉提示目标检测-OWLv2 是一个官方模型组。本模型组具备基于 OWLv2 结构的开放目标检测能力,并且支持视觉提示;每次只能检测一种类型的目标,还会为每个检测到的目标生成边界框和置信度分数。

基本信息

视觉提示目标检测-OWLv2 模型组有 4 个模型。其中,Ensemble 模型里集成了前处理模型(Pre-Processing)、推理模型(Backbone)和后处理模型(Post-Processing),它规定了模型组的整体工作流程。在使用时,您只需部署 Ensemble 模型,不用关心中间的处理过程。

alt

您可以在边缘智能控制台的 官方模型 列表访问 Ensemble 模型。下图展示了本模型的基本信息。

alt

Ensemble 模型输入

名称类型形状
image_npUINT8[-1,-1,3]
image_np_refUINT8[-1,-1,3]
gbsFP32[-1,-1]

输入说明:

  • image_np
    要测试的图像,是 numpy.uint8 类型的数组。尺寸是[高,宽,3],这里的 3 代表通道数,通道顺序是 RGB。
  • image_np_ref
    目标参考图像,它的格式和 image_np 一样。
  • gbs
    是 numpy.float32 类型的数组,格式是[[x1,y1,x2,y2],...]。其中[x1,y1,x2,y2]是目标边界框左上角点的水平像素坐标、左上角点的垂直像素坐标、右下角点的水平像素坐标、右下角点的垂直像素坐标。

可以用下面两种方式给出视觉提示:

  • 方式一:只给出目标参考图像(image_np_ref)
  • 方式二:给出目标参考图像(image_np_ref)以及目标在图像里的边界框坐标(gbs)

Ensemble 模型输出

名称类型形状
scoresFP32[-1]
boxesFP32[-1,-1]
labelsFP32[-1]

输出说明:

结果是一个字典类型的数据,包含 3 个键 ["boxes","scores","labels"],每个键对应的值都是 numpy.float32 类型的数组。

  • boxes 的值是一个形状为 (num, 4) 的二维数组。
  • scores 的值是一个长度为 num 的一维数组。
  • labels 的值是一个长度为 num 的一维数组。

这里的 num 指的是检测到的目标数量。

  • 如果没有检测到目标,这 3 个键对应的值都为 []
  • labels 的值中的元素都为 0,这意味着只能进行单类视觉目标检测。

Ensemble 模型部署

视觉提示目标检测-OWLv2-Ensemble 模型提供一个可部署版本。

alt

参考部署模型服务来部署模型服务。在 部署模型服务 参数配置页面,修改以下配置:

说明

下表中未包含的配置项无需修改,建议使用默认值。

类型配置项说明
基本信息节点选择一个边缘节点。
服务名称设置一个服务名称。该名称不能与节点上其他服务的名称重复。
模型信息模型选择 官方 | 视觉提示目标检测-OWLv2-Ensemble
模型版本选择 v1
服务配置HTTP端口指定节点上的一个空闲端口。
GRPC端口指定节点上的一个空闲端口。

调用示例

模型服务部署成功后,您可以下载以下客户端调用示例,用来验证模型服务的效果。

client-demo-owlv2_vp.zip
3.02KB