You need to enable JavaScript to run this app.
导航

部署模型服务

最近更新时间2024.03.08 15:13:12

首次发布时间2022.11.03 20:11:05

本文描述了如何通过边缘智能控制台部署模型服务。您可以在一体机上部署边缘智能的官方模型、您创建的自定义模型。

背景信息

不同框架的模型对一体机指令集架构、协处理器类型有不同的要求。具体如下表所示。在部署模型服务前,请确保您的一体机与要部署的模型是兼容的。

模型框架一体机指令集架构要求一体机协处理器要求
ONNXx86/amd64、armCPU、GPU
TensorRTx86/amd64、armGPU
PyTorchx86/amd64、armCPU、GPU
TensorFlowx86/amd64、armCPU、GPU
OpenVINOx86/amd64CPU、GPU
Bytennx86/amd64、armCPU、GPU
PaddlePaddlex86/amd64CPU、GPU

前提条件

操作步骤

  1. 登录边缘智能控制台

  2. 在左侧导航栏顶部的 我的项目 区域,选择您的项目。

  3. 在左侧导航栏,选择 边缘推理 > 模型服务
  4. 单击 部署模型服务
  5. 部署模型服务 页面,配置以下参数,然后单击 确认
区域参数说明
基本信息项目固定为当前选择的项目。
一体机选择需要部署模型服务的一体机。

服务名称

为模型服务设置名称。输入要求如下:

  • 可使用的字符包括:中文字符、英文大小写字母、数字、下划线(_)、连字符(-)。
  • 长度必须在 32 个字符以内。特殊字符不能用作开头或结尾,且不能连续使用。
  • 在一台一体机上,模型服务的名称必须唯一。
模型信息模型选择要部署的模型。可以选择边缘智能的官方模型,也可以选择您创建的自定义模型。
模型版本选择要部署的模型版本。
模型前后处理版本选择要部署的模型前后处理版本。关于前后处理版本的详细说明,请参见为模型创建版本
服务配置服务状态类型固定为 无服务状态
最大批处理大小设置最大批处理数量。取值范围:0 ~ 100。

HTTP端口

输入 HTTP 服务端口。端口范围:30000 ~ 40000。
您设置的 HTTP 端口不能是一体机中已被其他服务占用的端口。

GRPC端口

输入 GRPC 服务端口。端口范围:30000 ~ 40000。
您设置的 GRPC 端口不能是一体机中已被其他服务占用的端口。

部署实例

为每个子模型分别配置 CPU模型服务实例数GPU模型服务实例数

  • 模型Ensemble 之外的类型时,子模型有一个;当 模型Ensemble 类型时,有多个子模型。更多信息,请参见创建自定义模型
  • CPU模型服务实例数 表示预期在 CPU 上水平扩展的模型服务的数量。取值范围:0 ~ 100。
  • GPU模型服务实例数 表示预期在 GPU 上水平扩展的模型服务的数量。取值范围:0 ~ 100。

资源配置

为模型服务分配一体机资源。

  • CPU配额:容器需要使用的最小 CPU 核数。单位:Core。使用一位小数表示。取值范围:0.1 ~ 128.0。
  • CPU限额:容器可以使用的最大 CPU 核数。单位:Core。使用一位小数表示。取值范围:0.1 ~ 128.0。
  • 内存配额:容器需要使用的最小内存值。单位:MB 或 GB。使用整数表示。取值范围:0MB ~ 128GB。
  • 内存限额:容器可以使用的最大内存值。单位:MB 或 GB。使用整数表示。取值范围:0MB ~ 128GB。

注意

如果模型服务在 CPU 或内存方面超过限额,容器将会被终止。

高级配置动态批处理设置是否开启动态批处理功能。该功能让模型服务器得以将多个推理请求组合,动态地生成一个批次。一般来说,创建请求批次可以优化吞吐量。

最大批处理延迟

设置批处理延迟的最大时间。单位:us。取值范围:0~1000000。超过该时间会立刻开始推理。

说明

该参数只在 动态批处理 时出现。

是否开启压缩模式

选择是否采用输入压缩模式来部署模型服务。

说明

模型Ensemble 类型时,无法开启压缩模式。

在模型服务与数据流分开部署的场景(如云边协同)建议开启输入压缩模式。开启输入压缩模式后,模型服务的部署会自动转化为一个 Ensemble 联合模型服务的部署,它包含三部分:Ensemble 模型,Python 前处理模型以及您选择的模型本身。
在这种模式下,整个 Ensemble 模型的输入图片 Tensor 会变成压缩后的 jpeg string。相对于原始模型,输入 Tensor 的大小有大幅度的缩小。Python 前处理模型则是用来将压缩后的 jpeg string 恢复成原始模型的输入 Tensor。

示例:
假设原始模型的图片输入 Tensor 大小是 3×640×640,因此该输入 Tensor 大小是 4.6875MB。而压缩后,输入 Tensor 大小仅仅是 jpeg string 的大小,大约是几十 KB。

参数配置

您可以通过该参数自定义参数配置,并将您的参数配置发送到一体机。

说明

  • 只有当 模型 的类型是 Python 时,自定义的参数配置才会被启用。
  • 如果您希望使用这个功能,建议您联系售后技术支持来帮助您完成配置。

完成上述操作后,您可以在 模型服务 列表查看已经部署的模型服务。

  • 当模型服务的状态是 部署中,您可以将光标放置在状态旁边的问号图标上,了解当前的部署进度。

    说明

    当您首次在一体机上部署基于某种特定框架(如 TensorFlow 或 PyTorch)的模型时,一体机会自动开始下载并安装对应的深度学习镜像。这个过程可能会根据一体机的网络环境状态,持续大约 5 到 10 分钟。如果一体机已经安装了对应的深度学习镜像,则部署相关模型的时间会缩短。

  • 当模型服务的状态变为 运行中,表示模型服务已经部署成功。

  • 如果模型服务的状态是 部署失败,您可以将光标放置在 部署失败 上,然后单击 查看原因,以获取具体的错误消息。