最近更新时间:2024.03.08 15:13:12
首次发布时间:2022.11.03 20:11:05
本文描述了如何通过边缘智能控制台部署模型服务。您可以在一体机上部署边缘智能的官方模型、您创建的自定义模型。
不同框架的模型对一体机指令集架构、协处理器类型有不同的要求。具体如下表所示。在部署模型服务前,请确保您的一体机与要部署的模型是兼容的。
模型框架 | 一体机指令集架构要求 | 一体机协处理器要求 |
---|---|---|
ONNX | x86/amd64、arm | CPU、GPU |
TensorRT | x86/amd64、arm | GPU |
PyTorch | x86/amd64、arm | CPU、GPU |
TensorFlow | x86/amd64、arm | CPU、GPU |
OpenVINO | x86/amd64 | CPU、GPU |
Bytenn | x86/amd64、arm | CPU、GPU |
PaddlePaddle | x86/amd64 | CPU、GPU |
登录边缘智能控制台。
在左侧导航栏顶部的 我的项目 区域,选择您的项目。
区域 | 参数 | 说明 |
---|---|---|
基本信息 | 项目 | 固定为当前选择的项目。 |
一体机 | 选择需要部署模型服务的一体机。 | |
服务名称 | 为模型服务设置名称。输入要求如下:
| |
模型信息 | 模型 | 选择要部署的模型。可以选择边缘智能的官方模型,也可以选择您创建的自定义模型。 |
模型版本 | 选择要部署的模型版本。 | |
模型前后处理版本 | 选择要部署的模型前后处理版本。关于前后处理版本的详细说明,请参见为模型创建版本。 | |
服务配置 | 服务状态类型 | 固定为 无服务状态。 |
最大批处理大小 | 设置最大批处理数量。取值范围:0 ~ 100。 | |
HTTP端口 | 输入 HTTP 服务端口。端口范围:30000 ~ 40000。 | |
GRPC端口 | 输入 GRPC 服务端口。端口范围:30000 ~ 40000。 | |
部署实例 | 为每个子模型分别配置 CPU模型服务实例数 和 GPU模型服务实例数。
| |
资源配置 | 为模型服务分配一体机资源。
注意 如果模型服务在 CPU 或内存方面超过限额,容器将会被终止。 | |
高级配置 | 动态批处理 | 设置是否开启动态批处理功能。该功能让模型服务器得以将多个推理请求组合,动态地生成一个批次。一般来说,创建请求批次可以优化吞吐量。 |
最大批处理延迟 | 设置批处理延迟的最大时间。单位:us。取值范围:0~1000000。超过该时间会立刻开始推理。 说明 该参数只在 动态批处理 为 是 时出现。 | |
是否开启压缩模式 | 选择是否采用输入压缩模式来部署模型服务。 说明 当 模型 是 Ensemble 类型时,无法开启压缩模式。 在模型服务与数据流分开部署的场景(如云边协同)建议开启输入压缩模式。开启输入压缩模式后,模型服务的部署会自动转化为一个 Ensemble 联合模型服务的部署,它包含三部分:Ensemble 模型,Python 前处理模型以及您选择的模型本身。
| |
参数配置 | 您可以通过该参数自定义参数配置,并将您的参数配置发送到一体机。 说明
|
完成上述操作后,您可以在 模型服务 列表查看已经部署的模型服务。
当模型服务的状态是 部署中,您可以将光标放置在状态旁边的问号图标上,了解当前的部署进度。
说明
当您首次在一体机上部署基于某种特定框架(如 TensorFlow 或 PyTorch)的模型时,一体机会自动开始下载并安装对应的深度学习镜像。这个过程可能会根据一体机的网络环境状态,持续大约 5 到 10 分钟。如果一体机已经安装了对应的深度学习镜像,则部署相关模型的时间会缩短。
当模型服务的状态变为 运行中,表示模型服务已经部署成功。
如果模型服务的状态是 部署失败,您可以将光标放置在 部署失败 上,然后单击 查看原因,以获取具体的错误消息。