文档中心

部署自定义模型

最近更新时间：2024.03.14 17:12:58

首次发布时间：2022.11.03 20:11:05

本文介绍了如何通过边缘智能控制台将自定义模型部署到一体机。

前提条件

您已经为自定义模型创建并发布了模型版本。相关操作，请参见为自定义模型创建版本。

准备工作

如果要在一体机上部署加密的 ONNX 模型文件，您必须先将加密时使用的密码文件（key.json）存放到一体机的指定路径，然后再部署对应的模型版本。否则，一体机将无法识别您部署的模型文件，导致模型服务无法正常运行。更多信息，请参见 ONNX 模型文件加密说明。

上传 ONNX 模型密码文件到一体机

远程登录您计划部署 ONNX 加密模型文件的一体机。相关操作，请参见远程登录一体机。
在 /etc 目录创建文件夹（ver_infer），用于存放加密密码文件。
```
mkdir -p /etc/vei_infer
```
前往 /etc/vei_infer 目录，然后使用上传文件功能，将 key.json 文件上传到当前目录。

操作步骤

登录边缘智能控制台。
在左侧导航栏顶部的 我的项目 区域，选择您的项目。
在左侧导航栏，选择 边缘推理 > 模型管理。
在 自定义模型 列表，找到您的模型，单击模型名称。
在模型详情页面，单击 模型服务 页签，然后单击 部署模型服务。
在 部署模型服务 页面，完成相关参数的设置，然后单击确认。

区域	参数	说明
基本信息	项目	固定为当前选择的项目。
	一体机	选择需要部署模型服务的一体机。
	服务名称	为模型服务设置名称。输入要求如下：只能使用以下字符：汉字、英文大小写字母、数字、下划线（_）、连字符（-）。长度不超过 32 个字符。特殊字符不能用在开头和结尾，也不能连续使用。在同一台一体机上，模型服务的名称必须唯一。
模型信息	模型	固定为当前选择的自定义模型。
	模型版本	选择要部署的模型版本。
	模型前后处理版本	选择要部署的模型前后处理版本。关于前后处理版本的详细说明，请参见为自定义模型创建版本。
服务配置	服务状态类型	固定为无服务状态。
	最大批处理大小	设置最大批处理数量。取值范围：0 ~ 100。
	HTTP端口	输入 HTTP 服务端口。端口范围：30000 ~ 40000。您设置的 HTTP 端口不能是一体机中已被其他服务占用的端口。
	GRPC端口	输入 GRPC 服务端口。端口范围：30000 ~ 40000。您设置的 GRPC 端口不能是一体机中已被其他服务占用的端口。
	部署实例	为每个子模型分别配置 CPU模型服务实例数和 GPU模型服务实例数。当模型是 Ensemble 之外的类型时，子模型有一个；当模型是 Ensemble 类型时，有多个子模型。更多信息，请参见创建自定义模型。 CPU模型服务实例数表示预期在 CPU 上水平扩展的模型服务的数量。取值范围：0 ~ 100。 GPU模型服务实例数表示预期在 GPU 上水平扩展的模型服务的数量。取值范围：0 ~ 100。
	资源配置	为模型服务分配一体机资源。 CPU配额：容器需要使用的最小 CPU 核数。单位：Core。使用一位小数表示。取值范围：0.1 ~ 128.0。 CPU限额：容器可以使用的最大 CPU 核数。单位：Core。使用一位小数表示。取值范围：0.1 ~ 128.0。内存配额：容器需要使用的最小内存值。单位：MB 或 GB。使用整数表示。取值范围：0MB ~ 128GB。内存限额：容器可以使用的最大内存值。单位：MB 或 GB。使用整数表示。取值范围：0MB ~ 128GB。注意如果模型服务在 CPU 或内存方面超过限额，容器将会被终止。
高级配置	动态批处理	设置是否开启动态批处理功能。该功能让模型服务器得以将多个推理请求组合，动态地生成一个批次。一般来说，创建请求批次可以优化吞吐量。
	最大批处理延迟	设置批处理延迟的最大时间。单位：us。取值范围：0~1000000。超过该时间会立刻开始推理。说明该参数只在动态批处理为是时出现。
	是否开启压缩模式	选择是否采用输入压缩模式来部署模型服务。说明当模型是 Ensemble 类型时，无法开启压缩模式。在模型服务与数据流分开部署的场景（如云边协同）建议开启输入压缩模式。开启输入压缩模式后，模型服务的部署会自动转化为一个 Ensemble 联合模型服务的部署，它包含三部分：Ensemble 模型，Python 前处理模型以及您选择的模型本身。在这种模式下，整个 Ensemble 模型的输入图片 Tensor 会变成压缩后的 jpeg string。相对于原始模型，输入 Tensor 的大小有大幅度的缩小。Python 前处理模型则是用来将压缩后的 jpeg string 恢复成原始模型的输入 Tensor。示例：假设原始模型的图片输入 Tensor 大小是 3×640×640，因此该输入 Tensor 大小是 4.6875MB。而压缩后，输入 Tensor 大小仅仅是 jpeg string 的大小，大约是几十 KB。
	参数配置	您可以通过该参数自定义参数配置，并将您的参数配置发送到一体机。说明只有当模型的类型是 Python 时，自定义的参数配置才会被启用。如果您希望使用这个功能，建议您联系售后技术支持来帮助您完成配置。

完成以上操作后，您可以在 模型服务 列表查看已经部署的模型服务。当模型服务的状态变为 运行中，表示模型服务已经部署成功。

前提条件

准备工作

上传 ONNX 模型密码文件到一体机

操作步骤