在线服务是 LAS 产品提供的一站式服务/模型部署功能,支持用户将模型或者服务一键部署为在线服务,并允许用户从公网/VPC 内网/绑定 clb 进行访问。在 LAS 上部署的在线服务具备扩缩容和运维监控、日志等能力。
在线服务提供基于镜像的部署模式,您的镜像仓库需要为标准版实例,且您的访问控制中有足够的跨 VPC 访问配额,如下图所示:
登录 LAS 控制台。
在左侧导航栏单击 在线服务,进入在线服务管理页面后,单击 部署服务,进入部署服务页面进行配置。
配置服务信息。
配置项 | 配置说明 |
|---|---|
服务名称 | 您的服务的名称 |
服务描述 | 您的服务的描述 |
配置环境信息。
配置项 | 配置说明 |
|---|---|
镜像命名空间 | 服务所使用的镜像仓库地址,要求为标准版实例且跨 VPC 访问配额未满。 |
镜像 | 服务所使用的镜像 |
镜像版本 | 服务所使用的镜像版本 |
运行命令 | 您服务的启动命令,如 python app.py |
端口号 | 设置镜像内监听端口和对外提供服务的端口号,当前最多支持五个 |
环境变量 | 您服务运行时所需的环境变量 |
配置在线服务运行的资源。
配置项 | 配置说明 |
|---|---|
队列付费类型 | 服务部署资源所在队列的类型 |
队列 & 资源分配 & 实例数量 | 选择用于部署服务的在线队列名称,并分配用于运行当前在线服务的队列资源的CU数和实例数。 |
存储挂载 | 选择是否挂载存储,当前支持挂载火山引擎 TOS 为您的在线服务的存储。 |
日志投递 | 选择是否开启日志投递开关,开启后,在线服务日志数据将被投递到日志服务 TLS,用于日志的采集、检索分析监控告警。 |
高级设置。
配置项 | 配置说明 |
|---|---|
滚动更新 | 指定您的滚动更新策略。
|
存活检查 & 就绪检查 & 启动检查 | 您配置的健康检查策略。健康检查策略将帮助系统判断您服务的健康状态,从而进行负载均衡及故障自动恢复 |
您可以通过模板快速部署特定场景的在线服务。以在线检索服务为例,可以将您的查询向量化,然后通过vikingdb/opensearch等数据库进行检索。以vikingdb为例,以下是主要步骤。
进入 部署服务 页面后,选择 使用模版快速部署。
在弹出的侧边栏中,模版名称选择 在线检索服务 后,单击下方的 ”使用模版“,完成后,页面会为您预填好此模板的配置参数,您需要根据实际情况更高以下参数的配置。
配置项 | 配置说明 |
|---|---|
服务名称 | 您的服务的名称 |
环境变量 |
|
资源部署 | 选择相应的队列,设置资源分配情况,按需设置是否挂载存储、开启日志投递。 |
点击部署,等待状态转为成功即部署完成。
您可以通过模板快速部署特定场景的在线服务。
说明
目前算子仅支持bge_sparse_dense_embedding。
以LAS算子服务为例,可以将您的查询向量化,然后通过vikingdb/opensearch等数据库进行检索。以vikingdb为例,以下是主要步骤。
进入 部署服务 页面后,选择 使用模版快速部署。
在弹出的侧边栏中,模版名称选择 ”LAS算子服务“ 后,单击下方的 ”使用模版“,完成后,页面会为您预填好此模板的配置参数,您需要根据实际情况更高以下参数的配置。
配置项 | 配置说明 |
|---|---|
服务名称 | 您的服务的名称 |
环境变量 |
|
资源部署 | 选择相应的队列,设置资源分配情况,按需设置是否挂载存储、开启日志投递。 |
点击部署,等待状态转为成功即部署完成。
注意
用户客户端需针对连接类异常(如 Java 中的 IOException)进行重试,避免服务实例升级或变更时出现请求错误。
curl http://{serving-address}:{serving-port}/api/predict_online -d '[{"gender":0}]'
对于运行中的在线服务,您可以像调用寻常 api 服务一样通过 curl 命令来发起,其中:
serving-address:由不同的调用方式提供,您可以通过内网地址调用,或打通CLB后,通过公网地址调用,详情参见下文的“内网地址”、“CLB打通”章节。注意
请确保调用环境的地址在安全组允许的范围内。
serving-port:与您部署时,指定的容器“外部请求调用端口”对齐。在调用界面,LAS 会提供该在线服务的内部调用地址,该地址可以用于不同在线服务之间的相互调用。
在线服务在调用上,支持将您账号下的某个 CLB 实例关联进来,通过在 CLB 实例上挂载公网,可以满足公网访问的需求。
通过点击 CLB 按钮,进入打通页面。
关联后,LAS 会识别出该 CLB 的相关信息,展示在界面上便于您使用。
服务部署成功后,您可以在服务详情页对服务进行升级操作,包括修改镜像版本、修改资源用量及配置环境变量等。
登录 LAS 控制台。
在左侧导航栏单击在线服务,点击目标服务 > 详情,进入详情页面。
修改对应的配置信息。
用于指定在更新过程中最多可以有多少个服务实例处于不可用状态。该值可以是一个绝对数(例如 5)或期望实例数量的百分比(例如 10%,百分比计算出的绝对数会进行向下取整)。
例如,当该值设置为 30% 时,在滚动更新开始时,旧的服务可以立即缩减到期望实例数量的 70%。一旦新的实例准备就绪,旧实例可以进一步缩减,随后新实例进行扩容,确保在整个更新过程中,始终有至少 70% 的期望实例数量可用。
用于指定可以超出服务实例数量创建的最大实例数量。该值可以是一个绝对数(例如,5)或期望实例数量的百分比(例如,10%,百分比计算出的绝对数通过向上取整得出)。
例如,当该值设置为 30% 时,在滚动更新开始时,新的实例会立即扩容,并且保证旧的和新的实例总数不超过期望实例数量的 130%。一旦旧的实例被终止,新实例会进一步扩容,确保在更新过程中任何时候运行的实例总数最多为期望实例数量的 130%。
说明
服务部署成功后,您可以在服务监控页面查看该服务的相关指标,来了解服务的调用和运行情况。
登录 LAS 控制台,在左侧导航栏单击在线服务,点击目标服务 > 监控,进入监控页面,即可查看服务监控信息。
监控指标说明如下。
分类 | 指标 | 单位 |
|---|---|---|
服务监控 | 服务平均CPU使用量 | 核数 |
服务平均内存使用量 | GiB | |
服务平均CPU使用率 | % | |
服务平均内存使用率 | % | |
服务请求时间耗时百分位 | % | |
服务请求QPS | count | |
服务请求调用次数 | count | |
服务5分钟请求率 | % | |
实例监控 | 实例CPU使用量 | 核数 |
实例内存使用量 | GiB | |
实例平均CPU使用率 | % | |
实例平均内存使用率 | % | |
实例 GPU 使用率 | % | |
实例 GPU 显存使用率 | % | |
实例 GPU 显存用量 | GiB | |
实例 GPU 显存未使用量 | GiB |
当业务负载出现波动时,您可以对在线服务进行扩缩容,重新调整实例数量和单实例资源分配,保障业务平稳运行并提高利用率。
登录 LAS 控制台。
在左侧导航栏单击在线服务,点击目标服务 > 扩缩容。
调整单实例资源分配和实例数量后点击确定提交。注意,服务部署资源不可超过所在队列可用资源。
如果您希望终止某个服务实例,可在服务详情页面找到对应的服务实例,单击对应服务实例后的”终止“,确认终止后,服务实例状态将按以下状态进行流转变化,直至服务实例被删除:运行中 > 停止中 > 已删除。