You need to enable JavaScript to run this app.
文档中心
复制全文
在线服务
在线服务
复制全文
在线服务

在线服务是 LAS 产品提供的一站式服务/模型部署功能,支持用户将模型或者服务一键部署为在线服务,并允许用户从公网/VPC 内网/绑定 clb 进行访问。在 LAS 上部署的在线服务具备扩缩容和运维监控、日志等能力。

使用限制

在线服务提供基于镜像的部署模式,您的镜像仓库需要为标准版实例,且您的访问控制中有足够的跨 VPC 访问配额,如下图所示:

部署在线服务

准备工作

  • 在部署在线服务前,您需要先已完成调试的数据处理任务的开发机环境创建为标准版镜像实例,完成后再将此镜像部署为在线服务,详情请参见镜像管理
  • 您需要先准备后后续在线服务运行所需的队列资源,详情请参见队列管理
  • (可选)如果您希望为部署的在线服务挂载存储,您需要先准备好挂载的存储产品和挂载接入相关配置。当前支持挂载 TOS。
  • (可选)如果您希望将部署的服务日志数据写入 日志服务 TLS 中,您还需开通 TLS 并准备好写入日志数据的 TLS 项目、日志主题,并创建一个有向 TLS 写入数据权限的 IAM 角色,用于后续写入日志数据时使用。

部署服务:通用部署操作

  1. 登录 LAS 控制台

  2. 在左侧导航栏单击 在线服务,进入在线服务管理页面后,单击 部署服务,进入部署服务页面进行配置。
    Image

  3. 配置服务信息。
    Image

    配置项

    配置说明

    服务名称

    您的服务的名称

    服务描述

    您的服务的描述

  4. 配置环境信息。
    Image

    配置项

    配置说明

    镜像命名空间

    服务所使用的镜像仓库地址,要求为标准版实例且跨 VPC 访问配额未满。

    镜像

    服务所使用的镜像

    镜像版本

    服务所使用的镜像版本

    运行命令

    您服务的启动命令,如 python app.py

    端口号

    设置镜像内监听端口和对外提供服务的端口号,当前最多支持五个

    环境变量

    您服务运行时所需的环境变量

  5. 配置在线服务运行的资源。
    Image

    配置项

    配置说明

    队列付费类型

    服务部署资源所在队列的类型

    队列 & 资源分配 & 实例数量

    选择用于部署服务的在线队列名称,并分配用于运行当前在线服务的队列资源的CU数和实例数。
    请确保有足够的 CU 数用于部署服务。

    存储挂载

    选择是否挂载存储,当前支持挂载火山引擎 TOS 为您的在线服务的存储。
    选择挂载 TOS 后,您需要配置挂载存储的 TOS 地址、认证 AKSK信息、挂载点等。

    日志投递

    选择是否开启日志投递开关,开启后,在线服务日志数据将被投递到日志服务 TLS,用于日志的采集、检索分析监控告警。
    您需要先开通日志服务 TLS 才可使用日志投递功能,日志服务收费信息详见日志服务计费规则。打开开关后,您可选择日志数据投递至 TLS 的那个日志项目、日志主题,并设置后续投递日志数据时向 TLS 写入数据时使用的 IAM 角色。

  6. 高级设置。
    Image

    配置项

    配置说明

    滚动更新

    指定您的滚动更新策略。

    • MaxUnavailable:最大不可用配置;指定更新实例时,您集群中最大的不可用实例数;最大不可用实例数越大,更新动作将越快,但请确保您升级过程中的剩余实例数能够满足业务需要。
    • MaxSurge:最大的超量实例配置,用于指定更新实例时,您集群中可能最多额外创建的实例数。实例数越多更新速度越快,同时更新动作所需的额外资源将越多。

    存活检查 & 就绪检查 & 启动检查

    您配置的健康检查策略。健康检查策略将帮助系统判断您服务的健康状态,从而进行负载均衡及故障自动恢复

部署服务:模版部署-在线检索服务

您可以通过模板快速部署特定场景的在线服务。以在线检索服务为例,可以将您的查询向量化,然后通过vikingdb/opensearch等数据库进行检索。以vikingdb为例,以下是主要步骤。

  1. 进入 部署服务 页面后,选择 使用模版快速部署

  2. 在弹出的侧边栏中,模版名称选择 在线检索服务 后,单击下方的 ”使用模版“,完成后,页面会为您预填好此模板的配置参数,您需要根据实际情况更高以下参数的配置。

    配置项

    配置说明

    服务名称

    您的服务的名称

    环境变量

    • 【修改】LAS_SERVICE_VIKINGDB_AK和LAS_SERVICE_VIKINGDB_SK需要填入vikingdb的ak和sk,这样请求时候不需要传connection_info
    • 【修改】LAS_APP_WORKERS: 服务启动进程数,每个进程可以单独提供服务,小于等于cpu核数即可
    • 【新增】LAS_SERVICE_OPERATOR_NUM_GPUS: gpu数目,0为不使用gpu,其它为具体的gpu数量
    • 其它环境变量一般不用动

    资源部署

    选择相应的队列,设置资源分配情况,按需设置是否挂载存储、开启日志投递。

  3. 点击部署,等待状态转为成功即部署完成。

部署服务:模版部署-LAS算子服务

您可以通过模板快速部署特定场景的在线服务。

说明

目前算子仅支持bge_sparse_dense_embedding。

以LAS算子服务为例,可以将您的查询向量化,然后通过vikingdb/opensearch等数据库进行检索。以vikingdb为例,以下是主要步骤。

  1. 进入 部署服务 页面后,选择 使用模版快速部署

  2. 在弹出的侧边栏中,模版名称选择 ”LAS算子服务“ 后,单击下方的 ”使用模版“,完成后,页面会为您预填好此模板的配置参数,您需要根据实际情况更高以下参数的配置。

    配置项

    配置说明

    服务名称

    您的服务的名称

    环境变量

    • 【修改】LAS_APP_WORKERS: 服务启动进程数,每个进程可以单独提供服务,小于等于cpu核数即可。
    • 【新增】LAS_SERVICE_OPERATOR_NUM_GPUS: gpu数目,0为不使用gpu,其它为具体的gpu数量。
    • 其它环境变量不用修改。

    资源部署

    选择相应的队列,设置资源分配情况,按需设置是否挂载存储、开启日志投递。

  3. 点击部署,等待状态转为成功即部署完成。

调用在线服务

调用方式

注意

用户客户端需针对连接类异常(如 Java 中的 IOException)进行重试,避免服务实例升级或变更时出现请求错误。

范例

curl http://{serving-address}:{serving-port}/api/predict_online -d '[{"gender":0}]'

对于运行中的在线服务,您可以像调用寻常 api 服务一样通过 curl 命令来发起,其中:

  • serving-address:由不同的调用方式提供,您可以通过内网地址调用,或打通CLB后,通过公网地址调用,详情参见下文的“内网地址”、“CLB打通”章节。

    注意

    请确保调用环境的地址在安全组允许的范围内。

  • serving-port:与您部署时,指定的容器“外部请求调用端口”对齐。

内网地址

在调用界面,LAS 会提供该在线服务的内部调用地址,该地址可以用于不同在线服务之间的相互调用。

CLB 打通

在线服务在调用上,支持将您账号下的某个 CLB 实例关联进来,通过在 CLB 实例上挂载公网,可以满足公网访问的需求。

通过点击 CLB 按钮,进入打通页面。
Image

  • 此时需要您选择想要打通的 CLB 实例所在的 VPC 实例,待打通的CLB实例,并设置子网与安全组。
  • 对于安全组,需要放通ICMP协议的 0.0.0.0/0 或者 100.64.0.0/10 网段与具体调用侧 IP 对服务端口的访问。

关联后,LAS 会识别出该 CLB 的相关信息,展示在界面上便于您使用。

升级服务

服务部署成功后,您可以在服务详情页对服务进行升级操作,包括修改镜像版本、修改资源用量及配置环境变量等。

操作步骤

  1. 登录 LAS 控制台

  2. 在左侧导航栏单击在线服务,点击目标服务 > 详情,进入详情页面。

  3. 修改对应的配置信息。

关于服务更新的滚动更新配置策略说明

最大不可用(MaxUnavailable)

用于指定在更新过程中最多可以有多少个服务实例处于不可用状态。该值可以是一个绝对数(例如 5)或期望实例数量的百分比(例如 10%,百分比计算出的绝对数会进行向下取整)。
例如,当该值设置为 30% 时,在滚动更新开始时,旧的服务可以立即缩减到期望实例数量的 70%。一旦新的实例准备就绪,旧实例可以进一步缩减,随后新实例进行扩容,确保在整个更新过程中,始终有至少 70% 的期望实例数量可用。

最大超量(MaxSurge)

用于指定可以超出服务实例数量创建的最大实例数量。该值可以是一个绝对数(例如,5)或期望实例数量的百分比(例如,10%,百分比计算出的绝对数通过向上取整得出)。
例如,当该值设置为 30% 时,在滚动更新开始时,新的实例会立即扩容,并且保证旧的和新的实例总数不超过期望实例数量的 130%。一旦旧的实例被终止,新实例会进一步扩容,确保在更新过程中任何时候运行的实例总数最多为期望实例数量的 130%。

说明

  1. 较低的最大不可用数值可以保证您业务在升级过程中的可用性;较大的最大超量可以提高您的更新速度,但在升级过程中可能消耗更多的额外资源。请根据业务情况合理配置这两个值;
  2. 为保证可用性,在计算服务可用实例数量时不会计入正在终止中的实例。因此,在滚动更新期间,您可能会注意到实例的数量比预期的要多,并且在正在终止的实例资源被系统回收之前,服务当前消耗的总资源可能会超过实例数 + 最大超量的实际数量。请确保您的队列有足够资源,以便满足您服务可用性需求及更新速度。

服务监控

服务部署成功后,您可以在服务监控页面查看该服务的相关指标,来了解服务的调用和运行情况。
登录 LAS 控制台,在左侧导航栏单击在线服务,点击目标服务 > 监控,进入监控页面,即可查看服务监控信息。

监控指标说明如下。

分类

指标

单位

服务监控

服务平均CPU使用量

核数

服务平均内存使用量

GiB

服务平均CPU使用率

%

服务平均内存使用率

%

服务请求时间耗时百分位

%

服务请求QPS

count

服务请求调用次数

count

服务5分钟请求率

%

实例监控

实例CPU使用量

核数

实例内存使用量

GiB

实例平均CPU使用率

%

实例平均内存使用率

%

实例 GPU 使用率

%

实例 GPU 显存使用率

%

实例 GPU 显存用量

GiB

实例 GPU 显存未使用量

GiB

服务扩缩容

当业务负载出现波动时,您可以对在线服务进行扩缩容,重新调整实例数量和单实例资源分配,保障业务平稳运行并提高利用率。

  1. 登录 LAS 控制台

  2. 在左侧导航栏单击在线服务,点击目标服务 > 扩缩容。

  3. 调整单实例资源分配和实例数量后点击确定提交。注意,服务部署资源不可超过所在队列可用资源。

终止服务实例

如果您希望终止某个服务实例,可在服务详情页面找到对应的服务实例,单击对应服务实例后的”终止“,确认终止后,服务实例状态将按以下状态进行流转变化,直至服务实例被删除:运行中 > 停止中 > 已删除。
Image

最近更新时间:2026.03.10 12:03:39
这个页面对您有帮助吗?
有用
有用
无用
无用