You need to enable JavaScript to run this app.
导航
创建推理服务
最近更新时间:2025.07.17 20:50:58首次发布时间:2024.09.26 11:38:08
复制全文
我的收藏
有用
有用
无用
无用

模型创建后,您需要继续创建推理服务。创建推理服务时,需要与目标模型进行关联,并根据业务需求配置网络、资源、以及自定义参数等内容。

前提条件

明确推理服务需要关联的模型,请提前获取目标模型的名称。

  • 如果关联自定义模型,需要提前创建自定义模型,请参见创建自定义模型
  • 如果关联公共模型,需要提前获取公共模型的名称、维度等信息,请参见查看公共模型
  • 如果关联豆包大模型,需要提前获取豆包大模型的名称等信息,请参见查看豆包大模型

创建推理服务

  1. 登录云搜索服务控制台

  2. 在顶部导航栏,选择目标项目和地域。

  3. 在左侧导航栏选择 AI 搜索,查找并单击目标服务名称。

  4. 在左侧导航栏选择推理服务,然后单击创建推理服务

  5. 创建推理服务面板,配置推理服务相关参数,然后单击确定

    参数

    说明

    服务名称

    自定义设置推理服务的名称。

    • 首字符仅支持字母或下划线(_)。
    • 可包含字母、数字、特殊字符仅支持英文句号(.)、下划线(_)、短横线(-)、反斜杠(/),长度为 1~128 个字符。
    • 最多只能包含一个反斜杠(/)字符。

    购买方式

    选择独占资源按 Token

    选择模型

    从下拉列表框选择推理服务需要关联的自定义模型/公共模型,支持根据模型名称关键字进行模糊搜索。最多可添加 3 个模型。

    资源类型

    购买方式选择独占资源时可见。选择 CPUGPU
    如果需要使用的资源类型还未启用,您可以选择先变配 AI 搜索。具体操作,请参见变配 AI 搜索

    规格

    购买方式选择独占资源资源类型选择 CPU 时可见。从下拉列表中选择 CPU 规格。

    选择 GPU

    购买方式选择独占资源资源类型选择 GPU 时可见。从下拉列表中选择 GPU 规格,并指定节点数量。您可以单击添加来添加多个 GPU。

    说明

    AI 搜索现已支持异构推理,您可以添加不同类型的 GPU。

    节点数量

    购买方式选择独占资源资源类型选择 CPU 时可见。设置推理服务的节点数量。

    • 单可用区部署,未开启高可用:节点数量可设范围为 1~512。
    • 单可用区部署,开启高可用:节点数量为 2 的整数倍,最大值为 512。
    • 多可用区部署:节点数量为可用区个数的整数倍,最大值为 512。比如可用区个数为 2,节点数量就为 2 的整数倍。

    模型限流

    购买方式选择按 Token 时可见。当前账号下访问所选模型的限流。

    描述

    自定义设置推理服务的描述信息。

    接入点限流

    开启后可设置单接入点访问限流。不开启则默认按照模型限流。

    • RPM:开启了接入点限流需要配置 RPM(Requests Per Minute),即每分钟处理请求数。
    • TPM:当购买方式选择按 Token 时可见。开启了接入点限流需要配置 TPM(Tokens Per Minute),即每分钟处理 token 数。

    高级选项

    支持为推理服务配置自定义参数。单击添加自定义参数,然后配置参数名称和取值。