You need to enable JavaScript to run this app.
增长营销套件私有化门户

增长营销套件私有化门户

复制全文
运维管理
LLM管理
复制全文
LLM管理

在LLM管理页面,支持新建、管理、监测模型,新建和管理MCP Server,提升运维交付效率和用户体验。本文为您介绍关于模型和MCP Server的相关操作。

功能说明
  • 支持功能:
    • 查看模型的名称、使用场景(chatComplete、embedding、rerank)、类型,分为系统模型(MiniBase集群中使用GPU实际部署的模型;不可删除)和自定义模型(外部模型、混部模型)。
    • 新建自定义模型,支持openAI协议兼容的模型,支持Sophon SaaS embedding模型。
    • 编辑、删除、监控模型。
    • 创建、管理MCP Server工具。
  • 主要作用:
    • 提升易用性:友好的用户界面替代了繁琐的后端接口操作,降低了使用门槛。
    • 增强可观测性:集中化的模型监控,便于快速定位和诊断问题,提升了运维响应速度。
    • 简化模型管理:从模型添加到配置、检测的全流程页面化,极大简化了模型生命周期管理。
    • 强化管控能力:提供了更精细化的模型配置选项,如自定义Header和租户限流,增强了系统的灵活性和可控性。
    • 减少人工失误:自动化的模型检测和标准化的操作流程,有效减少了因手动操作引发的人为错误。

新建模型
  1. 运维中心控制台,左侧导航栏选择LLM管理>模型配置
    Image

  2. 点击新建模型,填写模型的基础配置、详细配置、高级配置。
    Image

    1. 基础配置。

      配置项

      说明

      模型名称

      设置模型的唯一标识名称。该名称一旦保存后不可修改。
      格式要求:必须以英文字母开头,可包含 ._-、字母、数字,总长度不超过 100 个字符。

      模型描述

      输入模型的详细描述信息,便于识别和管理。
      长度限制:最多 200 个字符。

      使用场景

      选择模型适用的主要场景。该选项一旦保存后不可修改。支持openAI协议兼容的模型。
      可选值包括:

      • chatComplete:用于对话或补全任务。
      • embedding:用于将文本转换为向量表示(支持Sophon Saas embedding模型)。
      • rerank:用于对结果进行重新排序。

      默认值:chatComplete

      最大输入 Token

      设置模型单次请求可接受的最大输入 Token 数量。
      要求:必须为正整数。
      取值范围:1-2000000000

      最大输出 Token

      设置模型单次请求可生成的最大输出 Token 数量。
      要求:必须为正整数。
      取值范围:1-2000000000

    2. 详细配置。

      配置项

      说明

      来源模型名

      设置来源模型的名称。此为必填项。
      要求以英文字母开头,可包含“.”、“_”、“-”、字母、数字,长度不超过 100 个字符。

      Base URL

      设置模型服务的访问地址。此为必填项。
      请输入合法的 URL 格式,长度不超过 200 个字符。

      Token

      输入用于访问模型服务的认证凭证 Token。此为必填项。
      长度不超过 512 个字符。

      模型功能

      配置模型支持的特定功能,可多选。
      支持 Function Call:勾选后,支持函数调用
      支持深度思考:勾选后,支持模型进行深度思考
      支持关闭深度思考:仅当选择支持深度思考时才支持勾选

      当选择场景为embedding模型时,系统会自动检测Base URL是否包含“Action=SophonModelEmbedding”,确认是Sophon SaaS Embedding模型,还需要再输入Sophon SaaS的服务名、租户名、AK、SK、Region。
      Image

    3. 高级配置。

      区域

      配置项

      说明

      自定义

      Header

      配置自定义请求头。点击 添加 Header 可添加一组 Header。
      每组 Header 包含以下参数:

      • Key:设置请求头的键。例如 Content-Type
      • Value:设置请求头的值。例如 application/json

      租户配置

      租户流控

      配置租户级别的流控策略。点击 添加租户配置 可添加一条租户配置。
      每条配置包含以下参数:

      • 租户:从下拉列表中选择要配置的租户。此项为必填项。
      • TPM:Tokens Per Minute,每分钟系统处理的令牌(Token)数,吞吐量指标。
      • QPS:Queries Per Minute,每分钟系统能接受并处理的查询(Query)总次数。
  3. 点击模型检测,检测成功后,点击保存,保存成功的模型展示在LLM管控页面。
    检测内容:

    • 对于chat模型:接口是否畅通、是否支持function call,是否支持深度思考,是否支持关闭深度思考;
    • 对于embedding模型:自动检测向量维度,并自动加标签。

编辑模型
  1. LLM管控页面,点击操作栏的编辑,可以修改模型的部分参数。
    Image
  2. 修改完成后,点击模型检测,检测通过后,点击保存

监控模型
  1. LLM管控页面,点击操作栏的监控,跳转至grafana看板。
    Image
  2. 在grafana看板,展示维度包括时间、模型、租户;指标包括请求数、成功数、失败数、失败率、平均输入token等。
    Image

创建MCP

Model Context Protocol (MCP)是一个专为大型语言模型(LLMs)设计的开放协议,旨在解决 AI 模型与外部工具、数据源交互的挑战。MCP提供了一个标准化的接口,使LLMs能够调用外部工具和函数、访问实时或特定领域的数据、执行复杂的任务流程。
下面是MCP管理平台的使用介绍:

  1. 入口:​运维中心控制台,左侧导航栏选择LLM管理>MCP管理
    Image

  2. 创建MCPServer:在MCP管理中心页面,点击创建MCP Server。支持两种创建方式:
    Image

    • 方式一:将OpenAPI接口发布为MCP Server

    参数

    参数说明

    服务来源

    将OpenAPI接口发布成 MCP Server,供 AI应用 使用

    展示名

    MCP Server的名称

    描述

    必填,MCP的描述,长度不超过500字符。
    全面介绍MCP的能力,让调用方更好的了解功能,选择合适的MCP

    开启鉴权

    • 开启:调用MCPServer时会校验api-key,验证是否有MCPServer的使用权限
    • 关闭:只要MCPServer存在,则可调用,不校验是否有MCPServer的使用权限
    • 方式二:注册已有的MCP Server

    参数

    参数说明

    服务来源

    注册登记已有MCP Server,供 AI应用 使用

    展示名

    MCP Server的名称

    描述

    必填,MCP的描述,长度不超过500字符。
    全面介绍MCP的能力,让调用方更好的了解功能,选择合适的MCP

    Endpoint

    访问MCP服务的Endpoint

    开启鉴权

    • 开启:调用MCPServer时会校验api-key,验证是否有MCPServer的使用权限
    • 关闭:只要MCPServer存在,则可调用,不校验是否有MCPServer的使用权限
  3. 查看MCPServer:点击创建好的Server名称,进入Server详情页面。
    Image
    在Server详情页面,可查看Server基本信息,包括Server的描述、EndPoint等。也可查看Server下的Tools,可查看Tools 列表、管理Tools。
    Image

  4. 创建Tools:​点击Tools管理页签,点击创建Tool,填写相关参数,然后点击确定
    一个MCP Server下创建多个Tools,目前仅支持HTTP协议的Tools,请求方式支持 GET、POST两种。
    Image

    参数

    参数说明

    示例

    展示名

    Tool的名称

    获取降雨概率

    标识名

    AI Agent调用MCP Server Tool的唯一标识。只能包含小写字母、数字、下划线、中划线和斜杠,且只能以小写字母开头,字符长度不超过100

    get_precipitation

    描述

    该描述可帮助智能体或者大模型了解当前tool的详细功能,并且是决定何时调用当前tool的重要依据,建议详细准确,字符长度不超过500

    获取城市的降雨概率

    Input Schema

    以JSON Schema规范描述,是大模型能够正确填入工具使用参数的重要依据,对于每个属性的命名、描述建议精确详细。

    {
      "type": "object",
      "properties": {
        "city": {
          "type": "string",
          "description": "城市"
        }
      },
      "required": ["city"]
    }
    

    请求类型

    仅支持HTTP

    HTTP

    请求方式

    支持GET、POST。默认选中GET,基于选择拼接请求

    POST

    请求URL

    使用工具时的访问URL,字符限制100个

    URL支持变量,如下图。定义时需先在Input Schema 中定义变量再使用

    Image

    https://e1XXXX4gmXXXXXngers-onpremise.volces.com/api/investment_advisor/mock_tools/${path}

    请求头

    添加请求头的Key和Value,最多可以添加20个

    header支持变量,如下图。定义时需先在Input Schema 中定义变量再使用
    使用场景:tools需动态鉴权

    Image

    content-type: application/json

    Request Scheme

    非必填,代码输入器。JSONata格式,用于在POST请求下替换Request Body

    /

    Response Scheme

    非必填,JSONata格式,用于描述Response的裁剪、重命名等

    /

  5. 调试Tools:点击RUN,会显示当前的响应结果,可查看结果是否如预期。
    Image

  6. MCP创建成功,可在AI应用中使用MCP。

最近更新时间:2025.12.19 11:50:36
这个页面对您有帮助吗?
有用
有用
无用
无用