LLM管理--增长营销套件私有化门户-火山引擎

文档中心

立即注册

增长营销套件私有化门户

运维管理

LLM管理

在LLM管理页面，支持新建、管理、监测模型，新建和管理MCP Server，提升运维交付效率和用户体验。本文为您介绍关于模型和MCP Server的相关操作。

功能说明

支持功能：
- 查看模型的名称、使用场景（chatComplete、embedding、rerank）、类型，分为系统模型（MiniBase集群中使用GPU实际部署的模型；不可删除）和自定义模型（外部模型、混部模型）。
- 新建自定义模型，支持openAI协议兼容的模型，支持Sophon SaaS embedding模型。
- 编辑、删除、监控模型。
- 创建、管理MCP Server工具。
主要作用：
- 提升易用性：友好的用户界面替代了繁琐的后端接口操作，降低了使用门槛。
- 增强可观测性：集中化的模型监控，便于快速定位和诊断问题，提升了运维响应速度。
- 简化模型管理：从模型添加到配置、检测的全流程页面化，极大简化了模型生命周期管理。
- 强化管控能力：提供了更精细化的模型配置选项，如自定义Header和租户限流，增强了系统的灵活性和可控性。
- 减少人工失误：自动化的模型检测和标准化的操作流程，有效减少了因手动操作引发的人为错误。

新建模型

在运维中心控制台，左侧导航栏选择LLM管理>模型配置。

点击新建模型，填写模型的基础配置、详细配置、高级配置。

基础配置。

配置项	说明
模型名称	设置模型的唯一标识名称。该名称一旦保存后不可修改。格式要求：必须以英文字母开头，可包含 `.`、`_`、`-`、字母、数字，总长度不超过 100 个字符。
模型描述	输入模型的详细描述信息，便于识别和管理。长度限制：最多 200 个字符。
使用场景	选择模型适用的主要场景。该选项一旦保存后不可修改。支持openAI协议兼容的模型。可选值包括： chatComplete：用于对话或补全任务。 embedding：用于将文本转换为向量表示（支持Sophon Saas embedding模型）。 rerank：用于对结果进行重新排序。默认值：chatComplete。
最大输入 Token	设置模型单次请求可接受的最大输入 Token 数量。要求：必须为正整数。取值范围：1-2000000000
最大输出 Token	设置模型单次请求可生成的最大输出 Token 数量。要求：必须为正整数。取值范围：1-2000000000

详细配置。

配置项	说明
来源模型名	设置来源模型的名称。此为必填项。要求以英文字母开头，可包含“.”、“_”、“-”、字母、数字，长度不超过 100 个字符。
Base URL	设置模型服务的访问地址。此为必填项。请输入合法的 URL 格式，长度不超过 200 个字符。
Token	输入用于访问模型服务的认证凭证 Token。此为必填项。长度不超过 512 个字符。
模型功能	配置模型支持的特定功能，可多选。支持 Function Call：勾选后，支持函数调用支持深度思考：勾选后，支持模型进行深度思考支持关闭深度思考：仅当选择支持深度思考时才支持勾选

当选择场景为embedding模型时，系统会自动检测Base URL是否包含“Action=SophonModelEmbedding”，确认是Sophon SaaS Embedding模型，还需要再输入Sophon SaaS的服务名、租户名、AK、SK、Region。

高级配置。

区域	配置项	说明
自定义	Header	配置自定义请求头。点击添加 Header 可添加一组 Header。每组 Header 包含以下参数： Key：设置请求头的键。例如 `Content-Type`。 Value：设置请求头的值。例如 `application/json`。
租户配置	租户流控	配置租户级别的流控策略。点击添加租户配置可添加一条租户配置。每条配置包含以下参数：租户：从下拉列表中选择要配置的租户。此项为必填项。 TPM：Tokens Per Minute，每分钟系统处理的令牌（Token）数，吞吐量指标。 QPS：Queries Per Minute，每分钟系统能接受并处理的查询（Query）总次数。

区域

配置项

说明

自定义

Header

配置自定义请求头。点击 添加 Header 可添加一组 Header。
每组 Header 包含以下参数：

Key：设置请求头的键。例如 Content-Type。
Value：设置请求头的值。例如 application/json。

租户配置

租户流控

配置租户级别的流控策略。点击 添加租户配置 可添加一条租户配置。
每条配置包含以下参数：

租户：从下拉列表中选择要配置的租户。此项为必填项。
TPM：Tokens Per Minute，每分钟系统处理的令牌（Token）数，吞吐量指标。
QPS：Queries Per Minute，每分钟系统能接受并处理的查询（Query）总次数。

点击模型检测，检测成功后，点击保存，保存成功的模型展示在LLM管控页面。
检测内容：
- 对于chat模型：接口是否畅通、是否支持function call，是否支持深度思考，是否支持关闭深度思考；
- 对于embedding模型：自动检测向量维度，并自动加标签。

编辑模型

在LLM管控页面，点击操作栏的编辑，可以修改模型的部分参数。
修改完成后，点击模型检测，检测通过后，点击保存。

监控模型

在LLM管控页面，点击操作栏的监控，跳转至grafana看板。
在grafana看板，展示维度包括时间、模型、租户；指标包括请求数、成功数、失败数、失败率、平均输入token等。

创建MCP

Model Context Protocol （MCP）是一个专为大型语言模型（LLMs）设计的开放协议，旨在解决 AI 模型与外部工具、数据源交互的挑战。MCP提供了一个标准化的接口，使LLMs能够调用外部工具和函数、访问实时或特定领域的数据、执行复杂的任务流程。
下面是MCP管理平台的使用介绍：

入口：在运维中心控制台，左侧导航栏选择LLM管理>MCP管理。

创建MCPServer：在MCP管理中心页面，点击创建MCP Server。支持两种创建方式：

方式一：将OpenAPI接口发布为MCP Server

参数	参数说明
服务来源	将OpenAPI接口发布成 MCP Server，供 AI应用使用
展示名	MCP Server的名称
描述	必填，MCP的描述，长度不超过500字符。全面介绍MCP的能力，让调用方更好的了解功能，选择合适的MCP
开启鉴权	开启：调用MCPServer时会校验api-key，验证是否有MCPServer的使用权限关闭：只要MCPServer存在，则可调用，不校验是否有MCPServer的使用权限

方式二：注册已有的MCP Server

参数	参数说明
服务来源	注册登记已有MCP Server，供 AI应用使用
展示名	MCP Server的名称
描述	必填，MCP的描述，长度不超过500字符。全面介绍MCP的能力，让调用方更好的了解功能，选择合适的MCP
Endpoint	访问MCP服务的Endpoint
开启鉴权	开启：调用MCPServer时会校验api-key，验证是否有MCPServer的使用权限关闭：只要MCPServer存在，则可调用，不校验是否有MCPServer的使用权限

查看MCPServer：点击创建好的Server名称，进入Server详情页面。

在Server详情页面，可查看Server基本信息，包括Server的描述、EndPoint等。也可查看Server下的Tools，可查看Tools 列表、管理Tools。

创建Tools：点击Tools管理页签，点击创建Tool，填写相关参数，然后点击确定。
一个MCP Server下创建多个Tools，目前仅支持HTTP协议的Tools，请求方式支持 GET、POST两种。

参数	参数说明	示例
展示名	Tool的名称	获取降雨概率
标识名	AI Agent调用MCP Server Tool的唯一标识。只能包含小写字母、数字、下划线、中划线和斜杠，且只能以小写字母开头，字符长度不超过100	get_precipitation
描述	该描述可帮助智能体或者大模型了解当前tool的详细功能，并且是决定何时调用当前tool的重要依据，建议详细准确，字符长度不超过500	获取城市的降雨概率
Input Schema	以JSON Schema规范描述，是大模型能够正确填入工具使用参数的重要依据，对于每个属性的命名、描述建议精确详细。	`{ "type": "object", "properties": { "city": { "type": "string", "description": "城市" } }, "required": ["city"] }`
请求类型	仅支持HTTP	HTTP
请求方式	支持GET、POST。默认选中GET，基于选择拼接请求	POST
请求URL	使用工具时的访问URL，字符限制100个 URL支持变量，如下图。定义时需先在Input Schema 中定义变量再使用	https://e1XXXX4gmXXXXXngers-onpremise.volces.com/api/investment_advisor/mock_tools/${path}
请求头	添加请求头的Key和Value，最多可以添加20个 header支持变量，如下图。定义时需先在Input Schema 中定义变量再使用使用场景：tools需动态鉴权	content-type: application/json
Request Scheme	非必填，代码输入器。JSONata格式，用于在POST请求下替换Request Body	/
Response Scheme	非必填，JSONata格式，用于描述Response的裁剪、重命名等	/

调试Tools：点击RUN，会显示当前的响应结果，可查看结果是否如预期。
MCP创建成功，可在AI应用中使用MCP。

最近更新时间：2025.12.19 11:50:36

这个页面对您有帮助吗？

有用

无用