火山引擎机器学习平台(后简称 MLP)支持将在线服务注册为火山引擎大模型服务平台方舟(后简称方舟)的推理接入点 (后简称 Endpoint),方便使用方舟的平台能力:
- 多接入点分流:一个在线服务可创建多个方舟 Endpoint,支持按照 Endpoint 限流,实现业务分流(如大促流量调度、服务等级区分等)。
- 评测与迭代:一键评测,对比性能(响应速度、准确率),辅助模型优化。
- 权限管控:支持细粒度权限管控,如 Access Key、API key 鉴权,项目、标签维度权限配置等。
支持模型
支持:大语言模型(包括文本生成和深度思考能力模型)部署的在线服务。
不支持:视觉理解模型、图片生成模型、视频生成模型等部署的在线服务,API 调用时会报错500。
支持能力
支持的方舟功能见 文档。
使用步骤
步骤1:创建方舟 Endpoint
前提条件:已将您训练好的 LLM 模型或三方模型部署为在线服务,详细步骤请参见 将模型部署成服务。
步骤中链接均为华北3(北京)地域链接,请注意按需切换地域。
- 使用管理员账号或主账号,在 MLP 全局配置 对火山方舟完成跨服务授权,并按照控制台指引添加对应在线服务。
- 在在线服务页面,单击在线服务名称,并在打开的服务详情页右上角,单击方舟推理接入点按钮。
- 按照控制台指引配置方舟 Endpoint 信息,其中业务需求以及资源能力,配置接入点限流。
- (可选)重复3步骤,按需创建1或多个推理接入点,被配置对应 Endpoint 限流。
步骤2:查看&调用方舟 Endpoint
- 单击方舟推理接入点> 查看关联方舟接入点,跳转方舟,查看创建的Endpoint调用模型服务。
- 单击操作列的API调用链接,可查看对应接入点的调用示例代码。
更多说明
MLP 在线服务注册的方舟推理接入点与方舟原生的推理接入点使用上有些不同,具体表现在下面方面。
- API 调用:
- 对于注册至方舟的 MLP 在线服务,仅支持通过 MLP Endpoint ID 进行 API 调用,不支持使用模型名称或 Model ID 进行调用。
- 火山方舟不对参数进行校验和拦截,请提前确认模型支持的参数范围。
- 使用方舟应用广场,具体是否支持网页解析等插件能力,由模型能力决定(例如不支持 Function Calling的模型无法支持网页解析插件)。
- 费用使用:
- 从 MLP 注册的推理接入点,火山方舟不会收取推理产生的 token 费用。
- 使用了火山方舟插件/知识库,则会产生相关费用。具体请参见 联网内容插件产品计费 和 知识库计费。
- 安全能力:
- 内容安全:由您自身负责,火山方舟不承担内容审核责任。
- 数据安全:方舟以及 MLP 不会使用您的推理数据,所有数据仅用于您的推理服务,不会用于其他任何用途。
- 产品安全:由 MLP 保障,不支持使用方舟安全沙箱相关能力。
- 限流与SLA:
- 支持设置 MLP Endpoint 限流,但实际的限流效果还受限于对应服务资源决定。
- 实际推理服务可用性由资源决定,方舟无法保证和承诺 SLA 。
相关文档
通过火山方舟使用MLP推理服务