文档中心
文档
备案
控制台
登录
立即注册
导航
机器学习平台
搜索目录或文档标题
搜索目录或文档标题
产品动态
xLLM发布记录
平台发布记录
Release Notes 2025.4
Release Notes 2024.11
Release Notes 2024.9
Release Notes 2024.8
Release Notes 2024.7
Release Notes 2024.6
Release Notes 2024.5
Release Notes 2024.4
Release Notes 2024.3
Release Notes 2024.2
Release Notes 2024.1
Release Notes 2025.6
产品公告
【停售公告】机器学习平台停止售卖g1v等规格族 2024.11
【停售公告】机器学习平台停止售卖g1ie等规格族 2024.04
开发机升级通知 2024.03
日志功能升级变更说明 2024.03
有关 MLP 基础指标升级变更说明 2024.01
【停售公告】机器学习平台停止售卖g2i等规格族 2023.11
续费策略调整通知 2023.11
产品简介
什么是机器学习平台
功能总览
常用概念
产品计费
实例规格及定价
快速入门
概述
准备工作
注册账号及开通服务
创建适当的子账号
针对算法工程师的快速入门
用户指南
概述
权限管理
权限管理(new)
开发机
创建开发机
开发机生命周期管理
通过SSH远程连接开发机
关闭开发机
重启开发机
删除开发机
使用 WebIDE 开发代码
在开发机中创建Docker容器
更换开发机镜像
自定义任务
发起单机 / 分布式训练任务
优先级调度策略
查看 TensorBoard 日志
查看任务的状态 / 监控 / 日志
配置任务的消息通知
预付费场景下的闲时任务
发起 TensorFlowPS 分布式训练
发起 PyTorchDDP 分布式训练
发起 MPI 分布式训练
发起 BytePS 分布式训练
使用 RAY 计算引擎提交分布式任务
通过 RDMA 网络加速训练
验证镜像是否支持 RDMA
基于交换机信息的分布式通信优化
通用环境变量列表
常见 Xid 事件的处理方法
疑似故障节点上报
如何进行性能分析
历史任务归档功能说明
Py-spy 采集分析
实验管理
概述
使用SDK进行实验记录
使用SDK进行数据导出
界面可视化操作
工作流
使用YAML定义工作流
创建工作流
运行工作流
通过SDK使用工作流
在线服务
将模型部署成服务
配置服务流量策略(new)
为部署配置扩缩容策略(new)
更新/复制服务/部署说明(new)
查看服务的状态 / 监控 / 日志
如何调用在线服务(new)
为服务配置自动扩缩容
服务的变更与变更记录
删除服务
镜像仓库
概述
预置镜像列表
构建自定义镜像
迁移外部镜像到镜像仓库
模型管理
导入模型
模型的效果评估
模型的性能评估及优化
删除模型 / 版本
模型包规范
预约计划
资源组
【新功能】创建资源组
【新功能】按量后付费
创建资源组
为资源组续费 / 更配 / 退订
更改预付费资源组的负载网络VPC
更改预付费资源组的vePFS实例
创建资源队列
管理队列内的用户
为队列更配 / 转让资源
开发机自动关机规则设置
GPU碎片资源整理规则设置
节点负载详情
负载排队中状态常见原因说明
GPU 规格实例限制 CPU 负载提交
GPU/CPU灵活配比使用指南
全局配置
镜像仓库
VPC
vePFS
CloudFS
监控
监控配置说明
MLP 在 VMP 的预置看板介绍
AI加速引擎
火山引擎扩散模型服务框架veFuser :超低延迟打造视频生成新体验
最佳实践
LLM
Llama 3.1 8B模型在 MLP 的最佳实践
Llama 3.1 8B mcore dense模型在 MLP 的最佳实践
Qwen2 72B模型在 MLP 的最佳实践
DeepSeek-V2-Lite 模型在 MLP 的最佳实践
使用veTuner与veTurboIO加速Llama-3.1-8B模型在 MLP 的最佳实践
AWQ量化 -- LlaMA3.1-8B 在 MLP 的最佳实践
GPTQ量化 -- LlaMA3.1-8B 最佳实践文档
离线FP8静态量化 -- LlaMA3.1-8B 最佳实践文档
使用 verl 进行 GRPO 强化学习训练最佳实践
自动驾驶
BEVFormer模型在 MLP 上的最佳实践
如何在火山引擎中5分钟部署 ComfyUI
如何通过 Grafana 对监控数据指标搭建可视化看板——以配置GPU资源总量看板为例
节点故障通知与负载迁移指南
样本数据的存储
概述
上传数据至 TOS
训练代码如何访问TOS
挂载共享文件系统
多实例命令批量执行工具
如何在火山引擎中使用 NVIDIA Clara 平台--以 AutoDock 为例
通过工作流串联训练与评测任务
更多示例
如何在容器内查看进程信息
DeepSeek R1 模型部署快速指南
veMLP xLLM 推理引擎 PD 分离部署 DeepSeek R1,最高吞吐提升5倍
使用 verl 复现 DAPO 强化学习训练最佳实践
DeepSeek-V3-0324 创建服务/升级服务说明
通过Dify访问火山引擎MLP推理服务
预约计划实践
veMLP xLLM 推理引擎 PD 分离部署 Qwen 模型
命令行工具
使用文档
升级指南
变更记录
常见问题
相关协议
付费相关协议
机器学习平台专用条款
产品 / 服务线上计费结算规则
服务等级协议
服务等级协议-向量数据库
API 参考
资源组
UpdateResourceGroup - 更新资源组
ListResourceGroups - 获取资源组列表
GetResourceGroup - 查询资源组详情
DeleteResourceGroup - 删除资源组
CreateResourceGroup - 创建资源组
队列
UpdateResourceQueue - 更新资源队列
ResumeResourceQueue - 启动资源队列
PauseResourceQueue - 暂停资源队列
ListResourceQueues - 资源队列列表
GetResourceQueue - 查询资源队列
DeleteResourceQueue - 删除资源队列
CreateResourceQueue - 创建资源队列
镜像
ListPublicImageTags - 查询预制镜像列表
ListPublicImageRepos - 查询预制镜像仓库列表
全局元信息
ListVolumeTypes - 查询云盘列表
ListResourceClaimOptions - 查询调度规格列表
ListInstanceTypes - 查询购买规格列表
ListAvailabilityZones - 查询服务可用区列表
GetInstanceType - 查询规格
自定义任务
UpdateJob - 更新自定义任务
StopJob - 停止自定义任务
ModifyJobResourceReservation - 修改自定义任务资源预留
ModifyJobPriority - 修改自定义任务优先级
ListJobs - 查询自定义任务列表
ListJobInstances - 查询自定义任务实例列表
GetJob - 查询自定义任务
DeleteJob - 删除自定义任务
CreateJob - 创建自定义任务
开发机
RebuildDevInstance - 重建开发机
UpdateDevInstance - 更新开发机
StopDevInstance - 停止开发机
StartDevInstance - 启动开发机
RebootDevInstance - 重启开发机
ListDevInstances - 开发机列表
GetDevInstance - 获取开发机
DeleteDevInstance - 删除开发机
CreateDevInstance - 创建开发机
CancelIdleShutdown - 取消开发机闲时关机
推理服务
ModifyDeploymentPriority - 修改服务部署优先级
UpdateService - 更新服务
UpdateDeployment - 更新推理部署
StopService - 停止推理服务
StopDeployment - 停止推理部署
StartService - 启动推理服务
StartDeployment - 启动推理部署
ListServices - 查询推理服务列表
ListDeployments - 查询推理部署列表
GetService - 查询推理服务
文档首页
/
机器学习平台
/
产品动态
/
平台发布记录
/
Release Notes 2025.6
Release Notes 2025.6
最近更新时间:2025.06.10 11:13:47
首次发布时间:2025.06.10 11:13:47
我的收藏
有用
有用
无用
无用
文档反馈
2025.06
涉及地域:若无特别说明,以下功能都会在
华北2(北京)
、
华北3(北京2)
、
华东4(大同)
、
华东2(上海)
、
华南1(广州)
、
亚太东南(柔佛)
几个地域发布。
功能
说明
开放状态
相关文档
预约计划资源
预约计划类资源采用预约制+后付费,可配置计划生效时间以及每日资源时长。预约成功后会根据资源需求时间自动交付资源。
用户可在预约计划中创建自定义任务,可配置自动重试及触发条件。
全量开放
-
快速入门模型上线
快速入门上线智驾模型BEVFormer。已为用户预置部分训练配置,能够一键创建智驾模型开发机以及智驾训练任务。
快速入门一键部署模型上线 DeepSeek-R1-0528/Qwen 3-235B/Qwen3-32B/Qwen2.5-32B-Instruct/Flux-schnell
全量开放
BEVFormer模型在 MLP 上的最佳实践
在线服务优化
在线服务列表页可快速查看各服务的性能指标
能够在列表页直接查看服务调用操作,公共网关服务,调用可开启API Key认证
全量开放
-
用户体验优化
配置简化,若客户不需要使用 VPC、CR 等产品时,无需在全局配置绑定
资源组支持选择【共享网络】和【专享网络 + VPC 互通】的负载方案:
共享网络,单网卡网络方案,即公网和 VPC 网络均使用平台提供的,该网络模式下,在负载内无法访问VPC 下的其他云服务
专享网络+VPC 互通,双网卡网络方案,用户可选择使用自己创建的公网IP 和 VPC。
全量开放
-