xLLM发布记录--机器学习平台-火山引擎

文档中心

导航

xLLM发布记录

最近更新时间：2025.09.23 18:03:03首次发布时间：2025.05.28 14:36:41

说明

功能若无特别说明会在 华北2(北京)、华北3(北京2)、华东4(大同)、华东2(上海)、华南1(广州)、亚太东南(柔佛) 地域发布。

版本	说明	更新日期	上线状态
v5156	新功能优化Decode吞吐性能支持模型DeepSeek-R1-0528，模型的默认生成长度从16K提高至32K；默认上下文长度从64K提高至96K 限制默认不支持response format 仅支持 DeepSeek-R1-0528的Prefill PP8TP1及Decode TP2DP4部署	2025/9/23	可用
v4665	新功能支持DeepSeek-V3.1模型的分角色推理支持DeepSeek-V3.1模型的Function Call 支持动态思考的`thinking`请求字段，用户可通过在请求中设置thinking.type为`enabled`或`disabled`来使V3.1模型输出或不输出思维链内容，例如`"thinking":{"type":"disabled"}`。限制：暂不支持 DeepSeek-V3.1 模型开启思考且内容输出到content里使用说明模型默认以非思考模式输出。开启思考模式后，thinking内容输出到reasoning content 默认开思考模式输出: XLLM_PROCESSOR_api_converter_configs__CustomModeReasoningParser__default_thinking_type=enabled 关闭COT，禁止思考：XLLM_DISABLE_REASONING_PARSER=1	2025/8/28	可用
v4092	新功能增加请求分析功能优化Prefill性能限制：目前仅支持deepseek-R1-0528	2025/8/14	可用
v3950	新功能增加请求分析功能	2025/8/14	可用
v3949	优化长输入请求的Decode性能修复在高层级化及深嵌套下的Json 格式请求输出问题	2025/8/12	可用
v3948	支持 Kimi-K2模型推理	2025/8/4	可用
v3394	优化优化长输入请求的Decode性能，长输入下（input 16k/output 1k）decode tps 性能提升 40%+ 修复修复在高层级化及深嵌套下的Json 格式请求输出问题。	2025/8/4	可用
qwen-v2	新功能：支持Qwen系列的FP8模型推理及Qwen3 Function Call的能力修复：修复torch compile编译时长久的缺陷修复response_format缺陷	2025/7/8	可用
v3109	新功能： DeepSeek R1-0528模型推理无需显式设置Tool Call (XLLM_PROCESSOR_TOOL_PARSER) 修复：修复错误码为400的请求错误完善Json-schema格式处理	2025/7/8	可用
v2293	新功能：支持 Qwen3-235B-A22B 模型的分角色推理。 Decode角色支持 ml.hpcpni3ln 的 TP8; Prefill 角色支持 ml.hpcpni3ln 的PP8 或 TP8 极致单卡吞吐性能：Prefill 可达到3000 TPS以上; 在TPOT 50ms要求下，Decode可达到 480 TPS（Prefill 3000 TPS 对应 Prefill 在 3.5K 长度以内，Decode 480 TPS 对应在 3.5K 长度请求的 192 并发下可以达到。）功能限制：暂不支持 Function Call 文本长度默认为32K，暂不支持长文 128K 。暂不支持“enable-thinking”请求字段。可以在用户提示词或系统消息中添加 `/think`及`/no_think` ,以切换模型的思考模式	2025/5/27	可用
v2284	新功能： Decode角色设置环境变量 XLLM_REQ_PARAMETER_VERIFY, xLLM将校验请求中max_tokens值是否合法（0 < max_tokens < 模型上下文最大长度） Prefill 角色 XLLM_MODEL_NUM_BLOCKS的默认值从3600降至 2400，以预防连续超长文本下，算子内分配显存失败修复：修复 "网关弱轮询与 xLLM decode 过度预测“造成的429请求错误	2025/5/23	可用
v2282	新功能：同时支持 DeepSeek R1/V3 及 V3-0324，以及标准 function call 能力 Decode 角色支持 DP (Data Parallel) 推理支持 dynamic spec-decoding 单卡吞吐性能提升：Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下，Decode可达到 500 TPS（Prefill 1000 TPS 对应 Prefill 在 9K 长度以内，Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。）配置更新： R1模型默认开启 Reasoning parser，即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER，可使思考内容保持在“content”字段内。最大上下文长度默认设置为 128K，最大生成长度默认为 16K。修复：修复流式请求结尾返回" data: [DONE]"	2025/4/24	可用
v1965	reasonning 可配置日志对齐输出 requestid 兼容 streaming response 分隔符	2025/3/20	可用
v1964	支持chunk-wise prefill，prefill tps 提升了30% 支持 prefix cache 能力修复低流量 crash 问题	2025/3/04	可用
R1	支持 DeepSeek-R1 模型推理	2025/2	已下线