说明
地域:功能若无特别说明会在 华北2(北京)、华北3(北京2)、华东4(大同)、华东2(上海)、华南1(广州)、亚太东南(柔佛) 地域发布。
版本 | 说明 | 更新日期 | 上线状态 |
---|
v2293 | 新功能: - 支持 Qwen3-235B-A22B 模型的分角色推理。
- Decode角色支持 H20 的 TP8; Prefill 角色支持 H20 的PP8 或 TP8
- 极致单卡吞吐性能:Prefill 可达到3000 TPS以上; 在TPOT 50ms要求下,Decode可达到 480 TPS(Prefill 3000 TPS 对应 Prefill 在 3.5K 长度以内,Decode 480 TPS 对应在 3.5K 长度请求的 192 并发下可以达到。)
功能限制: - 暂不支持 Function Call
- 文本长度默认为32K,暂不支持长文 128K 。
- 暂不支持“enable-thinking”请求字段。可以在用户提示词或系统消息中添加
/think 及/no_think ,以切换模型的思考模式
| 2025/5/27 | 可用 |
v2284 | 新功能: - Decode角色设置环境变量 XLLM_REQ_PARAMETER_VERIFY, xLLM将校验请求中max_tokens值是否合法 (0 < max_tokens < 模型上下文最大长度)
- Prefill 角色 XLLM_MODEL_NUM_BLOCKS的默认值从3600降至 2400,以预防连续超长文本下,算子内分配显存失败
修复: - 修复 "网关弱轮询 与 xLLM decode 过度预测“造成的429请求错误
| 2025/5/23 | 可用 |
v2282 | 新功能: - 同时支持 DeepSeek R1/V3 及 V3-0324,以及标准 function call 能力
- Decode 角色支持 DP (Data Parallel) 推理
- 支持 dynamic spec-decoding
- 单卡吞吐性能提升:Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下,Decode可达到 500 TPS(Prefill 1000 TPS 对应 Prefill 在 9K 长度以内,Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。)
配置更新: - R1模型默认开启 Reasoning parser,即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER,可使思考内容保持在“content”字段内。
- 最大上下文长度默认设置为 128K,最大生成长度默认为 16K。
修复: - 修复流式请求结尾返回" data: [DONE]"
| 2025/4/24 | 可用 |
v1965 | - reasonning 可配置
- 日志对齐输出 requestid
- 兼容 streaming response 分隔符
| 2025/3/20 | 可用 |
v1964 | - 支持chunk-wise prefill,prefill tps 提升了30%
- 支持 prefix cache 能力
- 修复低流量 crash 问题
| 2025/3/04 | 可用 |
R1 | 支持 DeepSeek-R1 模型推理 | 2025/2 | 已下线 |