You need to enable JavaScript to run this app.
导航
xLLM发布记录
最近更新时间:2025.05.28 14:36:41首次发布时间:2025.05.28 14:36:41
我的收藏
有用
有用
无用
无用

说明

地域:功能若无特别说明会在 华北2(北京)华北3(北京2)华东4(大同)华东2(上海)华南1(广州)亚太东南(柔佛) 地域发布。

版本

说明

更新日期

上线状态

v2293

新功能:

  • 支持 Qwen3-235B-A22B 模型的分角色推理。
  • Decode角色支持 H20 的 TP8; Prefill 角色支持 H20 的PP8 或 TP8
  • 极致单卡吞吐性能:Prefill 可达到3000 TPS以上; 在TPOT 50ms要求下,Decode可达到 480 TPS(Prefill 3000 TPS 对应 Prefill 在 3.5K 长度以内,Decode 480 TPS 对应在 3.5K 长度请求的 192 并发下可以达到。)

功能限制:

  • 暂不支持 Function Call
  • 文本长度默认为32K,暂不支持长文 128K 。
  • 暂不支持“enable-thinking”请求字段。可以在用户提示词或系统消息中添加 /think/no_think ,以切换模型的思考模式

2025/5/27

可用

v2284

新功能:

  • Decode角色设置环境变量 XLLM_REQ_PARAMETER_VERIFY, xLLM将校验请求中max_tokens值是否合法 (0 < max_tokens < 模型上下文最大长度)
  • Prefill 角色 XLLM_MODEL_NUM_BLOCKS的默认值从3600降至 2400,以预防连续超长文本下,算子内分配显存失败

修复:

  • 修复 "网关弱轮询 与 xLLM decode 过度预测“造成的429请求错误

2025/5/23

可用

v2282

新功能:

  • 同时支持 DeepSeek R1/V3 及 V3-0324,以及标准 function call 能力
  • Decode 角色支持 DP (Data Parallel) 推理
  • 支持 dynamic spec-decoding
  • 单卡吞吐性能提升:Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下,Decode可达到 500 TPS(Prefill 1000 TPS 对应 Prefill 在 9K 长度以内,Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。)

配置更新:

  • R1模型默认开启 Reasoning parser,即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER,可使思考内容保持在“content”字段内。
  • 最大上下文长度默认设置为 128K,最大生成长度默认为 16K。

修复:

  • 修复流式请求结尾返回" data: [DONE]"

2025/4/24

可用

v1965

  • reasonning 可配置
  • 日志对齐输出 requestid
  • 兼容 streaming response 分隔符

2025/3/20

可用

v1964

  • 支持chunk-wise prefill,prefill tps 提升了30%
  • 支持 prefix cache 能力
  • 修复低流量 crash 问题

2025/3/04

可用

R1

支持 DeepSeek-R1 模型推理

2025/2

已下线