You need to enable JavaScript to run this app.
导航
xLLM发布记录
最近更新时间:2025.09.23 18:03:03首次发布时间:2025.05.28 14:36:41
复制全文
我的收藏
有用
有用
无用
无用

说明

功能若无特别说明会在 华北2(北京)华北3(北京2)华东4(大同)华东2(上海)华南1(广州)亚太东南(柔佛) 地域发布。

版本

说明

更新日期

上线状态

v5156

新功能

  • 优化Decode吞吐性能
  • 支持模型DeepSeek-R1-0528,模型的默认生成长度从16K提高至32K;默认上下文长度从64K提高至96K

限制

  • 默认不支持response format
  • 仅支持 DeepSeek-R1-0528的Prefill PP8TP1及Decode TP2DP4部署

2025/9/23

可用

v4665

新功能

  • 支持DeepSeek-V3.1模型的分角色推理
  • 支持DeepSeek-V3.1模型的Function Call
  • 支持动态思考的thinking请求字段,用户可通过在请求中设置thinking.type为enableddisabled来使V3.1模型输出或不输出思维链内容,例如"thinking":{"type":"disabled"}

限制:

  • 暂不支持 DeepSeek-V3.1 模型开启思考且内容输出到content里

使用说明

  • 模型默认以非思考模式输出。开启思考模式后,thinking内容输出到reasoning content
  • 默认开思考模式输出: XLLM_PROCESSOR_api_converter_configs__CustomModeReasoningParser__default_thinking_type=enabled
  • 关闭COT,禁止思考:XLLM_DISABLE_REASONING_PARSER=1

2025/8/28

可用

v4092

新功能

  • 增加请求分析功能
  • 优化Prefill性能

限制:

  • 目前仅支持deepseek-R1-0528

2025/8/14

可用

v3950

新功能

  • 增加请求分析功能

2025/8/14

可用

v3949

  • 优化长输入请求的Decode性能
  • 修复在高层级化及深嵌套下的Json 格式请求输出问题

2025/8/12

可用

v3948

支持 Kimi-K2模型推理

2025/8/4

可用

v3394

优化

  • 优化长输入请求的Decode性能,长输入下(input 16k/output 1k)decode tps 性能提升 40%+

修复

  • 修复在高层级化及深嵌套下的Json 格式请求输出问题。

2025/8/4

可用

qwen-v2

新功能:

  • 支持Qwen系列的FP8模型推理及Qwen3 Function Call的能力

修复:

  • 修复torch compile编译时长久的缺陷
  • 修复response_format缺陷

2025/7/8

可用

v3109

新功能:

  • DeepSeek R1-0528模型推理无需显式设置Tool Call (XLLM_PROCESSOR_TOOL_PARSER)

修复:

  • 修复错误码为400的请求错误
  • 完善Json-schema格式处理

2025/7/8

可用

v2293

新功能:

  • 支持 Qwen3-235B-A22B 模型的分角色推理。
  • Decode角色支持 ml.hpcpni3ln 的 TP8; Prefill 角色支持 ml.hpcpni3ln 的PP8 或 TP8
  • 极致单卡吞吐性能:Prefill 可达到3000 TPS以上; 在TPOT 50ms要求下,Decode可达到 480 TPS(Prefill 3000 TPS 对应 Prefill 在 3.5K 长度以内,Decode 480 TPS 对应在 3.5K 长度请求的 192 并发下可以达到。)

功能限制:

  • 暂不支持 Function Call
  • 文本长度默认为32K,暂不支持长文 128K 。
  • 暂不支持“enable-thinking”请求字段。可以在用户提示词或系统消息中添加 /think/no_think ,以切换模型的思考模式

2025/5/27

可用

v2284

新功能:

  • Decode角色设置环境变量 XLLM_REQ_PARAMETER_VERIFY, xLLM将校验请求中max_tokens值是否合法 (0 < max_tokens < 模型上下文最大长度)
  • Prefill 角色 XLLM_MODEL_NUM_BLOCKS的默认值从3600降至 2400,以预防连续超长文本下,算子内分配显存失败

修复:

  • 修复 "网关弱轮询 与 xLLM decode 过度预测“造成的429请求错误

2025/5/23

可用

v2282

新功能:

  • 同时支持 DeepSeek R1/V3 及 V3-0324,以及标准 function call 能力
  • Decode 角色支持 DP (Data Parallel) 推理
  • 支持 dynamic spec-decoding
  • 单卡吞吐性能提升:Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下,Decode可达到 500 TPS(Prefill 1000 TPS 对应 Prefill 在 9K 长度以内,Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。)

配置更新:

  • R1模型默认开启 Reasoning parser,即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER,可使思考内容保持在“content”字段内。
  • 最大上下文长度默认设置为 128K,最大生成长度默认为 16K。

修复:

  • 修复流式请求结尾返回" data: [DONE]"

2025/4/24

可用

v1965

  • reasonning 可配置
  • 日志对齐输出 requestid
  • 兼容 streaming response 分隔符

2025/3/20

可用

v1964

  • 支持chunk-wise prefill,prefill tps 提升了30%
  • 支持 prefix cache 能力
  • 修复低流量 crash 问题

2025/3/04

可用

R1

支持 DeepSeek-R1 模型推理

2025/2

已下线