You need to enable JavaScript to run this app.
文档中心
机器学习平台

机器学习平台

复制全文
下载 pdf
产品动态
xLLM发布记录
复制全文
下载 pdf
xLLM发布记录

说明

功能若无特别说明会在 华北2(北京)华北3(北京2)华东4(大同)华东2(上海)华南1(广州)亚太东南(柔佛) 地域发布。

版本

说明

更新日期

上线状态

v6972

新功能

  • 默认上下文长度96K;最大生成长度32K
  • 默认关闭思维链能力,通过在请求中加入 "thinking": {"type": "enabled"}可使能thinking思维链

限制

  • 默认不支持response format
  • 仅支持 H3C 实例规格使用
  • 支持模型:仅支持DeepSeek-V3.2

2025/12/22

可用

v5156

新功能

  • 优化Decode吞吐性能
  • 支持模型DeepSeek-R1-0528,模型的默认生成长度从16K提高至32K;默认上下文长度从64K提高至96K

限制

  • 默认不支持response format
  • 仅支持 DeepSeek-R1-0528的Prefill PP8TP1及Decode TP2DP4部署

2025/9/23

可用

v4665

新功能

  • 支持DeepSeek-V3.1模型的分角色推理
  • 支持DeepSeek-V3.1模型的Function Call
  • 支持动态思考的thinking请求字段,用户可通过在请求中设置thinking.type为enableddisabled来使V3.1模型输出或不输出思维链内容,例如"thinking":{"type":"disabled"}

限制:

  • 暂不支持 DeepSeek-V3.1 模型开启思考且内容输出到content里

使用说明

  • 模型默认以非思考模式输出。开启思考模式后,thinking内容输出到reasoning content
  • 默认开思考模式输出: XLLM_PROCESSOR_api_converter_configs__CustomModeReasoningParser__default_thinking_type=enabled
  • 关闭COT,禁止思考:XLLM_DISABLE_REASONING_PARSER=1

2025/8/28

可用

v4092

新功能

  • 增加请求分析功能
  • 优化Prefill性能

限制:

  • 目前仅支持deepseek-R1-0528

2025/8/14

可用

v3950

新功能

  • 增加请求分析功能

2025/8/14

可用

v3949

  • 优化长输入请求的Decode性能
  • 修复在高层级化及深嵌套下的Json 格式请求输出问题

2025/8/12

可用

v3948

支持 Kimi-K2模型推理

2025/8/4

可用

v3394

优化

  • 优化长输入请求的Decode性能,长输入下(input 16k/output 1k)decode tps 性能提升 40%+

修复

  • 修复在高层级化及深嵌套下的Json 格式请求输出问题。

2025/8/4

可用

qwen-v2

新功能:

  • 支持Qwen系列的FP8模型推理及Qwen3 Function Call的能力

修复:

  • 修复torch compile编译时长久的缺陷
  • 修复response_format缺陷

2025/7/8

可用

v3109

新功能:

  • DeepSeek R1-0528模型推理无需显式设置Tool Call (XLLM_PROCESSOR_TOOL_PARSER)

修复:

  • 修复错误码为400的请求错误
  • 完善Json-schema格式处理

2025/7/8

可用

v2293

新功能:

  • 支持 Qwen3-235B-A22B 模型的分角色推理。
  • Decode角色支持 ml.hpcpni3ln 的 TP8; Prefill 角色支持 ml.hpcpni3ln 的PP8 或 TP8
  • 极致单卡吞吐性能:Prefill 可达到3000 TPS以上; 在TPOT 50ms要求下,Decode可达到 480 TPS(Prefill 3000 TPS 对应 Prefill 在 3.5K 长度以内,Decode 480 TPS 对应在 3.5K 长度请求的 192 并发下可以达到。)

功能限制:

  • 暂不支持 Function Call
  • 文本长度默认为32K,暂不支持长文 128K 。
  • 暂不支持“enable-thinking”请求字段。可以在用户提示词或系统消息中添加 /think/no_think ,以切换模型的思考模式

2025/5/27

可用

v2284

新功能:

  • Decode角色设置环境变量 XLLM_REQ_PARAMETER_VERIFY, xLLM将校验请求中max_tokens值是否合法 (0 < max_tokens < 模型上下文最大长度)
  • Prefill 角色 XLLM_MODEL_NUM_BLOCKS的默认值从3600降至 2400,以预防连续超长文本下,算子内分配显存失败

修复:

  • 修复 "网关弱轮询 与 xLLM decode 过度预测“造成的429请求错误

2025/5/23

可用

v2282

新功能:

  • 同时支持 DeepSeek R1/V3 及 V3-0324,以及标准 function call 能力
  • Decode 角色支持 DP (Data Parallel) 推理
  • 支持 dynamic spec-decoding
  • 单卡吞吐性能提升:Prefill 可达到1000 TPS以上; 在TPOT 50ms要求下,Decode可达到 500 TPS(Prefill 1000 TPS 对应 Prefill 在 9K 长度以内,Decode 500 TPS 对应在 3K 长度请求的 200 并发下可以达到。)

配置更新:

  • R1模型默认开启 Reasoning parser,即思考内容在回复的“reasoning_content”内。设置环境变量XLLM_DISABLE_REASONING_PARSER,可使思考内容保持在“content”字段内。
  • 最大上下文长度默认设置为 128K,最大生成长度默认为 16K。

修复:

  • 修复流式请求结尾返回" data: [DONE]"

2025/4/24

可用

v1965

  • reasonning 可配置
  • 日志对齐输出 requestid
  • 兼容 streaming response 分隔符

2025/3/20

可用

v1964

  • 支持chunk-wise prefill,prefill tps 提升了30%
  • 支持 prefix cache 能力
  • 修复低流量 crash 问题

2025/3/04

可用

R1

支持 DeepSeek-R1 模型推理

2025/2

已下线

最近更新时间:2025.12.22 16:30:41
这个页面对您有帮助吗?
有用
有用
无用
无用