模型效果速度 输入输出价格(元/百万 token)是深度求索推出的混合推理模型,支持思考与非思考两种推理模式,较 deepseek-r1-0528 思考效率更高
最大上下文长度:128k
最大输入长度:96k
最大思维链内容长度:32k
可设置最大回答长度:32k
默认最大回答长度:4k
输入 | 输入命中缓存 | 输出单价 | 缓存存储 | 输入单价[批量] | 输入命中缓存单价[批量] | 输出单价[批量] |
|---|---|---|---|---|---|---|
4.00 | 0.80 | 12.00 | 0.017 | 2.00 | 0.80 | 6.00 |
下面是计费项的简单说明,具体请参阅模型服务价格。
- 使用在线推理的上下文缓存能力,产生命中缓存的输入折后费用、创建的缓存存储费用。
- 使用批量推理,产生输入[批量]费用、命中透明缓存的输入折后费用、输出[批量]费用。
deepseek-v3.1
速率限制通过对给定时间段内的请求或令牌使用量设置特定上限来确保公平可靠地访问 API。
支持使用 thinking 参数控制模型是否开启深度思考模式。默认为关闭状态。详细使用请参见 开启关闭深度思考文档。
详细使用请参见 设置模型输出长度限制。