Polars中with_columns表达式内.first()前置.over()的原因及相关疑问

阿华AIGC实验室

2026-4-7

嘿，我刚接触Polars的时候也被窗口函数的顺序搞晕过，咱们一步步拆解你的问题，把逻辑理清楚：

先明确我们的核心目标

你要做的是：对每一行，找到和它同instance、且category为A的value，用这个值除以当前行的value得到factor。每个instance在A类里只有一行，所以每个分组对应唯一的A类值。

1. 为什么需要`.first()`？

先看你的表达式里filter(pl.col("category") == "A")这一步：当我们在每个instance分组内执行这个筛选时，每个分组里只会得到1个符合条件的value（因为每个instance在A类只有一行）。

那为什么要加.first()？

因为filter返回的是一个长度为1的Series，而我们需要的是一个标量值，这样Polars才能把这个值广播到整个分组的4行里（比如instance=2的分组里，A类的value是444，要让B2、C2、D2的行都能用这个444来计算factor）。
虽然在你的数据里，每个分组筛选后只有1个值，Polars可能能自动处理，但.first()是明确告诉Polars：“把这个筛选后的序列转成标量”——这会让代码更鲁棒：如果哪天你的数据里某个instance在A类有多行，filter会返回多元素的Series，.first()会取第一个（你可以根据业务逻辑调整成.last()或其他聚合），而如果不加的话，Polars会因为无法把多元素序列广播到分组行而报错。

如果你的数据能严格保证每个instance在A类只有一行，其实去掉.first()代码也能跑，但加上它是更稳妥的写法。

2. 为什么`.first()`必须在`.over("instance")`前面？

这是最关键的点：Polars的链式调用顺序，决定了“分组的时机”和“计算的范围”。

正确顺序的执行逻辑（`.filter().first().over("instance")`）

当你写这个链式调用时，Polars的执行流程是：

先按instance分组：把整个DataFrame分成4个分组（每个分组对应一个instance，包含A/B/C/D四行）
在每个分组内部执行前面的操作：
- 对当前分组的value列，筛选出category为A的那一行的value
- 用.first()把筛选后的1个值转成标量
广播标量到整个分组：把这个标量值复制到当前分组的4行里，这样每个行都能拿到同instance的A类value
最后用这个值除以当前行的value，得到factor

错误顺序的问题（`.over("instance").first()`）

如果你把顺序换成pl.col("value").over("instance").filter(...).first()，执行逻辑就完全变了：

先按instance分组处理value：得到每个分组的value序列（比如instance=1的分组是[7,50,90,50]）
然后全局筛选category为A的行：这时候的filter不是在每个分组内执行，而是对整个数据集的category列做筛选，得到所有A类行的value（[7,444,0,99]）
取第一个值：.first()会拿到这个全局筛选结果的第一个值7，然后试图把这个单一值应用到所有行
这时候Polars会报错：因为窗口化后的分组序列形状和全局筛选后的结果形状不匹配，无法对应到每个分组的行，所以抛出ShapeError

简单说：我们需要的是“先分组，再在组内筛选聚合”，而不是“先分组，再全局筛选”，所以必须把.over()放在最后，让前面的filter和first都在每个分组内部执行。

3. 关于`.item()`的替代方案

你提到想用.item()来保证只取一个值，但.item()是急切求值的方法——它会立即计算出Python标量，而Polars的表达式是延迟计算的（with_columns里的表达式要等到整个DataFrame计算时才会执行），所以.item()不能用在表达式链里。

如果想在表达式内确保每个分组内只有一个符合条件的值，目前Polars没有像.expect_one()这样的表达式级方法，但你可以结合assert或者用.len()做检查（比如在表达式里加.filter(...).len().eq(1).alias("check")来验证每个分组的筛选结果长度是否为1），不过在业务数据能保证唯一性的情况下，用.first()就足够安全了。

额外：更直观的等价写法

如果你觉得原写法的顺序有点绕，也可以用keep_name()来替代.first()，效果是一样的（因为每个分组筛选后只有1个值，Polars会自动广播）：

df.with_columns(
    (
        pl.col("value")
        .filter(pl.col("category") == "A")
        .keep_name()
        .over("instance")
        / pl.col("value")
    ).alias("factor")
)

运行后得到的结果和你的原代码完全一致。

内容来源于stack exchange